DeepSeek V4震撼发布

2026-04-25 17:25:20 · chineseheadlinenews.com · 来源: 新智元

就在刚刚,DeepSeek V4真的来了!

今天,那个曾经以一己之力打破闭源模型霸权的DeepSeek,带着DeepSeek-V4系列预览版,向全球开发者正式宣告——

百万级上下文(1M Context)的平民化时代,以及开源Agent能力、世界知识和推理性能上的新巅峰,已经到来。

DeepSeek V4,再度实现国内与开源领域的领先。

V4的技术报告,已经同步发布。

论文地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro

性能比肩顶级闭源模型

DeepSeek-V4 系列包含两个版本:拥有1.6T总参数、49B激活参数的性能怪兽 DeepSeek-V4-Pro,以及专为高效率、经济性设计的284B总参数、13B激活参数的DeepSeek-V4-Flash。

可以说,DeepSeek-V4-Pro已经达到了开源模型的新巅峰,对标全球顶尖闭源水准。

首先,V4-Pro在Agent能力上实现了跨越式突破,其Agentic Coding水平稳居开源界首位。

实测反馈显示,其编码体验已超越Sonnet 4.5,交付质量直追Opus 4.6(非思考模式),目前已成为公司内部Agent编程的首选模型。

其次,它具备深厚的世界知识储备。

在知识测评维度,V4-Pro显著领先同类开源产品,与闭源标杆Gemini-Pro-3.1的差距已缩减至极小范围。

另外,它还有顶尖的逻辑推理表现。

在数学、STEM及高难度竞赛代码等硬核领域,V4-Pro的表现不仅冠绝开源社区,更具备了挑战世界最强闭源模型的实战竞争力。

支撑这两个模型傲视群雄的,是其底层技术的“三大神技”:

混合注意力机制(CSA + HCA)

DeepSeek-V4 并没有盲目增加硬件投入,而是开创性地设计了混合注意力架构。

压缩稀疏注意力(CSA)对KV缓存进行token维度的压缩并结合DSA稀疏注意力;重压缩注意力(HCA)则进行更极致的压缩以维持稠密计算。

这种“长短结合”的策略,让模型在处理百万字上下文时,计算量和显存需求大幅降低。

流形约束超连接(mHC)

为了提升信号传播的稳定性并增强模型表达力,V4引入了mHC结构,升级了传统的残差连接。这让模型在深层网络中依然能保持卓越的建模能力。

Muon 优化器

引入全新的Muon优化器,让训练过程不仅收敛更快,且更加稳定。

正是这些结构创新,让DeepSeek-V4在推理效率上实现了质的飞跃。

在100万token上下文的极端场景下,DeepSeek-V4-Pro的单token推理计算量仅为前代的 27%,KV缓存占用更是缩减到了惊人的10%。

DeepSeek-V4-Flash

极致效能与性价比的完美平衡

相比于Pro版本,Flash版则是更快捷高效的经济之选。

尽管在世界知识的深度上略逊于Pro版本,但DeepSeek-V4-Flash保留了与之接近的逻辑推理水平。

受益于更精简的参数规模与激活机制,它能为用户提供响应更快、成本更低的API接入方案。

在处理基础 Agent 任务时,V4-Flash的表现与Pro版不相上下,但在应对极端复杂任务时仍存在进阶空间。

架构革新

重塑长上下文效率

DeepSeek-V4引入了革命性的注意力机制,通过在Token维度进行高效压缩,并结合 DSA稀疏注意力(DeepSeek Sparse Attention) 技术,实现了全球顶尖的长文本处理能力。

这种创新大幅削减了对计算资源与显存的依赖。

即日起,1M(100万 tokens)超长上下文将成为DeepSeek官方服务的标准配置。

DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化

Agent能力深度优化

DeepSeek-V4 针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生态进行了深度适配。

在代码编写与自动化文档生成等场景下,其产出效率显著提升。

V4-Pro在特定Agent框架下自动生成的PPT页面实例

API全面升级,旧版模型倒计时

对于开发者而言,好消息是:API已经同步上线!

只需简单修改 model_name 即可接入这两款新旗舰:

追求性能:deepseek-v4-pro

追求效率:deepseek-v4-flash

特别提醒:原有的 deepseek-chat 和 deepseek-reasoner 模型名将作为V4的过渡别名(分别指向 V4-Flash 的非思考与思考模式),但这两个旧名称将于2026年7月24日正式停用。

论文解读

两种压缩,一套组合拳

V4-Pro中,CSA的压缩率为4,每4个token的KV缓存合并成一个条目。

压缩之后再通过Lightning Indexer对压缩后的KV条目打分,每个query token只选top-1024个条目做注意力计算。索引计算用FP4精度,超长上下文下开销极低。

HCA走另一条路。压缩率拉到128,比CSA激进得多,但不做稀疏选择,所有压缩后的KV条目都参与计算。极致压缩换全局视野。

两种机制交替堆叠,CSA精细检索,HCA全局感知,再加上每层128 token的滑动窗口捕捉局部依赖,三条路径协同。

算一笔账。

以常规BF16 GQA8(头维度128)作为基线,V4在100万token下的KV缓存只有基线的约2%。KV条目还采用混合精度存储,RoPE维度BF16,其余FP8,体积比纯BF16再砍一半。

推理端则把压缩KV和滑动窗口KV分开管理,支持磁盘级缓存存储,避免共享前缀的重复prefill。

mHC,6.7%的代价换来的稳定性

标准HC扩展残差流宽度来增强信息传递,但多层堆叠时数值会炸。

mHC的做法是把残差映射矩阵约束在双随机矩阵流形(Birkhoff多面体)上,确保谱范数不超过1,信号深层传播不发散。投影通过Sinkhorn-Knopp算法迭代20次实现。

工程代价可控,扩展因子只有4,经过融合kernel和选择性重计算优化后,额外墙钟时间仅6.7%。

训练万亿参数的“土办法”

Muon的核心是对梯度动量做Newton-Schulz正交化,V4用10次混合迭代,前8次快速收敛,后2次精确稳定。

但优化器只是一半的故事。V4报告披露了两个训练稳定性技巧。

Anticipatory Routing,把路由索引的计算和主干网络的更新解耦,用历史参数提前算好路由并缓存。系统在检测到loss spike时自动触发,日常开销可忽略。

SwiGLU Clamping,把SwiGLU线性分量钳制在[-10, 10],门控上界钳制在10。简单粗暴但有效。

MoE工程上,V4开源了MegaMoE,把通信和计算融合进单个pipeline kernel,通用场景加速1.5到1.73倍,延迟敏感场景最高1.96倍。

专家分训,蒸馏合一

V4用On-Policy Distillation(OPD)替代了V3.2的混合RL。先独立训练数学、代码、Agent等领域专家,再用一个学生模型对十几个专家做全词表logit蒸馏。

工程上的关键突破是,不缓存教师logits(显存放不下),只缓存最后一层隐藏状态,训练时按需重建logits,用TileLang专用kernel加速KL散度计算。

V4还引入了Generative Reward Model(GRM),让actor网络同时充当奖励模型,评判和生成能力联合优化,不再依赖传统标量奖励模型。

后训练阶段同步做了FP4量化感知训练,对MoE专家权重和CSA索引器做FP4量化,且FP4到FP8反量化无损,整个流程复用现有FP8框架。

DeepSeek

再度证实开源的力量

从V3的横空出世到V4的效率革命,DeepSeek始终坚持将最顶级的技术通过开源分享给社区。

DeepSeek-V4的上线,不仅是技术参数的跳跃,更是对“百万长上下文”和“高性能 Agent”这两大未来趋势的有力回应。

它证明了通过架构创新,我们可以在不牺牲性能的前提下,极大降低大模型的门槛。

现在,你可以在官方App或chat.deepseek.com立即开启1M上下文的全新体验。

这不仅仅是一个对话框,这是一个能装下整部百科全书、能理解万行代码逻辑的“第二大脑”。


    24小时新闻排行榜更多>>
  1. 2026中国美女主播全翻车!变妆大曝光 现场连环炸!
  2. 中国影视全毁!100万演员失业 吃不上饭!转行送外卖 摆地摊!
  3. 日本政府拟修改自卫队“官阶”名称引质疑
  4. 午夜开枪密令与差点发生的“二次六四” 回眸“4.25”
  5. 北京罕批地方官盲目蛮干 分析:相互甩锅
  6. 韩正老家宁波慈谿官员接连被查
  7. 川普:英王访美时 将讨论数位税和伊朗问题
  8. 许家印“密友”,10万亿巨坑比恒大更恐怖
  9. 美联储亏损1.5万亿,撑不下去了?
  10. 党媒称李干杰外出调研 地方媒体打脸 辽宁官员传坠楼
  11. 太神奇了!一部不存在的法规何以被引用多年?
  12. 全国十大顶奢商场排名
  13. 美国施压,近40船只与公司受制裁
  14. 三十七天倒计时,无数人在默默牵挂于凯律师
  15. 血腥灭门案续篇 周恩来手下特工的沉浮人生
  16. 川习会前 美制裁中国炼油巨头与数十航运商 斩伊朗金脉
  17. 曹德旺放话“关厂”,底气从何而来?
  18. 美菲军演规模再创纪录,挑动军事对抗?
  19. 美太空军斥资32亿美元 打造金穹天基拦截器
  20. 新疆兵团频出事 建工集团原董事长夏建国被查
  21. 20岁何泽慧的艰难选择,鲜为人知
  22. 加州选民身份证倡议获足够签名 11月全民公投
  23. 白宫发言人请产假 传内阁轮流代职 包括川普和万斯
  24. 贪官落马后 狱中确诊艾滋?网传牵出36女公务员
  25. 6种女贵人相 持家旺夫
  26. 从开放到崩溃 欧洲正走向无法回头的转折
  27. 华为升腾超节点支持DeepSeek V4模型
  28. 巩俐亮相戛纳,气场碾压全场
  29. 习捞钱套路曝光 中组部外逃官员:巡视组按指标抓人
  30. 单核带队3比0,詹姆斯继续书写伟大
  31. 这2种饮料千万别混着喝
  32. 中国留学生支持清零回国 被公安带走 认清中共
  33. 涉橙县数十起罪案 25名墨西哥黑手党成员被捕
  34. 古籍中的有趣常识——仲夏五月
  35. 真子公主带孩子“逃亡”到美国乡下
  36. 美国财长:川习峰会意在“稳定”关系
  37. 全面进攻共和党!美民主党宏大计划曝光
  38. 云南昆明突遭强冰雹袭击 网友形容如灾难片
  39. 吃海鱼还是淡水鱼? 哪个更有营养?
  40. 这道中国菜滑嫩中夹点“脆” 让人越吃越想吃
  41. 美方动机引解读 美媒称白宫拟邀普京出席G20峰会
  42. AI打倒了英特尔,AI又救了英特尔
  43. 网恋“精英男友” 南京女险被诈骗185万元
  44. 印度工人头戴摄像头,边打工边教机器人抢自己的饭碗?
  45. 女大学生赴东南亚过节,成电诈“猪仔”
  46. 华裔家长提告纽约市 挑战“探索计划”招生政策
  47. 伊朗国防部:伊朗仍留存了大部分导弹能力
  48. 瞿秋白亲弟弟为何愤而“退党”?死因扑朔迷离
  49. 中国科学院外籍院士黄铭钧辞世
  50. 切尔诺贝利40年:人类集体核安全
  51. 广东工业大学教授谢胜利获“钱学森杰出贡献奖”
  52. 匈牙利新政府将调查欧尔班亲信
  53. 五角大楼附近2辆巴士相撞 23人受伤 视频曝光
  54. 婚变传闻仅4个月,42岁唐嫣有了喜讯
  55. 路边死鹿被一家中餐馆捡走 冻在冰柜里 惊动警方
  56. 哈里王子突访乌克兰,身份引争议
  57. 中国将流浪乞讨人员改为“流散人员” 引发网络群嘲
  58. 内塔尼亚胡自爆曾患前列腺癌,为战争隐瞒病情
  59. 美国务院发言人悬缺数月 副发言人“扶正”
  60. 伯克利大学生宿舍区坠亡事件:21岁华裔生不幸身亡