DeepSeek-V4:重新设计记忆

2026-04-25 21:25:31 · chineseheadlinenews.com · 来源: AGI Hunt公众号

DeepSeek V4 发布后,我因为太忙了一直没空详细测试和看技术报告,但毕竟是源神一年半之后再次的重磅更新,今天多少得补上一个:

DeepSeek-V4 性能与效率总览

也就是说:同样一块 GPU,V3.2 时代只能同时服务 4 个长上下文用户,而 V4 能服务大约 40 个。

这可以说是 DeepSeek 再一次的非渐进式优化,把长上下文推理的成本进行了改写。

01

Pro 和 Flash

DeepSeek-V4 评测对比

技术报告很谦逊,直说了自身的不足:在推理能力上,V4 的发展轨迹“落后前沿闭源模型大约 3 到 6 个月”。知识评测上,也还追不上 Gemini-3.1-Pro。

02

怎么压的

CSA + HCA 混合注意力机制

CSA(压缩稀疏注意力),每 4 个 token 的 KV 缓存压成 1 个。压完之后还有一步:用一个叫 Lightning Indexer 的轻量索引器,快速给所有压缩块打分,只挑 top-k 个最相关的块来看。既省显存,也省计算。

CSA 架构

HCA(重度压缩注意力),则压得更狠,每 128 个 token 压成 1 个。不过因为压缩太猛了,HCA 就不做稀疏筛选了,对所有压缩后的条目做完整的注意力计算,确保不遗漏。

HCA 架构

压了多少

算一笔账

V3.2 vs V4 KV 缓存与并发对比

更稳的残差

V4 整体架构

借来的优化器

V4 第一次在万亿参数的模型上用了 Muon优化器,这个优化器来自 Moonshot 团队(也就是最新发布了 Kimi K2.6 背后的公司)。

传统的 AdamW 优化器是逐个参数更新的。Muon 不一样,它把参数当成矩阵来处理,用一种叫 Newton-Schulz 迭代的方法对更新方向做正交化,让训练更稳定、收敛更快。

开源互助关系

训练时的 FP4

训练踩过的坑

虽然它们被证明有效,但其底层原理仍未被充分理解。

这也属于是,DeepSeek 的一贯风格了。

09

怎么做后训练

10

华为算力

技术报告里有一句话是:“ 由于高端算力资源受限,Pro 版本目前的服务能力十分有限。待 950 超级节点在今年下半年大规模上线后,Pro 的价格预计将大幅下调。这里的 950 超级节点,正是指华为昇腾 950PR 芯片组成的集群。技术报告的基础设施部分也提到,他们的 EP 方案已经在“英伟达 GPU 和华为昇腾 NPU 平台上都做了验证”。

V4 的架构设计,尤其是把 KV 缓存压到原来十分之一这件事,某种程度上降低了对显存带宽和容量的要求,也就让性能相对弱一些的国产芯片有了运行前沿模型的可能。

11

仍有差距

Artificial Analysis 的完整评测揭示了一些值得关注的地方。

V4 Pro 的幻觉率到了 94%,也就是当它不知道答案的时候,它几乎总是会编一个出来。V4 Flash 更高,96%。

在 token 消耗上,V4 Pro 跑完 Artificial Analysis 的智能指数评测用了 1.9 亿 output token,V4 Flash 更是 2.4 亿。虽然单价便宜,但总成本($1,071)其实比 Kimi K2.6($948)还贵一些。

在整体智能指数上,V4 Pro 得分 52,开源里排第 2,但跟闭源前沿(Claude Opus 4.7、GPT-5.5)还是有差距的。V4 Flash 得分 47,大致在 Claude Sonnet 4.6 的水平。

技术报告自己也承认了一些局限。架构因为保留了太多“初步验证过的组件”而显得“比较复杂”。未来的目标是“精简到最核心的设计,在不牺牲性能的前提下更优雅”。

DeepSeek 内部也做了一个调查(85 人),问 V4-Pro 能不能作为日常编程的默认模型。52% 的人说可以,39% 倾向于可以,不到 9% 说不行。

主要的吐槽是,偶尔犯低级错误、对模糊指令容易误解、有时候想太多。

12

本地能跑

V4-Flash 的 13B 激活参数意味着,它应该是第一个能在消费级硬件上不做压缩直接跑的前沿模型了。

实测数据:4 块 RTX 6000s,38.6 tok/s 解码速度,首 token 延迟不到 1 秒,能撑 8 路并发和 40 万 token 上下文。

256GB 的 Mac M3 Ultra 也能跑,Ollama等开源推理框架也于第一时间上架了云端版本。

13

后续方向

V4 最值得琢磨的,也许并不在某个具体的技术创新上。

当 100 万 token 的 KV 缓存从 35.6GB 压到 3.5GB,更多的公司就能在自己的硬件上部署长上下文的 Agent 应用,更多的场景也就能用上真正的百万 token 窗口了,不再只是“技术上支持但实际用不起”。

技术报告的结尾,透露了 DeepSeek 后续的研究方向:更稀疏的 Embedding 模块、低延迟架构、多模态,以及在线学习范式。


    24小时新闻排行榜更多>>
  1. 2026中国美女主播全翻车!变妆大曝光 现场连环炸!
  2. 中国影视全毁!100万演员失业 吃不上饭!转行送外卖 摆地摊!
  3. 日本政府拟修改自卫队“官阶”名称引质疑
  4. 北京罕批地方官盲目蛮干 分析:相互甩锅
  5. 曹德旺放话“关厂”,底气从何而来?
  6. 贪官落马后 狱中确诊艾滋?网传牵出36女公务员
  7. 川普:英王访美时 将讨论数位税和伊朗问题
  8. 许家印“密友”,10万亿巨坑比恒大更恐怖
  9. 美联储亏损1.5万亿,撑不下去了?
  10. 习捞钱套路曝光 中组部外逃官员:巡视组按指标抓人
  11. 川习会前 美制裁中国炼油巨头与数十航运商 斩伊朗金脉
  12. 美菲军演规模再创纪录,挑动军事对抗?
  13. 切尔诺贝利40年:人类集体核安全
  14. 美太空军斥资32亿美元 打造金穹天基拦截器
  15. 五一出境游,南亚断崖式下滑
  16. 真子公主带孩子“逃亡”到美国乡下
  17. 白宫发言人请产假 传内阁轮流代职 包括川普和万斯
  18. 巩俐亮相戛纳,气场碾压全场
  19. 单核带队3比0,詹姆斯继续书写伟大
  20. 这2种饮料千万别混着喝
  21. 全面进攻共和党!美民主党宏大计划曝光
  22. 云南昆明突遭强冰雹袭击 网友形容如灾难片
  23. 中国科学院外籍院士黄铭钧辞世
  24. 这道中国菜滑嫩中夹点“脆” 让人越吃越想吃
  25. 中国将流浪乞讨人员改为“流散人员” 引发网络群嘲
  26. 匈牙利新政府将调查欧尔班亲信
  27. 哈里王子突访乌克兰,身份引争议
  28. 杨立昆用15M参数打平了万亿参数
  29. 五角大楼附近2辆巴士相撞 23人受伤 视频曝光
  30. 瞿秋白亲弟弟为何愤而“退党”?死因扑朔迷离
  31. 印度工人头戴摄像头,边打工边教机器人抢自己的饭碗?
  32. 女大学生赴东南亚过节,成电诈“猪仔”
  33. 安徽合肥市委书记费高云活动异常 传被查
  34. 广东工业大学教授谢胜利获“钱学森杰出贡献奖”
  35. 婚变传闻仅4个月,42岁唐嫣有了喜讯
  36. 内塔尼亚胡自爆曾患前列腺癌,为战争隐瞒病情
  37. 美国猎人在加蓬被五头大象踩死
  38. 伯克利大学生宿舍区坠亡事件:21岁华裔生不幸身亡
  39. 贝森特:稀土问题或4年解决,美方“脱依赖”提速
  40. 谈判重启在即 川普:伊朗将提“满足美国要求”方案
  41. 下一波失业潮?美就业数据发警告 AI正瞄准这些行业
  42. 史上罕见兵力集结!美军三大航母打击群压境中东
  43. 路边死鹿被一家中餐馆捡走 冻在冰柜里 惊动警方
  44. 川普突取消谈判:伊朗方案“不够好” 10分钟后反转
  45. 川普政府重启死刑:恢复枪决 争议全面引爆
  46. 美国务院发言人悬缺数月 副发言人“扶正”
  47. 情侣花16万买房车当家,被骂“停车场乞丐”
  48. 播客破悬案!少女惨死44年 4恶徒落网全变6旬翁
  49. 高岗:牵连太多,死了算了
  50. 内塔尼亚胡自曝患癌:已接受治疗
  51. [慎]湖北郧县人之谜:同一批化石,为何得出不同结论?
  52. 美舰载直升机在阿拉伯海拦截受制裁商船
  53. 林佳龙任特使出席斯威士兰庆典活动
  54. 中国“高德地图”引资安风险 台湾国发会将开发新APP
  55. 吃了冷藏的鸡肉后,他出现“死神之征”
  56. 骇人!山西前村支书驾铲车活埋村民 警察竟旁观
  57. 终于找到失散多年父亲 为争夺父爱 她直接嫁给他…
  58. 华谊兄弟被申请破产重整,一步错,步步错
  59. 艺考圈名师杜英哲一审被控强奸 受害20多人最小17岁
  60. 前线粮食饮水短缺!乌战士“骨瘦如柴”照震惊国民