DeepSeek-V4报告暗藏10个神级彩蛋

2026-04-25 16:25:16 · chineseheadlinenews.com · 来源: 盒饭财经

DeepSeek在“省钱”和“省资源”上达到了变态的程度。

DeepSeek-V4总算来了。

4月24日,DeepSeek官方账号发布了一篇名为《DeepSeek-V4 预览版:迈入百万上下文普惠时代》的文章。文章中正式宣布,“全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。”

同时,还介绍:DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:

发布后,测评、讨论已非常充分,不再赘述。

盒饭财经关注到,DeepSeek同步发布了一篇关于DeepSeek-V4 技术报告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

这份名为《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技术报告,共55页,从架构、通用基础设施、预训练、训练后等6个部分介绍了V4。而这份高度专业的技术报告中,隐藏了10个有意思的小彩蛋。

01

彩蛋一:“Think Max”模式,绝不允许走捷径的“压榨”指令

位置:第30页,Table 3

原文为:

Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.

翻译过来,大概的意思就是:

推理投入度:绝对最大化,不容许任何捷径。你的思考必须极其彻底,全面拆解问题以触及根本原因,并针对所有可能的路径、边缘案例及对抗性场景,对你的逻辑进行严苛的压力测试。要明确写出完整的深思过程,记录每一个中间步骤、考虑过的替代方案以及被否决的假设,确保绝对没有任何未经审视的预设。

这段话是模型开启 Think Max(极致思考模式)时,后台偷偷塞给大模型的“系统提示词(System Prompt)”。写得极具压迫感,像是一个严厉的导师在逼学生榨干脑力,不准有任何偷懒。

DeepSeek为其式设定了一套极为严苛的系统提示词。用词极具压迫感,还全部使用了绝对祈使句:“绝对最大化”“不许走捷径”“必须彻底”“严酷地压力测试”“不放过任何一个假设”。它还显式地命令模型“禁止走捷径”,要求记录每一个被拒绝的假设和中间步骤。

通过这种极度严厉的工程化Prompt,榨干大模型在 1M Context(百万上下文)里的算力去验证代码和逻辑错误。这就像是给模型戴上了“逻辑紧箍咒”,确保在处理复杂逻辑或代码时,模型不会因为追求速度而忽略细节。

02

彩蛋二:给硬件厂商的“公开信”:别瞎忙活带宽了

位置:第16页,Section 3.1

原文为:

Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

意思是:

一旦带宽达到该阈值,便不再是瓶颈,此时将更多的芯片面积用于进一步提升带宽,会带来边际收益递减。我们鼓励未来的硬件设计瞄准这样的平衡点,而非一味地无条件扩展带宽。

DeepSeek在报告中反客为主,给英伟达和华为等硬件厂商开出了“方子”。体面表达了他们在硬件方面的观点:盲目提升带宽对现在的AI训练效率提升有限,建议厂商把芯片面积留给更能提高计算通信比的地方。

03

彩蛋三:极致效率,1M长度下仅需V3.2的10%缓存

位置:摘要,Abstract

原文:

In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

意思是:

在百万级token上下文设定下,与DeepSeek-V3.2相比,DeepSeek-V4-Pro仅需其27%的单token推理FLOPs,以及10%的KV缓存。

DeepSeek在“省钱”和“省资源”上达到了变态的程度。

通过 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)技术,它在处理100万字的长文本时,占用的内存竟然只有前代版本的十分之一。这意味着未来个人电脑甚至手机运行百万超长文本分析将成为可能。

04

彩蛋四:坦诚的“炼丹玄学”:知其然不知其所以然

位置:第26页,Section 4.2.3

原文为:

Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.

意思是:尽管目前对其底层机制的全面理论理解仍是一个悬而未决的问题,但我们将其公开分享,以推动社区的进一步探索。

在Mitigating Training Instability 缓解训练不稳定性章节中,DeepSeek团队分享了两个解决万亿参数模型训练崩溃的独门绝技,Anticipatory Routing和SwiGLU Clamping。

技术报告中,他们也非常耿直地承认:这种“虽然我不知道原理是啥,但它跑起来确实有用,大家拿去用吧”的坦诚,可以说是AI炼丹界的真实写照了,非常有开源精神。

05

彩蛋五:“快指令”(Quick Instruction)特供Token

位置:第33页,Table 5

(判断是否搜网), (生成标题), (生成搜索词)。

为了让Chatbot响应更快,DeepSeek在模型内部植入了一系列专用Token“暗号”。

V4之所以能这么快,是因为它直接复用了已经算好的长文本 KV Cache(缓存)。不用像以前那样把几十万字重新喂给另一个小模型去判断,从而彻底消除了“冗余的预填充(redundant prefilling)”,这样用户的等待时间就能大幅缩短。

06

彩蛋六:Codeforces全球排名第23位

位置:第39页,Section 5.3.2

原文为:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.

这句话的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 当前在人类参赛者中位列第23名。

这个“彩蛋”极具含金量。在纯人类参与的全球顶级编程竞赛Codeforces排名中,DeepSeek-V4的预估分值(3206分)足以排到全球第23名。这意味着它已经超越了绝大多数顶级程序员,进入了人类编程智力的最顶端一小撮。

07

彩蛋七:内部“员工大调查”,52%的人已离不开它

位置:第44页,Section 5.4.4

原文为:

In a survey asking DeepSeek developers and researchers (?= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.

翻译过来是:

在一项面向DeepSeek开发者和研究人员的调查(N=85)中,这些受访者均有在日常工作中使用DeepSeek-V4-Pro进行智能体编码的经验。当被问及与其他前沿模型相比,DeepSeek-V4-Pro是否已准备好成为他们默认且主要的编程模型时,52%给出了肯定回答,39%倾向于肯定,而表示否定的不足9%。

DeepSeek非常罕见地公开了公司内部85名顶尖研究员的真实反馈。超过一半的DeepSeek内部核心人员已经将其作为日常首选编程工具。这种“吃自己的狗粮”的行为比跑分数据更能说明模型在实际生产中的情况。

08

彩蛋八:内部员工的真实“吐槽”被写进技术报告

位置:第44页,Section 5.4.4

原文:

Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.

翻译过来就是:

受访者认为DeepSeek-V4-Pro在大多数任务上都能给出令人满意的结果,但也指出它存在一些细小的错误、对模糊提示的理解偏差,以及偶尔的过度思考。

这句话紧挨着上一条“内部员工调查”的彩蛋,DeepSeek选择把内部员工的吐槽也写了进去。

09

彩蛋九:接地气的“中国特色”评测题

位置:第43页,Figure 13

为了展示模型在复杂长文本白领工作中的能力,DeepSeek放出的示例任务非常接地气。

“写一份某知名奶茶品牌与北京地铁的联名营销策划”“UGC传播与社交裂变设计”,比起国外大模型测写全英文的莎士比亚诗歌,DeepSeek的评测题真的很懂国内打工人的日常PPT需求。

10

彩蛋十:致谢名单里的神秘测试Dolly Deng

位置:第55页,附录 A.2 致谢部分

附录 A.2 致谢(Acknowledgment)部分,除了全体作者外,团队特别单独点名感谢了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”

翻译过来就是,我们要感谢 Dolly Deng 及其他测试人员,就DeepSeek-V4系列模型的能力所提出的宝贵建议与反馈。

能在这样一份AI基础模型技术报告中被单独拎出来感谢的测试(或外部反馈者),不知道他在V4内测期间提交了怎样关键的Bug或改进建议。


    24小时新闻排行榜更多>>
  1. 美千万富豪被大象围攻踩死 评论区却刷屏“报应”
  2. 2026中国美女主播全翻车!变妆大曝光 现场连环炸!
  3. 中国影视全毁!100万演员失业 吃不上饭!转行送外卖 摆地摊!
  4. 午夜开枪密令与差点发生的“二次六四” 回眸“4.25”
  5. 日本政府拟修改自卫队“官阶”名称引质疑
  6. 韩正老家宁波慈谿官员接连被查
  7. 美英日等10国发警告:中国网络攻击新套路
  8. 北京罕批地方官盲目蛮干 分析:相互甩锅
  9. 川普:英王访美时 将讨论数位税和伊朗问题
  10. 太神奇了!一部不存在的法规何以被引用多年?
  11. 全国十大顶奢商场排名
  12. 美国施压,近40船只与公司受制裁
  13. 许家印“密友”,10万亿巨坑比恒大更恐怖
  14. 三十七天倒计时,无数人在默默牵挂于凯律师
  15. 血腥灭门案续篇 周恩来手下特工的沉浮人生
  16. 党媒称李干杰外出调研 地方媒体打脸 辽宁官员传坠楼
  17. 美联储亏损1.5万亿,撑不下去了?
  18. 美太空军斥资32亿美元 打造金穹天基拦截器
  19. 20岁何泽慧的艰难选择,鲜为人知
  20. 加州选民身份证倡议获足够签名 11月全民公投
  21. 曹德旺放话“关厂”,底气从何而来?
  22. 新疆兵团频出事 建工集团原董事长夏建国被查
  23. 6种女贵人相 持家旺夫
  24. 从开放到崩溃 欧洲正走向无法回头的转折
  25. 美菲军演规模再创纪录,挑动军事对抗?
  26. 中国留学生支持清零回国 被公安带走 认清中共
  27. 涉橙县数十起罪案 25名墨西哥黑手党成员被捕
  28. 华为升腾超节点支持DeepSeek V4模型
  29. 白宫发言人请产假 传内阁轮流代职 包括川普和万斯
  30. 贪官落马后 狱中确诊艾滋?网传牵出36女公务员
  31. 川习会前 美制裁中国炼油巨头与数十航运商 斩伊朗金脉
  32. 古籍中的有趣常识——仲夏五月
  33. 美国财长:川习峰会意在“稳定”关系
  34. 巩俐亮相戛纳,气场碾压全场
  35. 习捞钱套路曝光 中组部外逃官员:巡视组按指标抓人
  36. 单核带队3比0,詹姆斯继续书写伟大
  37. 这2种饮料千万别混着喝
  38. 吃海鱼还是淡水鱼? 哪个更有营养?
  39. 真子公主带孩子“逃亡”到美国乡下
  40. 云南昆明突遭强冰雹袭击 网友形容如灾难片
  41. 伊朗国防部:伊朗仍留存了大部分导弹能力
  42. 全面进攻共和党!美民主党宏大计划曝光
  43. 这道中国菜滑嫩中夹点“脆” 让人越吃越想吃
  44. 美方动机引解读 美媒称白宫拟邀普京出席G20峰会
  45. AI打倒了英特尔,AI又救了英特尔
  46. 网恋“精英男友” 南京女险被诈骗185万元
  47. 印度工人头戴摄像头,边打工边教机器人抢自己的饭碗?
  48. 女大学生赴东南亚过节,成电诈“猪仔”
  49. 华裔家长提告纽约市 挑战“探索计划”招生政策
  50. 瞿秋白亲弟弟为何愤而“退党”?死因扑朔迷离
  51. 中国科学院外籍院士黄铭钧辞世
  52. 五角大楼附近2辆巴士相撞 23人受伤 视频曝光
  53. 切尔诺贝利40年:人类集体核安全
  54. 广东工业大学教授谢胜利获“钱学森杰出贡献奖”
  55. 震惊中外 一部“空气法” 一场持续27年的残酷迫害
  56. 路边死鹿被一家中餐馆捡走 冻在冰柜里 惊动警方
  57. 匈牙利新政府将调查欧尔班亲信
  58. 婚变传闻仅4个月,42岁唐嫣有了喜讯
  59. 哈里王子突访乌克兰,身份引争议
  60. 中国将流浪乞讨人员改为“流散人员” 引发网络群嘲