DeepSeek-V4：重新设计记忆-墙外头条

DeepSeek V4 发布后，我因为太忙了一直没空详细测试和看技术报告，但毕竟是源神一年半之后再次的重磅更新，今天多少得补上一个：

DeepSeek-V4 性能与效率总览

也就是说：同样一块 GPU，V3.2 时代只能同时服务 4 个长上下文用户，而 V4 能服务大约 40 个。

这可以说是 DeepSeek 再一次的非渐进式优化，把长上下文推理的成本进行了改写。

Pro 和 Flash

DeepSeek-V4 评测对比

技术报告很谦逊，直说了自身的不足：在推理能力上，V4 的发展轨迹“落后前沿闭源模型大约 3 到 6 个月”。知识评测上，也还追不上 Gemini-3.1-Pro。

怎么压的

CSA + HCA 混合注意力机制

CSA（压缩稀疏注意力），每 4 个 token 的 KV 缓存压成 1 个。压完之后还有一步：用一个叫 Lightning Indexer 的轻量索引器，快速给所有压缩块打分，只挑 top-k 个最相关的块来看。既省显存，也省计算。

CSA 架构

HCA（重度压缩注意力），则压得更狠，每 128 个 token 压成 1 个。不过因为压缩太猛了，HCA 就不做稀疏筛选了，对所有压缩后的条目做完整的注意力计算，确保不遗漏。

HCA 架构

压了多少

算一笔账

V3.2 vs V4 KV 缓存与并发对比

更稳的残差

V4 整体架构

借来的优化器

V4 第一次在万亿参数的模型上用了 Muon优化器，这个优化器来自 Moonshot 团队（也就是最新发布了 Kimi K2.6 背后的公司）。

传统的 AdamW 优化器是逐个参数更新的。Muon 不一样，它把参数当成矩阵来处理，用一种叫 Newton-Schulz 迭代的方法对更新方向做正交化，让训练更稳定、收敛更快。

开源互助关系

训练时的 FP4

训练踩过的坑

虽然它们被证明有效，但其底层原理仍未被充分理解。

这也属于是，DeepSeek 的一贯风格了。

怎么做后训练

华为算力

技术报告里有一句话是：“ 由于高端算力资源受限，Pro 版本目前的服务能力十分有限。待 950 超级节点在今年下半年大规模上线后，Pro 的价格预计将大幅下调。这里的 950 超级节点，正是指华为昇腾 950PR 芯片组成的集群。技术报告的基础设施部分也提到，他们的 EP 方案已经在“英伟达 GPU 和华为昇腾 NPU 平台上都做了验证”。

V4 的架构设计，尤其是把 KV 缓存压到原来十分之一这件事，某种程度上降低了对显存带宽和容量的要求，也就让性能相对弱一些的国产芯片有了运行前沿模型的可能。

仍有差距

Artificial Analysis 的完整评测揭示了一些值得关注的地方。

V4 Pro 的幻觉率到了 94%，也就是当它不知道答案的时候，它几乎总是会编一个出来。V4 Flash 更高，96%。

在 token 消耗上，V4 Pro 跑完 Artificial Analysis 的智能指数评测用了 1.9 亿 output token，V4 Flash 更是 2.4 亿。虽然单价便宜，但总成本（$1,071）其实比 Kimi K2.6（$948）还贵一些。

在整体智能指数上，V4 Pro 得分 52，开源里排第 2，但跟闭源前沿（Claude Opus 4.7、GPT-5.5）还是有差距的。V4 Flash 得分 47，大致在 Claude Sonnet 4.6 的水平。

技术报告自己也承认了一些局限。架构因为保留了太多“初步验证过的组件”而显得“比较复杂”。未来的目标是“精简到最核心的设计，在不牺牲性能的前提下更优雅”。

DeepSeek 内部也做了一个调查（85 人），问 V4-Pro 能不能作为日常编程的默认模型。52% 的人说可以，39% 倾向于可以，不到 9% 说不行。

主要的吐槽是，偶尔犯低级错误、对模糊指令容易误解、有时候想太多。

本地能跑

V4-Flash 的 13B 激活参数意味着，它应该是第一个能在消费级硬件上不做压缩直接跑的前沿模型了。

实测数据：4 块 RTX 6000s，38.6 tok/s 解码速度，首 token 延迟不到 1 秒，能撑 8 路并发和 40 万 token 上下文。

256GB 的 Mac M3 Ultra 也能跑，Ollama等开源推理框架也于第一时间上架了云端版本。

后续方向

V4 最值得琢磨的，也许并不在某个具体的技术创新上。

当 100 万 token 的 KV 缓存从 35.6GB 压到 3.5GB，更多的公司就能在自己的硬件上部署长上下文的 Agent 应用，更多的场景也就能用上真正的百万 token 窗口了，不再只是“技术上支持但实际用不起”。

技术报告的结尾，透露了 DeepSeek 后续的研究方向：更稀疏的 Embedding 模块、低延迟架构、多模态，以及在线学习范式。