DeepSeek上线后回看：一场架构“豪赌”-墙外头条

8月19日DeepSeek上线全新的V3.1版本。新模型融合思考与非思考模式，大幅提升编程和智能体能力，成本显著降低。但这种激进的模型融合策略也引发争议，部分用户反馈幻觉重现，商业API的无预警更替更引发稳定性质疑。

8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。

官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次“小包新”之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。

然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的“顽疾”复现，对这次更新的评价呈现出两极分化的态势。

发布两天后，DeepSeek官方在公众号上发布了相关消息。

此时，正适合我们回看V3.1，更细致地拆解这次“小包新”。

架构之变：V3.1吞掉R1，减轻部署复杂度

尽管DeepSeek官方在更新通知中将“上下文长度拓展至128k”作为核心亮点，但此前的V3版本早已支持128K上下文，只是官方API接口此前仅开放至64K。

因此，这次更新的真正核心并非上下文长度，而是模型底层的架构演进。

根据官方最新发布的公众号内容，确认了V3.1为混合推理架构，即使用一个模型同时支持思考模式与非思考模式。

目前在DeepSeek的官方网页和APP上，即使用户开启“深度思考”模式，模型的标识也已从过去的“R1”变为了统一的“V3”。

用户通过API调用推理模型时，模型也明确“告知”自己是V3模型。

不过这里和GPT-5自动路由不同，是否打开思考模式，依然是用户控制，而非通过自动的模型路由判断。

在过往的经验中，这种混合模型可能会导致非推理任务，如创意写作和情商表达等能力的下降。不过，根据社区内用户分析，这种混合可以简化部署和运维，提高算力利用效率。

能力优化：编程再提升，成本再下降

除了架构改变外，V3.1被首先注意到的是编程能力的大幅提升。

根据社区广泛引用的Aider编程基准测试数据显示，DeepSeek V3.1取得了71.6%的高分，在开源模型中成功“霸榜”。

这一成绩不仅超越了此前的DeepSeek R1，甚至击败了强大的闭源模型Claude 4 Opus。

在其他权威基准测试中，V3.1同样表现出色。

SVGBench：实力仅次于GPT-4.1-mini，远超前代DeepSeek R1。

MMLU：在多任务语言理解方面，V3.1的表现毫不逊色于GPT-5，得分达到88.5%。

不过，在研究生级别问答（GPQA）和软件工程（SWE-Bench verified）等领域，V3.1与GPT-5相比仍存在一定差距。

在V3.1备受瞩目的编程能力实战中，其表现可圈可点但并非完美。

在新智元生成一个“黑客帝国风格”的three.js动态世界的任务里，V3.1成功满足了基本的功能要求，但对于画面风格和颜色变换等细节的实现不够精准，最终效果被测评者评为“80分”。

黑客帝国风格动态世界

在DeepSeek的传统强项——成本效益上，V3.1的进化也颇为可观。

在社区用户的测试下，完成同样一次完整的编程任务，V3.1的成本仅需约1.01美元，远低于Claude 4 Opus（便宜68倍）。从推特网友整理的各主流模型性价比来看，DeepSeek V3的性价比名列前茅。

这里的数值越低越好

根据DeepSeek官方宣布的最新V3.1价格表，其输入价格为，0.5元/百万 tokens （缓存命中），4元 /百万 tokens （缓存未命中）。输出价格为12元 /百万 tokens ，该价格于2025 年 9月6日 00：00 起生效。

根据官方解释，成本下降主要来自于思维链压缩训练。通过减少无意义的思维链输出，V3.1-Think在输出token数减少20%-50%的情况下，各项任务的平均表现与R1-0528持平。

这一技术改进不光带来成本的下降，也让生成速度显著提升。社区用户的第一印象都是V3.1比R1速度快了很多。

最大的升级：智能体能力跃迁

在前几天讨论中，DeepSeek V3.1的Agent能力的显著增强并没有得到太大注意。

因为这一能力是底层的搜索和工具调用能力的提升，从外部看我们只能看到具体能力，如编程等能力的提升。

在8月21日正式的发布中，DeepSeek官方特意强调了这一点。通过专门的Post-Training（后训练）优化，新模型在工具使用与智能体任务中有巨大提升。

此次升级在复杂的软件工程和终端控制任务上表现得尤为突出，几乎实现了跨越式的进步。

在衡量真实世界代码修复能力的SWE-bench Verified基准上，V3.1取得了66.0分，远超前代V3-0324的45.4分和R1-0528的44.6分。而在更具挑战性的Terminal-Bench（终端操作）测试中，V3.1的得分（31.3）更是达到了前代推理模型R1-0528（5.7）的五倍以上，展现了强大的自动化操作潜力。

除了在专业领域的突破，V3.1在通用的网页浏览和工具调用能力上也获得了全面增强。在衡量网页自主导航与信息获取能力的Browsecomp测试中，其得分从R1-0528的8.9分飙升至30.0分，提升超过三倍。

同时，在模拟多种工具使用的Seal0基准上，V3.1的得分也从29.7大幅提升至42.6。

即使和目前最先进的模型对比，DeepSeek V3.1的Agent能力也不怯场。

比如SWE-bench Verified这一测试中，Anthropic的最新模型Claude Opus 4.1 在此基准上更是达到了74.5%的先进水平。而DeepSeek V3.1最新得分为66.0%，高于排名第三的GLM 4.5。

而在Terminal-Bench中，Claude 4 Opus以43.2%的得分在该项目上表现最佳。GLM-4.5（37.5%）和Claude 4 Sonnet（35.5%）紧随其后。DeepSeek V3.1的31.3分超过了GPT-4.1（30.3%）和Gemini 2.5 Pro（25.3%）。

在所有基础模型都重视的Agent能力的背景下，DeepSeek的这次升级追上了时代，也抹掉了短板。

V3.1的隐忧：合并模型，是一场豪赌

尽管V3.1在编程和智能体领域取得了突破，但其核心的“模型融合”策略却在社区引发了巨大争议。

阿里的Qwen模型在尝试过融合推理后，最终在新版本中还是分开发布了Instruct和Thinking两种分离的模型。

而GPT-5的“一体化系统”也则是使用一个智能路由（Router）来调度不同的核心组件，而非直接将模型激进地融合。

这是因为在上一代模型中，很多基础模型的“出厂设置”是一个思考模型，其非思考版本仅仅是关闭了系统给模型设置的思考预算。

但思考模型的训练，尤其是在强化学习（RL）微调阶段，存在一个固有的、难以回避的权衡问题。

为了让模型擅长逻辑、数学和代码等需要严谨推理的任务，强化学习的奖励（Reward）会高度偏向于那些能够展现清晰、正确、分步式解题过程的输出。

这种对“过程正确性”的极致优化，会深刻地改变模型的底层行为模式。

模型在处理那些不需要严密逻辑、更需要创造力、共情能力或常识性理解的通用任务时，可能会显得“水土不服”。

不少用户反馈，V3.1版本重新出现了幻觉严重（如在年报总结问题上关键信息全部出错）和中英夹杂的问题，后者在旧版中几乎不存在。

此外，模型在面对复杂问题时表现出“能省则省”的倾向，在多次尝试无果后会主动“放弃”，而不是继续深度推理，这或许是官方为优化Token使用而做出的权衡。

这些弊端都可能是混合模型带来的。

更令商业API用户不满的是DeepSeek激进的更新策略。DeepSeek倾向于用新模型直接覆盖旧模型，且不提供任何旧版本的API。

这种做法意味着，线上生产业务的API可能在毫无预警的情况下被更改，导致下游工作流崩溃，严重影响了商业应用的稳定性。目前在Hugging Face社区，已有API用户对此表达了强烈不满，要求退款并希望能继续使用稳定的0324版本。

GPT-5 激进更新的前车之鉴，看来 DeepSeek 并未引以为戒。