DeepSeek上线后回看:一场架构“豪赌”

2025-08-21 19:25:29 · chineseheadlinenews.com · 来源: 腾讯科技

8月19日DeepSeek上线全新的V3.1版本。新模型融合思考与非思考模式,大幅提升编程和智能体能力,成本显著降低。但这种激进的模型融合策略也引发争议,部分用户反馈幻觉重现,商业API的无预警更替更引发稳定性质疑。

8月19日晚间,DeepSeek官方悄然上线了全新的V3.1版本。

官方公告强调了上下文长度拓展至128k,但随着社区的深入挖掘和实测,这次“小包新”之下其实有着更多模型架构的变革和模型重点能力的微调,在编程能力上的提升也可圈可点,成本优势重回显著。

然而,模型融合的技术路线也引发激烈争论,部分用户反馈旧版模型的“顽疾”复现,对这次更新的评价呈现出两极分化的态势。

发布两天后,DeepSeek官方在公众号上发布了相关消息。

此时,正适合我们回看V3.1,更细致地拆解这次“小包新”。

架构之变:V3.1吞掉R1,减轻部署复杂度

尽管DeepSeek官方在更新通知中将“上下文长度拓展至128k”作为核心亮点,但此前的V3版本早已支持128K上下文,只是官方API接口此前仅开放至64K。

因此,这次更新的真正核心并非上下文长度,而是模型底层的架构演进。

根据官方最新发布的公众号内容,确认了V3.1为混合推理架构,即使用一个模型同时支持思考模式与非思考模式。

目前在DeepSeek的官方网页和APP上,即使用户开启“深度思考”模式,模型的标识也已从过去的“R1”变为了统一的“V3”。

用户通过API调用推理模型时,模型也明确“告知”自己是V3模型。

不过这里和GPT-5自动路由不同,是否打开思考模式,依然是用户控制,而非通过自动的模型路由判断。

在过往的经验中,这种混合模型可能会导致非推理任务,如创意写作和情商表达等能力的下降。不过,根据社区内用户分析,这种混合可以简化部署和运维,提高算力利用效率。

能力优化:编程再提升,成本再下降

除了架构改变外,V3.1被首先注意到的是编程能力的大幅提升。

根据社区广泛引用的Aider编程基准测试数据显示,DeepSeek V3.1取得了71.6%的高分,在开源模型中成功“霸榜”。

这一成绩不仅超越了此前的DeepSeek R1,甚至击败了强大的闭源模型Claude 4 Opus。

在其他权威基准测试中,V3.1同样表现出色。

SVGBench:实力仅次于GPT-4.1-mini,远超前代DeepSeek R1。

MMLU:在多任务语言理解方面,V3.1的表现毫不逊色于GPT-5,得分达到88.5%。

不过,在研究生级别问答(GPQA)和软件工程(SWE-Bench verified)等领域,V3.1与GPT-5相比仍存在一定差距。

在V3.1备受瞩目的编程能力实战中,其表现可圈可点但并非完美。

在新智元生成一个“黑客帝国风格”的three.js动态世界的任务里,V3.1成功满足了基本的功能要求,但对于画面风格和颜色变换等细节的实现不够精准,最终效果被测评者评为“80分”。

黑客帝国风格动态世界

在DeepSeek的传统强项——成本效益上,V3.1的进化也颇为可观。

在社区用户的测试下,完成同样一次完整的编程任务,V3.1的成本仅需约1.01美元,远低于Claude 4 Opus(便宜68倍)。从推特网友整理的各主流模型性价比来看,DeepSeek V3的性价比名列前茅。

这里的数值越低越好

根据DeepSeek官方宣布的最新V3.1价格表,其输入价格为,0.5元/百万 tokens (缓存命中) ,4元 /百万 tokens (缓存未命中) 。输出价格为12元 /百万 tokens ,该价格于2025 年 9月6日 00:00 起生效。

根据官方解释,成本下降主要来自于思维链压缩训练。通过减少无意义的思维链输出,V3.1-Think在输出token数减少20%-50%的情况下,各项任务的平均表现与R1-0528持平。

这一技术改进不光带来成本的下降,也让生成速度显著提升。社区用户的第一印象都是V3.1比R1速度快了很多。

最大的升级:智能体能力跃迁

在前几天讨论中,DeepSeek V3.1的Agent能力的显著增强并没有得到太大注意。

因为这一能力是底层的搜索和工具调用能力的提升,从外部看我们只能看到具体能力,如编程等能力的提升。

在8月21日正式的发布中,DeepSeek官方特意强调了这一点。通过专门的Post-Training(后训练)优化,新模型在工具使用与智能体任务中有巨大提升。

此次升级在复杂的软件工程和终端控制任务上表现得尤为突出,几乎实现了跨越式的进步。

在衡量真实世界代码修复能力的SWE-bench Verified基准上,V3.1取得了66.0分,远超前代V3-0324的45.4分和R1-0528的44.6分。而在更具挑战性的Terminal-Bench(终端操作)测试中,V3.1的得分(31.3)更是达到了前代推理模型R1-0528(5.7)的五倍以上,展现了强大的自动化操作潜力。

除了在专业领域的突破,V3.1在通用的网页浏览和工具调用能力上也获得了全面增强。在衡量网页自主导航与信息获取能力的Browsecomp测试中,其得分从R1-0528的8.9分飙升至30.0分,提升超过三倍。

同时,在模拟多种工具使用的Seal0基准上,V3.1的得分也从29.7大幅提升至42.6。

即使和目前最先进的模型对比,DeepSeek V3.1的Agent能力也不怯场。

比如SWE-bench Verified这一测试中,Anthropic的最新模型Claude Opus 4.1 在此基准上更是达到了74.5%的先进水平。而DeepSeek V3.1最新得分为66.0%,高于排名第三的GLM 4.5。

而在Terminal-Bench中,Claude 4 Opus以43.2%的得分在该项目上表现最佳。GLM-4.5(37.5%)和Claude 4 Sonnet(35.5%)紧随其后。DeepSeek V3.1的31.3分超过了GPT-4.1(30.3%)和Gemini 2.5 Pro(25.3%)。

在所有基础模型都重视的Agent能力的背景下,DeepSeek的这次升级追上了时代,也抹掉了短板。

V3.1的隐忧:合并模型,是一场豪赌

尽管V3.1在编程和智能体领域取得了突破,但其核心的“模型融合”策略却在社区引发了巨大争议。

阿里的Qwen模型在尝试过融合推理后,最终在新版本中还是分开发布了Instruct和Thinking两种分离的模型。

而GPT-5的“一体化系统”也则是使用一个智能路由(Router)来调度不同的核心组件,而非直接将模型激进地融合。

这是因为在上一代模型中,很多基础模型的“出厂设置”是一个思考模型,其非思考版本仅仅是关闭了系统给模型设置的思考预算。

但思考模型的训练,尤其是在强化学习(RL)微调阶段,存在一个固有的、难以回避的权衡问题。

为了让模型擅长逻辑、数学和代码等需要严谨推理的任务,强化学习的奖励(Reward)会高度偏向于那些能够展现清晰、正确、分步式解题过程的输出。

这种对“过程正确性”的极致优化,会深刻地改变模型的底层行为模式。

模型在处理那些不需要严密逻辑、更需要创造力、共情能力或常识性理解的通用任务时,可能会显得“水土不服”。

不少用户反馈,V3.1版本重新出现了幻觉严重(如在年报总结问题上关键信息全部出错)和中英夹杂的问题,后者在旧版中几乎不存在。

此外,模型在面对复杂问题时表现出“能省则省”的倾向,在多次尝试无果后会主动“放弃”,而不是继续深度推理,这或许是官方为优化Token使用而做出的权衡。

这些弊端都可能是混合模型带来的。

更令商业API用户不满的是DeepSeek激进的更新策略。DeepSeek倾向于用新模型直接覆盖旧模型,且不提供任何旧版本的API。

这种做法意味着,线上生产业务的API可能在毫无预警的情况下被更改,导致下游工作流崩溃,严重影响了商业应用的稳定性。目前在Hugging Face社区,已有API用户对此表达了强烈不满,要求退款并希望能继续使用稳定的0324版本。

GPT-5 激进更新的前车之鉴,看来 DeepSeek 并未引以为戒。


    24小时新闻排行榜更多>>
  1. 内蒙古主席王莉霞落马 传涉中共高官丑闻
  2. 男子被拘留期间死亡,督察部门介入
  3. 加州议会通过选区重划计划 为民主党在众院增5席位
  4. 【百年真相】背叛蒋宋 阎宝航死于文革尸骨无存
  5. 柏林华人声援江油 少年呼喊“推翻共产党”
  6. 万斯谈与普京通话印象
  7. 习明泽爆料兰兰 习家族“资产宝库”藏澳洲
  8. 今夜子时“鬼门开” 黄历7月注意10大禁忌
  9. 当欧洲领导人也“掏出小本子记录”
  10. 毛“忏悔”铜像作者高兟被捕一周年 近期或开庭
  11. 充当中国间谍 美海军士官被定罪 面临终身监禁
  12. 分析:中国公司为何不得不依赖英伟达芯片
  13. 习回光返照 去西藏首次没讲话 暗示退居二线?
  14. “美国最仁慈法官”是怎样炼成的?他是谁?为何这么红?
  15. 美国对进口风力涡轮机及零件展开国安调查
  16. 前美议员建议:拒向中共党员子女发学生签证
  17. 凶手是同班同学!被称为“小英雄”的那个男孩
  18. 中国政府大计划,标志重大转变
  19. 王沪宁曝中央累计投藏2.6万亿
  20. DeepSeek上线后回看:一场架构“豪赌”
  21. 短剧急缺中老年演员,日薪高达5000元
  22. 古代高科技:大洪水之前的失落文明?
  23. 微软各部门员工基础年薪曝光 对你有吸引力吗?
  24. 鲍威尔:就业面临的下行风险上升
  25. 尖扎黄河特大桥主拱肋垮塌坠河 巨响惊醒民众
  26. 国企承建的川青铁路在建大桥绳索断裂 致7死8失联
  27. 刘少奇和彭德怀被整死?毛泽东动了一根歪脑筋
  28. 【时政春秋】天价阅兵纪念抗战?毛曾谢日侵华
  29. 习近平亮相拉萨 一场健康与权势的双重宣示
  30. 鲍威尔讲话后,美股急速拉升
  31. 卢比奥:暂停向商业卡车司机发工作签证
  32. 以同情心断案风靡网络的美法官卡普里奥逝世
  33. 赔钱的北京中产,和他卖不掉的燕郊房产
  34. 中国一家三口加拿大景区划船落水 结局太悲惨!
  35. 白敬亭和宋轶分手,知情人透露内幕
  36. 陕西发现隋兵部尚书家族墓 墓志书法疑欧阳询真迹
  37. 深圳富豪炒楼亏13亿港币 创港史最大亏损纪录
  38. 普京开出停火条件:乌克兰放弃顿巴斯及北约诉求
  39. 川普离开白宫前往华盛顿街头巡逻 给士兵送披萨
  40. 北约防空体系被一夜突破
  41. 习遭深层逼宫?浙闽旧部落马 杨兰兰或面临牢狱之灾
  42. 三问尖扎黄河特大桥事故 事故原因可能是何?
  43. 鲍威尔讲话全文:风险平衡变化或要求调整政策立场
  44. 南蒙古政要席海明:中共跨国镇压是末日疯狂
  45. 导演遭质问后,屈中恒被换角
  46. ICE拦车查证频 民代提醒:随身带证、搬家及时通报
  47. 俄罗斯:乌克兰“不愿”达成长期和平协议
  48. 不管是益友还是损友 都不能开这“四种玩笑”
  49. 川普称或于2週后采取不同策略 暗示允乌克兰“反击”
  50. 【时政春秋】天价阅兵弥天谎 毛习同为大毒枭?
  51. 无关王菲 “锋芝”婚姻破局的导火线是它
  52. 消息:川普次子9月访日 关注加密货币发展
  53. 美国务院:正在审查5500多万名持签证外国人纪录…
  54. 靠近中朝边境!朝鲜秘密携核弹头导弹基地曝光
  55. 真实故事计划|凶手是同班同学!
  56. 鲍威尔称就业存风险 市场加大9月降息预期
  57. 白宫顾问:莫迪是伟大领导人 但印度是“克宫洗衣店”
  58. 福建一国企煤矿井下突发惨剧致7死 原因待查
  59. 美媒:波音超级大单在望,中国或采购500架客机
  60. 75岁军嫂国丽堃艰难维生 吁当局准其出境治病