DeepSeek上新,推理提速85%

2026-06-28 06:25:16 · chineseheadlinenews.com · 来源: 财联社

在6月中旬获得500亿融资后仅十几天,6月27日,DeepSeek团队联合北京大学发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。

这不是一次模型版本的迭代,而是在原有DeepSeek-V4-Pro和DeepSeek-V4-Flash基础上增加了一个推测解码模块,重点在于工程落地层面的优化。

随DSpark一同开源的DeepSpec,是一个用于训练和评估推测解码草稿模型的全栈代码库,包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持MIT许可。目前DeepSpec已内置DSpark、DFlash和Eagle3三种实现。

值得注意的是,DeepSeek创始人梁文锋位列论文作者名单。在完成首轮融资的当下,创始人依然亲自参与技术论文撰写,这在AI行业并不多见。

论文标题:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

论文链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

实测数据验证:同等吞吐下,V4-Flash提速60%-85%,V4-Pro 提升 57%-78%

不同于仅停留在实验室的算法优化,DSpark 已完成真实用户流量落地验证。该框架全面部署于 DeepSeek-V4-Flash、V4-Pro 线上服务,替代此前 MTP-1 生产基线。在同等系统总吞吐规模下,V4-Flash 单用户生成速度提升 60%-85%,V4-Pro 提升 57%-78%。

除了DeepSeek自家的大模型,DSpark也已经部署到了阿里旗下的Qwen3-4B、8B、14B,以及Gemma4-12B。三大评测领域分别是:数学推理、代码生成、日常对话。

DSpark兼容 Qwen、Gemma 等国内外主流基座,同时配套 DeepSpec 仓库、模型权重全部开源。这意味着,对于缺乏底层算法团队的中小企业、ToB 服务商,无需投入巨额研发即可复用成熟推理优化方案,大幅降低大模型私有化部署、线上服务的落地门槛,智能体、工业代码、金融舆情等场景规模化落地速度有望加快。

论文数据显示,DSpark 在全部目标模型、全部评测领域下,稳定超越自回归基线 Eagle3 与并行基线 DFlash。以 Qwen3-4B/8B/14B 为例,宏平均接受长度相对 Eagle3 提升 30.9%、26.7%、30.0%;相对 DFlash 提升 16.3%、18.4%、18.3%。这一优势具备跨模型的泛化能力,在Gemma4-12B目标模型上同样取得了一致的性能增益。

除整体提升外,论文实验数据还揭示了显著的领域差异效应::结构化任务(如数学推理、代码生成)的可接受长度天然更高(例如Qwen3-4B在数学任务上平均为5.57,代码任务为5.12),而开放式对话场景则明显偏低(仅3.49)。

论文也指出当前方案存在局限:对于本身可预测性极低、接受率偏低的复杂查询,这部分前置草稿算力无法回收。未来的优化方向可在草稿模型内部引入难度感知的早退出机制,使此类请求能够跳过完整块生成流程。

不拼参数拼速度:DSpark的两项技术突破

大语言模型采用自回归方式生成文本——每生成一个新token都需要一次完整前向传播,推理延迟随输出长度线性增长。推测解码(Speculative Decoding)是行业公认的解决路径:用一个轻量级草稿模型快速生成候选token,再由大模型批量验证。

但现有方案各有短板。

自回归草稿模型(如Eagle3)逐token串行生成,依赖关系建模能力强、接受率高,但草稿耗时随候选块长线性增长,只能使用短块、浅层网络。

为打破串行瓶颈,并行草稿模型成为更优方案:所有草稿位置仅需单次前向传播即可生成,草稿耗时几乎不受块长影响。但想要充分发挥长并行草稿块的潜力,仍存在两大核心瓶颈:

生成质量瓶颈:并行草稿模型独立预测每个位置,无法建模块内 token 依赖,会出现多模态冲突问题,序列后半段 token 接受率快速衰减;

系统效率瓶颈:最优验证长度难以确定。并行生成虽能产出长草稿块,但不加区分地验证全部 token 会降低系统吞吐,高并发场景下问题尤为突出。

DSpark针对这两大瓶颈提出两项互补机制。

半自回归生成架构:保留并行主干的高吞吐优势,同时加入轻量级串行模块,逐token注入前缀依赖信息。该模块提供两种实现——仅依赖前一个token的马尔可夫头,以及通过循环状态累积完整前缀信息的RNN头。实验表明,两层Transformer深度的DSpark即可在所有测试领域超过五层DFlash的接受长度。

置信度调度验证机制:引入置信度头评估每个token在给定前缀下的“存活概率”。硬件感知前缀调度器根据实时引擎吞吐量动态决定最优验证长度,优先将算力分配给预期回报最高的token。论文发现原始置信头存在置信度过高问题,团队设计了“时序温度缩放”后验校准方案予以修正。

DeepSeek 在完成大额融资后并未单纯追求参数扩容,而是关注落地效率,击中产业真实痛点。在生成式AI从实验室走向商业化的周期里,“更快、更省算力”正在取代单纯的模型跑分,成为厂商竞争力的关键指标。


    24小时新闻排行榜更多>>
  1. 开飞机撞中信大厦飞行员“身份曝光” 疑为女高层
  2. 北京再出大事 中南海附近警笛大作 浓烟滚滚
  3. “中国尊”高楼遭小型飞机撞击事件 目击者们这样说
  4. 中国移动式冷气受封欧洲“避暑神器” 民众跨国抢货
  5. 轻航机撞北京“中国尊” 专家揭开防空神话2大漏洞
  6. 马兴瑞等14官员被罢免人大代表 张又侠逃过一劫?
  7. 年入28亿,海底捞的对手要上市了
  8. 山东一集市大牌坊突然倒塌 官方通报7死伤遭疑
  9. 撞大楼飞机上有特殊装置 事件90%概率是...
  10. 伊朗在更衣室留条:尊重千金难换 公平竞赛是灵魂
  11. 只有领导才能吹空调:欧委会员工怒了
  12. 阿富汗东北部规模6.1地震
  13. 万斯语出惊人:水门事件发生在今天,热度撑不过半天
  14. 美发射神秘飞行器 或验证美军颠覆性全球投送技术
  15. “川普在伊朗碰了钉子,所以默许乌克兰袭击莫斯科”
  16. 家长投诉纠纷下,一个30岁上海幼师的离世
  17. 骗走女子507万用于打赏主播,女子丈夫知后自杀身亡!
  18. 200万粉丝网红诋毁袁隆平成果:“变态杂交”
  19. 北京“中国尊”遭小飞机撞击 官方通报驾驶员死亡
  20. 好心办坏事,中国游客遭围剿
  21. 英王查尔斯报税表上的三处“与众不同”
  22. 时至中年,爱上夏日“轻简知性风”
  23. 男子拥有这些特质 结婚后可成为好丈夫
  24. 马兴瑞、解放军6将军等15人 终止中国人大代表资格
  25. 俄飞弹猛轰!乌克兰警报响,基辅爆炸巨响频传
  26. 极左势力崛起,民主党内部矛盾升级
  27. 苹果游说川普政府 寻求获准采购中国芯片降成本
  28. 从圣歌到百老汇 知音合唱团唱响跨世纪经典
  29. 警惕:骗子盯上住院患者家属
  30. 美跨党派提法案拟堵AI芯片出口管制漏洞
  31. 美7岁男童“115公斤胖死”父母遭控虐童 妹妹也圆滚滚
  32. 泳池'肉体激战'恐怖画面曝!比基尼妹遭恶霸痛殴暴血
  33. 北京撞楼出大事,公安部长外地调研
  34. 所谓“天才”,你得看到姆巴佩才明白!
  35. 飞往天堂的航班 飞行员的濒死体验
  36. 美国男子自称拥有最小“兄弟” 网络募款做增大术
  37. 名校连夜打电话“抢人”:刘国梁女儿打高尔夫
  38. 南京大屠杀纪念馆发布公告 面向全球征集史料
  39. 佛得角队长涉强奸丑闻 世界杯晋级蒙阴影
  40. 太尴尬了!粉丝竖起26米梅西雕像 画风太辣眼
  41. 凯恩进球创造英格兰队史纪录
  42. 江苏省科技智库计划项目拟立项项目公示
  43. 女子被骗507万,丈夫知后自杀身亡
  44. 中国全国人大终止15人代表资格 军政高官在列
  45. 度假天堂变毒窟!意大利小岛洞藏40kg大麻,逾1590万
  46. 互联网既在消失,又在永生:删不干净的"黑历史"
  47. 俄退将拍片控控长官“虐杀抗命小兵” 还点名普京
  48. 华尔街不悲观 大举转进可受惠经济前景改善的股票
  49. 唐柏桥:中国电影向何处去?
  50. 月薪3000的失业门将,或将击败梅西
  51. 中国房地产危机:海花岛梦破
  52. 沃什要做格林斯潘?
  53. 日本拟获得具反舰攻击能力无人潜艇
  54. 安卡拉峰会,'北约3.0'以及跨大西洋伙伴关系
  55. “Pride+世界杯”引爆金山双重观光潮
  56. 洛城裸体单车骑行,2人遭BB枪射伤
  57. 央视曝手机测评作弊乱象:博主“特供”
  58. 过度依赖AI,限制创新
  59. 法总统候选人梅朗雄:退出北约,转向中国
  60. 马克龙回应法国极端高温 不能用既有适应模式应对