开源模型首次:AIME25飙到99.9%刷屏

2025-08-23 01:25:20 · chineseheadlinenews.com · 来源: 新智元

DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。

如何让模型在思考时更聪明、更高效,还能对答案有把握?

最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。

这项新方法通过并行思考与“置信度筛选”,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了高达99.9%的正确率。

可以说,这是首次利用开源模型在AIME 2025上实现99.9%的准确率,并且不使用任何工具!

并且在保持高质量推理的同时,将生成的token数量削减了84.7%。

DeepConf还为并行思考(parallel thinking)带来了多项硬核优势:

性能飙升:在各类模型与数据集上,准确率平均提升约10%

极致高效:生成token数量锐减高达85%

即插即用:兼容任何现有模型——无需额外训练(也无需进行超参数微调!)

轻松部署:在vLLM中仅需约50行代码即可集成

以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)的第11道题目上的推理过程为例。

核心思想是DeepConf通过“置信度信号”筛选推理路径,从而得到高质量答案,并在效率与准确率之间取得平衡。

横轴(token index):表示模型生成的推理步骤(随着token逐步增加)。

纵轴(confidence):表示每条推理路径在该步骤上的置信度水平。

绿色曲线:表示不同推理路径的置信度轨迹,越深的绿色表示置信度越高。

红色叉叉:低于置信度阈值的推理路径,被动态筛除。

绿色对勾:最终被保留下来的高置信度路径。

最终表决:这些路径在基于置信度加权的多数表决下,最终得出统一答案:29。

DeepConf在生成过程中,会持续监控推理路径的置信度,低置信度路径被及时淘汰,只保留“更有把握”的路径,提升整体准确性。

通过准确率对比曲线,上图可以看出纵轴是accuracy(准确率),黄色曲线(DeepConf)比蓝色曲线(标准方法)明显更高。

表明DeepConf在相同投票规模下能达到更高的准确率。

下图横轴是token数量(推理所需的计算成本),黄色曲线在准确率保持较高的同时,token消耗明显更少。

表明DeepConf大幅减少了无效token的生成,推理效率更优。

DeepConf让模型不再“胡思乱想”,而是高效地走在高置信度的推理轨道上。

DeepConf支持两种工作模式:

离线模式:根据置信度筛选已完成的推理路径,然后根据质量对投票进行加权。

在线模式:当置信度实时降至阈值以下时,立即停止生成。

DeepConf的秘诀是什么?

其实,LLM知道自己何时开始不确定的,只是大家一直没有认真关注过他们的“思考过程”。

之前的方法在完整生成之后使用置信度/熵用于测试时和强化学习(RL)。

DeepConf的方法不同,不是在完成后,而是在生成过程中捕捉推理错误。

DeepConf实时监控“局部置信度”,在错误的推理路径消耗数千个token之前及时终止。

只有高质量、高置信度的推理路径才能保留下来!

DeepConf是怎样“用置信度筛选、用置信度投票”?

这张图展示了DeepConf在离线思考时的核心机制:

它先判断哪些推理路径值得信赖,把不靠谱的路径提前剔除,再让靠谱的路径进行加权投票,从而得到一个更准确、更高效的最终答案。

首先是每一token“有多确定”。

当模型在写推理步骤时,其实每个词(token)背后都有一个“信心值”。

如果模型觉得“这一步答案很靠谱”,信心值就高。如果它自己都拿不准,这个信心值就会低。

上图里用不同深浅的绿色和红色标出来:绿色=更自信,红色=不自信。

其次,不光要看单token,还要看整体趋势。

DeepConf不只看某一个词,而是会滑动窗口:看看一小段话里的平均信心值,衡量“这段话整体是否靠谱”。

重点看看最后几句话的信心值,因为最终答案、最终结论往往决定于结尾。

DeepConf也会记下这条推理链里最差的一步,如果中间有明显“翻车”,这条路径就不太可靠。

这样一来,每条完整的推理链路都会得到一个综合的“置信度分数”。

最后,是先淘汰,再投票。

当模型并行生成很多条不同的推理路径时:

第一步:过滤,把“置信度分数”排序,最差的10%直接丢掉,避免浪费。

第二步:投票,在剩下的推理链里,不是简单数票,而是按照置信度加权投票。

也就是说:一条高置信度的路径,它的意见分量更大;低置信度的路径,即便答案一样,也不会拉高太多票重。

最后看一下结果,在图的右边可以看到:有的路径说“答案是109”,有的说“答案是103、104、98”。

但由于支持“109”的路径更多、而且置信度更高,所以最终投票选出了109作为答案。

成绩刷爆99.9%

比GPT-5还高

离线模式结果:在AIME 2025上达到99.9%的准确率(基线为97%)!

在5个模型×5个数据集上实现普适性增益。

在所有设置下均取得约10%的稳定准确率提升。

在线模式结果:在所有基准测试中节省33%-85%的token!

在AIME 2025基准测试中,使用GPT-OSS-120B,在减少85%的token消耗下,仍达到97.9%的准确率。

该方法适用于从8B到120B的各类开源模型——在不牺牲质量的前提下实现实时高效。

在离线环境中对置信度度量进行基准测试。报告的数值为准确率(%)。

Cons@512和mean@512分别表示使用512条推理轨迹进行的多数投票结果,以及平均置信度的均值。所有实验均重复进行了64次。

在在线环境中对DeepConf进行基准测试。

在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的方法的准确率(%)以及生成的token数量(×10?)。

基于置信度的深度思考

研究者的思考是:到底怎么把“置信度”用得更巧妙,让模型既想得更准,又想得更快呢?

正如前文所述,这里可以分成两个使用场景:

离线思考:等模型把一整条推理路径都写完了,再回头去评估每条路径的置信度,把靠谱的结果聚合在一起。这样做的好处是能最大化提升答案的准确性。

在线思考:在模型一步步生成推理的过程中,就实时参考置信度。如果发现某条思路不靠谱,可以及时停掉,避免浪费算力。这样能边走边筛选,提升效率甚至精度。

离线思考

在离线思考模式下,每个问题的所有推理路径均已生成。

此时的核心挑战是:如何聚合来自多条路径的信息,从而更准确地确定最终答案。

针对这一点,研究人员采用了标准的多数投票(majority voting)方法。

多数投票(Majority Voting)

在标准的多数投票中,每条推理路径得出的最终答案对最终决策的贡献是均等的。

设T为所有已生成路径的集合,对于任意路径t∈T,设answer(t)为从该路径中提取的答案文本。

那么,每个候选答案a的票数为:

置信度加权多数投票

这个方法不再均等对待每条路径的投票,而是依据其关联路径的置信度,为每个最终答案赋予权重。

对于每个候选答案a,它的总投票权会被重定义为:

置信度过滤

在加权多数投票的基础上,还需要应用置信度过滤,才能在将投票更集中于高置信度的推理路径。

具体来说就是,通过路径的置信度分数,筛选出排序前η%的路径,从而确保只有最可靠的路径参与最终答案的决定。

选择前10%:专注于置信度最高的少数路径。适用于少数路径就能解决问题的场景,但风险是如果模型存在偏见,容易选错答案。

选择前90%:纳入更广泛的路径。这种方法能保持多样性、减少模型偏见,在各路径置信度相差不大时尤其稳健。

图3阐释了各种置信度度量方法以及基于置信度的离线思考的工作原理。

算法1则提供了该算法的详细实现。

在线思考

在线思考模式通过在生成过程中实时评估推理路径的质量,来动态终止低质量的路径,进而确保其在后续的置信度过滤阶段大概率能被排除。

对此,研究人员提出了两种基于最低分组置信度,并会自适应地中止生成过程并调整推理路径的预算的方法:DeepConf-low和DeepConf-high。

其中,共包含两大核心组件:离线预热与自适应采样。

离线预热(Offline Warmup)

DeepConf需要一个离线预热阶段,以便为在线决策过程建立停止阈值s。

对于每个新的提示词,首先生成Ninit条推理路径(例如,Ninit=16)。

停止阈值s定义为:

在所有配置下,DeepConf-low均统一采用前η=10%的策略,而DeepConf-high则统一采用前η=90%的策略。

在在线生成过程中,一旦某条推理路径的置信度低于预热阶段的数据所设定的、能够筛选出置信度排序前η%路径的最低门槛,生成过程就会被终止。

自适应采样(Adaptive Sampling)

在DeepConf中,所有方法都采用了自适应采样,如此就可以根狙淌题难度动态调整所生成推理路径的数量。

问题难度通过已生成路径之间的一致性程度来评估,其量化方式为多数投票权重与总投票权重的比值:

若β

由于采用的是最低分组置信度,一个足够大的预热集便能产生对停止阈值s的精确估计。

因此,任何被在线终止的路径,其分组置信度必然低于s,也就会被离线过滤器所排除。

这样,在线流程便能近似于离线的最低分组置信度策略,并且随着Ninit的增加,其准确率会逼近离线策略的准确率。

图4中阐释了在线生成的过程。

算法2则提供了该算法的详细实现。

具体过程,我们就用上图里的这道“勾股三元组计数”问题举个例子。

DeepConf要在生成推理的同时判断:哪条思路靠谱、该继续;哪条思路不靠谱、该尽早停,从而少花token、又更准。

两个阶段:先定阈值,再在线筛

1. Offline Warm-up(上图右侧,离线预热)

先离线跑几条完整的推理轨迹(Trace 1~5),给每条算一个“整体有多靠谱”的分数。

按分数做一次置信度过滤,好的轨迹在上方(绿色),差的在下方(红色)。

据此确定一个停止阈值s(图中绿色箭头标注)。

简单来说就是低于 s 的,通常是不值得继续的推理。

这一步就像“热身+标定”,模型把“该不该停”的门槛先定好。

2. Online Generation(上图中间,在线生成)

正式解题时,同时展开多条并行思路(多行的方块序列)。

对每条思路,系统滚动地评估“这段话最近一小段的可靠度”(图中方块从左到右代表一步步的生成)。

左下 & 右下的小曲线各自表示模型的“把握”程度。

左下绿曲线表示模型对接下来的词更“有把握”,示例文本是正经的数学推理(如“勾股三元组公式…”),这类内容通常被保留。

右下红曲线表示模型在犹豫或“自我怀疑”,示例文本是“让我再想想、回头检查一下…”,这类犹豫/兜圈子的片段常被判为低置信度,从而触发在线早停。

先离线确定“可靠度阈值s”,再在线用s给并行思路“边走边检查”。

不靠谱就当场叫停,靠谱的继续前进。这样就能做到既快又准了。

作者介绍

Yichao Fu

论文一作Yichao Fu是加州大学圣地亚哥分校(UC San Diego)计算机科学与工程系的博士生,师从张昊教授,也就是老朋友Hao AI Lab的负责人。

此前,他在浙江大学获得计算机科学学士学位。

他的研究兴趣主要为分布式系统、机器学习系统以及高效机器学习算法,近期专注于为LLM的推理过程设计并优化算法与系统。

他参与的项目包括:Lookahead Decoding、vllm-ltr和Dynasor。


    24小时新闻排行榜更多>>
  1. 93阅兵生变 张又侠调兵进驻京郊阅兵基地
  2. 习近平为何频访寺庙?惊传习已患癌症,齐心为子入雍和宫上香!祈福还是表演?习频进寺庙与西藏之行藏密码!
  3. 山东两市向505名死亡人员违规发养老金241万
  4. 高校回应“办SIM卡或看广告才能开宿舍门”
  5. 这条“躺”进985、211的捷径,要没了
  6. 英特尔难救 经济学人呼吁川普重视台积电与台湾安全
  7. 山东临沂有小学老师转岗教高中,老师:放平心态
  8. 亚洲首富:印度大量进口俄石油背后
  9. 川普:我被金发女助手包围了
  10. 極權主義中國之批判(三)
  11. 习近平可能不出席东盟峰会 与川普会面恐落空
  12. 川普:芝加哥或成下一个目标
  13. 川普“反驳”:发了张对比图
  14. 川普:如必要,将宣布紧急状态
  15. 川普宣布对家具进口展开调查 50天内完成
  16. 专家:港人追求自由开放成中南海心病
  17. 敏感时间 习亲信钟绍军露面被封杀 坐姿遭讽
  18. 内蒙“换装女王”王莉霞落马 更多内情曝光
  19. 拒150名以少年,法公园老板被拘
  20. 深夜,美股大涨
  21. 川普:分文未花
  22. 黄河大桥坍塌至少12死 中铁承建工程再酿惨剧
  23. 【佳音时刻】暴涨闪崩 专家曝中概股骗局
  24. 越南加速南海填海造岛
  25. 尾号“9999999”手机号100万起拍, 无人出价
  26. 乌谴责中共党揆说话不算话 拒北京参与战后安全保障
  27. 中共渗透美国 从军事间谍到文化影响的多重威胁
  28. 王岐山自称“命大有特异功能”27次遇刺脱险
  29. 中国股市远达不到泡沫化状态
  30. 美联储明年票委:对降息仍持谨慎态度
  31. 朝方:韩军曾进行10余次警告射击
  32. 23年美非移人数达到1400万
  33. 关税政策凑效?美财政赤字10年料减4万亿
  34. Google遭黑客入侵,25亿用户资料外泄
  35. 万科上半年亏损超119亿元 依靠大股东输血续命
  36. “监控看不出来”,给女孩擦碎发时被指猥亵
  37. 大难不死 王岐山为什么说自己有特异功能?
  38. 诱骗少女发私密照,男子获刑262个月
  39. 被中国媒体关注的日本永久化合物污染到底是什么
  40. 王友群:盘点大阅兵后倒下的七名中共将军
  41. 开源模型首次:AIME25飙到99.9%刷屏
  42. 美国政府已持有英特尔10%的股份 川普:伟大的交易
  43. 特斯拉顶级Cybertruck售价突破11.5万美元
  44. 因应台湾823罢免及公投投票结果 赖清德回应
  45. 内娱又来新瓜,越扒越窒息
  46. FBI搜查博尔顿,著作涉国安机密?
  47. 3800点,完全戳不动这届年轻人
  48. 亚当斯前顾问:薯片袋红包是生日礼
  49. 习军中大秘方永祥缺席西藏活动 引猜测
  50. 微软为何限制中企使用网络资安预警系统
  51. 俄罗斯被“剪裙边”,前苏联势力范围接连崩塌
  52. 美国市场最火的指标:NRR
  53. “秦始皇讲的可能是潮汕话”,知名学者再次回应
  54. 是谁在企图掩盖武大图书馆事件的真相?
  55. 【直播】台湾罢免案、核三重启公投即时开票
  56. 【时政春秋】习近平去西藏 意在2027?
  57. 【直播】台湾823罢免7案全未通过
  58. 东风集团最新公告:拟私有化退市
  59. 沈阳龙卷风10伤 云南泥石流6死 台风“剑鱼”又来
  60. 一个村医与县卫健局的拉锯战:举报后被指非法行医