不要思考过程,推理模型能力能够更强

2025-04-29 05:25:18 · chineseheadlinenews.com · 来源: 量子位

其实……不用大段大段思考,推理模型也能有效推理!

是不是有点反常识?因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。

这个过程往往用时很长,等同于需要消耗大量算力。已经有一些研究尝试提高推理效率,但大多仍依赖显式思考过程。

来自UC伯克利和艾伦实验室团队的最新研究结果打破了这一刻板印象——

通过简单的prompt绕过“思考”这一过程直接生成解决方案,可能同样有效,甚至更好。

这种方法被称为“无思考(NoThinking)”方法。

实验数据显示,在低资源情况(即少token数量、少模型参数)或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果,实现比传统思考方式更好的精度- 延迟权衡。

其他情况下,NoThinking方法在部分数据集上的表现也能超越Thinking。

“思考”和“无思考”

研究团队以DeepSeek-R1-Distill-Qwen模型为基础,提出了NoThinking方法。

咱们先来分辨一下Thinking和NoThinking的区别在哪里。

Thinking方法是传统推理模型所采用的方法,模型先生成一个长的思考过程(Thinking),包含反思、回溯和自我验证等步骤,然后再生成最终解决方案(Final Solution)。

好比你随意丢给模型一个问题,模型可能会先尝试理解问题、分解问题、探索可能的解法,然后逐步验证每个步骤的正确性,最后得出答案。

而研究人员最新提出的NoThinking方法,则通过简单的prompt直接让模型跳过显式的思考过程。

也就是在prompt中预先填充一个空的思考块,如在问题提示后直接添加“Okay, I think I have finished thinking.”,然后让模型直接从这个空思考块开始生成最终解决方案。

例如,在问题提示后直接添加一个表示思考结束的标记,然后让模型生成答案。

截至目前,Thinking是大多数推理模型默认的推理方式。

但NoThinking团队十分质疑这个过程的必要性?

所以团队成员以DeepSeek-R1-Distill-Qwen模型为基础——选择这个模型,是因为它是当前最先进的推理模型之一——设计了无思考(NoThinking)方法。

在NoThinking中,模型的推理过程直接从预填充的思考块开始,跳过了生成详细思考步骤的阶段,直接进入解决方案的生成。

这意味着模型不需要花费时间来构建和输出思考过程,从而减少了生成的token数量,提高了推理速度。

低资源情况下,NoThinking表现优于Thinking

研究人员将NoThinking与Thinking方法在相同的模型和数据集上进行对比实验。

试图通过控制token数量、模型参数等变量,比较两种方法在不同任务上的准确性和效率差异。

他们选用了多个推理数据集来评估模型性能,这些数据集涵盖了不同的推理任务类型和难度级别,能够全面评估模型的推理能力:

包括数学问题解决(如AIME、AMC)、编程(LiveCodeBench)和形式定理证明(MiniF2F、ProofNet)等。

评估指标方面,则主要使用pass@k指标来衡量模型性能。pass@k表示的是“在生成的k个样本中至少有一个正确答案的概率”。

此外,实验过程还关注了token使用量和延迟等指标,以评估模型在资源消耗和响应速度方面的表现。

最后的实验结果怎么样?

综合表现如图所示,这是无token预算下的最终结果:

这是有token预算下的最终结果:

数学问题解决

相同token预算下,在AIME和AMC等数学问题数据集上,NoThinking通常比Thinking表现更好。

例如,在ACM23数据集上,当token数量限制为700时,NoThinking的准确率是51.3%,显著高于Thinking的28.9%。

这表明在数学推理任务中,直接生成解决方案可能比详细思考更有效(尤其是在资源受限的情况下)。

形式定理证明

在MiniF2F和ProofNet数据集上,NoThinking在pass@k指标上与Thinking相当,但使用的token数量显著减少(3.3–3.7倍)。

这表明在需要严格逻辑推理的任务中,即使没有显式的思考过程,NoThinking也能保持高准确性,同时显著降低计算成本。

编程任务

在LiveCodeBench数据集上:

在低token预算下,NoThinking表现优于Thinking

在高token预算下,Thinking有时表现更好

这表明在编程任务中,思考过程可能在资源充足时提供一定优势;但资源受限时,NoThinking的效率更高。

NoThinking的pass@k性能

随着k值(生成的样本数量)增加,NoThinking的pass@k性能通常会超过Thinking。

这表明NoThinking生成的解决方案多样性更高,能够通过多次采样提高准确性。

一个典型的例子体现在AIME24数据集上——

当k=64时,NoThinking在相同token预算下的pass@64准确率显著高于Thinking。

这表明NoThinking在多次尝试中更有可能找到正确答案。

并行扩展实验

实验过程中,团队进一步探索了NoThinking与并行计算扩展结合的潜力。

通过同时生成多个输出并进行聚合(如最佳选择策略),评估这种方法在提高性能和降低延迟方面的效果。

实验结果表明,在结合并行扩展时,NoThinking表现出了显著的性能提升。

对于有Verifier的任务(如MiniF2F和ProofNet),NoThinking结合并行扩展可以实现与Thinking相当甚至更高的准确率,同时将延迟降低7倍,token使用量减少4倍。

在没有Verifier的任务中(如数学问题和编程),使用置信度选择策略的NoThinking也能在低延迟下实现与Thinking相当或更好的准确率。

例如,在AMC2023数据集上,NoThinking在并行扩展下比Thinking快9倍,同时准确率更高。

总体而言,通过同时生成多个输出并选择最佳答案,NoThinking在延迟和token使用量上都优于Thinking。

推理模型依赖于思考过程是“非必要的”

综上所述不难发现,虽然不同任务类型对“NoThinking”和“Thinking”的要求不同,但在低token预算和低延迟情况下,NoThinking表现优于Thinking,并且在并行扩展中展现出更高的效率。

NoThinking方法在多个推理任务中表现出了令人惊讶的有效性表示:

即使跳过了显式的思考过程,模型依然能够生成准确的解决方案。

NoThinking方法证明了“推理模型依赖于思考过程”的非必要性。换句话说,可能存在更高效的方式来实现强大的推理性能,而不依赖于冗长的思考过程。

这与目前普遍认为推理模型需要详细思考过程才能有效工作的观点相悖。

面对这个结果,不少吃瓜群众表达了自己的看法。

有赞成者,比如ExtensityAI的联合创始人兼CTO就表示,这一点也不令人意外。

考虑到蒸馏过程,这个结果并不奇怪——学生可以在微调过程中内化老师的推理,并在推理时提供一条“捷径”。

但也有人表示NoThinking看似可以省略推理过程,但其实要耗费大量人工时间来实现:

结果虽如此,但实际操作里到底有谁会耐心从k个答案里去挑选最佳的那个啊??

不管怎么说,Nothinking还是带给大家一个新视角,往后推理模型的优化,可以朝更简单有效的方向尝试看看。

或许有一天,大家在等推理模型吐精准答案的时候,也不用焦虑地等待那么久了~


    24小时新闻排行榜更多>>
  1. 地震消息令人震惊 传中国科学院院士微信泄露
  2. 《人日》刊文纪念李克强冥诞 《求是》删文
  3. 网传李克强女儿的信 直呼习近平暴君
  4. “把老婆还给我”天津男子派出所跪求“霸妻”所长
  5. 美国6州43处海滩紧急关闭 致命细菌威胁数千万游客
  6. 众院通过程序性投票 将最终表决大而美法案
  7. 李克强70岁冥诞 《人民日报》刊长文纪念、肯定
  8. 专家警告:美国逼小柄硬吞20%重税,仍难挡中国洗产地
  9. 张国焘提名9人进中央政治局,毛主席拒绝
  10. 新疆书记马兴瑞突卸任 被免内情和去向引猜测
  11. 美国疯抢,铜价逼近年内新高
  12. 没喝过奶+天天冰火浴,婴儿瘫痪失明
  13. 日本建设新型海底监测网
  14. 【翻墙必看】高层人事更迭 习再遭重大打击
  15. 美中关系走向:加速脱钩还是趋于改善?
  16. 河南省郑州市中级人民法院,和它的一费剔耻的判决
  17. 美媒惊曝:中共真正野心不在台湾 而是西伯利亚
  18. 吹牛老爹躲过重罪指控,子女欢呼“胜利”
  19. 华女粮食券每月1号就被盗光 锁卡也无效
  20. $1500亿资金注入 "美丽大法案"或将颠覆移民执法
  21. 7.20反迫害26周年 新世纪推出长片《传递》
  22. 遥祝薄熙来生日快乐 薄毕瓜发文:最伟大的父亲
  23. "大而美法案"众院219票闯关!5共和党人一度倒戈
  24. 川普准备发表演讲,拉开为期一年的美250年庆序幕
  25. 习“全面主席”成笑话 专家讽其治国荒腔走板
  26. 美国最贵的,是中国AI人才:中国学霸正“统治”AI圈
  27. 别把飞行员搞得那么神秘敏感,旅客安全才更有保障
  28. 朝鲜将派遣额外3万名士兵,前往俄乌战争前线协助莫斯科
  29. 人民日报纪念李克强冥诞发出了什么信号
  30. 缓解住房危机 纽森签法案全面改革加州环保法
  31. 从小粉红到反共斗士:农家子弟觉醒之路
  32. 新疆书记换人 袁红冰:与中东局势变动有关
  33. “大而美法案”众院219票闯关
  34. 南航机长刺伤主管跳楼身亡 事件冲热搜榜首网络炸锅
  35. 38岁抗癌网红宣布停掉天价药,决定为自己活一回
  36. 川美爆火毕业作品《祷》买家现身:原来是他!
  37. 吹牛老爹判了 震动欧美圈 最重罪行全躲了 刑期仅…
  38. 争夺未来能源主导权之战:中国正在领先
  39. 中国杂技大妈WNBA表演时坠落!已效力NBA超30年
  40. 曝歼20缠斗F35 央视强调“牺牲准备”令小粉红洩气
  41. 6月非农报告或延长美联储观望期
  42. 日媒:习权力正受打击 国安系首当其冲
  43. 王毅访欧既要又要,鱼和熊掌能否兼得
  44. 华为盘古大模型首次开源
  45. 1.2万磅蓝莓全美最高等级召回 不只拉肚子还可致命
  46. 传美国解除对中国乙烷出口管制,路透:美中贸易休战
  47. 海豚蛋蛋尺寸惊人:全因它们是滥交高手
  48. 已入籍也不保险!川普动手 这10类人恐失去美籍!
  49. “大而美法案”终过关,将送交川普签字
  50. 歼-20的雷达探测距离达到1000公里?
  51. 楼市危机全面爆发 上海房价血亏 杭州跌回2015年
  52. 纽约市府将设五座创新公厕
  53. 美6月私企就业人数减3.3万 为两年来首次下降
  54. 达·芬奇“维特鲁威人”隐藏几何密码被揭开
  55. 王毅:稀土不会成为中欧之间的问题
  56. 【名家专栏】遏制行政国家 维护总统权力
  57. 女性就业难 国企是挤兑“妈妈岗”的重灾区
  58. 专家:中共治国荒腔走板 政权衰败征兆
  59. 李在明:韩朝不应互相敌对
  60. 姐姐讲述模特弟弟被骗缅甸细节