不要思考过程,推理模型能力能够更强

2025-04-29 05:25:18 · chineseheadlinenews.com · 来源: 量子位

其实……不用大段大段思考,推理模型也能有效推理!

是不是有点反常识?因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。

这个过程往往用时很长,等同于需要消耗大量算力。已经有一些研究尝试提高推理效率,但大多仍依赖显式思考过程。

来自UC伯克利和艾伦实验室团队的最新研究结果打破了这一刻板印象——

通过简单的prompt绕过“思考”这一过程直接生成解决方案,可能同样有效,甚至更好。

这种方法被称为“无思考(NoThinking)”方法。

实验数据显示,在低资源情况(即少token数量、少模型参数)或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果,实现比传统思考方式更好的精度- 延迟权衡。

其他情况下,NoThinking方法在部分数据集上的表现也能超越Thinking。

“思考”和“无思考”

研究团队以DeepSeek-R1-Distill-Qwen模型为基础,提出了NoThinking方法。

咱们先来分辨一下Thinking和NoThinking的区别在哪里。

Thinking方法是传统推理模型所采用的方法,模型先生成一个长的思考过程(Thinking),包含反思、回溯和自我验证等步骤,然后再生成最终解决方案(Final Solution)。

好比你随意丢给模型一个问题,模型可能会先尝试理解问题、分解问题、探索可能的解法,然后逐步验证每个步骤的正确性,最后得出答案。

而研究人员最新提出的NoThinking方法,则通过简单的prompt直接让模型跳过显式的思考过程。

也就是在prompt中预先填充一个空的思考块,如在问题提示后直接添加“Okay, I think I have finished thinking.”,然后让模型直接从这个空思考块开始生成最终解决方案。

例如,在问题提示后直接添加一个表示思考结束的标记,然后让模型生成答案。

截至目前,Thinking是大多数推理模型默认的推理方式。

但NoThinking团队十分质疑这个过程的必要性?

所以团队成员以DeepSeek-R1-Distill-Qwen模型为基础——选择这个模型,是因为它是当前最先进的推理模型之一——设计了无思考(NoThinking)方法。

在NoThinking中,模型的推理过程直接从预填充的思考块开始,跳过了生成详细思考步骤的阶段,直接进入解决方案的生成。

这意味着模型不需要花费时间来构建和输出思考过程,从而减少了生成的token数量,提高了推理速度。

低资源情况下,NoThinking表现优于Thinking

研究人员将NoThinking与Thinking方法在相同的模型和数据集上进行对比实验。

试图通过控制token数量、模型参数等变量,比较两种方法在不同任务上的准确性和效率差异。

他们选用了多个推理数据集来评估模型性能,这些数据集涵盖了不同的推理任务类型和难度级别,能够全面评估模型的推理能力:

包括数学问题解决(如AIME、AMC)、编程(LiveCodeBench)和形式定理证明(MiniF2F、ProofNet)等。

评估指标方面,则主要使用pass@k指标来衡量模型性能。pass@k表示的是“在生成的k个样本中至少有一个正确答案的概率”。

此外,实验过程还关注了token使用量和延迟等指标,以评估模型在资源消耗和响应速度方面的表现。

最后的实验结果怎么样?

综合表现如图所示,这是无token预算下的最终结果:

这是有token预算下的最终结果:

数学问题解决

相同token预算下,在AIME和AMC等数学问题数据集上,NoThinking通常比Thinking表现更好。

例如,在ACM23数据集上,当token数量限制为700时,NoThinking的准确率是51.3%,显著高于Thinking的28.9%。

这表明在数学推理任务中,直接生成解决方案可能比详细思考更有效(尤其是在资源受限的情况下)。

形式定理证明

在MiniF2F和ProofNet数据集上,NoThinking在pass@k指标上与Thinking相当,但使用的token数量显著减少(3.3–3.7倍)。

这表明在需要严格逻辑推理的任务中,即使没有显式的思考过程,NoThinking也能保持高准确性,同时显著降低计算成本。

编程任务

在LiveCodeBench数据集上:

在低token预算下,NoThinking表现优于Thinking

在高token预算下,Thinking有时表现更好

这表明在编程任务中,思考过程可能在资源充足时提供一定优势;但资源受限时,NoThinking的效率更高。

NoThinking的pass@k性能

随着k值(生成的样本数量)增加,NoThinking的pass@k性能通常会超过Thinking。

这表明NoThinking生成的解决方案多样性更高,能够通过多次采样提高准确性。

一个典型的例子体现在AIME24数据集上——

当k=64时,NoThinking在相同token预算下的pass@64准确率显著高于Thinking。

这表明NoThinking在多次尝试中更有可能找到正确答案。

并行扩展实验

实验过程中,团队进一步探索了NoThinking与并行计算扩展结合的潜力。

通过同时生成多个输出并进行聚合(如最佳选择策略),评估这种方法在提高性能和降低延迟方面的效果。

实验结果表明,在结合并行扩展时,NoThinking表现出了显著的性能提升。

对于有Verifier的任务(如MiniF2F和ProofNet),NoThinking结合并行扩展可以实现与Thinking相当甚至更高的准确率,同时将延迟降低7倍,token使用量减少4倍。

在没有Verifier的任务中(如数学问题和编程),使用置信度选择策略的NoThinking也能在低延迟下实现与Thinking相当或更好的准确率。

例如,在AMC2023数据集上,NoThinking在并行扩展下比Thinking快9倍,同时准确率更高。

总体而言,通过同时生成多个输出并选择最佳答案,NoThinking在延迟和token使用量上都优于Thinking。

推理模型依赖于思考过程是“非必要的”

综上所述不难发现,虽然不同任务类型对“NoThinking”和“Thinking”的要求不同,但在低token预算和低延迟情况下,NoThinking表现优于Thinking,并且在并行扩展中展现出更高的效率。

NoThinking方法在多个推理任务中表现出了令人惊讶的有效性表示:

即使跳过了显式的思考过程,模型依然能够生成准确的解决方案。

NoThinking方法证明了“推理模型依赖于思考过程”的非必要性。换句话说,可能存在更高效的方式来实现强大的推理性能,而不依赖于冗长的思考过程。

这与目前普遍认为推理模型需要详细思考过程才能有效工作的观点相悖。

面对这个结果,不少吃瓜群众表达了自己的看法。

有赞成者,比如ExtensityAI的联合创始人兼CTO就表示,这一点也不令人意外。

考虑到蒸馏过程,这个结果并不奇怪——学生可以在微调过程中内化老师的推理,并在推理时提供一条“捷径”。

但也有人表示NoThinking看似可以省略推理过程,但其实要耗费大量人工时间来实现:

结果虽如此,但实际操作里到底有谁会耐心从k个答案里去挑选最佳的那个啊??

不管怎么说,Nothinking还是带给大家一个新视角,往后推理模型的优化,可以朝更简单有效的方向尝试看看。

或许有一天,大家在等推理模型吐精准答案的时候,也不用焦虑地等待那么久了~


    24小时新闻排行榜更多>>
  1. 中企在赞比亚因“生态灾难”遭起诉 金额达800亿美元
  2. 今年首次!美联储降息1码 预计年内还降两次
  3. 微软在华产品又被曝留后门
  4. 那个睡网吧的躺平小A,怎么就突然消失了?
  5. 湾湾怎么总出邪门CP?
  6. 【佳音时刻】非裔男生入住女宿 重庆高校惹议
  7. 尚不含在校学生 中国官方数据:青年失业率18.9%
  8. 大陆一公司集体降薪 最多降50% 引发争议
  9. 英王举行国宴 大赞川普 强调英美“最密切关係”
  10. 中国拟购500架波音飞机 川普访中“最后谈判阶段”
  11. 德国小伙在中国贫困山区支教10年,然后他去哪了
  12. 房子何时买卖?专业预测加州2026年房市
  13. 最阴毒大佬自订潜规则 送正派老婆来睡才办事
  14. 川普政府援乌解方:北约出资,美国出货
  15. “你们这样玩死我”于朦胧死前被吊窗外 绝望哭喊引来邻居
  16. 美国仅派出国防武官出席香山论坛
  17. 波兰关闭边境 数百中欧班列受阻 王毅游说被拒
  18. 为什么美国的电价上涨这么快?
  19. AI应用快速渗透 引爆美国电力荒!核能重返C位
  20. 中国下令停止采购辉达芯片 美众议长批加剧紧张
  21. 美联储降息了,释放何种信号?
  22. 于朦胧猝逝爆潜规则 葛斯齐揭“北京淫乱派对”内幕 网:细思极恐
  23. 2025年美国电价创下历史新高
  24. 华裔女学生公开挺政治暗杀 美民众:遣返回国
  25. 河南一公职人员霸占农地修坟 村民投诉无果
  26. 满天全是窟窿眼 大灾要来了?
  27. 加州议会通过堕胎药法案 允许医患保持匿名
  28. 美国新版公民考试难度加大 采用口试
  29. 三男子被ICE带走,有人被电击受伤
  30. 美联储会时隔九月降息,鲍威尔重申决策独立
  31. 美国入籍考试变难 题库题量双增 纳入这些新内容
  32. 中国138个收缩型城市名单,是如何出炉的?
  33. 异常信号 习近平“角色”改变 马云强势回归
  34. 分析:中共办香山论坛自娱自乐 西方冷眼观察
  35. 史无前例的抛售大潮,席卷中国各大城市
  36. 中共放宽外资购房限制 专家:难挽楼市颓势
  37. 德媒:欧美效法中国产业政策 不得要领 学错了重点
  38. 崇祯一朝灾祸有多严重?让我们看看历史的记载
  39. 唐元隽从“六四英雄”变“北京间谍” 中共渗透知道少
  40. 曼哈顿2赌场提案遭否决
  41. 日本台湾交流协会访团:日台都面临中共威胁
  42. “俩俩”同时失踪 贵州四川等多地大男孩失联
  43. 美联储降息 美四大银行同步下调优惠利率
  44. 华裔女生引毛语录 主张政治暗杀遭肉搜 网:遣返她
  45. “六四英雄”变“北京间谍” 唐元隽案揭露中共渗透
  46. 中国高校畸形经费指标逼教师“贷款上班”
  47. 河南等省爆发猪盖塔病毒 死亡率极高正向全国蔓延
  48. 消息人士:美国投资者财团 将掌握TikTok运营大权
  49. 鹰击-20的射程和速度,让敌人闻风丧胆
  50. DeepSeek论文Nature,作者梁文锋
  51. 广西书记佩戴的“广西生产”AI眼镜爆火
  52. 奥巴马:美国正处于团结或分裂的转捩点
  53. 批评党委书记 湖南媒体人尹建根遭批捕
  54. 川普“自己人”,投下唯一一张反对票
  55. “共产党是黑社会”重庆小学强制学生买书家长怒吼
  56. 当电视台不再播放商业广告之后,我问:为什么?
  57. 一场思想的巨震,正在美国发生
  58. 要么走账,要么走人…大学老师开始“贷款上班”
  59. 川普致信新公民:美国始终欢迎......
  60. 组图:柯克在犹他谷大学遇害 致哀者络绎不绝