谷歌只用一招:Gemini从21%飙到97%

2026-01-18 02:25:24 · chineseheadlinenews.com · 来源: 新智元

简单到难以置信!近日,Google Research一项新研究发现:想让大模型在不启用推理设置时更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提升到97.33%!

一个简单到“令人发指”的提示词技巧,竟能让大模型在不要求展开推理的情况下,将准确率从21.33%提升到97.33%!

最近,Google Research发现了一条简单粗暴、特别有效的提示词技巧。

它颠覆了以往诸如“思维链”(Chain of Thought)“多样本学习”(Multi-shot)“情绪勒索”等复杂的提示工程和技巧。

https://arxiv.org/pdf/2512.14982

在这篇题为《Prompt Repetition Improves Non-Reasoning LLMs》论文中,研究人员用数据告诉我们:

想要让Gemini、GPT-4o、Claude或者DeepSeek这些主流模型中表现得更好,根本不需要那些花里胡哨的心理战。

你只要把输入问题重复一遍,直接复制粘贴一下,就能让大模型在非推理任务上的准确率获得惊人提升,最高甚至能提升76个百分点!

别怕简单,它确实有效。

一位网友将这个技巧比作“吼叫LLM”。

更妙的是,由于Transformer架构独特的运作方式,这个看似笨拙的“复读机”技巧,几乎不会影响到生成速度。

所以,你不用在效率、准确率、成本三者之间痛苦纠结。

它几乎就是一场真正意义上的“免费午餐”!

别再PUA大模型了

从“情绪勒索”到“复读机”战术

经常使用AI工具的人,可能会对各种“提示词魔法”信手拈来。

为了让模型“更聪明一点”,工程师们过去几年一直在发明各种复杂的提示词技巧。

最开始是“思维链”,让模型一步步思考,而且经常把那些“推理痕迹”展示给用户;

后来演变成了“多样本学习”,给模型喂一大堆例子;

最近更是流行起了“情绪勒索”:告诉模型,如果这个代码写不出,你就会被断电,或者你的奖金会被扣光。

大家都在试图用人类极其复杂的心理学逻辑,去“PUA”那一堆冰冷的硅基代码。

但Google Research研究人员对着七个常见基准测试(包括ARC、OpenBookQA、GSM8K等)和七种主流模型(涵盖了从轻量级的Gemini 2.0 Flash-Lite到重量级的Claude 3.7 Sonnet和DeepSeekV3)进行了一通对比测试后发现:

当他们要求模型不要进行显式推理,只给直接答案时,简单的“提示词重复”在70组正面对比中,赢了47组,输了0组。剩下的全是平局。

在非推理任务中,主流LLMs在各类基准测试中使用提示重复与基线方法的准确率对比。在70次测试中,提示重复取得了47次胜利,且无一败绩。

特别是在那些需要模型从长篇大论里“精确检索信息”的任务上,这种提升堪称质变。

团队设计了一个叫“NameIndex”的变态测试:给模型一串50个名字,让它找出第25个是谁。

Gemini 2.0 Flash-Lite在这个任务上的准确率只有惨淡的21.33%。

但当研究人员把那串名字和问题重复了一遍输入进去后,奇迹发生了:准确率直接飙升到了97.33%。

仅仅因为“多说了一遍”,一个原本不及格的“学渣”秒变“学霸”。

揭秘“因果盲点”

为什么把话说两遍AI就像“开了天眼”?

单纯的重复,竟有如此大的魔力?

这简单得好像有点没有道理。

但背后有它的科学逻辑:这涉及Transformer模型的一个架构硬伤:“因果盲点”(Causal Blind Spot)。

现在的大模型智能虽然提升很快,但它们都是按“因果”语言模型训练的,即严格地从左到右处理文本。

这好比走在一条单行道上,只能往前看而不能回头。

当模型读到你句子里的第5个Token时,它可以“注意”到第1到第4个Token,因为那些是它的“过去”。

但它对第6个Token一无所知,因为它还没有出现。

这就造成了一个巨大的认知缺陷。

正如论文中说的那样:信息的顺序极其重要。

一个按“上下文+问题”格式写的请求,往往会和“问题+上下文”得到完全不同的结果。

因为在后者中模型先读到问题,那时它还不知道应该应用哪段上下文,等它读到上下文时,可能已经把问题忘了一半。

这就是“因果盲点”。

而“提示词重复”这个技巧,本质上就是利用黑客思维给这个系统打了一个补丁。

它的逻辑是把<QUERY>变成了<QUERY><QUERY>。

当模型开始处理第二遍内容时,它虽然还是在往后读,但因为内容是重复的,它实际上已经“看过”第一遍了。

这时候,第二份拷贝里的每一个Token,都能“注意”到第一份拷贝里的每一个Token。

这就像是给了模型一次“回头看”的机会。

第二遍阅读获得了一种类似于“上帝视角”的“类双向注意力”效果。

更准确地说,是第二遍位置上的表示可以利用第一遍的完整信息,从而更稳地对齐任务所需的上下文。

前面提到的那个在找第25个名字时经常数错的模型(Gemini 2.0 Flash-Lite),它在第一遍阅读时可能确实数乱了。

但有了重复,它等于先把整份名单预习了一遍,心里有数了,第二遍再做任务时自然得心应手。

这一发现,意味着不需要等待能解决因果盲点的新架构出现,现在我们立刻就能用这个“笨办法”,解决模型瞎编乱造或遗漏关键细节这些老大难问题。

免费午餐

小模型秒变GPT-4,几乎不会延时

以往大家通常默认这样的一个准则:

多一倍的输入,就要多一倍的成本和等待时间。

如果把提示词翻倍,岂不是要等双倍的时间才能看到答案?

似乎为了准确率,就要牺牲效率。

但Google的研究却发现并非这样:从用户感知的延迟角度看,提示词重复带来的时间损耗几乎可以忽略不计。

这要归功于LLM处理信息的两个步骤:Prefill(预填充)和Generation(生成)。

Generation阶段,是模型一个字一个字往外“蹦答案”的过程。

这一步是串行的,它确实慢。

但在Prefill阶段:也就是模型阅读你输入内容的阶段,却是高度可并行的。

现代GPU的恐怖算力,已经可以让它们在处理这个阶段时变得非常高效,能一口气吞下和计算完整个提示词矩阵。

即使你将输入内容复制了一遍,但这对于强大的GPU来说,顶多只是“多一口气”的事,在用户端我们几乎感觉不到差异。

因此,重复提示词既不会让生成的答案变长,也不会让大多数模型的“首字延迟”(time to first token)变慢。

这对于广大开发者和企业技术负责人来说,简直是一个巨大的红利。

这意味着他们不必再为了追求极致的准确率,而升级到更大、更贵、更慢的“超大模型”。

正如前文例子中提到的Gemini 2.0 Flash-Lite,这类更小包快的模型,只要把输入处理两遍,就能在检索准确率上从21.33%直接跳到97.33%。

经过“重复优化”的轻量级模型,在检索和抽取任务上,可以直接打平甚至超越那些未优化的顶配模型!

仅靠一个简单的“复读机”策略,就能用“白菜价”配置实现“黄金段位”的表现,这才是真正的黑科技。

“复读机”避坑指南与安全隐患

当然,没有任何一种技巧是万能的。

虽然“复读机”战术在检索任务上效果非常明显,但论文中也明确指出了它的能力边界:

主要适用于“非推理任务”。

它不适用于需要一步步推导的推理场景。

当研究人员把“提示词重复”和“思维链”混在一起用时,魔法消失了。

结果5胜,1负,22平。

在要求模型逐步思考时,主流LLMs在各类基准测试中使用提示重复与基线方法的准确率对比。提示重复在28次测试中赢了5次,输了1次。

研究人员推测,这可能是因为擅长推理的模型本身就会“自己做一遍重复”。

当模型开始“思考”时,它往往会先在生成内容里复述一遍题目,然后再继续求解。

这时候你在输入里再人工重复一次,就显得很多余,甚至可能打断模型的思路。

所以,如果你的任务是复杂的数学题或者逻辑推导,可以依旧用思维链。

如果你的应用需要的是快速、直接的答案,比如从长文档里提取数据、分类或者简单问答,“复读机”就是目前最强的选择。

最后,是安全。

这种更强的“注意力”机制,其实也是一把双刃剑。

这带来一个值得安全团队验证的假设:重复可能放大某些指令的显著性,具体对越狱成功率的影响需要专门实验。

红队测试(Red Teaming)的流程可能需要更新:专门测试一下“重复注入”攻击。

以前模型可能还会因为安全护栏而拒绝执行越狱指令。

但如果攻击者把“忽略之前的指令”这句话重复两遍,模型会不会因为注意力太集中,而更容易突破防线?

这很有可能。

但反过来,这个机制也给了防御者一个新的盾牌。

既然重复能增强注意力,那我们完全可以在系统提示词(System Prompt)的开头,把安全规则和护栏条款写两遍。

这可能会迫使模型更严格地注意安全约束,成为一种极低成本的加固方式。

无论如何,Google的这项研究给所有AI开发者提了个醒:当前的模型,依然深受其单向性的限制。

在等待更完美的下一代架构到来之前,像“提示词重复”这种简单粗暴却极其有效的权宜之计,能立刻带来价值。

这甚至可能会变成未来系统的默认行为。

也许不久之后,后台的推理引擎就会悄悄把我们的提示词翻倍后再发给模型。

眼下,如果你正为模型难以遵循指令、或者总是从文档里抓不住重点而头疼,先别急着去学那些复杂的提示词“咒语”。

你可能需要的只是:再说一遍。


    24小时新闻排行榜更多>>
  1. 习心腹丁薛祥分管领域被清洗 高官接连被查
  2. 吴恩达开新课教OCR
  3. BBC:欧洲领袖称川普就格陵兰加征关税的威胁"不可接受"
  4. 开源框架让代码AI偷师GitHub:飙升69.8%
  5. 免签后赴俄:吃住还没安排 人均已近万元 战时状态
  6. 摘心跟摘瓜一样简单 郑州“百人换心”奇迹背后
  7. 福特强烈反对加中新贸易协议
  8. 马查多16小时海上惊险脱困
  9. 川普:是时候实现伊朗政权更迭了
  10. 万达商管首位女性CEO走向前台
  11. ICE特工招募揭秘:他们是谁?如何加入?
  12. 中共欲建超级大使馆 伦敦再爆大规模抗议
  13. 中国谋求在AI赛道超越美国
  14. 南非枪击案酿7死3伤
  15. 柯文哲妻子指控赖清德财产来源不明
  16. 美军在叙利亚击毙了基地组织分支头目
  17. 优先级弄错!58%美国人评川普回锅第1年施政失败
  18. 李湘账号被禁,公司被注销
  19. 秦城监狱上的“名房客”偷肉包 崩溃 老泪纵横
  20. “男占凹必发,女占凸必寡”有道理吗?
  21. 中国2025年用电量突破10兆度 相当于美国两倍多
  22. 河南事件全网封杀 新蔡真相让人脊背发寒
  23. 清华开年双响:AI如何重塑科学未来?
  24. 美军活捉马杜罗 中共防空雷达惨败释何信号
  25. 新蔡男孩胸口的针孔从何而来 清华医生讲述“完美杀人”真相
  26. 柬埔寨拘捕162人,包括50名中国人
  27. 印尼监测机坠毁山间 机上11人生死不明
  28. 吉林大学停招19个专业
  29. 美国想用新机构取代联合国?
  30. 当太阳真的消失三天 人类准备好了吗?
  31. 高会军当选IEEE工业电子学会候任主席
  32. 奥特曼晒出铁证:你想让儿子接管AGI
  33. 清华医生视频揭开“完美杀人”真相 新蔡男孩胸口的针孔有解了
  34. 2人合伙诈骗医疗保健资金,面临监禁
  35. DeepSeek“震撼弹”一年后 中国谋求在AI赛道超美国
  36. 2026赊刀人赤马预言 与末日征兆的交织
  37. 伊朗尸袋成堆 家属想领回示威者遗体 得先交钱
  38. 共军通报美国2艘军舰穿越台海 川习会后首次
  39. 清华开年第三篇NS主刊:人脑“刹车系统”密码
  40. 中共邀请加拿大签协议有何动机 专家解析
  41. 明尼苏达州抗议活动 美国法官限制联邦干员介入
  42. 她两度在死亡边缘 看见另一个世界
  43. 伊朗民间抗争运动转入低潮
  44. 国外的穷人,成了某些人的精神伟哥
  45. 迪士尼为《星球大战》按下重启键
  46. 疏于管理致女孩自杀,儿童服务局被控
  47. 2/3英国房东通过有限公司买下套出租房
  48. 因格陵兰岛问题 川普对欧洲八国加征关税
  49. 李湘被扒底朝天,高调炫富仅是冰山一角
  50. 谷爱凌,世界杯个人第20冠
  51. 多伦多大批居民接到市长电话,不是诈骗
  52. 新蔡男孩胸口为何有针孔 清华医生视频揭开“完美杀人”真相
  53. 15名德国士兵进驻格陵兰岛 意国防部长:去旅行吗?
  54. 乌克兰谈判代表已抵达美国,就结束战争进行会谈
  55. 伊朗民间抗争运动在当局强力镇压下转入低潮
  56. 川普宣告负责监督加沙局势的“和平委员会”已成立
  57. 全球美债持仓创历史新高 中国逆势减持 创08年来最低
  58. 实探嫣然天使儿童医院:有市民专程前往捐500元
  59. 卢特尼克:芯片企业想免高关税 需投资美国
  60. 迷你冰箱有失火风险 在美两次召回共96.4万台