Gemini Flash表现超越Pro

2025-12-22 16:25:16 · chineseheadlinenews.com · 来源: 量子位

倒反天罡!

Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数,比超大杯Pro还略胜一筹。

而且Flash的速度和性价比,都是Pro版难以望其项背的。

谷歌解释,这是因为Flash版当中的一些优化技术,还未在Pro里应用。

但用网友的话讲,Flash这样的表现的确提醒我们帕累托前沿已经反转,是时候抛却“旗舰版迷信”了。

Flash表现超越Pro

根据谷歌团队最新披露的详细评测数据,Gemini 3 Flash这一次不仅在智能程度上全面超越了上一代的Gemini 2.5 Pro,还在编程能力和多模态推理等核心性能维度上,直接反超了自家的旗舰Gemini 3 Pro以及竞品GPT-5.2。

在衡量软件工程能力的权威测试SWE-Bench Verified 中,Flash 一举斩获了 78% 的高分。这一成绩不仅在智能程度上全面碾压了上一代的Gemini 2.5 Pro,还反超了自家旗舰Gemini 3 Pro的76.2%。

在AIME 2025数学竞赛基准测试中,结合代码执行能力的Flash得分高达 99.7%,已无限逼近100%的满分大关。

即便是在难度极高、被设计用来难倒现代大模型的Humanity’s Last Exam测试中,Flash的表现也紧追旗舰,在不使用工具的情况下获得了33.7%的分数,与Pro版37.5%的成绩已经处于同一梯队。

除了硬核的智能指标,Flash的响应速度与成本也极具优势。

数据表明,Gemini 3 Flash的推理速度是2.5 Pro的3倍,Token消耗量减少30%,价格也极具竞争力,输入端仅需0.50美元每100万Token,输出端为3美元每100万Token。

虽然略贵于Gemini 2.5 Flash(每百万输入0.3美元/每百万输出2.5美元),但考虑到其性能和速度,这一价格仍然相当具有吸引力。

如果轻量版已经如此强大,甚至在关键指标上实现了反超,那么“超大杯”存在的意义究竟是什么?

对于这个问题,谷歌核心团队给出了一个意料之外的答案——这并非研发事故,而恰恰是他们顶层设计中最为关键的一环。

“Pro的作用就是蒸馏Flash”

就在前几天,Gemini的三位负责人——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer,以及Google AI Studio产品负责人Logan Kilpatrick同台,正式揭示了这背后的战略逻辑。

在谈及旗舰模型的定位时,Oriol Vinyals抛出了极为犀利的观点,他直言Pro模型的主要作用其实就是拿来“蒸馏Flash。

团队认为Flash这样“小而强”的模型对用户至关重要,随着迭代,新一代Flash往往能达到甚至超过上一代Pro的水平。

在理想状态下,Pro的目标是不计成本地探索智能上限,而Flash则通过蒸馏技术继承Pro的能力,并极致优化延迟、成本和吞吐量,未来Pro甚至可能主要作为一个“生成器”,专门用来生产高质量的Flash模型。

但这并不意味着主宰AI发展多年的Scaling Law已经失效。

面对Flash这种“以小博大”的表现,外界很容易产生一种错觉,认为大模型走到头了。

然而在对话中,Vinyals旗帜鲜明地反驳了这一点,他明确表示,与目前流行的“Scaling 结束论”相反,Gemini 团队通过持续扩大规模实现了巨大的性能飞跃,在他看来,前方依然“看不到墙”(No walls in sight)。

Scaling Law虽未消亡,但也确实在发生演变。

Noam认为单纯靠预训练阶段堆砌参数来换取智能增长的路径确实正在逼近极限,“规模神话”不再是唯一的真理,未来的扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute)。

对于未来的演进,三位负责人一致认为后训练(Post-training)是目前最大的“未开垦绿地”。

虽然代码、推理和数学等基准测试已被逐渐“击穿”,但在诸如“规划旧金山旅行”这类开放式任务上,通过后训练提升的空间依然巨大。

参数不再是迷信

Flash带来的冲击波正在引发一场必于“参数至上论”的大讨论。

开发者们惊讶地发现,那个一直以来被视为铁律的“帕累托前沿”竟然发生了倒转——更便宜、更快的模型,现在竟然也是更聪明的模型。

这直接打破了“模型越大越好”的迷信。

针对Flash为何能反杀Pro,Google DeepMind的研究员Ankesh Anand揭示了背后的技术真相——答案在于强化学习。

他明确指出,Flash不仅仅是Pro的简单蒸馏版,它还集成了大量最新的Agentic RL(代理强化学习)研究成果。

这一结果证明了一个核心命题:在提升模型能力的道路上,单纯堆砌参数并不是唯一的路径。

通过更先进的后训练算法(如RL),小模型完全可以实现“降维打击”,在软件工程等关键领域战胜参数量巨大的旗舰模型。

正如开发者所言,现在是时候停止对“旗舰版”的盲目崇拜了。


    24小时新闻排行榜更多>>
  1. 北京七环高速G95河北隧道内 传车辆碰撞爆炸数十人伤亡
  2. 顶级的情商是什么?稳住这4种情绪
  3. 海南“封关”难自救 菜价高 工资低 普通人生活太艰辛
  4. 抗老很简单?每天一小把花生 锁住人体“生物钟”
  5. 川普废除克林顿政策 堵上移民福利漏洞
  6. 女主播以“同意外出发生性关系”诱骗粉丝
  7. 老妇在旧金山失踪,警方呼吁公众协寻
  8. 智库揭北京拼出EUV原型机被夸大 真正威胁是这漏洞
  9. 俄中将遭汽车炸弹袭击身亡
  10. “催收大王”,要被催收了?
  11. 美国11项税收变化1月生效
  12. "台湾有事"发言后 中国稀土反而大量流向日本
  13. “造小”的艺术,用分子构筑新材料
  14. 中国又下最后通牒!要日撤回"台湾有事",小泉防相冷回
  15. 川普将发声明 中国压力下 要“重新造海军”了?
  16. 一份致癌的精子,生下200个孩子
  17. 李宇春近况曝出,成龙的话被印证
  18. 崇祯自缢的歪脖树 正成为当代绝望人的朝圣地
  19. 川普明摆着抢英伟达钱,但一个愿打一个愿挨
  20. 万斯暴怒:攻击我老婆的人 去吃屎吧!
  21. 著名大空头:美国AI发展依赖英伟达注定输给中国
  22. 屁股决定脑袋,鲁比奥对华态度“由鹰转鸽”?
  23. 台商外商撤资!2000万人的广州大萧条!
  24. “中共招募大外宣”录音震撼曝光 “一条红线”分辨亲共网红
  25. "极其动荡的时代":全球经济面临更深刻的不确定性
  26. 广州中学附近发生持刀砍人事件 两学生受伤
  27. 麦当劳CEO直言不讳的职业建议
  28. 关税案将宣判!大法官不挺 川普败诉机率偏高
  29. 日本:全球最大核电站重启在即
  30. 歼-36携带8枚霹雳-17,最高速度达6马赫
  31. 沈舟:中共拒和谈 发动朝鲜战争第五次战役
  32. 五大铁证:中共最早倡导“台独”
  33. Salesforce高管:“幻觉”影响“可靠性”
  34. 从“铁榔头”到“整容狂魔” 64岁郎平大变样
  35. 上涨超20%,2026年10大科技预测公布
  36. MAGA大会砲火四射 裂痕曝光 昔日同盟当众开撕…
  37. 2028美总统大选,这2人呼声最高
  38. 新加坡前外长:稀土是美国头上的金箍,让美国无路可走
  39. 美媒总结川普这一年:将"帝王式总统制"推向新高度
  40. “杀害发小一家三口案”嫌疑人父亲:他毁了好几个家庭…
  41. 前所未有的“军门大开”张又侠的公开羞辱
  42. 中国“少年班”47年:哪些还在招生?毕业又都去了哪?
  43. 日中46条航线航班未来两周全停
  44. 濒死与催眠后想起前世 能与真实人物串连的轮回故事
  45. MIT华裔天才成赌神:周末赢40万 每天只花10刀
  46. 中国LPR连续第七个月维持不变
  47. 快讯:川普宣布打造2艘全新巨型战列舰
  48. 《观点》专栏作家解析习近平威权整顿的隐忧
  49. 中共收买网红录音曝光 “一条红线”分辨大外宣
  50. 某常委驾到南京全市大乱 市民震怒
  51. "奥威尔式的恐惧氛围":中国如何在海外噤声批评者
  52. “海底捞小便门”案详情披露
  53. 上海独居已故女士财产被充公或板上钉钉
  54. 3万美元以下最佳二手车 本田Accord居首
  55. 福原爱宣布再婚怀孕 对象就是“横滨男”
  56. 中国监听日本大使聚餐!北京餐厅老板曝细节
  57. 中共被围剿 曼谷峰会60囯定性“电诈”为全球公敌
  58. 南京博物院退休职工实名举报前院长大规模盗窃走私国宝文物
  59. 日本高官急发警告,空头却在“准备度假”
  60. 俄官员:莫斯科汽车爆炸致一名将军身亡