谷歌要重夺王座:Gemini 3.1 Pro发布

2026-02-19 19:26:17 · chineseheadlinenews.com · 来源: 腾讯科技

谷歌要重夺王座:Gemini 3.1 Pro发布



2025年11月,谷歌发布的Gemini 3 Pro曾短暂封王,但很快就被OpenAI和Anthropic的新模型挤下了宝座。不过,这场竞赛的残酷之处就在于,优势可能转瞬即逝。

就在2026年2月19日深夜,谷歌带着名为“Gemini 3.1 Pro”的新模型杀了回来。官方数据看着挺吸引人:在一项衡量AI解决全新逻辑问题能力的“怪考题”ARC-AGI-2上,Gemini 3.1 Pro的得分直接翻了一倍多,冲到77.1%。

第三方机构Artificial Analysis的测试也显示,Gemini 3.1 Pro的综合智能指数已经悄悄爬到了第一,把Claude Opus 4.6甩在了身后。



在Benchmark上,它没有选择去争那些靠用户投票的“人气榜”,专注在硬核推理、编码能力和成本控制上,摆出一副要跟开发者和企业用户“务实合作”的姿态。

最关键的是,性能涨了,价格却没变。谷歌这次,似乎是铁了心要用“加量不加价”的策略,把丢掉的头衔再抢回来。

01 “三级思考”模式

之前的Gemini 3 Pro可能会让人觉得它够快、够强,但有时候答案还是有点“飘”。这次的Gemini 3.1 Pro,谷歌把重点放在了“核心推理能力”上,换句话说,就是让它更会“动脑子”了。

这最直观地体现在名为ARC-AGI-2的测试里。这个测试考的不是死记硬背,全是些没见过的新逻辑题,专门用来检验AI真正的推理能力。





Gemini 3.1 Pro的得分在各项标准测试中均碾压同类竞品

Gemini 3 Pro之前的得分是31.1%,而Gemini 3.1 Pro一口气冲到了77.1%。谷歌DeepMind的老板戴密斯·哈萨比斯(Demis Hassabis)也特地发文说,这标志着模型在核心推理和问题解决能力上有了重大改进。

但真正的杀手锏,还不是得分。Gemini 3.1 Pro这次引入了一个“三级思考”模式——低、中、高。你可以把它理解为给模型装了一个可以调节的“算力旋钮”。简单说,就是用户可以根据任务难度,自己决定让模型花多少时间思考。

之前的Gemini 3 Pro只有两档:低和高。这次Gemini 3.1 Pro在中间加了一档,同时调整了“高”模式的含义。调到高的时候,模型会进入类似Deep Think的状态。Deep Think是谷歌上周更新的推理模型,特点是花更多时间处理复杂问题。现在Gemini 3.1 Pro自己就能做这件事,不用单独切换。

这个功能主要解决一个实际问题。以前开发者处理不同难度的任务,往往需要准备多个模型,简单对话用一个,复杂推理用另一个。接口不同,计费不同,还得自己写逻辑判断该调用哪个。时间长了,这套东西维护起来比较麻烦。

现在一个模型就够了。常规任务用低档,可以快速返回;复杂任务用高档,让它多花点时间处理。不用来回切换,也不用维护多个模型。

02 “抢王座”,跑分大比分获胜

既然是来“抢王座”的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6这些老对手掰掰手腕。

从纸面数据看,Gemini 3.1 Pro这次确实挺能打。Artificial Analysis的智能指数测试里,它在10项评估中拿下了6项第一,包括Terminal-Bench Hard(编码)、GPQA Diamond(科学知识)和Humanity's Last Exam(推理知识)。



在Artificial Analysis的智能指数测试中,Gemini 3.1 Pro吊打对手

尤其在测试模型是否“不懂装懂”的AA-Omniscience幻觉率上,Gemini 3.1 Pro比前代狂降了38个百分点,这意味着它现在更清楚自己“不知道什么”,而不是瞎编一通。



在AA-Omniscience测试中,Gemini 3.1 Pro幻觉率大幅下降

在一项针对研究级物理推理问题的CritPt测试中,Gemini 3.1 Pro更是拿下了18%的分数,比第二名的模型高出5个百分点以上。Artificial Analysis对此评价称,这表明谷歌这次在底层智能上确实下了狠功夫。

不过,AI圈的竞争从来不只是“考高分”。在更贴近用户体验的Arena排行榜上,情况就没那么一边倒了。这个榜单靠用户给不同模型的回答投票排名,比的不是逻辑对错,而是谁的回答看起来更“顺眼”。目前,在纯文本任务上,Claude Opus 4.6依然领先Gemini 3.1 Pro 4分,在代码任务上,Opus系列和GPT-5.2也还保持着微弱优势。



Arena的排名可能会奖励那些回答“看起来正确”但未必真正正确的模型,而Gemini 3.1 Pro这次在减少幻觉上的进步,恰恰是为了追求“真正的正确”。这似乎反映出谷歌和竞争对手在路线上的微妙差异:一个更执着于解决硬核问题,另一个则在讨好普通用户的“感觉”上更胜一筹。

03 不只是代码,还能读懂《呼啸山庄》的“氛围”

跑分和排名终究是数字,Gemini 3.1 Pro到底能干什么?谷歌这次展示的几个例子,倒是比以往生动了不少。

最让人印象深刻的是它的“创意编程”能力。比如,让它为《呼啸山庄》设计一个现代风格的个人作品集网站。Gemini 3.1 Pro不只是简单总结书的内容,可以“推理”出小说那种阴郁、狂野的氛围,然后把它转化成一个时尚、现代的界面设计。



Gemini 3.1 Pro根据小说设计的网站

另一个例子是3D交互。Gemini 3.1 Pro能直接生成一段代码,创造一个复杂的3D欧椋鸟群模拟。你甚至可以用手去追踪和操控鸟群,鸟群飞舞的同时,还有根据它们运动变化生成的背景音乐。



Gemini 3.1 Pro拥有强大的3D交互能力,可创造并用手指操控鸟群

来自初创公司Cartwheel的联合创始人安德鲁·卡尔(Andrew Carr)在试用后就发现,这个模型对3D空间变换的理解比之前强了一大截,以前做3D动画时老是搞错的旋转顺序问题,在Gemini 3.1 Pro上居然被完美解决了。

对于普通用户来说,最实用的可能是生成动画SVG。以前你想做个网页小动画,可能要懂设计、会剪辑。现在,直接给Gemini 3.1 Pro一句描述,它就能生成一段纯代码构建的动画,不仅在任何屏幕上放大都清晰,文件还特别小。这被不少人看作是“氛围编程”的开始。



Gemini 3.1 Pro可以通过简单提示生成动画SVG

强大的推理能力还让Gemini 3.1 Pro打破了复杂API与人性化设计之间的壁垒。谷歌展示的一个例子里,模型直接构建出一个实时的航天数据看板,完美接入公开的遥测数据流,将国际空间站的实时运行轨迹清晰地展现在你眼前,将一堆冷冰冰的数据接口变成了普通人也能看懂的交互界面。



Gemini 3.1 Pro直接接入遥测数据流,构建航天数据交互界面

值得一提的是,此前参与了Gemini 3 Deep Think研究的姚顺宇也在社交平台上介绍了这项新突破。他特别提到,这次的升级只是开始,“后续还会有更好的模型源源不断地涌现”。



04 开发者亲测:更强、更快、还更省钱

光看官方演示还不够,真正上手用的开发者怎么说?

JetBrains的AI总监弗拉迪斯拉夫·坦科夫(Vladislav Tankov)分享了他的测试感受。他给出的评价很直接:与前代相比,Gemini 3.1 Pro质量提升了15%,“更强、更快……而且更高效,需要的输出token更少”。这意味着对于开发团队来说,同样的任务,Gemini 3.1 Pro不仅能干得更好,而且可能因为输出更精炼,让API账单变得更便宜。

Hostinger Horizons的产品负责人代纽斯·卡沃柳纳斯(Dainius Kavoliunas)说,即使是没什么编程经验的“非开发者”,也能通过Gemini 3.1 Pro把自己模糊的想法,变成风格准确的代码,模型似乎能理解指令背后的“意图”。

当然,也不是所有方面都完美。

虽然Artificial Analysis的数据显示,Gemini 3.1 Pro在现实世界的智能体任务上进步很大,得分从56.9%涨到了68.5%,但在这个领域它还不是绝对的王者,Claude Sonnet 4.6和GPT-5.2等对手依然跑在前面。

05 不用换钱包,现在就能上手试

说了这么多,最关键的问题来了:Gemini 3.1 Pro什么时候能用?贵不贵?

答案是:现在就能用,而且不涨价。从2月19日开始,Gemini 3.1 Pro就以预览版的形式逐步上线了。

普通用户打开Gemini应用或者NotebookLM(目前仅限Pro和Ultra订阅者)就能尝鲜,开发者则可以通过Google AI Studio、Gemini CLI,或者在Android Studio里直接调用Gemini API。至于企业客户,Gemini 3.1 Pro已经出现在Vertex AI和Gemini Enterprise里了。

最让人意外的是定价。Gemini 3.1 Pro保持了和Gemini 3 Pro完全一样的价格:输入每百万tokens 2美元起,输出每百万tokens 12美元起。Artificial Analysis算了一笔账:跑完他们整个智能指数测试集,Gemini 3.1 Pro的花费还不到Claude Opus 4.6的一半。



谷歌凭借Gemini 3.1 Pro重返智能成本前沿

谷歌DeepMind的首席科学家杰夫·迪恩(Jeff Dean)也站出来力挺,他放出了一个并排对比视频,展示Gemini 3.1 Pro生成的动画明显比上一代更清晰、更流畅。



迪恩还转发了另一条用Gemini 3.1 Pro从零开始模拟城市规划的动图,直接生成一个可交互的全新城市设计界面。从道路布局到功能分区,模型不是简单画张图,而是搭建了一个你可以上手调整、实时探索的“数字沙盘”。



谷歌CEO桑达尔·皮查伊(Sundar Pichai)亲自下场,强调了这次在核心推理能力上的翻倍提升,并表示新模型非常适合处理那些“将创意项目变为现实”的复杂任务。



值得一提的是,这次只是“3.1”而不是“3.5”或“4.0”。从去年11月到现在才三个月,谷歌就通过这种迭代式的版本更新,实现了如此大的性能飞跃,这比直接跳版本号更让人印象深刻。这说明,AI竞赛的节奏正在变得越来越快。


    24小时新闻排行榜更多>>
  1. 中共收紧出境政策 退休官员出国难
  2. 中共统战片《澎湖海战》撤档 引发猜想
  3. 自媒体爆中共公安部企业欠薪2年 遭删文
  4. 排队10小时也要吃 年轻人的年夜饭被寿司郎们承包
  5. 浮香动处,梅花谢后百花开
  6. 法国1万人村庄连续10年自费过春节,当地华人揭秘
  7. 华人男子在美密谋病毒战
  8. 温家宝选这天“露面” 党媒释信号:“春华向上”
  9. 跟随傅作义起义的四军长,结局如何?
  10. 大陆消费者取消酒店预订 凌晨收到恐吓短讯
  11. 金与正“高度评价”韩方表态
  12. 以缩写XJP称呼朋友 大陆网友除夕夜差点入狱
  13. 敏感时刻,美国防长在“悠闲度假”
  14. 郑丽文撞钟红绳“狂抖”吓到花容失色 网友:佛祖认证的坏人
  15. 十亿年的提前到来 宇宙星系团的成长谜题
  16. “跳船”成风 传北京将反腐扩大至“半裸官”
  17. 汤唯回娘家探亲,女儿女神范十足
  18. 为何一到过年,很多家庭就吵架?
  19. 军队坐镇春晚?传齐桥桥被软禁 山东大汉含泪咬包子
  20. 崇祯能智除魏忠贤,为何救不了大明?
  21. 苹果与纳指相关性创20年新低
  22. 福建2名女孩扶起摔倒女子 反被索赔22万元
  23. 王菲的春晚造型史:一部中国时尚先锋录
  24. 尹锡悦被判无期,会被赦免吗?
  25. “有钱没钱都不消费” 大陆过年市场明显冷清
  26. 尹锡悦一审被判无期徒刑
  27. 安德鲁被捕后将被拘留多久?什么是“公职不当行为”?
  28. 对于伊朗和油价,川普“自信过头”
  29. “年入224万,利润0” 四川外卖店老板白忙一整年
  30. 纽约市地产税拟涨9.5%
  31. 白宫帐号晒出“Taiwan+国旗“!与中国并列22大贸易伙伴
  32. 微软和谷歌在新德里全球人工智能峰会宣布新投资计划
  33. 俄罗斯只有两种人:莫斯科老爷和臭外地的
  34. 意大利专抓偷文物的“特工”,你知道有多硬核?
  35. 向和平委员会捐100亿 川普集结47国 砸钱加沙买和平
  36. 白藤江陷阱:古代中国海军的地缘斩杀线
  37. 俄罗斯警告美国:后果严重
  38. 川普关税满一年:美国2025年货物逆差仍全面失守
  39. 上海市徐汇区委原书记鲍炳章一审获刑14年
  40. 伊朗:已进入全面战备状态
  41. 日本松下,怎么被中国电池企业干趴下的?
  42. 他警告:这才是真正危机 美国正被极少数人重构
  43. 弟弟安德鲁被警方逮捕,英国国王查尔斯三世发声
  44. 华侨回国观察:街头空荡荡 物价低到离谱
  45. 中共“春晚”成大型带货直播?民讽:办晚会是为卖货
  46. 不想肾脏受损,少吃这3种蔬菜
  47. 任天堂的陪伴玩具:爱聊,但不是跟你聊
  48. 第三篇 搬家轶事(上)
  49. 泽连斯基:将尽快结束俄乌冲突
  50. 细数在温哥华开车遇到的坑爹RCMP警察
  51. FOMC会议纪要揭示美联储利率路径存分歧
  52. 科技股力撑美股两连阳,美联储担忧通胀
  53. 中共高调推机器人 专家析隐藏经济结构危机
  54. 春节变春劫?传齐桥桥被软禁 山东大汉含泪狠咬包子
  55. 赴美一年不申请绿卡,这些群体将一律被逮捕
  56. 广东一女子保险理赔被拒后 保单在平台消失
  57. 美国威胁大改北美贸易协议 甚至把加拿大排除在外
  58. 贸易零关税,能否打破中非贸易结构性失衡?
  59. 美伊谈判结束后,白宫放话
  60. 邪不侵正 瘟疫都会自动退避