谷歌要重夺王座?

2026-02-21 03:25:16 · chineseheadlinenews.com · 来源: 腾讯科技

2025年11月,谷歌发布的Gemini 3 Pro曾短暂封王,但很快就被OpenAI和Anthropic的新模型挤下了宝座。

AI世界的王座更替,比手机发布会还快。

就在2026年2月19日深夜,谷歌带着名为“Gemini 3.1 Pro”的新模型杀了回来。官方数据看着挺吸引人:在一项衡量AI解决全新逻辑问题能力的“怪考题”ARC-AGI-2上,Gemini3.1 Pro的得分直接翻了一倍多,冲到77.1%。

第三方机构Artificial Analysis的测试也显示,Gemini3.1 Pro的综合智能指数已经悄悄爬到了第一,把Claude Opus 4.6甩在了身后。

强调硬核推理、编码能力和成本控制,摆出一副要跟开发者和企业用户“务实合作”的姿态。

幻觉率继续降低,在测试模型是否“不懂装懂”的AA-Omniscience幻觉率上,Gemini3.1 Pro比前代模型大降了38%。

最关键的是,性能涨了,价格却没变。谷歌这次,似乎是铁了心要用“加量不加价”的策略,把丢掉的头衔再抢回来。

01 “三级思考”模式

之前的Gemini 3 Pro可能会让人觉得它够快、够强,但有时候答案还是有点“飘”。这次的Gemini3.1 Pro,谷歌把重点放在了“核心推理能力”上,换句话说,就是让它更会“动脑子”了。

这最直观地体现在名为ARC-AGI-2的测试里。这个测试考的不是死记硬背,全是些没见过的新逻辑题,专门用来检验AI真正的推理能力。

Gemini 3.1 Pro的得分在各项标准测试中均超越同类竞品

Gemini 3 Pro之前的得分是31.1%,而Gemini3.1 Pro一口气冲到了77.1%。谷歌DeepMind的老板戴密斯·哈萨比斯(Demis Hassabis)也特地发文说,这标志着模型在核心推理和问题解决能力上有了重大改进。

但真正的杀手锏,还不是得分。Gemini 3.1 Pro这次引入了一个“三级思考”模式——低、中、高。你可以把它理解为给模型装了一个可以调节的“算力旋钮”。简单说,就是用户可以根据任务难度,自己决定让模型花多少时间思考。

之前的Gemini 3 Pro只有两档:低和高。这次Gemini3.1 Pro在中间加了一档,同时调整了“高”模式的含义。调到高的时候,模型会进入类似Deep Think的状态。Deep Think是谷歌上周更新的推理模型,特点是花更多时间处理复杂问题。现在Gemini3.1 Pro自己就能做这件事,不用单独切换。

这个功能主要解决一个实际问题。以前开发者处理不同难度的任务,往往需要准备多个模型,简单对话用一个,复杂推理用另一个。接口不同,计费不同,还得自己写逻辑判断该调用哪个。时间长了,这套东西维护起来比较麻烦。

现在一个模型就够了。常规任务用低档,可以快速返回;复杂任务用高档,让它多花点时间处理。不用来回切换,也不用维护多个模型。

02 “抢王座”,跑分获胜

既然是来“抢王座”的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6这些老对手掰掰手腕。

从纸面数据看,Gemini 3.1 Pro这次确实挺能打。Artificial Analysis的智能指数测试里,它在10项评估中拿下了6项第一,包括Terminal-Bench Hard(编码)、GPQA Diamond(科学知识)和Humanity's Last Exam(推理知识)。

在Artificial Analysis的智能指数测试中,Gemini 3.1 Pro吊打对手

尤其在测试模型是否“不懂装懂”的AA-Omniscience幻觉率上,Gemini3.1 Pro比前代狂降了38个百分点,这意味着它现在更清楚自己“不知道什么”,而不是瞎编一通。

在AA-Omniscience测试中,Gemini 3.1 Pro幻觉率大幅下降

在一项针对研究级物理推理问题的CritPt测试中,Gemini3.1 Pro更是拿下了18%的分数,比第二名的模型高出5个百分点以上。Artificial Analysis对此评价称,这表明谷歌这次在底层智能上确实下了狠功夫。

不过,AI圈的竞争从来不只是“考高分”。在更贴近用户体验的Arena排行榜上,情况就没那么一边倒了。

这个榜单靠用户给不同模型的回答投票排名,比的不是逻辑对错,而是谁的回答看起来更“顺眼”。目前,在纯文本任务上,Claude Opus 4.6依然领先Gemini 3.1 Pro 4分,在代码任务上,Opus系列和GPT-5.2也还保持着微弱优势。

Arena的排名可能会奖励那些回答“看起来正确”但未必真正正确的模型,而Gemini 3.1 Pro这次在减少幻觉上的进步,恰恰是为了追求“真正的正确”。

当然,也不是所有方面都完美。

虽然Artificial Analysis的数据显示,Gemini3.1 Pro在现实世界的智能体任务上有进步,得分从56.9%涨到了68.5%,但在这个领域,Claude Sonnet 4.6和GPT-5.2等对手依然跑在前面。

03 不只是编码,还能读懂《呼啸山庄》的“氛围”

跑分和排名终究是数字,Gemini 3.1 Pro到底能干什么?

最让人印象深刻的是它的“创意编程”能力。比如,让它为《呼啸山庄》设计一个现代风格的个人作品集网站。Gemini3.1 Pro不只是简单总结书的内容,可以“推理”出小说那种阴郁、狂野的氛围,然后把它转化成一个时尚、现代的界面设计。

另一个例子是3D交互。Gemini3.1 Pro能直接生成一段代码,创造一个复杂的3D欧椋鸟群模拟。你甚至可以用手去追踪和操控鸟群,鸟群飞舞的同时,还有根据它们运动变化生成的背景音乐。

来自初创公司Cartwheel的联合创始人安德鲁·卡尔(Andrew Carr)在试用后就发现,这个模型对3D空间变换的理解比之前强了一大截,以前做3D动画时老是搞错的旋转顺序问题,在Gemini3.1 Pro上居然被完美解决了。

对于普通用户来说,最实用的可能是生成动画SVG。以前你想做个网页小动画,可能要懂设计、会剪辑。现在,直接给Gemini 3.1 Pro一句描述,它就能生成一段纯代码构建的动画,不仅在任何屏幕上放大都清晰,文件还特别小。这被不少人看作是“氛围编程”的开始。

强大的推理能力还让Gemini3.1 Pro打破了复杂API与人性化设计之间的壁垒。谷歌展示的一个例子里,模型直接构建出一个实时的航天数据看板,完美接入公开的遥测数据流,将国际空间站的实时运行轨迹清晰地展现在你眼前,将一堆冷冰冰的数据接口变成了普通人也能看懂的交互界面。

Gemini3.1 Pro直接接入遥测数据流,构建航天数据交互界面

值得一提的是,此前参与了Gemini 3 Deep Think研究的姚顺宇也在社交平台上介绍了这项新突破。他特别提到,这次的升级只是开始,“后续还会有更好的模型持续推出”。

04 价格不变

说了这么多,最关键的问题来了:Gemini3.1 Pro什么时候能用?贵不贵?

现在就能用,而且不涨价。从2月19日开始,Gemini 3.1 Pro就以预览版的形式逐步上线了。

普通用户打开Gemini应用或者NotebookLM(目前仅限Pro和Ultra订阅者)就能尝鲜,开发者则可以通过Google AI Studio、Gemini CLI,或者在Android Studio里直接调用Gemini API。至于企业客户,Gemini3.1 Pro已经出现在Vertex AI和Gemini Enterprise里了。

最让人意外的是定价。Gemini 3.1 Pro保持了和Gemini3 Pro完全一样的价格:输入每百万tokens 2美元起,输出每百万tokens 12美元起。Artificial Analysis算了一笔账:跑完他们整个智能指数测试集,Gemini 3.1 Pro的花费还不到Claude Opus 4.6的一半。

谷歌DeepMind的首席科学家杰夫·迪恩(Jeff Dean)也站出来力挺,他放出了一个并排对比视频,展示Gemini3.1 Pro生成的动画明显比上一代更清晰、更流畅。

谷歌CEO桑达尔·皮查伊(Sundar Pichai)亲自下场,强调了这次在核心推理能力上的翻倍提升,并表示新模型非常适合处理那些“将创意项目变为现实”的复杂任务。

最后,值得注意的是,这次只是“3.1”而不是“3.5”或“4.0”。


    24小时新闻排行榜更多>>
  1. 出大事了 网传:68岁老汉用镰刀干翻37名狗官
  2. 中国生活成本只有美国38%?
  3. 马兴瑞或被抛出 专家:中共恐现文革后最大震荡
  4. 和尚展现神迹 刀剑不入肉身不腐
  5. 克宫回应高市早苗:不太可能
  6. 【名家专栏】中共通过多种方式悄然渗透美国
  7. 本周末风雪将袭击美东 气象部门吁做好预防
  8. 杨杰凯出书称中国有一个“按需杀人取器官”体系
  9. 中共严查准裸官及严管出境 专家指权斗恐加剧
  10. 老话“家败有征兆,三声不可闻”是哪三声?
  11. 彭博:中国无人机正经由泰国新路线出口俄罗斯
  12. 顺其自然,才是高明的智慧
  13. 基因决定了你是不是一个好爸爸
  14. 中国年轻人追捧“回旋镖”旅行
  15. 伊朗:愿迅速达成协议
  16. 美近10亿美元科研经费流向与中国军工实验室合作项目
  17. 美国:将对欧洲实施对等报复
  18. 土耳其男子被食物噎到 用椅背自救成功
  19. 20年没办的游神,为什么这两年忽然火了
  20. 川普签署10%全球关税令 启动301调查
  21. 最高法院裁定关税违法 川普改用贸易法推进新一轮征税
  22. 美重塑“和平队”机构 对抗中共影响力扩张
  23. 伊州州长向川普开出86亿美元关税退款请款单
  24. 美前“印太沙皇”:习“大清洗”解放军让美台暂时安心
  25. 安德鲁王子跪地与小男孩玩“乳房”球,画面令人不适
  26. 高市早苗个人官网屏蔽其约1000篇专栏文章,原因是...
  27. 高市早苗“密令”曝光 台海若战 自卫队必出兵
  28. 挪威创冬奥单队单届最高金牌数 无愧头号冰雪强国
  29. 重兵压境、E-3出动,美伊战争一触即发?
  30. 美媒又传出张又侠被抓细节的新说法
  31. 美国电力公司同意支付5.75亿美元 解决山火索赔
  32. 民众携拜登签名证书求“改名” 川普:我的非自动笔
  33. 长和恳请巴拿马,愿重新谈判
  34. 路透社披露川普访华日程 欧盟英加审慎因应关税判决
  35. 川普回忆2017年访华 赞叹中国仪仗队强大阵容
  36. 浙江卫视拒播央视春晚 中共宣传喉舌纷纷造反
  37. 颈椎腰椎如何保健 老中医:脊椎正直是关键
  38. 美军强化军事部署 伊朗称愿与美国迅速达成协议
  39. 长和向巴拿马提谈判请求:愿重谈合约所有条款
  40. 不再追求稳定向上!中国年轻人对“好工作”有新标准
  41. 川普:将加征10%全球性关税 未来或更多
  42. 摩根大通报告:美企对华支付显着下降
  43. 变味的“旅游” 一场伪装成度假的绝地大逃亡
  44. 交通部清理商业驾训学校 拟关闭逾550家
  45. 美军杀妻疑犯潜逃香港 制裁政治箭终成伤己回力镖
  46. 紧急措施关税被判违法 川普还有哪些方案
  47. 前副总理曾培炎缺席团拜会 利益地盘被清洗
  48. 谷歌Gemini出狠招挖墙脚 让ChatGPT用户无痛搬家
  49. 坎伯:拜登当年任总统时“顶着压力”谈协防台湾
  50. 关税违宪美国如何退钱 1700亿美元法律大战将打响
  51. 94岁“寇克舰长”将推重金属专辑
  52. 机器人登春晚为面子工程?员工搬机器人下台惹议
  53. 川普批评最高法院关税裁决 称将签署命令征税
  54. 川普:关税裁决后 部分贸易协定前景不明
  55. 白宫官员:川普于3月31日至4月2日访华
  56. 把一个投资房租出去了
  57. 近十年最佳武侠大片,凭啥是它?
  58. 通向AI天堂的道路经过地狱
  59. 美媒:习近平是如何抓捕张又侠的?
  60. 川普被曝考虑对伊动武 伊俄军演 中国没参加