谷歌Gemini 3深夜炸场

2025-11-20 13:25:26 · chineseheadlinenews.com · 来源: 新智元

来了。

预热了快一个月的 Gemini 3 Pro,就在刚刚,正式在 Google AI Studio 上线 Preview 版,API 也同步开放。接下来将陆续上线Google的各项产品中。

没有任何多余的废话,打开 Model Card,满眼写着的只有两个字:碾压。

按照 Google 披露的测试数据,Gemini 3 Pro 毫无悬念地成为了目前地球上数学最强的 AI。在数学竞赛的“地狱模式”MathArena 里,当包括 GPT-5.1 在内的其他大模型还在 1% 上下挣扎时,Gemini 3 Pro 直接干到了23.4%。

编程能力方面,虽然在 SWE-Bench 上未拿 SOTA----但绝对属于第一梯队。Live Code Bench 的 Elo 得分超过 2400 分 ,在工具调用和终端操作基准测试中更是名列第一。

真正炸裂的是它的“视觉智能”。

对屏幕截图的理解能力高达72.7%,是目前最先进水平的两倍。这意味着 Agent 不再是瞎子,它将彻底重塑 AI 操作计算机的模式。

但这还没完,Google 今晚还顺手扔出了一个小王炸:自家的 Agentic 编程平台----Google Antigravity。

此前网传 Gemini 3 能实现“端到端编程”,大家以为是模型成精了。但看起来,并不是模型成精,而是 Google 正在探索如何用更好的系统工程实现端到端编程。

如果说 Cursor 是目前最强的“外骨骼”,它通过 AI 补全让你写代码更快;那 Antigravity 就是奔着“自动驾驶”去的。它不再只是一个编辑器,而是一个智能体优先(Agent-first)发环境。集成了 Gemini 3 和能操控浏览器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己写代码、自己开终端跑测试、甚至自己打开浏览器验证 UI,发现报错自己修。

不讲故事,只拼肌肉。

Google 用这一波硬核发布宣告:新王已至。

有趣的是,这次连 Sam Altman 都献上了自己的点赞。:)

01

霸榜的暴力美学:不止是智商洗榜,更是 Agent 能力的变化

在 AI 圈子里,大家习惯了模型之间你追我赶的微弱优势,但 Gemini 3 Pro 抛出的这份成绩单,可以说十分耀眼。

根据 Model Card 披露的数据,Gemini 3 Pro 在推理、多模态、Agent 工具使用等关键基准上,实现了全方位的霸榜。

让我们先看一看代表人类智力“天花板”的测试----Humanity's Last Exam(人类最终大考)。这是一个衡量学术推理极限的标尺,GPT-5.1 在此前的测试中得分为 26.5%,Claude Sonnet 4.5 仅为 13.7%。而 Gemini 3 Pro 它直接轰出了37.5%的高分。在高端推理层面,这 10 个百分点的差距,意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。

但这还不是极限。Google 甚至还藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情况下,它在 HLE 上的得分进一步飙升至41.0%。看起来人类最后的堡垒也并不能持续很久了。

数理方面的每一个领域,都能看出它的统治力。

AIME 2025(美国数学邀请赛):配合代码执行(Code Execution),Gemini 3 Pro 的准确率达到了惊人的100%。没错,是满分。即便是“裸考”(无工模式),它也有 95.0% 的准确率(相比之下,GPT-5.1 为 94.0%,Claude Sonnet 4.5 为 87.0%)。

MathArena Apex(数学竞赛地狱模式):

当包括 GPT-5.1 在内的其他大模型还在1%上下挣扎时,Gemini 3 Pro 直接干到了23.4%。这意味着在很多以前 AI 根本“看不懂题”的领域,Gemini 3 已经开始解题了。

而更关键的是 Agent 相关能力的提升。

Gemini 一向在多模态能力上领先,这一代更是专门优化了屏幕理解(Screen Understanding)。这是下一代 Agent 能否真正接管人类电脑的关键。

看ScreenSpot-Pro这一栏数据:

GPT-5.1:3.5%(这基本意味着它是个“瞎子”)。

Gemini 3 Pro:72.7%。

这是近乎20 倍的能力碾压!这标志着 Gemini 3 Pro 已经不再是一个单纯的对话框,它具备了真正意义上的“视觉智能”,能够像人类一样理解复杂的操作系统界面。

在一些传统强项上,Gemini 3 Pro 仍然表现出色----比如支持1M Token的超大上下文窗口、对多模态数据的“原生支持”、长视频和多语言处理等等。

有一个很有趣的标准也被 Google 挂了上来:在 一个模拟开店赚钱的基准 Vending-Bench 2 上,Gemini 3 Pro 最终赚取了$5,478.16的净资产,而 GPT-5.1 仅赚了 $1,473.43。

不过关于之前网传“彻底端到端终结程序员”的编程能力,Gemini 3 Pro 的状态是在 AI 届顶尖,但并没有“颠覆编程”。

在衡量软件工程能力的SWE-Bench Verified测试中,Gemini 3 Pro 得分为76.2%,虽然很强,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。这意味着在处理超长程、极其复杂的后端逻辑时,它依然有局限性。

这也很合理。每一个大模型目前都在全力卷编程的情况下,想要在这个领域一骑绝尘确实比较难。

目前 Gemini 的能力更偏向于,还不能帮你重构整个后端架构,但如果你想写一个极具现代设计美学的网站、一个 3D 飞船游戏,或者生成复杂的 SVG 交互动画,它能通过一次提示就给出极其惊艳的、可直接运行的结果。

02

Antigravity,Agentic 编程的探索

有了最强的模型和算力,谷歌开始在应用层“掀桌子”了。今晚,谷歌扔出了一个“小王炸”----Google Antigravity。

前一阵新闻的风向还是模型公司努力收购 AI 编程应用公司呢,而 Google 这次则这么快的就发了自己的开发平台。

这不仅仅是一个新的 IDE,它是谷歌定义的Agent-first(智能体优先)开发平台。在这里,开发者从“码农”升级为“架构师”,而 Gemini 3 化身为拥有编辑器、终端和浏览器完整权限的“执行合伙人”。

为了达成这种体验,谷歌甚至在后台配置了一个“模型军团”协同作战:Gemini 3:作为大脑,负责高级推理和代码编写。

Gemini 2.5 Computer Use:作为手眼,专门控制浏览器进行 UI 验证和测试。

Nano Banana:作为美工,负责生成图像和 UI 素材。这种打通了底层模型到顶层交互的闭环体验,对于 Cursor 等现有 AI 编辑器来说,无疑是一次降维打击。

Antigravity 最有趣的能力在于并行。官方材料明确提到,开发者可以与多个智能 Agent 协作,而这些 Agent 能够代表你同时 自主规划并执行复杂的端到端软件任务。

想象一下这种工作流:你下达一个指令,Antigravity 瞬间分裂出多个 Agent----Agent A 负责写后端逻辑,Agent B 负责在终端跑测试用例,Agent C 直接打开浏览器去验证前端 UI 的交互效果。它们并行不悖,像是一个配合默契的敏捷开发小组,而你只需要验收它们提交的“工件”。

Antigravity 是是一个免费平台,网络上目前对于 Antigravity 的使用体验不多,但基本上都是好评。

要达到替代 Cursor 本身,肯定不太行----端到端的复杂编程体验,肯定还需要模型更成熟。但是简单的项目进行编程,或许会更简单了。

03

全家桶齐发力:TPU 与搜索

在大模型发展的后半程,比拼的不再是单一算法的灵光一闪,而是谁的算力更冗余、谁的数据更广阔、谁的投入更持久。Gemini 3 Pro 的胜利,有一点是很特别的:

Gemini 3 Pro 是使用 Google TPU 训练的。

当全世界的 AI 公司都在苦苦等待英伟达 GPU 的发货周期时,谷歌依然坐在自家庞大的 TPU 矿山上。TPU 专为 LLM 训练设计,拥有极高的高带宽内存(HBM),这让它能够轻松处理海量的模型参数和超大的 Batch Size。正是 TPU 的算力冗余,给了 Gemini 3 Pro 肆意扩张参数规模的底气。

有了算力,还要有“燃料”。Gemini 3 Pro 的训练数据是全维度的覆盖:它吞噬了公共网络文档、代码库、图像、音频和视频。更关键的是,谷歌明确提到使用了User Data(用户数据)----当然是在隐私协议框架下,来自谷歌庞大产品生态的用户交互数据。

最后,这种溢出的智能被注入了 Google Search。Google 这次推出了一个全新的AI Mode in Search。当你搜索一个复杂概念(比如 RNA 聚合酶的工作原理)时,Gemini 3 不再是给你扔一堆冷冰冰的链接,而是利用其强大的推理能力,即时生成(Generated on the fly)一个沉浸式的互动图表或模拟工具。

从底层的 TPU 硅基霸权,到中间层的模型智能,再到顶层的 Antigravity 开发生态与生成式搜索----谷歌这一夜展示的,不仅仅是一个满分模型,而是一个只有巨头才能构建的、严丝合缝的未来。

04

实测体验

最后让我们看看网上的一些实测体验吧。

出名的六边形测试的升级款。

不少帖子提及了设计上的美感。

一些物理世界的建模。

前面提到的,Gemini 对于用户界面数据这块做了特别的优化。

开发应用。

在今天,大模型的性能已然超越了跑分的边界。即便是最顶尖、最复杂的前沿基准测试,其测量精度也开始失效。如何科学地量化模型之间的微妙差距,已经成为了一门专门的“量化科学”,仅凭用户简单的实测手感,很难窥见其中的全部玄机。

实测案例更多的也就是用来看看模型本身的审美和 one-shot 直出的状态。

Gemini 3 显然在这次的更新中,在直出的情况下,赢面很大。

当模型直出能力越来越好,对于开发者来说,未来更多的是要看你的品味能不能跑过模型,你的点子是不是足够与众不同了。


    24小时新闻排行榜更多>>
  1. 两高中生奸杀教师被判无期
  2. A股失守3900点,牛市行情结束了吗?
  3. 中共警察发视频劝阻民众别去日本旅游 引嘲讽
  4. 黄仁勋坦言AI泡沫危机:做不好即崩盘
  5. 亚洲规模最大时尚物流中心起火 烧了整整60小时
  6. 黄仁勋:预测中国市场的销量将为零
  7. 印度战机在迪拜航展上坠毁起火 飞行员遇难
  8. 广西女子网购玩偶 赫然发现其眼睛藏有摄像头
  9. 孙雯胡骁案(6):通报中领馆、操控纽约州采购
  10. 分析:反日抗议是双刃剑 北京有顾忌
  11. 万锦华人区Costco广场要卖
  12. 坦赞铁路2.0:一带一路旗舰项目 中国加大非洲投资
  13. 战机航展上坠毁 胡锡进:印空军和航空业威信扫地
  14. 父母报学习班之后,年轻人开始扎堆帮父母“存款搬家”
  15. 中共院士增选结果公布 贿赂阴影再引关注
  16. 香港中联办副主任尹宗华被免去职务
  17. 川普政府取消纽约多场入籍典礼 称多个县法院不符法律规定
  18. 美国考虑允许英伟达向中国出售芯片
  19. 反习派密集动手 4条通告习一夜丢尽“钱袋子”
  20. “反共主力军”震撼出现 中国多省暗访惊现秘密
  21. 美国老年人口激增 照护服务捉襟见肘
  22. 亚马逊最大规模裁员 裁掉数千工程师
  23. 严重设计缺陷削弱全新“福建”号航空母舰功能
  24. 组图:2025迪拜航空展 多国尖端装备亮相
  25. 高市早苗推进日中战略互惠关系
  26. 习当局高调纪念胡耀邦 专家析背后政治博弈
  27. 加拿大紧急发布赴华旅行警告
  28. Bell大裁员,650名管理者被砍
  29. 东南亚电诈园区是如何骗遍全世界的?
  30. 强奸大嫂出狱后刺死见义勇为者,他潜逃近20年被抓
  31. 儿子和女儿被丈夫刘杰毒杀背后:以“爱”为名的毒杀
  32. 美国假日购物季即将来临 慎防窃贼尾随抢劫
  33. 熊袭击南太浩湖居民,内州当局提示防熊
  34. 川普与马姆达尼会面 吁电力公司降低纽约电价
  35. 日本首相官邸前,上千人愤怒
  36. 中共国际器官捐献大会将在广州举行 民骂:滚出广东
  37. 爱泼斯坦档案何时公布?川普签署法案后30天倒数
  38. 川普政府批准佛州等三州近海钻油
  39. 高市推21.3万亿日圆经济计划 应对物价压力
  40. 纪钦耀投书美媒:拒台不利全球合作与安全
  41. 内卷的广州行
  42. 白酒业陷寒冬 业者曝茅台镇近九成酒厂停产
  43. 美FAA斥资百亿启动空管系统重建工程
  44. 2026年度中日韩前瞻计划项目指南发布
  45. 乌这些地区将成为俄领土?
  46. AI芯片热潮助推房价起飞
  47. 川普批准佛州、加州、阿拉斯加外海钻油计划?
  48. 民主?六四主题艺术展 流亡画家夫妇分享理念
  49. 川普白宫会见候任市长马姆达尼 求同存异
  50. 今年以来,中国已经垮塌了3座特大桥
  51. 泰前美女总理佩通坦探狱父亲 他信狱中生活曝光
  52. 救生员未施救 厦门男子在室内游泳池溺亡
  53. 四川农民王燕百亩地被霸占 维权21年遭打残
  54. 民主党亿万富翁斯泰尔 宣布竞选加州州长
  55. BNO永居英语要求暴涨,新增收入限制
  56. 泽伦斯基:准备好与美合作 推进俄乌停战计划
  57. 民调:美国人喜欢民主 但不认为美国制度运作良好
  58. 29国抗议COP30成果文件:不写这条,就拒绝通过
  59. 多个领域开始显出疲态 川普会成“跛脚鸭”总统吗?
  60. 川普对乌下最后通牒,限期接受和谈