谷歌推出最新AI模型，皮查伊要帮大客户年省10亿-墙外头条

作者声明：该图片由AI生成

谷歌推出最新AI模型，皮查伊要帮大客户年省10亿

图片由AI生成

北京时间5月20日凌晨，谷歌CEO Sundar Pichai在Google I/O 2026的舞台上算了一笔账，谷歌头部大客户每天可以处理约1万亿个token，如果把其中80%的工作负载从其他前沿模型切换到Google新发布的Gemini 3.5 Flash上，一年能省超过10亿美元。

2026年谷歌I/O大会的核心主线仍然是agent，从agent平台（Antigravity）到消费者 agent（Spark）到搜索agent，Google要把agent做成全栈能力。

在这场长达两小时的 Keynote 中，Google 发布了新一代 Gemini 3.5 系列模型、全模态世界模型Gemini Omni、第八代 TPU 双芯片架构，以及从编码工具升级为 agent 管理平台的Antigravity 2.0。

同时，我们也看到了一条新的主线变得更加清晰，Agentic AI时代已经走向中场，前沿模型的核心战场，也在从拼“最强最聪明”，转向了把agent 的运行成本压到企业敢大规模部署的门槛以下。

01 前沿智能+极致速度+一半价格？

谷歌这次发布了Gemini 3.5系列模型，打头阵的是当天就上线的Gemini 3.5 Flash。

过去几年，企业在用生成式AI时一直面临一个痛苦的抉择。最能干的模型，通常又大又慢，查询成本也高。反过来，那些更快、更便宜的模型，往往要牺牲准确性。

Gemini 3.5 Flash号称要改变这种局面。

皮查伊将它描述为谷歌内部的“游戏规则改变者”，用起来“令人难以置信的愉悦”。

他给出了一个直观的对比：Gemini 3.5 Flash的整体表现，全面超过了四五个月前还是谷歌顶级旗舰的Gemini 3.1 Pro。皮查伊的原话是：“Gemini 3.5 Flash比Gemini 3.1 Pro更好。它的性能能达到前沿模型的大约九成，速度快4倍，在Antigravity平台上甚至能快到12倍，而成本只有前者的三分之一到一半。”

在每秒输出token数量上，Gemini 3.5 Flash是其他同类前沿模型的4倍。Google DeepMind首席技术官兼谷歌首席AI架构师科雷·卡武克库奥卢（Koray Kavukcuoglu）补充说，一个优化版在同样质量下可以快到12倍，这个版本从美国当地时间5月19日起在谷歌的智能体开发平台Antigravity上开放使用。

在一系列高难度测试中，Gemini 3.5 Flash展现出了强大的智能体和编程能力。它在Terminal-Bench 2.1测试中得分76.2%，在GDPval-AA中达到1656 Elo，在MCPAtlas中达到83.6%。多模态理解方面也很突出，CharXiv推理得分84.2%。

在第三方机构Artificial Analysis的智能与速度指数图上，Gemini 3.5 Flash占据了右上角目前没人能触及到的位置。

用皮查伊的话说，这证明了“你不再需要在质量和速度之间二选一了”。

02 现场演示：复杂任务、多模态、可交互

大会上的几个演示，直观展示了Gemini 3.5 Flash处理复杂任务的能力。

在一个演示中，Gemini 3.5 Flash被要求根据动态标准，自动重命名和分类一批乱七八糟的资产文件。这不是简单的关键词匹配，模型需要先读取每个文件的内容，理解实际用途，再按照预设的分类逻辑归档。整个过程涉及多个判断和执行步骤，Gemini 3.5 Flash几秒钟就搞定了。

这套能力由升级后的Antigravity平台驱动，背后是多个协作的子智能体在并行处理。过去，这类工作可能需要开发者花上几天来写脚本，或者交给审计员花数周来手工整理。

另一个演示展示了Gemini 3.5 Flash的多模态生成能力。在AI Studio上，研究人员上传了一篇学术论文，模型读懂论文内容后，直接生成了一段解释核心概念的交互动画。

图表不再是静态的，观看者可以拖拽参数、切换视角，观察数据之间的动态关系。这种从文字到交互式视觉内容的直接转换，靠的是Gemini 3底层的多模态基础能力。

搜索方面的演示也同样让人印象深刻。在一个案例中，用户在搜索框里输入关于Gyroid图案的问题。利用Gemini 3.5 Flash增强的智能体编程能力，搜索结果不再是传统的十条蓝色链接，成为了一个交互式可视化页面。

用户可以在页面上旋转三维结构、查看不同截面的形态，整个过程不用跳转到其他网站。负责谷歌搜索业务的莉兹·里德（Liz Reid）说，这个新版搜索框是“自我们那个标志性搜索框首次亮相以来最大的升级”。

03 1900亿资本支出和帮企业省 10亿美元的模型

在这种能力基础之上，对于那些在AI基础设施上砸了很多钱的企业来说，Gemini 3.5 Flash可能带来最直接的影响。

皮查伊指出，很多公司早就把全年的token预算用完了，“而现在才刚过五月”。他把Gemini 3.5 Flash定位成那些在规模化部署AI时成本失控的企业的“财务救生索”。

智能体工作流尤其消耗token。谷歌的模型API每分钟处理大约190亿个token，自有产品每月处理超过3200万亿个token，近一年内增长了七倍。而两年前的I/O大会上，这个数字还只是每月9.7万亿。

在这种背景下，Gemini 3.5 Flash的价格不到同类前沿模型的一半。皮查伊算了一笔账：对于那些在谷歌云上每天处理大约1万亿个token的顶级客户来说，如果把80%的工作量转移到Flash和前沿模型的组合上，每年可以省下超过10亿美元。这个数字足以改变企业的采购决策和项目回报率的计算方式。

Gemini 3.5成本优势的根基是谷歌的基础设施投入。皮查伊透露，谷歌2026年的资本支出预计在1800亿到1900亿美元之间，是四年前310亿美元的差不多六倍。

其中一个重要投资方向是定制芯片。第八代TPU第一次采用双芯片架构，分别为训练（TPU v8o）和推理（TPU v8i）设计。针对推理优化的TPU v8i，让谷歌能够以比依赖通用GPU的竞争对手更低的成本运行模型，省下来的钱会转给客户。皮查伊说：“这意味着可以在几周而不是几个月内训练出更大、更有能力的模型。”

04 Gemini Spark：私人AI管家

当模型足够快、足够便宜之后，就能从被动回答问题变成主动办事的智能体。谷歌为此推出了Gemini Spark。

负责Google Labs和Gemini应用的副总裁乔什·伍德沃德（Josh Woodward）介绍说，Gemini Spark是一个7x24小时运行在谷歌云专用虚拟机上的AI。就算你关了设备，它也能在后台继续工作。Gemini Spark深度集成了Gmail、文档、表格和幻灯片。

伍德沃德描述道：“当你使用它时，几乎感觉就像你把东西甩到身后，Spark会接住它并完成工作。”

关于Spark具体能做什么，伍德沃德透露了测试人员的几个使用场景：策划派对、跟踪学校日程、监控收件箱中的问题。

安全方面，Gemini Spark在执行高风险操作前需要用户明确批准。针对支付行为，谷歌推出了智能体支付协议，允许设置严格的使用范围：批准哪些品牌、设置消费上限、限定哪些商家。谷歌计划今年夏天扩展连接能力，让Gemini Spark通过Chrome浏览器操作更多第三方应用和网站。

一批受信任的测试者本周拿到了访问权限。下周，Gemini Spark将向美国Google AI Ultra订阅用户推出测试版。AI Ultra是谷歌同步推出的新订阅套餐，月费100美元，面向开发者、技术负责人和高级创作者，提供对Antigravity的优先访问权、更高的使用限制以及捆绑的Omni Flash访问权。

围绕Gemini Spark的是谷歌一系列面向普通消费者的布局。

先看用户规模。Gemini应用月活用户已从一年前的4亿增长到9亿多，搜索中的“AI模式”上线仅一年月活就突破10亿，且每季度查询量翻倍增长。

与此同时，谷歌还推出了两项新服务：一是全天候监控网络的信息智能体，可以主动跟踪你关注的价格、股票或话题变化并及时提醒；二是基于谷歌钱包的AI通用购物车，支持跨不同电商网站统一管理和结算，省去分别登录、分别付款的麻烦。

05 Gemini Omni：一个新物种

和Gemini 3.5 Flash、Gemini Spark一起亮相的，还有Gemini Omni——谷歌第一个真正的原生多模态模型。

卡武克库奥卢特意把它和现有的视频生成模型Veo做了区分：“Veo是一个文本到视频的模型，而Gemini Omni是一个真正的多模态输入、多模态输出模型。”Gemini Omni可以接受文本、图像、音频和视频的任意组合作为输入，并在同样的模态上生成输出。所有处理都在一个统一的模型里完成，而不是拼凑多个系统。

用户通过对话就能一步步编辑和生成视频，每一条指令都基于上一条，视频随着对话的推进连贯变化。谷歌高管的演示展示了几个具体的编辑场景：

用户上传一段户外骑行视频，输入指令“把背景换成雪地”，Gemini Omni在保持骑行者和自行车运动轨迹不变的情况下，把整个环境换掉了。接着用户说“改成从侧面跟拍的角度”，画面的摄像机视角就跟着调整了。最后用户要求“加上一段旁白解释这条路线”，模型便生成了配乐和解说。整个过程在同一个对话线程里完成，不需要导出文件、切换工具或者重新上传。

卡武克库奥卢还描述了更广泛的应用前景：“你可以想象，当你在探索某些东西时，这能构建出非常类似于教程的能力。”谷歌特别强调了物理效果的改进——重力、动能、流体力学——这些细节决定了视频看起来像实拍还是AI生成的。

在OpenAI年初为了释放算力而放弃视频生成工具Sora的背景下，谷歌这时候推出Gemini Omni，是对自己基础设施实力的一次公开展示。卡武克库奥卢还透露，团队曾经让智能体从零搭建一个可运行的操作系统（未透露名字），用来测试Gemini 3.5 Flash的能力边界。

内容安全方面，所有Gemini Omni生成的内容都带有谷歌SynthID数字水印，C2PA内容凭证也在扩展中。Antigravity平台上推出了AI内容检测API。谷歌宣布OpenAI、Kakao和ElevenLabs也将采用SynthID。对于那些合规要求严格的企业来说，这套工具提供了可追溯的审计记录。

Gemini Omni即日向美国Gemini付费用户提供，未来几周将通过Vertex AI API向开发者开放。谷歌还推出了一个“个人头像”计划，允许创作者录制短视频，授权在生成内容中使用自己的声音和肖像。谷歌员工当天发布的I/O相关帖子中，就用了他们AI生成的肖像作为示范。

06 Antigravity 2.0：开发和管理自主AI智能体团队的平台

模型需要平台来承载，为此谷歌同步发布了Antigravity 2.0。六个月前它还只是个编码环境，现在已经被改造成“用于开发和管理自主AI智能体团队的平台”。

卡武克库奥卢指出，团队“和我们的智能体开发平台Google Antigravity一起开发了Gemini 3.5 Flash”。Flash的速度、工具使用、长上下文推理和代码生成能力，都针对开发者在平台上的工作负载做了专门的优化。

Antigravity以独立桌面应用的形式出现，也提供命令行和SDK。开发者可以同时调度多个智能体：一个写网站代码，一个生成品牌素材，第三个规划产品架构。这些智能体并行干活，统一管理。

一同推出的还有托管智能体和CodeMender。托管智能体通过一次API调用就可以在隔离的Linux环境中启动，进行推理、使用工具和执行代码。CodeMender是一个安全智能体，利用Gemini的高级推理能力自动发现并修复关键代码漏洞。卡武克库奥卢认为，当智能体系统写的代码越来越多时，这种能力是必不可少的。

支撑这一切的是一个数据飞轮。今年3月，开发者在Antigravity上每天处理大约0.5万亿个token。到5月中旬，这个数字飙升到超过3万亿，大约十周内增长了六倍。皮查伊说，使用量“几乎每隔几周”就翻一番。

飞轮的逻辑很清楚：工程师用得越多，模型团队收集到的真实信号就越多；这些信号反馈回来改进模型，让模型变得更有用，进而推动更多人使用。皮查伊称之为“一个强大的反馈循环，它让我们能够持续改进3.5系列模型”，谷歌的重点一直是“提升模型智能，确保工具使用、指令遵循、长周期任务、智能体解码等一切功能都运转良好”。

07 每六个月迭代一次

Gemini 3.5 Flash只是开始。

卡武克库奥卢表示，Gemini 3.5 Pro正在内部测试，下个月推出。他还明确了谷歌主要模型的更新节奏：大约每六个月一次。回顾一下，Gemini 3在去年11月发布，Gemini 3.5在今年5月发布，这个节奏正在稳定下来。当被问及如何决定版本编号时，他解释说：“决定编号更新的，实际上是我们研究中看到的进展，以及这些进展在模型中的体现和产生的影响。”

对买家来说，这种可预测的快速迭代改变了规划周期。一个每六个月就能用三分之一成本超越前代旗舰的模型，意味着今天紧巴巴的token预算到年底可能就已经显得很宽裕了。企业在制定技术路线图时，不能再拿静态的眼光来评估性价比。

当然，10亿美元还是PPT上的数字推演。遗留系统、合规要求、组织惯性——这些词在每一轮技术迭代中都会出现，往往会让纸面上的成本曲线在落地时“打骨折”。但谷歌也表示，自己正在用每天3万亿token、而且每隔几周就翻番的内部使用量，以任何客户都没试过的规模，亲身实践着这个赌注。

一年以后，AI又会是怎样的新面孔？