算力，后GPT-5时代的“硬通货”-墙外头条

北美模型更新+推理应用实现初步闭环，算力进入“二次抢筹”阶段，继续看好海外算力链投资。在Google/Anthropic等厂商带来模型小幅更新后，北京时间8月8日，OpenAI发布了其最新版本领先大模型GPT-5，除智力水平、编程能力等基础指标提升外，在资源调度、幻觉消除、输入上下文窗口长度、写作水平等领域也有明显优化。

更重要的是，GPT-5大幅降低了单位算力成本，API调用价格与Gemini 2.5 Pro实现对标，我们认为这也是当下OpenAI这类依赖外部资本的大模型企业的必然选择，是其算力需求持续的必要条件。OpenAI CEO在X表示，公司有望于5个月内使其算力资源翻倍。

在推理应用端，以Google为代表的各大厂商tokens消耗量正呈高速增长态势，通过当前“免费拉量、付费突围”的市场策略，寻求AI技术普惠性与商业可持续性之间的阶段性平衡。我们看到，大模型行业领军者正通过技术迭代及客户粘性，使得追赶者不得不进行“算力抢筹”来避免被时代淘汰。

我们认为北美模型更新迭代+推理应用落地已在当下模型代际上实现初步闭环，算力在后GPT-5时代依然为“硬通货”，我们继续看好海外算力产业链。

国内大模型加速追赶，看好开源SOTA模型更新后国产算力市场表现。国内业者虽在模型端与海外能力依然存在一定差距，但我们看到2025年以来字节、快手、Kimi、Minimax等多家企业接连发布模型更新，并推广应用部署，算力消耗稳中有升，特别是在多模态领域实现了能力突破和商业落地，为中长期算力需求增长提供多元化动能。以内外部使用的合计口径来看，字节tokens月消耗量已经可媲美Google。

供给侧来看，我们也看到国产算力芯片企业产品正在从单芯片走向系统级方案，来支持国内大模型迭代及应用部署。我们认为，若DS等开源SOTA模型在3Q25迎来更新，国内AI产业链飞轮有望重启，二级市场投资情绪也有望得到提振。

正文

发布GPT-5，AI大模型继续行驶在发展快车道上

我们看到，在“DeepSeek的创新热”过后，全球大模型行业持续发展，模型迭代速度并未放缓，反而呈现出多点爆发的趋势，这也持续推动着算力需求向更高天花板迈进。

8月6日凌晨，北美多家头部大模型公司几乎在同一时间段内发布了新一轮的模型更新。谷歌DeepMind推出了新一代通用世界模型Genie 3，它能以每秒20-24帧速度实时生成720p画面，且可模拟出长达数分钟内容连贯的可交互动态世界，能模拟物理世界、自然世界，创建动画奇幻世界以及探索历史场景等，其问世标志着世界模拟AI迈向新高度，同时也推高了对算力的需求。

OpenAI发布了首个开源大模型系列gpt-oss，包含gpt-oss-120b（1170亿参数，适用于大规模、高性能推理任务）和gpt-oss-20b（210亿参数，专为低延迟和本地化应用设计），这两款模型的训练与运行同样需要大量算力支撑，无论是前期训练时的海量数据处理，还是后期在不同设备上推理时的即时运算。Anthropic公司更新了Claude Opus 4.1版本，相较于之前的Claude 4系列，在编码、推理和执行指令能力上有所改进，如在SWE-bench Verified上的准确率提升等，我们认为模型性能的提升背后离不开算力提供保障。

图表1：Genie 3性能表现

资料来源：Google DeepMind官网，中金公司研究部

图表2：gpt-oss竞赛编程表现

资料来源：OpenAI官网，中金公司研究部

图表3：Claude Opus 4.1性能表现

资料来源：Anthropic官网，中金公司研究部

8月8日凌晨，OpenAI更是发布了备受期待的GPT-5，我们认为从算力视角分析这一新模型不乏亮点：Token使用效率显著提升、定价体系大幅下降、上下文能力跃升至400K。效率上的“省”、价格上的“低”与能力上的“强”，一方面压低了单次调用成本，另一方面以更长上下文与更广用户覆盖提升整体调用密度与瞬时资源占用，由此可明显推高对算力的实际需求，形成“降本—扩容—增需”的良性循环。

具体来看，首先我们认为GPT-5大大提升了Token使用效率，能够以更少的Token消耗获得超过前代模型的效果。这源于三方面升级：

其一，统一系统与自适应推理路由。GPT-5是一个“统一系统”，默认用一个更高效的聊天模型，只有当问题真的复杂时才切到“Thinking”推理模型，能按任务复杂度自动决定是否启用深度推理，避免对简单问题的冗长思考与输出；官方评估显示，在保持或提升效果的同时，GPT-5 Thinking相比o3在多类任务上输出Token降低50–80%。

其二，推理链收敛与工具调用更高效。根据公司官方评估，在真实工程评测（如SWE-bench Verified）中，GPT-5在高推理设置下较o3输出Token少约22%、工具调用少约45%，意味着它在规划—执行—校验的链条上更直、更稳，减少了中间步骤与交互开销，从源头压缩了生成长度。

其三，可控生成与最小推理。GPT-5新增verbosity（控制长短）与reasoning effort（推理耗时）等控制项，使开发者能把“文字密度”和“思考深度”精确拨档到任务所需，避免过度解释，在不牺牲正确性的前提下显著降低有效Token投入。

同时，我们认为GPT-5对指令遵循与多工具协作的鲁棒性更强，减少澄清与返工回合，从而进一步降低“每完成一项任务的总Token”，这种从底层机制到应用接口的系统优化，不仅减少了单次任务的Token消耗，也降低了整体算力成本，推动算力的“良性飞轮”前进，用效率提升激发未来更大的需求。

图表4：GPT-5在软件编程上准确率与输出Token效率大幅提升

资料来源：OpenAI官网，中金公司研究部

其次，GPT?5的定价策略实现了显著降本。开发者使用GPT-5 API时，每百万个输入Token收费仅为1.25?美元，输出部分为10?美元，整体远低于前代GPT-4.1模型；其中GPT?5 mini版本更低，仅需0.25?美元输入和 2?美元输出，GPT?5 nano更低至0.05?美元输入和0.40?美元输出。

我们看到，GPT-5的定价结构甚至比一直被视为“低价典范”的Gemini 2.5 Pro更具竞争力，仅在输入端相当而输出更便宜，更比Anthropic同类产品低了15倍之多。另一方面，C端用户现在可有条件地免费使用GPT?5。普通用户可以直接使用GPT?5模式，使用时间保持在每天“几小时”级别，当用量达到上限后系统会自动切换到mini版本，确保体验不中断；Plus订阅（约$20/月）拥有更高的使用额度，而Pro订阅（约$200/月）则享有无限访问GPT?5 Pro与GPT?5 Thinking模式。

从策略层面看，我们认为这样的定价和产品分层机制不仅降低了使用门槛，也让算力“降本增效”的趋势更加明确，对生成式AI的高频日常使用形成良性推动，有望持续刺激用户需求与使用广度。

图表5：GPT-5 API定价(美元，每百万Token)

资料来源：各公司官网，中金公司研究部

另一个关键进步在于上下文能力的跃升。

GPT-5版本目前支持的上下文扩展到了400K Tokens，相较GPT-4o的128K放大约3.1倍，相较o3的200K也提升到2倍；并且在长上下文检索与跨文档内容对齐上更稳健、命中率更高。这意味着单次会话可直接容纳大部头报告、代码库与多源资料，减少拆分与反复往返带来的“额外对话”与无效生成；同时，400K的窗口也对显存与带宽提出更高的瞬时需求。

总体来看，一方面，更长的可见范围会带来超过128K的即时算力需求，另一方面，更强的应用承载力又会反向提升应用能力，激发新的应用场景（如长文档回答、跨工具流水线），从而进一步放大对算力的需求。

综上，我们看到，近期的模型更新背后一个共同的趋势和逻辑是：模型能力持续增强的同时，Token的使用效率越来越高，同时对算力的需求持续走高，不仅是传统的云侧集群推理能力，越来越多的场景开始向本地和端侧算力迁移，例如本地部署的OSS模型对消费级GPU也提出了性能要求，Genie 3这种需要端侧实时响应的模型也进一步推高了设备端的能效与算力门槛。

可以说，模型迭代本身就是当前大模型行业算力需求增长的主要源头之一。无论是训练规模的扩大，还是推理复杂度的提升，亦或是多模态、多任务适配的需求，都在持续推高算力消耗。

图表6：2022年以来AI模型更新时间线

资料来源：公司官网，中金公司研究部

从上图AI模型更新时间线图可见，2022年以来，国内外众多厂商如OpenAI、Anthropic、谷歌、国内如MiniMax、Deepseek、字节等，不断推出新模型或更新迭代现有模型，2025年上半年全球范围内主流厂商发布的大模型数量明显增加，且呈现出更为密集的发布节奏。

数据显示，2025 年上半年共有9家主要公司更新模型，总发布模型数量达21个，同比2024年上半年分别增长了28.6% 和10.5%。不仅如此，从模型类型来看，也从早期的语言模型单点能力演进为多模态、多任务、超长上下文等全面突破。例如OpenAI的GPT-4.5、Claude4.1、Gemini2.5、Grok4、Qwen3-235B等均体现出能力边界的进一步拓展。

这进一步反映出大模型行业持续发展、迭代加速的现状，密集更新的模型正成为推动算力需求持续走高核心因素。

海外模型的持续更新对算力而言是持续的利好因素。以OpenAI的GPT-5来看，我们认为其整体能力虽低于部分市场预期，然而本轮更像是在资本与单位经济的约束下的一次“效率优先”、成本导向的选择，而非前沿技术边界突破的尝试。

OpenAI主要依赖外部资本，资金消耗快，若无法形成合适的价格—性能组合，产品难以被大规模负担并保持可持续。基于此，我们认为GPT-5此次更新转变的目标是降低OpenAI的运营成本，而非全力推动前沿技术边界的拓展。为实现降本，GPT-5此次更新将重点放在追求规模效应、降低延迟时间以及实现更经济便宜的推理成本上，让自身变得更易于被用户获取，为在全球范围内的推广创造了有利条件。

随着产品的广泛推广，吸引了更为庞大且多样化的用户群体，进而有力推动了产品的发展。而产品的发展壮大，必然会对算力产生更多的需求，从这个角度看，GPT-5的更新对其持续消耗算力是有益的。8月11日，OpenAI CEO Sam Altman也在X平台表示，公司会把算力侧重分配给推理侧（付费版使用量提升/优先满足API需求/免费版服务质量提升），且拟在5个月维度内将计算资源扩大一倍，这一举措也印证了我们的上述观点。

与此同时，其他竞争对手可能选取的不同策略也有望对算力市场需求产生正面影响。例如谷歌、Meta等企业，凭借其母公司的万亿级市值规模与雄厚资源，在资金投入与研发支持上几乎无后顾之忧，能够更从容地推进模型的更新与优化；Anthropic则凭借与众多企业的紧密对接，具备更强的盈利能力与商业可持续性，这为其持续投入代码能力较强的模型研发、推动技术迭代提供了坚实基础。

我们看到，无论是面临资金约束而寻求商业化或规模化突破的参与者，还是具备稳定资源支撑的头部企业，其对模型迭代升级不同方向的持续推动，都在共同提升对算力的需求。

图表7：不同厂商商业策略均对算力需求构成正向拉动

资料来源：各公司官网，中金公司研究部

全球大模型Token消耗快速攀升，AI应用密度全面提升

海外巨头Token调用量快速增长：谷歌AI Overview领跑

2025年以来，谷歌、微软与字节跳动的Token消耗量均呈显著上升趋势。

图表8：2024年12月-2025年7月微软、字节、谷歌Token消耗量

资料来源：微软电话会，2025火山引擎原动力大会，Google I/O大会，中金公司研究部

我们认为，谷歌Token消耗量在2025年上半年显著攀升，主要受到两方面因素驱动：

首先，我们认为AI Overview的快速扩展大幅提升了Token调用频率，是驱动谷歌2025年Token消耗量显著增长的主要原因。

AI Overview是谷歌于2024年5月首次推出的搜索增强功能，该功能在搜索结果页面顶部自动生成简洁明了的AI摘要，无需用户主动进入对话界面，直接基于搜索关键词触发，这意味着AI系统在用户搜索时会频繁地在页面上自动生成大量自然语言摘要，而这些生成过程大多是在用户无感知的情况下由系统后台完成，因此Token的消耗主要来源于系统自动生成内容本身，而不是用户主动提问或点击所触发的交互行为。这种静态、默认触发的高覆盖率摘要机制，叠加谷歌每年约5万亿次的搜索请求体量，使得AI Overview成为谷歌Token调用量增长的关键推手。此外，2025年5月谷歌推出AI Mode，相比AI Overview进一步引入多轮搜索整合与多问题预测，推高了搜索AI整体的Token密度。整体来看，AI Overview的产品形态、触发机制及部署速度，在功能侧构成谷歌Token消耗量快速增长的重要基础。

与此同时，我们认为谷歌在用户侧的明显领先进一步放大了其Token消耗总量，并拉开与其他厂商的差距。

截至2025年3月，AI Overview月活跃用户已达15亿，而Gemini的月活用户为3.5亿，OpenAI旗下ChatGPT的月活跃用户约为6亿。值得注意的是，尽管Gemini作为Chatbot类应用的月活仅为ChatGPT的一半左右，谷歌整体的Token调用量却已达到微软的5–6倍，表明真正拉开双方差距的核心因素在于AI Overview这一搜索类功能的高频使用。相比之下，谷歌AI产品以免费、默认触发、轻交互为主要特点，大幅降低了用户使用门槛，在全球范围内实现了更快的渗透速度和Token调用量的集中快速增长。综合来看，谷歌依托其庞大的搜索用户体量、高频触发的AI Overview功能，以及轻便易用的交互入口设计，使得其Token调用结构在用户数与单位用户调用密度两个维度上同时扩张，从而支撑了其成为2025年Token消耗增长速度最快的头部厂商。

Token消耗密度持续抬升，付费场景有望率先打破商业闭环

当下，Token消耗量快速上升的驱动因素愈发多元复杂，相较于仅以Chatbot为主的阶段，算力需求快速扩张。

图表9：Token增加消耗的主要方式

资料来源：中金公司研究部

从当前AI应用市场的供需格局来看，免费模式仍是主要的用户使用方式，其用户规模和增长速度明显快于付费模式。

相比之下，那些已经实现变现的AI产品，通常具备明显的差异化能力，能够精准解决用户的高价值需求。从功能层面看，付费产品往往在专业性、可靠性与体验完整性上形成壁垒：例如，ChatGPT-Agent与Claude-4等付费产品，凭借更强的推理能力、更低的错误率以及更完整的功能体验，构筑起一定的专业壁垒，其输出内容的错误率明显低于免费模型；从技术支撑看，付费产品依托更优的算力调度与缓存机制（如火山引擎的AI云原生方案降低20%推理成本[1]），能够在高频交互场景中保持低延迟与高稳定性，这是免费产品难以企及的服务水准。

总体来看，我们认为当前“免费拉量、付费突围”的市场榜局，反映出AI技术普惠性与商业可持续性之间的阶段性平衡。我们认为，随着模型能力的持续提升，如推理更准确、多模态交互更流畅、成本控制更高效，用户对高质量服务的付费意愿将逐步增强。届时，真正能为用户创造效率提升或决策优化价值的产品，将有望实现“价值定价”，构建更清晰的商业闭环。

国产模型不甘示弱，静待流量王者更新

在全球范围内，虽然中国厂商的大模型创新能力相比北美可能暂时稍显落后，但整体模型水平仍在持续推进。随着模型不断迭代更新，其对云侧和端侧算力的要求也会越来越高，整个行业也将在算力与模型创新的相互促进中持续发展。我们认为，后续若DeepSeek等流量模型发布更新，有望促进上述正循环发展。

Kimi K2作为一款万亿参数的MoE架构模型，较之前版本在架构、能力和功能上均有明显更新，整体性能实现大幅跃升。其采用总参数1T、激活参数32B的设计，通过增加专家数量提升知识广度，减少注意力头数量增强特征学习效率，配合MuonClip优化器实现了15.5T Token预训练的稳定进行，在代码生成（如构建3D HTML场景、期货交易系统）、数学推理等基准测试中取得开源模型SOTA成绩，基础能力明显增强。按官方定价，每百万输入Token 4元、输出Token16元，未来随着开发者把更长文档、更复杂链式任务交由K2处理，整体Token消耗规模还将进一步放大。

图表10：Kimi K2 损失与Token消耗量关系

资料来源：Kimi K2官网，中金公司研究部

MiniMax较之前版本也在长文本、视频生成与智能体三大赛道均完成 SOTA 级更新，同时也带来了更高的算力消耗。MiniMax更新的三款模型通过“扩大容量/分辨率+降低单价”策略，实则增加了Token消耗。M1将输入上限提至100万Token，用户可一次性提交大量内容，单任务Token数成十倍、百倍增长；Hailuo 02提升分辨率且同价，使用户倾向用更高清或多次重生成，单条视频Token消耗显著上升；Agent方案可缓存整个知识库，每步将消耗大量Token。三者将共同拉高MiniMax总Token消耗量。

快手可灵AI最近也通过多维度技术升级实现了能力的全面跃升。5月快手推出的可灵2.1系列模型。尽管官方把定价（灵感值）维持在与1.6版本同一水平，但模型升级带来的高阶功能和创作自由度可能引导用户更频繁使用高规格模式，从而增加实际灵感值的消耗总量。

8月5日，阿里通义千问团队开源了首个全新文生图模型Qwen-Image。Qwen-Image可能会推动通义千问向“文本 - 图像”多模态交互升级，这会增加Token消耗，其图像生成、编辑等任务需更复杂的文本指令，以及图像创作的多轮迭代调整、功能扩展带来的场景扩容等可能将增加Token消耗量。

图表11：Qwen-Image生成的图像

资料来源：Qwen-Image GitHub，中金公司研究部

从国内AI模型的升级态势来看，近期各大模型的更新均以独特方式拓展着AI边界，这直接引发了Token消耗量的急剧上扬，与早期仅存在Chatbot的阶段相比，呈现出指数级增长趋势。

图表12：各个AI模型APP周度日均活跃用户数

资料来源：Similar Web，Questmobile，中金公司研究部

在字节跳动方面，火山引擎公布的数据显示，豆包大模型的日均Token使用量已达到约16.4万亿。2025年第一季度，其在国内公有云大模型调用量的市场份额约为46.4%，位居行业第一。

以Kimi为例，2025年2月其App MAU约2,622万。

MiniMax旗下海外社交AI产品Talkie在2024年10月的月活达 2062万，对应的国内版产品“星野”月活为512万，二者合计月活2574万，其主打娱乐对话场景。

快手可灵的Token需求更多由“多模态链路深度”驱动：官方数据显示，其全球用户规模已突破约2200万，上线第10个月的年度经常性收入（ARR）突破1亿美元，且4-5月单月付费均超过1亿元人民币。

通义千问的App端公开“绝对MAU/DAU”较少；第三方监测曾指出其虽位列“智能体数量Top3”，但流量多在500万以下，据此以“数百万级MAU”估算，同样的交互口径下月度Token可达数十亿级，且随着其在“文本—图像/视频”多模态方向扩展（如Qwen-Image、VLo等），每次任务的提示词与迭代轮次也会进一步拉长。

综合而言，我们认为，随着MAU与人均交互次数的“双增长”，叠加深度推理与多模态链路的拓展，Token处理量的快速增长直接驱动了对更大内存容量与更复杂调度算法的需求。而在视频生成等新场景中，算力需求也快速攀升。随着模型能力的持续进化，未来Token消耗与算力需求将持续攀升，且算力瓶颈正从解码能力受限向带宽与互联能力受限发生结构性迁移。

国产算力聚焦从芯片到系统的全维度支撑，把握行业高成长机会

聚焦国内供给侧，我们看到中国 AI 芯片企业纷纷亮相2025世界人工智能大会（WAIC 2025）。

我们认为，当下国产算力厂商不再局限于单一芯片的性能迭代，而是聚焦于互连技术创新、超节点架构构建与规模化系统方案输出，通过协同构建高效算力集群，为 AI 大模型的训练与推理提供从芯片到系统的全维度支撑。

面对不断成长的市场天花板，我们认为国产算力有望通过产品实力不断提升继续攫取市场份额。