分析:“Token”账单失控 AI商业化遭重击
2026-06-12 17:25:52 · chineseheadlinenews.com · 来源: 大纪元
2026年,曾经狂飙突进的人工智能(AI)产业,正遭遇一记沉重的财务重拳。
随着各大AI模型开发商悄然终结对“Token”(中国称词元)调用成本的大幅补贴,一场由成本激增引发的连锁反应,正从硅谷科技巨头蔓延至华尔街的交易大厅,企业与投资者被迫直面高昂算力成本与实际投资报酬率之间的巨大鸿沟。
据报道,从微软紧急叫停内部激励专案,到优步(Uber)的数十亿美元预算在短短几月内灰飞烟灭,AI的商业化进程正经历一场严峻的“压力测试”,Token消耗的野蛮增长时代正宣告终结。
“Token”账单失控 科技巨头的财务灾难
这轮成本危机的直接导火索,是衡量AI 输入与输出的基本单位“Token”价格的急剧攀升。
今年2月至6月间,OpenAI、Anthropic 和 GitHub各自调整了定价模式,相继依据Token使用量向客户收费,而非沿用固定费率计费。
智通财经6月10日报道指出,过去六个月里,针对前沿模型的高质量推理服务Token定价已累计上涨约40%。这背后是高性能GPU的持续受限、数据中心能耗成本15%至20%的上涨,以及需求端爆炸式增长的共同作用。
以OpenAI为例,近期发布的GPT-5.5直接将Token价格翻倍,达到每百万输入Token收费5美元、输出收费30美元;Google新推出的Gemini Flash 3.5模型价格也是前代的3至6倍。
尽管模型提供商在一年内实现了约2倍的效率提升,但同期Token的溢价幅度高达40%至50%,导致依赖外部API的应用型企业净成本实际暴增了20%至30%。
不期而至的成本高峰率先冲垮了科技巨头们的内部预算防线。据科技媒体The Verge报道,微软在今年5月下旬做出了一项罕见决定:宣布将于6月30日终止其内部“体验与设备”部门对Claude Code的集体许可。
该试点项目于2025年12月高调推出,却因Token消耗量带来的账单完全超出预期而迅速崩盘,微软不得不强令工程师撤回至使用自家成本更可控的GitHub Copilot CLI。
Uber的遭遇更是一场AI财政灾难。其首席技术官Praveen Neppalli Naga近期坦承,公司在2026年为AI拨备的34亿美元年度预算,竟在今年4月便已全部耗尽。
在向公司5000名工程师推出Claude Code后,月度活跃使用率飙升至85%至95%,每名工程师的月均API调用成本高达500至2000美元。
华尔街拉响警报 运算成本远超人员成本
华尔街对此迅速拉响警报。富国银行首席股票策略师Ohsung Kwon指出,这颗雷的核心正终结硅谷工程师兴起的“Tokenmaxxing(Token消耗最大化)”风潮。
此前许多企业将AI工具的使用量纳入内部考核体系,甚至建立排行榜,鼓励员工尽可能多地消耗AI Token,以此作为衡量创新能力的指标。然而,这种盲目追求使用率的策略已演变为严重的资源浪费。
Kwon警告,如果AI需求开始趋于平稳,对AI交易而言将是重大的利空。基于此判断,富国银行已将其整体立场从今年4月的“看多”转向“坚定中性”。
英伟达(Nvidia, 又称辉达)应用深度学习副总裁Bryan Catanzaro在接受采访时也承认了行业的普遍焦虑:“在我带领的团队中,运算成本已经远远超过了人员成本。”
“吃到饱”退场:企业急拉预算手刹车
如果说2026年初冬天各公司还在大啖“AI吃到饱”,那么夏天就是开始计算卡路里的时候。
Business Insider报道指出,今年二月至六月间,OpenAI、Anthropic和GitHub各自调整了定价模式,相继从固定费率转向依据Token使用量向客户收费。
“廉价的‘AI吃到饱’时代已经结束,”德勤(Deloitte)的一位资深软件工程师表示,GitHub定价模式的变更让工作预期大乱。他估计,在按量计费制下,一个可能让模型工作数小时的高度详细提示,单次费用将超过100美元。
GitHub首席产品官Mario Rodriguez解释,在旧模式下,一个闲聊问题与长达数小时的自主程序码工作费用相同,这种补贴“已不再可持续”。
面对计费规则的突变,企业界迅速改变方向。沃尔玛对内部程序设计工具设定了使用上限;亚马逊在5月关闭了内部的“Tokenmaxxing”排行榜,因为他们发现员工为了不必要的操作人为提高得分,导致算力成本无谓上升。
部分企业甚至被迫设定了严格的配额制度。加密货币交易所Coinbase高管指出,自今年二月Claude Opus 4.6推出后,内部使用量呈抛物线式暴增。如今,交易所建立了一套精密的每周费用上限系统,依据员工职级设定从500美元到5000美元不等的上限。
他举了一个极端的例子:若用最先进的模型扫描公司所有程序码找漏洞,每次可能要花5万到10万美元,“如果有一百人各自独立这样做,你就要花上1000万美元。”
科技界的这股焦虑被Priceline IT财务资深总监Chris Reed形妊酞一场“快克可卡因(crack-cocaine)的成瘾疫情”。他直言:“他们让你先试,让你上瘾,然后你就被绑住了。”
投资报酬率的残酷拷问:高昂消耗“无效烧钱”
企业大规模投入AI,为何换不来预期中的产出?《第一财经》的深度调查揭开了企业争相拥抱AI的另一面。
一位科技大厂员工王昊(化名)吐槽:“一个部门二十来人,一个月消耗5万元Token,什么也没搞出来。”这5万元化作无形的消耗,却因团队各自选用不同工具(如开源Hermes Agent或第三方工具),形成了一个个无法串联的“AI孤岛”,最终只能推倒重来。
工程营运平台Faros AI执行长Vitaly Gordon分享了一个极端案例:一位技术长发现手下一名工程师在一个月内烧掉了4万美元的Token,却不知该制止还是该鼓励。
工程管理平台Jellyfish的研究数据进一步量化了这种矛盾:受代理功能(Agent)的驱动,每位开发者的Token消耗量在九个月内上升了约18.6倍;使用最多Token的工程师生产力大约是低度使用者的两倍,但他们为此消耗的Token数量却是后者的10倍。
咨询机构贝恩(Bain)6月发布的报告揭示了残酷的商业现实:在能够量化AI降本效果的企业中,高达40%的企业实际成本降幅在10%及以下。原本有37%的企业将降本目标设定在11%至20%区间,但最终达标的仅有31%。
艾媒咨询CEO张毅分析,许多企业陷入了基于“错失恐惧(FOMO)”的豪赌,只计算了显性的API(应用程序编程接口)调用费,却完全忽视了提示词工程、输出校验、数据治理等庞大的隐性工程成本。
算账时代:精细化管理与“平替模型”的崛起
当“魔法思维的时代结束”,务实的功利主义开始主导2026年的夏天,企业高管已开始将Token浪费视为财务上的不负责任。
一场针对AI成本的重新审视正在企业内部悄然展开。
《第一财经》获悉,腾讯近期已调整了员工的Token分配机制,不再“吃大锅饭”,而是由部门管理者按岗位职能动态分配。腾讯内部表态,衡量AI成效看的是提效与价值,绝不单纯看Token消耗量。
Salesforce技术长Parker Harris也指出,由于2026财年的Token支出“远超”计划,公司正推出名为“有效产出分数(Effective Output score)”的指标,以预测回报并控制支出。
与此同时,寻求更便宜的“平替模型”成为新趋势。Coinbase在内的企业已开始将基础堡作转移给中国的轻量级模型。程序码代理新创公司Command Code透露,因市场对廉价模型的需求激增,其公司在30天内新增了1万名客户。
软件新创Harness的资深副总裁Trevor Stuart将这种转变比喻得十分贴切:“若使用顶尖AI模型来做基本的文字摘要工作,就像是开法拉利(Ferrari)去买菜。”
为了在宏观层面建立标准,一个全新的市场与规范组织应运而生。Linux基金会宣布于今年7月正式成立“Token经济(Tokenomics)”基金会,获得IBM、甲骨文和摩根大通等巨头支持。
FinOps基金会执行董事J.R. Storment指出,追踪云端成本是每月数亿行的数据,而追踪Token成本则是“每月数兆行数据的问题”。该基金会旨在建立“每单位智能成本”与“每瓦Token数”等新指标,将粗放的AI支出纳入如同云端运算般的财务纪律中。
泡沫还是阵痛?算力硬件与代理化未来的博弈
面对成本烈火,行业的目光自然投向了下一代硬件。然而,智通财经指出,尽管英伟达收购了芯片新创公司Groq,且AMD、英特尔等均在重新设计AI加速器以降低单次Token成本,但绝大多数硬件要到今年下半年才会发布,大规模部署缓解供需至少要等到2027年初至中期。远水难救近火。
即使硬件成本最终下降,AI代理的爆发式增长仍可能抵消这些红利。英伟达执行长黄仁勋曾描绘过“每位员工身旁有100个AI代理协同工作”的宏大愿景。高盛(Goldman Sachs)更预测,到2030年,全球Token使用量将暴增24倍,达到每月120千兆(quadrillion)个。
然而,研究机构顾能(Gartner)总监分析师Will Sommer警告,虽然到2030年大型语言模型的推论成本将比2025年便宜近90%,但“首席产品官们不应将商品Token的通货紧缩,与前沿推理的普及化混为一谈。”因为代理式模型完成任务所需的Token量远大于标准模型,消耗量的增速极可能超过单位成本的降速。
2026年的这场Token成本危机是AI泡沫化,还是其商业模式走向成熟的必经阵痛?
一位AI公司高管说,当成本攀升的速度压倒了一切效率提升,摆在产业面前的问题已不再是AI能否改变世界,而是企业如何在技术狂热与商业现实之间找到平衡。
这场“去伪存真”的压力测试,将决定谁能真正在未来的AI浪潮中生存并获利。