AI推理如何创造新的内存需求?

2026-06-15 06:25:16 · chineseheadlinenews.com · 来源: 华尔街日报

AI推理时代的到来,正在从根本上重塑半导体存储行业的需求格局。随着每个问题的平均输出Token数量以每年超过5倍的速度激增,KV缓存管理与智能体AI部署所带来的内存需求,已成为AI基础设施中最具挑战性、也最具市场潜力的新兴领域。

在2026年6月举行的GTC台北大会上,英伟达创始人兼首席执行官黄仁勋明确指出,"AI的内存系统将彻底变革存储系统",并将内存系统列为AI基础设施中最具挑战性的部分之一。这一判断直接指向两个结构性需求驱动力:一是推理工作负载催生的KV缓存卸载需求,二是智能体AI(Agentic AI)兴起带来的CPU内存需求扩张。

上述趋势对存储产业链的影响已开始显现。英伟达相继推出Dynamo软件平台与CMX上下文内存存储平台,Arm、Intel、AMD等主要芯片厂商亦在2026年密集发布面向智能体AI的新一代CPU产品,行业正加速从以吞吐量为导向的架构向以低延迟为导向的架构转型。

推理侧扩展:Token爆炸式增长重塑硬件需求

AI推理阶段对硬件的要求与训练阶段存在本质差异。

根据英伟达公开数据,自2024年下半年以来,每个问题的平均输出Token数量以每年超过5倍的速度激增,目前已达约30,000至40,000个Token。这一趋势表明,行业已进入英伟达"三大缩放定律"中的推理侧扩展"思考"阶段(Test-time Scaling)。

据TrendForce分析,AI推理对硬件提出三项核心需求:更高的每秒查询率(QPS)、更长的上下文窗口,以及更多的推理步骤和智能体循环。这三项需求分别从不同维度驱动内存需求的结构性变化,具体体现在模型权重、KV缓存与智能体AI三个层面。

模型权重属于静态内存分配,其占用量与模型参数规模直接挂钩,计算公式为:模型权重总大小 = 参数量 × 每个参数的字节数。随着模型规模持续扩大,这一静态占用构成了推理系统内存需求的基础底座。

KV缓存:动态膨胀催生卸载技术与SSD POD新市场

KV缓存是推理阶段内存压力的核心来源。

KV缓存存储推理预填充阶段生成的键值向量,以避免解码阶段的冗余计算,属于动态内存分配。其总大小由层数、KV头数、每个头的维度、序列长度、批处理大小及精度共同决定,随对话长度和批处理规模的增长呈非线性膨胀。

在长上下文、高批处理的推理场景下,当GPU的HBM容量不足时,系统将被迫丢弃KV缓存并重新执行预填充计算,导致延迟上升、总拥有成本(TCO)增加。

为解决这一瓶颈,英伟达于2025年3月发布KV缓存卸载软件Dynamo,将访问频率较低的KV缓存卸载至CPU内存和SSD等容量更大、成本更低的存储层级,确保数据在解码阶段保持可重用性。

与Dynamo配套,英伟达于2026年1月推出CMX上下文内存存储平台(CMX Context Memory Storage Platform),由BlueField-4 DPU管理,基于BlueField-4 STX机架构建,采用64颗BlueField-4 DPU管理每机架约9,600 TB的容量,在本地SSD(G3层)与共享存储(G4层)之间新增G3.5层级的Pod级上下文存储层。

值得关注的是,在COMPUTEX 2026上展示的BlueField-4 DPU结构模型中,已配备SK海力士的PEB210 E1.S和PE9010 M.2 SSD样品。随着英伟达、谷歌等厂商相继推出SSD POD平台,这一细分市场的需求预计将持续攀升。

智能体AI:CPU与GPU比例向1:1重构,LPDRAM需求随之扩张

智能体AI的规模化部署,正在引发AI服务器架构的另一场深层变革。

在AI智能体工作流中,模型需主动执行规划、工具调用、决策及代理操作,所有编排、数据路由与子智能体评估任务均由CPU承担。黄仁勋指出,智能体生活在纳秒级的世界中,超低延迟是首要需求,这使得CPU架构的重要性大幅提升。

TrendForce预计,随着智能体AI部署规模扩大,CPU与GPU的工作负载比例将从传统的1:4或1:8向约1:1转变,为CPU市场创造显著增量空间,并同步带动CPU内存需求的结构性增长。

英伟达于2026年推出专为智能体AI工作负载设计的Vera CPU,根据原始规格,Vera支持高达1.5 TB的LPDDR5X内存容量,是上一代Grace CPU的三倍。

不过,TrendForce最新调查显示,英伟达已决定将下一代Vera Rubin超级芯片模块的SOCAMM内存容量减半,原因在于供应商2027年初步生产计划中分配给英伟达的LPDRAM产能不足,这一调整并不反映英伟达整体内存需求的下降。

在更广泛的CPU市场,2026年正成为面向智能体AI的全面产品换代之年。Intel推出Xeon 6+(Clearwater Forest),AMD发布EPYC Venice,Arm推出Arm AGI CPU,Ampere的AmpereOne MX亦预计于年内进入量产。多路竞争格局的形成,将进一步加速CPU内存需求的释放。

两大驱动力共振,存储产业链迎来结构性机遇

综合来看,AI推理正在从两个相互独立却协同共振的维度重塑内存需求版图。

其一,推理工作负载驱动KV缓存消耗迅速扩大,KV缓存卸载技术将大量数据引流至CPU内存和SSD POD,随着相关平台加速落地,这一细分市场的需求可见度持续提升。

其二,智能体AI正将CPU与GPU的工作负载比例推向1:1,为CPU及其配套LPDRAM创造了此前不曾有过的增量市场空间。

对于存储产业链的投资者而言,上述趋势意味着HBM之外,企业级SSD、LPDRAM及相关DPU配套存储产品正在成为AI基础设施投资的新焦点。


    24小时新闻排行榜更多>>
  1. 饭局牵出性侵案 蔡奇第三名旧部传出事 官网简历被撤
  2. 18岁少年令巴西中场尽失锋芒
  3. 美伊达成协议,油价开盘重挫
  4. 借挂名股东控制供应链 15家泰国中企遭调查
  5. 中共北斗工程被曝“脆皮底座” 一掰被碎
  6. 分析:中共打击跨境炒股实为抢钱 更促资金外逃
  7. 西瓜的“死对头”,二者万不可同食
  8. 燃料和生活成本攀升,川普农村地区支持率创新低
  9. 两直升机相撞致6死,包括美歌手
  10. 离开手机和网络,我们还能走多远?
  11. 中国经济大萧条!3亿年轻人失业!惊现最惨一幕!
  12. 最危险2天 全球预言家集体示警
  13. 权斗惨烈 习近平已拔掉4大眼中钉?
  14. 日本药企加码对华押注:中国研发能力已逼近美国
  15. 甘肃张掖一镇政府被曝向农户强收农田建设费
  16. 英网红炫燿用20元麻辣烫猎艳西安女教师 引爆争议
  17. 密苏里州发生飞机坠毁事故 机上12人全数罹难
  18. 胡歌抑郁捡垃圾,张凌赫被大佬“警告”
  19. 只为避开川普生日!伊朗"硬撑到跨夜"公布和平协议
  20. Anthropic新模型突遭出口管制 亚马逊打了小报告
  21. 美顶尖大学新生不会解“7x–2=5”?
  22. 台湾“国安局”设网络平台 供大陆民众提供情报线索
  23. 手术后忘记母语 反而说着流利外语
  24. 1美元中了2万,感恩节变成批斗会
  25. 如何看待spaceX的商业前景?
  26. 川普赞习近平,普京!批纳坦雅胡“差点搞砸美伊协议”
  27. 尼克夺冠,球迷与有荣焉
  28. 复杂细胞源于微生物“渐进联盟”
  29. 川普宣布美伊达成协议 开放霍尔木兹海峡
  30. 德空军司令:已准备好今晚对俄开战
  31. 全球冲击下,为什么美国经济持续逆势而上?
  32. 迪卡侬假货风波发酵 大陆山寨产业链浮出水面
  33. 视频生成作为多模态推理新范式
  34. NBA球星哈登在休斯敦因涉嫌非法持枪被警察逮捕
  35. 推销“假和平”失败!郑丽文访美被降格 传基层人员接见
  36. 从习近平四个眼中钉看习近平这个人
  37. 金刚为何怒目?菩萨为何垂眉?
  38. 13场龙卷风狂轰芝加哥
  39. 民主党议员痛批:砸了千亿 14名美国人丧命 换来.....
  40. 美国和伊朗达成协议 美银分析受益资产
  41. 300万元“老破小”被抢疯,有人一口气拿下8套
  42. 南非洞穴惊现179万年前火痕 人类掌控火种时间或大幅提前
  43. 美国会议员提案 禁止中国军方关联企业员工入境
  44. 国家意志阳谋:美元是我们的货币 却是你们的麻烦
  45. SpaceX要部署1GW太空算力,产业链“闻风而动”
  46. 大众等多款车被诉轮胎开裂 涉韩泰与锦湖品牌
  47. 《驱魔人》(二)“它们恨的是神”恶魔最不愿承认的秘密
  48. 有福遇真仙 贪求毁圣缘
  49. 每到关键时刻搅局,以色列为何总阻挠美伊签协议?
  50. 川普,纳坦雅胡关系决裂?专家:以色列被排除决策圈
  51. 谷爱凌从斯坦福毕业了 穿学士服与妈妈合照
  52. 中国顶级儿童医院,要造100万个AI儿科医生
  53. 高校,疯狂扩招了
  54. 世界杯洛杉矶场内消费价格惊人
  55. 美下架22项冒充“美国制造”餐具 打击中国供应链渗透
  56. 中共在“清除特定人口”?传许多人体内疫苗病毒被激活
  57. 当美国科技巨头陷入造富狂欢 沃尔玛拿出一个数据
  58. 曼谷民众送别泰国公主:烈日下街头守候 落泪送行
  59. 英国计划禁止16岁下使用社媒
  60. 女儿被前男友杀害,有人劝她拿50万