RISC之父David Patterson:AI推理需要另一种硬件

2026-03-14 02:25:42 · chineseheadlinenews.com · 来源: DeepTech深科技

近日,2017 年图灵奖得主、被称为“RISC 之父”的 David Patterson 最近与 Google DeepMind 高级工程师马晓宇在 IEEE Computer 联合发表了一篇论文——“关于大语言模型推理硬件的挑战与研究方向”,引发了科技圈的关注与讨论。

(来源:arXiv)

David Patterson,这位 RISC 架构的奠基人、影响了全球 99% 微处理器设计的计算机科学家,在论文开篇就抛出了一个尖锐的判断:

当前 AI 芯片的设计思路,即满载的算力、堆叠的 HBM(High Bandwidth Memory,高带宽内存)、带宽优先的互联,与大语言模型推理的实际需求严重错配。

(来源:UC Berkeley)

(来源:四家公司财报数据)

面对这些挑战,论文将问题归结为两堵“墙”:内存墙与延迟墙。

内存墙的本质是硬件发展的不均衡。Patterson 引用了一组数据:从 2012 年到 2022 年,NVIDIA GPU 的 64 位浮点运算能力提升了 80 倍,但内存带宽只增长了 17 倍。这个差距还在持续扩大。

更麻烦的是,HBM 的成本不降反升。论文援引花旗银行的研究数据指出,从 2023 年到 2025 年,HBM 的单位容量成本(/GB)和单位带宽成本(/GBps)都上涨了约 35%。这与传统 DDR DRAM 形成了鲜明对比,后者的成本在同期下降了近一半。

图 | HBM(上)和 DDR(下)的单位容量成本和单位带宽成本随时间变化的趋势线(来源:论文)

造成这种分化的原因在于制造工艺:HBM 需要堆叠多层 DRAM die,封装难度随着堆叠层数和密度的增加而上升,良率问题愈发严峻。

图 | (a) 高带宽内存 HBM 封装俯视图,(b) HBM 侧视图(来源:论文)

过去,数据中心的推理通常在单芯片上完成,只有训练需要超级计算机级别的集群。因此,连接这些芯片的互联网络主要优化带宽而非延迟。但 LLM 改变了游戏规则:模型太大,推理也需要多芯片系统;软件层面的分片(sharding)意味着频繁通信;而 Decode 阶段的小 batch size 导致网络消息往往很小。对于这种“频繁、小消息、大网络”的场景,延迟比带宽更重要。

这个方向有两种实现路径:一种是在 HBM 的 base die 上集成计算逻辑,复用现有 HBM 设计,带宽与 HBM 相当但功耗降低 2 到 3 倍;另一种是定制化 3D 方案,通过更宽更密的接口和更先进的封装技术,实现超越 HBM 的带宽和效率。挑战在于散热:3D 结构的表面积更小,散热更难,以及需要建立内存-逻辑接口的行业标准。

第四个方向是低延迟互联。

论文建议重新审视网络设计中延迟与带宽的权衡。具体措施包括:采用高连接性拓扑(如树形、蜻蜓、高维 Torus),减少跳数从而降低延迟;引入网络内处理(Processing-in-Network),让 LLM 常用的通信原语(如 all-reduce、MoE 的 dispatch 和 collect)在交换机中加速;优化芯片设计,让小包数据直接存入片上 SRAM 而非外部 DRAM,或将计算引擎靠近网络接口以缩短传输时间;甚至在可靠性设计上做文章,部署本地备用节点减少故障迁移的延迟和吞吐影响,或者在 LLM 推理对完美通信要求不高时,用假数据或历史结果替代超时消息,而非等待掉队者。

Patterson 在论文中还不忘强调个人观点:他批评了当前学术界与产业界的脱节。

1976 年他入行时,计算机架构会议上约 40% 的论文来自工业界,而到 2025 年的 ISCA(International Symposium on Computer Architecture),这个比例已经跌破 4%。

他呼吁学术研究者把握 LLM 推理这个"诱人的研究目标",并建议开发基于 Roofline 模型的性能模拟器,配合现代的性能/成本指标(如 TCO、功耗、碳排放),为 AI 推理硬件创新提供更实用的评估框架。

当前,全球正经历一场因 AI 引发的内存供应危机。由于 HBM 生产挤占了传统 DRAM 的晶圆产能,2026 年全球 DRAM 价格大幅上涨。三星、SK Hynix 等厂商正将更多资源转向高利润的 HBM 产品线,这虽然满足了 AI 数据中心的需求,却加剧了消费级内存的短缺。这种供应紧张可能持续到 2027 年甚至更久。

在这种背景下,Patterson 提出的 HBF、PNM 等替代路径,或许不仅是技术上的探索,也是产业寻找 Plan B 的现实需求。

当然,论文也承认这些方向并非可以一蹴而就的方案。每一个都涉及复杂的工程权衡:HBF 需要解决软件如何处理有限写入耐久性和高延迟读取的问题;PNM 和 3D 堆叠需要新的软件分片策略和内存-逻辑接口标准;低延迟互联可能需要牺牲部分带宽。

论文鼓励将这些方向组合使用,因为它们在很大程度上是互补的。更高的内存带宽可以缩短每次 Decode 迭代的延迟,更大的单节点内存容量可以减少系统规模从而降低通信开销。

作为 RISC 架构的共同发明人、RAID 存储系统的开创者,Patterson 的职业生涯几乎就是"挑战现有范式"的代名词。40 多年前,他和 John Hennessy 提出的精简指令集思想曾被工业界视为异端,如今 99% 的新芯片都采用 RISC 架构。

Patterson 和马晓宇选择发表这篇论文的方式也很有意思,它不是一篇技术细节密集的顶会论文,而是发在 IEEE Computer 这本面向更广泛读者的杂志上,语气像是在发布一封公开信。值得注意的是,他们在致谢中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young,这串名字几乎覆盖了 Google AI 基础设施的核心架构师。


    24小时新闻排行榜更多>>
  1. “民族团结”立法:习近平打造单一国家意识
  2. 打了三周仍不知为何而战,美国战争目标仍然模糊?
  3. 伊朗坚决封锁海峡,川普回应
  4. 为什么腾讯能一口气推出这么多“龙虾”?
  5. 南加州山地车手被响尾蛇咬伤 一月后去世
  6. 12种健康蔬果竟含致癌物质
  7. 揭秘场外交易背后的利润与陷阱
  8. 三名军工专家被移出中国工程院院士名单
  9. 外卖大战一周年:硝烟和补贴都没了,只剩下...
  10. 消息:五角大楼向中东增派战舰与海军陆战队
  11. 中共将魔爪伸向外国人?大马游客在福建“脑死亡捐器官”
  12. 拯救一只被困井下两年的小狈
  13. 遭美军轰炸的哈尔克岛,有多重要?
  14. 分析:董军因何成为中共军中内讧幸存者
  15. 传中共海军司令胡中明被抓 曾获苗华提拔
  16. 中产教育降级 假期去泰国国际学校“插班”
  17. 空耍嘴皮难敌骨感现实 川普恐收不了伊朗战争
  18. 布碌仑欲建电池储能厂引关注
  19. 中国海洋故事盼续新篇
  20. 霍尔木兹海峡传出关键动作
  21. 南加州房市回温 买家为何观望 经纪人解析
  22. 北京大会堂用老式热水瓶 官媒称节俭引嘲讽
  23. 洛县工伤保险诈欺全美前三 检察官打击起诉
  24. 加州议员谴责中共企图左右美民选辟员
  25. 川普:美军最强轰炸 摧毁伊朗王冠上明珠
  26. 伊朗无人机袭美军基地酿6死 幸存士官长还原经过
  27. 中东开战“最大赢家”是普京?俄暗助伊朗 日赚1.5亿
  28. 前CIA资深分析师:若战局失利 以色列或动用核武
  29. 伊朗“最猛烈空袭行动”:30枚超重导弹出击
  30. 比格斯预言:新冠只是预演 即将有更可怕的病毒
  31. 中东冲突引爆全球赤字恐慌 30年美债收益逼近4.9%
  32. 中国青年躺平潮 分析:对制度的无声抗议
  33. 美中谁更需要川习会
  34. 伊朗这次玩得挺花
  35. 十天写出一个开源项目,拿到陈天桥3000万投资
  36. 亲美还是亲中?惊人数据爆光7成民众“一面倒表态”
  37. 海格塞斯:伊朗已没能力再建造导弹
  38. 海军陆战队精锐调往中东,美军“由海向陆”威慑升级
  39. 川普:普京可能为伊朗提供过帮助
  40. 中共军方两会提政治整训 专家:军心已涣散
  41. 不来一场大危机,一切无法收场?
  42. AI“龙虾”火爆 中共忙发警告 专家解析
  43. 美股已进入技术性熊市
  44. 川习会逼近 传言北京受挫 中方的期待会否落空?
  45. 川普身边三大阵营火热竞争“退场剧本”内幕
  46. 云南冻干草莓被检出有毒重金属 超标10倍
  47. 时隔6年,国航北京至平壤直飞复航
  48. 前世界首富贝索斯迎第二春:街头与现任狂秀恩爱
  49. 美国撤回“AI芯片出口许可”草案
  50. 男子播放希特勒演讲,被控仇恨犯罪
  51. 美国对60个国家启动贸易调查,矛头指向强迫劳动
  52. 格里尔:美中巴黎会谈聚焦稀土与贸易稳定
  53. 石油封锁导致经济危机加剧 古巴证实与美国对话
  54. “不贪三更色 不恋一更食”?下半句更精辟
  55. 邓小平整肃习仲勋 现在看来真是小巫见大巫
  56. 香港突击搜查中信证券、国泰君安等3机构 8人被逮捕
  57. 糖三角,是旧日子的味道
  58. 去年的今天,池边的新柳
  59. 美军袭击伊朗石油枢纽哈尔克岛
  60. RISC之父David Patterson:AI推理需要另一种硬件