中科院提出15万tokens/s晶圆级芯片方案

2026-04-20 06:25:18 · chineseheadlinenews.com · 来源: 量子位

当前大模型的发展呈现出类似于“军备竞赛”的趋势——模型规模持续攀升,对计算硬件的需求也随之快速增长。

从千亿参数到万亿规模,每一次迭代都对硬件资源提出了更高的要求。

在这一背景下,一个关键的“隐性开销”日益凸显:数据搬运。在传统计算架构中,一次推理过程往往需要在DRAM、SRAM与计算单元之间反复读写数据。频繁的访存操作不仅带来高延迟,也消耗大量能耗。有研究指出,实际计算所占的时间远少于数据搬运所耗费的时间。

为此,一种极具潜力的思路应运而生:彻底消除数据搬运。这引出了两条备受关注的技术路径:存算一体与晶圆级集成。

存算一体:将存储与计算融合在同一芯片内,使数据在原地完成处理,避免频繁搬运。

晶圆级集成:直接在整片硅晶圆上构建超大规模系统,通过超高带宽互连,实现晶圆级的统一内存与计算资源。

中国科学院计算技术研究所的研究团队在该方向上取得了重要进展。其最新成果Ouroboros发表在体系结构领域的顶级会议——第31届ACM编程语言与操作系统架构支持国际会议(ASPLOS)上。

Ouroboros实现了一款完全由SRAM存算单元构建的晶圆级芯片。在该芯片中,模型推理所需的所有数据——权重、KV Cache以及激活值——全部存放于片上SRAM中,无需从外部DRAM进行搬运。所有计算均在数据存储位置完成,真正实现了“数据不搬家,计算就地化”的存算一体范式。

芯片采用层次化设计,自上而下分为三层:

1. 晶圆级集成

芯片顶层为一块巨型单晶圆,集成有54GB SRAM,可完整存储模型权重、激活值与KV Cache,彻底消除DRAM访问开销。整片晶圆由相同尺寸的小芯片通过stitching技术无缝拼接,形成统一调度的计算平面。

2. 芯片级组织

每个芯粒内部由上百个存算核心构成网格网络,核心间通过高带宽链路互联。设计将芯粒面积推向光刻极限以最大化SRAM容量,并引入核心级容错机制以保障大规模芯片的可靠性。

3. 存算核心微架构

每个核心包含输入输出缓存、存算阵列、专用函数单元及控制单元。缓存容量可容纳典型大模型的token数据,显著减少核心间数据传输。存算阵列通过优化的片上网络互联,专用函数单元以匹配的并行度执行softmax等操作,控制单元则协调核心间与核心内的流水线同步。

尽管Ouroboros构建了强大的晶圆级计算平面,在运行大模型时仍面临若干关键挑战:

第一,SRAM还是“不够大”

虽然在晶圆上集成了大量SRAM,但受限于SRAM自身的密度,片上存储容量仍显不足。当模型规模继续膨胀,如何用有限的片上空间装下越来越大的权重和状态,依然是绕不开的难题。

第二,巨型阵列的“调度难题”

当计算单元以成百上千的规模铺满晶圆,如何高效地把模型“拆解”并映射到这个分布式阵列上,就成了一个复杂的系统工程。存储布局、数据流调度、任务分配……每一项都需要全新的设计思路。

第三,计算与存储的“共生优化”

在存算一体的架构里,计算和存储是高度绑定的——计算发生在数据存放的位置,存储的布局也直接制约着计算的效率。因此,必须同时对两者进行协同设计与优化,才能最大化整体性能。

为了充分释放这片晶圆的计算潜力,团队专门打造了一个端到端大模型推理框架。

从模型整体的流水线切分开始,这个框架就进行了针对性的精细化调整,目标是让存算资源被充分利用起来。

紧接着,团队设计了一套权重映射策略——不仅考虑硬件资源如何分配,还引入了分层映射方法,尽可能减少数据传输。

而针对大模型推理中至关重要的KV Cache,框架也有一套创新设计:通过分布式动态KV缓存管理方案与对应的硬件支持,把片上缓存的空间利用率推向了新的高度。

在从芯片到系统的协同设计下,Ouroboros实现了“原地计算”理念,取得了显著的性能与能效表现。实验结果表明:

平均吞吐量达到现有顶尖系统的4.1倍

平均能效提升至4.2倍

而在13B参数规模的模型上,表现尤为突出:

吞吐量最高达9.1倍

能效比甚至提升到17倍

采用单晶圆推理Llama 13B模型、在WikiText?2数据集上进行测试时,系统吞吐量可稳定达到 15万tokens/s。这一结果进一步验证了Ouroboros在真实大模型负载下的极致性能

上述数据不仅验证了性能与能效的突破,也为“存算一体+晶圆级集成”这一技术路线的可行性提供了有力支撑。该研究标志着在消除数据搬运、构建高效大模型推理系统方向上迈出了重要一步。


    24小时新闻排行榜更多>>
  1. 习近平反腐重大转向,一纸新规瞬间引爆舆论
  2. 揭密围绕习权力的四次中南海派系交易
  3. 山东“复式195平米”住宅拍卖 起拍价一万多
  4. 一边清洗一边交易:习近平的权力焦虑
  5. 曾批评中国经济遭封号 经济学家付鹏加入港企
  6. 许家印涉单位行贿 牵出高官名单越来越长
  7. 伊朗早握“核弹级武器” 武器库有望回到战前7成
  8. 川普:伊朗严重违反停火协议
  9. 陆教师揭“衡水模式”黑幕:学生沦考试机器
  10. 川普:美军把伊朗货船引擎舱炸出洞 将其扣押
  11. 明确排除中国车企设厂 卢特尼克:美国不需要比亚迪
  12. 官媒报山西特大假酒案 网友讽:了解了
  13. 卡尼荣登《时代》百大影响力人物
  14. 律师:中共两高新规可怕 没送出的钱也要追缴
  15. OpenAI一日流失三高管 资本还密谋换掉奥特曼
  16. 大马水上村落失火,千栋住屋被毁
  17. 惊悚“不要骨灰” 传大陆某殡仪馆出灵公告均90后
  18. 华女刺伤消防员,被控重罪
  19. AppStore网页强制跳转国区,苹果版"地理围栏"来了
  20. 美国致命三连杀,伊朗到了危险时刻
  21. 多个犹太场所遭袭 英国调查是否和伊朗有关
  22. 核弹级优势!美评估伊朗"武器库存",足以封锁荷莫兹
  23. 加拿大经济有30%概率陷入衰退
  24. 陈丽华大谜团:前夫姓王 自己姓陈 三个孩子都姓赵
  25. 爱荷华大学重大枪击!多人中弹 现场曾爆大乱斗
  26. 马来西亚传恐怖大火,首相发声
  27. 泽连斯基,不再幻想
  28. 数千快艇出没 伊朗“蚊子舰队”成全球油运隐忧
  29. 美军全球抓“幽灵油轮” 公海登船扣押 切断伊朗原油外销
  30. Transformer、卷积、傅里叶变换的底层数学统一性
  31. “万达电影”更名,彻底撕去王健林的标签
  32. 怒火引爆!川普扬言“摧毁所有桥梁、发电厂”
  33. 路州家暴惨案 男子枪杀8童 7人为亲生
  34. 伊朗战争给中国“武统”台湾的警示
  35. 想保养出乌黑亮丽的秀发?这些方法要记牢
  36. 从忍让到摊牌:泽连斯基,不再幻想
  37. 白宫官员:万斯将率团参加美伊谈判
  38. 从浪漫到惊悚!中国奇葩建筑大赏:大夜壶上榜
  39. “经济怒火”施压!美国拟在全球查缉伊朗船舶
  40. 赵少康抛“军购匡列8100亿”吁郑丽文别再拖
  41. 欧洲未雨绸缪,应对美国可能从北约抽身
  42. 川普宣布美伊第二轮谈判 并严厉警告伊朗
  43. 一场全球怀旧:梦回2016 那个没有AI和TikTok的世界
  44. 川普:是时候阻止伊朗杀人机器了
  45. 川普要的空军一号延宕 卡达送的747“过渡专机”上阵
  46. AI新模型拉响网络安全攻防警报
  47. 中国被指暗助伊朗?美国战略出现自相矛盾
  48. 川普:伊朗出现内斗 尚无赢家
  49. 拼多多卷"幽灵外卖"风暴 与官员互殴 一拳打没15亿?
  50. 4.25:一场暗中准备好的大屠杀是怎样化解的?
  51. 中国启航!货轮遭美军开火扣押,伊朗军方誓言报复
  52. 美枪击案内幕:7名受害儿童是枪手的孩子
  53. 中国多地加强管控老干部思想 习近平恐惧至极
  54. 重庆“时代峰峻大楼被雷劈”视频热传
  55. 美国路州8童被杀案 其中7人为枪手子女
  56. 深度拆解美联储重磅“缩表”论文
  57. 【浮生漫记】忆谷雨
  58. 美扣押从中国驶往伊朗的货船 中共因何紧张?
  59. 6.63亿,京东在杭州拿地
  60. 11科学家接连死亡失踪!美媒曝“有人知道太多被消失”