北大团队改造DeepSeek注意力:快四倍

2026-04-06 07:25:10 · chineseheadlinenews.com · 来源: 量子位

就在大家都急头白脸地等待DeepSeek-V4的时候,冷不丁一篇新论文引起了网友们的注意——

提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文的索引瓶颈,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。

不仅做到了大幅提速,而且几乎不丢精度、即插即用不用重新训练。

论文直接在DeepSeek-V3.2和GLM-5上替换索引器,无需微调。

并且在找关键信息、长文本理解等任务上,精度都和原方法几乎持平。

两步消除上下文索引瓶颈

这篇论文想解决的问题很明确:给大模型的稀疏注意力机制换个更高效的 “检索器”。

现有主流的DSA等token级稀疏注意力,核心就是通过只计算关键token的注意力,降低了核心计算成本。

但这个设计有个致命隐藏问题:要挑出相关字符,得靠一个 “索引器”——它需要把每个待查字符,和前面所有字符挨个打分,再选分数最高的。

文本长度L越长,这个打分的工作量是L的平方级增长。比如长度翻倍,工作量就会翻4倍。

到超长文本时,这个索引器的平方级成本,反而成了拖慢速度的元凶,甚至反而比真正的注意力计算还耗时。

基于此,研究团队开始思考一个问题:能否在不改变最终稀疏注意力结果的前提下,降低索引器的搜索成本?

于是,他们提出了HISA(分层索引稀疏注意力),核心思路也很简单:

既然挨个打分太费时间,那就先按块筛掉大部分无关内容,再在剩下的小块里精细选。

在功能逻辑上实现对原有模块的等价替换,无需修改后续注意力计算逻辑,相当于 “换了个更高效的筛子,筛出来的东西几乎没变”。

具体就两步,全程复用原模型的打分规则,零学习成本:

第一步,块级粗过滤。

把长文本切成固定大小的 “字符块”(比如128个字符一块),给每个块算一个 “整体特征向量”(相当于给每块贴个总标签);

用原索引器的打分方式,只给这些块标签打分;

挑出分数最高的m个块(比如64个),直接扔掉剩下的所有块——块的数量远少于字符数。

这一步能省掉绝大部分工作量。

第二步,块内精挑字符。

只在第一步选出来的m个块里,用原索引器的规则给单个字符打分,再挑出最终需要的k个相关字符。

还加了个小优化:文本的第一个块和最后一个块必选,保证开头的背景信息、结尾的最新上下文不被误筛,也能处理文本拼接的边界问题。

HISA的关键优势在于:复杂度骤降,还能 “无缝替换”。

HISA把原索引器每一层 O (L?) 的算力成本,降到了O(L?/B + L×m×B)(B 是块大小、m 是选的块数)。

文本越长、块选得越精准,提速效果越明显。

更重要的是它的工程友好性:

输出和原索引器完全一致,下游的注意力计算模块不用改;

不用重新训练模型、不用调整KV缓存结构,直接替换原索引器就行;

短文本时会自动 “退化” 成原方法,只有超长文本时才触发分层筛选,全程自适应。

实测提速超猛,精度几乎没丢

论文在DeepSeek-V3.2、GLM-5两大主流大模型上做了全面测试,结果很亮眼:

速度上,在64K长度的文本下,HISA 比原DSA索引器最高提速3.75倍,常规设置也能提速2倍多。

上下文长度越长,HISA的提速效果越显著,完全契合超长上下文(128K/1M) 的实际应用需求。

精度上,HISA也几乎完全保留原DSA的精度,且显著优于纯块稀疏方法。

论文进行了“大海捞针”测试,该测试衡量在超长无关文本中,精准检索指定位置关键信息的能力。

结果HISA和DSA几乎一样准,在所有长度和插入深度下,检索精度均接近DSA的近乎满分。

在长文本理解(LongBench 基准)上,HISA的分数也和DSA基本持平。

甚至在部分场景,比如合成检索、少样本学习等对token筛选精度要求高的任务中,HISA做到了小幅反超。

而在超参数测试中,不同块大小、选块数量下,HISA表现都很稳定,分数均与DSA高度接近,无显著性能差异。

这也说明HISA对超参数的选择不敏感,鲁棒性强,工程落地时无需精细调参。

不过目前HISA还有小瑕疵,作者也提出了后续改进思路:

第一,现在块是固定大小的,若一个块里混了无关和相关内容,块的 “整体标签” 会不准。

未来可以搞自适应块、重叠块,或换更好的块特征计算方式。

第二,目前只是推理时直接用,未来可以把块筛选和模型一起训练,让筛选包精准。

第三,现在只测了索引器的速度,未来整合到完整的大模型服务框架里,测端到端的吞吐量和延迟。

团队背景

这篇论文出自北京大学的张牧涵团队。

张牧涵,北京大学人工智能研究院的Tanure-track助理教授和博士生导师。

回国前曾在Facebook AI(现为 Meta AI)担任研究员,从事大规模图学习系统和问题的研究。

其Google Scholar总引用量超过13000次,其中两篇一作文章引用量分别达到3100+和2400+次,连续多年入选Elsevier全球前2%顶尖科学家(生涯影响力榜单)。

Yufei Xu(徐宇飞)和Fanxu Meng(孟繁续)为论文的共同一作。


    24小时新闻排行榜更多>>
  1. 马兴瑞从广州挤走一官员 爆中共悄进行夫人整风运动
  2. 爆多起献忠事件 沈阳街头砍人 官方封消息死伤成谜
  3. 马兴瑞落马引爆猜测:有彭丽媛当后台仍难自保?
  4. 央行抛售黄金影响几何?
  5. 内部有美、以间谍? 爆海康威视三百多人被带走
  6. 日经分析:伊朗会变成第二个朝鲜吗?未来三条路径
  7. 美军深入敌方救出F-15E飞官 料改变战局或战略
  8. 2026离火年 要“人艰不拆”格外惜福报
  9. 罕见“降温”信号:一艘油轮成功闯过霍尔木兹海峡
  10. 美军敌后救出飞行员 向伊朗释何信号?
  11. 美坠机飞行员如何躲过伊朗搜查?专家:靠SERE
  12. 军事基地放炸弹的华裔姐弟 父母非法滞留30年 已被逮捕
  13. 纽约吃霸王餐华人网红又出事 被担架抬走 明显胖了…
  14. 川普下达新的最后通牒,市场失控了
  15. 清明徒步大军“堵死”南太行
  16. 北大法律硕士,与一个停车位上的死亡纠纷
  17. 我们是最后一代!中国年轻人挣扎中求生!
  18. 在一些人眼里,不亲美以,就是粉红
  19. 沈阳和平区发生一起当街伤人案,嫌疑人已被控制
  20. 30年前营救行动:美飞行员躲追捕6天 吃树叶蚂蚁充饥
  21. 乘客空中诞婴 纽约机场塔台员工建议取名肯尼迪
  22. “赢不等于消灭对手”:川普的战争精算法曝光
  23. 加拿大医院急诊等候,致5人死亡
  24. 同样食材饭店炒的香?大厨不传的秘密全在这
  25. 中国富人正涌入非洲首都 用现金狂扫豪华住宅
  26. Costco越来越贵!新品被网友骂惨:这也值15刀?
  27. 科学家用活体神经元完成计算任务
  28. 传沈阳男子随机杀人后跳楼 砍6人4死1人断头
  29. 中共官媒称美军搜救无果试图炸死飞行员 遭炮轰
  30. 中东局势进入关键窗口期,24小时定走向?
  31. 伊朗军方:霍尔木兹海峡运行永远不会恢复至原状
  32. 获救细节:飞行员发非常信息 川普起初以为是陷阱
  33. 伊朗革命卫队情报机构负责人,遭美以空袭身亡
  34. 美军深入伊朗营救队友 战争英雄盛赞
  35. 伊朗宣称击落F-16真相曝光遭打脸 残骸证实是…
  36. 还要打多久?他看见伊朗战争大结局
  37. 金主爱被视为朝鲜政权接班人
  38. 美军冒死救战友 中共落单兵自毁装置引关注
  39. 河北沧州暴力杀妻案凶手金昊,已被执行死刑
  40. 加州Panera“封死充电口”?
  41. 为什么说日本的干净来自于大唐?
  42. 加财长率金融巨头访华推动贸易回暖引批评
  43. 日本紧抱布偶的小猴 照出了人不敢说的孤独
  44. 沙漠中的亚特兰提斯?被天谴消灭的罪恶之城
  45. 这国表态:准备好加入美国为首的行动
  46. “张雪机车”打假
  47. 中国巨变前夜 民间组织“江湖人”要“搞事”
  48. 伊称击落12架美飞机!嘲美怕丢脸"自轰战损飞机"
  49. NASA公布“阿尔忒弥斯2号”拍摄的月球背面照片
  50. 湖南维权人士陈俊贤呼吁还民众公正法治环境
  51. 阳台10㎡变身梦幻花园!3步改造,邻居都来偷师
  52. 川普关税一周年:中国难以复制
  53. 四川仁寿宋氏14代人为南宋丞相守墓800多年
  54. 加航部分航线机票涨价50加元
  55. 吃遍纽约餐厅不付钱,这网红又出事了
  56. 成为阎罗王 特意带友人走一遭地狱
  57. 燃油费涨价,最懂省钱的人,已经开始囤机票了
  58. OPEC+:修复能源设施昂贵且耗时
  59. 中国碳14核电池横空出世
  60. FBI南加大抓捕 突袭“临终关怀医院” 抓8人 起诉15人