从非欧几何视角解释和改造Transformer

2026-01-29 22:25:17 · chineseheadlinenews.com · 来源: 机器学习与数学

在人工智能的浩瀚宇宙中,Transformer 架构无疑是当今最耀眼的恒星。从 ChatGPT 的惊艳对话到 Midjourney 的梦幻绘图,它都是这一切奇迹背后的核心引擎。

然而,对于大多数非巨头的研究者来说,现实往往是骨感的:手头没有成堆的 H100,也没有那烧得起整座发电厂的预算,也想玩转 Transformer 怎么办?

硬(硬件)的不行,要不咱就来点软(数学)的?

是的,既然拼不过算力的暴力美学,那我们就试试数学的精巧逻辑。这就好比武林剑客,力量上拼不过人家,就得在剑术的精妙上下点功夫。

不过呢,稍微复杂一点的数学搬上去未必立刻这就 SOTA,但至少,它能从更抽象的第一性原理层面,为我们提供一种全新的解题思路。

在改进 Transformer 的道路上,通常有两派人马:一派在做减法,比如搞线性注意力(Linear Attention),试图让模型跑得更快、吞吐量更大;而另一派偏偏反其道而行之,他们在做加法。

咱就属于后者,主张把模型整复杂,先弄一点点黎曼几何和李群李代数等知识试试水,试图进一步压榨架构的潜力。

虽然这听起来似乎有点像是为了数学而数学,但其背后的野心在于:与其用海量数据去暴力拟合,不如给 AI 装上一个更加符合几何直觉的大脑。

至于性能优化?交给工程师嘛,咱只负责优雅。

好了,让我们系好安全带,看看咱是如何用微分几何的视角,把 Transformer 扔进一个弯曲的世界里魔改的。

1. 注意力流形

让我们回到 Transformer。它的强大毋庸置疑,然而,你是否想过,这个强大的引擎里头其实是一个路痴?这就不得不说说它的一个出厂设定缺陷:置换不变性(Permutation Invariance)。

痛苦的根源:当 AI 分不清谁是赢家

对于标准的自注意力机制(Self-Attention)来说,它看一句话就像是看一堆散落在地上的麻将牌。它只知道有什么字,却完全不知道字在哪。如果我们将这个概念放在文言文的语境下,这种缺陷足以引发一场历史级的混乱。

请看这个经典的跨朝代乱斗案例:

【原句:武圣之威】

关公 战 败 秦琼(注:关羽跨越时空,把唐朝的秦琼打趴下了。)

【乱序:瓦岗逆袭】

秦琼 战 败 关公(注:秦叔宝逆天改命,武圣颜面扫地。)

在人类眼里,这是两个截然相反的结局,胜负关系完全取决于关公和秦琼谁站在战败的前面。

然而,对于一个没有位置编码的 Transformer 来说,它收到的输入仅仅是一个词袋(Bag of Words):

关公,秦琼,战,败

在它看来,左边的武圣发威和右边的瓦岗逆袭生成的特征向量是一猫一样的。这就是所谓的薛定谔的战役:只要不观测位置,你永远不知道到底是谁赢了。

为了解决这个问题,传统的做法是给每个词脸上贴个编号(1, 2, 3...),这就是位置编码(Positional Encoding)。但这就像是在一副写意水墨画上,生硬地用圆珠笔标上了 坐标。虽然让 AI 分清了胜负,但这种做法总感觉不够优雅和本质,也不符合道法自然的几何直觉。

那么有没有优雅一些的做法呢?

有一天,俺在刷锅的时候突然想到:与其强行标号,不如让这战场本身就是弯曲的(非欧的)如何?

黎曼流形:让注意力在曲面上流淌

我们认为,Token(单词或图像块)不应该待在平坦的欧几里得空间里,而应该住在一个黎曼流形上。这是一个弯曲的空间,就像球面或者起伏的山峦。

在这个框架下,不仅知道 Token 是什么(内容),还能通过几何结构感知它在哪里。

为了让形象更具辨识度,咱这里改成西游记中的三兄弟。

如果在平地上,你可以随意平移一个箭头(向量),它的方向和大小不变。但在球面上,你带着一个指向北极的箭头走到赤道,再沿着赤道走,箭头指的方向相对于当地经纬线就会发生变化。因此,我们需要想办法来比较不同地点的箭头。

我们将 Transformer 的自注意力机制重构为注意力流形(Attention Manifold)上的交互。在此框架下,Token 是流形上的点,特征嵌入是切空间中的向量。流形的几何由两部分定义:黎曼度量(调节局部交互与语义显著性)和平行移动算子(保证不同位置向量比较的一致性)。这为设计具有强归纳偏置的注意力机制提供了基于第一性原理的视角。

我们的核心理念发生了根本转变:从外在几何转向内蕴几何。重要的不是 Token 在环境空间中的绝对坐标,而是它们之间如何通过变换建立联系。我们不再试图参数化绝对位置,而是专注于定义一种协议,使切向量(特征嵌入)能在离散点的切空间之间进行转换,即平行移动。

尽管平行移动提供了切空间间的线性同构,但在离散设置中,我们缺乏显式的坐标、路径及联络定义。因此,我们摒弃显式位置编码,转而令模型直接学习切空间之间的线性映射。

这相当于隐式地构建了沿 Token 序列的平行移动,从而在无需具体位置信息的情况下,实现了几何上合法的内积运算。也就是说,我们无心构建整个连续的流形,而是转向学习一个离散联络。

2. 黎曼注意力

物理学中有一句名言:物质告诉时空如何弯曲,时空告诉物质如何运动。这话不是爱因斯坦自己说的,是别人对其理论的注解。

我们不妨借用一下这个思想,但此时需要忽略“时空”中的时间,因为我们只考虑空间。

在传统的 Attention 中,空间是均匀的。但在黎曼注意力中,Token 的内容(Embedding)决定了局部的几何结构。于是,我们引入了所谓的动态度量(Dynamic Metric)。如果某个 Token 很重要(比如图像中的主体),它的质量就大,会让周围的空间收缩或弯曲,形成一个类似重力井的东西。

这种由嵌入决定度量的方式具体可以通过一个精心设计的 mlp 来实现。比如,下式这种较为简单的投影操作表现也还可以

这种由嵌入决定动态度量的机制使得自注意力不再是无脑的全局平权扫描,而是体现一定的社会学马太效应或心理学光环效应。重要的信息会自动拉近与其他信息的几何距离,从而获得更多的关注。

我们不妨将其称为黎曼注意力(Riemannian Attention)。请看它完整的公式,

这里我们暂时还保留 Softmax,以后再来替换。

传统的 Attention 机制通过 Softmax 强制归一化,某种程度上是在维持一种众生平等的假象。然而,黎曼注意力打破了这种平衡,引入动态度量 后,模型表现出了鼓励马太效应的强者恒强。当一个 Token 被判定为语义上的富人(具有高重要性 )时,它不仅自身携带的信息量大,更会通过度量乘积效应,成倍地放大它与周围 Token 的引力连接。

这种机制让模型不再温吞地平均分配注意力,而是敢于让关键特征形成垄断地位,迅速从噪声中通过资本积累脱颖而出。

万有引力 vs 黎曼注意力

依稀记得初遇 Transformer 之时,看着注意力机制将散落的 向量一一捕获、汇聚,一种万有引力的既视感便油然而生。那时未曾深究,只觉得它虽有引力之形,却无动力学之实,看起来更像是统计学中冰冷的聚类。

然则,现在终于有意把这一机制安放在黎曼几何的基座之上,通往爱因斯坦广义相对论的大门便已悄然敞开。至于如何赋予其随时间演化的完整动力学,那是后话;此刻,我们不妨先迈出关键的一步:打破统计学的束缚,用几何学的语言,将注意力机制魔改为万有引力场。

让我们回到高中物理课堂。牛老师告诉我们,万有引力公式是这样的:

这简直就是万有引力公式的 1:1 复刻嘛!

通过这一改动,黎曼注意力实际上引入了一个动态能量系统:有些 token 影响力有限,让其逐渐失去存在感(能量),而有些影响力巨大,让它们拥有相对更大的影响力。这不仅是几何学,也带那么点物理,虽然目前还不多。

当然,这里另外一个思路就是把 Softmax 改掉 。。。

3. 离散联络


    24小时新闻排行榜更多>>
  1. 这国总统亲信激战爆乳女高官 不雅片疯传 互揭疮疤
  2. 意识到可能被抓 惊传张又侠提前备好的密信公开
  3. 美国前五角大楼官员 张又侠是习近平身边“最后一个明白人”
  4. 孙绍聘落马 曾是军委办公厅主任方永祥上司
  5. “整个国家都在办护照”传江浙沪粤爆出国潮
  6. 美国当局调整执法方向,只锁定已被定罪的移民
  7. 歼-20量产飙破千架?
  8. 斯塔默到访故宫,多名中国游客偶遇拍照
  9. 爆料:原中组部副部长外逃 习大清洗涉千万人
  10. 家庭礼仪:“菜不摆三、筷不成五、席不成六”
  11. 全军“静默”太反常 张又侠事态将如何延烧?
  12. 美联储暂停降息,鲍威尔发重要讲话
  13. 张又侠老上级廖锡龙官宣去世 传被气死
  14. 抵御地缘政治风险 马斯克要在美国盖巨型晶圆厂
  15. 中共军委办公厅主任方永祥正部级前上司落马
  16. 河北大名县免费给0-18岁孩子筛查先心病 网民恐慌
  17. 传张又侠、刘振立被暗杀身亡 红二代大骂习“坏了规矩”
  18. 鲁比欧:无论发生何事,习近平这一目标不变
  19. 铜供应警报拉响
  20. 参议院两党达成协议 政府关门或可避免
  21. 日经:清洗张又侠幕后 元老与习沟通渠道消失
  22. 阿里巴巴自研芯片,传比肩H20
  23. 【独家】知情人:张又侠曾批习贪生怕死
  24. 爆料:张又侠被捕前准备好的密信公开
  25. 中共军报谈反腐避提张又侠 军队动向异常
  26. 【独家】张又侠等军头和习矛盾激烈
  27. 美国男约会“靠ChatGPT” 女子神提问 AI揭穿他是渣男
  28. WSJ:美国裁员潮的真正原因,不是AI,而是…
  29. 霍曼明州上任放低身段 改善移民扫荡 究责ICE探员
  30. 斯塔默:我想看清中国这头大象 人们往往盲人摸象
  31. “十分聪明用七分,三分留子孙”啥意思?
  32. 2026年博士后国(境)外交流项目申报启动
  33. 官宣张又侠落马当日 中南海附近遍布武警特警
  34. 紧随美国 欧盟拟将伊朗革命卫队列为恐怖组织
  35. 内幕:张又侠落马当日 军方启动临战状态
  36. 《我不是药神》原型陆勇抗癌23年停药 见证医学革命
  37. 《孤注一掷》女星金晨被爆肇事逃逸 令助理代罪
  38. “万一美元迅速衰落,中国也不应该去做第一”
  39. 中国转为零工经济国 民众挣扎求生存
  40. 糖尿病男性“硬不起来”:元凶竟是乳酸堆积
  41. 瞒着苏爹发动823炮战 彭德怀:拿战士命去填海
  42. 高市旋风席卷日本 自民党剑指单独过半 保守势力强势回归
  43. 特斯拉永久停产Model S和X 全力转向Optimus机器人
  44. 活人制?兵马俑唯一“绿脸战士”成考古悬案 被禁出国
  45. 遭跨国打压 律师许思龙吁国际社会制裁中共
  46. 黄仁勋:还没收到任何中国客户的H200芯片订单
  47. 波士顿红线通勤时间翻两三倍
  48. 纽约犹太中心被撞,曼达尼回应
  49. 针刺感?心血管警讯:辨别心绞痛与心肌保塞
  50. 【翻墙必看】中共军方高层出现根本性分歧
  51. 巴拿马最高法院裁定长和营运港口合约违宪
  52. 全球退党中心:2025年1500万人登记三退
  53. 边境沙皇空降明州:不解决问题就不走了 定"撤军"计划
  54. “今年20天村里死7人”大陆博主:年轻人说没就没
  55. 第一个喊“万岁”的是他 也最早被毛泽东打倒
  56. 国盛证券交出2025“成绩单”
  57. 反诈博主惊人爆料:从假体检到“全身零件”被拆光
  58. 一周13人伤亡!建议中国游客春节避免前往俄罗斯
  59. “奥巴马健保”注册人数在补贴到期后大幅下降
  60. 美参院未通过拨款法案 加剧政府停摆担忧