暴雪中的回忆:丘成桐的蒙日方程,奠定生成式AI
2026-03-02 02:25:19 · chineseheadlinenews.com · 来源: 老顾谈几何
马年初六,纽约连绵阴雨转成鹅毛大雪,初七终于变成三十年不遇的暴雪。天地一片苍茫,世界陷入了混沌,恰好可以随手记下一些回忆。春节前后,笔者见到了很多朋友、同学和学生,回顾与他们共同见证过的历史,联想到目前身处的时代巨变之中,感慨万千。很多事情,年轻亲历时并不了解其背后的深意,多少年后再回首时,才会醍醐灌顶,幡然醒悟。
蒙日-安培方程
1995年,笔者初到哈佛大学便在麻省理工大学AI实验室听Berthhold Horn教授的机器视觉课程。Horn教授就是Shape from Shading的发明者,他用双曲型偏微分方程通过图像的色调恢复三维形状。课上,他提到用高斯曲率来表示表示凸曲面的方法,涉及到所谓的Minkowski问题。笔者向丘成桐先生请教,丘先生给笔者一篇他和郑绍远教授合作写于1970年代的文章【1】,他们建立了高维蒙日-安培方程(Monge-Ampere)的正则性理论,从而给出Minkowski问题的解。笔者当时并不理解如此艰深的理论,也无法理解为什么需要证明高维情形。三十年后,大家都在恐惧硅基的AI取代碳基的人类,而占据AI半壁江山的生成式模型,本质上就是在GPU、TPU硬件上求解上百万维的蒙日-安培方程。从这个角度而言,丘成桐先生等数学前辈所建立的蒙日-安培方程理论,为今日的AI奠定了理论基础。

1993年,丘先生在微分几何领域【2】提出了一百多个开放问题,其中之一就是如何数值求解蒙日-安培方程。20年后,2016年笔者团队在丘先生的带领下,发明了几何变分方法给出了Alexandrov问题的离散算法【3】,并于2019年给出了Minkowski问题的算法【4】。当时,丘先生建议我们将这些算法应用于生成式AI,提出了AE-OT模型【5,6】。期间,我们和汪徐家教授有深入交流,探讨蒙日-安培方程的正则性理论。但是当时我们并没有预见到蒙日-安培方程会通过AI重塑整个人类社会。直到2022年左右,生成模型突然爆发,每年有十数万学术论文,各种AI模型迅猛发展,各种AI公司彻底改变了学术界、工业界,乃至整个人类社会。近期爆火的Seekdance正在颠覆影视媒体行业,Claude Code正在革命整个软件工业。
故交重逢
在过去的数十年间,与笔者同时代的整整一代人都吃尽了计算机发展的红利。笔者的海外老同学们和学生们都集中在硅谷、西雅图和纽约,过着优渥的生活。前不久,笔者短暂停留硅谷,见到了很多故交。冬季的硅谷比其他季节更加温和湿润,行驶在高速公路上远山如黛,时而骤雨倾盆,时而艳阳高照。一天去访问一位师弟创立的激光投影硬件公司,路边山脚下一道彩虹,触手可及。周末与十多年前毕业的学生们:靳教授、曾博士和王博士共进下午茶。靳教授的家在帕洛阿托 ,院内鲜花锦簇,绿草喷泉,雪白的宠物兔,四处撒欢。一棵百年红杉,参天巍峨。树上建有双层树屋,凌空俯瞰,院落四周簇拥着翠绿的树墙,树上山茶花怒放,层叠争艳,喧闹绚烂。靳教授做了家乡的云南小兵米线,琳琅满目,味道鲜美。Meta工作的曾博士当场烤串儿,从清真巴扎买来顶级羊肉,半军用火炉升火,孜然辣椒,香味扑鼻,大家馋涎欲滴。nVidia的王博士带来了加州特有的人参果,宛若婴孩,令人眼界大开。孩子们在草坪上嬉笑游玩,大人们在灿烂的阳光下追忆往昔,讨论着AI为硅谷带来的机会与冲击。回想当年学生们读博时废寝忘食,编写程序通宵达旦,甚至受挫时在实验室深夜痛哭,看到大家现在岁月静好,快意人生,令笔者无限欣慰。曾博士的论文是用马尔可夫随机场做曲面之间的微分同胚,当时用于离散优化的马尔科夫随机场炙手可热,几乎一统计算机视觉的半壁江山,而如今AI方法早已颠覆了传统方法,他所在的meta公司出产的视觉AI模型几乎终结了这个领域。靳教授的博士论文是离散曲面里奇流,二十年后的今天,里奇流和蒙日-安培方程依然是唯二的方法能够通过曲率来构造黎曼度量。里奇流开始渗透到与几何相关的工业领域,而蒙日-安培方程早已成为生成式AI的理论基础,正在摧毁着一个又一个软件巨头。但是笔者看来,这些深刻理论的威力尚未被工业界完全发挥出来。
他们的师弟师妹们,特别是在疫情期间毕业的学生们赶上了AI的狂潮。他们用最优传输理论做生成模型,即用GPU求解蒙日-安培方程,将丘先生的理论转换成算法,刚一毕业,起薪就达到了疯狂的天价。在过去几年间,他们在AI巨头公司,利用海量的资源,促进AI的空前发展,终于到了开始反噬人类自身的地步。依随Claude Code等AI生成代码技术的成熟,软件工业迎来了巨大的危机。2025年成为历史的转折点,计算机科班的毕业生求职开始变得困难。同时各大软件公司也开始大规模裁员,各个大学的计算机专业招生也大规模下降。近几天,AI不断地摧毁一个又一个工业领域,令人担心硅基文明替代碳基文明,可谓天翻地覆,沧海桑田。
当今的AI是基于深邃的数学理论,利用整个Internet的数据和整个人类历史上积累的数据,在日益强大的计算能力加持下,取得成功的,因此硬件成功的因素必不可少。恰巧笔者近期也见到了另一位老朋友,“pixel shader”之父-彭亮博士。在冬日暖阳下,笔者和彭博士徜徉在长岛海岸。冰雪消融,波澜不惊,很多海鸥在岸边盘旋。远处天水一色,令人胸襟万里。彭博士与笔者分享了他当年发明像素渲染器的曲折历程。GPU本来是为了加速图形渲染而设计的硬件,彭博士早年研究计算机图形学领域中的硬件设计,后来加入nVidia成为框架设计师。2000年左右,他在历史关键时刻发明了像素渲染器,从而革命了GPU的体系结构。"Pixel shaders"将GPU从固定功能的硬件,发展成大规模并行处理器,从而将GPU从图形渲染专用硬件发展成广泛用途的并行计算硬件。2012年,AlexNet将卷积神经网络的训练从CPU转到了GPU,展现了无与伦比的威力,赢得了ImageNet大赛,从此之后GPU成为AI战场主力,AI的发展如虎添翼,一骑绝尘。笔者近些年的学生们都直接或者间接地受惠于祖师爷丘先生的蒙日-安培理论,和GPU的大规模并行计算能力。
春节前夕,笔者与一位30年前的哈佛老朋友、周同学见面。当年,笔者和周同学在哈佛经历了很多难以忘怀的事情,包括与挚友的生死离别。弹指一挥间,周同学的女儿也上了哈佛,目前在攻读数学专业。周同学希望笔者能够指点一下未来的发展方向。笔者觉得由于AI技术的发展,编程技能的重要性迅速下降,数学思维的重要性日益上升。在过去三十年间,笔者亲历了太多的技术浪潮,看到了太多计算机语言的诞生到消亡,太多工程技术的兴起到被遗忘,但是作为计算机算法内核的数学定理,却一直亘古不变,并且其内在威力在日益显现出来。三十年前,丘先生的蒙日-安培方程理论是阳春白雪,曲高和寡,在现在所有AI巨头都在深入研究,各种流行的生成模型都是在竭尽全力的提高质量,逼近理论最优。因此,笔者非常赞同周同学的高瞻远瞩,将孩子培养成数学家,为长远发展打下坚实的基础。笔者建议周同学的女儿多学偏微分方程、随机过程和现代几何与拓扑,迄今为止,这些学科都直接指导了AI的发展。
生成式AI的理论基础
AI的发展使得人类研究者的价值观念发生了巨变:以前人们无法容忍AI的黑箱,一直致力于用传统理论来理解AI;目前很多学者主张崇尚AI自行发现规律,彻底抛弃人类的智慧,并且开始盲目崇拜AI大模型。很多年轻学生们也轻视学习数学理论,认为熟练掌握时髦的模型更为重要。遇到问题时,不注重理论分析,而是依赖积累数据,大量调参,或者集成多个模型来解决。大量的媒体报道也是将商业广告风格带入学术论文,各种经验性的观察和似是而非的联想被杜撰成巨大飞跃,极大地困扰了年轻学子。笔者试图理解目前比较时髦的非语言类生成模型背后的数学机制是什么,这些模型是否产生了新的数学理论(而不仅仅是用新的算法来计算老的问题),目前这些模型是否有严格的理论保证,例如解的存在型,唯一性,收敛性,计算稳定性,误差估计等等。为此,2026年春季学期,笔者和学生们组织了讨论班,力图厘清这些问题。
在生成式AI中,训练数据集合被视为某种分布,记为, 数据分布往往定义在某个低维子流形上。训练的目的是用一个神经网络来表示某个分布, 使得尽量逼近,是神经网络的参数。目前流行的各种模型都是将标准的正态分布变换成,从而逼近数据分布。训练过程就是计算从正态分布到数据分布的变换,推理就是从正态分布中随机抽取一个样本,经过变换得到数据分布中的一个样本。这正是经典的最优传输理论所研究的核心问题。历史上,很多数学家为其做出了贡献,形成了各种流派,每个流派都启发了当前不同的生成模型。








小结
我们看到,今日正在颠覆世界的生成式AI其理论基础来自于古老的数学理论,同一理论的不同侧面启发了不同的生成模型,标准化流(NF)基于Jacobi方程计算传输映射;去噪扩散概率模型DDPM基于扩散随机方程、应用耦合于高斯混合技术计算条件概率分布;连续标准化流CNF基于流体的连续性方程计算流场;流匹配FM模型基于Benamou-Brenier的流体最优传输理论计算流场;我们的最优传输OT模型本质上用几何变分方法求解蒙日-安培方程。所有这些模型都是基于蒙特-卡罗方法来打破维度诅咒,从而可以处理高维数据。但是,NF,DDPM,CNF,FM模型对应能量的凸性,解的存在唯一性,可行解空间的形状,收敛误差分析等等都没有理论分析,应用中不可避免地会产生模式坍塌和各种幻觉。OT的方法理论完备,算法简单,同时统一处理连续和离散情形。
很多宣传文章将从数据分布到正态分布的传输变换简单粗暴地表述为“将图像添加噪声然后去除噪声”的过程,宣扬“去噪即智能”等等,达到了很好的宣传效果,但是有失严密。生成模型可以从很多角度来理解,这里我们从流体力学和随机过程角度来理解,也从微分几何与偏微分方程理论角度来观察,会得到很多不同的见解和启发。笔者相信,依随AI算法和硬件的进一步发展,生成式模型的理论基础会逐步严密起来,蒙日-安培方程理论的重要性会日益凸显。借助 Claude Code,深奥的数学思想得以瞬时转化为高效代码。人类的核心竞争壁垒正向高阶抽象思维迁移,积极拥抱 AI 革命已成为我们跨越时代的唯一选择。