陶哲轩“正在哥白尼”：人类智能不再是宇宙中心-墙外头条

过去半年，AI 在数学领域的进展令人目不暇接。2025 年 10 月，OpenAI 声称 GPT-5 解决了多道 Erd?s 难题，随后被证实其中大部分只是文献检索，找到了数据库维护者尚未收录的已发表论文。

但到了 2026 年 1 月，情况发生了实质变化：GPT-5.2 Pro 在一周内攻克了三道 Erd?s 难题（#397、#728、#729），生成的证明经 Lean 形式化验证后被陶哲轩本人接受，且这些证明在已有文献中找不到先例。

据《科学美国人》2026 年 2 月的报道，AI 工具迄今已帮助将约 100 道 Erd?s 问题转入“已解决”状态。与此同时，多位顶尖数学家开始向 AI 实验室靠拢：哥伦比亚大学的 Mehtaab Sawhney 休学加入了 OpenAI，另一位研究者 Pagano 也入职了 Google DeepMind。

就在这个节点上，3 月 20 日，菲尔兹奖得主陶哲轩做客 Dwarkesh Podcast，从开普勒发现行星运动定律的故事讲起，深入谈论了 AI 正在如何改变数学与科学研究的方式。他在 2023 年曾预测到 2026 年 AI 将成为数学研究中“值得信赖的合著者”，如今他对这个预测表示满意。但他也坦言，AI 让他的论文更丰富了，核心突破仍然要靠纸笔完成。

（来源：YouTube）

对话核心要点如下：

? 陶哲轩 2023 年预测“到 2026 年 AI 将成为数学研究中值得信赖的合著者”，他认为这个预测基本兑现；

? AI 工具已帮助解决约 50 道 Erd?s 难题（据《科学美国人》报道已接近 100 道），但纯 AI 一击命中的解题已经停滞，剩余问题的成功率约为 1%–2%；

? AI 将想法生成的成本降到了接近于零，但验证和评估成为了新的瓶颈，科学界的同行评审体系正在被 AI 生成的投稿淹没；

? 陶哲轩的论文现在包含更多代码和图表，如果没有 AI 工具，写出同类论文要花五倍时间；但数学问题中最核心的突破部分仍然依赖纸笔；

? AI 擅长广度，人类擅长深度，二者高度互补；陶哲轩认为人机混合将在数学领域占据主导地位更长时间；

? 他认为数学需要一种描述“策略”而非仅仅“证明”的半形式化语言，但目前还不知道这种语言该是什么样的；

? 对年轻人的建议：心态要足够灵活，传统教育仍然重要，但要对全新的参与科学的方式保持开放。

以下是这场对话的编译全文。

Patel：我想先请你讲讲开普勒发现行星运动定律的故事，因为我觉得这会是一个很好的跳板，让我们从这里开始聊 AI 与数学。

陶哲轩：好的。我一直对天文学有业余的兴趣，也很喜欢早期天文学家如何推算出宇宙本质的故事。开普勒是在哥白尼的工作基础上进行研究的，而哥白尼本人又继承了阿里斯塔克斯（Aristarchus）的思路。哥白尼最著名的贡献是提出了日心说模型：不是行星和太阳围绕地球转，而是太阳位于太阳系中心，其他行星围绕太阳运行。哥白尼认为行星的轨道是完美的圆形，他的理论在一定程度上与希腊人、阿拉伯人和印度人数百年来积累的观测数狙糖合。

我觉得开普勒应该是在求学过程中接触到了这些理论，然后他注意到，哥白尼所预测的各行星轨道的大小比例似乎蕴含着某种几何意义。他开始提出这样一种想法：比如你取地球的轨道，把它嵌入一个立方体中，那么包围这个立方体的外接球几乎完美地吻合火星的轨道，依此类推。

当时已知有六颗行星，行星之间有五个间隔，而恰好有五种正则柏拉图立体：立方体、正四面体、正八面体、正十二面体和正二十面体。所以他提出了一个他认为极其美妙的理论，认为可以在各行星的球面之间嵌入这些柏拉图立体。数据看上去确实吻合。对他来说，这意味着上帝设计行星的方式恰恰对应了柏拉图立体的数学完美性。

为了验证这个理论，他需要数据。当时几乎只存在一套真正高质量的数据集，来自第谷·布拉赫（Tycho Brahe）。这位丹麦天文学家非常富有而又性情古怪，他说服了丹麦政府资助一座极其昂贵的天文台，实际上是一整座岛。他在那里持续了几十年，每天晚上（至少是天气晴朗的每个晚上）用肉眼观测所有行星的位置。他是最后一批纯肉眼天文学家。他拥有的数据正是开普勒验证理论所需要的。

图丨开普勒与布拉赫雕塑（来源：WikiPedia）

开普勒开始与布拉赫合作，但布拉赫对自己的数据非常吝啬，每次只给一点点。据说开普勒最终偷了数据，偷偷抄了一份，还跟布拉赫的后人闹了一场。但他确实拿到了数据，然后他发现，令他颇为失望的是，那个美妙的理论并不完全成立。数据与柏拉图立体理论大约偏差了 10%。

他想了各种办法来调整，挪动圆的位置之类的，但就是不太对。他在这个问题上钻研了很多年，最终找到了一种方法，利用数据推算出行星的实际轨道。那是一项了不起的数据分析工作。最终他发现行星轨道其实是椭圆而非圆形，这让他很震撼。

他推导出了行星运动的前两条定律：椭圆轨道，以及等面积等时间定律（即行星与太阳的连线在相等时间内扫过相等的面积）。然后又过了十年，在积累了更多数据之后（最远的行星如土星和木星是他最难搞定的），他最终推导出第三定律：行星完成一个轨道周期所需的时间，与它到太阳距离的某个幂次成正比。这就是著名的三大运动定律。对开普勒而言，这些完全是由实验数据驱动的。要到一个世纪后，牛顿才给出了一个统一的理论来解释这三条定律。

Patel：我想提出一个看法，来看你怎么评价：开普勒就像一个“高温度”的大语言模型（high temperature LLM）。牛顿后来解释了行星运动三定律为何必然成立。开普勒推算出各行星相对轨道的方式，正如你所说，确实是天才之举。但纵观他的整个学术生涯，他一直在尝试各种随机的联系。

事实上，在他写下第三定律的那本书《世界的和声》里，第三定律几乎是一笔带过。那本书的主题是关于不同行星拥有不同的和声，地球上之所以充满饥荒和苦难，是因为地球的音符是“mi”和“fa”。所以大量的内容是随机的占星学，但其中夹着立方平方定律（cube-square law），告诉你行星周期与到太阳距离之间的关系。如果把这条定律加上牛顿的 F=ma 和向心加速度公式，就能推导出引力的平方反比定律。牛顿就是这样推导出来的。

我觉得这个故事之所以有趣，是因为我感觉大语言模型可以做开普勒那种事情：花 20 年尝试各种随机联系，其中有些完全没道理，只要有一个可验证的数据库（就像布拉赫的数据集），那就行。我要试试关于音符的随机想法，试试关于柏拉图立体的随机想法，试试各种不同的几何。我有一个偏见，觉得这些轨道的几何关系中一定有什么重要的东西。然后其中有一个想法成功了。只要你能验证它，这些经验规律就可以推动真正深层的科学进步。

陶哲轩：传统上，当我们谈论科学史的时候，“想法的生成”一直是科学中最有声望的环节。一个科学问题涉及很多步骤：你必须先识别一个问题，然后判断它是不是一个好问题。然后你需要收集数据，想出分析数据的策略，提出假说。到了这一步，你需要提出一个好的假说，然后验证它，然后还要写出来、解释清楚，涉及十几个不同的环节。但我们庆祝的确实是那些灵光乍现的“尤里卡”时刻，也就是想法的生成。

开普勒当然必须像你说的那样，循环尝试很多想法，其中好几个不管用。我敢打赌还有很多他根本没发表的，因为数据就是对不上。这是过程中很重要的一部分：尝试各种随机的东西，看看哪个行得通。但正如你所说，这必须配合同等规模的验证工作，否则就太慢了。

我的意思是，我们纪念开普勒，但也应该同样纪念布拉赫。他那种一丝不苟的数据收集比之前的任何观测精确了十倍。而那个额外的小数点的精度对开普勒得出他的结论至关重要。他当时使用的是欧几里得几何，以及他所能掌握的最先进数学来拟合数据模型。所以各个方面都必须到位：数据、理论、以及假说的生成。

我不确定如今假说生成还是不是瓶颈了。从那以来科学发生了很多变化。经典上，科学有两大范式：理论和实验。20 世纪又加入了数值模拟，你可以通过计算机模拟来检验理论。

再往后，到了 20 世纪末，我们进入了大数据时代，数据分析成了新的驱动力。现在很多新进展实际上是通过分析海量数据集驱动的：先收集大量数据，然后从中发现规律来推导想法。这和科学过去的运作方式有些不同。过去是你先做几次观测，或者凭空冒出一个想法，然后收集数据来检验它。这是经典的科学方法。

现在几乎是反过来的：你先收集大数据，然后试图从中提取假说。开普勒也许是最早的数据科学家之一，但即便是他，也不是从布拉赫的数据集出发再去分析的，他先有了预设的理论。不过现在这种做法似乎越来越少了，因为数据量实在太大，实在太有用了。

Patel：有意思。我倒觉得你描述的这种“20 世纪的科学范式”实际上很好地描述了开普勒的经历。他确实有一些先入为主的想法（1595 至 1596 年间他提出了正多边形和柏拉图立体的理论），但那些是错的。几年后他拿到了布拉赫的数据，又经过 20 年不断尝试各种随机想法，才得出了那些经验规律。

所以实际过程更接近于：布拉赫的数据就像某种海量模拟数据库，有了数据之后你可以不断尝试。如果没有这些数据，开普勒就只能在那儿不停写关于和声与柏拉图立体的书，没有什么东西可以用来验证。

陶哲轩：对，数据确实极其重要。但我想做的区分是，传统上是先提出假说、再用数据检验。但现在有了机器学习、数据分析和统计学，你可以从数据出发，直接用统计方法推导出规律。

开普勒的第三定律就有点像这样，只不过对第三定律来说，他的数据点只有 6 个，不是上千个。每颗行星你知道轨道周期和到太阳的距离，一共 5 到 6 个数据点。他做了我们今天所说的“回归分析”，拟合了一条曲线，发现了三次方 - 平方的关系，这令人惊叹。但其实他挺幸运的。仅凭 6 个数据点就能得出正确结论，这其实不够可靠。

后来有一位天文学家约翰·波德（Johann Bode），拿着同样的行星距离数据，受开普勒启发，他预测行星的距离构成一个平移的等比数列。他也做了曲线拟合，但其中缺了一个点，火星和木星之间有一个很大的空隙。他的定律预测那里有一颗缺失的行星。这看起来像是个不靠谱的理论，但后来赫歇尔发现了天王星，天王星到太阳的距离恰好完美吻合这个规律。再后来谷神星（Ceres）在小行星带被发现，也吻合这个规律。人们非常兴奋，觉得波德发现了一条惊人的自然法则。

Johann Elert Bode - Wikipedia

图丨约翰·波德（来源：WikiPedia）

但再后来海王星被发现了，它的距离与预测完全不符。基本上那就是个数字巧合，因为只有 6 个数据点嘛。也许开普勒之所以没有像突出前两条定律那样突出第三定律，是因为即便他没有现代统计学知识，他也凭直觉知道 6 个数据点得出的结论应该持保留态度。

Patel：我来更明确地问一下这个类比吧。未来我们会有越来越聪明的 AI，数以百万计，它们可以到处去寻找各种经验规律。听起来你似乎认为，科学的瓶颈不在于为每个领域找到更多类似“行星运动第三定律”这样的东西，然后后人可以说“哦，我们需要一种方式来解释这个，让我们来推导一下数学，这就是引力的平方反比定律”？

陶哲轩：我觉得 AI 基本上已经把想法生成的成本降到了接近于零，就像互联网把通信成本降到了接近于零一样。“这了不起，但光靠它还不会自动带来丰裕。现在瓶颈变了。

我们现在的处境是：突然之间人们可以针对一个科学问题生成成千上万的理论，然后我们必须去验证它们、评估它们。为此我们必须改变科学的组织结构。以往，我们建造了各种“围墙”。在 AI 生成的垃圾内容（AI slop）出现之前，业余科学家们也会提出自己的宇宙理论，其中绝大多数没什么价值，所以我们建立了同行评审和出版体系来过滤，试图筛选出高信号的想法去检验。

但现在我们可以大规模地生成这些可能的解释，其中有些是好的，很多是糟糕的。人类审稿人已经招架不住了。很多期刊报告说 AI 生成的投稿正在大量涌入。所以 AI 能生成各种东西，这很好，但这意味着科学的其他环节必须跟上来：验证、确认、评估哪些想法真正推动了学科进步、哪些是死胡同或障眼法。这些事情我们还不知道怎么大规模地做。对于每篇单独的论文，我们可以在科学家之间讨论，经过几年达成共识。但当我们每天生产成千上万篇的时候，这种方式就行不通了。

Patel：确实有一个极其有趣的问题：如果你有数十亿个 AI 科学家，不仅要判断哪些是真正的进步，还要判断其中哪个发现可能像“比特”的发明那样，具有跨领域的普遍意义。

人类科学界其实也面对过这个问题，而且我们某种程度上解决了。我其实不太确定我们是怎么解决的。比如在 1940 年代，你在贝尔实验室或者什么地方，有这些新技术涌现：脉冲编码调制，基本上是如何传输信号、如何将信号数字化、如何在模拟线路上传输。

关于工程约束和细节有大量论文。然后其中有一篇提出了“比特”的概念，它对许多不同领域都有影响。你需要某种系统能够看到它并说：好，我们要把这个应用到概率论，要把这个应用到计算机科学，等等。

未来，如果 AI 提出了某种下一代的统一概念，你怎么在上百万篇论文中识别出它？那些论文可能确实都构成了进步，但它们的思想远没有那么普遍和统一。

陶哲轩：很多时候需要时间的检验。许多伟大的想法在最初提出时并没有得到很好的反响，只是在后来其他科学家发现可以把它们拿来进一步发展、应用到自己的领域时才被认可。深度学习本身在很长一段时间里都是 AI 中一个小众方向。完全通过数据训练而不是第一性原理推理来得到答案，这在当时非常有争议，花了很长时间才真正开花结果。

你提到了比特。实际上计算机架构有过其他方案，不一定非得是 0 和 1。曾经有人提出过三值逻辑（ternary logic），即 0、1、2。在另一个平行宇宙里，也许另一种范式会胜出。Transformer 是所有现代大语言模型的基础，是第一个真正足够复杂到能够捕捉语言的深度学习架构，但事情不一定必须如此。可能有其他架构先做到了同样的事情，一旦被采用就成了标准。所以，评估一个给定的想法是否会有成果之所以困难，是因为它取决于未来，也取决于文化和社会——哪些想法被采纳了，哪些没有。

十进制数系在数学中极其有用，比罗马数字系统好得多。但 10 这个底数本身没什么特别的。它对我们有用，是因为其他所有人都在用它，我们已经围绕它标准化了，我们的计算机和数字表示系统都是围绕它构建的。所以我们被它绑定了。偶尔有人推广十进制以外的系统，但惯性太大了。你不能把任何科学成就完全孤立地拿出来给它一个客观分数，而不考虑它过去和未来的语境。所以这可能永远不是你能像解决更局部的问题那样用强化学习来搞定的事情。

Patel：对，科学史上似乎经常出现这种情况：一个后来被证明是正确的新理论在提出时会产生一些推论，这些推论要么说不通（后来我们才明白为什么说不通），要么是正确的但在当时看来荒谬至极。

你提过阿里斯塔克斯在公元前三世纪就有了日心说，但古雅典人说这不可能，因为如果地球围绕太阳转，我们应该能看到恒星的相对位置变化。唯一的解释是恒星太远了，远到你观察不到任何视差。这其实是正确的推论。

但有时候推论确实不正确，我们需要进入更高层次的理解才行。比如莱布尼茨批评牛顿的引力理论，理由是它意味着“超距作用”（action at a distance），我们不知道其中的机制。牛顿自己也对惯性质量和引力质量恰好是同一个量感到震惊。这些问题都是爱因斯坦解决的，但它仍然是进步。如果 AI 做同行评审，它的问题就在于：即便你能证伪一个理论，你怎么识别出它相对于之前的理论仍然构成了进步？

陶哲轩：事实上，最终正确的理论在早期往往在很多方面看起来更差。哥白尼的行星理论就不如托勒密的理论精确。地心说到那时已经发展了一千多年，有了非常多的调整和越来越复杂的临时修正来使其越来越精确。哥白尼的理论简洁得多，但精确度低得多。一直到开普勒才使它比托勒密的理论更精确。

科学总是在不断推进的。当你只得到了部分解答时，它看起来可能不如一个虽然错误但已经被完善到足以回答所有问题的理论。牛顿的理论有很大的谜团（质量等价和超距作用）这些直到几个世纪后，通过一种概念上完全不同的方法才被解决。进步的实现往往不是通过增加更多理论，而是通过删除你头脑中的某些假设。

地心说之所以能坚持那么久，一个原因是我们有一种观念，认为物体天然趋向于静止。这是亚里士多德的物理学概念。所以地球在运动这个想法……我们怎么没有全都摔倒？一旦你有了惯性运动的概念那就说得通了。但在概念上，认识到地球在运动是一个非常大的飞跃。你感觉不到它在动。最大的进步往往就是这类事情。

达尔文的进化论也是如此。物种不是静态的，但这并不显而易见，因为你在一生之内看不到进化（当然，现在我们实际上可以看到了）。

我们目前正在经历一场认知版的哥白尼革命。我们过去认为人类智能是宇宙的中心，现在我们看到外面存在着非常不同类型的智能，有着非常不同的优势和劣势。我们对于“哪些任务需要智能、哪些不需要”的判断必须大幅重新排序。试图把 AI 塞进我们现有的科学进步理论、“什么是难的什么是容易的”这些框架里，我们相当挣扎。我们不得不问一些以前从未真正需要问的问题，或许哲学家们问过，但现在我们所有人都得面对了。

Patel：这引出了一个我非常好奇的话题。你提到了达尔文的进化论。有一本书叫《发条宇宙》（The Clockwork Universe），作者 Edward Dolnick，涵盖了我们正在聊的这个历史时期。他有一个有趣的观察：《物种起源》发表于 1859 年，牛顿的《自然哲学的数学原理》发表于 1687 年。所以《物种起源》比《原理》晚了将近两个世纪。

而在概念上，达尔文的理论似乎更简单。与达尔文同时代的生物学家托马斯·赫胥黎读完《物种起源》后说：“怎么会这么蠢，居然没有想到这个。”但从来没有人这样说过牛顿的引力理论，不会有人责怪自己没有抢在牛顿前面。

那为什么反而用了更长的时间？一个很大的原因似乎是：自然选择的证据是累积性和回溯性的，而牛顿可以直接写出方程，看看月球的轨道周期和距离是否吻合。如果吻合，就说明取得了进步。

卢克莱修（译注：提图斯·卢克莱修·卡鲁斯，Titus Lucretius Carus，是罗马诗人和哲学家）其实在公元前一世纪就有了物种适应环境的想法，但直到达尔文之前没人真正讨论过，因为卢克莱修做不了实验，无法迫使人们关注。所以我在想，我们回头看的时候，是否会发现那些有紧密数据反馈循环、容易验证的领域取得了更多进步，尽管它们在概念上可能困难得多。

图丨卢克莱修（来源：Human Heritage）

陶哲轩：科学的一个方面不只是创造新理论和验证它，还有把它传达给别人。达尔文其实是一位出色的科学传播者。他用英语写作，用自然语言，说得通俗易懂。他综合了很多分散的事实。进化论的一些零散部分以前就被发现了，但他提供了一种非常有说服力的愿景。他仍然缺少一些东西，比如他不知道遗传的机制，没有 DNA。但他的写作风格很有说服力，这帮了大忙。

牛顿用拉丁文写作，他发明了全新的数学（译注：微积分）来解释他的工作。他所处的时代，科学家之间更加秘密和竞争。虽然学术界至今仍然充满竞争，但牛顿那个年代更甚。他隐瞒了一些最好的洞见，因为不想让对手占便宜。狙桃所知他本人也不太好相处。实际上是在牛顿之后几十年，其他科学家用更简单的语言解释了他的工作，他的理论才广泛传播。

所以说，阐释的艺术、论证的组织、构建叙事，这些也是科学的重要组成部分。数据当然有帮助，但人们需要被说服，否则他们不会去推进这个方向。他们需要做出初始投资来学习你的理论并真正去探索它。而这又是一件很难用强化学习来做的事情，因为你很难明确给“说服力”打分。好吧，整个营销行业都在试图做这件事。所以也许 AI 目前还没有被优化得太有说服力是件好事。

科学也有属于社会层面的一部分。虽然我们为客观性自豪，我们有数据，有实验验证，但我们仍然需要讲故事，说服我们的同行科学家。

这是一件柔软的、模糊的事情。它是数据和叙事的结合。而且是关于缺口的叙事。就像达尔文，正如我说的，他的理论有一些他无法解释的部分，但他仍然能够论证说，未来人们会找到过渡形态，会找到遗传的机制。后来果然如此。但我不知道怎么把这些量化到足够精确的程度去做强化学习。也许这将永远是科学中属于人类的部分。

Patel：我从阅读和观看你关于宇宙距离阶梯的内容中得到的一个感悟是（顺便说一句，我非常、非常推荐大家去看你和 Tim Nguyen 合作的关于宇宙距离阶梯的系列讲座），许多领域中的“推演盈余”（deductive overhang）可能比人们意识到的要大得多。

如果你有了研究问题的正确切入点，可能会惊讶于你能从世界中学到多少。你觉得这只是天文学在你研究的那些特定历史时期的产物，还是说基于目前入射到地球上的数据，我们实际上可以推断出远比我们恰好知道的更多的东西？

陶哲轩：天文学是最早真正拥抱数据分析的科学之一，它把手头信息中每一滴可能的信息都榨干了。因为数据就是瓶颈（现在仍然是），收集天文数据真的很难。所以天文学家在从微量数据线索中提取镑种结论方面几乎是世界级的，有点像福尔摩斯。我听说很多量化对冲基金更喜欢招天文学博士，因为他们也对从各种数据噪声中提取信号很感兴趣。

我们确实没有充分探索如何从各种信号中提取额外信息。随便举一个例子。我记得读过一项研究，人们想测量科学家实际阅读他们所引用论文的频率。怎么测量呢？你可以试着调查不同的科学家，但他们想到了一个聪明的办法。很多引用都有小的排版错误，比如一个数字不对或标点符号有误。他们测量了这些错误从一篇论文的参考文献被复制粘贴到另一篇论文的频率。由此他们可以推断一个作者是否只是复制粘贴了一条参考文献，根本没有去核实。从这一点出发，他们能够推断出科学家对引用文献的关注度。

类似地，你前面提出的那些问题，比如如何评估一项科学进展是否有成果、有趣、代表了进步，也许存在一些真正有用的指标或“足迹”隐藏在数据中。我们可以考察引文模式，看某个东西在文献中被提及的频率之类的。也许有大量科学社会学的研究工作可以做，来检测这些东西。也许我们该找一些天文学家来做这件事。

Patel：好的，我觉得这自然地引入了 AI 在数学领域所取得的进展。你最近发过一个帖子，指出在过去几个月里，AI 程序已经解决了大约 1100 道 Erd?s 问题中的 50 道。但我印象中大约一个月前你说过，由于低垂果实已经被摘完了，进展出现了一个停顿。首先我想确认一下，这个判断目前是否仍然成立，我们确实摘完了低垂果实，目前处于一个平台期？

陶哲轩：看起来确实如此。活动还在继续，大约 50 道问题已经被解决了，这很不错，但还剩大约 600 道。人们仍在一两道一两道地啃。我们现在看到的纯 AI 解决方案要少得多了。那种 AI 直接一击命中的情况，曾经有过一个集中爆发期，但现在已经停了。并不是没人在尝试，狙桃所知至少有三个独立的团队试图让前沿模型同时攻击所有剩余问题。它们能发现一些细小的观察，或者发现某个问题其实已经在文献中被解决了，但还没有出现新的纯 AI 驱动的解答。

人们目前大量使用 AI 作为辅助工具。比如有人用 AI 生成一个可能的证明策略，然后另一个人用另一个独立的 AI 工具来批评它、改写它、生成一些数值数据、或者做文献综述。有些问题是通过大量人类和大量 AI 工具之间持续对话来解决的。但那种集中爆发似乎是一次性的。

也许可以打一个比方。想象你在一片山脉中，到处是各种悬崖和岩壁。有些也许只有 1 米高，有些 2 米高，然后是 5 米高、10 米高，还有一些巨大的悬崖。你试图攀登尽可能多的岩壁，但你在黑暗中，不知道哪些是矮的。于是我们点了一些蜡烛、画了一些地图，慢慢地弄清楚了一些情况。有些是可以攀登的，有些我们发现了可以先到达的部分路径。

然后这些 AI 工具出现了，它们就像跳跃机器人，可以跳到 2 米的高度，比任何人类都高。有时候它们跳错方向，有时候坠毁，但有时候它们能到达那些我们之前到不了的最矮的岩壁顶端。于是我们把它们放到这片山脉中到处跳，经历了一段激动人心的时期，它们确实找到了所有最矮的岩壁并到达了顶端。但然后就没有了。

也许等下一次模型有了重大升级，人们会再试一次，也许更多的岩壁会被突破。但这和传统的数学研究方式很不同。通常我们会做标记、识别部分进展、找出应该优先关注的中间阶段。这些工具要么成功，要么失败。它们在创造部分进展或识别中间阶段方面表现很差。回到我们之前的讨论，我们没有一种方式来评估部分进展，不像我们可以评估一次完整的成功或失败那样。

Patel：你刚才说的话可以从两个方向来理解，一个看空，一个看多。看空的角度是：它们只能到达一定高度的岩壁，不如人类能到达的高度。看多的角度是：它们有一种强大的特性，一旦达到某个水位线，就能填满那个水位线上所有可用的问题。人类做不到这一点，我们不能复制一百万个陶哲轩，每个都给予一百万美元的推理算力，让他们各自做 100 年的主观时间研究。

但一旦 AI 达到了陶哲轩的水平，它们就能做到这些。即使它们达到的是中间水平，也能做到中间版本的事情。所以我们现在应该看空的理由，恰恰是我们应该格外看多的理由，甚至不需要等它们达到超人智能，只需要它们达到人类水平智能就行了，因为它们的人类水平智能在质量上比我们的人类水平智能更宽、更强大。

陶哲轩：我同意。AI 擅长广度，人类擅长深度。至少人类专家如此。它们是非常互补的。但我们目前做数学和科学的方式偏重深度，因为人类的专长在那里，人类做不了广度。那么问题是：我们是否设计出了足够科学的做法来充分利用我们现在拥有的这种广度能力？

正如我所说，我们应该投入更多精力来创建非常广泛的问题类别去攻克，而不只是一两个非常深的重要问题。当然我们仍然应该保留那些深层的重要问题，人类应该继续研究它们。但现在我们有了另一种做科学的方式：我们可以先让这些具有广泛中等能力的 AI 去勘探、清理某个全新的科学领域，做出所有简单的观察，然后识别出某些困难的“孤岛”，让人类专家来处理。我看到的是一个非常互补的科学未来。

最终你会希望同时拥有广度和深度，两全其美。但我认为我们在广度方面还需要练习。它太新了。我们甚至还没有真正建立起充分利用它的范式。但终究会建立起来的。到那时候，科学将面目全非。

Patel：说到互补性，程序员已经注意到这些 AI 工具大大提高了他们的生产力。你作为数学家是否有同样的感受？不过，”vibe coding“和”vibe researching“之间似乎有一个很大的区别：对于软件来说，这个东西的全部意义在于对世界产生某种效果。如果 AI 帮你更好地理解了问题或者想出了一个干净的抽象来体现在代码中，那只是通向最终目标的工具。

而对于研究来说，我们关心解决千禧年大奖问题，大概是因为在解决它们的过程中，我们会发现新的数学对象或新的技术，推进我们文明对数学的理解。所以证明本身是通向中间过程的工具，中间过程才是最重要的。你是否同意这个二分法？

陶哲轩：对，在数学中过程往往比问题本身更重要。问题有点像衡量进步的代理指标。

即使在软件领域我觉得也有不同类型的任务。如果你只是创建一个跟其他一千个网页做同样事情的网页，确实没什么需要学习的。对于那种样板代码，肯定可以交给 AI。但有时候你做完了原型，开始维护它，在升级和兼容方面遇到问题。我听说程序员反映，即使 AI 能创建第一个原型，但让它与其他一切协调配合、以你期望的方式与现实世界互动，这是一个持续的过程。

如果你在编写代码的过程中没有积累技能，后续维护可能会受影响。数学家同样如此。我们用问题来建立直觉，训练人们对什么是对的、什么是可以预期的、什么是可证明的、什么是困难的形成判断。所以直接得到答案可能反而会抑制这个过程。

我之前提过理论和实验的区分。在大多数科学中，理论和实验有大致对等的分量。但数学几乎是独一无二的，它几乎完全是理论性的。我们非常重视尝试建立连贯、整洁的理论来解释事物为什么为真或为假。我们在实验方面做得不多，比如，也许有两种不同的方法来解决一个问题，哪一种更有效？我们有一些直觉但没有做过大规模研究，没有拿 1000 个问题来测试。但现在我们可以做了。我认为 AI 类工具确实会革新数学的实验方面。

你不那么在意单个问题和解决它的过程，而是想要收集大规模数据，了解什么方法管用、什么不管用。就像一个软件公司想要部署 1000 个软件，你不会想手工打磨每一个的经验教训，你只想找到可以规模化的工作流程。我们在“大规模做数学”这件事上还处于萌芽阶段，但那正是 AI 将真正革新这个学科的地方。

Patel：我觉得这些关于 AI 对科学有多大帮助的讨论中，一个关键分歧是：如果你把每一种已知技术应用到每一个未解决的问题上，那会不会就构成我们文明知识的一次巨大提升？还是说那并不会那么令人印象深刻？

陶哲轩：这是一个好问题，我们还没有足够的数据来完全回答。人类数学家做的很多工作确实是这样的：拿到一个新问题，首先去看所有在类似问题上曾经管用的标准方法，一个一个试。有时候就成功了。这仍然值得发表，因为问题本身很重要。有时候差一点就成功，你需要再加一个小技巧，那也很有趣。但顶级期刊发表的论文通常是那些现有方法能解决 80% 的问题，但剩下的 20% 具有抗性，需要发明新技术来填补缺口的工作。

现在已经非常罕见了，完全不依赖已有文献、所有想法凭空而来的解题。这在过去更常见，但数学现在太成熟了，不利用已有文献是一个巨大的劣势。

AI 工具在第一部分做得越来越好，就是在一个问题上尝试所有标准技术。实际上它们犯的错误有时比人类还少。虽然仍然会犯错，我测试过这些工具，在一些我能做的小任务上，有时候它们发现了我的错误，有时候我发现了它们的错误。目前大致是平手。但我还没看到它们迈出下一步。当论证中出现漏洞、没有已知技术能填上时，它们能提出一些随机建议。但我发现试图追踪这些建议、让它们成立，然后发现行不通，往往浪费的时间比节省的更多。

我认为有一部分我们目前认为很难的问题会被这种方法攻破，尤其是那些没有受到足够关注的问题。就像 Erd?s 问题一样，被 AI 解决的那 50 道问题几乎全部是之前基本没有什么文献的。也许有人偶然试过做不出来，但从来没有真正深入研究过。但结果证明存在一个解，也许是把某个不太知名的技术和文献中的另一个结果组合在一起。这是 AI 目前能达到的中位水平。清理了 50 道问题，这很了不起。

如果你只看那些在社交媒体上被广播的成功案例，那看起来确实惊人。几十年没解决的问题现在纷纷被攻克。但每次我们做系统性研究时，对于任何给定的问题，AI 工具的成功率大约只有 1% 到 2%。只是因为它们可以大规模投入，你只挑赢家出来看的话，效果确实很亮眼。

同样的事情也会发生在那些真正有声望的困难数学问题上。有上百个这样的问题。也许有那么几个，某个 AI 会碰巧解决它们，因为有某个后门式的解法是所有人都错过的。这会引起很大的关注。但然后人们会把这些工具用在自己最喜欢的问题上，他们将体验到 1% 的成功率。所以信号中会有很多噪声。

越来越重要的是收集真正标准化的数据集。现在有一些努力在创建标准化的 AI 挑战问题集，而不是只依赖 AI 公司只公布他们的胜利、不披露失败的结果。这会让我们更清楚地了解我们实际上处在什么位置。

Patel：但我觉得值得强调的是，光是模型能够应用某种没有人写下来可以用于这个特定问题的技术，这本身就已经是巨大的 AI 进步了。

陶哲轩：这种进步让人又惊叹又失望，感觉很奇怪。但人们也适应得非常快。我记得大约 20 年前 Google 搜索出来的时候，它把其他所有搜索引擎都比下去了。你在第一页就能得到精确的相关结果，几乎恰好是你想要的。当时觉得太神奇了。然后几年后你就觉得能 Google 任何东西是理所当然的了。现在也一样，2026 年的 AI 水平放在 2021 年会令人震惊。人脸识别、自然语音、大学水平的数学题，我们现在都觉得理所当然了。

Patel：说到 2026 年，你在 2023 年做过一个预测……

陶哲轩：说 AI 到 2026 年将是数学中“值得信赖的合著者，如果使用得当的话”。

Patel：回头看这个预测相当准确。

陶哲轩：是的，我挺满意的。

Patel：那我们看看能不能保持这个势头。你个人因为 AI 而生产力翻倍，你觉得那会是哪一年？

陶哲轩：生产力不完全是一个一维的量。我确实注意到我做数学的方式正在发生相当大的变化，包括我做的事情的类型。比如，我的论文现在有更多的代码和图片，因为生成这些东西现在太容易了。以前要花几个小时做的图，现在几分钟就能完成。但在过去我根本不会在论文里放那张图，我会用文字描述。所以很难衡“2 倍”意味着什么。

一方面，如果我必须在没有 AI 系统的情况下写我今天写的那类论文，肯定会花五倍的时间。但我不会用那种方式写论文。

Patel：五倍？

陶哲轩：对，但那是因为这些是辅助性的东西。比如更深入的文献检索、提供更多的数值计算。它们丰富了论文。

核心工作，比如实际解决一个数学问题中最困难的部分，这方面变化不大，仍然需要纸和笔。但有很多其他事情，我现在用 AI Agent 来重新格式化，比如有时候我的括号大小不太对，以前我得手动在脑子里改，现在可以让 AI Agent 在后台漂亮地处理。所以它们确实大大加速了很多辅助任务。它们还没有加速我所做的核心工作，但让我能在论文中添加更多东西。

反过来说，如果我要重新写一篇 2020 年的论文，不加那些额外功能，只是达到同样的基本水平的话，AI 其实也没有加速多少。所以它让论文变得更丰富、更宽广了，但不一定更深。

Patel：你提出了“人工聪明”（artificial cleverness）和“人工智能”（artificial intelligence）的区分，我想更好地理解这两个概念。什么是不仅仅是聪明的智能？

陶哲轩：智能出了名地难以定义。你看到的时候就知道了。当我和别人合作解决一个数学问题时，有一种对话：我们都不知道怎么解决，但其中一个人有了某个想法，看起来有希望。然后我们有了一个原型策略，去测试它，发现不行，但可以修改。想法会不断被调整和改进。到最后，我们系统地摸清了什么行不通、什么行得通。

AI 有点能模仿这一点。回到跳跃机器人的比方，它们可以跳上去、失败、跳上去、失败，反复如此。但它们做不到的是：跳了一点，抓住了某个着力点，然后在那里停下来，把其他人拉上来，然后从那个新位置继续跳。不存在这种累积过程。在交互中用它们的时候，感觉更多还是反复试错和暴力穷举。这在某些场景下确实可以靠规模取胜，效果也很惊人。但从部分进展中一步步积累推进，这一点目前还差得远。

Patel：有意思。你是说如果 Gemini 或者 Claude 解决了一个问题，它自己对数学的理解并没有进步？即使它在一个问题上工作但没有解决，它自己的理解也没有进步？

陶哲轩：对，新的会话就忘记了之前做过什么。它没有新的技能可以依赖来解决相关问题。也许它刚才做的东西会成为下一代模型训练数据的 0.001%，所以最终可能有一些被吸收。但基本上是这样。

Patel：有一个大问题是：如果我们持续训练 AI 让它越来越擅长在 Lean（一种形式化证明语言）中解题，它们会继续解决越来越令人印象深刻的问题吗？然后回头来看，我们会不会惊讶地发现，某个 Lean 证明出来的黎曼猜想解答其实没给我们什么洞见？你觉得解决黎曼猜想是否必然要求，即便是由完全在 Lean 中工作的 AI 来做，其中的构造和定义也必须推进我们对数学的理解？还是它可能只是一团像汇编代码一样不可读的东西？

陶哲轩：我们不知道。有些问题基本上就是靠纯粹的暴力搜索解决的。四色定理就是一个著名的例子。我们至今没有找到一个概念上优雅的证明，基本上就是把问题分成了大量的情况然后对每种情况做计算机分析。也许我们永远找不到优雅证明，有些问题可能只能通过穷举来解决。

我们之所以特别看重黎曼猜想这样的问题，是因为我们相当确信必须创造出某种新数学，或者发现两个之前没有联系的数学领域之间的新联系，才能解决它。我们甚至不知道解的形态是什么，但它不像是那种靠穷举就能搞定的问题。当然，黎曼猜想理论上可能是假的。有一种不太可能但存在的场景：假设有一个零点不在临界线上，通过大量计算机计算可以验证。那会非常令人失望。

我确实觉得完全自主的一击式方法不是解决这些问题的正确路径。我认为人类与这些工具协作会带来更大的收益。我可以想象某个这样的问题会被某个聪明的人类在极其强大的 AI 工具的辅助下解决。

但那种协作的具体形态可能与我们现在设想的非常不同。它可能是一种目前还不存在的协作类型。也许有一种方法可以生成黎曼 zeta 函数的一百万种变体并做 AI 辅助的数据分析，发现之前不知道的连接它们的模式，从而把问题转入另一个数学领域。各种场景都有可能。

Patel：假设 AI 解决了某个问题，而在 Lean 代码中隐含着某个全新的构造。如果我们意识到它的重要性，就能在很多不同的场景中应用它。你怎么识别出这个构造？这是一个也许很天真的问题，但如果 AI 做出了等价于笛卡尔那种把代数和几何统一起来的坐标系思想，在 Lean 代码中它可能就看起来像从 R 到 R 的映射，看起来完全不起眼。

陶哲轩：在 Lean 这样的系统中把证明形式化的好处恰恰在于，你可以把它的任何部分拿出来单独研究。

我读人类写的论文时，碰到一个解决困难问题的工作，里面往往是一长串引理和定理。有些作者会告诉你哪些是重点、哪些不是，但也有人不会点明哪一步才是关键、哪一步只是常规操作。

不过你可以把每条引理单独拿出来看。有些一眼就能认出来：哦，这个很标准，跟我熟悉的某个东西差不多，没什么特别的。但另一条引理让你觉得，这是我以前没见过的，而且我能理解为什么有了它就能推出主要定理。也就是说，你可以判断一个步骤到底是论证的核心还是无关紧要的。Lean 的好处恰恰在这里：它让你可以非常精确地审视每一个单独的步骤。

我认为未来会出现一整个数学家职业群体，他们可能拿到一个巨大的 Lean 生成的证明，然后对它做某种消融测试（ablation），尝试移除部分步骤，找到更优雅的方式。也许其他 AI 可以做一些强化学习来让证明更优雅？也许其他 AI 可以判断这个证明是否看起来更好。

还有一件近期会明显变化的事：一直以来，写论文都是整个工作中最耗时、成本最高的环节，所以你不会轻易动笔。结果通常只写一遍，论证中的其他部分就在脑子里过一过就算了，因为重写一遍、重构一遍实在太痛苦了。

但现在这件事借助现代 AI 工具变得容易多了。你不必只有一个版本的论文。一旦你有了一个版本，人们可以生成成百上千个变体。所以一个巨大的、混乱的 Lean 证明本身可能不太好理解，但其他人可以重构它、对它做各种处理。

我们在 Erd?s 问题网站上已经看到了这种情况。人和 AI 会生成一个证明，然后给出 3000 行验证证明的代码。但然后人们让其他 AI 来总结这个证明，人们也会写自己的证明。一旦你有了一个证明，后续处理实际上是有很多工具可用的。这是数学中一个非常新兴的领域。我不太担心那种“如果黎曼猜想被证明了但证明完全不可理解怎么办”的问题。我觉得一旦我们有了证明这个产物，我们可以对它做很多分析。

Patel：你最近发了一个帖子说，拥有一种描述数学策略（而非仅仅是数学证明）的形式化或半形式化语言会很有帮助。Lean 专长的是证明。我很想了解一下，这种描述策略的语言会是什么样的。

陶哲轩：我们其实不太清楚。我们在数学中非常幸运，已经建立了逻辑和数学的规律。但这其实是一个相当晚近的成就。从欧几里得几千年前开始，一直到 20 世纪初我们才最终确立了：这些是数学的公理（我们称之为 ZFC 公理），这些是一阶逻辑的公理，这就是“证明”的含义。

这些我们已经成功自动化了，有了形式语言。但也许还有某种方式来评估命题的合理性。比如你有一个猜想说某件事为真，你测试了几个例子都成立，这如何增加你对该猜想为真的信心？我们有一些数学方法来建模，比如贝叶斯概率。但往往你必须设定某些基础假设，仍然有很多主观性。关于这些语言的讨论，与其说是一个计划，不如说是一个愿望。

但看看拥有像 Lean 这样的形式框架如何大大便利了演绎证明的自动化和 AI 训练，如果有一个类似的框架用于策略和猜想的生成就好了。现在使用 AI 来创建策略和提出猜想的瓶颈在于，我们必须依赖人类专家和时间检验来判断某件事是否合理。

如果有这样一种框架，介于严格形式和自然语言之间，能让这个过程部分自动化，同时不容易被钻空子（这很重要，确保形式化证明助手没有后门或漏洞至关重要，因为强化学习特别擅长找到这些后门）。

科学家之间的交流有一种特殊的方式：一半是数据和论证，一半是在讲故事、构建叙事。如果能有某种框架把这种交流方式捕捉下来就好了，但科学中那些主观的成分，我们目前还不知道怎么让 AI 有效地介入。所以这是一个未来的问题。有一些研究在尝试创建自动化的猜想系统，也许有办法做基准测试，但这一切都非常非常新。

Patel：能帮我建立一些直观的感受吗？第一，有没有一个具体的例子，说明科学家之间交流中有哪些是我们还不能形式化的？第二，说“构建叙事或自然语言解释”同时又“将其形式化”，这听起来几乎在定义上就是自相矛盾的。我相信你心中有一种直觉，知道这两者的重叠在哪里。

陶哲轩：举一个猜想的例子。高斯（Gauss）对素数很感兴趣，他创建了最早的数学数据集之一，计算了前约 10 万个素数，希望找到规律。他确实找到了一个规律，虽然也许不是他所预期的那种。他发现素数中有一个统计性的规律：如果你数到 10、100、1000、100 万……有多少个素数，素数越来越稀疏，但密度的下降速率与数字范围的自然对数成反比。

他由此猜想了我们现在称为素数定理的东西：不超过 x 的素数个数约等于 x 除以 x 的自然对数。他完全没有办法证明这一点，这是纯数据驱动的。这在当时是革命性的，因为它可能是数学中第一个真正重要的统计性质的猜想。

通常你说的规律，比如素数之间的间隔有某种规则性。但这个猜想不能告诉你在任何给定范围内精确有多少个素数，它只给你一个近似值，而且越往外这个近似越准确。但它确实很有帮助。

这开创了我们称之为解析数论的领域。它是一长串类似猜想中的第一个，其中很多后来被证明了。这些猜想逐渐巩固了一种观念：素数实际上没有一个固定的规律，它们的行为像是随机的数集，只是具有某种特定密度。

我的意思是，素数确实有一些规律，比如它们几乎全是奇数，它们不是真的随机。它们是所谓的“伪随机”，生成素数不涉及随机数生成器。但随着时间推移，把素数当成仿佛是上帝不断掷骰子生成的随机集合来思考，变得越来越富有成效。这让我们能做出各种其他预测。

比如孪生素数猜想：应该存在无穷多对只差 2 的素数对，像 11 和 13。我们无法证明它，而且有很好的理由说明为什么目前无法证明。但因为素数的这种统计随机模型，我们绝对确信它是对的。我们知道如果素数是通过抛硬币生成的，那么就像无穷多只猴子在打字机上打字一样，我们会看到孪生素数不断出现。

我们随着时间发展出了一个非常精确的概念模型，描述素数应该如何表现，基于统计和概率。但这大部分是启发式的、非严格的，却极其准确。那些少数我们确实能证明的关于素数的事实，都与我们所说的“素数的随机模型”的预测相吻合。所以我们有了这个猜想性的概念框架来理解素数，所有人都相信它。

这也是我们相信黎曼猜想为真的原因，是我们相信基于素数的密码学在数学上基本安全的原因。这些都是这个信念体系的一部分。

我们关心黎曼猜想的一个原因是：如果黎曼猜想被推翻了，如果它是假的，那将严重打击这个模型。这意味着素数中存在某种我们不知道的秘密规律。我认为我们会非常迅速地放弃所有基于素数的密码学。因为如果有一个我们不知道的规律，那可能还有更多。而这些规律可能导致密码学漏洞。这将是一个巨大的冲击。所以我们真的想确保这不会发生。

我们之所以逐渐被黎曼猜想之类的命题说服，部分是实验证据，部分是少数情况下我们能够做出的理论结果确实与预测吻合。

当然，共识也有可能是错的，也许我们都遗漏了什么非常基本的东西。科学史上曾经有过范式转换。但我们目前没有一种方法来衡量这些事情，部分原因是我们对数学和科学如何发展缺乏足够的数据。我们只有一条历史时间线，大约一百个转折点的故事。

如果我们能接触到一百万个外星文明，每个都有不同的科学发展顺序和历史，那也许我们就能真正对“如何衡量什么是进步、什么是好策略”形成理解，也许可以开始形式化并建立框架。

也许我们需要做的是创建很多“迷你宇宙”，让 AI 在非常基础的问题（比如算术之类）上进行模拟，让它们自己发展出策略来解决这些问题，用这些小实验室来测试。有人在研究类似的东西，比如能做十位数乘法的最小神经网络之类的。我觉得我们确实可以从让小型 AI 在简单问题上进化中学到很多。

Patel：你需要快速学习新领域，而且要学得足够深才能贡献到前沿。从某种意义上说，你也是世界上最伟大的自学者之一。你学习新领域的过程是什么样的？

陶哲轩：我们之前谈到了深度和广度的区分，这不纯粹是人类与 AI 的区分。人类中也有这种分化。我记得有人把人分为刺猬和狐狸。刺猬对一件事知道得非常非常深，狐狸对很多事情都知道一点点。我肯定是狐狸型的。我经常和刺猬合作，有时候我自己也可以充当刺猬，但本质上我是狐狸。

我一直有点强迫症的倾向。如果我读到某个东西，觉得自己应该能理解但就是不明白为什么它管用，里面有某种魔法，比如有人使用了我不熟悉的数学方法，得到了我也想证明的结论，但我自己做不到。我就想知道他们的窍门是什么。让我烦恼的是别人能做到我觉得我应该能做到但做不到的事情。我一直有这种强迫式的完整主义倾向。

所以我不得不戒掉电子游戏，因为我一开始玩就想打通所有关卡。这就是我学习新领域的一种方式。

另一个方式是合作。我和很多人合作，他们教会了我其他类型的数学。我交一个在另一个数学领域工作的数学家朋友，觉得他们的问题很有趣，但他们需要教我一些基本的技巧、什么是已知的、什么是未知的。我从中学到了很多。

我发现把学到的东西写下来很有用。我有一个博客，有时候会记录我学到的东西。因为过去年轻的时候，我会学到某个东西、发现一个很酷的技巧然后想“我要记住这个”。结果六个月后就忘了。我记得自己曾经理解过，但没法重现论证。头几次经历这种“理解了又失去了”的挫败感，让我下定决心应该把任何学到的有趣东西写下来。博客就是这么来的。

Patel：你写一篇博客文章需要多长时间？

陶哲轩：这往往是我不想做其他工作时会做的事。比如有什么审稿报告之类的，那些在当时让我感觉略有压力的任务。写博客让我觉得是创造性的、有趣的，是为自己做的事情。根据话题不同，可能半小时也可能好几个小时。但因为它是我自愿做的，写的时候时间飞逝。相比之下，因为行政原因不得不做的事情就是苦差事了。不过话说回来，这类苦差事现在 AI 确实帮了不少忙。

Patel：如果文明可以从零开始决定如何使用陶哲轩的时间，把它当作一种有限资源，当前的时间分配和最优分配之间最大的差距是什么？没准就不会有这期播客。

陶哲轩：虽然我确实会抱怨一些不想做但必须做的任务（在学术界越资深，就有越多的委员会和行政职责），但我也发现很多我勉强参加的活动，因为是我的义务或者超出了我的舒适区，结果反而带来了意想不到的收获。我会遇到我通常不会交谈的人（比如你），学到有趣的东西，获得有趣的经历，以及结识新朋友的机会。

所以我非常相信偶然性（serendipity）的价值。我确实会优化我的时间，一天中有些部分安排得很仔细。但我也愿意留出一些部分做点不是我平时做的事。也许是浪费时间，也许会学到什么。多数情况下，我感觉收获了计划之外的积极体验。也许有一个危险因素是，在现代社会，不只是 AI，我们也变得太擅长优化一切了。

比如新冠疫情期间，我们大量转向远程会议。一切都有排期，我们忙碌程度差不多，至少在学术界，我们见的人和面对面时差不多多。但一切都得提前安排。我们失去的是那种在走廊上偶遇、去倒咖啡时碰到某人的随机互动。这些偶然的交流你可能觉得不是最优的，但实际上非常重要。

我读研的时候，如果要查一篇期刊论文，得亲自去图书馆，借出期刊，读那篇文章。有时候旁边那篇文章也很有趣。你可以随便翻翻，偶然发现有趣的东西。现在这种事基本没有了，因为你想查什么直接输入搜索引擎或者 AI 就能立刻得到你要的，但你不会得到那些“意外发现”。

我曾经在普林斯顿高等研究院待过一年。那是一个很棒的地方，没有干扰，你就是在那里做研究。头几周非常好，你把积攒了很久的论文写出来，花大块时间思考问题。但如果待超过几个月，我发现灵感会枯竭。因为你开始更多地刷网页。你其实确实需要生活中有一定程度的干扰，它提供了足够的随机性，或者说高温度（high temperature），如果你喜欢用这个类比的话。

我不知道安排生活的最优方式是什么。好像自然而然就行得通。

Patel：我很好奇，你预计 AI 什么时候能在前沿数学方面至少做得和最好的人类数学家一样好？

陶哲轩：在某些方面它们已经在做人类做不到的前沿数学了。这是一个不同的前沿。你可以说计算器也在做人类做不了的前沿数学，只不过那是数字计算。

Patel：但完全取代陶哲轩呢？

陶哲轩：那还要我干什么？（笑）

Patel：去多上播客吧。（笑）

陶哲轩：可能这个问题需要修正一下，我觉得在十年之内，数学家目前在做的很多事情（占我们大部分时间的工作，我们今天写进论文的很多内容）都可以由 AI 完成。但我们会发现那些实际上不是我们工作中最重要的部分。

100 年前，很多数学家的工作就是解微分方程。物理学家需要某个系统的精确解，就雇一个数学家去一步步做微积分。19 世纪数学家做的很多事情，现在你调用 Mathematica、Wolfram Alpha 或某个计算机代数包，或者更近期用 AI，几分钟就能解决。但我们继续前进了，转向了不同类型的问题。

Computer 这个词以前指的是人。以前有人专门制作对数表和计算素数，像高斯那样。这些全都外包给了电子计算机，但我们继续前进了。基因组学也是如此，给一个生物体测序这项工作曾经是一个遗传学家的整个博士论文。现在花一千美元寄给测序公司就行了。但遗传学作为学科并没有死掉，你转向不同的尺度了，也许研究整个生态系统而非单个个体。

Patel：你这个观点我理解。但关于“什么时候大部分数学进步几乎全是由 AI 做出的”这个问题呢？如果你听说今年有一个千禧年大奖问题被解决了，你有 95% 的把握是 AI 自主完成的，这样的年份肯定会到来吧？

陶哲轩：也许吧。但我确实相信人类加 AI 的混合体将在数学中占据主导地位更长时间。

这需要一些我们目前还没有的额外突破。所以它会是随机的。目前的 AI 在某些方面非常好，但在其他方面很差。虽然你可以加各种框架来减少错误率、让它们更好地协同工作，但我感觉我们还没有凑齐所有的成分来真正提供一个令人满意的、能替代所有智力任务的方案。

目前它是互补的，不是替代。也许新发现、新突破会更快地出现，因为当前水平的 AI 已经在很多方面加速了科学。也有可能通过某种方式破坏了偶然性，我们反而抑制了某些类型的进步。在目前这个时间点上，什么都有可能。世界是非常、非常不可预测的。

Patel：对于考虑进入数学领域或刚开始数学职业的人，你有什么建议？尤其是考虑到 AI 的进步，他们应该怎样调整自己对职业的思考？

陶哲轩：我们生活在一个变革时期。如我所说，当前特别不可预测。我们几个世纪以来视为理所当然的事情可能不再成立。一切的做法都会改变，不只是数学。

我觉得人们就是得接受会有很多变化。你学的一些东西可能会过时或者被彻底革新，但有些东西会保留下来。

永远要关注那些你以前做不到、但现在可以做的新机会。在数学领域，以前基本上要经过多年教育读完博士才能对前沿研究做出贡献。但现在，高中生就有可能借助这些 AI 工具和 Lean 等等参与数学项目并做出真正的贡献。将会出现很多非传统的学习和参与机会。

心态上要足够灵活。保持好奇，乐于尝试。传统教育在一段时间内仍然很重要，学数学学科学的老办法暂时还得走。但同时也应该对非常不同的做科学的方式保持开放，其中有些方式现在还不存在。

这是一个令人不安的时代，但也非常令人兴奋。