陶哲轩用GPT5-Pro跨界挑战

2025-10-11 04:25:28 · chineseheadlinenews.com · 来源: 量子位

陶哲轩与GPT-5 Pro这对搭档再大发神威,解决了一个3年无人解决的难题。

而且是“不太在自己专业范围内”的问题:微分几何领域的开放问题。

要知道,陶哲轩擅长的分析、数论、组合学等研究的往往是整数、函数、算子的性质。而微分几何更侧重于流形的性质,常用的工具也很不一样。

陶哲轩只是按自己直觉给了一个大致方向,GPT-5 Pro就从复杂计算到严谨证明一气呵成,帮助陶哲轩捕捉关键逻辑,突破传统思维局限。

甚至在AI帮助下最终发现自己的直觉有误,但通过这个过程更好理解了问题。

有了这次跨界解题的经验,陶哲轩对AI在学术研究上的作用也有了新的思考,他总结到:

AI在小尺度上很有用,中尺度上有些无益,大尺度上又有帮助。

AI从计算到证明一气呵成

先来看看原始问题,是3年前就在mathoverflow上提出的:

设一个三维空间中的光滑拓扑球面围成的区域,且曲面的主曲率绝对值不超过1,那么它包围的体积是否至少等于单位球的体积?

陶哲轩最初的思路是将问题限制在星形区域上,借助积分不等式推进。但他的微分几何有些生疏,所以请AI帮他进行这些计算。

结果GPT-5 Pro思考了11分18秒,不仅完成了所有计算,还直接给出了星形情况下问题的完整证明。

证明过程运用了各种不等式和恒等式,其中有些陶哲轩熟悉(比如Stokes定理和Willmore不等式),也有一个他也第一次接触的Minkowski第一积分公式。

有了这些不等式,加上算术-几何平均不等式,星形情况的证明实际上就是一行论证。

到目前为止,一切顺利。

接下来他需要验证证明的各个步骤,但网络上没有找到有用的资源。

再次询问AI后,直接得到两个令他满意的证明:一个是按照他建议使用散度定理的路线,另一个是基于他没想到的流方法。

通过AI的计算和证明,陶哲轩打算将其视为一个扰动椭圆偏微分方程问题,AI在这个思路上表现也良好。

虽然在估计一个扰动非线性项时出现了轻微的错误,但并非无法修复。而且AI还主动指出一个特殊情况其实又能回到星形的结果。

成功地用偏微分方程扰动理论的方法,解决了当曲面形状与单位球面差距不大(Small Data)时的情形。

但真正困难且未解决的,是当曲面形状与球面差距巨大(Large Data)时的问题。

陶哲轩意识到可以用将问题简化为一个大型有限计算,但AI用这个方法给出的结果非常混乱且缺乏启发性,本质上是对所有可能形状的穷举。

最终陶哲轩发现他设想的数值方法或许可以在有限的时间内解决所有给定条件的特殊情况,但无法处理一般情况,但AI只是按照提问照做了。

最后总结一下:虽然问题最终还是没有完全解决,但在AI的帮助下陶哲轩对这个问题的理解深入了很多。

陶哲轩的思考:AI工具的多尺度价值

虽然解题告一段落,但陶哲轩的思考还在继续。

回顾整个解题过程,AI在“小尺度”问题上表现得很好,只犯了一些小错误,并贡献了一些文献中已有的,但陶哲轩之前并不知道的有用想法。

但是要想进一步推进这个问题,就需要真正的微分几何专家的帮助了。

在“中等尺度”策略上,AI略微显得无益,它强化了陶哲轩对问题的错误直觉,而不是提出质疑。

陶哲轩一开始的直觉是错的,AI也没有发现问题,基本上只是附和同意他说的一切。

但是在从获得对问题理解的“大尺度”指标来看,AI又是有帮助的,尽管主要是间接意义上的:在AI的帮助下能够更快地研究并最终放弃一种现在认为不适合的方法。

陶哲轩将这次经历与他之前的实验进行了对比。

在之前的实验中,他给AI一个他对结果有很好直觉的任务。这种情况下AI更有创造力,提供了他不知道的信息,但引导AI朝着富有成效的方向前进也明显更加困难。

他认为,在自己专业领域之外的问题上与AI互动似乎确实有一些价值,但必须谨慎行事并保持对情况的认知。

这次经历还印证了陶哲轩之前提出的观点:必须在多个尺度上衡量一个工具的有效性。

此前他提出了四个不同的效率衡量尺度:形式化证明中的任何单行、任何单个引理、任何定理的完整证明,以及整本教科书。

许多当前的自动化工具可以在其中一个尺度上加速形式化,但反直觉的是,过度依赖这样的工具可能最终会降低在其他尺度上形式化的能力。

他认为最优的自动化水平实际上严格介于0%和100%之间。

在每个尺度上都有足够的自动化来减少繁琐的重复工作,但在每个尺度上仍然有足够的”人在回路中“来审查和修复局部问题,以便让人类保持对所有尺度上任务结构的感知。

如果过度地在单一尺度上对AI进行基准测试,最终可能会对长期目标产生不利影响。

陶哲轩与ChatGPT合作史

而陶哲轩对AI辅助数学工作的可能性探索还要追溯到三年前——ChatGPT刚刚发布的时候。

陶哲轩在其诞生伊始就敏锐地察觉到它的作用,并就黎曼假设进行试探性询问,但得出的结果却让他大失所望:

ChatGPT给出了看似合理且相关的回答,但仔细检查后却没有任何实际的深度内容。

此时的ChatGPT还不能完全理解数学问题的本质,只是在将一些低质量内容进行包装掩盖,这意味着常规的表面检测方法不再准确,需要对核心内容进行人工筛查,例如逐行地阅读文本。

所以早期的陶哲轩对AI工具抱有怀疑审视的态度,认为AI在数学中的作用,是为答案提供近似值,然后人类数学家再通过传统方法进行逐步细化。

转机出现在GPT-4,陶哲轩尝试使用GPT-4协助处理统计数据,即把原始数据输入电子表格,并查找对应函数、计算所需内容。

短短几分钟,GPT-4就完成了人类一天的工作,期间只有非常少的部分需要校验,这也让陶哲轩开始期待将AI集成到软件工具中,尤其是处理90%以上的LaTeX编译问题。

我可以明确地说,今天是GPT4为我节省了大量繁琐工作的第一天。

随后,他开始使用GPT-4处理一些自己熟悉领域的数学问题,比如下面这个问题:证明递归式(定义R)能够推导出a(n+1)。

GPT4从合作者的角度提出了八种不同方法,其中生成函数法引起了陶哲轩的注意,并随即沿着该解决路径,利用人工计算最终解决了这个问题。而最初陶哲轩想使用的是渐近分析方法,但事实证明AI可以更快地协助找到正确方案。

与此同时,他开始让ChatGPT编写Python来计算序列长度,虽然与预期的目标序列存在差异,只考虑到了连续整数的子序列而非任意子序列,但已经足够接近,而且其中在计算totient函数时还使用了非常独到的方案。

但代码本身有时也不够简洁、效率不高,或者逻辑不够严密,还是需要人工校正与重写。

他还尝试使用Copilot书写数学论文,不过在攥写证明大纲时,AI陷入了长篇叙述有关随机分析数论的废话,只有在编写非常短或重复的文本上有效。

所以此时的AI在陶哲轩看来,AI写数学论文仍然是有趣多过于有用。

在GPT-o1发布后,陶哲轩同样第一时间测试了其数学能力,显然相比于前代,GPT-o1的幻觉问题得到解决,在形式化任务中也作用显著,但在复杂分析问题上仍然令人失望,没有产生关键的概念思想。

陶哲轩将这一代模型定义为平庸但并非完全无能的数学“研究生”,而此前的模型则更接近为无能的“研究生”水平,不过他也相信再迭代一两次,加上与其他工具的集成,AI将在研究级别的任务中大有所为。

而今年七月份,OpenAI斩获IMO金牌一事让AI的数学能力再次引起热议,陶哲轩也对此做出了长文回应,认为缺乏统一的评测标准。

但同时他也开始让ChatGPT处理一些更为复杂的数学问题,比如在判断该集合是否是HA的子集时,陶哲轩通过理论分析已经确定该问题的答案是否定的,但仍需要一些数值参数来验证部分不等式。

起初,直接要求AI提供一个Python代码的反例,但由于初始参数问题始终失败,随后陶哲轩调整策略转而与AI逐步对话,使其执行启发式计算并找到可行的参数选择,通过单独验证生成的参数,最终解决了该问题。

陶哲轩总结认为,在数值搜索这类任务上,AI工具显然可以节省大量时间,如果没有AI,甚至他可能都不会考虑这种解决方法,而是寻求理论渐进分析。

而对于如何减少AI在数学问题中的幻觉或废话问题,陶哲轩也显然有了自己的一套心得,那就是在计算任务的每一步都做到详细解释,每一次和AI的对话都先确认再执行下一步,在对话结束后再使用Python进行外部验证,得到输出。

正如他一直所说的那样,AI正在重塑人类科学范式,其最合理的角色是成为数学家的“副驾驶”或助理,而不是取代人类在创造性、直觉性、策略性上的工作。

在AI的协助下,数学将在未来拥有更多的实验,而不仅仅是理论。


    24小时新闻排行榜更多>>
  1. 中国战略大反攻,连出四公告
  2. AI太耗电,美国电网不堪重负怎么办?
  3. 朝鲜阅兵展示最新战略装备
  4. 中国舰艇被拍到在此集结 疑似进入高度战备状态
  5. 美调查新加坡公司 是否非法向中企供应辉达芯片
  6. 川普的文化反击战:复兴传统价值与秩序
  7. 美中贸易战全面升级 中国港口设施成新焦点
  8. 金正恩出席朝鲜劳动党建党80周年阅兵 提派兵援俄
  9. 美国一件“新武器”遥遥领先,北京不安
  10. 【时政春秋】北京升级稀土战 背后原因为何?
  11. 【佳音时刻】团派即将回归?胡海峰抢镜惹议
  12. 37岁狂揽1200亿!华裔理工男登顶美国最年轻富豪
  13. 川普对中祭100%关税!加密货币市场血洗
  14. 李锐:毛泽东的流毒和影响还有待消除研究
  15. 100%关税反制稀土管制 川普再杠中共国 贸易战升级
  16. 英美在俄边境执行12小时巡逻任务
  17. 俄乌战场上的苏-57,配备各种新型弹药
  18. 川普加征100%关税 大陆学者:他比中国更着急
  19. 30分钟赚取2亿美金,“川普交易”创下新纪录
  20. 卡塔尔为何在爱达荷州建空军设施 一文看懂
  21. 北京背叛承诺 稀土管制激怒川普 专家:误判玩过火
  22. 川普又TACO了?改口喊与习近平会面还没破局
  23. 三星机密才被偷,韩再传300名菁英投奔华为
  24. 美智库专家:跨国镇压参与者需被起诉制裁
  25. “今年我癌了,老公也癌了”大陆网友叹:才30几岁
  26. 中国保时捷女销冠报警
  27. 全球首颗!按旦大学创新存储芯片登上Nature顶刊
  28. 川普计划建美国版“凯旋门”
  29. Costco员工不想让你知道的10个惊人秘密
  30. 被UFO绑架 见到外星人形生物
  31. 川普签署哥伦布日宣告 “我们回来了,意大利人”
  32. 特鲁多赤裸上身"拥吻凯蒂佩芮"!直击照曝光
  33. 华裔女星疑遭同组演员性侵
  34. 美国密西西比州发生枪击 至少4死12伤 枪手在逃
  35. 泽连斯基与川普通话:俄罗斯的战争也能被制止
  36. 多管齐下文化战 川普重塑美国教育(上)
  37. 明星吐了上热搜,新能源车集体慌了
  38. 田纳西州1炸药厂发生爆炸
  39. 十银行拟联手发行稳定币 预计1比1钉住G7货币
  40. 政府关门下 川普指示战争部为军人按时发薪
  41. 美东海岸与西南部周末面临暴风雨天气
  42. 王暖暖:继续起诉前夫
  43. 河北千万富翁之子解清帅明日大婚
  44. 英法德领导人发表联合声明
  45. 泰国出现中国游客“撤离”潮?
  46. 拜登最新治疗进度曝光
  47. 安省辟宣:9千万巨奖要来了
  48. 北京故宫首次发现:地下藏一条15公里暗沟
  49. 发120多年奖金还没发完 诺贝尔基金如何增值220倍?
  50. 寒露到,养生有“四防”
  51. 经常抽烟,最伤这3个器官
  52. 知情者爆料:试图抹黑于朦胧 暗黑势力准备这4招
  53. 分析:稳定币巩固美元地位 中共深感不安
  54. 女模坠楼身亡判定自杀,反转了?
  55. 加国人用$20买到大堆蔬果
  56. 巴菲特押注日本股票超300亿美元
  57. 美军将设新联合特遣部队 提升拉美反毒行动指挥层级
  58. 跨越12国财富追猎 许家印“巨额信托崩盘”只是前菜
  59. 第一批答辩评审专家名单公告
  60. 泽连斯基敦促川普斡旋结束乌克兰战争