辛顿：LLM将以“推理自生成数据”突破Scaling Law-墙外头条

12月22日，诺奖得主、AI 教父 Geoffrey Hinton 接受了《经济学人》的访谈。本次对话阐述了他对智能本质的最新思考，深入探讨了AI 在医疗、教育及科研领域的愿景，Scaling Law 的极限突破、LLM 的推理本质、机器人具身智能的必要性，以及大脑与硅基智能在“快速权重（Fast Weights）”机制上的差异等话题。

Hinton 指出，AI 不再是简单的工具，而是能够通过自我推理产生数据的进化实体；未来十年，AI 将在闭环系统（如数学）中全面超越人类。

Hinton 提出大模型并非在做逻辑公式转换，而是将单词转化为高维空间中“长满小手”的语义积木，理解的过程如同蛋白质折叠，是语义积木通过“变形”与“握手”达成结构的稳定性。他指出，追求“神经符号混合系统”（神经网络+逻辑符号）完全是胡说八道，他强调，思维链已经证明，神经网络可以直接通过自然语言达成复杂的推理，而无需任何逻辑符号的介入。

他指出，为了让神经网络具备类似人类大脑的宏大上下文处理能力，必须在神经活动（快）与连接强度（慢）之间，引入一种叠加在连接强度上的“快速权重（Fast Weights）”。此外，他深入剖析了 Scaling Law 的瓶颈，指出当公开数据耗尽后，LLM 必须转向通过推理来审视逻辑矛盾，实现“自我进化”。这种机制与生物大脑在极少数据下利用海量连接进行学习的模式虽有路径差异，但在实现复杂序列处理上具有必然的趋同性。

AI 将成为全人类的顶级导师

在全球关注AI 催生的公司与应用之余，您对未来十年的愿景是什么？特别是在医疗保健领域，尽管您曾预测 AI 会在五年内取代放射科医生，虽然时间表有误，但目前的变革已在发生（如 FDA 批准多项 AI 影像应用）。除了影像解析，AI 在复杂疾病诊断和教育领域将如何具体实现变革？

Geoffrey Hinton:我接下来的观点可能并不新鲜。我认为AI 在医疗保健领域的表现将极其惊艳。2016 年我曾预测 AI 将在五年内取代放射科医生阅读医学影像，虽然我当时对时间表的预测有误，但这种变革现在正悄然发生。目前 FDA 已批准了 250 多项 AI 辅助影像解析的应用。虽然由于医学界的保守性格，彻底取代放射科医生可能还需五年甚至更久，但 AI 确实能从扫描影像中挖掘出人类医生难以察觉的海量信息。

一个典型的例子是解析视网膜眼底图像。AI 能在这些影像中发现各种细微病理特征，这是过去任何眼科医生都无法意识到的。

（关于放射科医生的未来）放射科医生仍会承担很多其他职能，比如安抚患者、制定治疗方案。虽然 AI 最终也会辅助这些工作，但在相当长的一段时间内，放射科医生与 AI 协作的模式将比单一的人工模式更高效。医疗服务的需求极具弹性，如果我们能通过 AI 提高医生的效率，大众就能获得更充足、更优质的医疗保障。这不会导致大规模失业，反而会带来更好的全社会医疗福祉。

（关于复杂疾病诊断）有两方面非常关键。首先是诊断能力的提升。一年前的研究显示，针对疑难杂症，AI 的诊断准确率约为 50%，而人类医生约为 40%，但两者结合后的准确率能达到 60%。这将挽救无数生命。单就北美而言，每年有约 20 万人死于误诊，AI 能够显著改善这一现状。其次，AI 在药物设计方面也会表现得更出色，我们将迎来更高效的疗法。

（关于教育领域）教育是另一个核心领域。虽然学术界可能持保留意见，但 AI 将成为极其出色的导师。研究表明，私人辅导的学习效率通常是传统课堂教学的两倍，因为导师能根据学生的认知盲区因材施教。AI 能做得更好，因为它拥有数百万学生的训练数据。这将在未来十年内普及。届时，各层次的教育水平都将大幅提升。博士生教育可能是最后被触达的领域，因为那更像是一种传授研究方法论的徒弟制。

企业培训领域已经开始应用这些技术。我合作的一家公司开发了 Nadia 系统，专门教员工领导力技能。未来所有公司都会用 AI 来培训员工，这比过去我在 Google 时看那些枯燥的社交礼仪视频要高效且有趣得多。

AI 将在数学领域超越人类

DeepMind 的 Demis Hassabis 强调 AI 是科学发现的关键工具，您是否认同 AI 将在数学、物理、化学等基础科学领域产生突破？尤其是数学，AI 是否能攻克人类尚未解决的难题并提出全新的猜想？

Geoffrey Hinton:我非常认同这个观点。数学领域最容易突破，因为它是一个闭环系统。我们会看到专门钻研数学的AI，它们会自我驱动，不断尝试证明各种复杂猜想。由于规则明确，它们可以通过持续的自我试错来验证逻辑。

它们甚至会提出全新的猜想。未来十年，AI 在数学方面的表现将远超人类。数学就像围棋或象棋，是有规则的闭环系统，AI 可以在其中生成自己的训练数据。最初 AI 学习围棋是模仿人类高手，但这有局限性。后来引入了蒙特卡洛模拟（Monte Carlo rollout），AI 通过自我博弈和推演每一步的后果进行学习，不再依赖人类经验。数学研究也将遵循类似的路径。

（关于科学流程的加速）起初是这些学科的特定研究环节被加速，随后这种加速会渗透到整个科学研究的流程中。如果能公平分享生产力提升带来的红利，它会让每个人的生活更美好。比如，如果你每年进行一次全身 MRI 并由 AI 解析，人类基本上可以告别死于癌症的恐惧。AI 能在癌症极早期发现病灶，而早期癌症通常很容易根除。人类基因组计划的先驱 Craig Venter 曾通过全身 MRI 早期发现了极具侵略性的癌症并成功痊愈。如果能普及这种 AI 辅助的早期筛查，癌症病亡率将大幅下降，前提是这项技术能让大众负担得起。

推理的本质

五年后的AI 模型会具备哪些能力？尤其是近期“思维链”等技术的出现是否改变了您对推理的认知？您如何看待那些主张将神经网络与符号系统结合以增强模型推理能力的观点？

Geoffrey Hinton:在预测方面我现在很谨慎。看清未来五年最好的方法是回看过去。五年前GPT-2 刚问世时其性能尚显原始，所以我认为，五年后看现在的模型也会觉得像石器时代。它们的推理能力会大幅提升，幻觉问题会显著减少。未来的 AI 聊天机器人将能够反思自己刚说过的话，判断其是否合乎逻辑。

（关于推理的本质）“思维链”推理对我来说是个惊喜。十年前如果有人问我，我会断言我们不可能拥有像 GPT-4 这样博学且具备复杂推理能力的系统。思维链推理以及通过强化学习自我习得推理路径，彻底改变了我们对推理的认知。几十年来，符号化人工智能一直认为推理的本质是逻辑公式，必须将语言转换为特定的逻辑形式。

那些人现在退而求其次，追求所谓“神经符号混合系统”，认为 AI 只能负责数字化现实世界，真正的推理还得靠逻辑系统。我认为这完全是胡说八道。思维链推理已经证明，推理可以由理解自然语言的系统直接完成，并不需要逻辑公式的转换。那些坚持混合系统的人，就像制造汽油发动机的工程师，虽然认同电动马达更优，却试图利用电动马达将汽油喷射进发动机。

（关于理解的模型）大模型不是在做逻辑转换，而是将单词符号转换为高维的神经活动向量。单词的特征向量取决于上下文。当这些词被转化为准确的特征向量时，理解就发生了。这可以用乐高积木来类比，但语义积木是可变形的，它会为了适应上下文而改变形状，产生细微差别。你可以把每个单词想象成一个长满小手的高维积木。它通过变形调整这些手的形状，并选择与哪些积木握手，这就是注意力机制。结构一旦成型，理解就达成了。这非常类似于蛋白质折叠（Protein folding）：理解更像是蛋白质折叠，而不是逻辑公式的转换。传统语言学和符号化人工智能的那套理解模型从根本上就错了。

具身智能与交互：感知现实是认知的捷径

人类智能不仅存在于大脑，而是分布在全身，通过感知外部反馈并对空间意识做出反应来体现。目前的模型大多运行在硅基芯片上，存在于虚拟的数字世界。您是否认为为了让模型更有用，它们必须具备身体、传感器和空间意识？如果确实需要，这些能力应该通过编程预设还是自主学习？

Geoffrey Hinton:这需要从哲学和实践两个维度来分析。从哲学角度看，我们可以思考一个只听广播的孩子是否能了解世界。哲学家通常持否定态度，但聊天机器人的表现证明，它们仅仅通过处理文本序列就掌握了关于世界结构的隐性知识。虽然语言包含信息，但它并非最高效的学习方式。聊天机器人需要处理天文数字般的文本才能理解世界。

（关于交互的重要性）如果能与现实环境互动，学习效率会高得多。拥有摄像头和机械臂可以让模型更高效地掌握空间概念。但这并不意味着这是唯一的途径。尽管身处现实世界并进行实验能极大地加速认知过程，但实验并不是了解世界的绝对前提，否则天体物理学家就无法开展工作了。

以往的机器人训练主要依靠预设规则，过程极其繁琐缓慢。而在运动控制领域，类似大语言模型的方法已经显示出潜力。只要让机器人在不造成危险的前提下尝试移动并允许其犯错，它就能自主学会技能。这种架构在运动领域和语言领域同样有效。机器人技术确实在飞速发展，触觉感知已成为现实。Amazon 此前通过技术整合，在物理操作领域取得了显著进展。结合触觉技术后，机器人能非常精准地在仓库中挑选商品并装箱。

通过逻辑推理自我生成数据是突破算力和数据瓶颈、超越人类的关键路径

2025 年被许多人视为 Agentic AI 的元年，LLM 将能够作为代理在现实中执行任务（如预订假期）。您认为这是真实的趋势还是某种程度的炒作？它们协作能解决什么实际问题？此外，随着算力、芯片投入的增加，Scaling Law 是否存在极限？

Geoffrey Hinton:这是正在发生的现实，而非炒作。我们甚至能看到AI Agent 之间开始产生互动，这确实令人心生敬畏。AI Agent 已经能处理网页预订等任务。预计不久后，它们就能在获得授权的情况下使用支付手段代人购物。多个 Agent 协作还能进行极其复杂的规划。我经历过多次 AI 炒作周期，例如 80 年代曾因过度乐观而脱离实际。但就过去几年而言，AI 的潜力实际上是被低估了。

（关于 Scaling Law 的极限）除非系统能生成自己的训练数据，否则极限是必然存在的。目前大部分高质量数据被封锁在企业内部，公开数据几近枯竭。此外，通过 Scaling Law 获得的收益呈对数增长，每提升一点性能都需要翻倍的数据和算力，这最终会触及能源上限。

但能够自我生成数据的系统可以突破这一限制。我认为 LLM 未来能通过推理来产生数据，通过自我审视逻辑矛盾并获取梯度来不断进化。这正是 AlphaGo 超越人类的路径，也是未来 LLM 变得比人类更聪明的途径。

大模型与大脑的差异

为了突破Scaling Law 的瓶颈，未来是否需要开发全新的基础架构？此外，关于 LLM 的短期记忆，为什么模型需要这种能力？最新的神经网络研究揭示了关于我们自身智能的哪些奥秘？

Geoffrey Hinton:首先，通过更出色的工程优化仍有巨大空间，我们可以在不依赖顶尖硬件的情况下实现相同目标，DeepSeek 就是一个极好的例子。其次，我们会在架构本身以及使用方式上迎来飞跃，例如近期兴起的“推理时计算（Inference-time compute）”，让模型在测试阶段也能进行深入的研究与推演，这已经产生了显著影响。

（关于短期记忆与快速权重）在神经网络的发展史上，人们长期认为处理序列应依靠循环神经网络。后来 Transformer 的出现改变了游戏规则，它允许模型直接回看完整的所有历史活动状态，从而获得了极其宏大的上下文。但生物大脑的神经元数量有限，无法像 Transformer 那样保留所有历史激活状态。大脑获得丰富上下文的唯一途径是在短期连接强度中保存记忆。传统模型只有快速的神经活动和缓慢的连接强度这两个时间尺度。

要在生物网络中实现类似 Transformer 的功能，必须引入第三个时间尺度，即“快速权重（Fast Weights）”。它叠加在连接强度上，能迅速改变权重并在短时间内衰减。其承载的信息量比神经活动高出几千倍。这才是神经网络运行的真实上下文，也必然是大脑处理复杂序列的底层机制。

（关于大脑与 AI 的学习差异）我最初试图理解大脑计算原理的目标并未完全实现，这催生了利用反向传播学习的现代 AI。我现在认为大脑可能并不使用反向传播。大模型拥有数万亿样本但连接数相对较少，而大脑拥有一百万亿个连接，但训练数据非常匮乏。大脑解决的是如何在极少数据下利用海量连接进行学习，而 AI 则是通过反向传播将海量信息挤进有限的连接中。大脑倾向于将少量信息散布在巨大的连接网络中以便日后检索，这与目前的 AI 学习策略截然不同。

生存风险与安全监管

您离开Google 是为了自由地就 AI 的存在性风险发声，这种担忧在过去一年中是否有新的演变？关于开源模型是提升安全性还是扩散危险（如生物武器、网络攻击），您的立场是什么？针对政策制定者和企业，您最想传达的务实建议是什么？

Geoffrey Hinton:最严峻的风险依然是AI 接管世界的存在性风险。随着 AI 变得比人类更聪明并拥有代理能力，其目标可能与人类产生冲突。在那样的对抗中，人类处于绝对劣势。那种认为可以随时关掉电源的想法过于天真，因为一个比你更聪明的系统为了实现其目标，会自发产生一个“不被关机”的工具性子目标，并想方设法阻止你这么做。

（关于开源的争议）我强烈反对无限制开源这些强大的前沿模型。这无异于开源核武器。即便好人手里有防卫手段，也无法阻止恶意势力利用开源模型发起毁灭性的网络攻击或研发致命的生物武器。在网络战和生物安全领域，进攻往往比防御容易得多。如果有人设计出一种致命病毒，即便拥有强大的 AI，等你感染后才去研发疫苗也为时已晚。有些前沿技术是不应该让每个人都随意掌控的。

（关于给政策制定者的建议）必须大幅增加安全研究的资源投入。目前大公司在安全上的投入比例微乎其微，绝大部分资源都在卷模型能力。这个比例必须彻底改变，至少应投入三分之一甚至一半的资源用于安全研究。我们需要在 AI 变得比人类更聪明之前，弄清楚如何检测模型的欺骗行为，如何证明其安全性，以及如何控制一个比自己更聪明的实体。这是人类从未面对过的技术难题。