哈爵爷:知识的未来
2025-07-29 09:25:25 · chineseheadlinenews.com · 来源: 冷眼贱客
Demis?Hassabis,是英国著名的人工智能研究者、企业家与社会公众人物。他以DeepMind联合创始人兼 CEO身费膛名,该公司自2014年被Google收购后,成为 Alphabet 旗下全球领先的 AI 实验室。Hassabis童年即是国际象棋神童、13岁达到大师级水平;17岁时担任畅销游戏《Theme Park》的 AI总程序员;之后在剑桥大学获得计算机科学“一等双学位”,并创办Elixir Studios公司。他2009 年在伦敦大学学院(UCL)完成认知神经科学博士,着重研究记忆与想象的神经机制,相关成果曾入选《Science》的年度十大科学突破。在此基础上,Hassabis于2010年共同创立DeepMind,推动诸多AI突破:其中包括 2016 年AlphaGo击败围棋世界冠军李世石,2017年AlphaZero自主学习掌握棋艺,以及AlphaFold系列实现蛋白质结构预测的巨大飞跃。其后的改进版AlphaFold? 2,于2020年在 CASP 比赛中首次实现蛋白结构预测准确率近90%,之后成功预测了数百万种蛋白质结构,为生物医药、环境科学等领域带来革命性影响,Hassabis为此荣膺 2024 年诺贝尔化学奖。
此外,他还创立了专注于AI驱动药物发现的Isomorphic Labs,并担任其CEO,持续推动从基础研究到应用落地的深度融合。Hassabis荣获多项国际奖项,也是英国皇家学会和工程院院士,并获英王封爵(Knight)。作为一位跨领域融合的领军者,Demis?Hassabis不仅为AI在棋类、结构生物学等领域带来突破,更推动整个行业向“通过AI解锁科学知识”的方向发展。
日前,Hassabis在普林斯顿接受高等研究院院长David Nirenberg的访谈,对探索机器智能的历程,以及未来知识的形态等话题分享了不少非常有洞察力的想法。
David Nirenberg(以下简称Nirenberg):让我从最人性化的主题开始吧。我在很多地方读到过你的传记,你进入人工智能领域始于13岁时的一次顿悟。当时你拿了你能拿的所有的欧洲国际象棋锦标赛冠军,觉得这类零和游戏太简单了,我想研究智能本身。这是真的吗?我们就从你的人生轨迹聊起吧?
Demis?Hassabis(以下简称Hassabis):首先,感谢你的邀请和精彩介绍。能来到这里真是太棒了,这是我在世界上最喜欢待的地方之一,我认为这是一个独特的地方,原因有很多。我喜欢高等研究院的多学科交叉的性质,我认为它在世界上扮演着非常重要的角色。当然,它的历史非常鼓舞人心,你漫步走在高等研究院的场地上就能感受到这种感觉。所以,回到这里真是太好了。
至于我是如何开始接触人工智能的,对我来说,其实是从游戏开始的,就像一个这里有很多传奇人物,比如冯·诺伊曼,都是从国际象棋开始的。我四岁的时候就开始研究下棋了,当时我的目标是成为一名职业棋手。但实际上,国际象棋让我开始思考思考的过程。作为一个孩子,我想有朝一日进入英格兰少年国家队,我试图改善自己的思维过程和决策能力。所以我曾经研究过,这些思维过程包含哪些内容,然后开始为之着迷。不久之后,大约在我八九岁的时候,第一批国际象棋电脑开始出现。那是在80年代,当我随英格兰队去训练营时,他们会把这些国际象棋电脑拿出来。它们是实体棋盘,你按下方块上的按键,就可以移动棋子。我本应该和团队其他成员一样,进行国际象棋开局和其他方面的训练,但我清楚地记得,我反而对这个新生事物更加着迷:有人对这块没有生命的塑料物体进行了编程,让它能够进行高水平的国际象棋对弈。事实上,我觉得这比我本来应该研究的国际象棋更有趣,我觉得这很迷人。后来,凭借一些早期国际象棋锦标赛的奖金,我购买了我的第一台家用电脑。当时在英国,家用电脑正蓬勃发展。就是在那时,我开始编程。然后,我对电脑和游戏的热爱就真正地融合在一起了,正如你所说,我的第一个职业生涯就是设计电脑游戏并进行编程。我制作的所有游戏,比如《Theme Park》游戏,都以人工智能作为核心游戏组件,所以它们都是模拟游戏,通常有智能角色,对玩家的玩法做出反应。这就是为什么我参与制作的一些游戏非常成功,因为每个玩家都有不同的游戏体验,游戏会根据你的玩法进行调整。当时是90年代,所以它只是非常基础的人工智能,但它已经让我确信,如果我们能够将其规模化,达到我们今天看到的程度,人工智能将会多么强大,它将是多么不可思议的工具和技术。在我十几岁的时候,这一点对我来说就已经很明显了。
Nirenberg:你刚才讲了游戏经历对你的重要影响,它始于童年等等。你指出,像冯·诺伊曼这样的人也把游戏放在他们思考的核心位置,不仅在他早期的博弈论理论论文中,而且在他与奥斯卡·摩根斯坦合著的名著《博弈论和经济行为》一书中(他们正是在高等研究院完成了这本经典著作),也用某种游戏方法来模拟人类行为。你13岁时就有了顿悟,放弃了这类零和游戏。但是到底是什么让游戏成为如此优秀的测试案例呢?在游戏里积累的探索可以易于向其他领域转移?
Hassabis:我认为,人工智能和游戏的历史从一开始就紧密地交织在一起。就像你说的,这个领域的奠基人,比如冯·诺伊曼,香农,图灵,以及很多来过高等研究院的人,他们都尝试过编写国际象棋的计算机程序,尽管那是非常初级的程序。一个非常著名的案例,图灵曾经写了一个程序,但当时没有可以运行他的程序的计算机,所以他不得不用他的大脑来运行它。结果和程序玩一盘国际象棋大概需要两天左右的时间。我想原因是,游戏是生活中有趣部分的缩影,这就是为什么我们作为人类设计师会设计这些游戏,使得我们对国际象棋和围棋之类的东西着迷。扑克牌以一种非常便捷的形式概括了生活的某些方面,可以说非常便捷、有趣且富有挑战性,所以我们设计了这些游戏,我们玩这些游戏也是因为这些原因。但这也是我认为它们非常适合人工智能开发的原因,因为它们是人类思维的缩影,确实代表了我们文化的某些方面。我最喜欢的一本书是《游戏人类》,这本书探讨了这样一种观点,即在某种意义上,我们就是一直在玩游戏的动物。制造工具和玩游戏,是人类所具有的两种特征,这里有非常深刻非常基本的道理。我喜欢所有的游戏,我从国际象棋开始,最后玩了很多很多游戏,因为实际上我认为这是另一种方式,就像语言一样,可以触及一种文化的核心。就围棋而言,这是在亚洲的日本、中国和韩国非常流行的游戏,就好比国际象棋在西方的流行程度。从游戏里你可以窥视并深入了解一个文化对事物的真实看法。这体现在他们的游戏规则中,包括他们对战略战争的看法,所有这些都体现在这些游戏的规则中。所以对于人工智能来说,尝试和理解这些规则是一件令人着迷的事情。
我们在DeepMind开始时使用它的另一个方便的原因是,你可以生成尽可能多的数据,因为你可以让系统与自己对战,并有效地生成大量合成数据,然后你可以从中学习。它也有非常明确的可量化指标,比如获胜条件,最优化的概率分数,等等。所以从人工智能的角度来看,这也非常适用,你可以据此进行不断优化。
Nirenberg:我是一个中世纪历史学家,《游戏人类》的作者Huizinga,也是一位中世纪学家。我从来没有想过在这场必于人工智能的对话中,你会提到一本关于中世纪的书。《游戏人类》指出,虽然有很多不同类型的游戏,有零和博弈,有竞争性游戏,赢家通吃。也有纯粹的想象力游戏,猜字谜游戏。我想,规则更严谨的零和博弈游戏对人工智能早期的成功如此重要是有原因的。而猜字谜这类想象力游戏是一个更难的挑战。如果是这样,它能告诉我们关于人类思维的特征,以及计算机思维与人类思维之间的关系是什么?
Hassabis:是的,我认为零和博弈游戏在人工智能发展早期更有用的唯一原因是,它的指标比开放式游戏或合作游戏更清晰。零和博弈通常更容易明确获胜条件,或者说,这类事情在零和博弈中通常更容易明确。另一个很大的区别是,像国际象棋这样的完美信息博弈与像扑克这样的隐藏信息博弈,后者难度更大。当然,现实世界更像扑克,它包含隐藏信息。我认为,所以我们必须将其推广到更广泛的博弈中。目前,我们设计的系统完全可以玩任何双人完美信息游戏。而且实际上,我们涉猎的游戏种类范围比这更广,现在有很多玩扑克和其他更具挑战性的游戏的优秀程序。当你说的猜字谜和其他游戏时,机器系统必须理解世界的物理和视觉效果,并且成为多模态的。实际上,我们今天构建的系统,也就是我们最新的基础模型 Gemini,从一开始就被设计为多模态的,这意味着它们不仅处理文本、数学或代码,还能处理视频图像,它们可以理解诸如直觉物理学之类的东西,比如视频中发生的事情。所以实际上我认为,凭借我们最新的系统,一些我们称之为“Astra项目”的原型系统,在诸如猜字谜之类的游戏中也表现相当不错。
Nirenberg:所以我想问您一系列关于您如何选择研究问题的问题,因为这非常引人注目,您选择了非常不同的问题,并在不同类型的问题上取得了巨大的成功,我认为您给出了部分答案,那就是基准测试,显然基准测试很重要。几乎就在 AlphaGo 击败李世石的那一天,您就开始为 AlphaFold 聘请生物学家,您能告诉我们为什么吗?是什么特点决定了您决定专注于这个蛋白质结构问题?
Hassabis:游戏本身从来都不是目的,它只是一种达到目的的手段。所以我们真正想要构建的是,正如您从DeepMind使命宣言中读到的,那些通用学习系统,它可以泛化,然后帮助解决真正具有挑战性的现实世界的关键问题。游戏是开发这类通用算法的入口,但我们只对开发不仅擅长游戏,而且我们认为可以泛化的算法感兴趣。所以,构建像深蓝这样的专家系统只是为了在国际象棋中获胜是没有意义的,因为它无法推广到其他领域。我所想到的其他领域是科学,特别是科学、医学、数学。我们想利用这些人工智能系统来推进整个人类的知识库。回到我的童年,除了我对游戏的痴迷和专业训练,还有对电脑的热爱之外,我着迷的另一件事就是所有最重要的问题,所以我会如饥似渴地阅读科幻小说,也阅读伟大科学家的传记和相关书籍。理查德·费曼是我一直以来的英雄之一,我只是有点着迷于,或者你可以说痴迷于那些最重要的问题,就像什么是现实的本质?什么是意识的本质?物理学大统一理论。物理是我最喜欢的科目,当我还在学校的时候,我读到一些像理查德·费曼或史蒂夫·温伯格等人的著作时,他们梦想着一个最终的统一理论。但我可能从这些书中得到了相反的启发。我们曾经在这条道路上取得了巨大的进步,包括曾经在此高等研究院工作过的许多杰出人物。他们可能在 40 年代、50 年代、60 年代取得了一些非凡的成就,我们在这个统一理论上取得了很大进展。但是我从阅读温伯格的书中感觉到,如果你看看 80 年代和 90 年代后,相对于我们在上个世纪的上一半里所做的惊人工作,我们并没有太多的进展,这多少有点令人失望。也许在座的听众中有人会不同意我的观点。然后我在思考这是为什么?我在想,即使你非常幸运,你努力学习,而且你也成为像理查德·费曼那样的天才,但即使有这么多的非常杰出的头脑在研究,我们仍然有很多不知道的事情,或者说我们无法知道的事情。所以我想,也许更好的选择是建立一个工具,可以帮助我们,帮助世界上最优秀的科学家,包括我自己,来做出这些发现。对我来说,大约在2013或者2014年的时候,我就开始思考这个问题。我觉得这也许是在解决伟大的物理学家和数学家几个世纪以来一直在思考的所有这些大问题上取得最快进展的最佳方式。此外,这个课题本身就是一个非常令人着迷的智力追求,构建智能神器,将智能提炼到机器中,然后将其与另一个巨大的谜团进行比较,那就是人类思维的运作方式和意识的本质。我曾经念过神经科学和计算机科学方向的学位,我一直认为,尝试构建一个智能神器,然后用科学方法解构它,并将其与人脑进行比较,将告诉我们很多关于人类思维到底有没有任何特殊之处。
Nirenberg:我要问一个问题,可能有点政治化。Alphafold使用了蛋白质结构数据库中大约10万个已知结构作为训练集,这些已知结构基本上是由许许多多研究生和科学家们通过一篇篇论文确定一个个蛋白质来确定的,这样积累而成。这些科学家主要由大型公共投资资助,比如美国国家科学基金会,美国国立卫生研究院,等。Alphafold自成立以来,在两三年内已经完成了大约相当于10亿名研究生能够完成的蛋白质结构测定工作,但它的初始训练集是人力资本投资的产物。我想知道,随着我们在生物复杂性阶梯上不断攀升,除了基因组和蛋白质之外,我们并没有好的训练集。您是否担心,创建这些训练集所需的公共科学投资将无法到位?或者您认为人工智能能够自动模拟出这种训练集吗?
Hassabis:基于结构生物学家50年来的艰苦实验工作,在蛋白质数据库中创建了大约15万个结构。这对我们的确非常重要。但实际上,仅仅15万个结构还是不够的。我们实际上不得不创建一个早期版本的Alphafold,它预测了近一百万个结构,然后我们必须对其进行分类,找出最准确的30万个左右,再将其放回训练集中。所以我们实际上在训练中添加了一些合成数据。从这一点来说我确实担心,因为没有充足的公共科学投资,我们就不会有那些高质量的数据集来开展工作,我们就很有可能没法在一些重要的问题上获得突破和进展。我选择蛋白质折叠结构这个问题的原因之一,因为我当时就考虑到了这一点。我想你之前也问过这个问题,因为我从小就知道自己无论如何都会要一辈子从事人工智能研究。我想把它应用到我职业生涯中收集的各种科学知识和问题中,比如我遇到的那些问题。我喜欢像高等研究院这样的多学科环境,我们的DeepMind也是这样一种环境。我一直尝试在这样的环境中工作,不仅与技术人员合作,还与艺术家、设计师等等合作。这是计算机游戏设计提供的一项很棒的培训范例,因为你与艺术家、工程师、音乐家等等一起工作,这真的是一项令人惊叹的最高水平的创造性工作。对于这些问题,你知道你想要三个要素。如果你俯看我们的系统,我们所有的Alpha-x系统都在做什么,比如Alphago, Alphafold等系统。你通常可以想到的是,你有一些某方面的数据,希望是大量的数据,也许你会用一些模拟数据或合成数据来补充,但你通常需要一些真实数据来创建模拟数据,并确保你的模拟或合成数据的分布与真实分布相匹配,否则,你可能会在数据集中产生一些偏差或错误。所以你通常需要一些真实世界的数据。此外,你还需要一个明确的指标。说到指标,游戏有明确的指标,但科学中的很多事情也是如此,如果你以正确的方式思考,有各种各样的指标思考方法,比如最小化系统中的自由能。你可以用指标思考方法来应对很多自然问题。最后,我们真的很喜欢那些可以被描述为海量组合空间的问题,所以一般来说,很多的选项,很多的可能性,以至于原始的暴力方法,例如暴力搜索,在这些问题空间中行不通。如果所有这三个要素都成立,那么我们所拥有的技术就非常有趣了,你可以把它想象成建立一个模型,以及基于数据的问题空间的网络模型,无论是围棋还是蛋白质结构,都是如此。然后使用该模型来指导智能搜索过程,无论那是蒙特卡洛树搜索还是强化学习,所有这些方法都是为了轻松地找到优化指标的解决方案,犹如轻而易举地从大海中捞针。所以这基本上就是所有这些系统的核心所在。但实际上,这是一个相当通用的解决方案,可以解决很多问题,即使是数学问题,也是如此。
Nirenberg:所以你已经把注意力转向了人工智能,谷歌和DeepMind已经把注意力转向了数学人工智能。谷歌人工智能数学团队的大部分成员都在这里,欢迎你们。他们本周一直在与高等研究院里的数学团队合作,我们很高兴你们来到这里。我的问题是,是什么让这个领域你刚才描述了三个让你对问题感兴趣的因素,我想知道数学是如何融入其中的,是什么让这个领域变得有趣,然后我可能会问,它与我们的传统数学研究有什么不同?
Hassabis:是的。如果你看看我们的一些像 Alphaproof 这样的数学程序,实际上很多团队成员也参与过 Alphago 和 Alphazero 之类的项目。我的想法是,当然团队里不同的人有不同的看法,如果你想尝试解决一个数学猜想或类似的问题,你可以这样想:你有一些方程式或公式,你试图优化或简化这些公式,希望找到某个问题的解决方案,然后你可以以某种方式调整这个公式作为下一步,你几乎可以把它想象成游戏中的下一步动作,你试图达到某个指标,或者你试图优化它的优雅程度,或者它可以被描述为你的某种指导目标,它感觉上与我们能够做的事情相当同构。你在数学和编程等方面还有另一个优势,就是你可以生成大量的合成数据,因为人们可以验证答案。这在合成数据领域非常有用,可以检查你生成的数据是否真的准确,这也与游戏和编码非常相似,你可以验证最终位置,你知道游戏中的不同方谁赢得了游戏。或者某一个预测值是否和实际结果相符,这些都是非常精确的事情,你可以准确地将你的预测与结果进行比较。数学也具有其中的一些属性,至少有一些方程式。所以我认为我们现在正在构建能够解决相当困难问题的系统,我们正在使用形式逻辑,像Lean这样的语言,所以有一种翻译过程,你可以将一个用自然语言描述的数学问题转换成该问题的正式形式化版本,然后你可以使用这种形式化逻辑的规则来尝试取得进展。
Nirenberg:我认为我们的许多数学界的同事们正在思考人工智能在数学中的作用是什么,以及数学中是否存在更人性化的领域,以及哪些领域更容易受到人工智能方法的影响。我认为这对数学家来说是一个亟待解决的问题,对我们所有人来说也是如此。一年前你告诉我,如果你再次获得一次学术休假的机会,你想来本高等研究院里研究 P vs NP 问题。我当然不会问你为什么选择高等研究院,因为答案很明显,我就不一一点名我们这里所有同事的名字,但正是是他们让这里成为研究这类问题的好地方。但我确实想问你为什么是 P vs NP,你能向我们解释一下这个问题吗?为什么你如此喜欢这个问题?
Hassabis:这是千禧年大奖问题之一,它一直是最令我着迷的问题。在计算机科学和应用数学中,我认为它触及了计算的核心问题:在经典机器上什么是可能的?P vs NP,P 就是你能用 P 来分类的问题,这意味着它代表了多项式,意味着它实际上可以用某种合理的时间量内解决;然后是 NP 问题,因为它们不可能在合理的时间内解决,至少在传统计算机上是这样。它总是让我着迷,而且越来越让我着迷,所以我从本科开始就喜欢它,我认为这是一个根本的核心基础问题。我认为我们一直在用自己的方式进行研究,因为你可以想到的一件事就是我们在深度思维方面所做的事情,我想说我的整个职业生涯都是我把自己看作是艾伦·图灵的拥护者,所以你知道图灵和 阿隆佐·丘奇以及其他许多在此地工作过的人。他们提出了图灵机器的想法,丘奇观点,所有这些关于计算的重要事情,你知道计算机科学的基础以及什么是可以计算的。图灵发明了著名的图灵机,他证明了它们可以计算任何可计算的东西,因此任何,可以模仿图灵机或近似图灵机,而且也很强大。我认为我们在过去15到20年里所展示的,以及我们通过所做的工作,经典方法和在经典计算机上运行的经典计算可以走得比我们之前想象的要远得多。可以做到击败围棋世界冠军,或者在一年内预测出所有已知蛋白质的折叠结构,所以这些都是非常神奇的事情,会让非常聪明的人感到惊讶。我记得我和罗杰·彭罗斯这样的人谈过很多次。你知道,他是量子在大脑和量子意识现象的强烈倡导者,他告诉我,他对Alphago感到惊讶,他不会预测到我们可以创造出能够在围棋比赛中击败人类最优秀选手的经典系统。也许你需要一个量子系统或类似的东西。所以我认为,当有人已经考虑了这个问题很长时间了,这样对你说,我们也必须认真思考,你会进一步思考,这些系统意味着什么?我们今天刚刚在度过了一段有趣的午餐时间,讨论的就是这些话题。如果我在这里,有幸在这个神奇而鼓舞人心的地方度过一个夏天,我会努力思考,尝试在我们已经做的事情上取得进展,以及它如何影响关于P vs NP这个基本问题。
Nirenberg:我今天早上给了Hassabis一份哥德尔在1956年写给冯·诺伊曼的信的副本,当时冯·诺伊曼快要死了。哥德尔在信的开头说:“我听说你正在好转,我很高兴听到这个消息。”然后,他以一种典型的研究所方式直接进入一个数学问题或一个符号问题,关于知识的问题,他提出这是第一个关于P等于或不等于NP的提议。不幸的是,冯·诺伊曼从未写过回复,如果他写了,那将像费马大定理一样。如果你会休学术假,我们会非常欢迎你。在你的诺贝尔演讲中,你自己提出了一个猜想:任何在自然界中生成或发现的模式都可以通过经典学习算法有效地发现和建模。这种算法可以发展出你刚才所说的内容,那么是什么促使你思考这个特定的猜想,它的潜在影响是什么?
Hassabis:是的,我想说它仍然处于形成阶段,这是它的早期版本,可能会有所变化,但这是我第一次尝试对这类系统能够做什么进行分类。回到我如何选择研究问题标的的描述,以及为什么蛋白质折叠对我来说是最重要的。我实际上是在90年代在剑桥读本科时接触到蛋白质折叠的。我的一位生物学家朋友对蛋白质折叠非常着迷,他现在仍然在剑桥从事结构生物学研究。他总是在酒吧里谈论它,玩桌上足球或台球或什么的,他会滔滔不绝地谈论这将是一场帮命,它会提供各种各样的可能性。我只是静静地认真听他讲话,我意识到首先这将是非常基础性的,它将开启许多新的研究分支,比如药物发现等等。所以这将是一个真正具有影响力的突破,也是基础研究的一个突破。但它也让我感到震惊,当时即使我们没有像今天这种类型的人工智能系统,那时甚至还没有发明。但我觉得这就像终极拼图游戏一样不可思议,就像要弄清楚蛋白质所有可能的配置,蛋白质可以呈现的形状。有些人估计,普通蛋白质可以呈现的不同形状的数量是 10 的 300 次方,而自然界中,在每个人地身体中,蛋白质会在几毫秒内自发地折叠成决定其功能的复杂 3D 形状,所以这似乎是一个令人着迷的问题,但也可能适合未来的人工智能方法。所以我带着这个问题想了将近 20 年,直到我们做了AlphGo,然后就像你说的,在 AlphGo 的第二天,感觉我们已经达到了游戏人工智能的巅峰,这一直是我们的圣杯。就像你能否建立一个通用的学习系统来赢得围棋,这是我们有史以来发明的最复杂的游戏,它不仅赢了,还发明了新的围棋策略,这些策略是以前从未见过的,即使我们玩了几百年的围棋。对我来说,这表明我们现在有了足够多有趣的算法,我们可以将其应用于科学,这始终是我们真正的目标,然后蛋白质折叠是我们解决的第一个大问题。回到这个猜想,然后再次结合我给的关于模型的描述,你有一些巨大的组合问题,你不能强行解决它,在经典系统上,它太大了,所以必须学习它的模型,然后,如果模型准确的话,它将指导你的搜索。这就是我们的基础,这就是我们所做的事情的最基本方式。那么我这个猜想背后的含义是,自然界中最有趣的事物,大多数自然系统都经历了某种进化过程。一般来说,我不是指生命,而是指地质风化,气候变迁,甚至可能是宇宙学的,比如行星的形状、轨道等等,它们随着时间的推移变得稳定,它们在空间时间上保持稳定,否则它们就不会作为实体存在。这意味着存在某种结构,它不是随机的,也不是均匀的,给定足够的数据,人们也许可以通过足够的例子来学习。所以我的猜想应该再加一句,给定足够的数据,并且在一定程度上的分辨率,那么,也许可以建立一个自然系统的模型。在这种情况下,如果你想找到它所处的某个特定状态,或者找到自然系统中某个问题的特定解决方案,就像大海捞针一样,你需要找到一种解决方案,那么我所描述的这些系统可能适合于此。我们正在研究的其他一些事情,例如,找到室温超导材料,假设它在物理学中存在,那么通过其中一种过程可能能够做到这一点。另一个例子是我们在药物研发中所做的事情,现在我们知道了蛋白质的结构,你能不能设计一种化合物,它只与蛋白质的正确部分结合,但不与身体中的其他部分结合。因为如果它与其他任何东西结合,那就像是毒性,所以你不想要那种情形出现。所以我们正在构建,在我们的子公司Isomorphic Labs里,我们正在构建更多像 Alphafold 这样的技术,可以用于药物研发的其他部分。所以我认为你可以用智能引导在巨大的解空间中搜索,来构建所有这些内容,这就是我们的基本方法。我认为我们会继续研究这个猜想,改进它,让它在未来几年内在数学上更加精确。
Nirenberg:所以你想在休学术假之前就解决这个问题?
Hassabis:哈哈,理想情况下,学术假会有所帮助。但是,也许利用我凌晨 3 点的空闲时间。
Nirenberg:我的意思是,让这个猜想如此可信的原因之一是神经网络在解决从计算复杂性的角度来看非常困难的问题方面取得了惊人的成功,是的,这种成功让你感到惊讶吗?如果没有,或者无论如何,你如何解释它?顺便能给我讲解一下什么是神经网络吗?
Hassabis:在某些方面我并不感到惊讶,因为这就是我们尝试构建这些通用学习系统,为什么会有这种可能,为什么你甚至会希望这是可能的。这就是我的神经科学背景发挥作用的地方。图灵证明了他关于图灵机的构想。狙桃们所知,通过神经科学,尽管像彭罗斯这样的人可能会不同意,但大脑中没有发生任何非经典的事情,对吧,至少没有人发现任何非经典的现象。尽管像Stuart Hammeroff和其他伟大的生物学家一直在大脑中寻找量子效应,但它们似乎并不存在。所以我最好的猜测是,我们的大脑也是经典系统,但我们似乎具有非常强大的泛化能力。我的意思是,图灵用他的头脑想出了图灵机和整个理论,所以你知道,这是一种你知道可以想象成一种图灵机的类型。但我们能够做一些令人惊奇的事情,包括科学、数学、国际象棋、围棋,发明所有这些东西,建成一个现代世界,这相当令人震惊。我们狩猎采集者的大脑,永不会停止思考,这有多么神奇。我每次乘跨大西洋飞机过来美国,就会想知道我们是如何用猴子的大脑建造这些 747 飞机的,这真是令人震惊。然后你飞过曼哈顿,你回想起 20,000 年前那里会是什么样子。然后你告诉某个狩猎采集者,说这里在会在10,000年后成为曼哈顿。基本上是同一个大脑会处理它,大脑加上文化,适应性极强。但文化是集体的产出,算是我们的集体大脑,对吧,这不是魔法。所以它相当令人震惊,我认为这也说明了我们人类思维的极端普遍性和泛化能力。所以你知道这是一个非常有趣的问题,人类大脑这样做,我们知道图灵机,如果我们可以模仿它,我不知道它们的极限是什么。我认为这是一个非常有趣的问题,图灵机实际上可以发现什么,这就是我想要发现的。
Nirenberg:如果这是一个猜想,那么可能没有极限。
Hassabis:可能没有自然极限,实际当然可能有极限,可能有人类创造的抽象,所以这并不意味着它可以描述一切数学或随机噪声或诸如此类的东西,甚至不能分解大数。因此,必须有一个模式,或者一个模型可以有效地学习,否则你就无法引导搜索,如果它是真正均匀或随机的,那么你别无选择,只能强行搜索,那么经典系统就行不通了,你需要一个量子系统,对吧,但这也是我们的量子计算同事正在研究的,因为那样你就需要一台量子计算机。
Nirenberg:你一直在谈论你构建的系统,它们是为人工智能、为科学、为特定问题的特定方法而构建的。但媒体似乎更关注大型语言模型和通用人工智能,你也在领导这类模型的研究,你能谈谈模态和多模态之间的区别、挑战和机遇吗?
Hassabis:DeepMind源于我们这个想法,我们现在仍然在继续探索。作为谷歌的DeepMind,我们想要构建通用人工智能,这就是目标。这些通用系统可以展现所有的能力人类的认知能力,这一点很重要,因为我们刚才讨论过的所有事情,这显然是唯一能产生巨大经济价值的方法。但实际上,从我的角度来看,这并不是它的有趣之处,更多的是从理论的角度。当我们知道我们将拥有一个完全通用的系统时,或者至少是一个近似的系统,如果它能做人类思维能做的事情,因为狙桃们所知,我们拥有的是广义智能,所以你知道,这就是DeepMind的主要目标,语言和关于世界的常识非常重要,所以我们把它称为构建世界模型。所以我们讨论了很多模型构建,我们从构建电脑游戏模型开始,然后我们构建了围棋模型,然后我们现在正在构建科学环境模型。但最终你想要的是一个世界模型,一个可以模拟世界上事物的模型,以及直觉物理学,如何通过你所处的空间环境来分解它,还有其他你知道的事情,你知道物体识别,所有这些事情,我们人类都能毫不费力地做到,而传统上,机器很难做到这一点,所以要建立这种预测世界模型。实际上,我的博士学位研究的是想象力部分,所以我研究了记忆和想象力,并表明想象力就像记忆一样依赖于海马体。因为我认为记忆是一个重建过程,它不是录像带记忆,它是从它的组成部分重建而来的。然后我想,如果这是真的,那么它应该依赖于相同的大脑过程,想象力也是从你已经学到的组成部分中构建事物,但以一种新颖的方式,而不是你认识到的方式,这是记忆的目的,应该使用相同的过程。所以我们的头脑中有各种各样的心理模拟和心理模型,非常复杂,包括心理理论和其他人理论,以及他们在某种情况下会做什么,这就是我们一直在做的计划。想象一下你下周要参加一个重要的商务会议或面试,你知道你会和某个重要的人共进午餐,你会在心里默默演练,比如我要说什么,我要讲什么,接下来会怎么样,你可以提前计划,使用心理模拟来提前计划,这可能就是进化的起源。因为它对生存和规划很有用,我认为就像我们希望机器一样,我们的人工智能系统也应该具备这种能力,能够在现实世界中进行引导式规划。如果你想让机器人或者我们有时称之为通用数字助理的东西发挥作用,你就需要它,所以你可以想象一个在你的日常生活中非常有用的助手,帮助你处理管理事务,并通过推荐丰富你的生活,是的,所以你可以想象它在你的手机上或眼镜上,它需要理解,要成为一个真正的好助手,它需要理解你所处的环境,理解你周围的世界,我们的 Astra 项目已经非常接近实现这一点了。甚至最近我们创建了模型,我们的主要模型集是我们目前拥有世界上最强大的 Gemini 模型,但我们也有一些副产品,比如画外音(VO),我们会进行一种视频图灵测试。如果你不是这个领域的专业人士,会觉得它很有趣,比如你能生成一段 10 秒的视频,内容是一个人在砧板上切西红柿吗?我很自豪地说,画外音做得非常好。但如果早期的视频中,西红柿会自发地重新组合起来,或者刀会从刀柄上脱落,或者穿过手指之类的,然后再重新组合起来,但现在我们的视频完美地做到了这一点。但如果你仔细想想,你是在像素级别生成图像,并且以某种方式保持切片的一致性,它们不会重新组合成西红柿,就像西红柿上的小水滴一样,刀的型和移动,如此等等。我的意思是,仅仅通过观察,它居然能理解一些关于这个世界的直觉物理学,这让我很惊讶。实际上,我十年前就说过,它需要在世界上行动,也许你需要一个机器人来真正感受物理,像我们一样做物理。就像这个杯子的上下移动,可能跌落桌面,水会洒开,玻璃会破碎,等等等等。实际上到现在我们的系统已经可以预测这一切,而且很快他们就能生成这样的图像。如果你想想正在发生的飞速进展,你会觉得这真是太神奇了。
Nirenberg:所以出于对所有这些进展的担忧,现在我要问一个问题。你今天已经讲过你在剑桥大学的经历,你总把图灵和剑桥联系在一起,但他也在普林斯顿高等研究院工作过。今天像你这样在人工智能领域工作的人主要不是在剑桥工作,也不是在像你普林斯顿高等研究院这样的地方工作,而是谷歌DeepMind,或者你们的竞争对手OpenAI,Meta等等,那么这种转变的原因是什么?它对所产生的知识的性质有什么影响?
Hassabis:我认为这种转变的原因有很多。首先我创办 DeepMind 而不是在学术界做研究的原因之一是,我从我的游戏背景和在游戏公司工作的经历中了解到,在公司的环境下,你获取资源的速度可以更快,因此你在公司里可以更快地取得进展。我曾经对我的联合创始人之一 Shane Legg说,我们当时都在伦敦大学学院作博士后研究。他一直想在学术界做这件事。但我告诉他,我们大概要到 50 岁左右,他们才会给我们任何资源来真正追求这个目标。那时我们才20多岁到30岁出头,我想我们可以把它加速10倍。所以一个原因是速度,当你是一家初创公司时,不必应对机构的官僚主义和其他事情,而大公司也已经形成自己的官僚机构,所以你必须克服这一点。但更重要的原因是,事实证明,人工智能的发展需要大量的资源,主要是强大的算力,它实际上不是数据,因为我们主要还是使用每个人都可以访问的开放网络上的数据。随着规模的扩展,它需要越来越大的算力,工程上也变得相当繁重。话虽如此,我想向学术界的同事们提出的建议是,我们之前讨论过,学术界应该专注做与此正交互补的事情。所以不要试图建造像我们这样的地方,我们花费了数十亿美元来建造机器,然后与优秀的工程师、世界级的工程师和研究人员一起构建这些Gemini基座模型,顶级的基座模型。实际上有非常好的开源模型,而且它们的价格很低,任何人都可以运行。所以你可以用这些模型非常便宜地做很多实验,但要更进一步,比如理解它们在做什么,解释它们在做什么,也许要建立基准来约束它的行为,等等。我们作为一个整体领域迫切需要这些工作。当然公司现在也在这样做这些工作,我们有非常聪明的部门和团队在做这件事,但我们也在构建模型,这是行业正在做的主要工作。所以我认为学术界和民间社团应该弄清楚接下来会发生什么,而不是追逐公司已经在做的事情。利用所有已经投入的数十亿美元的研发资金,利用它,然后进入其他领域,包括我认为这非常适合高等研究院里哲学经济学等领域的研究团队,从多学科的角度,来关注未来会发生什么,人类的状况、机制、目的、经济利益,等等。我们如何公平地分配它。还有这技术本身固有的风险,我们如何测试我们不想要的特征,例如欺骗,如果我们的人工智能系统具有这种能力,那将非常可怕,我们如何测试它,我们如何摆脱它。
我总是告诉我的一些神经科学同事,你应该把我们过去20 - 30年在神经科学、认知神经科学和系统神经科学方面取得的所有令人惊奇的成果,我们应该把他们发挥在这些人工智能上。人工智能从理论上应该能够帮助我们比现在更好地理解人类思维,因为你不仅可以问它们问题,它们还可以像我们一样用自然语言回答,但你可以同时观察它的每一个神经元。所以我认为那里有很多革命性的工作要做,可能是跨学科的,我认为这在某些方面非常适合学术环境,如果学术界这样做会更好。因为如果工业界这样做,比如进行基准测试,而我们也正在这样做,这有点像批改自己的家庭作业。我认为如果是由学术界或安全机构或一些独立机构,这对社会会更好,这实际上是在观察和分析工业界正在构建的东西。
Nirenberg:我敢打赌,学术界也可以在计算理论和复杂性理论方面可以提供很多帮助。我们这里有 Shafi Goldbuster 前几天谈到如何将密码学的对抗模型应用于人工智能的有效性测试和诸如此类的事情,所以我认为即使是对于非工程学科的小学科也有很多可能性。你最近获得了诺贝尔奖,Jennifer Doudna 之前因在基因编辑方面的突破而获得诺贝尔奖。她说你正在构建的工具不仅可以帮助我们理解生命,还可以帮助我们明智地塑造生命。我想专注于明智的部分,当你创造这些具有重塑生命力量的技术时,你如何看待风险和危险?你如何防范它们?如果你能举一两个工具的例子,那就更好了。
Hassabis:是的,我们考虑了很长时间,即使在我们开始创立 DeepMind 的时候,甚至在那之前,我们就有了这个非常雄心勃勃的使命,我们也有信心让我们的计划成功。如果你把思绪回溯到 2010 年,没有人在工业界有这样的使命和计划,没有,我们创办公司时几乎无法为此筹集任何资金。学术界几乎没有人,只有极少数学术界人士在研究这个问题,比如 Jeff Hinton,所以这真的很难,这是一个全新的东西,没有人真的认为它会成功。我记得我在麻省理工学院从事我的博士后研究时,有过很多讨论。当时我和 Tomaso Poggio 一起在神经科学大楼度过大部分时间,部分原因是我知道我不会在人工智能大楼里受到任何的欢迎。如果你仔细想想,这很有趣,因为 CSAIL可能是学术界最著名的人工智能实验室,它是人工智能的殿堂,它可能仍然是传统的人工智能逻辑方法论的殿堂,有比如 Chomsky、Patrick Winston 等等大咖。他们当中有很多人是反对学习系统和通用系统的想法,这有点像与专家系统方法相反的思考方式。但我们从那时起就一直在思考如何规划成功,比如如果我们是对的,如果我们成功了,它会像我们希望那样的影响力和冲击力,你真的可以把它应用到许多科学和医学领域,所以这些都是正面的案例。也许真有一天,我们将能够在人工智能的帮助下治愈几乎所有的疾病,我认为这是可能的。而且也可能有助于研究气候预测的天气模型,寻找新的能源,我们与核聚变合作者一起尝试使用人工智能系统来控制托卡马克装置中的等离子体,新材料的设计,等等,所有这些令人惊奇的事情。所以这些都是我认为人工智能将为社会带来的所有令人惊奇的事情。但它是一种革命性和通用性的东西,显然伴随着风险。它本质上是一种双重用途的技术,我一直担心两件大事,一是坏人,无论是个人还是流氓国家,重新利用这些原本用于良好愿望和用途的通用技术,但用于有害目的,这是可能的。其次,我的第二个大担忧是人工智能本身固有的风险,因为它变得更加自主,更具代理性。所以下一个时代将是能够更自主地完成任务的Agent,有点像我们的游戏程序,但它们是像 Alphgo 这样的Agent,但更加通用,不仅仅是玩游戏,而是能够使用世界模型等等。然后,当我们走向AGI本身时,我们如何控制这些系统,为这些系统设置正确的护栏,很好地了解它们,我们应该将它们部署到哪里,以及如何控制这些技术,所以这是两个非常大的挑战。有关技术方面的挑战,我实际上对这些挑战非常乐观。如果我们人类作为一个社会给自己足够的时间来谨慎地计划和应对,尤其当我们接近那个 AGI 的临界点时。我主张以一种协作的科学方式来应对这件事,有点像 CERN 的模型吧。但好像这不是当今世界的发展方向,所以这本身就很棘手。但我认为坏人的问题,你想做的是让好人访问这些系统,用于科学研究等等,但同时你如何限制坏人使用这种本质上是数字的技术?我认为如果没有国际合作,这将是困难的。在当今地缘政治世界面临的挑战,最终可能会变得更加困难。
Nirenberg:我最后一个问题是,我想我在介绍中提到过,这不仅仅是一个关于科学和技术的问题,我想问你,你认为我们的社会在发展这项技术时应该采取的最重要的非技术步骤是什么?
Hassabis:我读过很多关于奥本海默和曼哈顿计划的书,有很多关于这方面的好书,我们试图从中吸取教训。因为我们这些后来者也知道,同样的变革性技术,冯·诺伊曼说过,计算能力甚至可能比核能还要大,我想他很可能是对的。我认为我们需要新的机构,我实际上在瑞典的颁奖典礼上与其他一些诺贝尔奖获得者讨论过这个问题。今年获奖的经济学家,都是研究机构方面的专家,如果你建立得当,机构的力量就会增强。我对他们建议说,也许你们应该花点时间思考一下在AI世代我们需要什么样的机构。我们刚刚提到了国际CERN之类的机构,当然CERN并不是完全正确的模型。我们需要是一个新的东西,也许一个相当于国际原子能机构的机构来监控,流氓项目,危险项目,等等。然后理想情况下,你会要有某种治理机构,一个代表世界的明智委员会,某种类似技术联合国的组织。我只是这样描述,但你知道联合国本身目前似乎并没有那么有效,所以这将是一个非常棘手的问题。