强化学习——从奖励一只鸽子说起
2025-08-20 04:25:14 · chineseheadlinenews.com · 来源: 麻省理工科技评论
1943 年,当世界上最顶尖的物理学家们在为“曼哈顿计划”(Manhattan Project)分裂原子时,美国心理学家 B.F. 斯金纳(B.F. Skinner)也领导着他自己的秘密政府项目,旨在赢得第二次世界大战。
图丨心理学家 B.F.斯金纳曾尝试通过训练鸽子来引导导弹,以提高其精确度(来源:B.F.斯金纳基金会)
军方最终没有部署斯金纳的“神风特攻队”鸽子,但这些实验使他相信,鸽子是研究学习过程基本原理的“一种极其可靠的工具”。“我们使用鸽子,不是因为它是一种聪明的鸟,而是因为它是一种实用的鸟,可以被改造成一部机器,”他在 1944 年说道。
当萨顿开始从事人工智能研究时,他感觉自己有个“秘密武器”。他告诉我,他本科时学过心理学。“我当时正在挖掘关于动物的心理学文献,”他说。
图丨斯金纳最初用乌鸦开展导弹研究,后因这种聪慧的黑色鸟类难以驯服而改用鸽子(来源:B.F.斯金纳基金会)
斯金纳认为,甚至人类语言也是通过操作性条件反射发展的,儿童通过强化来学习词语的意义。但他 1957 年关于该主题的著作《言语行为》(Verbal Behavior)遭到了诺姆·乔姆斯基(Noam Chomsky)的猛烈批评,此后心理学的焦点开始从可观察的行为转向人类心智固有的“认知”能力,如逻辑和符号思维。生物学家们也很快反抗行为主义,他们攻击心理学家试图用一种基本且普适的机制来解释动物行为多样性的做法。他们认为,每个物种都演化出了适应其栖息地和生活方式的特定行为,并且大多数行为是遗传的,而非后天习得的。
然而,关于鸽子的研究暗示了另一条路径。1964 年的一项研究表明,鸽子可以学会区分包含人物的照片和不包含人物的照片。研究人员只是向鸟儿展示一系列图像,当它们啄食一张有人出现的图像时,就用一颗食物丸作为奖励。它们起初是随机啄食,但很快就学会了识别正确的图像,包括那些人物被部分遮挡的照片。这个结果表明,你不需要规则来分类物体;仅通过联想学习,就有可能学习概念和使用类别。
图丨在另一项斯金纳的实验中,一只鸽子在正确地将彩色光线与相应的彩色面板匹配后获得食物。(来源:GETTY IMAGES)
结合了人类输入和强化学习的程序在国际象棋和雅达利(Atari)游戏中击败了人类专家。随后,在 2017 年,谷歌 DeepMind 的工程师们完全通过强化学习构建了 AI 程序 AlphaGo Zero。他们为它赢的每一盘围棋比赛设定 +1 的数值奖励,输的每一盘则为 -1。这个程序被设定为寻求最大化奖励,它在没有任何围棋知识的情况下开始,但在 40 天内不断改进,最终达到了其创造者所称的“超人”表现。它不仅能击败世界上最优秀的围棋人类选手——这场比赛被认为比国际象棋更为复杂——而且实际上开创了职业棋手现在使用的新策略。
在一项实验中,沃瑟曼训练鸽子成功完成了一项复杂的分类任务,而几名本科生却失败了。学生们徒劳地试图找到一个规则来帮助他们分类那些带有不同宽度和倾斜度平行黑线的圆盘;而鸽子们只是通过练习和联想,形成了一种感觉,判断任何给定的圆盘属于哪个组。
和萨顿一样,沃瑟曼也是在斯金纳的理论失宠时对行为主义心理学产生了兴趣。但他没有转向计算机科学,而是坚持研究鸽子。“鸽子生死都依赖于这些非常基础的学习规则,”沃瑟曼最近告诉我,“但这些规则已经足够强大,让它们在物体识别方面取得了巨大的成功。”在他最著名的实验中,沃瑟曼训练鸽子在医学扫描中检测癌变组织和心脏病症状,其准确度堪比办公桌后挂着镶框文凭的资深医生。鉴于他的研究结果,沃瑟曼觉得奇怪的是,如此多的心理学家和行为生态学家将联想学习视为一种粗糙、机械的机制,无法产生像猿、大象、海豚、鹦鹉和乌鸦等聪明动物的智能。
在 AI 开始在复杂游戏中战胜人类专家之后,其他研究人员也开始重新思考联想学习在动物行为中的作用。“随着本质上建立在联想过程之上的人工智能取得进展,联想学习被认为过于简单且不足以产生生物智能,这变得越来越讽刺,”斯德哥尔摩大学的生物学家林德在 2023 年写道。他经常在他的生物学研究中引用萨顿和巴托的计算机科学,并且他相信,真正将人类置于其自身认知类别的是人类的符号语言和累积文化。
行为生态学家通常提出认知机制,如心理理论(theory of mind,即把精神状态归因于他人的能力),来解释像社会学习和工具使用这样非凡的动物行为。但林德建立了模型,表明这些灵活的行为可能是通过联想学习发展而来的,这表明可能根本无需援引认知机制。如果动物学会将一种行为与奖励联系起来,那么该行为本身就会逐渐趋近于奖励的价值。然后,一个新的行为可以与第一个行为相关联,从而让动物学习最终导致奖励的一系列行为链。在林德看来,展示黑猩猩和渡鸦自我控制和规划能力的研究,很可能描述的是通过经验获得的行为,而非心灵的内在机制。
关心动物权益的人可能会对行为主义理论的复兴感到不安。“认知革命”打破了几个世纪以来强调人类至上、将其他生物视为刺激-反应机器的西方思维传统。但主张动物通过联想学习,与主张它们头脑简单并非一回事。像林德和沃瑟曼这样的科学家并不否认本能和情感等内在力量也会影响动物行为。萨顿也相信,动物通过经验建立世界模型,并用它们来规划行动。他们的观点不是说智能动物是空洞的,而是说联想学习是一种比许多同行所认为的更强大——实际上是“认知性”的——机制。最近批评关于乌鸦和统计推断研究的心理学家们并没有得出鸟类愚蠢的结论。相反,他们认为“一个强化学习模型可以产生复杂、灵活的行为。”
很难想象 AI 能在这项特定任务上与鸽子匹敌——这提醒我们,尽管 AI 和动物共享联想机制,但生命远不止于行为与学习。
一只鸽子理应被视为一个生命体而受到伦理关怀,不是因为它如何学习,而是因为它有何感受。
鸽子能够体验痛苦和苦难,而 AI 聊天机器人则不能——即使一些大型语言模型,因其训练语料库包含了对人类苦难的描述和关于有感知能力的计算机的科幻故事,能够欺骗人们相信它们可以。
“近年来对 AI 研究的密集公共和私人投资,催生了迫使我们直面 AI 感知问题的技术,”两位科学哲学家在 2023 年于《永世》(Aeon)杂志上写道。
“要回答这些当前的问题,我们需要在动物认知和行为研究上投入同等程度的资源。”事实上,由于 AI 的出现,比较心理学家和动物研究人员长期以来努力解决的问题突然变得紧迫起来:我们如何将感知能力赋予其他生物?我们如何区分真实的感知和一场令人信服的感知表演?
这样的努力不仅会带来关于技术和动物的知识,也会带来关于我们自身的知识。大多数心理学家可能不会像萨顿那样,认为奖励足以解释绝大多数甚至所有的人类行为,但没有人会否认人们也常常通过联想来学习。事实上,沃瑟曼最近开展的那个带条纹圆盘的实验中,大多数本科生最终也成功了,
但前提是他们放弃了寻找规则。他们像鸽子一样,求助于联想,事后也无法轻易解释他们学到了什么。只是通过足够的练习,他们开始对类别有了感觉。
这是关于联想学习的另一个讽刺之处:
长期以来被认为是最复杂智能形式的——一种像基于规则学习的认知能力——或许造就了我们的人性,但我们也用它来完成最简单的任务,比如按颜色或大小对物体进行分类。与此同时,一些最精妙的人类学习展示——比如侍酒师学会品尝不同葡萄之间的差异——不是通过规则,而是只能通过经验习得。
通过经验学习依赖于我们与鸽子以及从蜜蜂到鱼类的无数其他生物所共有的古老联想机制。实验室里的鸽子不仅存在于我们的计算机中,也存在于我们的大脑中——它正是人类某些最惊人成就背后的驱动力。