北大AI研究颠覆认知：我们看到的不是真实-墙外头条

当我们看到一只猫时，除了注意到它的外形和颜色，脑海里可能还会浮现出“猫”这个词、出现的语境、联想到它爱吃肉和喵喵叫等特性。这个看似自然又轻松的过程，其实背后，是大脑视觉等感知系统与语言系统之间正在进行的一场斑速、无声的对话。

近日，北京大学朱毅鑫教授课题组、北京大学毕彦超教授课题组和山西医科大学第一医院王效春团队通过结合 AI 模型和大脑损伤患者的数据，发现语言其实是一副无形的智能眼镜，时刻在悄悄修饰着我们看到的世界。我们可能以为视觉就是眼睛看到什么就是什么，但是这项成果说明了视觉从来都不是孤立的。事实上，当我们在看图片的时候，其实不只是在看，而是在进行被语言调制过的看。

朱毅鑫告诉 DeepTech：“这项工作的独特之处在于结合了三类方法：一是脑成像技术，让我们能够观测正常人的大脑活动；二是脑损伤病人研究，提供了因果推断的可能；三是 AI 模型帮助我们解释观察到的现象。

这是第一次将这三个学科视角融合在一起，为一个经典争议提供了实证依据。过去大家多是写论文辩论，而现在我们有了数据、模型和病人证据，这是一个范式上的进步。”

毕彦超补充称：“我们最近牵头了一项国家重点研发项目，希望在此基础上开展更大规模的研究，结合更丰富的行为学数据，不仅限于特定任务。”

图 | 从左到右：朱毅鑫、毕彦超、王晓莎、陈昊扬（来源：受访者）

AI 是否拥有人脑某些关键特征？

据了解，语言至少可以通过两种方式来参与视觉加工：第一种是贴标签，当我们知道某个物体叫做苹果的时候，这个词汇会帮助我们快速地归类，并针对苹果和梨做出区分；第二种是编织关系网，一些句子级别的描述比如蚂蚁搬着面包屑会把物体放入情境和关系之中，这种关系网络也会影响视觉皮层对于图像的处理。

这项成果证明了人类的视觉不是被动的摄像，而是主动的、与语言系统实时互动的构建过程。我们看到的，不仅是光线和形状，还有大脑使用语言和经验润色之后的理解。这也解释了为什么不同语言文化背景的人对于颜色、空间的感知可能略有不同。

目前的 AI 依然强大，但依然是一个黑箱，我们很难理解它们内部的决策过程，而这次成果提供了一种新思路：通过比较 AI 与大脑的响应模式，并借助脑损伤患者的自然实验，即可判断一个 AI 是否真的具备了人脑的某些关键特征。未来，我们或许能够设计出更像人脑的 AI，它们不仅能看能说，还能像人一样使用语言来思考所看见的世界。

同时，此次成果还可以促进脑损伤患者的康复，即理解语言与视觉的交互机制，也有助于为中风患者或者脑损伤患者设计更加有效的认知康复方案。

如果我们知道哪些连接影响了患者的视觉理解，就可以有针对性地进行训练，帮助他们重建大脑内部的对话。

而未来的教育、设计和人机交互等领域，也可以从本次成果中获得受益。如果知道语言是如何塑造视觉的，那么就可以设计更加符合大脑处理习惯的信息呈现方式，比如在教育中使用图文并茂且语境丰富的材料，以此来促进更深层次的理解与记忆。

人类所谓的看见，从来都不是孤独的感官体验，实际上是一场大脑多部门联手的大合唱，这能为人类对于大脑的认知带来的新见解，也为开发更加接近人脑的智能机器提供了关键线索。

（来源：https://www.nature.com/articles/s41562-025-02357-5）

朱毅鑫说道：“从 AI 角度看，这项研究为我们提供了一种与脑科学结合的新思路。以前很多跨学科合作停留在数据层面，AI 充当数据分析工具。这次则是让 AI 模型进入循环，与人脑实验相互反馈，共同解构一个科学问题。”

毕彦超则表示：“从基础科研角度，我们一直希望把机制搞清楚，从而更好地服务应用。如果语言对认知的影响比我们想象的更深，那么我们可以通过语言更有效地进行教育、促进智能发展，甚至干预情绪障碍。

此外，与临床团队的合作让我们看到，脑损伤后除了运动障碍，认知障碍比如理解困难和语言障碍同样会严重影响患者生活。理解语言与感知的关系，可能为认知障碍的诊断与康复提供新思路。”

用 AI 解析人脑，再用人脑实验验证 AI

研究中，本次团队使用了 OpenAI 此前打造的 CLIP 模型，这是一种基于对比学习的多模态预训练模型，可以将图像与文本语义进行对齐。它和我们熟悉的图像识别 AI 有所不同，它不仅学习识别图片中的物体比如猫和狗，还同时学习与这些图片配对的文字描述，也就是说 CLIP 是在图文并茂的环境中训练出来的。

研究中，本次团队将 CLIP 和 ResNet 以及 MoCo 这两种模型进行的对比。ResNet 是一个只能学习给图片打标签比如猫或者狗的模型，是一个传统的图像分类模型；MoCo 是一个可以完全自学的模型，只需通过比较图片之间的相似度即可完成学习，无需文字描述的帮助。

他们让这几款模型去猜测人类大脑视觉皮层在看到图片时的活动模式。

结果发现，与另外两种模型相比，引入句子描述的 CLIP 模型能额外解释人脑视觉区域的神经响应。这种优势在左脑更加明显，而左脑正是人类语言功能的主要区域。这意味着，像 CLIP 这样融合了语言训练的 AI，其内部处理信息的方式可能更加接近人脑，人脑在观看东西的时候并非单纯地照相，而是同步调用了语言知识和经验来理解视觉信息。

毕彦超表示，一般人很难理解自己的思维是如何工作的，因为我们接收的信息混杂，主观感受不一定可靠。通过脑成像技术，学界过去二三十年可以直接观测大脑；通过脑损伤病人，本次团队则可以看系统一部分损坏后，其余功能是如何变化的；再借助像 CLIP 这样的视觉-语言模型则可以剥离哪些是纯视觉处理，哪些受到语言影响。这就形成了一个科学闭环：用 AI 解析人脑，再用人脑实验验证 AI。

（来源：https://www.nature.com/articles/s41562-025-02357-5）

语言确实会影响视觉理解

朱毅鑫表示，关于语言与其他认知能力比如思维、视觉之间的关系。传统上分为两派：一派认为语言与视觉等认知功能完全独立，语言可能是后期发展的，与思维并不耦合；另一派认为二者紧密相关。

2025 年，《Nature》的一篇综述代表了当前的主流共识：语言更多只是交流工具，而非影响我们如何看世界与思考问题的关键因素。我们的研究表明，这一认识可能需要被重新审视：语言可能正在影响我们的视觉理解。你如何看待事物、大脑如何处理视觉信息，实际上受到语言的调节。

而本次研究则提供了相反的证据，证明语言确实会影响视觉理解，你如何看待事物、大脑如何处理视觉信息，实际上受到语言的调节。

毕彦超则表示，从心理学研究者的视角来看，人们一直关注这样一个本质问题：思维究竟受什么影响？语言是否影响思维？这既是心理学、哲学的核心问题，也具有广泛的实际意义。如果语言深刻影响思维，那么我们如何更好地运用语言来促进思维发展？如何设计更智能的模型？这个问题的争议很大，有人认为语言只是交流工具，有人则认为语言塑造了一切认知。

（来源：https://www.nature.com/articles/s41562-025-02357-5）

本次团队的优势在于，可以通过实证方式即观察大脑活动、结合行为实验来回答这个问题，而不只是停留在思辨层面。谈及研究过程，毕彦超回忆称：“本次课题也是我和朱老师都关注基本科学问题，且持开放态度。”

具体背景是：山西医科大学的一位医生此前在毕彦超这里读博，他们一直认为脑损伤病人是研究人脑机制的重要手段。但要深入剥离语言与视觉在神经层面的交互，传统方法受限。“我和朱老师一直保持交流，都意识到需要新方法。合作持续了三年多，中间也有过分析困难、数据复杂的阶段，但通过耐心磨合，最终取得了突破。”毕彦超表示。

问到通过这次合作给自己带来了怎样的启发，朱毅鑫表示首先要纠正一个误区：AI 与心理学并非无关。AI 的核心算法比如反向传播、强化学习大多源于认知科学领域的研究。AI 的初衷是模仿人类智能。“这次合作再次提示我们，AI 与心理学本质同源，应更紧密地结合。对于领域来说，这是一个重要的观念冲击。”他表示。

毕彦超补充称，AI 对心理学不仅是工具，更是帮助我们外化、厘清人类认知机制的方式。心理学研究大脑如何产生心理过程，这本身就是一个计算过程。以前两个学科关注点不同，科学语言也不同，现在时机成熟，应该更深入融合。这实际上是一种逆向工程人脑的过程，最终希望能制造出更接近人类智能的模型。

（来源：https://www.nature.com/articles/s41562-025-02357-5）

谈及未来计划，毕彦超表示其和合作者计划将这一框架拓展，系统研究语言在人类发展、智能成长过程中如何与视觉、运动系统交互。

最终目标是理解人脑多模态整合的机制，并将其应用于机器人系统，实现真正意义上的具身智能。

目前机器人运动笨拙，大模型无法与之有效结合，而人脑的语言-运动交互是无缝的。其希望揭示这种交互机制，推动机器人智能的发展。

朱毅鑫则指出，从 AI 角度看，当前多模态研究缺乏机制理解，单纯堆数据难以实现突破。人脑能够从小样本中快速学习，语言提供的抽象概念可能是关键。因此，他希望能够探索人脑如何利用语言实现高效学习，并将这一机制用于 AI 训练范式，实现小样本下的复杂概念学习。