OpenAI试图在奇点前夜，抢回人类的控制权-墙外头条

我们正生活在一个由黑匣子统治的时代。这些黑匣子被我们称为AI。

几十年来，我们与这些机器的契约很简单：我们给它们海量的数据，它们还给我们一个魔法：准确推荐下一首歌、能以99%的准确率识别猫、或写出莎士比亚十四行诗。

我们不在乎怎么做到的，我们只要它能做到。

但现在，当这个黑匣子不再是用来识别猫，而是用来诊断癌症、批准贷款或（老天保佑）控制核武器时，“怎么做到的”成了不能规避问题。

于是，一个被称为机制可解释性的AI研究领域诞生了，他们的工作就是试图搞清楚模型到底在想什么。

在这个领域中，Anthropic贡献了很多技术，比如探针，试图通过观察注意力的变化，去逆向猜测大脑的运转。但这些猜测都是模糊且多解的，因为他们不得不面对神经网络的一个本质特性，那就是叠加。

直到这个月，OpenAI出手，用一篇名为《权重稀疏的Transformer具有可解释的电路》的论文给出了拆掉这座高墙的榔头，打算从根本上解决不可解释性的问题。

01 叠加态的诅咒

叠加之所以令人头疼，是因为它让神经网络变得像一个过度拥挤的单身公寓。

在一个普通的密集神经网络里，为了节省成本（参数量），模型会让一个神经元同时打几份工。

这就像一个只有十个柜子的房间，却要塞进一千件不同的东西。当你拉开一个柜子（神经元），你会发现里面压扁了的冬衣、猫粮和一团电线塞在一起。

对于同一个神经元，当你问它“这是什么？”时，它会告诉你：如果看到“猫”，我激活 0.8；如果看到“狗”，我激活 -0.5；如果看到“引号”，我又激活 0.3。

这种一词多义的现象就是叠加。

让情况更糟糕的是，这些信息还会以复杂的方式分散在多个神经元之间。一个简单的任务（比如识别代码里的引号），其逻辑可能被撕碎，分散在几十个这种乱七八糟的神经元里，要靠着其他神经元同步激活，才能显现出来。

这也是目前的 AI 这么强的原因。它极致地压缩了信息，高效利用了每一个参数。

但也正因如此，想要看懂它的工作流，就跟拆开一团复杂的线团一样困难。

02 极简主义的经济制裁

OpenAI 的思路很直接。既然叠加是因为模型为了省钱（节省参数）而把概念混在一起，那干脆就改变经济规则，让它不去叠加了。

于是，他们设计了一个模型简化计划。从头开始训练一种权重稀疏（Weight-Sparse）的模型。在每个训练步骤后，OpenAI会直接把每个权重矩阵里除了最大的那些值之外的所有参数都清零。

这样，最极端的情况下，他们的模型只有千分之一的参数是非零的。此时，一个原本可以有一百万个连接的神经元，现在只被允许保留一千个。

这不是在限制模型能学多少知识，而是在限制它能动用多少关系。

在这种严苛的预算下，模型为了完成任务，必须精打细算。它发现，把毫不相关的概念（比如猫和引号）塞进同一个神经元变得不再划算，因为解开它们需要额外的连接，而连接极其珍贵。

于是，在这套极简主义的经济下，模型被迫学会了断舍离。训练出来的模型中，一个神经元只负责一个概念，这种解耦策略反而成了最经济的生存之道。

然而，训练出一个整洁的模型只是第一步。整个模型依然是一个有着庞大参数的迷宫。想要在迷宫里找到处理特定任务的那条红线，他们需要第二个工具，即自动剪枝（Automated Pruning）。

如果说稀疏训练是把杂乱的房间整理得井井有条，那么剪枝就是关掉灯，只让那些正在工作的电线发光。

这不是靠人工去猜，而是一个自动化过程。研究人员会为选定一个具体任务（比如数括号），然后给模型里每一个神经元都装上一个可调节的调光器（Mask）。

通过优化算法，系统会不断尝试关掉参数的灯光（均一化响应）。只要关掉这个神经元不影响任务结果，就立刻把它彻底关死。

当数百万个调光器被关闭后，黑暗中只剩下那几十个还亮着的节点。这些幸存下来的节点连接在一起，就构成了能够解释具体任务的电路（Circuit）。

所谓电路，本质上就是从那个庞大而复杂的神经网络中提取出来的、专门负责某项具体任务的最小核心子图。是模型在处理问题时，用到的所有逻辑判断的精简思维导图。

在这个稀疏中，AI 的思考路径变得惊人地干净。

当研究人员对比同样表现的稀疏模型和密集模型时，发现稀疏模型处理特定任务的电路体积，平均小了16倍。

03 读懂AI的心

有了清晰的电路，研究人员终于可以读懂 AI 的思想了。

在论文中，研究人员向我们展示了模型是如何把一个简单的认知任务（看到引号 -> 记住引号 -> 闭合引号），拆解成了一套严密的写入-检索逻辑。

这个任务，大概是模型读到了一个开头的双引号 ("，中间经过了一串字符，现在它走到了句子的尽头，需要预测下一个字符是 ") 还是 ')。

它做的第一步是标记。当模型读到开头的 (" 时，电路中的一个组件被激活。它向信息流中写入了两条信息，先用引号检测器标明这里有个引号（位置标记），再用一个类型分类器判别了一下标记的类型，确认这是个双引号（类型标记）。

第二步则是回溯。当模型处理到句子的最后一个字，准备预测结尾时，第 10 层的一个注意力头启动了。它利用了注意力机制经典的 Q-K-V（查询-键-值）结构来完成一次精准的数据库检索。回过头去寻找那个位置标记，也搜索到了前面的类型标记（双引号）。

模型拿着这个信息，立刻排除了单引号的选项，自信地输出了 ")。

模型整个行为的过程，非常符合人类的逻辑架构，用内容分离去判别，再用检索去确认。

在这些电路里，我们可以看到是清晰、可调试的代码逻辑。

研究人员甚至发现了更复杂的变量追踪电路，模型通过两层注意力机制，像接力跑一样，先把变量名存入内存，再在需要时通过变量名检索出它的类型。

04 有效性的证明

为了验证这些线路图不仅仅是好看，而是真的在工作，研究团队还做了一系列实验验证其充分性和必要性。

针对充分性，当他们把电路以外的所有神经元全部切断（设为平均值），发现模型依然能完美完成任务。

而当他们仅仅切断电路以内的那几个关键节点，模型的能力瞬间崩溃。这就说明它确实是必要的。

由此，研究者可以自信的说，他们提取出来的不仅仅是统计上的相关性，而是模型真正的思维流程。

但即使模型是真的用这个电路思考的，研究人员怎么证明他们的理解没有问题呢？

证明也很简单如果他们真的懂这个电路，他们就应该能“黑”了它。

在研究一个“计算括号嵌套深度”的电路时，他们发现模型为了省事，用了一种“取平均值”的快捷算法来估算深度。研究人员立刻意识到：既然是取平均值，那如果我把上下文拉得特别长，这个数值不就被稀释了吗？

于是，他们故意构造了一个超长的列表作为输入。结果不出所料，模型正如预测那样，在嵌套深度判断上彻底失效了。

这简直是可解释性领域的登月时刻。这就像神经科学家声称破解了视觉皮层，然后通过画一张特定的图画，精准地让你的眼睛产生了预期的幻觉。

通过精准预测模型的失败，他们反向证明了对模型原理的掌控。

现在，OpenAI的研究人员可以完全自信的说，他们已经理解了模型是怎么处理括号问题的了。

05 找到了圣杯，但还是遇到了硬件的墙

故事到这里，似乎我们已经找到了圣杯。只要把所有模型都做成稀疏的，可解释性的问题不就解决了吗？

听着挺好，结果论文在角落里藏着一个巨大的但是，就是效率。

这些权重稀疏模型，在现有的计算机上运行，效率低得令人发指。训练它们可能需要比普通模型多消耗100到1000倍的算力。

过去三十年的芯片工业，都是为了密集计算而生的。GPU之所以快，是因为并行能力强，能一次性做很多运算。

但在稀疏模型里，任何时候，只有零星几个神经元在做着计算。

当你把稀疏模型放到 GPU 上时，它那庞大的并行能力就完全失效了，只能一次算一点点。

我们为了让人类理解而设计的模型结构，恰好被我们需要它运行的硬件物理结构所排斥。

更糟糕的是，除了跑得慢，它还胖得惊人。

这样一个稀疏模型，因为其中神经元的利用很低效，因此想要达到和密集模型同样的聪明程度，你往往需要极大地增加它的总参数量。由此产生的模型体积也会大到让硬件装下很吃力。

这意味着，用这种方法训练一个稀疏版的 GPT-5根本不现实。

06 B 计划：桥接

那这一切努力都白费了吗？

OpenAI 提出了一个B计划，虽然无法用可解释性稀疏模型去取代那些高效但不可解释的密集模型，但我们可以用桥接的方式造一个区域翻译器，只翻译其中一小部分。

这一桥接的方法，就是冻结那个强大的密集模型，然后在它旁边训练一个小的稀疏模型。同时，训练一组翻译层，让它们时刻保持同步。

这样，当稀疏模型里的引号分类器亮起时，我们就能知道原来密集模型里对应的，是哪一套复杂的神经元组合了。

这个稀疏模型的桥接，就像一台连接到密集模型上的 X 光机。

虽然因为规模和效率问题，我们没法通过它翻译密集模型的全部思想。但针对我们关心的那些安全任务（比如欺骗、诱导、制造生化武器），针对性的翻译还是完全做得到的。

比如研究人员可以手动搜集一个模型进行欺骗行为的数据集。然后我们在这个数据集上训练桥接模型，强迫它去翻译GPT-5在进行欺骗时的内部计算。由此也许就能搞清楚其中到底是出了什么问题，模型为什么要撒谎。

07 不完美，但意义同样重大

虽然这篇论文没有给我们一个完全安全、可解释、超智能的AI。

但它给了我们一套工具，和一线希望。

它证明了，AI的黑匣子并非坚不可摧。只要我们施加正确的压力（稀疏性），并使用正确的手术刀（修剪算法），我们就可以强迫这个黑匣子开口，把它最深的秘密暴露在人类的理解之下。

这也许是我们在超级智能降临的前夜，唯一能为它套上的思想缰绳。它让我们不再是被动地等待黑盒里的审判，而是第一次拥有了主动。

在AI学会欺骗之前看穿谎言，在它孕育出恶意之前，将其扼杀于神经元的闪烁之中。

这可能是在这场游戏中，我们唯一能赢的方式。