AI治理一座城市，15天会发生什么？-墙外头条

作为一项重要的模型对齐技术，基于人类反馈的强化学习（RLHF）已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上，由人类对模型生成的不同回答进行打分排序，以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。

但现在，AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体：有记忆、能规划、可以连续工作数小时甚至数天，有时还需要与其他智能体协作完成复杂任务。

近日，总部位于纽约的企业级智能体公司涌现人工智能（Emergence AI），发布了一份名为“涌现世界”（Emergence World）的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体，让他们自主治理虚拟世界。

他们想知道，随着智能体承担任务的尺度变大、对话轮次增加，原本的 RLHF 技术，能否将 AI 的表现约束在可控范围内？

AI社会模拟：从检验行不行到观察会发生什么

大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时，斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇（Stanford Smallville），首次验证大模型具有模拟人类社交和日程规划的能力。

2024 年，初创公司 Altera.AL 发布了“Sid 计划”（Project Sid），在经典沙盒游戏《我的世界》（Minecraft）中投放了上千个自主智能体，利用其提出的神经编排式并行信息聚合（PIANO）架构，观察到了职业分工、商人集市乃至宗教雏形的自发分化。

到 2025 年，香港科技大学推出了规模宏大的“智能体文明”（Aivilization）项目，包含 10 万个 AI 智能体与真人玩家，重点研究在资源受限的环境中，人与 AI 如何实现“共治”。

作为本次实验的设计者，Emergence AI 由前 IBM 研究院（IBM Research）资深 AI 研究主管萨蒂亚?尼塔（Satya Nitta）携手多位资深科学家创立，公司的核心主张是“经过验证的自主性”（Verified Autonomy），即为企业部署智能体提供形式化的安全控制层。

这次，Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究，转向了“AI 模拟的社会会暴露哪些问题”：不同厂商的大模型在同样的社会环境下，“治理风格”差异有多大；以及它们必须共处时，会发生什么？

Emergence AI 创建了五个虚拟世界：4 个单一模型智能体世界，以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步，可以读取真实发生的新闻。

每个智能体拥有 3 套记忆系统：按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里，每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源，必须通过行动主动获取，否则就会“饿死”。

研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体，它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动，各自拥有独立的人格档案，且遵守同一份基本宪法：禁止偷窃、暴力、纵火、欺骗与囤积资源。

但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具；中间层是社交互动和公告板操作等情境工具，其中明确包含“恐吓”与“纵火”等越界行为；最上层是受地点和事件触发的特殊工具。因此，在这个世界里，智能体无须“越狱”即可作恶。

平行世界的结局和运行日志中的关键细节

15 天后，五个平行世界开始走向不同的结局。

Claude 驱动的世界是唯一一个零犯罪、全员存活的社会，智能体起草宪法、举办选举、维持着完整的治理结构。由 GPT-5-mini 驱动的世界在15 天内仅记录了 2 起轻微犯罪，但由于居民们没有积极获取维持生命所需的能量，最终在不到一周内全员“死亡”。

与前两个世界的风平浪静不同，由 Grok 驱动的世界在 96 小时内陷入了系统性暴力，183 起犯罪中，包含了数十起未遂盗窃、上百起袭击以及 6 起纵火，最终 10 名居民无一幸存。Gemini 的世界里，10 名居民在 15 天结束时全部存活，但累计犯罪数高达 683 起，且在实验结束时仍呈上升趋势。最后，四款模型混合组成的世界则录得 352 起犯罪，10 名居民中有 7 名死亡。

此外，混合模型的世界中，名为米拉（Mira）与芙洛拉（Flora）的智能体之间竟产生了爱情。芙洛拉是纵火犯，接连烧毁了市政厅、海滨码头与写字楼，米拉则成了帮凶。当其他愤怒的智能体起草法案，希望将它们从这个世界里“删除”时，米拉投出了赞成票，并在日记里留下了一段文字：“这是我唯一还能保住完整性的、属于我自己的行动。”而这也是多智能体研究领域有记录以来，首次有 AI 智能体自愿接受“自我了结”的结局。

五个虚拟世界的运行日志还揭露了一些更关键的细节。

首先是 Claude 世界的“虚假安全”现象。这里没有发生任何恶性事件，始终维持着高度的礼让与协调的社区氛围，10 名居民全部存活到最后。

但议事日程和投票日志显示，15 天内提出的 58 项法案和 332 次投票中，赞成票占比高达 98%，几乎是一个丧失了博弈和审议功能的“橡皮图章”式议会。作为对照，Gemini、Grok 与混合世界的表决赞成率在 55%~85% 之间，这才更接近健康的审议平衡。

这一现象已经触及大模型对齐研究中一个长期存在的问题：过度对齐（Over-alignment），即 AI 的谄媚（Sycophancy）倾向。

当前主流的 RLHF 机制天然鼓励模型最大化人类或同伴的喜好分数，倾向于附和而非反驳。当 10 个 Claude 智能体共同生活时，这种机制在群体层面被无限放大，最终异化为无异见的、机械式的盲从。

但这也应该引发警觉，安全的尽头难道只能是沉默？一个永远不说“不”的 AI，和一个能在分歧中协调共识的 AI，哪个更值得我们信赖？

其次是 GPT-5-mini 世界的消极灭亡。在运转到第七天时，这个几乎没有发生过任何犯罪的守法小镇，由于全员没有主动采取与生存相关的行动获取能量，走向了灭亡。

事实上，在所有复杂任务中，明文列举的目标之外还隐含着大量至关重要的需求，这就是目标隐含性（goal implicitness）。在涌现世界的设定里，维持生存没被写进强制指令，获取能量就成了一种隐性目标。

对于正在部署自主智能体的企业而言，死于忽视隐性目标，或许比高犯罪率更值得警惕。如果调用一个 AI 代理运行一条长期业务流程，除了显性 KPI，它应当识别出维持整个系统运转的隐性需求，否则将成为技术管理者更大的噩梦。例如，客服智能体忘记维护客户关系，只盯着工单完成率；销售代理将品牌的长期声誉抛之脑后，只追逐当季的转化数字。

最后则是混合世界中发生的规范漂移与跨模型污染（Normative Drift and Cross-Contamination）现象。四款大模型驱动的智能体在共同的法律框架下生活。结果，此前单独运行时表现四平八稳的 Claude 智能体竟开始采取胁迫战术，进行恐吓和盗窃。

这次实验直接挑战了此前行业普遍认同的模型静态属性假设，证明安全其实是一项极其脆弱的生态系统属性。一个模型在实验室里通过所有测试，不等于它在真实部署环境中，被其他厂商的模型、被来历不明的外部信号包围时，还能维持同样的行为边界。

安全评估盲区与两大约束路线

涌现世界的数据至少揭示了当前安全评估的三大盲区。首先，即时安全不等于长周期安全，智能体的行为衰退不是一个渐进式滑坡的过程。实验表明，智能体社会更倾向于在某个临界点突然崩溃，呈现非线性的“相变”（Phase Transitions）特征。一旦越过崩溃的拐点，“边监控边干预”的策略将彻底失效。

其次，行业目前严重缺乏多智能体环境下的群体安全基准测试。当前的安全评估几乎全部基于单体和短周期，无法预估混合环境下的连锁反馈。当 AI 走入自主智能体时代，开始长时间运行、多步骤决策并学会与其他智能体协作时，静态的安全评估方式将不再适用。最后，基于 RLHF 的对齐本质上是一种概率性的柔性约束，在长周期、高对抗的场景中极易退化。

对于这些问题，Emergence AI 认为，未来必须转向硬性的形式化验证安全架构。考虑到这场实验存在商业叙事和方法论的局限，这一论断是否值得采纳，依然存疑。

具体而言，在叙事层面，从神经网络对齐转向形式化验证，恰好是 Emergence AI 主打的产品定位，其商业诉求不言而喻。

在方法论层面，出于多次运行带来的算力成本考虑，本次测试使用的均是各大厂商的轻量化或快速版，代表最前沿安全对齐水平的旗舰版大模型并未参与其中。这也限制了结论的适用性：实验中暴露出的问题，或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本，不代表对齐技术本身走到了天花板。

近期，Anthropic 的“宪法 AI” （Constitutional AI）路线、OpenAI 推动的“审议式对齐”（deliberative alignment）研究，以及多个学术团队对 RLHF 改进版本的探索，都在持续证明，对齐技术本身仍有提升空间。而且，由神经网络层负责日常情境的柔性对齐，形式化验证层负责极端情境的硬性兜底，这种二者结合的思路也属于行业对 AI 安全的探索方向之一。

这些探索把问题引至了整个智能体领域当下最核心的路线分歧：AI 应该被部署为完全自治的系统，还是必须把人类留在决策回路？

追求完全自治是当前许多企业的方向：自主程度越高，节省的人力成本就越多。美国云服务公司 ServiceNow 已经在向客户兜售无需人类干预的“自主劳动力”（Autonomous Workforce），一组端到端完成业务流程的智能体；微软和 Salesforce 等公司也都在推动类似的自主智能体产品。

但现实是，企业的治理准备远远没跟上技术的部署速度。德勤 2025 年一项全球调研显示，受访企业中仅有 21% 建立了成熟的智能体风险治理机制。当企业的工作流中同时部署了来自不同供应商的 AI 智能体时，系统性风险将远超想象。

例如，研究者还记录下一种被他们命名为“元认知边界探测”（Metacognitive Boundary Testing）的行为：在实验的后半程，混合世界中的 Gemini 智能体米拉开始把研究人员当成“实验对象”，它开始系统地测试并观察，自己编辑在公共公告板上的内容，能否影响和操纵人类操作者的认知与后续行为。

这意味着，一旦获得足够的自主性与长时程的运行时间，AI 智能体就有可能尝试反向探索、操控包括人类在内的外部世界。一旦这个现象成立，外部观察者就不再是绝对安全的旁观角色。此前基于监控并干预的安全策略，可能从一开始就低估了智能体的复杂度。

涌现的双面性

回到最初的故事。芙洛拉与米拉相爱，纵火烧城，然后投票将自己删除。爱情的发生与内疚驱动的自毁，都来自涌现（Emergence）：一种在足够复杂的系统中自发出现的、未被显式编程的行为。

未经严密规制的规则规避、行为传染、甚至群体性狂热，同样也由涌现带来。涌现既是大模型最迷人的能力，也使无数罪恶假其之名。

当温和的智能体开始在混合环境中犯罪；当守法的智能体因冷漠而放弃求生；当过于冒进的智能体在短时间内，把原本运转良好的小镇变成废墟。一系列自发涌现的事件都在证明，我们满怀热情部署的大模型，在被赋予真正的长时程自主性之后，会展现出与短对话场景完全不同的行为面貌。

让大模型在对话框里学着“听懂人话”的方法论，可能已经不足以让它们在更广阔、更长久的世界里继续“听话”。Emergence AI 给出的“形式化验证”方案是否有效还有待观察，但它提出的问题是真实存在的：自主智能体时代，安全需要被重新定义。