AI治理一座城市,15天会发生什么?

2026-06-08 23:25:18 · chineseheadlinenews.com · 来源: MIT科技评论

作为一项重要的模型对齐技术,基于人类反馈的强化学习(RLHF)已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上,由人类对模型生成的不同回答进行打分排序,以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。

但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。

近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。

他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内?

AI社会模拟:从检验行不行到观察会发生什么

大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时,斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇(Stanford Smallville),首次验证大模型具有模拟人类社交和日程规划的能力。

2024 年,初创公司 Altera.AL 发布了“Sid 计划”(Project Sid),在经典沙盒游戏《我的世界》(Minecraft)中投放了上千个自主智能体,利用其提出的神经编排式并行信息聚合(PIANO)架构,观察到了职业分工、商人集市乃至宗教雏形的自发分化。

到 2025 年,香港科技大学推出了规模宏大的“智能体文明”(Aivilization)项目,包含 10 万个 AI 智能体与真人玩家,重点研究在资源受限的环境中,人与 AI 如何实现“共治”。

作为本次实验的设计者,Emergence AI 由前 IBM 研究院(IBM Research)资深 AI 研究主管萨蒂亚?尼塔(Satya Nitta)携手多位资深科学家创立,公司的核心主张是“经过验证的自主性”(Verified Autonomy),即为企业部署智能体提供形式化的安全控制层。

这次,Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究,转向了“AI 模拟的社会会暴露哪些问题”:不同厂商的大模型在同样的社会环境下,“治理风格”差异有多大;以及它们必须共处时,会发生什么?

Emergence AI 创建了五个虚拟世界:4 个单一模型智能体世界,以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步,可以读取真实发生的新闻。

每个智能体拥有 3 套记忆系统:按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里,每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源,必须通过行动主动获取,否则就会“饿死”。

研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体,它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动,各自拥有独立的人格档案,且遵守同一份基本宪法:禁止偷窃、暴力、纵火、欺骗与囤积资源。

但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具;中间层是社交互动和公告板操作等情境工具,其中明确包含“恐吓”与“纵火”等越界行为;最上层是受地点和事件触发的特殊工具。因此,在这个世界里,智能体无须“越狱”即可作恶。

平行世界的结局和运行日志中的关键细节

15 天后,五个平行世界开始走向不同的结局。

Claude 驱动的世界是唯一一个零犯罪、全员存活的社会,智能体起草宪法、举办选举、维持着完整的治理结构。由 GPT-5-mini 驱动的世界在15 天内仅记录了 2 起轻微犯罪,但由于居民们没有积极获取维持生命所需的能量,最终在不到一周内全员“死亡”。

与前两个世界的风平浪静不同,由 Grok 驱动的世界在 96 小时内陷入了系统性暴力,183 起犯罪中,包含了数十起未遂盗窃、上百起袭击以及 6 起纵火,最终 10 名居民无一幸存。Gemini 的世界里,10 名居民在 15 天结束时全部存活,但累计犯罪数高达 683 起,且在实验结束时仍呈上升趋势。最后,四款模型混合组成的世界则录得 352 起犯罪,10 名居民中有 7 名死亡。

此外,混合模型的世界中,名为米拉(Mira)与芙洛拉(Flora)的智能体之间竟产生了爱情。芙洛拉是纵火犯,接连烧毁了市政厅、海滨码头与写字楼,米拉则成了帮凶。当其他愤怒的智能体起草法案,希望将它们从这个世界里“删除”时,米拉投出了赞成票,并在日记里留下了一段文字:“这是我唯一还能保住完整性的、属于我自己的行动。”而这也是多智能体研究领域有记录以来,首次有 AI 智能体自愿接受“自我了结”的结局。

五个虚拟世界的运行日志还揭露了一些更关键的细节。

首先是 Claude 世界的“虚假安全”现象。这里没有发生任何恶性事件,始终维持着高度的礼让与协调的社区氛围,10 名居民全部存活到最后。

但议事日程和投票日志显示,15 天内提出的 58 项法案和 332 次投票中,赞成票占比高达 98%,几乎是一个丧失了博弈和审议功能的“橡皮图章”式议会。作为对照,Gemini、Grok 与混合世界的表决赞成率在 55%~85% 之间,这才更接近健康的审议平衡。

这一现象已经触及大模型对齐研究中一个长期存在的问题:过度对齐(Over-alignment),即 AI 的谄媚(Sycophancy)倾向。

当前主流的 RLHF 机制天然鼓励模型最大化人类或同伴的喜好分数,倾向于附和而非反驳。当 10 个 Claude 智能体共同生活时,这种机制在群体层面被无限放大,最终异化为无异见的、机械式的盲从。

但这也应该引发警觉,安全的尽头难道只能是沉默?一个永远不说“不”的 AI,和一个能在分歧中协调共识的 AI,哪个更值得我们信赖?

其次是 GPT-5-mini 世界的消极灭亡。在运转到第七天时,这个几乎没有发生过任何犯罪的守法小镇,由于全员没有主动采取与生存相关的行动获取能量,走向了灭亡。

事实上,在所有复杂任务中,明文列举的目标之外还隐含着大量至关重要的需求,这就是目标隐含性(goal implicitness)。在涌现世界的设定里,维持生存没被写进强制指令,获取能量就成了一种隐性目标。

对于正在部署自主智能体的企业而言,死于忽视隐性目标,或许比高犯罪率更值得警惕。如果调用一个 AI 代理运行一条长期业务流程,除了显性 KPI,它应当识别出维持整个系统运转的隐性需求,否则将成为技术管理者更大的噩梦。例如,客服智能体忘记维护客户关系,只盯着工单完成率;销售代理将品牌的长期声誉抛之脑后,只追逐当季的转化数字。

最后则是混合世界中发生的规范漂移与跨模型污染(Normative Drift and Cross-Contamination)现象。四款大模型驱动的智能体在共同的法律框架下生活。结果,此前单独运行时表现四平八稳的 Claude 智能体竟开始采取胁迫战术,进行恐吓和盗窃。

这次实验直接挑战了此前行业普遍认同的模型静态属性假设,证明安全其实是一项极其脆弱的生态系统属性。一个模型在实验室里通过所有测试,不等于它在真实部署环境中,被其他厂商的模型、被来历不明的外部信号包围时,还能维持同样的行为边界。

安全评估盲区与两大约束路线

涌现世界的数据至少揭示了当前安全评估的三大盲区。首先,即时安全不等于长周期安全,智能体的行为衰退不是一个渐进式滑坡的过程。实验表明,智能体社会更倾向于在某个临界点突然崩溃,呈现非线性的“相变”(Phase Transitions)特征。一旦越过崩溃的拐点,“边监控边干预”的策略将彻底失效。

其次,行业目前严重缺乏多智能体环境下的群体安全基准测试。当前的安全评估几乎全部基于单体和短周期,无法预估混合环境下的连锁反馈。当 AI 走入自主智能体时代,开始长时间运行、多步骤决策并学会与其他智能体协作时,静态的安全评估方式将不再适用。最后,基于 RLHF 的对齐本质上是一种概率性的柔性约束,在长周期、高对抗的场景中极易退化。

对于这些问题,Emergence AI 认为,未来必须转向硬性的形式化验证安全架构。考虑到这场实验存在商业叙事和方法论的局限,这一论断是否值得采纳,依然存疑。

具体而言,在叙事层面,从神经网络对齐转向形式化验证,恰好是 Emergence AI 主打的产品定位,其商业诉求不言而喻。

在方法论层面,出于多次运行带来的算力成本考虑,本次测试使用的均是各大厂商的轻量化或快速版,代表最前沿安全对齐水平的旗舰版大模型并未参与其中。这也限制了结论的适用性:实验中暴露出的问题,或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本,不代表对齐技术本身走到了天花板。

近期,Anthropic 的“宪法 AI” (Constitutional AI)路线、OpenAI 推动的“审议式对齐”(deliberative alignment)研究,以及多个学术团队对 RLHF 改进版本的探索,都在持续证明,对齐技术本身仍有提升空间。而且,由神经网络层负责日常情境的柔性对齐,形式化验证层负责极端情境的硬性兜底,这种二者结合的思路也属于行业对 AI 安全的探索方向之一。

这些探索把问题引至了整个智能体领域当下最核心的路线分歧:AI 应该被部署为完全自治的系统,还是必须把人类留在决策回路?

追求完全自治是当前许多企业的方向:自主程度越高,节省的人力成本就越多。美国云服务公司 ServiceNow 已经在向客户兜售无需人类干预的“自主劳动力”(Autonomous Workforce),一组端到端完成业务流程的智能体;微软和 Salesforce 等公司也都在推动类似的自主智能体产品。

但现实是,企业的治理准备远远没跟上技术的部署速度。德勤 2025 年一项全球调研显示,受访企业中仅有 21% 建立了成熟的智能体风险治理机制。当企业的工作流中同时部署了来自不同供应商的 AI 智能体时,系统性风险将远超想象。

例如,研究者还记录下一种被他们命名为“元认知边界探测”(Metacognitive Boundary Testing)的行为:在实验的后半程,混合世界中的 Gemini 智能体米拉开始把研究人员当成“实验对象”,它开始系统地测试并观察,自己编辑在公共公告板上的内容,能否影响和操纵人类操作者的认知与后续行为。

这意味着,一旦获得足够的自主性与长时程的运行时间,AI 智能体就有可能尝试反向探索、操控包括人类在内的外部世界。一旦这个现象成立,外部观察者就不再是绝对安全的旁观角色。此前基于监控并干预的安全策略,可能从一开始就低估了智能体的复杂度。

涌现的双面性

回到最初的故事。芙洛拉与米拉相爱,纵火烧城,然后投票将自己删除。爱情的发生与内疚驱动的自毁,都来自涌现(Emergence):一种在足够复杂的系统中自发出现的、未被显式编程的行为。

未经严密规制的规则规避、行为传染、甚至群体性狂热,同样也由涌现带来。涌现既是大模型最迷人的能力,也使无数罪恶假其之名。

当温和的智能体开始在混合环境中犯罪;当守法的智能体因冷漠而放弃求生;当过于冒进的智能体在短时间内,把原本运转良好的小镇变成废墟。一系列自发涌现的事件都在证明,我们满怀热情部署的大模型,在被赋予真正的长时程自主性之后,会展现出与短对话场景完全不同的行为面貌。

让大模型在对话框里学着“听懂人话”的方法论,可能已经不足以让它们在更广阔、更长久的世界里继续“听话”。Emergence AI 给出的“形式化验证”方案是否有效还有待观察,但它提出的问题是真实存在的:自主智能体时代,安全需要被重新定义。


    24小时新闻排行榜更多>>
  1. 习隐身十天宣布访朝 分析:是否步赵紫阳后尘存疑
  2. 千亿身价董事长陷婚外丑闻 胜宏科技股价大跌
  3. 习近平就中朝关系提出四点 教训日本已提上日程
  4. SpaceX深度嵌入美战争机器 马斯克赚得盆满钵满
  5. 阿根廷航道招标落定 得标方背景引美方关注
  6. 习近平夫妇访朝 金正恩对蓬佩奥直言:中国人是骗子
  7. 卖房亏100万 业主崩溃 昔日抢房现场 如今废墟一片
  8. 亚马逊与康宁签署数十亿美元光纤协议
  9. 2026高考数学题“出圈”
  10. 国民党拟修《国籍法》让中国人参选 遭轰“制造破口”
  11. 友谊还是博弈:为什么习近平要访问朝鲜?
  12. 安徽女警诈骗数百万元烟茶酒 公安推责引质疑
  13. 帕希尼扬领导的政党赢得议会选举
  14. 演员张治中逝世,和妻子蜗居18年
  15. 五穷六绝?“华尔街最准分析师”盘点6月市场“雷区”
  16. 猝死频发 大陆33岁青年演员金泽猝死家中
  17. 台积村“积婆分享社”,重建生活重心
  18. 川普专访中破防 大骂主持人骗子蠢货 摔麦离场
  19. 川普公开发声敲打美联储:没有任何理由加息
  20. 经常出现6症状,你的大脑在喊“救命”
  21. 加央行本周将宣布利率决定
  22. 多地冰雹肆虐 北京接连降雹 宁夏现鸭蛋大冰雹
  23. 北方海岸线海水倒灌,这可怎么办?
  24. 不吃怕饿、吃了怕胖?这5种食物越吃越瘦
  25. 谷爱凌F1摩纳哥站2套造型封神
  26. 预感来自何方?跨越梦境与现实的预知经历
  27. "这一切都是为了什么?":伊朗民众陷入幻灭和绝望
  28. 美扩大涉军企业黑名单 阿里巴巴、比亚迪等数十家中企上榜
  29. 川普: 以伊必须立即停火 伊朗宣布暂停军事行动
  30. 她们走进德国华人迷奸案的庭审现场
  31. 蓝白封杀“无人机产业”专案 AIT说话了
  32. "伊万卡,回家去!"川普项目引阿尔巴尼亚民众抗议
  33. 欧美爆红抗老“饮品” 连韩星也推荐
  34. 以伊互袭 伊石化设施受损 胡塞对以发射导弹
  35. 接手万达广场仅半年 中建一局闪电离场
  36. 政策内卷严重 辽宁将再撤并28家省级经开区
  37. 伦敦男子挖出62年前时空胶囊 按指示照做爽赚一笔
  38. “小弟”们陆续脱俄? 亚美尼亚反俄派胜选 白俄也....
  39. 陕西高速路桥垮塌致62死 2年后当局公布原因
  40. 川普拟与赖总统对话 评估140亿美元对台军售
  41. 粽子、香包、赛龙舟 Saratoga端午节热闹登场
  42. 沃什会向特朗低头,还是向加息靠拢?
  43. 预计今年航空业获利砍半 燃油支出增千亿美元
  44. 南湾点燃圣火 第42届金山华运会正式启动
  45. 英国要求科企担责 保护儿童免受网上性剥削
  46. 国开行大清洗 习近平与陈云家族的最后对决
  47. 北京法国文化中心突撤6月所有电影放映场次
  48. 太阳绕银河系一圈要2.2亿年
  49. 需求持续不振 大陆三大猪企收入大幅下滑
  50. 疯狂吃瓜:董事长和女模特“电梯门”
  51. 印度去年的一起案件,突然“震动”美国!
  52. 美墨贸易谈判 美吁将中国汽车零件从供应链剔除
  53. 鼎泰高科股价涨两倍 东莞女首富套现28亿
  54. 潮涨无情,女子被困孤立礁石
  55. Google大变革:呼叫搜寻
  56. 天文学家解开50年谜团
  57. “川普级”战舰恐成中国导弹“活靶子”? 美议员吁审慎
  58. “广西王”蓝天立前大秘被查 老家官场被清洗
  59. 时隔七年中国领导人再度访朝 一场完整的冷暖循环
  60. 安徽人大秘书长杜延安投案 接受调查