人多不管用——智能体团队别盲目扩张-墙外头条

随着大语言模型（LLM）驱动的多智能体系统快速发展，越来越多的系统被用于软件工程、科学分析、网页自动化、组织协作和社会模拟等任务。但一个核心问题始终没有被系统回答：为什么有些智能体架构可以支持长链条、多步骤任务，而另一些系统在规模扩大后会失稳、低效，甚至失去协调能力？这篇综述试图回答的，正是大规模智能体系统为何能扩展、为何会失稳，以及未来该如何设计更可扩展的系统结构。

近年来，agent marketplace和agent system都在快速扩张。

一方面，智能体市场中的可用agent数量和类别不断增长；

另一方面，真实部署的agent system也从少量角色协作，逐步走向包含数十个甚至数百个agent的复杂结构。

这意味着，大规模智能体系统已经不再只是实验室中的小辨模演示，而正在进入更开放、更持续、更复杂的真实运行环境。

图1 2025年智能体市场与智能体系统增长趋势。市场中的智能体数量采用对数坐标显示，市场类别数和每个系统中的智能体数采用单独坐标轴显示，阴影区域表示估计范围。数据来源： Internet Archive（Wayback Machine）存档网页快照，包括OpenAI GPTs、AWS Marketplace和Agent.ai。

图1展示了这一趋势：无论是marketplace中的agent数量，还是system中每个任务链所涉及的agent数，都在明显增长。也正因为如此，研究者不能再只关注单个agent的能力，而必须开始回答一个更系统的问题：当agent数量、类型和交互复杂度同时上升时，系统层面的行为究竟由什么决定？

美国埃默里大学（Emory University）、英国牛津大学（University of Oxford）和澳大利亚格里菲斯大学（Griffith University）的研究人员提出了一套三维分类框架，用来统一描述大规模智能体网络。

第一维是架构拓扑（topology），即系统是中心化（centralized）还是去中心化（decentralized）；

第二维是记忆范围（memory scope），即信息存放在全局记忆（global memory）还是局部记忆（local memory）中；

第三维是更新行为（update behavior），即系统在运行中是静态（static）还是动态（dynamic）的。三者组合后，一共得到八类典型的大规模智能体网络。

论文链接：https://www.techrxiv.org/doi/full/10.36227/techrxiv.177127384.46731320/v1

为更直观地展示这套分类框架，作者将现有大规模智能体系统按照“拓扑（topology）—记忆范围（memory scope）—更新行为（update behavior）”三个维度组织成一张层级结构图。通过这张图可以看到，不同系统虽然都属于多智能体范式，但它们在中心化或去中心化、全局记忆或局部记忆、静态或动态更新上的选择并不相同。这些结构差异进一步决定了系统在协调效率、扩展性、鲁棒性和长期行为上的不同表现。

图2 大规模智能体网络的三维分类框架：基于拓扑（topology）、记忆范围（memory scope）与更新行为（update behavior）的层级组织

图2可以看作这篇综述的核心。文章强调，真正决定系统表现的，往往不是智能体数量本身，而是这三种机制如何组合。

中心化系统（centralized systems）更容易统一调度和维持一致性（consistency），适合任务流程明确的场景，但规模变大后容易出现中心瓶颈（central bottleneck）；去中心化系统（decentralized systems）更灵活，更适合研究群体涌现（emergence）行为，但也更容易出现局部失调（local miscoordination）和信息漂移（information drift）。

全局记忆（global memory）有利于共享上下文（shared context）和状态对齐（state alignment），局部记忆（local memory）更贴近真实分布式环境（distributed environment），但也更容易带来分歧。

静态系统（static systems）更容易分析和复现，动态系统（dynamic systems）则更适合复杂环境中的长期任务（long-horizon tasks）和自适应协作（adaptive collaboration）。

在此基础上，文章还进一步提出了一个很重要的判断：通信协议（communication protocol）虽然重要，但不是大规模智能体网络最深层的瓶颈。作者指出，更根本的问题是智能体之间世界模型（world model）的不一致。

即使消息传输完全正确，不同智能体也可能因为内部知识、偏好和记忆不同，而对同一句话或同一个状态做出不同解释。换句话说，传输正确，并不等于理解一致。

这种不一致会在系统中逐层放大：在认知层面，会形成信念漂移（belief drift）；在行为层面，会带来合作不稳定；在任务层面，会造成目标偏移（goal divergence）；在系统层面，则可能形成非平稳动态（non-stationary dynamics），使整个网络难以收敛。

基于这些观察，作者认为未来研究需要更关注几个方向：更明确的一致性模型（consistency model）、更强的共享状态控制（state control）、更成熟的路由与通信调度机制，以及面向开放环境的身份、安全和鲁棒性设计。

文章还指出，现有评估体系远远不够，因为多数基准仍停留在小辨模，而未来真实系统可能需要面对上千到上百万智能体！

总体来看，这篇综述的价值不只是总结已有工作，更在于给大规模智能体网络研究提供了一张结构地图。它提醒我们：未来系统要真正扩展，关键不只是增加智能体数量，而是要解决拓扑、记忆、更新机制和世界模型对齐之间的系统性问题。