AI时代当老板:让一群Agent互相PUA

2026-05-14 16:25:20 · chineseheadlinenews.com · 来源: 量子位

终于,不用一直对AI说“继续”了……

刚刚,MiniMax推出了新Agent。

Mavis,MiniMax as a Jarvis。

有意思的名字。

想了解一下,但有点懒,不太想看技术blog。

正好最近不是流行用AI做HTML吗,我就给它丢了这么一个任务:

基于Mavis的blog,做一个能放进文章展示的HTML专题页。

对,就这么一句话,没咋认真想prompt。

然后趁它在思考,我去午睡了。想着睡醒再给feedback。

结果我起来,打开一看,发现它竟然回了一句:

完成了。

不是??

从收到Prompt到交付,完全没停,一口气跑了整整28分钟。

真就交付的HTML,图文并茂能交互的那种。

不过,我一瞟侧边栏,不对劲。

怎么冒出来这么多对话框??

我记得我就开了一个啊???

点进去看才发现,原来这都是Mavis自己组的团队。它们一直在内部交流、开会、分配任务……

说真的,这一下,终于体会到了当老板的感觉。

使唤人太爽了。更别说使唤这么多人,还可以让Mavis唱红脸,帮我PUA。

(bushi)

这是MiniMax全新的Agent产品。

严谨点说,是一群Agent。

一群Agent帮我做了个HTML专题页

说实话,我自己都觉得最开始给的这个prompt,有点“不负责任”。

只给了一个目标,没有给每一步的具体指令。

如果按照正常的习惯,我一般会跟AI反复沟通很多次,精研细琢,最后让它生成一份完整的Plan。

但出乎意料的是,这次真就One Take,啥额外的指示都没有给,最后就拿到结果了。

我去看了看博客,发现其中的秘诀在于Agent Team。

啥是Agent Team?

其实就是团队分工,Mavis这有三个角色:Leader负责统筹全局,Worker负责具体执行,Verifier负责验收质量。

比如这个叫Mavis的,就是Leader,它是我的第一话事人,会指挥其他Agent干活。

没想到啊没想到,硅基生物也玩起“上下级”这一套了。

这样最大的一个好处就是,用户只需要“会跟负责人说话”,不需要是提示词工程师。

中间的拆解、分工、迭代,全部交给Agent Team自己搞定。

首先是Leader收到任务,然后做任务拆解,把一个大目标拆成若干子任务。

接着,每个子任务分配给不同角色的Agent牛马。

我这个任务用到了3个Worker。

一个负责内容创作,一个负责设计,一个程序员负责生成HTML。

中间呢,还会有个叫Verifier的介入验收。

从事实准确性、页面可读性、代码可运行性……这几个角度入手监督,并最终生成验收报告。

下面就是验收时间!

带大家简单看看,我的Mavis最终做出来的HTML专题页。

仔细看,竟然还是星尘背景的,有粒子动效。

Mavis自己开盒自己的工作流,以这种step时间线的方式呈现,中间这条线还是脉冲的。

还有个使用场景界面,真帮我大忙了,如果用文字方式呈现的话,不知道得写多长。

大家自己看吧,哪些任务适合Agent Team做。

甚至在最后,又贴心准备了下载链接,自己宣传自己这一块。

说实话,如果单Agent来做这件事,我大概要说十几次“继续”,还得在过程中反复纠错。

但现在这些全被Agent Team内部消化了。

效果好是一方面,另一方面,看它们自己叽里咕噜工作还挺有意思。

像角色扮演一样,相当有情绪价值了。

主要让我的Leader,PUA其他Agent,真有点爽。

你是一个高级前端开发。今天早上你交付了一个index-v2.html,现在被老板骂得狗血淋头。

原话:这个什么破页面?做完你自己照着截个图看看,好意思说是科技公司产品专题页?配色暗沉得像上世纪的财务软件,动画只有一个脉冲点在那里……

(ps:这不是我的原话啊!污蔑,明明是它自己想的!!)

最后回到大家最关心的问题——

价格咋样啊?

毕竟听到多Agent工作流,第一反应肯定是:这得多贵?Token无限流咱可遭不住啊。

当然了,多Agent肯定比单Agent的Token消耗大。

这没办法,就跟用HTML替代Markdown一样,好的体验就是要付费的,也正常。

但我觉得,最关键的,还是在于实际效果如何。

如果效果好,能节省时间,也赚了。

而且MiniMax这次也挺实在。

TokenPlan和Agent Plan,合并了。

一份订阅,CLI、API、Agent全打通,M2.7、音乐、视频、语音所有模型都包含在内。

Credits额度在Agent和API之间共享,一份钱干两份事。

之前同时订阅了两个Plan的用户,额外赠送一个月会员。

为什么一个AI不够用了?

之所以这么兴奋,是因为这真是困扰我许久的使用痛点。

如果你也是一名vibe coding爱好者,你一定经历过这三个崩溃瞬间——

△图为AI生成

崩溃一:Agent总偷懒。

你让AI写一篇报告,它写了3段就停下来——

我已经完成了1/2/3,需要继续吗?

像听不懂话一样!!

你说继续,它又停。再说继续,又停。

一个晚上下来,你有一半时间在打“继续”“继续”“继续”……

崩溃二:长任务越跑越笨。

一开始它像个聪明助手,跑着跑着,变成了你在带一个很忙但容易分心的人。

你得不断追问——刚才那条要求还记得吗?你为什么又把研究任务写成产品营销了?

崩溃三:冷暴力……

在微信/飞书里给AI发消息,要么30秒丢一个浅答案,要么你盯着对话框等10分钟没任何反馈。

不是,你咋不回我了,干到哪了啊??

这是我经常在IM跟小龙虾发的高频词。

这三个场景,应该所有重度AI用户都经历过。

所以,长程任务到底难在哪?

这次MiniMax在技术博客中,也给出了答案。

△图为AI生成

简单来说,这就是单Agent出生就带着的“魔咒”。

主要还是上下文的问题。

首先,单Agent有上下文焦虑。

这其实是个很深层的话题。对于超长任务的训练本身需要投入大量的金钱、时间成本和算法优化,大家没那么多资源向这块倾斜。

这就导致,模型对于“超长任务什么时候该停”的判断,普遍是模糊的。

它不知道一个任务什么时候算“做完”,所以一直怕做错,怕给Token干崩了,干一半就停下问。

这就像让一个很谨慎的实习生做事,每完成一步都要请示一下。

关键是,即便说像不要钱一样,疯狂灌上下文,效果也并不好。

这在目前是无解的。

底层注意力的问题,随着上下文越来越长,Agent会从一个聪明助手变成了一个容易走神的人。

只能随时压缩上下文。

但这肯定会丢掉一些信息,而且很容易让用户焦虑。

更麻烦的是,单Agent很难形成自我制衡。

它可能很真诚地自检,但检查的仍然是自己刚刚构造出来的东西。

毕竟,又当选手又当裁判,做得对不对确实很难评判。

最后的最后,还有一个很现实的问题——

单Agent没法快速响应长程任务。

你甚至就没法跟它做长程的事。因为它一旦干起活来,不太好通过IM跟它交流。

长任务和当前对话绑在同一个上下文里,如果放任新消息进来,容易干扰原来的任务。

但如果不引导,又只能干等着。

这就很尴尬。

归根结底,这些不是模型能力问题。

是架构问题。

所以回到Mavis,它们的Agent Team其实就是冲着这个架构来的。

思路很直接:一个主Agent牵头,Leader、Worker、Verifier三类角色分工合作。

这里有一个关键的设计——Worker和Verifier之间是对抗关系。

Worker停止的条件是Verifier启动的原因,Verifier停止的条件是尽可能发现Worker的问题,而发现的问题又成为Worker重新启动的原因。

类似企业里研发和质量部门的关系,通过多轮对抗式迭代,交付高质量的结果。

不需要CEO(也就是你)事无巨细地介入。

而这个底层,是一个状态机,叫做Team Engine。

什么时候该验证、什么时候该重试、什么时候该停止……都是引擎层面的硬性约束,不靠模型自由发挥。

这样,协作关系也不再被限制为一次函数调用,而是变成主动推送、按需查询的多轮交互。

最后,再说一个我觉得很酷的设计:

Agent与人类同权。

用户可以对Agent进行prompt、spawn、abort、kill这些操作,Agent自己也有能力对另一个Agent做同样的事情。

真正操作Agent的渠道可以是用户、其他Agent或Team Engine。

走的是同一套协议。谁做了什么、有没有越权,都可以审计追溯。

当然,涉及到高风险的节点,还是得human in the loop。

那把这些事情做完后,能实现什么效果?

就是彻底解决掉上面提到的三个崩溃。

1、不再停下来问你。

Leader统筹全局目标,Worker只管执行子任务,停止条件由Team Engine控制,不再是模型自己模糊地判断“够了吗”。

2、不再越跑越笨。

每个Worker上下文隔离,查资料的不会被写代码的信息污染。Verifier用独立视角审查,不是自己检查自己。

3、IM再不会不回消息。

(ps:记得要先给权限)

主Agent先秒回确认收到,具体任务拆到后台并行执行,关键节点主动汇报。

你甚至可以中途加需求:

我刚想到一个新方向,巴拉巴拉……你顺便帮我查一下。

主Agent可以马上回:

好的,我现在再开启一组Agent研究,有新的进展随时汇报。

顺便和你交代一下,已经在执行的任务中完成了2/5,剩下的有2个在核查,还有1个在跑。

说真的,这个体验,太省心了……

像极了一个飞书时刻在线的同事,完全不需要加急。

多Agent时代,需要管理

以前我们总在琢磨怎么把一个Agent“养”成超人。希望它更聪明、更全能,什么都能干。

但有时候我也会想,Agent的能力或许天生就是有限的,AI从来没有电影里那么全知全能。

既然如此,其实也不该给单个Agent太大的压力。

这也是Mavis这次给我的最大感触。

除了模型本身的升级,Agent架构的更新,其实也能带来巨大的体验提升。

而且把目光放回眼前,比起一个遥不可及的AGI,我们的确更迫切地需要适配于实际应用场景的Harness。

但这也意味着,人机交互另一方的我们,也得相应地改变自己的工作习惯和思考方式。

你现在不是在跟一个AI聊天。

你在管理一个团队。

多Agent时代,每个人都要学着去担任那个更高的角色。

MiniMax的设计也指向这个方向。

在他们的设想里,后续Agent产品会让人类更多通过管理面板去配置Agent角色、能力和边界,分配任务。

此时真正重要的能力,就不止是单纯地写提示词了。

△图为AI生成

最后,咱还是现实点,说回“经济性”。

在算力不够用的当下,每个Token都有实实在在的价格标签,token消耗和效果是个无法规避的trade off。

其实,MiniMax在blog里也有一段专门讲这件事——

他们没有回避多Agent“贵”。

交接要成本,共享要成本,聚合也要成本……当然。

但问题是,研究Agent收来几十个网页,交接给写作Agent的时候,信息需要被重新组织——

很难。

这些不是“模型再大一点”就能解决的。

有些事情,就是得上多Agent才能解决的。

所以,MiniMax的思路一直是实用优先。

正视成本,不代表就要因噎废食,而是要通过工程框架来把控ROI。

Team Engine就是这个作用:判断什么时候需要Agent Team、什么时候单Agent就够了。

有一篇论文,叫Cost of Consensus。

其中有一个反直觉发现:在特定模型和同质debate设置下,多Agent的token消耗可能达到单Agent自我修正的2.1到3.4倍。

而准确率,却没有提升。

没有结构、没有验证、没有停止条件的“多Agent”,就是在浪费Token。

那不叫团队合作,那叫AI聊天室。

Team,从来不是默认选项。

对于简单任务而言,单Agent绰绰有余。

甚至有些时候脚本就够了。

不是所有事都要开会。

但当你真的需要开会的时候,有一个靠谱的团队,肯定比一个人闭门造车强。

对了。

MiniMax说会开源这个Agent Team,预计会和MiniMax M3一起放出来。


    24小时新闻排行榜更多>>
  1. 印度禁止糖出口,全球市场暴应预期收紧
  2. 现场图集:川普与习近平举行峰会
  3. 习近平同川普参观天坛
  4. POET斩获5000万美元采购合同
  5. 川习会2小时结束!川普赞很棒,但拒答是否谈台湾
  6. 北京街头 福克斯主持人亲见中共监控:到处都是摄像头
  7. 川普访华,中国年轻一代的“美国梦”在褪色吗?
  8. 一个被两个老外拐跑的出租车司机
  9. 韩国股市暴涨,散户疯狂涌入
  10. 红毯,会谈,台湾,黄仁勋:川普重返北京的几大关键
  11. 【翻墙必看】川普访华 北京如临大敌
  12. 差24岁姐弟恋崩坏?马克龙"暧昧伊朗女星简讯曝光"
  13. 卢比奥送中共“见面大礼” 习近平无奈收下“马杜罗被捕装”
  14. "文化大革命"60周年:从几大关键词看十年文化浩劫
  15. 美参议院一票之差否决,川普"保住"对伊开战权
  16. 00后涌入景区当NPC,在情绪价值里淘金
  17. 多位专家分析川习会看点:北京色厉内荏
  18. 美国会通过决议 吁川普促中共释放政治犯
  19. 2028中国将分裂重组 两大国家走向民主?
  20. 川习会 媒体区一度混乱 在天坛发生意外事件
  21. 林志玲担任台湾“文策院”董事为何引发激辩?
  22. 荒废20多年 广州最大烂尾别墅群将重启
  23. 不法商贩售卖翻新硬盘致信息泄露
  24. 中国保安不认识美国财长?贝森特刷脸入场失败
  25. 带川普看天坛,习近平:寓意中国人"天圆地方"宇宙观
  26. 美政府宣布:1.5万美元入境费免了
  27. 习近平同美国总统川普会谈
  28. 抵制“穿完就退” 名牌Miu Miu拉黑杭州3街道
  29. 黄仁勋“表忠”:两人了不起
  30. 川普独断,共和党鹰派噤声
  31. 晴空塔下女孩的异国孤影 看中共迫害下万千碎裂家庭
  32. 川普二儿子与夫人参观人民大会堂
  33. 栽倒在AI创业潮的创始人:关掉公司,我只用了三天
  34. 张雪机车:820RR目前暂停交付,原因居然是...
  35. 卢比奥惊掉中共“下巴” “马杜罗被捕装”成最好“见面大礼”
  36. 中国光芯片龙头企业源杰科技副总被刑拘
  37. 租客留下大批垃圾怎么办?
  38. 川习会前 美两党议员提决议 重申对台承诺
  39. 马斯克360度转圈环拍人民大会堂的视频刷屏了
  40. 法国邮轮疑爆诺如病毒疫情 1700人被迫船上隔离
  41. 鸿海Q1净利润499.2亿元超预期
  42. 德州“惯犯猎手”挥师北德州,通缉犯别上收费道
  43. 儿子穿新中式上衣现身大会堂 马斯克用中文回应
  44. 川普致辞:美国最高法院门楣上刻着孔子雕像
  45. 中芯国际Q1营收25.05亿美元
  46. 习近平收回礼物了!美牛进口“解禁半天”又失效
  47. 黄仁勋为何最后一刻加入访华团?本人亲揭原因
  48. “破坏王”川普,为何到北京这么彬彬有礼?
  49. 川普获奉承与盛大欢迎 但棘手问题依然未解决
  50. 古巴宣布燃油储备耗尽,全国电网进入“危急状态”
  51. 川习会后直赴天坛 学者分析:一个很不寻常的讯号
  52. 古巴国家电网大崩溃,东部省份陷入大规模停电
  53. 习近平与“被制裁者”卢比奥握手 成外界热议话题
  54. 深圳成“剩女之都”!9女抢1男!优质剩女崩溃!
  55. 田渊栋八人天团狂揽44亿元:杀入“递归进化”
  56. 摩洛哥军演失踪第二名美军士兵遗体寻获
  57. 分析:朝鲜完成修宪 金正恩有哪些算计?
  58. 克宫:普京即将访问中国
  59. 习近平身高之谜 天坛这张“川习对比照”看清楚了
  60. 他为何“压线入列”川习会访团?