Agent AI:多模态交互的新地平线

2025-05-24 11:25:10 · chineseheadlinenews.com · 来源: 集智俱乐部

多模态人工智能系统极有可能成为我们日常生活中无处不在的存在。使这类系统具备更强交互性的一个前景广阔的思路,是将它们以智能体(agent)的形式嵌入物理或虚拟环境。目前,各种系统通常都以已有的大型基础模型为构建智能体的基石。将智能体置于此类环境中,能够使模型处理并理解视觉与上下文信息,这对于构建更为复杂、具有情境感知能力的人工智能系统至关重要。比如,一个能够感知用户动作、人类行为、环境中的物体、声音表达乃至场景整体情绪的系统,就能据此在所处环境中引导并调整智能体的行为回应。为了加速基于智能体的多模态智能研究,我们将“Agent AI”定义为一类交互式系统,它们不仅能感知视觉刺激、语言输入及其他植根于环境的数据,而且能够产生具有意义的、具身化的动作。我们尤其关注通过融合外部知识、多感官输入和人类反馈来改进智能体的下一步具身动作预测的系统。我们认为,在具体环境中开发具备能动性的人工智能系统,还可以有效缓解大型基础模型产生的“幻觉”问题及其生成与环境不符的输出倾向。新兴的“Agent AI”领域涵盖了更广泛的多模态交互中的具身化与能动化方面。除了在物理世界中行动与交互的智能体之外,我们还设想,在未来,人们可以轻松地创建任意虚拟现实或模拟场景,并与嵌入其中的虚拟环境智能体进行交互。

关键词:Agent AI(智能体人工智能)、多模态交互(Multimodal Interaction)、大型基础模型(Large Foundation Models)、具身智能(Embodied AI)、游戏AI(Gaming AI)、机器人学(Robotics)、医疗健康(Healthcare)、伦理考量(Ethical Considerations)

推荐语

2025年,人工智能技术迎来爆发式发展,技术迭代的加速将重塑行业生态,形成倒“T”字型格局:少数专注于通用人工智能(AGI)的巨头企业将进一步垄断核心资源与市场机会,而大量中小鲍司则更应该聚焦于人机交互新模式的探索。这一趋势的底层逻辑在于,大模型与AI Agent的广泛应用不仅重构了人机协作方式,更开辟了全新的流量入口。想象一下,如今的人机界面大大地受限于鼠标和键盘,而语音、手势和自然语言交流则大大解放人机互动带宽。在此背景下,多模态人机交互将成为最具潜力的创新方向之一,为行业带来无限想象空间!——张江

论文题目:Agent AI: Surveying the horizons of multimodal interaction

论文链接:https://arxiv.org/abs/2401.03568

发表时间:2024年1月25日

人工智能领域正迎来一场范式变革——从静态任务处理转向动态的、具身化的智能体(Agent)系统。近日,来自斯坦福大学、微软研究院等机构的联合团队发表综述论文预印本,系统阐述了以大语言模型(LLMs)和视觉语言模型(VLMs)为核心的智能体技术如何通过多模态交互实现跨领域、跨现实的通用人工智能(AGI)路径。这项研究不仅梳理了Agent AI的技术框架与应用场景,更揭示了其在游戏、机器人、医疗等领域的颠覆性潜力,同时直面伦理与社会影响等关键问题。

从模块化到整体性:Agent AI的范式革新

传统AI系统往往将感知、规划、行动等模块割裂开发,而Agent AI的核心理念是回归亚里士多德的“整体论”(Holism),通过整合语言理解、视觉认知、环境记忆与推理能力,构建具有自主行动能力的统一智能体。研究团队提出,以GPT-4、DALL-E等大型基础模型为基石,结合强化学习(RL)、模仿学习(IL)等策略,可训练出能同时处理文本、图像、动作信号的“智能体变换器”(Agent Transformer)。

如下图所示,这种新型架构包含五大模块:环境感知与任务规划、智能体学习、记忆系统、行动预测和认知推理,其创新之处在于引入专属的“智能体令牌”(Agent Tokens)来表征特定领域的动作空间,相比传统冻结参数的多模态模型(如Flamingo、BLIP-2),这种端到端训练范式在机器人控制等任务中展现出更强的适应性。

图 1. 我们为多模态通用智能体提出的新智能体范式。如图所示,主要有 5 个模块:1)环境与感知,包括任务规划和技能观察;2)智能体学习;3)记忆;4)智能体行动;5)认知。

破解幻觉难题:知识增强的交互机制

当Agent AI应用于现实场景时,模型“幻觉”(Hallucination)成为重大挑战——即生成与事实矛盾或无关的内容。文章区分了内在幻觉(与输入矛盾)和外在幻觉(添加无关信息)两种类型,并提出“混合现实知识推理交互”(Mixed Reality with Knowledge Inference Interaction)的涌现机制。通过从网络源显式检索知识,并结合预训练模型的隐式推理,智能体能够在虚拟与现实场景中实现知识迁移。

从游戏NPC到手术助手:跨领域应用图谱

在游戏领域,Agent AI正重塑非玩家角色(NPC)的行为逻辑。传统脚本驱动的NPC行为呆板,而基于LLM的智能体(如《外交》游戏中的AI)已能通过人类对话数据训练实现战略决策。研究团队开发的“MindAgent”框架在《CuisineWorld》多智能体协作游戏中,通过GPT-4中央调度器协调多个智能体完成烹饪任务,其协作效率评分(CoS)验证了语言模型在复杂策略规划中的潜力。

图 2. 情境学习游戏结构中的思维智能体。规划技能与工具使用:游戏环境需要多样化的规划技能和工具使用来完成任务。它生成相关游戏信息,并将游戏数据转换为 LLM 能够处理的结构化文本格式。LLM:作为基础架构的核心,负责决策,从而充当多智能体系统的调度员。记忆历史:用于存储相关信息的工具。行动模块:从文本输入中提取行动,并将其转换为特定领域的语言,同时验证特定领域的语言(DSL),以确保在执行过程中不会出现错误。

机器人领域则面临视觉运动控制(Visual Motor Control)与语言条件操作(Language Conditioned Manipulation)的双重挑战。如图3所示,结合ChatGPT的任务规划器与视觉示范系统,机器人能理解“将桌上的派加热”这类指令,并自主分解为取物、移动、使用烤箱等子任务。特别值得注意的是GPT-4V在多模态任务规划中的表现,它能从演示视频中提取物体空间关系(如“冰箱把手可抓握”),并生成可执行的技能序列。

图 3. 集成 ChatGPT 强化任务规划器的机器人教学系统概述。该过程包含两个步骤:任务规划,用户使用任务规划器创建动作序列,并根据需要通过反馈调整结果;演示,用户通过视觉展示动作序列,为机器人操作提供所需信息。视觉系统收集用于机器人执行的视觉参数。

医疗健康应用凸显了技术红利与风险并存。虽然GPT-4V能准确识别CT扫描图像中的操作场景,但对超声视频的分析仍受安全限制约束。团队强调,诊断智能体必须与知识检索智能体配合,通过实时验证避免错误诊断,例如在皮肤病灶分类任务中,直接调用ISIC皮肤病变数据库比对可减少67%的误判。

图 4. 在医疗保健图像理解领域使用GPT-4V时的示例提示和响应。从左到右:(1)护士和医生进行CT扫描的图像,(2)不规则心电图扫描的合成图像,(3)来自ISIC (Codella et al., 2018)皮肤病变数据集的图像。我们可以看到GPT-4V拥有大量的医学知识,能够对医学图像进行推理。然而,由于安全训练,它无法对一些医学图像进行诊断。

数据与伦理:智能体社会的双刃剑

论文还深入探讨了Agent AI的伦理框架,训练数据偏差(如过度代表西方社会文化)、历史文本中的歧视性语言、隐私保护等问题亟待解决。团队提出的“包容性设计”(Inclusive Design)包含九大原则:从多样化训练数据、文化敏感性到无障碍交互设计。在医疗等高风险领域,采用“红队测试”(Red-teaming)使用一个专门的对手团队开展对抗性工作,主动暴露系统弱点,并建立人工审核闭环。值得关注的是,研究团队特别指出当前智能体在情感推理(Emotional Reasoning)上的不足,开发的NICE数据集通过200万张图像的情感标注,训练出能生成共情评论的MAGIC模型,但跨文化情感理解仍是难点。

未来挑战:从模拟到现实的最后一公里

尽管Agent AI在模拟环境(如Habitat、VirtualHome)中表现优异,但“模拟到现实迁移”(Sim-to-Real Transfer)仍是瓶颈。团队对比了三种解决方案:通过域随机化(Domain Randomization)增加训练多样性、利用CycleGAN进行跨域图像转换,以及开发光真实模拟器。在机器人抓取任务中,结合物理引擎的Neural Radiance Fields技术将操作成功率提高了40%,但动态环境下的长期规划仍需要突破。研究者呼吁更多人参与,共同攻克多模态具身智能的终极难题——如何让机器像人类一样,通过持续的环境交互实现自我进化(Self-improvement)。


    24小时新闻排行榜更多>>
  1. 香港商业地产寒潮来袭 四大房企业绩集体下滑
  2. 一个潜在的“重大利好”少有人提及
  3. 兰州大风 大树被拦腰刮断 自行车被刮飞
  4. 6任“一把手”被查,性质十分严重
  5. 【佳音时刻】中共自揭数据造假 再证习大权旁落
  6. 川普放言:批量制造“大杀器”
  7. 16架战机出动 美航母发动史上最大规模空袭
  8. 美国防长:记者进五角大楼,必须有官员陪同
  9. 川普自夸“重建”美军:迎来黄金时代
  10. 陈希同与江泽民的恩怨纠葛 涉及万里、薄一波
  11. 俄乌完成最大规模换俘 乌控俄发动开战来最大规模空袭
  12. 德军大规模进驻立陶宛,二战后首次
  13. 对抗通膨,建议纪录开支稳健理财
  14. 川普在西点军校集会上批评DEI政策
  15. 人过六十 富养自己的最好方式:照镜子
  16. 歼-11B突破多项瓶颈,彻底掌握苏27技术
  17. 川普战哈佛,又一权贵子女中招
  18. 薄熙来为何不曝光谷开来与周永康的淫乱史?
  19. 林肯中心外攻击神韵者 受朱立创幕后指使
  20. 【军事情报局】流星vs霹雳-15 谁是制空之王?
  21. 比亚迪如何快速渗透欧洲 电动车版图藏政经博弈
  22. 马科斯大势已去,亲华的菲律宾快回来了
  23. 宁愿被中国统一?网友警告:“美女头像”网军又来了
  24. 白宫施压哈佛:目光短浅
  25. 川普不准干的事,中方敢干
  26. 华尔街还没意识到:关税已开始影响美国通胀
  27. 对顺德区法官廖冰寒滥用职权,怠于履职的公开控告
  28. 湖南一官员从办公室5楼跳楼 公职人员透内情
  29. 爆料:山东公安法院系统涉活摘器官分赃
  30. 耀邦叔叔
  31. 美债日债都崩了 看准这个临界点 金融危机的信号
  32. “800哥”成热搜词 四川纺织厂被讨薪者纵火烧37小时
  33. 印度升级“光辉”,首次试飞雄心勃勃
  34. 对越南来说,没有中国根本无法生产
  35. 朝鲜驱逐舰翻覆现场照曝光
  36. 美中进休战期 贸易冲突未完 后续谈判複杂而艰难
  37. 商人在纽约遭“币圈恶霸”囚禁2週 逼吸毒凌辱电击…
  38. 陈希同在香港出书为自己叫屈 矛头直指江泽民
  39. 敏感海域,日方突然射出66发实弹
  40. 马斯克走了,他将美国人置于危险的计划仍抓紧实施
  41. 欧盟拟加强对俄制裁 料把逾20银行踢出SWIFT…
  42. 金钱+女色!美媒揭联准会经济学家遭北京利用过程
  43. 新债王:美股怎么能不跌?
  44. 北斗和GPS竞争?专家解析北斗短板及风险
  45. 哈佛荣誉校长恶意揣测:中国人偷着乐
  46. 大选前夕,韩国收到中方的大礼
  47. 班农:马斯克拟接触对中国开战计划 与川普决裂
  48. 川普告诫军校毕业生:别找花瓶娇妻
  49. 争相对中国强硬也无用 川普在白宫第一轮大清洗
  50. 我经历的“六四”
  51. 北京绿化带,成了年轻人的“5A级景区”
  52. 恐怖 你还敢去看升旗 天安门早已被中共布置成灵堂
  53. 孙颖莎哭了
  54. 消费第一城,为何把“增收”放首位
  55. 修行的高人会不会有情绪?
  56. 孙正义提议设立美日联合主权基金
  57. 核心资产定价权逐步向南转移
  58. 13岁加州女孩用柔术当街制服暴徒 成功脱险
  59. 高考在即 “AI猜题”受追捧 成“备考神器”
  60. 游客狂喊鬼在追我,从9楼一跃而下