让大模型“边看边改”,视觉分割准确率直接上涨9%

2026-05-27 04:25:19 · chineseheadlinenews.com · 来源: 量子位

智能体时代,如何让视觉分割更准确?

复旦、创智联合推出RSAgent,给出最新答案——让多模态大模型通过多轮工具调用生成准确掩码。

相关工作已入选ICML 2026。

视觉分割,一直是个“说起来简单,但做起来容易失手”的任务。

给模型一张图、一句话,让它把目标区域的像素圈出来——听起来直接,但一旦目标含糊、被遮挡,或者需要推理才能定位,一次性猜出正确的掩码就变得相当困难。

RSAgent团队认为,现有方法缺少的,不是更强的分割头,而是“确认和纠错”的过程。

为此,他们推出了RSAgent这个让多模态大模型通过多轮工具调用,完成文本引导分割的智能体框架。

模型不再一次性输出mask,而是先观察图像、进行推理、调用视觉工具、读取反馈,再根据历史结果迭代修正,最终生成更可靠的准确掩码。

实验结果显示,RSAgent在ReasonSeg测试集上的gIoU相比Seg-Zero-7B提升了9.0个百分点,在RefCOCOg数据集上取得了81.5%的平均cIoU,并生成了5000条以上的多轮推理分割轨迹。

开放语义分割,难在哪里

多模态大语言模型(MLLM)已经能够描述图像、回答问题、理解物体关系,但真实视觉系统需要的不只是文字答案。

交互式标注、机器人感知、设计编辑、工业质检和科学图像分析都要求模型把语言理解落实到像素区域。

也就是说,模型必须在“语义理解”和“准确掩码”之间完成可靠转换。

开放语义文本引导分割的挑战在于,输入指令并不总是简单的类别名——

用户可能说“图中左侧正在被人拿起的物体”,也可能说“找出湍急水流中保障个人安全的装备”。

前者需要空间关系,后者需要场景常识和用途推理。

模型如果只进行一次前向预测,就很难验证自己是否选对了目标。

此前路线的短板并不是“不能产生mask”,而是“缺少确认与纠错过程”。

一旦最初定位偏离、点位提示落在背景、候选区域只覆盖局部,模型往往没有机会重新观察、缩放视图、读取候选结果并调整策略。

RSAgent正是针对这一痛点,把分割任务从静态预测变成动态交互。团队表示:

痛点不是单纯追求更复杂的分割头,而是让模型在开放语义任务中具备“先判断、再行动、看反馈、再修正”的能力。

怎么解决?让MLLM学会Reason and Act

RSAgent的关键不是把MLLM直接改造成一个mask decoder,而是让它成为能够调度视觉工具的智能体。

模型在每一轮接收原图、文本指令和历史观察,输出结构化推理与tool call;工具返回局部视图、候选掩码或overlay;模型再基于这些反馈决定继续调用工具、调整提示,或者提交最终答案。

下图为LISA、Seg-Zero与RSAgent的对比。RSAgent通过多轮工具调用持续定位、观察和修正。

而RSAgent总体框架如下,包括多轮交互、工具调用、观察反馈、cold-start SFT与agentic RL。

具体技术模块及其作用如下:

在数据层面,RSAgent通过自动合成与严格筛选惫建训练轨迹。

论文中cold-start SFT数据约包含5K条高质量多轮推理轨迹;RL阶段使用约2K个RL示例,并额外加入8K个RefCOCOg训练样本,使模型在交互环境中学习更高回报的工具调用路径。

下图为数据管线。系统生成问题、合成多轮轨迹并进行过滤,以获得高质量训练样本。

团队表示,真正的关键不只是“调了工具”:RSAgent把推理、工具、反馈与奖励闭合为一个训练体系。

模型既要理解目标,也要学会自适应地缩放、提示、分割和停止,最终把开放语义理解落实为准确掩码。

具体来看,RSAgent的一次交互可以理解为四步循环:

Observation读取图像与历史结果;

Thought用自然语言分析当前候选区域是否满足指令;

Action选择工具和像素提示;

Feedback接收工具输出并写入上下文。

这个循环让模型不再依赖单次判断,而是具备逐步验证的机制。

这种机制尤其适合关系型、属性型和隐含推理型指令。

例如目标可能很小、被遮挡,或需要根据动作、用途和相对位置来判定。

RSAgent可以先粗定位,再查看局部区域,随后依据候选掩码的偏差重新指定点或框。

相比一次性预测,它多了一个可审查的中间过程。

训练策略上,cold-start SFT解决“会不会按格式工作”的问题,让模型掌握工具调用语法和基本反思流程;agentic RL解决“怎样做得更好”的问题,通过奖励信号优化多轮路径。

二者组合,使RSAgent既能稳定输出结构化结果,也能在复杂开放语义样本上学习更优决策。

实验结果:ReasonSeg与RefCOCOg上取得领先表现

实验使用Qwen2.5-VL-7B-Instruct作为基础模型,SAM2-large作为分割工具。

团队在RefCOCO系列和ReasonSeg上进行系统评测,并与传统视觉语言分割器、单次MLLM分割方法、显式CoT/RL分割方法和多轮工具调用agent等多类方法比较。

下图能够说明,RSAgent在RES和ReasonSeg基准上取得领先表现。

具体评测结果如下:

在ReasonSeg test上,RSAgent达到66.5% gIoU,相比Seg-Zero-7B的57.5%提升9.0个百分点;

在RefCOCOg上,RSAgent达到约81.5%平均cIoU,test split为81.8。

对于依赖开放语义推理的目标分割任务,这说明模型不仅能理解描述,还能更稳地把理解转化为准确掩码。

消融实验显示,提升并非来自单一模块。

未训练的tool-agent在ReasonSeg test上只有30.1 cIoU;加入cold-start SFT后提升至55.4;仅RL为54.3;完整的cold-start SFT+RL达到57.9。

这表明,先让模型学会规范工具调用,再通过强化学习优化长程决策,是RSAgent成立的关键。

下图为最大工具调用轮数消融。适当增加轮数可提升表现,但过长上下文可能带来冗余与不稳定。

奖励设计同样关键。

移除final reward、process reward或format reward都会造成性能下降;

其中去掉final reward后,ReasonSeg test从57.9降至48.3,说明最终掩码质量仍是核心目标。

process reward则鼓励模型在中间步骤持续改进,而不是盲目增加工具调用次数。

让视觉大模型进入可验证的像素行动空间

RSAgent的价值不只是刷新指标。

更重要的是,它展示了一条从“看图问答”走向“视觉行动”的路径:

模型可以围绕文本目标持续观察、调用工具、接受反馈、修正假设,并把最终判断落实到图像像素。

这类能力对交互式视觉系统具有通用意义。

对于数据标注,它有望减少人工反复试错;

对于机器人感知,它让模型在执行前重新确认目标区域;

对于设计编辑和内容生产,它可以把自然语言意图转化为更稳定的可编辑区域;

对于科学图像分析,它提供了可回看、可复核的中间过程。

从更大的趋势看,RSAgent把开放语义理解、工具调用和像素级执行连接起来。

它说明多模态大模型不必停留在“回答图像问题”,也可以在视觉空间中主动探索、试错和修正。

这个方向将视觉智能体推进到更接近真实任务的形态。一言以蔽之:

RSAgent证明了多模态大模型可以从“结合文本与图像内容”进一步走向“在像素空间中推理、行动和自我修正”。

最后介绍一下论文团队。

作者团队来自复旦大学、上海创智学院、上海交通大学等单位,论文共同一作为何星旗、张钰杰。

何星旗为复旦大学一年级硕士生,研究方向为Vision-Language Model Reasoning、Reinforcement Learning。

张钰杰为上海创智学院、复旦大学联合培养博士生,主要研究方向为Vision-Language Model Reasoning、Reinforcement Learning与Large Language Models。


    24小时新闻排行榜更多>>
  1. 江西省统战部长李伟落马 多名老领导出事
  2. 求职变陪酒:大陆夜场“送妹”产业链曝光
  3. A股普跌沪指失守4100点 分析:行情转向谨慎
  4. 中南海推出监管高级将领“铁规矩” 军队整肃仍未结束
  5. 古巴经济支柱旅游业全面崩溃
  6. “习近平下台” 国际赌注交易量近8千万美元
  7. 纳指新高,科技股还有哪些机会?
  8. 传北京拖延空客飞机交付 逼欧盟加快C919审批
  9. 谷歌是如何“逆风翻盘”、开始赢得人工智能竞赛的?
  10. SpaceX“星舰”试飞取得进展 市场看好IPO前景
  11. 西藏流亡政府最高行政长官连任
  12. 全球蔓延的“K型分化”:极致挤压后泡沫破裂?
  13. PayPal钱包接入微信支付
  14. 美澳印日拟在斐济建港
  15. 学历贬值,学历的定价权在谁手里?
  16. 曾十年未曾被发现 沙漠中的隐形“小”猛兽
  17. 微信支付接入PayPal 美国用户赴中国可直接扫码付款
  18. 散货船爆炸起火,韩国政府证实:遭伊朗飞弹攻击
  19. 州警乔装工人,8小时抓近百违规
  20. 美国大砍北约军援!德媒曝:轰炸机少一半,不给核动力潜舰
  21. 以色列证实击毙哈马斯新任军事领导人
  22. 长进光子IPO首日暴涨1500%
  23. 一年刑满之后:吴强的遭遇
  24. “中共是恶魔”大陆电线杆上惊现反共标语
  25. 5月热浪 英法飙高温 印度破47°C逾40死
  26. 天津自然科学基金项目申报时间延长
  27. 林志玲出事了?名单除名 综艺预告下架 疑遭中国封杀
  28. 韩国女星自曝:起床后嘴巴味道超重
  29. 用AI降AI率,降出了什么?
  30. 爆董军或缺席香格里拉对话 曾对台湾放狠话
  31. 随意丢弃废弃电子烟恐酿火灾
  32. 袁立最新状况:出院了 继续前行!
  33. 背影之后的枪声:朱自清之子之死与镇反冤案
  34. 川普体检称“完美” 但对第一夫人一句话竟丝丝感伤
  35. 与习成校友,黄仁勋加入清华大学
  36. 古代巨人坟墓 身材是普通人两倍
  37. 美国高端房市买卖活跃 豪宅价格攀升
  38. 赖清德赠川普台积电创办人自传
  39. “姑死舅埋 表兄表弟不来”啥意思?
  40. 大陆越野跑赛事激增 办赛乱象频现
  41. 当任何人都能用 AI 把公司告上法庭,法官们慌了
  42. 杨梅泡药,是“外部势力”逼着本土商贩干的?
  43. 高位套现 A股500家上市公司推出千亿减持计划
  44. 老年人常见的6个伤身习惯 越早改越好
  45. 战地记者遇见死去的父亲 科学的“傲慢”碎了
  46. 68岁中共前公安董广平乘橡皮艇逃至韩国
  47. 怎样从衣着打扮一眼看穿一个人的性格?
  48. 深圳隧道突发大火 传两声爆炸6人被炸死
  49. 一杯茶里的千年清香
  50. 中国劳动市场严峻 招两牧羊人逾700人应征
  51. 一家六口全被裁,三套房贷成枷锁
  52. NASA公布月球基地计划详情
  53. 川普:伊朗想用拖字诀没用 我不在乎期中选举
  54. 川普计划将接触过病毒的人送往肯尼亚
  55. 让大模型“边看边改”,视觉分割准确率直接上涨9%
  56. 10名季节性零工,没有渡过那座漫水桥
  57. 用AI比雇人还贵 科技巨头发现不对劲 纷纷刹车
  58. 蒋介石有哪些异想天开的计划?
  59. 明星“社交实验”,凭什么走到第六季?
  60. 7人获颁2026年度邵逸夫奖