让大模型“边看边改”，视觉分割准确率直接上涨9%-墙外头条

智能体时代，如何让视觉分割更准确？

复旦、创智联合推出RSAgent，给出最新答案——让多模态大模型通过多轮工具调用生成准确掩码。

相关工作已入选ICML 2026。

视觉分割，一直是个“说起来简单，但做起来容易失手”的任务。

给模型一张图、一句话，让它把目标区域的像素圈出来——听起来直接，但一旦目标含糊、被遮挡，或者需要推理才能定位，一次性猜出正确的掩码就变得相当困难。

RSAgent团队认为，现有方法缺少的，不是更强的分割头，而是“确认和纠错”的过程。

为此，他们推出了RSAgent这个让多模态大模型通过多轮工具调用，完成文本引导分割的智能体框架。

模型不再一次性输出mask，而是先观察图像、进行推理、调用视觉工具、读取反馈，再根据历史结果迭代修正，最终生成更可靠的准确掩码。

实验结果显示，RSAgent在ReasonSeg测试集上的gIoU相比Seg-Zero-7B提升了9.0个百分点，在RefCOCOg数据集上取得了81.5%的平均cIoU，并生成了5000条以上的多轮推理分割轨迹。

开放语义分割，难在哪里

多模态大语言模型（MLLM）已经能够描述图像、回答问题、理解物体关系，但真实视觉系统需要的不只是文字答案。

交互式标注、机器人感知、设计编辑、工业质检和科学图像分析都要求模型把语言理解落实到像素区域。

也就是说，模型必须在“语义理解”和“准确掩码”之间完成可靠转换。

开放语义文本引导分割的挑战在于，输入指令并不总是简单的类别名——

用户可能说“图中左侧正在被人拿起的物体”，也可能说“找出湍急水流中保障个人安全的装备”。

前者需要空间关系，后者需要场景常识和用途推理。

模型如果只进行一次前向预测，就很难验证自己是否选对了目标。

此前路线的短板并不是“不能产生mask”，而是“缺少确认与纠错过程”。

一旦最初定位偏离、点位提示落在背景、候选区域只覆盖局部，模型往往没有机会重新观察、缩放视图、读取候选结果并调整策略。

RSAgent正是针对这一痛点，把分割任务从静态预测变成动态交互。团队表示：

痛点不是单纯追求更复杂的分割头，而是让模型在开放语义任务中具备“先判断、再行动、看反馈、再修正”的能力。

怎么解决？让MLLM学会Reason and Act

RSAgent的关键不是把MLLM直接改造成一个mask decoder，而是让它成为能够调度视觉工具的智能体。

模型在每一轮接收原图、文本指令和历史观察，输出结构化推理与tool call；工具返回局部视图、候选掩码或overlay；模型再基于这些反馈决定继续调用工具、调整提示，或者提交最终答案。

下图为LISA、Seg-Zero与RSAgent的对比。RSAgent通过多轮工具调用持续定位、观察和修正。

而RSAgent总体框架如下，包括多轮交互、工具调用、观察反馈、cold-start SFT与agentic RL。

具体技术模块及其作用如下：

在数据层面，RSAgent通过自动合成与严格筛选惫建训练轨迹。

论文中cold-start SFT数据约包含5K条高质量多轮推理轨迹；RL阶段使用约2K个RL示例，并额外加入8K个RefCOCOg训练样本，使模型在交互环境中学习更高回报的工具调用路径。

下图为数据管线。系统生成问题、合成多轮轨迹并进行过滤，以获得高质量训练样本。

团队表示，真正的关键不只是“调了工具”：RSAgent把推理、工具、反馈与奖励闭合为一个训练体系。

模型既要理解目标，也要学会自适应地缩放、提示、分割和停止，最终把开放语义理解落实为准确掩码。

具体来看，RSAgent的一次交互可以理解为四步循环：

Observation读取图像与历史结果；

Thought用自然语言分析当前候选区域是否满足指令；

Action选择工具和像素提示；

Feedback接收工具输出并写入上下文。

这个循环让模型不再依赖单次判断，而是具备逐步验证的机制。

这种机制尤其适合关系型、属性型和隐含推理型指令。

例如目标可能很小、被遮挡，或需要根据动作、用途和相对位置来判定。

RSAgent可以先粗定位，再查看局部区域，随后依据候选掩码的偏差重新指定点或框。

相比一次性预测，它多了一个可审查的中间过程。

训练策略上，cold-start SFT解决“会不会按格式工作”的问题，让模型掌握工具调用语法和基本反思流程；agentic RL解决“怎样做得更好”的问题，通过奖励信号优化多轮路径。

二者组合，使RSAgent既能稳定输出结构化结果，也能在复杂开放语义样本上学习更优决策。

实验结果：ReasonSeg与RefCOCOg上取得领先表现

实验使用Qwen2.5-VL-7B-Instruct作为基础模型，SAM2-large作为分割工具。

团队在RefCOCO系列和ReasonSeg上进行系统评测，并与传统视觉语言分割器、单次MLLM分割方法、显式CoT/RL分割方法和多轮工具调用agent等多类方法比较。

下图能够说明，RSAgent在RES和ReasonSeg基准上取得领先表现。

具体评测结果如下：

在ReasonSeg test上，RSAgent达到66.5% gIoU，相比Seg-Zero-7B的57.5%提升9.0个百分点；

在RefCOCOg上，RSAgent达到约81.5%平均cIoU，test split为81.8。

对于依赖开放语义推理的目标分割任务，这说明模型不仅能理解描述，还能更稳地把理解转化为准确掩码。

消融实验显示，提升并非来自单一模块。

未训练的tool-agent在ReasonSeg test上只有30.1 cIoU；加入cold-start SFT后提升至55.4；仅RL为54.3；完整的cold-start SFT+RL达到57.9。

这表明，先让模型学会规范工具调用，再通过强化学习优化长程决策，是RSAgent成立的关键。

下图为最大工具调用轮数消融。适当增加轮数可提升表现，但过长上下文可能带来冗余与不稳定。

奖励设计同样关键。

移除final reward、process reward或format reward都会造成性能下降；

其中去掉final reward后，ReasonSeg test从57.9降至48.3，说明最终掩码质量仍是核心目标。

process reward则鼓励模型在中间步骤持续改进，而不是盲目增加工具调用次数。

让视觉大模型进入可验证的像素行动空间

RSAgent的价值不只是刷新指标。

更重要的是，它展示了一条从“看图问答”走向“视觉行动”的路径：

模型可以围绕文本目标持续观察、调用工具、接受反馈、修正假设，并把最终判断落实到图像像素。

这类能力对交互式视觉系统具有通用意义。

对于数据标注，它有望减少人工反复试错；

对于机器人感知，它让模型在执行前重新确认目标区域；

对于设计编辑和内容生产，它可以把自然语言意图转化为更稳定的可编辑区域；

对于科学图像分析，它提供了可回看、可复核的中间过程。

从更大的趋势看，RSAgent把开放语义理解、工具调用和像素级执行连接起来。

它说明多模态大模型不必停留在“回答图像问题”，也可以在视觉空间中主动探索、试错和修正。

这个方向将视觉智能体推进到更接近真实任务的形态。一言以蔽之：

RSAgent证明了多模态大模型可以从“结合文本与图像内容”进一步走向“在像素空间中推理、行动和自我修正”。

最后介绍一下论文团队。

作者团队来自复旦大学、上海创智学院、上海交通大学等单位，论文共同一作为何星旗、张钰杰。

何星旗为复旦大学一年级硕士生，研究方向为Vision-Language Model Reasoning、Reinforcement Learning。

张钰杰为上海创智学院、复旦大学联合培养博士生，主要研究方向为Vision-Language Model Reasoning、Reinforcement Learning与Large Language Models。