意图对齐与编辑质量新突破

2026-03-29 11:25:08 · chineseheadlinenews.com · 来源: 新智元

南洋理工大学、新加坡国立大学与合肥工业大学联合推出DragNeXt,革新拖拽式图像编辑。它用区域级操作取代模糊的点拖拽,精准识别用户意图;通过渐进式自干预策略,高效优化图像,避免变形与伪影。实验显示,它在旋转、长距拖拽、复杂形变中表现卓越,用户评测中84%更青睐其结果。该技术显著提升编辑准确率、质量与速度,为创意设计、影视后期带来更智能、更可靠的工具。

在图像创意设计、交互式修图、视觉内容优化等实际应用场景中,拖拽式图像编辑(DBIE)凭借直观的交互方式成为计算机视觉领域的研究热点,其允许用户通过直接拖拽图像中的目标对象完成编辑操作,大幅降低了图像修改的技术门槛,在新媒体创作、工业设计、影视后期等领域具备极高的应用价值。

但当前主流的拖拽式图像编辑方法仍面临两大核心技术痛点,成为制约其落地应用的关键瓶颈:

一是传统基于点的拖拽操作存在严重的意图歧义问题,难以精准匹配用户“拖什么”(指定编辑区域)和“怎么拖”(定义拖拽类型)的真实需求,基于点的拖拽指令具有模糊性、极易导致编辑结果与预期偏差;

二是现有方法普遍依赖运动监督与点跟踪交替执行的优化流程,不仅操作繁琐、计算效率低下,且点跟踪过程中极易出现坐标估计偏差,进而引发拖拽中断、编辑区域变形、背景出现伪影等问题,难以生成高质量的编辑结果。

为从根本上破解上述难题,南洋理工大学联合新加坡国立大学、合肥工业大学的研究团队展开深入研究,跳出传统基于点的编辑思维框架,首次将拖拽式图像编辑统一为隐空间区域优化(LRO) 问题,提出了全新的高效编辑框架DragNeXt。

论文链接:https://arxiv.org/pdf/2506.07611

代码链接:https://github.com/zhouyuan888888/DragNeXt

该框架以区域级几何变换为核心,通过显式指定编辑区域与几何变换类型(平移、旋转、形变等),从根源上消除了拖拽操作的歧义性;

同时创新性地设计了一种渐进式反向自干预(PBSI) 策略,充分挖掘区域级结构信息与拖拽中间状态的渐进式引导作用,在简化传统交替优化流程的同时,实现了编辑质量与效率的协同提升,为拖拽式图像编辑打造了更可靠、更高效的技术新范式。

DragNeXt的核心创新点体现在两大方面:

其一,提出隐空间区域优化(LRO)理论,将拖拽编辑重新定义为基于用户指定区域和几何变换的隐特征优化任务,明确回答了“拖什么”和“怎么拖”的核心问题,彻底解决了基于点的拖拽歧义难题;

其二,设计渐进式反向自干预(PBSI)策略,通过利用扩散模型预训练的先验知识,结合中间拖拽状态的渐进式引导,实现隐特征的精细化优化,避免了固定映射函数导致的不自然变形,同时摒弃了繁琐的KNN点跟踪步骤,有效提升了编辑效率。

DragNeXt从区域层面重构了拖拽式编辑的逻辑,不再局限于单个点的局部监督,而是充分挖掘图像的上下文结构信息,让编辑过程的稳定性和结果的贴合度实现双重提升,同时也为解决拖拽编辑的核心痛点提供了全新的思路。

实验结果

所提出的DragNeXt在2D/3D旋转、长距离拖拽、复杂区域形变等极具挑战性的任务中表现亮眼:可精准实现“绕猫的左脸颊旋转猫头”“平移盆栽且保持形状不变”等精细编辑,无变形、伪影等问题;

在长距离拖拽任务中,能稳定将台灯、手部、石块等目标拖至远距离目标位置,同时保持区域细节与背景一致性,而对比方法多出现细节丢失、目标变形等问题;在3D旋转任务中,借助区域级引导与扩散模型先验,实现了更自然的车辆、雕塑3D视角旋转,优于传统点基方法。

此外,团队开展了包含26名参与者的匿名用户研究,邀请参与者从“意图对齐度”“编辑质量”两个维度对DragNeXt与ClipDrag、RegionDrag、FastDrag的结果进行打分,84%的参与者更认可DragNeXt的编辑结果,充分验证了其在实际应用中的用户体验优势。

DragNeXt在长距离拖拽场景中的编辑效果

DragNeXt在2D、3D旋转场景中的编辑效果

相较于现有方法,DragNeXt展现出三大显著优势:

一是意图对齐度更高,通过显式的区域和变换类型指定,彻底解决了拖拽歧义,让编辑结果精准匹配用户需求;

二是编辑质量更优,区域级结构信息与渐进式反向自干预的结合,有效避免了变形、伪影、细节丢失等问题,生成结果更自然、更保真;

三是效率与实用性更强,摒弃了繁琐的点跟踪步骤,简化了优化流程,同时在短距离、长距离拖拽,2D/3D旋转、形变等多种场景中均表现稳定,鲁棒性明显提升。

在目标区域精准拖拽、非编辑区域保真、编辑区域视觉变化合理性上表现突出;效率方面,该方法要优于依赖交替点跟踪的各类方法,同时相较于仅追求效率而牺牲质量的方法,实现了效率与质量更完美的平衡。

目前研究团队表示,未来将进一步优化DragNeXt框架,一方面整合更多几何变换类型,如缩放、剪切等,拓展编辑任务的覆盖范围;另一方面引入物理驱动的几何变换函数,实现更符合物理规律的图像编辑效果,同时探索将线性注意力融入扩散模型,进一步降低计算成本、提升编辑速度,推动拖拽式图像编辑在更多实际场景中的落地应用。


    24小时新闻排行榜更多>>
  1. 北京有人开铲车冲撞人群 官方封杀消息
  2. 美军“掏地锤”GBU-72首战炸翻伊朗!中共惊魂未定?
  3. 河南项城惊传中学生持刀杀人 致1死
  4. 脊梁早断了 唯剩党性 周恩来南宁会议上痛哭流涕
  5. 怕死?两会闭幕日惊人一幕:安保人员摸遍习桌椅
  6. 五角大楼据报:正为在伊朗数周的地面行动拟定计划
  7. 河南女子被狗咬伤腿部 3天后狗死了
  8. 传温家宝怼习近平 不和你玩了 我要退党
  9. 吴祖光70岁退党 大骂“毛贼”全场热烈鼓掌
  10. 伊朗不会沉没的"航母":美军地面部队下一个目标?
  11. “不要国王”第三度上街 民众盼期中选举给川普好看
  12. 京圈“富二代”落马,该对有钱人祛魅了
  13. 张学良的赵四小姐罕见照片
  14. 我对近期市场的观察和思考
  15. 金正恩原来好这口!亲自选址设计平壤豪华狗肉餐厅
  16. 伊朗军援到了?传俄供“升级版”无人机 难以击落
  17. 美国巴克斯代尔空军基地受多批无人机骚扰
  18. 众院共和党人挡下参院法案 美机场安检乱象未解
  19. 有内情?张又侠旧部李光聚去世 讣告拖一个月才发布
  20. 美豁免制裁后 伊朗石油流向从中国转到印度
  21. 习政权末日来临
  22. 华盛顿DC樱花树下的惊喜
  23. 温家宝现身中科院 马兴瑞大秘落马 两天内三件事砍向习
  24. “末日博士”估川普可能扩大攻势:一场赢面较高的豪赌
  25. 战火升温!美2500名陆战队就位恐打地面战
  26. 黑客帝国在谷歌成真?
  27. 曾赴美访学的华东政法教授:李昌钰没日没夜工作
  28. 美伊开战意外赢家!这国“24天吞1整年转运量” 
  29. 伊朗“飞弹隧道城”被轰4周仍完好如初
  30. 与16国政要20通电话4会面 王毅密集斡旋伊朗局势
  31. 伊朗袭美军基地 E-3预警机损毁 专家:影响大
  32. 超悍!也门“胡塞武装”无惧以色列 西方炸10年没倒
  33. 金主爱"想接班还太早"!金正恩神秘长子传闻再起
  34. 美中央司令部:伊朗海军对航运威胁已结束
  35. Costco结账迎来大升级,10秒搞定
  36. 维也纳漫记
  37. 车模兽兽复出带货,被嘲眼歪嘴斜
  38. 美还有超过3500伊朗目标没打 布什号航母驰赴波湾
  39. 洛杉矶上千人包围政府大楼
  40. 霍启刚身家百亿,却为12岁儿子操碎心
  41. 共享世界生成模型IC-World登场
  42. 老虎伍兹监狱照曝光!目光呆滞眼睛充血
  43. 广州列车停电被困隧道3小时
  44. 配额逼上限 下月起日本停止接受餐饮业外劳
  45. 恐怖片成真? 美科学家打造“无头人”挑战伦理极限
  46. 巴基斯坦:伊朗允许20巴国船过霍尔木兹海峡
  47. 美国参议员代表团访台 促台湾通过国防预算
  48. “防火智慧社区”筑起安全防线
  49. 彩民中百万大奖频上热搜 大陆网民批忽悠买彩票
  50. AI写的论文,在顶会击败55%人类
  51. 反川普?反对打伊朗? 美国银行巴黎分行遭放炸弹
  52. 斯坦福大学生疑遭中共特工恐吓 批校方态度消极
  53. 华邮:美军战斧导弹库存告急 智库:补充或需数年
  54. 伊朗炸美军基地,E-3预警机恐报废
  55. 【百年真相】唯一一次!1948中国大选
  56. 全世界都不敢相信
  57. 中国化学会光功能材料研讨会召开
  58. 纽时:川普莫迪通话谈伊朗战争 马斯克也加入
  59. 中东两家大型铝厂遭袭
  60. 通用代码大模型为什么还搞不定工业代码?