北大DragMesh重塑3D交互:比SOTA提速10倍

2026-01-04 12:25:25 · chineseheadlinenews.com · 来源: 新智元

让静态3D模型“动起来”一直是图形学界的难题:物理模拟太慢,生成模型又不讲“物理基本法”。近日,北京大学团队提出DragMesh,通过“语义-几何解耦”范式与双四元数VAE,成功将核心生成模块的算力消耗降低至SOTA模型的1/10,同时将运动轴预测误差降低了10倍。得益于底层数学的完备性,该模型无需任何标注,即可让任意静态Mesh实现符合物理规律的实时交互。

在生成式AI的浪潮下,业界已经可以通过LRM、TripoSR等模型生成高质量的静态3D资产。

然而,一个完整的3D世界模型(World Model)不仅需要知道物体“长什么样”,更需要理解它们“怎么动”以及如何响应用户的交互。

当前的3D交互生成领域面临着一道难以逾越的“交互-保真度鸿沟”:

1. 物理模拟派(如基于优化的方法):虽然物理一致性高,但计算过于沉重,无法满足实时交互需求。

2. 纯生成派(如基于扩散模型的方法):虽然生成速度较快,但经常违反运动学约束,产生“关节脱臼”、“穿模”或轨迹漂移等幻觉。

为了打破这一僵局,北京大学团队推出了DragMesh,这是一个专为实时交互设计的轻量级框架,它没有盲目堆砌算力,而是从数学表征和架构设计底层入手,实现了物理真实性与计算效率的双重飞跃。

论文链接:https://arxiv.org/abs/2512.06424

代码链接:https://github.com/AlGeeksGroup/DragMesh

项目主页:https://aigeeksgroup.github.io/DragMesh

核心技术

两大创新重塑3D交互

DragMesh 并没有采用端到端的暴力生成,而是提出了解耦的设计哲学。团队认为,现有模型之所以庞大且低效,是因为试图用一个网络同时解决“语义理解”(这是微波炉还是柜子?)和“动作生成”(它该怎么转?)这两个性质完全不同的问题。

语义-几何解耦范式

DragMesh将交互过程拆解为两个轻量级流水线:

inference pipeline(推理流程)

意图推理:利用 VLM(如 GPT-4o)的通识能力,快速判断用户的交互意图,解决语义歧义(例如:判断关节类型是旋转的合页还是滑动的抽屉)。

几何回归:团队设计了专用的 KPP-Net (Kinematics Prediction Network) 。不同于通用的点云编码器,KPP-Net采用了双流注意力机制,专门用于从 Mesh 和拖拽信号中回归精准的关节轴和原点。

这种解耦设计使得核心生成网络不再需要“猜测”物体结构,而是直接基于预测出的运动学参数进行生成,大幅减轻了模型负担。

双四元数VAE

为了解决传统欧拉角(万向节死锁)或变换矩阵(参数冗余、不连续)的问题,团队引入了双四元数 (Dual Quaternions, DQ) 作为核心运动表征。

一个单位双四元数仅需8个参数,即可同时完美描述三维空间中的旋转和平移,且天然满足螺旋运动理论。

基于此,团队构建了DQ-VAE。

DQ-VAE training pipeline

非自回归Transformer解码器:摒弃了容易产生误差累积的自回归方式,采用并行解码,保证了长序列动作的连贯性 。

FiLM条件注入:将KPP-Net预测的关节先验通过FiLM (Feature-wise Linear Modulation) 层注入到Transformer的每一层中,确保生成的每一帧都严格“听从”物理约束。

物理修正模块:在解码器末端引入残差修正,进一步微调轨迹以消除微小的物理漂移,确保最终输出严格遵循物理法则 。

性能评测

算力暴降,精度暴涨

团队在GAPartNet和Objaverse数据集上进行了广泛的对比实验,结果显示DragMesh在各项指标上均实现了高效提升 。

效率:比SOTA提速10倍

性能对比,横轴为计算量 (GFLOPs),气泡大小代表参数量。紫色气泡代表现有的通用模型(如DragAPart, PartRM),它们往往参数量巨大且计算昂贵 。DragMesh(左下角)的核心生成模块参数量仅为27.5M,GFLOPs 仅为5.2 。

相比MeshArt (304M Params, 1540 GFLOPs) 和DragAPart (1100M Params, 350 GFLOPs),DragMesh的计算开销降低了5到10倍,且无需针对每个物体单独训练。

精度:几何误差降低一个数量级

在运动学预测的消融实验中,架构的优势尤为明显 :

Baseline (PointNet),轴预测误差高达450.0mrad

Ours (KPP-Net),通过解耦设计与双流注意力机制,轴预测误差降至45.0mrad,原点预测误差仅为1.8mm

这意味着用户在拖拽柜门时,DragMesh预测的旋转轴偏差极小,几乎不会出现门板“飞出”或“歪斜”的现象。

物理一致性可视化

对比分析

在定性对比中,面对微波炉、折叠椅等物体时,

ArtGS / PartRM:因为流程复杂需要的前验内容较多,经常出现结构崩坏或无法识别的情况(图中标空缺部分)。

DragMesh:无论是平移(抽屉)还是旋转(门、翻盖),都能生成平滑、结构完整的运动轨迹,且严格保持了物体的刚性结构 。

总结与展望

开启通用物理交互新纪元

DragMesh的发布不仅仅是提出了一个新的模型,更重要的是验证了一条通往3D世界模型的极简路径 。

传统方法往往需要针对“旋转”和“平移”分别设计约束,而DragMesh采用的双四元数从数学底层上实现了刚体运动的“大一统” 。

根据沙勒定理,空间中任意刚体运动都可以描述为螺旋运动。这意味着 DragMesh 的核心架构天然具备描述世间万物复杂运动的能力。

无论是机械臂的复合扭转,还是更精密的螺旋传动,DragMesh 无需修改底层架构,即可将其纳入“语义-几何”的统一流形中。

得益于解耦设计与DQ-VAE的紧凑表征,DragMesh成功将物理交互带入实时时代,证明了我们不需要等待分钟级的物理模拟,也不需要忍受离线渲染的延迟。

在未来的元宇宙构建、机器人仿真以及数字孪生场景中,DragMesh这种“即拖即动、即动即真”的轻量化范式,将成为赋予静态资产“物理常识”的基础设施 。

未来,DragMesh将继续利用其在螺旋理论上的数学优势,向多关节级联及更复杂的动力学场景从容扩展,让AI真正理解物理世界的运行规律。


    24小时新闻排行榜更多>>
  1. 纽约时报:中国人如何看待美国抓捕马杜罗?
  2. 涉袭击抗议者 洛城中领馆施暴保安被逮捕
  3. 北京重押委内瑞拉600亿美元 恐沦最大输家
  4. 盛雪:谁在背叛历史?清帝逊位协议失效与满洲建国
  5. 留学沙特“土豪学校”,颠覆了我的认知
  6. "中共国师"李毅为何崩溃自搧巴掌?被群嘲还有她…
  7. 马杜罗否认控罪
  8. 万斯住所遭袭击:本人发声 嫌犯照片曝光
  9. 12名将军集体反水,川普曝光抓捕马杜罗细节
  10. “我躲这里谁敢抓”大陆博主发天安门照片配文引热议
  11. 美众院对中共委员会首席民主党议员换人
  12. 办签证先交$1.5万!川普政府扩大这一国家名单
  13. 纽约通勤族一觉醒来 火车 地铁 公交 过桥费全涨了
  14. 明州政坛大地震!因福利欺诈风波 沃尔兹放弃连任
  15. 瑞士宣布:冻结马杜洛与相关人士资产
  16. 分析:中共为委内瑞拉独裁者续命始末
  17. 微信太占空间?“用这办法能让储存少10个G”引关注
  18. 报复日本!中国宣布加强"军民两用物资"对日出口管制
  19. 帕克:习近平和中共政权将走向终结
  20. 王友群:习亲信马兴瑞被处理 或分“三步曲”
  21. 丹麦警告:美国若攻击北约盟国,一切将终结
  22. 高市早苗参拜伊势神宫,手持安倍晋三遗照同行
  23. 川普公布120国移民领福利数据 这几国位居榜首
  24. 委内瑞拉,虐恋女主
  25. 事关俄油,川普又盯上印度
  26. 【名家专栏】非法移民问题与美国国防安全
  27. 刷短视频这个动作,竟会加速大脑“报废”
  28. 23岁中国女导演赖宇晴在柬埔寨离奇坠楼身亡
  29. 首次庭审 马杜罗夫妇穿同款囚服 妻肋骨“严重瘀伤”?
  30. 在8种种情况下 记得要拔掉电器的插头
  31. 美智库公布:中共侵台失败的“代价”
  32. 委内瑞拉坑了中共 中铁盖铁路惨沦“黑吃黑”烂尾
  33. 网友关注习特使:立大功后消失了 或仍困在委国?
  34. 中共军中大内讧后全军开训 只字不提习
  35. 中共宣传部长会议悄弃“经济光明论”
  36. 中共送马杜洛“平平安安”成魔咒 3小时后被美国押走
  37. “说实话”市长周先旺被双开
  38. 一次世界新秩序宣言,普京和习近平都看懂了
  39. 马斯克与川普海湖庄园共进晚餐 2人关系走向引关注
  40. 32名古巴保镖为护马杜罗被毙,全国哀悼
  41. 程序员将面临转型技术革命倒计时开启
  42. 浙一公司破产 2000万贷款成8员工个人债务
  43. 美国抓走马杜罗后,我采访了一个委内瑞拉朋友
  44. 马杜罗纽约受审 抗议者双方对峙
  45. 这次行动为啥叫“绝对决心”?这几个字传递许多信号
  46. 美发布撤离俄警告充满玄机
  47. 江苏泰州出现“账号代注册”黑工坊
  48. 河北农村老人舍不得开暖气,不是因为抠门
  49. 官媒“天启四骑士”直达中南海的死亡通知书
  50. 伊朗民众抗议活动遭暴力镇压 至少35死
  51. 2026年将有“3大热门事件”撼动全球经济
  52. “GDP超日本”,印度世界第四含金量几何?
  53. 中共出口管制升级 对外企行政处罚半年增逾七成
  54. 王祖贤罕见露面 双眼肿到睁不开 亲揭22年真相
  55. 离不开美国的委内瑞拉石油工业
  56. 恒星靠太近被黑洞撕成条,时空真的被拖着转
  57. 商业泛滥的古镇,该换种打法了
  58. 王祖贤演艺事业高峰时隐退 时隔22年首曝真相
  59. 2025科技失望榜出炉
  60. 灵魂出窍 灵魂离开身体时跟做梦差不多?