李飞飞新思路:嫁接

2025-06-20 05:25:19 · chineseheadlinenews.com · 来源: 量子位

预训练模型能否作为探索新架构设计的“底座” ?

最新答案是:yes!

简单来说,按照研究人员设计好的架构方案从头训练模型,往往是检验一个架构是否有效的重要手段。

但问题在于,从头训练模型的成本也太高了!

对此,包括李飞飞团队在内的研究人员提出了一种被称为“Grafting(嫁接)”的新思路——

直接将预训练好的模型作为“底座”,通过修改其组件来研究新架构。

这就好比软件开发中,程序员常基于现有代码修改而非重写,以此省时省力。

基于这一思路,他们重点关注了DiTs这一广泛用于图像和视频生成的Transformer模型。

具体而言,这群人先是构建了一个基于DiT-XL/2设计的测试平台,以方便后续研究“嫁接”对模型质量的影响,然后实际使用“嫁接”技术开发了一系列混合设计。

结果发现,许多混合设计在使用不到2%的预训练计算量的情况下,获得了和原来大差不差的模型性能。

将这一方法应用于文生图模型PixArt-Σ,其生成速度提高了1.43倍,但生成图像的质量只下降了不到2%。

以上说明,“嫁接”确实能成为一种轻量级、高效的架构探索工具,可以让研究者在缺少计算资源的情况下测试新想法。

下面详细揭秘团队提出的这种新方法——

两阶段架构编辑法

众所周知,模型架构设计通常涉及测试不同的组件(如注意力机制、卷积层)和配置(如模型深度、宽度)。

而作为一种架构编辑方法,“嫁接”主要通过修改预训练DiTs的计算图来实现新架构的验证,具体则主要通过激活蒸馏和轻量级微调这两个关键阶段来实现。

所谓计算图,是指模型内部的运算逻辑结构——由多层Transformer块组成,每个块包含自注意力(MHA)、多层感知器(MLP)等算子(Operator),这些算子按特定顺序连接,形成执行生成任务的“数据流路径”。

要实现这种修改替换,关键要解决两个问题:

问题1:在将新算子整合到计算图之前,应该如何初始化新算子?

如果简单地把新算子的权重随机初始化,它可能一开始就会和模型的其他部分不协调,导致模型性能下降。

问题2:如何减轻因替换多个算子而导致的错误累积?

当替换多个算子时,每个替换都可能引入一些误差。一旦误差逐渐积累,最终可能会导致模型性能大幅下降。

对此,新方法采用了以下两阶段架构编辑法:

激活蒸馏(Activation Distillation):新算子(如卷积)初始化时,通过回归任务学习原算子的“行为”,即用少量数据训练新算子,使其输出与原算子的激活值尽可能接近。

轻量级微调(Lightweight Fine-tuning):替换多个组件后,用有限数据进行端到端微调,减少误差累积,恢复模型性能。

并且,为了评估“嫁接”本身的效果,研究正式开始前还引入了自嫁接(self-grafting)作为对照实验。

所谓自嫁接,是指将现有MHA、MLP等替换为相同类型但权重随机初始化的算子 。

其作用主要有三个:

评估在不改变架构的情况下,“嫁接”过程本身对模型的影响;

为后续比较不同的替换方案提供一个基准性能,便于判断新方案的优劣;

研究影响模型性能的各种因素,比如数据规模大小、回归目标的选择以及超参数设置等。

结果发现,在实际操作中,仅需8k样本就能实现较好的初始化。

此外,即便替换DiT-XL/2中所有的多头注意力(MHA)或多层感知器(MLP)层,仅使用10%的训练数据进行微调,模型也能正常恢复。

实验结果

研究人员进行了三项实验,并得出以下主要结论:

实验1:混合架构实验,验证替换的可行性。

通过将DiT-XL/2中的注意力层MHA替换为滑动窗口注意力(SWA)或门控卷积(Hyena-X),在50%替换比例下,FID仅比基线高0.4(FID值越低,说明越接近原始性能)。

而100%全替换会导致FID骤降(数值>75),生成质量崩溃,这说明并非所有层都能被局部算子替代,即模型中存在“必须依赖全局信息” 的层,而另一部分层可接受局部计算。

团队还尝试将DiT-XL/2中的感知器层MLP也进行了替换,结果在将MLP的扩展比改成r=3或r=6的情况下,就算全换掉,模型效果也挺好,这说明MLP宽度改起来不容易出问题。

一言以蔽之,多种混合设计的生成质量均接近原模型,且计算成本不到预训练的2%。

实验2:文本到图像生成实验,验证新架构的有效性。

接下来,研究人员对文生图模型PixArt-Σ进行了“嫁接”,将MHA替换为Hyena-X,结果使用12k合成数狙挞调后,实现了1.43倍速度提升(从235ms→164ms),GenEval分数从49.75→47.78(下降小于2%)。

实验3:并行化改造实验,验证架构重组的有效性。

通过将DiT-XL/2的28层顺序块转为14层并行块(每对顺序块并行执行),在深度减半的情况下,模型生成质量优于同类深度模型。

这验证了,并行架构在减少深度的同时可提升质量,可用作模型轻量化的思路。

不过最后,团队也提到了研究的局限性。一是仅在DiT-XL/2模型上进行了验证,二是仅测试了替换成Hyena-X和SWA的效果,结论的普适性受限。

但不管怎样,团队认为“嫁接”这种方法在探索新的模型架构方面显示出很大的潜力,尤其是在需要高效利用计算资源的场景中。

BTW,目前研究所涉及的22种“嫁接”模型均已开源。


    24小时新闻排行榜更多>>
  1. 稳定币:六大“误区”
  2. 威慑中共 日本对印太8国提供防御装备
  3. 以色列备战长期对抗 伊朗死伤惨重 中东紧张升至战略层级
  4. 广东一家祖孙三代3人被杀 事件遭封杀3个月
  5. 纽约房东钻漏洞,仲介费转嫁房客
  6. 分析:中共领导人有大量暗黑欺骗记录
  7. 《自然》(20250619出版)一周论文导读
  8. 又一个背叛民国的高级间谍 延误蒋介石战机
  9. 炸毁福尔道核设施:您猜投掷了几枚“钻地”?
  10. 川普的犹豫显示“美国的无所不能不再像过去那样”
  11. 录取率跌破5%,牛剑这些专业最抢手
  12. 现在各地的住房新规,简直是逆天
  13. 戴面罩潜伏执法,恐欠妥当
  14. 持Costco卡不能登机 苹果钱包内数字护照可以
  15. “因不满美国提高军费要求,日本取消2+2会谈”
  16. 普京:世界可能会滑向第三次世界大战
  17. 苏宁易购4元甩卖4家公司 家乐福中国门店将消失
  18. 喝水若有这4个表现,或是大病来临的信号
  19. 美国全球媒体署和美国之音正式解雇639名员工
  20. 搞权色交易 赵乐际胞弟旧部周家斌被移送司法
  21. 倪妮电影节上机智回应挖坑问题 获赞最讨喜
  22. 产能过剩,其实比想象的还要可怕
  23. 中国28岁留英博士被判无期 涉11起强奸指控受害者达50人
  24. 又一款神器杀入欧美后花园
  25. 伊朗放话:美国公民都是攻击目标
  26. 以色列击毙伊朗资深指挥官 曾支援哈马斯
  27. 万茜拿下金爵奖“影后”
  28. 联邦法官阻止了:川普阻止哈佛接收留学生
  29. 以军击毁伊朗F-14,卫星照曝光
  30. 爱尔兰“仁爱之家”化粪池下埋近800名幼童
  31. 他们围攻华人政客,只因她说了这句话
  32. 伊朗核科学家与妻子遇袭身亡
  33. 川普:哈佛现在的表现,好得难以置信
  34. 中共借力网红软攻全球舆论 美国社交平台成主战场
  35. 川普开心了,美Fed理事谈何时降息
  36. 成都一诊所推“50元输3天液”:立案调查
  37. 是否动武,川普发出混乱信号
  38. 美TSA发警告 禁携带一常见物品登机
  39. 美媒:TikTok登陆戛纳,美国禁令似乎遥不可及
  40. 华人出任过BC省自由党党魁
  41. 中共官场笑话:打开保险柜的“八字密码”
  42. 男子曼哈顿地铁砍人致2伤
  43. 致命真菌蔓延,这几个州高风险
  44. 母鸡“误闯”炸鸡店,上演“奇鸡生还”大戏
  45. 中国毛绒怪物风靡全球 Labubu成“软实力”象征
  46. B-2轰炸机飞往关岛,美开打伊朗“前兆”?
  47. 热穹顶笼罩美国大半国土 3位数高温持续至下周
  48. 骇人17秒曝光!巴西再传热气球惨剧 失火坠地8死
  49. 【佳音时刻】中共禁酒令 戳破虚假繁荣
  50. “你们的假期,是我的苦难”:欧洲掀起反“过度旅游”
  51. 川普:美军成功对伊朗三处核设施进行空袭
  52. 伊朗透露美军轰炸核设施具体时间
  53. 南方强降水进入最强时段
  54. 她庆幸没与奥巴马“生儿子”,原因令人意外
  55. 伊朗以色列开战,全球航司乱套了
  56. 小心被偷:机场安检千万别这样做
  57. 疫苗受害者维权难 讲述自己的遭遇被禁播
  58. 长荣航空与波兰航空共用班号合作
  59. 巴战机入伊朗领空,背后三场隐秘博弈
  60. 美突袭扫荡非法移民 洛杉矶野火重建区临时工短缺