何恺明带大二本科生颠覆扩散图像生成

2026-02-02 07:25:13 · chineseheadlinenews.com · 来源: 量子位

何恺明,再次出手精简架构。新方法Pixel Mean Flow(pMF),突破传统扩散模型/流模型限制。

两大传统组件多步采样和潜空间都被砍了,现在只需一步,直接在像素空间生成图像。

在ImageNet 256×256分辨率上,pMF达到了2.22 FID;512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取得的最佳成绩之一。

砍掉扩散模型的两大件

现代扩散模型生成图像,一直离不开多步采样和潜空间编码。

多步采样意味着生成一张图需要跑几十甚至上百次神经网络,潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一个极度复杂的生成问题拆解成若干个相对简单的子问题。

近年来,研究社区分别在这两个方向上取得了进展:

一致性模型(Consistency Models)和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。

何恺明团队2026年1月提出的JiT(Just image Transformers)则证明了在原始像素空间做扩散模型的可行性。

但把这两条路合到一起,难度陡增。

少步模型要求单个网络能够处理不同起点和终点的轨迹;像素空间模型则需要在没有预训练tokenizer的情况下完成压缩和抽象。

两边的挑战叠加在一起,对架构设计提出了更高的要求。

pMF的核心设计

pMF的思路可以概括为:

网络直接输出像素级别的去噪图像,但训练时用速度场来计算损失。

具体来说,pMF定义了一个新的场x,它是从平均速度场u通过简单变换得到的。

x场的关键特性是看起来像干净的图像。

论文通过追踪ODE轨迹进行可视化发现,平均速度场u对应的是噪声图像,而变换后的x场则对应近乎干净或略微模糊的图像。

这背后的假设是流形假设(manifold hypothesis):自然图像实际上位于一个低维流形上,让网络直接预测这个低维流形上的量,比预测高维噪声空间中的量要容易得多。

团队用一个2D玩具模型验证了这一点。

当把2D数据投影到512维观察空间时,传统的u-prediction直接崩溃,而x-prediction仍然能够正常工作。

在真实的ImageNet实验中也是如此:256×256分辨率下,patch维度达到768(16×16×3),u-prediction的FID直接飙到164.89,而 x-prediction则保持在个位数。

pMF还有一个独特优势:

因为网络直接输出像素图像,可以自然地使用感知损失(perceptual loss)。

这本是潜空间方法在训练VAE时才能用的技巧,pMF把它带到了生成器本身的训练中。实实验显示,加入感知损失后,FID从9.56直接降到3.53,提升了约6个点。

实验结果与对比

在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成绩,超越了此前唯一的同类方法EPG(8.82 FID)。与GAN方法相比,pMF达到了相近的FID,但计算量大幅下降——StyleGAN-XL每次前向传播需要1574 Gflops,是pMF-H/16的5.8倍。

在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持与256×256相近的计算开销,达到了2.48 FID。

另外,潜空间方法还有一笔经常被忽略的开销:VAE解码器。

标准SD-VAE解码器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,这个开销已经超过了pMF整个生成器的计算量。

论文还进行了大量消融实验:

优化器方面,Muon比Adam收敛更快且效果更好;

时间采样方面,MeanFlow的全平面采样策略不可或缺,只在r=t或r=0单线上采样都会导致失败;

预条件器(pre-conditioner)方面,传统的EDM和sCM风格设计在这个高维场景下不如直接的 x-prediction有效。

团队介绍

一个图像生成模型,本质上就是从噪声到像素的映射。

多步采样和潜空间编码都是历史上为了降低难度而引入的折中方案,但随着模型能力的提升和训练技巧的进步,这些“拐杖”正在变得不那么必要。

团队在结尾写道:希望这项工作能够鼓励未来对直接、端到端生成建模的探索。从实验结果来看,单步无潜空间生成已经从“是否可行”进入到“如何做得更好”的阶段了。

共同一作Yiyang Lu(陆伊炀)、Susie Lu、Qiao Sun(孙启傲)、Hanhong Zhao(赵瀚宏)为MIT本科生。

其中孙启傲是IMO金牌得主,赵瀚宏是国际物理奥林匹克竞赛IPhO金牌得主,陆伊炀是全国中学生物理竞赛CPhO金牌得主。


    24小时新闻排行榜更多>>
  1. 爱泼斯坦文件:300万页新公开档案到底披露了什么
  2. 军报静默6天 张又侠落马后谁在抵制习近平?
  3. 日本试掘成功 六千米深海回收大量稀土泥
  4. 《梅拉尼娅》创票房纪录 首映收入700万美元
  5. 中共二十大后18名上将被查20上将“失踪”
  6. 川普幕僚海湖庄园大婚 大咖云集 马斯克携伴现身
  7. C罗罢赛内幕曝光!沙媒:被管理层一句话激怒
  8. 推背图52象振奋人心 “暗斗”已转向“明崩”
  9. 著名音乐人袁惟仁去世,享年57岁
  10. 2.5吨白银建造"永兴银楼"被拍卖,其中1.75吨折算1205万
  11. 军报痛批张又侠 凸显军心不稳 网传军队只剩四上将
  12. Costco、Nike限量联名鞋,转手价疯涨数十倍
  13. 美国政府局部关门
  14. 胡力任:张又侠被关在京南警卫局基地
  15. 第四架歼-36亮相了,有哪些新变化?
  16. 濒死经验相似性高 人生观变正向
  17. 日本排球赛突发一幕爆红:选手误击他人“滑跪”致歉
  18. 皮肤问题总反复,“心情”可能是病因
  19. 受害人裸照全看光!淫魔档案惊见近40张无码照,司法部急下架
  20. 李婧——亚毫米波的追光者
  21. 教会孩子!——应对中共夺命体检
  22. 张又侠遭清洗 川普总统怎么看
  23. 黑森州恐迎剧烈降温,最低零下17度
  24. 无人安全的军队 全军指挥中心只剩习近平会怎样
  25. 金银暴跌后,都盯着周一中国开盘
  26. 美联储资产负债表应“尽可能精简”
  27. 00后亲历白银过山车:从套利到“被套”
  28. 台湾研究员赴川普大本营佛州作证 揭中共统战组织
  29. 中共二十一大前内讧加剧 专家分析
  30. 吃过大苦的人 能活出5种智慧 最后一个极难得
  31. 董明珠的言语经常惹争议,但是她做的事为何都做对了?
  32. 看到自己的影子 土拨鼠预测冬季还有6周
  33. 以色列重开拉法口岸 迈出停火协议重要一步
  34. 150万用户99%是水军,Moltbook一夜塌房?
  35. 【翻墙必看】军队武官文官皆不配合习指示
  36. 内幕:中共稳军释信号 “党指挥枪”受挫
  37. 针对高市错误言行,日本法律界表示批评
  38. 法拉盛失踪4日的华裔少女 在凯辛娜高尔夫球场敖近被发现死亡
  39. 【深度追踪】医生夸赞“婴儿肾”好用 中共“按需杀婴”的惊天黑幕
  40. 局势微妙:美伊究竟是打还是谈?
  41. 黄金接近首个关键支撑位
  42. SpaceX正与xAI就合并进行深度谈判
  43. 河南30岁男子如厕时猝死 妻子回忆事发前身体求救信号
  44. 如果川普下令美军入侵加拿大,会怎样?
  45. 土耳其一客运巴士冲出路面翻覆 酿9死26伤
  46. 军报吁官兵识大势 当局查张又侠疑遭抵制
  47. 爱泼斯坦与班农绝密访谈曝光 一场暗黑对话 背脊发凉!
  48. 川普拟投资120亿美元储备关键矿产
  49. 家长质疑家委会收263元,被班踢出群
  50. 前女友举报孙宇晨,再曝其与谷爱凌恋爱
  51. 继广西“亮证姐”后北京再出“亮衣姐” 引发热议
  52. 伊朗总统下令与美国进行核谈判
  53. 【视频】两次逃离中共迫害的神韵艺术家
  54. 洛杉矶警方:因安全考量 拟不执行禁蒙面法
  55. 哈梅内伊说美袭伊朗将挑起区域战争 川普回应
  56. 何恺明带大二本科生颠覆扩散图像生成
  57. 知名调查记者刘虎揭县官丑闻后被警方带走
  58. 大陆44家钢厂将停产 网友:360天不敢停的钢炉集体熄火
  59. 河南30岁男子猝死卫生间 事发前体检无异常
  60. A股市场遭遇全面重挫 逾4600只个股下跌