何恺明新作:Dispersive Loss 助力扩散模型,无需预训练与数据增强的性能飞跃

日期:2025-06-13 20:24:48 / 人气:31


在扩散模型持续火热的当下,知名学者何恺明携最新研究成果强势入局,为这一领域带来全新突破。此次研究聚焦于如何将扩散模型与表征学习巧妙结合,旨在赋予扩散模型 “整理收纳” 能力,让其内部特征更有序,进而生成更自然逼真的图像。
何恺明与合作者 Runqian Wang 提出的 Dispersive Loss,是一种极具创新性的即插即用正则化方法。其核心思路是在扩散模型原有的标准回归损失(如去噪损失)基础上,引入一个新的目标函数,专门用于对模型的中间表示进行正则化处理。这一理念虽与对比学习中的排斥效应有相似之处,但却有着独特的显著优势:无需手动定义正样本对,摆脱了对比学习复杂的样本构建过程;具备高度通用性,可直接应用于现有的各类扩散模型,无需对模型结构进行任何改动;计算开销极低,几乎不会给模型训练带来额外负担;与原始损失完美兼容,不会干扰扩散模型原本的回归训练目标,能够轻松集成到现有框架之中。
该研究的灵感源于对扩散模型现状的深刻洞察。当前,扩散模型在生成复杂数据分布方面表现优异,但其训练大多依赖基于回归的目标函数,缺乏对中间表示的有效正则化,这成为限制其进一步提升的瓶颈。而表征学习领域中,对比学习通过促使相似样本靠近、不同样本分散,成功学习到通用表示,并在分类、检测等任务中取得显著成果,但其在生成任务中的潜力尚未被充分挖掘。此外,像 REPA 等现有改进生成效果的方法,存在依赖外部数据、增加额外模型参数和预训练过程等问题,不仅成本高昂,还操作复杂。基于此,何恺明团队思考能否借鉴对比自监督学习的思路,让生成模型的中间表示在隐藏空间中更均匀地分散,以此提升模型的泛化能力和生成质量。
Dispersive Loss 的实现十分简洁。对于一批输入样本,其目标函数由标准扩散损失和分散损失项组成,通过正则化强度 λ 来平衡两者权重。该方法无需额外样本对和复杂操作,可直接作用于模型中间层表示,并且支持单层应用或多层叠加,能够进一步增强不同层级特征的分散性 。
在实验环节,作者以 ImageNet 为测试平台,选用 DiT 和 SiT 作为基线模型,对不同规模的模型展开广泛测试。结果令人振奋,Dispersive Loss 在所有模型和设置下,均实现了生成质量的提升。以 SiT-B/2 模型为例,其 FID 值从 36.49 大幅降至 32.45。与 REPA 方法相比,Dispersive Loss 无需预训练模型和外部数据,却在生成质量上不落下风,在 SiT-XL/2 模型上,Dispersive Loss 的 FID 为 1.97,REPA 的 FID 为 1.80。此外,无论是多步扩散模型还是单步生成模型,都能通过 Dispersive Loss 获得明显改进。
何恺明团队表示,Dispersive Loss 的应用潜力远不止于图像生成任务,在图像识别等其他领域同样大有可为。想要深入了解这项研究的朋友,可通过论文地址https://arxiv.org/abs/2506.09027v1一探究竟,相信何恺明团队的这一成果,将为扩散模型的发展注入新动力,引领该领域迈向新高度!

作者:安信14娱乐平台官网




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 安信14注册登录娱乐中国站 版权所有