从 DMD 到 DMD2：搞懂扩散模型的 “提速革命“

张

张建站

2026/4/13 9:09:33

10分钟阅读

我会把大家最常问的问题用最通俗的语言、最清晰的逻辑串起来不讲复杂公式只讲核心逻辑。看完你就能彻底明白DMD 到底是什么、为什么能让扩散模型一步生成高清图、它和其他加速方法有什么不一样。摘要扩散模型凭借卓越的生成质量统治了 AIGC 领域但数十步的迭代采样使其推理速度难以满足实时需求。本文从扩散模型速度瓶颈的本质出发深入解析传统蒸馏方法的致命缺陷系统讲解 DMD分布匹配蒸馏如何通过学规律而非抄作业实现一步高质量生成并重点剖析 DMD2 的三大核心改进 —— 彻底移除回归损失、集成 GAN 对抗训练、反向模拟解决多步匹配问题最终实现推理速度提升 500 倍且生成质量超越原教师模型的突破性成果。本文适合从事生成式 AI、模型加速与部署的开发者阅读。本文核心知识点扩散模型速度瓶颈的本质原因传统一步蒸馏抄作业思路的致命缺陷DMD 分布匹配蒸馏的核心原理与三大组件DMD2 的三大关键技术改进与实现细节三代蒸馏方法的全面对比与权威实验数据DMD/DMD2 的开源资源与落地应用前景一、扩散模型为什么天生慢—— 从原理看速度瓶颈这是所有扩散加速技术要解决的根本问题理解它才能真正明白 DMD 系列方法的革命性。1.1 扩散模型的对称设计训练加噪推理去噪扩散模型的核心逻辑是 **对称的噪声添加与去除**可以用一个非常直观的类比理解训练阶段前向扩散相当于用黑板擦一步一步擦掉一幅画总共擦 1000 次直到黑板变成全黑纯高斯噪声。模型学习的是 **每一步擦完之后黑板的状态是什么样的**。推理阶段反向扩散给你一块全黑的黑板你必须严格按照训练时的逆过程一步一步往回画画 1000 次才能还原出清晰的图像。这就是扩散模型天生慢的根本原因训练时加了多少步噪声推理时理论上就需要多少步去噪。虽然实际应用中会用快速采样器减少步数但本质上无法突破这个对称逻辑的限制。1.2 扩散加速的两大技术路线巧算 vs 重练为了解决速度问题行业内发展出了两条完全不同的技术路线表格技术路线代表方法核心思想速度上限质量损失快速采样器巧算不训练DPM、UniPC、Euler用更高效的数值解法跳步采样10~20 步步数 10 时质量急剧下降模型蒸馏重练改模型LCM、InstaFlow、DMD重新训练一个天生就能少步 / 一步生成的模型1 步优秀方法几乎无质量损失显然模型蒸馏才是实现实时生成的唯一终极方案而 DMD 系列正是这条路线上的里程碑式工作。1.3 生成质量的金标准FID 与 CLIP 分数评估生成模型的性能不能只靠人眼行业有两个通用的量化指标FIDFréchet Inception Distance衡量生成图像与真实图像分布的相似度数值越低越好。FID10 时人眼几乎无法区分真假。CLIP 分数衡量生成图像与文本提示的对齐程度数值越高越好。二、传统一步蒸馏的致命缺陷只会抄作业不会学规律在 DMD 出现之前所有的一步蒸馏方法都陷入了同一个死胡同逐样本映射的死记硬背。2.1 传统蒸馏的本质死记硬背噪声→图像对传统蒸馏的思路非常直接粗暴用原教师扩散模型跑 50 步生成 100 万张图像得到 100 万对(噪声z, 图像y)训练一个学生模型输入噪声 z直接输出图像 y用 MSE逐像素误差或 LPIPS感知误差损失让学生的输出尽可能接近老师的输出2.2 为什么这种方法注定失败高维图像空间的复杂度远超我们的想象100 万对样本连冰山一角都覆盖不了这导致传统蒸馏存在三个无法解决的问题泛化能力极差遇到训练集中没有的噪声学生就会生成乱码或完全不相关的图像模式崩溃严重学生只会生成训练集中最常见的几种模式比如只会画猫不会画狗细节丢失严重死记硬背的结果永远不如老师一步步推导出来的精细这就像学数学传统蒸馏是背下来 100 道题的答案考试遇到新题直接崩盘而 DMD 是学会了数学公式和解题思路任何题都能自己解。三、DMD 的核心革命从逐样本映射到分布级匹配DMDDistribution Matching Distillation分布匹配蒸馏是 2024 年 CVPR 的最佳论文候选之一它彻底颠覆了传统蒸馏的思路实现了几乎无质量损失的一步生成。3.1 一句话讲透 DMD 的核心思想让一步生成器学习真实图像的整体分布规律而不是死记硬背老师生成的某一张具体图像。还是用学画画的类比传统蒸馏照着老师画好的 100 幅画一笔一划抄DMD看老师画了 100 幅画总结出人有两只眼睛、鼻子在中间、太阳是圆的这些普适规律然后自己就能画出任何符合规律的画3.2 DMD 的三大核心组件DMD 的框架非常简洁只有三个核心部分却实现了革命性的效果。组件 1一步生成器 Gθ —— 天生一步出图不是步数设为 1这是最容易被误解的点DMD 的一步生成器绝对不是把采样器的步数设为 1。它输入高斯噪声直接输出干净的图像不需要任何采样器。结构改造简单到离谱和原扩散模型的 UNet 架构完全相同只做了一个改动移除了时间步 t 的输入原因一步生成器不需要知道现在画到第几步了直接输出最终结果即可初始化方式直接复制原教师模型的权重进行微调大大降低了训练难度保证了初始生成质量。组件 2双分数模型 —— DMD 的灵魂两个裁判教你画画这是 DMD 最核心的创新也是它能实现高质量一步生成的关键。什么是分数你可以把它理解成 **画画的方向指引**真分数 sreal由固定不动的教师模型计算告诉你往这个方向改画会更像真的假分数 sfake由一个动态训练的模型计算告诉你往这个方向改画会更像假的DMD 的核心梯度公式简单来说就是真分数拉着你往真图靠假分数推着你远离假图两者一结合生成的图像就会越来越接近真实分布。组件 3LPIPS 正则 —— 防止偏科的稳定器纯靠双分数进行分布匹配有一个小问题生成器容易偏科只生成几种最常见的模式模式崩溃。DMD 用一个非常轻量的方法解决了这个问题加入LPIPS 感知损失作为正则项。提前用教师模型生成少量几万对噪声 - 图像对训练时让生成器的输出和教师的输出在视觉特征层面尽可能相似权重很小总损失的 1/4只起辅助稳定作用不会限制生成器的创造力3.3 DMD 的完整训练流程5 步走DMD 的训练流程非常清晰核心是两条数据流并行训练初始化加载预训练教师模型并冻结复制两份权重得到一步生成器Gθ和假分数模型μfake预生成少量噪声 - 图像对用于 LPIPS 正则。数据采样采样两批数据 —— 纯随机噪声 z用于分布匹配和预存的噪声 z_ref→图像 y_ref 对用于 LPIPS 正则。图像生成用生成器分别生成xGθ(z)和xrefGθ(zref)。更新生成器计算分布匹配损失和 LPIPS 损失总损失分布匹配损失 0.25 × LPIPS 损失反向传播更新Gθ。更新假分数模型给生成的假图像 x 加随机噪声让μfake学习去噪保证它能实时跟踪当前生成器的输出分布。四、DMD 的致命痛点成也正则败也正则DMD 虽然实现了接近原模型的一步生成但它有一个致命的遗留问题这个问题让它在大规模应用上举步维艰也限制了它的性能上限 ——就是它用来稳定训练的 LPIPS 回归损失。这个问题有多严重训练成本爆炸为了保证训练稳定DMD 需要提前用教师模型生成数百万甚至上千万对噪声 - 图像。对于 SDXL 这种大模型来说生成 1200 万对样本需要整整700 个 A100 天光是数据准备的成本就超过了 DMD2 总训练成本的 4 倍。质量上限被锁死回归损失相当于给学生套上了一个紧箍咒 —— 它永远不能画出老师没画过的东西质量上限被死死绑定在老师的采样路径上永远不可能超越老师。仅支持单步生成原 DMD 的框架只能支持一步生成对于 SDXL 这种特别复杂的大模型一步很难学会所有细节生成质量会明显下降。五、DMD2 的终极进化彻底解决痛点实现青出于蓝而胜于蓝2024 年 5 月同一支团队推出了 DMD 的进化版 ——DMD2彻底解决了上述所有痛点并且实现了一个所有人都不敢想的目标让学生模型的生成质量超越原教师模型。5.1 改进 1彻底移除回归损失用双时间尺度更新稳定训练DMD2 做的第一件事就是彻底扔掉了 LPIPS 回归损失也彻底消除了预生成海量数据的需求。但直接扔掉回归损失会导致训练严重不稳定生成器的输出分布一直在快速变化假分数模型假图裁判根本跟不上导致裁判判错训练就会崩溃。DMD2 的解决方法简单到离谱让裁判比选手跑得快。原 DMD假分数模型和生成器同步更新更新频率 1:1DMD2每更新 1 次生成器就更新 5 次假分数模型更新频率 5:1就这么一个小小的改动就彻底解决了训练不稳定的问题。实验证明这个方法能让无回归损失的 DMD 在 ImageNet 上的 FID 从 3.48 恢复到 2.61和原 DMD 完全相当而且收敛速度更快。5.2 改进 2集成 GAN 对抗训练让学生能纠正老师的错误原来的 DMD 只有两个 AI 裁判真分数和假分数它们都是从教师模型衍生出来的老师犯的错它们也会犯。DMD2 加了第三个裁判 —— 一个直接看真实图像的 GAN 判别器。这个裁判不看老师怎么画只看真实世界的图长什么样。这样一来学生不仅能学会老师的优点还能纠正老师的错误甚至画出比老师更好的图。GAN 判别器的巧妙设计直接附加在假分数模型的 UNet 瓶颈层不需要额外训练一个独立的大模型几乎没有增加计算成本却带来了巨大的质量提升采用标准的非饱和 GAN 损失训练稳定且效果好5.3 改进 3支持多步生成用反向模拟解决训练 - 推理不匹配原 DMD 只能做一步生成对于 SDXL 这种大模型来说一步很难学会所有细节。DMD2 扩展支持了 2 步、4 步生成让用户可以在速度和质量之间自由权衡。更重要的是DMD2 解决了所有多步蒸馏方法都有的一个通病训练和推理环境不匹配。传统多步蒸馏训练时用真实图像加噪作为输入但推理时用前一步生成的假图像作为输入相当于平时练的是真题考试考的是模拟题学生当然考不好。DMD2 反向模拟训练时就模拟推理环境用学生自己生成的中间结果作为输入相当于平时练的就是考试题考试自然能考高分。这个技术让 DMD2 的 4 步 SDXL 模型的 Patch FID衡量高分辨率细节的指标从 24.21 直接降到了 20.86细节质量提升了 14%。六、三代蒸馏方法全面对比从抄作业到超越老师表格对比维度传统一步蒸馏原 DMDDMD2训练目标逐样本映射抄单张图匹配教师分布学老师的规律匹配真实分布学世界的规律核心损失仅回归损失分布匹配损失回归损失分布匹配损失 GAN 损失梯度来源教师的单步输出教师分布 - 假分布真实分布教师分布 - 假分布预生成数据需求极高百万级中十万级无模式崩溃风险高极低极低质量上限远低于教师等于教师超越教师支持生成步数单步仅单步单步 / 2 步 / 4 步训练 - 推理匹配度差好单步完美单步 / 多步ImageNet-64×64 单步 FID62.621.28SD v1.5 单步 COCO FID1511.498.35七、DMD2 的炸裂实验结果速度快 500 倍质量超越原模型DMD2 的效果有多夸张我们用论文中最权威的实验数据说话类条件生成ImageNet-64×64单步 FID 达到1.28不仅远超原 DMD 的 2.62还超越了需要 511 步的原 EDM 教师模型FID 2.32。文本生成SD v1.5单步 FID 达到8.35超越了需要 50 步的原 SD v1.5 教师FID 8.59推理速度提升约 500 倍。文本生成SDXL4 步 FID 达到19.32Patch FID 达到20.86均超越了需要 100 步的原 SDXL 教师速度却快了 25 倍。用户研究62% 的评估者认为 DMD2 生成的图像质量优于原 SDXL 教师50.5% 认为其文本对齐更好。八、总结与展望从 DMD 到 DMD2我们看到了扩散蒸馏技术的一次质的飞跃。DMD 打破了扩散模型必须多步生成的神话证明了一步生成可以媲美多步而 DMD2 则打破了学生永远不如老师的神话证明了蒸馏不仅能加速还能提升质量。它彻底消除了大规模蒸馏的成本障碍让快速高质量的图像生成真正走向了实用化。未来展望低成本蒸馏结合 LoRA 技术将 DMD2 的训练成本降低到普通研究者也能承受的水平视频生成扩展将 DMD2 的思想应用到视频扩散模型实现实时视频生成多模态扩展扩展到 3D 生成、语音生成等其他模态实时应用落地在实时 AI 绘画、游戏内容生成、视频通话美颜等领域实现大规模应用资源汇总DMD 论文https://arxiv.org/abs/2311.18828DMD2 论文https://arxiv.org/abs/2405.14867DMD 非官方实现https://github.com/devrimcavusoglu/dmdDMD2 官方代码与预训练模型https://tianweiy.github.io/dmd2/你在项目中用过哪些扩散加速方法DMD2 的哪些特性最让你心动欢迎在评论区分享你的经验和看法

从原理到代码：一文搞懂超声成像中的DAS波束合成（Matlab实战+窗函数选择指南）

超声成像中的DAS波束合成：从数学原理到Matlab实战超声成像技术在现代医疗诊断中扮演着不可替代的角色，而波束合成质量直接决定了图像的清晰度和诊断价值。本文将带您深入理解延迟叠加算法（DAS）的核心机制，并通过Matla…...

2026/4/13 9:03:48 阅读更多 →

鸿蒙 AlbumPickerComponent组件：访问相册列表

一、AlbumPickerAlbumPickerComponent是鸿蒙提供的相册列表组件，可以在布局中嵌入此组件，应用无需申请权限，即可访问公共目录中的相册列表。特点说明无需权限不需要申请存储权限嵌入布局可作为普通组件嵌入应用界面联动使用需配合PhotoPicker…...

2026/4/13 9:00:07 阅读更多 →

实测体验：一站式AI工具到底值不值？分享一下个人真实使用感受

最近因为工作需要，频繁用到各类海外AI工具，也对比了不少整合类平台，今天就以真实用户的角度，聊聊我的实际体验，不吹不黑，客观说一下它的优势和适合人群。首先从功能覆盖来看，它确实把目前主流的…...

2026/4/13 8:58:25 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/13 13:51:39 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/13 13:14:19 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/12 0:07:14 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/12 0:14:29 阅读更多 →