别再只盯着GAN了！用PyTorch从零实现DDPM扩散模型，带你亲手生成CIFAR-10图像

张

张建站

2026/5/29 19:34:01

10分钟阅读

别再只盯着GAN了！用PyTorch从零实现DDPM扩散模型，带你亲手生成CIFAR-10图像

从GAN到DDPM用PyTorch实战扩散模型图像生成当我在实验室第一次用扩散模型生成出清晰的CIFAR-10图像时那种兴奋感至今难忘。与GAN的反复调参不同扩散模型展现出了惊人的稳定性——这正是许多开发者转向这项技术的原因。本文将带你从零实现一个DDPMDenoising Diffusion Probabilistic Models模型用PyTorch代码揭示其背后的精妙设计。1. 为什么选择扩散模型2014年GAN的横空出世彻底改变了生成式AI的格局。但八年后的今天越来越多的研究者发现扩散模型在训练稳定性、模式覆盖和生成质量上展现出明显优势。OpenAI的DALL·E 2和Google的Imagen等突破性成果都选择了扩散模型作为核心技术框架。与传统生成模型相比扩散模型有三个关键差异点训练过程稳定不需要GAN那种精细的生成器-判别器平衡模式覆盖完整避免了GAN中常见的模式崩溃问题理论框架优雅基于热力学的数学基础提供了清晰的优化路径下表对比了几种主流生成模型的特点特性GANVAE扩散模型训练稳定性低需精细调参中等高模式覆盖易崩溃较好优秀理论可解释性弱中等强生成质量高但不稳定中等极高计算资源需求中等中等较高实际项目中扩散模型最大的优势在于其可预测的训练曲线——损失函数的下降与生成质量的提升呈现稳定的正相关关系。2. DDPM核心原理拆解扩散模型的核心思想源于非平衡热力学通过逐步加噪和逐步去噪两个过程完成数据生成。下面我们通过PyTorch实现中的关键代码段来理解这一过程。2.1 前向扩散过程前向过程将输入图像x₀逐步转化为纯噪声x_T这个过程是固定的马尔可夫链def forward_diffusion(x0, t, sqrt_alphas_cumprod, sqrt_one_minus_alphas_cumprod): x0: 原始图像 (batch_size, 3, 32, 32) t: 时间步 (batch_size,) sqrt_alphas_cumprod: α的累积乘积平方根 sqrt_one_minus_alphas_cumprod: (1-α)的累积乘积平方根 noise torch.randn_like(x0) # 生成标准高斯噪声 # 根据时间步t获取对应的系数 sqrt_alpha extract(sqrt_alphas_cumprod, t, x0.shape) sqrt_one_minus_alpha extract(sqrt_one_minus_alphas_cumprod, t, x0.shape) # 混合图像与噪声 return sqrt_alpha * x0 sqrt_one_minus_alpha * noise这段代码实现了论文中的关键公式$$ x_t \sqrt{\alpha_t}x_{t-1} \sqrt{1-\alpha_t}\epsilon_t $$其中α_t是预先定义的噪声调度参数控制着噪声添加的节奏。2.2 逆向扩散过程逆向过程是模型需要学习的核心目标是预测并移除噪声class GaussianDiffusion(nn.Module): def __init__(self, model, image_size, channels3, num_classes10): super().__init__() self.model model # 通常是UNet结构 self.img_size image_size self.channels channels # 定义噪声调度 self.betas linear_beta_schedule(num_timesteps1000) self.alphas 1. - self.betas self.alphas_cumprod torch.cumprod(self.alphas, dim0) def p_losses(self, x0, t, noiseNone): if noise is None: noise torch.randn_like(x0) # 前向扩散得到xt xt self.q_sample(x0, t, noise) # 预测噪声 predicted_noise self.model(xt, t) # 计算L2损失 return F.mse_loss(noise, predicted_noise)这里体现了扩散模型的一个关键设计不直接预测去噪后的图像而是预测当前步的噪声。这种参数化方式在实践中表现出更好的数值稳定性。3. 网络架构设计DDPM通常采用UNet作为主干网络但有几个特殊设计值得注意3.1 时间步嵌入扩散模型需要感知当前去噪的时间步这通过时间嵌入实现class TimeEmbedding(nn.Module): def __init__(self, dim): super().__init__() self.dim dim half_dim dim // 2 emb math.log(10000) / (half_dim - 1) emb torch.exp(torch.arange(half_dim) * -emb) self.register_buffer(emb, emb) def forward(self, t): emb t.float()[:, None] * self.emb[None, :] emb torch.cat((emb.sin(), emb.cos()), dim-1) return emb这种正弦余弦嵌入方式与Transformer中的位置编码类似能够很好地表示时间步的连续变化。3.2 条件UNet结构UNet需要将时间信息融入每一层的计算class ResBlock(nn.Module): def __init__(self, dim, time_dim): super().__init__() self.mlp nn.Sequential( nn.SiLU(), nn.Linear(time_dim, dim) ) self.conv nn.Sequential( nn.Conv2d(dim, dim, 3, padding1), nn.GroupNorm(8, dim), nn.SiLU(), nn.Conv2d(dim, dim, 3, padding1), nn.GroupNorm(8, dim) ) def forward(self, x, time_emb): h self.conv(x) time_emb self.mlp(time_emb) return h time_emb[:, :, None, None] # 广播时间嵌入这种设计使得网络能够根据不同的去噪阶段调整其行为是扩散模型成功的关键之一。4. 完整训练流程实现现在我们将各个组件整合成完整的训练系统4.1 数据准备与预处理使用CIFAR-10数据集时需要注意以下几点def get_dataloader(batch_size128): transform transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) dataset CIFAR10( root./data, trainTrue, downloadTrue, transformtransform ) return DataLoader( dataset, batch_sizebatch_size, shuffleTrue, num_workers4, pin_memoryTrue )数据增强对扩散模型的性能影响显著简单的水平翻转就能提升生成多样性。4.2 训练循环实现训练过程遵循标准的PyTorch模式但有几点特殊处理def train(model, loader, optimizer, device, epochs100): model.train() for epoch in range(epochs): for batch in loader: x, _ batch x x.to(device) # 随机采样时间步 t torch.randint(0, 1000, (x.shape[0],), devicedevice) optimizer.zero_grad() loss model.p_losses(x, t) loss.backward() optimizer.step() # 更新EMA模型 if hasattr(model, update_ema): model.update_ema()关键点在于每个batch随机采样不同的时间步使用EMA指数移动平均稳定训练4.3 采样生成图像生成过程是从纯噪声开始逐步去噪torch.no_grad() def sample(model, image_size, batch_size16, channels3): shape (batch_size, channels, image_size, image_size) img torch.randn(shape, devicedevice) # 从噪声开始 for t in reversed(range(1000)): img model.p_sample(img, torch.full((batch_size,), t, devicedevice)) return img这个过程展示了扩散模型的优雅之处同样的网络架构和权重通过不同的时间步输入就能完成从完全噪声到清晰图像的渐进式生成。5. 实战技巧与优化建议在实际项目中以下几个技巧能显著提升DDPM的表现5.1 噪声调度策略线性调度与余弦调度的对比def linear_beta_schedule(num_timesteps, start1e-4, end2e-2): return torch.linspace(start, end, num_timesteps) def cosine_beta_schedule(num_timesteps, s0.008): steps num_timesteps 1 x torch.linspace(0, num_timesteps, steps) alphas_cumprod torch.cos(((x / num_timesteps) s) / (1 s) * math.pi * 0.5) ** 2 alphas_cumprod alphas_cumprod / alphas_cumprod[0] betas 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1]) return torch.clip(betas, 0, 0.999)余弦调度在后期变化更平缓通常能生成更精细的细节5.2 混合精度训练利用PyTorch的AMP模块加速训练scaler torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): loss model.p_losses(x, t) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()5.3 可视化监控实现训练过程的可视化有助于调试def plot_samples(images, epoch): fig plt.figure(figsize(10, 10)) for i in range(min(16, len(images))): img images[i].cpu().permute(1, 2, 0).numpy() img (img * 0.5 0.5).clip(0, 1) plt.subplot(4, 4, i1) plt.imshow(img) plt.axis(off) plt.savefig(fsamples_epoch{epoch}.png)在Colab笔记本中运行这个项目时建议从小的图像尺寸如32x32开始逐步扩展到更大的分辨率。扩散模型对计算资源的需求随着图像尺寸呈平方级增长合理的渐进式训练策略能显著节省时间和成本。

UniAR：统一预测人类视觉注意力与主观反馈的多模态模型

1. 项目概述：为什么我们需要一个预测人类视觉行为的统一模型？在数字内容爆炸式增长的今天，无论是设计师打磨一个App界面，还是内容创作者优化一张海报，一个核心问题始终萦绕：“人”会怎么看？更具…...

2026/5/29 19:32:57 阅读更多 →

终极ROFL-Player使用指南：快速播放英雄联盟旧版本回放

终极ROFL-Player使用指南：快速播放英雄联盟旧版本回放【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player ROFL-Player是一款专门…...

2026/5/29 19:29:00 阅读更多 →

d2s-editor技术深度解析：暗黑破坏神2存档编辑器的实现原理与架构设计

d2s-editor技术深度解析：暗黑破坏神2存档编辑器的实现原理与架构设计【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor d2s-editor作为一款基于Web的开源暗黑破坏神2存档编辑器，通过技术手段解决了传统存档…...

2026/5/29 19:28:59 阅读更多 →

【限时解密】Claude 3.5 Sonnet专属编程模式：仅开放给前500家企业的上下文感知补全协议

更多请点击： https://kaifayun.com 第一章：Claude 3.5 Sonnet编程辅助的核心能力边界与适用场景 Claude 3.5 Sonnet 在编程辅助领域展现出显著的推理深度与上下文理解能力，但其本质仍是基于大规模语言模型的生成式系统，不具备实时…...

2026/5/28 15:08:49 阅读更多 →

RMAN 增量备份（Incremental Backup）

1、概念RMAN 增量备份是指 RMAN 只备份自上次备份以来发生过更改的数据块，而不是备份整个数据库的所有数据块。它是 Oracle 为解决大型数据库全量备份时间长、占用空间大的问题而设计的核心特性，也是现代企业级备份策略的基础。简单类比：全库…...

2026/5/27 0:57:50 阅读更多 →

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧【免费下载链接】ProperTree Cross platform GUI plist editor written in python. 项目地址: https://gitcode.com/gh_mirrors/pr/ProperTree 想要轻松编辑macOS和iOS的配置文件却苦于复杂的XML语法…...

2026/5/27 16:46:38 阅读更多 →

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件【免费下载链接】ScriptHookV An open source hook into GTAV for loading offline mods 项目地址: https://gitcode.com/gh_mirrors/sc/ScriptHookV ScriptHookV是一个专为《侠盗猎车手V》&…...

2026/5/27 17:17:05 阅读更多 →