第22篇：生成对抗网络（GAN）入门——AI艺术创作的“造假”与“打假”（概念入门）

张

张建站

2026/4/25 4:39:42

10分钟阅读

第22篇：生成对抗网络（GAN）入门——AI艺术创作的“造假”与“打假”（概念入门）

文章目录背景引入核心概念什么是GAN类比解释一场精妙的“猫鼠游戏”简单示例用PyTorch搭建一个迷你GAN小结背景引入做了这么多年AI我见过最“卷”的模型不是那些在ImageNet上刷分的分类网络而是生成对抗网络GAN。我第一次接触GAN是看到它能生成以假乱真的人脸照片当时的感觉不是兴奋而是有点“脊背发凉”——这玩意儿要是被滥用后果不堪设想。但深入了解后我发现它的设计思想堪称天才用一个“造假”的生成器和一个“打假”的判别器相互对抗、共同进化最终达到一种精妙的平衡。今天我们就来拆解这个驱动了AI艺术创作、图像生成等领域革命的“造假与打假”游戏。核心概念什么是GAN生成对抗网络Generative Adversarial Network GAN是一种深度学习模型其核心思想来源于博弈论中的“零和博弈”。它由两个神经网络组成生成器Generator 它的角色是“造假者”。输入一个随机噪声向量通常是从高斯分布中采样目标是生成一张尽可能逼真的假数据如图片。判别器Discriminator 它的角色是“鉴定专家”。输入一张图片可能是真实的训练数据也可能是生成器造的假目标是判断这张图片是“真实的”还是“生成的”。这两个网络在训练过程中进行对抗生成器努力生成更逼真的假货来骗过判别器判别器则努力学习如何更准确地区分真伪。这个过程就像一场“猫鼠游戏”双方在对抗中不断进化能力越来越强。类比解释一场精妙的“猫鼠游戏”为了让你更好地理解我打个比方。假设我们训练一个GAN来生成名画《蒙娜丽莎》的赝品。生成器造假画作坊一开始这个作坊水平很差画出来的东西歪歪扭扭根本不像。但它会拿着自己的“作品”去给鉴定师看并得到反馈“太假了颜色不对线条也差得远”判别器艺术鉴定师这位鉴定师一开始水平也一般可能分不清特别高明的假画。但他见过无数张真《蒙娜丽莎》和初期那些很假的赝品。训练过程对抗进化第一轮作坊拿出垃圾赝品被鉴定师一眼识破。鉴定师信心大增。第二轮作坊根据“被识破”的反馈改进技术画得稍微好了一点。鉴定师这次需要仔细看才能发现破绽他也从这次“差点被骗”的经历中学习了新特征。如此循环往复……作坊生成器的造假技术越来越高超鉴定师判别器的火眼金睛也越来越犀利。最终理想状态作坊能画出连顶级鉴定师都难辨真伪的超级赝品。此时鉴定师的判断准确率会降到50%相当于瞎猜因为真品和生成的“赝品”在他眼里已经几乎没有区别了。这时我们就得到了一个强大的生成器。简单示例用PyTorch搭建一个迷你GAN理论说再多不如动手看看。下面我们用PyTorch搭建一个最简单的GAN用于生成类似MNIST手写数字的图片。这个例子能帮你看清整个数据流和对抗结构。环境准备你需要安装Python、PyTorch和torchvision库。importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoader# 1. 定义生成器 (Generator)classGenerator(nn.Module):def__init__(self,noise_dim100,img_dim784):super(Generator,self).__init__()self.modelnn.Sequential(nn.Linear(noise_dim,256),nn.LeakyReLU(0.2),nn.Linear(256,512),nn.LeakyReLU(0.2),nn.Linear(512,img_dim),# 输出28*28784维对应一张MNIST图片nn.Tanh()# 将输出压缩到[-1, 1]区间与预处理后的图片数据范围匹配)defforward(self,z):imgself.model(z)returnimg.view(-1,1,28,28)# 重塑为图片形状 (batch, channel, height, width)# 2. 定义判别器 (Discriminator)classDiscriminator(nn.Module):def__init__(self,img_dim784):super(Discriminator,self).__init__()self.modelnn.Sequential(nn.Linear(img_dim,512),nn.LeakyReLU(0.2),nn.Dropout(0.3),# Dropout防止判别器过强nn.Linear(512,256),nn.LeakyReLU(0.2),nn.Dropout(0.3),nn.Linear(256,1),nn.Sigmoid()# 输出一个0到1的概率表示图片为真的置信度)defforward(self,img):img_flatimg.view(img.size(0),-1)# 展平图片validityself.model(img_flat)returnvalidity# 3. 超参数和数据准备devicetorch.device(cudaiftorch.cuda.is_available()elsecpu)noise_dim100lr0.0002batch_size64epochs50# 数据加载并将像素值归一化到[-1, 1]transformtransforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5,),(0.5,))# MNIST是单通道])dataloaderDataLoader(datasets.MNIST(./data,trainTrue,downloadTrue,transformtransform),batch_sizebatch_size,shuffleTrue)# 4. 初始化模型和优化器generatorGenerator(noise_dim).to(device)discriminatorDiscriminator().to(device)optimizer_Goptim.Adam(generator.parameters(),lrlr)optimizer_Doptim.Adam(discriminator.parameters(),lrlr)adversarial_lossnn.BCELoss()# 二值交叉熵损失用于衡量判别器的判断误差# 5. 训练循环 (核心对抗过程)forepochinrange(epochs):fori,(real_imgs,_)inenumerate(dataloader):real_imgsreal_imgs.to(device)batch_sizereal_imgs.size(0)# 标签真实图片为1生成图片为0validtorch.ones(batch_size,1).to(device)faketorch.zeros(batch_size,1).to(device)# ---------------------# 训练判别器 (最大程度区分真假)# ---------------------optimizer_D.zero_grad()# 计算真实图片的损失real_lossadversarial_loss(discriminator(real_imgs),valid)# 生成假图片ztorch.randn(batch_size,noise_dim).to(device)# 采样随机噪声gen_imgsgenerator(z).detach()# detach() 阻止梯度传到生成器只训练判别器# 计算假图片的损失fake_lossadversarial_loss(discriminator(gen_imgs),fake)# 判别器总损失真实损失假损失并反向传播d_loss(real_lossfake_loss)/2d_loss.backward()optimizer_D.step()# ---------------------# 训练生成器 (最大程度欺骗判别器)# ---------------------optimizer_G.zero_grad()# 生成新的假图片ztorch.randn(batch_size,noise_dim).to(device)gen_imgsgenerator(z)# 这里不需要detach因为要训练生成器# 生成器的目标让判别器认为生成的图片是“真的”# 所以这里我们使用“valid”标签来计算损失g_lossadversarial_loss(discriminator(gen_imgs),valid)g_loss.backward()optimizer_G.step()# 每个epoch结束后可以打印损失或保存生成的图片样本print(f[Epoch{epoch}/{epochs}] [D loss:{d_loss.item():.4f}] [G loss:{g_loss.item():.4f}])代码关键点解析生成器输入输出输入是随机噪声z输出是“伪造”的图片。使用Tanh激活函数使输出值域匹配预处理后的图片-1到1。判别器输入输出输入是一张图片真或假输出是一个0到1之间的标量代表“这张图片为真”的概率。对抗训练循环这是核心。注意训练分两步先固定生成器训练判别器目标是让判别器能准确分类真假图片最小化d_loss。再固定判别器训练生成器目标是让生成器生成的图片能骗过当前的判别器最小化g_loss。这里的关键是计算g_loss时我们把生成器生成的图片输入判别器但期望的输出标签是“1”真。这意味着我们在鼓励生成器去“欺骗”判别器。损失函数双方都使用二值交叉熵损失BCELoss但优化的目标相反。小结通过上面的介绍和代码你应该对GAN的基本框架有了直观的认识。它通过一个对抗性训练的框架让生成器和判别器在动态博弈中共同成长最终得到一个强大的生成模型。这种思想的美妙之处在于我们不需要对复杂的数据分布进行显式建模而是通过这种“左右互搏”的方式让模型自己学会数据的分布。当然这个最简单的GAN常被称为Vanilla GAN并不稳定在实际应用中会遇到模式崩溃生成器只生成少数几种样本、训练难以收敛等问题。后续发展出的DCGAN、WGAN、StyleGAN等系列模型都在不同程度上解决了这些问题并将生成质量推向了令人惊叹的高度开启了AI绘画、图像超分、数据增强等应用的新篇章。理解了这个最基本的“造假与打假”范式你就拿到了进入生成式AI世界的第一把钥匙。如有问题欢迎评论区交流持续更新中…

从零到一构建高效Android开发团队：总监实战指南

在当今移动互联网时代，Android平台作为全球最大的移动操作系统，占据着举足轻重的地位。对于企业而言，拥有一支高效的Android开发团队是业务成功的基石。本文将从Android开发总监的视角出发，详细探讨如何从零开始搭建团队、制定规范、执行技术规划、解决核心难点，并确保项目…...

2026/4/25 4:39:20 阅读更多 →

c++如何获取当前可执行文件的版本号信息_GetFileVersionInfo应用【实战】

...

2026/4/25 4:35:06 阅读更多 →

Keras目标检测模型训练实战指南

1. 基于Keras的目标检测模型训练全指南作为计算机视觉领域的核心任务之一，目标检测技术正在智能安防、自动驾驶、工业质检等场景快速落地。与简单的图像分类不同，目标检测需要同时完成物体定位与识别两项任务，这对模型架构和训练策略提出了更…...

2026/4/25 4:34:31 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/21 20:14:59 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →