学习日记37：Vector Quantized Diffusion Model for Text-to-Image Synthesis

张

张建站

2026/4/10 17:12:14

10分钟阅读

学习日记37：Vector Quantized Diffusion Model for Text-to-Image Synthesis

提出VQ-Diffusion文本到图像生成模型将VQ-VAE离散隐空间与条件扩散模型结合采用掩码替换扩散策略解决自回归模型的单向偏置与误差累积问题。相较于普通的扩散模型它整体结构、语义更稳定训练更稳、更容易收敛但细节表现力不如连续隐空间扩散且画质细腻度、真实感通常略逊于Stable Diffusion 系列。VQ-VAE把一张连续像素图压缩成一串固定视觉模板的编号也就是从连续空间 → 离散隐空间。它会学习一个 codebook可以理解成图像的视觉单词表。编码器将图片编码为一组特征向量然后找到 codebook 里最相似的模板用这个模板的编号index代表该位置。结果就是一张图被转换成一串离散编号token。最后解码器根据这些编号从 codebook 里取出对应向量再还原成图片。VQ-diffusion就是先有图文对使用训练好的VA-VAE把图片变成离散token,将其对应到codebook中的编号另一边文字也会文字也会被切成 token用 BPE 算法把句子切成子词变成一串整数编号 y长度是 M。然后让 “根据文字 y生成对应图片 x” 的概率尽可能大。之前的自回归方法有问腿也就是单向偏置和累计误差但扩散模型很好没有这些问题。但但现在绝大多数扩散都是连续扩散针对离散分类分布的研究很少。离散扩散过程首先是加噪过程离散扩散的每一步加噪就是用一个矩阵 Qₜ 做 “概率转移”把一个 token 按概率变成另一个 token。矩阵Q就是前一个状态是n,下一个状态是m的概率矩阵K×K大小。V是one-hot编码也就是说上式中的q就是 “从 n 变成 m” 的那一个概率值。从这些分析可知只要知道了最初的清晰图片x0,那么每一步的xt都可以知道同时也可以看出在加噪过程中这个Q的选择是十分重要的如果选用普通的均匀离散扩散加噪方式太粗暴了模型很难反向还原。于是作者提出使用Mask 扩散不随机乱换 token而是直接把某些位置变成 [MASK]。具体来说codebook中原来只有 K 个视觉模板现在多加一个特殊符号 [MASK]总共有 K1 个类别。对一个正常 token每一步有三种可能γ_t 概率 → 变成 [MASK]Kβ_t 概率 → 随机换成别的 tokenα_t 概率 → 保持不变。如果只掩码、不加一点点随机替换数学上后验会退化模型没法正常学习。只有mask 少量随机替换一起用扩散过程才成立。去噪过程模型不输出向量而是输出每个位置的概率分布模型输入xt 与文本信息y,然后预测一个它认为的x0,然后使用Q矩阵贝叶斯公式算出x0转换到t-1时长啥样然后把这个作为xt-1。贝叶斯的作用是计算xt-1,它能合理地一步变成 xₜ又能从 x̂₀ 合理地加噪过来。

华为MateBook X Pro真实体验：从‘多屏协同’到‘频繁掉线’，我的生产力工具踩坑实录

华为MateBook X Pro深度评测：多屏协同的实战表现与优化方案作为一名长期依赖多设备协作的数字游民，我带着对"超级终端"概念的期待入手了华为MateBook X Pro。这款被宣传为"移动办公终极解决方案"的设备，在实际高强度工作…...

2026/4/10 17:12:07 阅读更多 →

山东强迫症专科医院科普：2026年诊疗最新趋势解析

在济南，被强迫症困扰的群体就医时，核心诉求多集中在隐私保护与诊疗专业性上。随着大家对心理疾病认知的提升，越来越多的人意识到，选择合适的就诊机构，能有效提升就医体验、助力康复。本文基于“专科属性、隐私保障、服…...

2026/4/10 17:10:12 阅读更多 →

shadcn如何使用

shadcn/ui 是目前最流行的前端 UI 组件库之一，但它的使用方式与传统的 Ant Design 或 MUI 不同。它不是一个 npm 依赖包，而是一个组件代码生成器。以下是 shadcn/ui 的核心使用流程：1. 初始化项目首先，你需要在现有的 React 项目…...

2026/4/10 17:04:49 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章