如果你稍微了解深度学习的历史一定对“何恺明”这个名字不陌生。2015年他在微软亚洲研究院提出了残差网络ResNet一举解决了深层神经网络难以训练的瓶颈至今仍是AI领域被引用次数最多的论文之一。ResNet的残差连接结构已渗透进Transformer、AlphaGo Zero、AlphaFold等几乎所有现代AI系统。2024年何恺明从Meta AI加盟MIT开始系统研究生成模型。就在最近他与MIT的团队放出了一篇重磅论文——ELF: Embedded Language Flows论文地址https://arxiv.org/pdf/2605.10938v1代码仓库GitHub - lillian039/ELF · GitHub“我看到何恺明的论文我就点进去”——这句话在AI社区早已成为共识。而这次ELF不仅延续了何恺明一贯的“简洁深刻”风格更在语言生成领域开辟了一条新路放弃主流的自回归“逐词预测”拥抱扩散模型的“同时去噪”。“语言是离散的砖块但思维是连续的流水。”在人工智能领域大语言模型LLM通常像我们打字一样一个字一个字地往后猜自回归模式。尽管去年LLaDA等项目证明了扩散模型也能写好文章引发了业界对**扩散语言模型DLM**的关注。然而扩散模型天生擅长处理连续的信号如图片像素而文字却是离散的字词。这就好比用处理水流的方法去堆砌砖块天然存在“水土不服”。当大多数人还在纠结如何更好地“堆砖块”时何恺明带领的MIT团队选择了一条看似艰难却更为优雅的道路不碰砖块直接在水流中完成创作直到最后一刻才凝固成字。结果令人震惊ELF仅用了主流方法十分之一的训练数据就在生成质量上实现了全面超越。1. 核心理念语言是离散的但模型不一定是过去两年扩散语言模型Diffusion Language Model, DLM的研究主要分为两派离散扩散语言模型Discrete DLM直接在token空间里定义扩散过程比如用MASK遮盖token再逐步还原MDLM、LLaDA、Dream 7B等。这条路效果更好一直是主流。连续扩散语言模型Continuous DLM先把token映射到连续嵌入向量在连续空间里去噪最后再转回token。理论上更优雅但实际效果长期落后于离散派。为什么连续派一直“不香”因为语言本质上是离散的——文字是一串有限的词汇而扩散模型天生擅长处理连续数据如图像、音频。过去的方法如Diffusion-LM虽然在嵌入空间去噪但每一步都要算一次token-level的交叉熵相当于把连续轨迹硬绑在词表上导致流畅性受限。何恺明团队的判断恰恰相反问题不是“语言必须离散”而是前人没有让连续路线“连续到底”。论文共一作者 Linlu Qiu 的推文ELF 的核心思路只有一句话把扩散过程搬进连续的向量空间只在最后一步才把结果翻译成词。此前连续派Continuous DLM表现不佳的主要原因在于它们没有让连续路线“连续到底”。例如Diffusion-LM 虽然在 Embedding 空间去噪但每一步都要计算 Token-level 的交叉熵强行将连续轨迹绑在词表上而 Latent Diffusion 类方法则需要单独训练一个 Decoder 将 Latent 解回 Token。何恺明团队的判断恰恰相反问题不是“语言必须离散”而是前人打断了流动的连续性。ELF 的设计哲学是不打断流动的连续性让扩散动力学有最大的自由度。正因为全程都在向量空间里图像扩散领域成熟的技术如 Classifier-Free Guidance, CFG可以几乎原封不动地搬进来使用。靠着仅 105M 的小参数、45B 的训练量加上仅仅 32 步的快速采样它竟然正面硬刚并击败了一批主流扩散语言模型。最硬核的成绩单是在 OpenWebText 上它的生成困惑度Generative Perplexity直接压到了24。简单说困惑度越低说明生成的文本越像真人写的“AI 味儿”越淡质量越高。要知道ELF 用的训练数据不到对手的十分之一采样步数也更少结果反而更自然、更精准。可以说在过去很长一段时间里扩散语言模型的进展几乎都发生在离散DLMDiscrete DLM这一侧。而ELF第一次证明了一件事连续的方法不但能跑而且效果惊艳。2. ELF 深度解析如何做到“连续到底”ELF 的核心设计理念可以概括为中间去噪完全在连续空间最终生成只在最后一步离散化。它第一次将“连续表示”和“离散输出”这两个过去被认为必须反复对齐的问题彻底拆开了。下面我们从三个关键环节详细拆解 ELF 的技术实现2.1 第一步Token 如何变成连续表示要把连续扩散用在语言上第一步必须解决离散到连续的映射。映射机制ELF 先将输入文本切分为 Token 序列然后映射到连续 Embedding 空间。Encoder 的选择默认情况下ELF 使用预训练的T5 Encoder来生成双向上下文感知的 Embedding。论文也测试了联合训练Jointly trained或随机初始化的 Embedding方案但预训练 Encoder 效果最佳。关键细节这个 Encoder仅在训练阶段使用。在推理时模型直接从噪声开始生成不需要额外的 Encoder 模块因此不会增加推理时的计算负担。2.2 第二步在连续 Embedding 空间做 Flow Matching拿到连续表示后ELF 在 Embedding 连续空间中进行去噪。A. 定义流动轨迹Flow Matching 定义了一条从噪声到真实数据的连续流动轨迹t0 时状态是高斯噪声。t1 时状态是干净的 Embedding​。中间所有状态 zt都是两者的线性插值即论文中提到的Rectified Flow整流流。B. 预测目标为什么选择 x-prediction在传统 Flow Matching中神经网络通常预测“速度场” v即数据流动的方向和速度。但 ELF 沿用了何恺明团队半年前在《Back to Basics》中提出的思路——直接预测干净的 Embedding xx即 x-prediction。不知道这篇《Back to Basics》这篇论文的可以看下这篇文章大道至简何恺明团队新作JiT_扩散模型jitcsdn-CSDN博客论文链接[2511.13720v1] Back to Basics: Let Denoising Generative Models DenoiseGithub 链接https://github.com/LTH14/JiT为什么这么做论文给出了两个核心理由高维稳定性Token Embedding 通常是高维向量如 768 维或更高。在高维空间中直接预测目标值 x 比预测速度场 v 更加稳定训练收敛更容易。目标对齐与权重共享x-prediction 天然与最后一步“预测干净 Token”的目标对齐。如果采用 v-prediction需要先预测 v再通过积分换算成 x。这导致去噪阶段Denoiser和解码阶段Decoder难以共享权重。实验发现一旦尝试在 v-prediction 框架下共享权重效果明显变差。而 x-prediction 允许 Denoiser 和 Decoder 使用同一套网络参数极大地简化了模型结构。训练目标最小化预测 Embedding x^ 和真实干净 Embedding x 之间的均方误差MSE。2.3 第三步从连续 Embedding 回到离散 Token生成语言最终输出必须是离散 Token。ELF 在这一步的设计最为精妙它拒绝了额外训练 Decoder 的传统做法。A. 统一的网络架构ELF 将最后一步视为一次Continuous-to-Discrete Decoding。参数共享Decoder 和前面的 Denoiser 其实是同一个网络。模式控制网络额外接收一个二值的mode tokenDenoise Mode用于中间步骤的去噪。Decode Mode用于最后一步的解码。B. 解决“最后一步太简单”的问题理论上当 t→1 时输入已经非常接近干净 Embedding直接投影可能导致训练退化Trivial Solution。为了解决这个问题ELF 引入了Token-level Corruption在最后一步 (t1)故意对干净的 Embedding 加入扰动构造出一个带噪声的输入。网络在Decode Mode下从这个受扰动的 Embedding 恢复出干净 Embedding。随后通过一个可学习的Unembedding 矩阵 W将干净 Embedding 投影成 Token Logits。损失函数使用标准的 Token-level Cross-Entropy Loss。这种设计使得网络在训练时既学习了如何去噪MSE Loss也学习了如何解码CE Loss且两者共享底层特征提取能力。C. 推理流程从高斯噪声 z0出发。在连续空间中逐步去噪直到 t1。切换到Decode Mode。通过 Unembedding 矩阵 WW 得到 Logits。使用 Argmax 输出最终 Token。2.4 引入 Classifier-Free Guidance (CFG)为了进一步提升生成质量ELF 还将图像生成中常用的CFG技术搬了过来Self-Conditioning利用 Self-conditioning 作为条件信号。Training-time CFG在训练时模拟两次推理一次有条件一次无条件从而在推理时无需增加额外的 Forward pass 开销即可实现 CFG 的效果。3.实验对比实验部分ELF 用一组极具反差的数据彻底终结了关于“连续扩散是否适合语言建模”的争论它不仅可行更在生成质量、推理速度、训练能效这三个核心维度上实现了对现有方案的全面超越。首先在无条件生成能力上ELF 展现了惊人的效率与质量平衡。对比的核心在于“如何用最少的步数跑出最好的效果”ELF 在零蒸馏即没有经过额外加速微调的前提下仅凭 32 步 SDE 采样就将生成困惑度PPL压低到了 24。相比之下主流离散扩散模型如 MDLM、Duo通常需要 1024 步的漫长迭代才能触及这一质量线即便是那些经过专门蒸馏加速的对手在同等少步数下的表现也远逊于 ELF这直接证明了其在原生推理速度上的巨大优势。其次训练成本的悬殊差距进一步凸显了 ELF 的数据效率。达成上述优异成绩ELF 仅消耗了 45B450亿Token 的训练数据而同量级的竞争对手普遍依赖 500B5000亿以上的海量数据堆砌。这意味着 ELF 用对手十分之一的数据量和三十分之一的推理步数跑出了更好的效果这不仅是技术架构的胜利更是对传统“大力出奇迹”训练范式的一次高效碾压大幅降低了语言模型的开发门槛。再者在扩散模型传统弱项的条件生成任务中ELF 打破了“扩散模型做不好精确控制”的刻板印象。在 WMT14 德英翻译任务中ELF 拿下了 26.4 的 BLEU 分数不仅大幅领先于离散扩散模型 MDLM18.4和连续基线 CDCD24.9甚至反超了同等规模的自回归模型基线25.2同时在 XSum 新闻摘要任务中ELF 在 ROUGE-1/2/L 三项关键指标上均位列第一稳定压制了所有现有的扩散语言模型证明了其在指令遵循和语义准确性上的强大实力。最后通过细致的消融实验ELF 锁定了成功的关键设计要素其中无分类器指导CFG的引入起到了画龙点睛的作用。研究发现增加 CFG 尺度能显著降低生成困惑度虽然会轻微牺牲多样性熵但通过扫描 CFG 尺度可以找到最佳的质量-多样性权衡点配合预训练上下文 Embedding 提供的语义起点、x-prediction 实现的权重共享架构以及 SDE 采样器对质量上限的挖掘这些策略共同构成了 ELF 的核心竞争力。论文总结虽克制地称其为极佳的 Trade-off但翻译成人话就是连续派以前之所以显得“不能打”是因为没把连续化的优势吃透只要路径正确连续扩散能以十分之一的代价把离散模型按在地上摩擦。