如果你问一个AI从业者今天的大模型时代是怎么来的答案通常会指向一个起点2017年的Transformer。但从Transformer到ChatGPT中间还有几步关键的跳跃。今天这篇文章我们把阶段一的五篇论文串起来看讲清楚每一步为什么重要以及它们之间怎么互相呼应。一、Transformer2017一切的地基在Transformer之前NLP的主流架构是RNN和LSTM。它们有两个致命缺陷记不住太远的信息以及没法并行计算。Transformer用注意力机制一举解决了这两个问题。每个词可以直接看到所有其他词不需要逐步传递信息所有词可以同时处理GPU终于可以火力全开。但它做到的不只是更好的序列处理。它提供了一个通用架构——同样的框架既能做翻译也能做分类也能做生成。这个通用性是后来一切的基础。没有Transformer的并行能力GPT系列不可能在可以接受的时间内训练完。没有Transformer的通用性就不会有后来的一个模型做所有事的范式。二、BERT2018第一个证明Transformer威力的大规模应用BERT做了什么它拿Transformer的编码器部分只保留双向理解的半边在上面做了一个极其简单的训练任务完形填空。但这个简单的任务配合大规模数据产生了惊人的效果。BERT在11项NLP基准测试上同时刷新纪录这在当时是前所未有的。BERT的贡献不只是效果。更重要的是它确立了预训练微调的范式先用海量无标注数据训练一个通用模型再用少量标注数据做任务适配。这个思路后来被推广到几乎所有AI领域。三、GPT-12018走了另一条路几乎跟BERT同时OpenAI的GPT-1也提出了预训练微调的方案。但GPT-1选择了Transformer的解码器部分——单向从左到右预测下一个词。当时看起来这是劣势。BERT能前后文同时看GPT-1只能看前文。但GPT-1选择的这条路有一个BERT做不到的事生成。预测下一个词的训练目标让GPT-1天然就是一个文本生成模型。GPT-1的效果不如BERT但它确立了一个方向性的判断生成式预训练可能比理解式预训练更有潜力。后来的发展证明了这个判断。四、GPT-22019不教就会GPT-2把规模从1.17亿参数推到15亿然后发现了一个惊人的现象zero-shot能力。模型从来没有被专门训练过翻译但它能翻译。从来没有被训练过做摘要但它能摘要。只需要在输入中给出合适的提示模型就能识别任务并执行。这个发现的意义是方向性的当你把预测下一个词这个目标做到极致时模型涌现出了理解任务的能力。这直接导致了后来的prompt engineering——用自然语言描述任务让模型理解并执行。同时GPT-2在技术上做了两个重要改进字节级BPE分词消灭了[UNK]问题以及Pre-LN让深层网络训练更稳定。这两个改动后来成了行业标准。五、GPT-32020规模的质变GPT-3把参数量从15亿推到1750亿带来了一个质的飞跃few-shot learning。不需要微调。不需要标注数据。你只需要在输入中给模型几个示例它就能学会新任务。翻译、编程、问答、创意写作——一个模型做所有事。更重要的发现是涌现能力小模型做不到的事大模型突然就能做到了。不是渐进提升而是从完全不行到突然会了的质变。GPT-3确立了模型即服务的商业模式也让整个行业相信scaling这条路是对的。它之后的两件大事——RLHF对齐训练催生ChatGPT以及开源社区LLaMA、Mistral等的追赶——塑造了今天的AI格局。六、回头看一条清晰的脉络把这五篇论文放在一起看你会看到一条非常清晰的脉络Transformer提供了架构基础。GPT-1指明了生成式预训练的方向。BERT证明了预训练范式的有效性。GPT-2发现了zero-shot的可能。GPT-3用规模证明了in-context learning的威力。每一步都建立在前一步的基础之上。这不是随机探索而是一个有方向的技术演进——从为每个任务训练专门的模型到一个通用模型做所有事。而这段历史还只是阶段一。后面还有更多精彩Scaling Laws怎么把训练变成精密工程、Chinchilla怎么修正了行业的方向、FlashAttention怎么让训练速度提升数倍、RLHF怎么让模型学会遵循人类意图……这些我们后面慢慢聊。