大模型落地秘籍：揭秘Prefill、Decode、Paged Attention、Continuous Batching、PD分离及vLLM如何提升推理系统性能！

张

张建站

2026/5/21 23:19:40

10分钟阅读

大模型落地秘籍：揭秘Prefill、Decode、Paged Attention、Continuous Batching、PD分离及vLLM如何提升推理系统性能！

本文深入探讨了大模型推理系统的本质与优化策略。核心观点包括大模型推理本质上是“预测下一个token”的自回归生成过程涉及计算、内存和系统三类问题Prefill和Decode阶段的资源特征不同需分别优化KV Cache管理是关键Paged Attention通过分页管理提升显存利用率Continuous Batching实现动态调度提高吞吐量PD分离通过资源池分工进一步提升性能vLLM整合多种优化机制构建高效推理系统。文章强调大模型推理系统的性能提升依赖于系统层面的设计与优化而非单纯的模型能力。过去两年大模型几乎重写了整个 AI 应用栈。大家谈模型参数、谈训练语料、谈 Agent、谈多模态但在真正落地时最后决定系统体验的往往不是模型能力本身而是另一个更现实的问题模型到底是怎么跑起来的。同样一个模型有的系统首字返回很快有的系统却要等上好几秒同样一张 GPU有的服务能稳定承载高并发有的系统一上量就抖。表面看大家都是“调用一个大模型”本质上比拼的却是背后的推理系统能力。这也是为什么Prefill、Decode、Paged Attention、Continuous Batching、PD 分离以及 vLLM 这类推理引擎会在工程圈里变得越来越重要。很多人对这些概念多少听过但往往是碎片化理解知道有 Prefill 和 Decode却不知道它们为什么必须分开看知道 vLLM 很快却说不清它到底快在哪里知道一个vllm-openai的镜像能跑服务却不清楚镜像里真正封装的是什么。这篇文章试图把这条链路讲完整从大模型推理的本质开始一直讲到现代推理引擎为什么会长成今天这样。一、大模型推理的本质不是“回答问题”而是“预测下一个 token”先把问题说透。从用户视角看大模型是在“对话”“写代码”“翻译”“总结文档”。但从模型内部看这些任务最终都被统一成了一件事在给定上下文的前提下预测下一个 token。比如你输入一句话请用通俗语言解释一下 Transformer模型不会直接“理解你的意图然后整段输出答案”。它实际做的是先根据这句输入形成上下文表示然后预测第一个输出 token生成第一个 token 之后再把它拼回上下文里继续预测第二个 token如此循环直到生成结束。所以大模型推理的本质并不神秘它就是一个典型的自回归生成过程。难点也恰恰来自这里因为这个过程不是一次性完成而是一个持续迭代、持续读写上下文、持续调度资源的过程。也正因为如此大模型推理从来不是“跑一次前向计算”这么简单。它背后同时牵扯三类问题第一类是计算问题。模型本身大矩阵运算重算力消耗高。第二类是内存问题。上下文越长缓存越大显存会迅速成为瓶颈。第三类是系统问题。在线服务里请求长度不一致、到达时间不一致、结束时间也不一致GPU 怎么调度决定了吞吐和延迟。理解后面所有优化之前先接受一个基本事实大模型推理本质上是“模型计算内存管理在线调度”三者耦合的问题。二、为什么要把推理拆成 Prefill 和 Decode如果把整个推理过程拆开看会发现它天然分成两个阶段而且这两个阶段的资源特征完全不同。1. Prefill先把输入“吃进去”用户发来的 prompt往往是一整段现成文本。无论是一句简单提问还是几千字的文档摘要请求模型都必须先把这段输入整体处理一遍。这一步就是Prefill。Prefill 干的事情可以概括成两件一是把输入 token 逐层送进 Transformer形成上下文表示二是为后续生成建立好历史缓存也就是常说的KV Cache。这里最关键的一点在于Prefill 阶段的输入是已知的、完整的。因为整段 prompt 一开始就全部给出来了所以模型可以在序列维度上做较高程度的并行计算。也就是说Prefill 往往是一个算力密集型阶段矩阵乘很多GPU 计算单元利用率高但相应地prompt 越长Prefill 的耗时也越高。这也是为什么长上下文请求常常会直接拉高首字延迟。因为用户在看到第一个输出 token 之前系统必须先把整段输入处理完。2. Decode再一个 token 一个 token 地往下写当 prompt 处理完之后模型才进入真正的生成阶段也就是Decode。Decode 和 Prefill 最大的不同是它不再处理“整段已知输入”而是在每一步只新增一个 token。每生成一个 token模型就需要拿这个新 token 去和历史上下文做 attention再预测下一个 token。这意味着 Decode 有一个非常强的工程特征它天然是串行的。后一个 token 必须依赖前一个 token 的结果所以你几乎不可能像 Prefill 那样在时间维度上大规模并行。与此同时随着上下文不断变长Decode 每一步都要频繁读取历史 KV Cache因此它常常不是“算不动”而是“读不动”——瓶颈更容易落在显存带宽和缓存访问效率上。于是一个非常典型的对比出现了•Prefill 更像算力型任务•Decode 更像内存带宽型任务这就是为什么在推理系统里大家不会把它们混为一谈。它们看似同属“推理”但从资源特征到优化方向其实是两种工作负载。三、为什么说大模型推理的真正难点不在模型而在系统如果只有单个请求大模型推理并不难理解先 Prefill再 Decode一路往下生成即可。但一旦进入在线服务场景问题立刻变了。真实系统里请求不是整齐到达的。有的人只问一句短问题有的人直接贴一整篇长文有的请求生成几十个 token 就结束有的请求可能一直写几千 token。更麻烦的是这些请求是持续不断流入系统的不会等上一批全部跑完再来下一批。于是推理系统必须同时回答几个很现实的问题• 新请求来了什么时候插入执行• 老请求结束了空出来的 GPU 位置如何立刻利用• 每个请求长度不同KV Cache 怎么分配才能不浪费显存• 长 prompt 请求和短生成请求混在一起时怎样避免相互拖累这时你会发现决定系统体验的已经不再只是“模型 forward 快不快”而是系统如何管理不规则负载。这也是今天所有高性能推理引擎要解决的核心命题如何在有限 GPU 资源上同时兼顾首字延迟、生成速度、并发能力和显存利用率。围绕这个命题后来才演化出了 Paged Attention、Continuous Batching、PD 分离以及 vLLM 这样的系统设计。四、为什么 KV Cache 会成为推理时代最重要的显存问题要理解 vLLM必须先理解 KV Cache。在 Transformer 的 attention 机制里每个 token 在每一层都会对应一组 Key 和 Value。生成新 token 时模型需要拿当前 token 的 Query 去和历史所有 token 的 Key/Value 做计算。为了避免每次都把历史上下文重新算一遍系统通常会把历史 token 的 K/V 缓存下来这就是KV Cache。KV Cache 的意义非常大它让模型不需要在每一步重新处理整个历史序列否则生成成本会爆炸。但 KV Cache 也带来了另一个更现实的问题它非常占显存而且会持续增长。上下文越长生成越久历史 token 越多缓存就越大。如果是多用户并发每个请求都在不断累积自己的 KV Cache显存压力会迅速抬升。到了这个时候参数本身不再是唯一瓶颈缓存反而成了服务系统最紧张的资源之一。传统做法通常是给每个请求分配一块连续显存用来存它的 KV Cache。这个思路在单机、小规模场景下还能工作但一旦进入在线高并发环境就会暴露出几个典型问题第一请求长度不可预测。一开始你很难知道一个请求最终会生成多长。第二连续分配容易浪费。预留太大会造成大量空闲空间预留太小又可能中途扩容困难。第三碎片问题严重。请求动态结束、动态进入显存很容易被切得零零碎碎。第四动态 batch 场景下很难灵活复用。这时候KV Cache 不再只是“一个缓存”而是一个标准的动态内存管理问题。而 vLLM 最有代表性的贡献之一就是把这个问题用“分页”的方式重新组织了。五、Paged Attention 的本质是把 KV Cache 管理变成“虚拟内存”问题Paged Attention 之所以重要不是因为它发明了 attention而是因为它重新发明了attention 背后的缓存管理方式。它借鉴的是操作系统里非常经典的思想分页管理。操作系统不会要求一个进程的所有内存都物理连续它只要求逻辑上连续底层可以拆成多个 page由页表映射到离散的物理内存。同样的思路在 vLLM 里被应用到了 KV Cache 上。具体来说vLLM 不再要求一个请求的 KV Cache 必须放在一整块连续显存里而是把缓存切成固定大小的 block 或 page。一个请求逻辑上拥有一段连续的上下文但物理上这些 KV block 可以分散在不同位置通过映射关系组织起来。这么做的收益非常直接。首先显存利用率会明显提高。因为系统不再需要为每个请求预留整块连续空间而是按需分配 page。其次扩容变得简单。请求继续生成时只需要再申请新的 page而不是搬迁整段缓存。再次释放也更灵活。请求一结束对应的 page 可以立即回收快速复用给下一个请求。最后它天然适合动态并发场景。因为在线服务的请求长度本来就是波动的分页比“大块连续分配”更适合这种不规则负载。之所以叫 Paged Attention是因为 attention 在读取历史 KV 时底层访问方式已经不再是“从一段连续数组里顺序读”而是按照逻辑块映射去找到对应的物理 block再完成计算。说到底Paged Attention 解决的不是模型精度问题而是推理系统在显存层面的可持续扩展问题。六、Continuous Batching 真正改变的不是 batch 大小而是 batch 的生命周期另一个对现代推理系统影响极大的概念是Continuous Batching。在传统深度学习训练或离线推理里batch 的概念比较简单收集一批样本组成一个静态 batch一起跑完再处理下一批。这个模式的问题在于它默认样本长度大致一致任务边界清晰而且不会在执行过程中不断有新请求插入。但大模型在线生成根本不是这种情况。一个 batch 里某些请求可能马上结束某些请求还会继续生成很久同时新的用户请求还在不断到来。如果坚持使用静态 batch系统就会陷入一个很低效的状态已经结束的请求还占着位置新请求又只能等下一轮GPU 经常空转延迟和吞吐都不好看。Continuous Batching 的核心思想不是“把 batch 变大”而是让 batch 变成一个动态流动的集合。在每一轮 decode 迭代之后调度器都会重新检查当前活跃请求• 已经结束的移出去• 还没结束的继续留下• 新到达、符合条件的请求插进来。这样一来batch 不再是一批固定不变的请求而是一个持续被重组的执行单元。GPU 可以尽量保持满载系统也不用等“这一整批都结束”才接下一批。这个机制看起来只是调度层的小改动但在 LLM 场景下它本质上改变了推理服务的吞吐上限。因为 Decode 原本就是一步一步往前推进的既然每一步都要做一次同步那顺手在这一步里完成请求的加入、退出和重排就是非常自然的系统设计。所以 Continuous Batching 的价值不只是“吞吐更高”更重要的是它让在线推理第一次真正适应了请求长度不确定、到达时间不确定、完成时间不确定的真实世界。七、PD 分离为什么会成为更高级的推理架构方向当你真正理解了 Prefill 和 Decode 的资源差异就很容易明白为什么行业里会出现PD 分离也就是 Prefill/Decode Separation。原因很简单它们不是同一种负载却经常被迫混跑在同一批 GPU 上。Prefill 更偏计算密集适合做大规模矩阵计算Decode 更偏带宽敏感频繁读写缓存。把这两者混在一起会导致一种典型的相互干扰长 prompt 的 Prefill 容易压住短请求的 Decode而 Decode 的高频小步迭代又会拖慢 Prefill 的吞吐。于是更进一步的系统会选择把它们拆开• 一组资源专门负责 Prefill• 另一组资源专门负责 Decode。这样做的收益是明确的。资源可以针对性优化调度逻辑也更清晰不同负载互不干扰整体稳定性往往更好。但这件事并不轻松。因为 Prefill 阶段生成出的 KV Cache 不是个小东西如果 Prefill 和 Decode 不在同一台机器上就意味着缓存需要跨节点迁移。这背后会带来通信开销、同步复杂度、资源衔接时延以及更高的系统设计成本。所以要特别强调一点PD 分离是一种部署和架构层能力不是简单地“用了某个镜像就自动有了”。很多人看到 vLLM 或某些推理框架就以为 PD 分离是引擎自带特性。更准确的说法应该是引擎内部天然有 Prefill 和 Decode 两阶段但是否真正把它们做成物理分离、跨实例调度是更高层的系统设计问题。八、vLLM 到底解决了什么问题到了这里再看 vLLM就会清楚很多。vLLM 并不是在“改变模型”它做的事情是为大模型推理构建一个更适合在线服务的执行引擎。它之所以被广泛关注不是因为它让模型回答更聪明而是因为它让同一份模型参数在同样的 GPU 上能服务更多请求、跑出更高吞吐、获得更好的显存利用率。从架构上看vLLM 至少解决了三类关键问题。第一它重新设计了 KV Cache 的管理方式。Paged Attention 让缓存从连续分配走向分页分配显存碎片和浪费显著下降。第二它强化了动态调度能力。Continuous Batching 让请求在运行过程中持续流动、持续补位而不是被静态 batch 限死。第三它把“模型前向计算”变成了“系统化执行流程”的一部分。也就是说vLLM 不只是一个 forward runner它更像是一个懂调度、懂缓存、懂并发的推理 runtime。如果把一个典型请求放进 vLLM你大致会看到这样一条链路用户请求进来之后先进入请求队列调度器判断这个请求当前应该进入 Prefill 还是 Decode 队列Prefill 处理完之后生成初始 KV Cache缓存按 block/page 的方式落到显存管理层随后请求进入持续的 decode 循环调度器在每一轮都根据活跃状态重组 batch某些请求结束释放对应 page新的请求则随时插入执行流。这里最值得注意的是vLLM 的快不是单点优化的快而是系统协同带来的快。它快在显存浪费少了快在请求补位更及时快在 GPU 空转更少快在同一资源池里能维持更多活跃会话。换句话说它本质上是把大模型推理从“模型调用问题”提升成了“系统资源调度问题”。九、一个 vLLM Docker 镜像真正封装的到底是什么很多人在工程落地里第一次接触 vLLM不是从源码而是从一个镜像开始比如vllm/vllm-openai:v0.9.2或者你实际在云环境、Kubernetes 环境里看到的镜像地址。这个时候很容易产生一个误解以为镜像本身就是某种“推理技术”。其实不是。镜像只是封装载体。它把一整套可以直接运行的推理服务环境打包了起来。里面通常包括• Python 运行时及依赖• CUDA、PyTorch 等底层环境• vLLM 推理引擎• OpenAI 兼容接口服务• 模型加载与采样逻辑• 调度、缓存、batching 等系统实现。所以更准确地说这类镜像的意义不是“它等于 Paged Attention 或 Continuous Batching”而是它把采用了这些机制的推理服务打包成了一个可部署单元。你启动这个镜像之后真正运行起来的往往是一个 OpenAI 风格的 HTTP 服务前面接收客户端请求后面由 vLLM 负责调度模型执行。请求进入后内部依然要经过 Prefill、Decode、KV Cache 分配、批处理调度、采样输出等整套链路。如果你从 Kubernetes 的视角去理解会更清楚客户端流量进入 PodPod 内的服务进程接收请求调用 vLLM engine把用户输入组织成推理任务然后把这些任务交给 GPU 执行。在这个过程中镜像只是运行形态真正决定性能表现的是镜像里封装的那套推理 runtime。因此面对这类镜像一个更准确的理解方式是这不是“模型本身”也不是“某种优化算法本身”而是一个把高性能 LLM 推理服务完整封装好的部署载体。十、今天谈大模型推理本质上是在谈“AI 时代的操作系统能力”如果把整篇文章往回收束你会发现一个很有意思的现象这些听上去像模型技术的概念最后都指向了系统工程。• Prefill 和 Decode 讲的是任务类型拆分• KV Cache 讲的是显存占用和缓存复用• Paged Attention 讲的是内存分页与映射• Continuous Batching 讲的是动态调度• PD 分离讲的是资源池分工与跨节点协同• vLLM 则把这些能力整合成了一套可运行的执行系统。所以今天的大模型推理越来越像是在重演一遍操作系统和数据库的发展逻辑当负载规模上来之后核心竞争力不再只是“能不能算”而变成了“能不能高效、稳定、可扩展地算”。这也是为什么未来真正拉开差距的很可能不是谁先把模型 API 接出来而是谁先把推理系统做成基础设施。从这个角度看vLLM 的意义并不只是一款开源框架。它更像是一个信号大模型时代推理层已经从工具问题升级成了基础设施问题。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

Python 3 简介

Python 3 简介引言 Python 是一种广泛使用的编程语言，以其简洁的语法和强大的库支持而闻名。Python 3 是 Python 编程语言的最新主要版本，自 2008 年发布以来，它已经成为了许多开发者和企业首选的编程语言之一。本文将简要介绍 Python 3 的特点、应用领域以及学习资源。 …...

2026/5/21 23:18:33 阅读更多 →

CANN算子生成器Agent配置

【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills name: triton-op-generator description: Triton-Ascend 算子代码生成…...

2026/5/21 23:18:31 阅读更多 →

2026年腾讯云OpenClaw/Hermes Agent配置Token Plan新手必看指南

2026年腾讯云OpenClaw/Hermes Agent配置Token Plan新手必看指南。OpenClaw是开源的个人AI助手，Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流 AI 工具&…...

2026/5/21 23:16:14 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/21 12:13:15 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/21 5:13:18 阅读更多 →