Flash Attention 原理解析：IO-Aware 精确注意力计算

张

张建站

2026/5/27 22:56:47

10分钟阅读

Flash Attention 原理解析：IO-Aware 精确注意力计算一、问题的起点：Attention 为什么成为瓶颈？2023 年以来，LLaMA、GPT-4、Claude 等大语言模型席卷 AI 领域。这些模型的共同骨架是 Transformer，而 Transformer 的核心计算是Scaled Dot-Product Attention：Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT)V看起来不过三次矩阵乘法加一次 softmax，复杂度O(n2d)O(n^2d)O(n2d)——对于nnn个 token、ddd维隐藏状态。问题出在那个n2n^2n2上：当序列长度达到 8K、32K、128K 时，注意力矩阵S=QKTS = QK^TS=QKT的大小爆炸——128K 序列的注意力矩阵约 64GB（FP16），单张 H100 的 80GB 显存放不下不说，读写这个矩阵本身就消耗巨大。更关键的是，瓶颈不在计算（FLOPs），而在内存访问（I/O）。现代 GPU 计算能力远超内存带宽。以 NVIDIA H100 为例：计算能力：~1000 TFLOPS（FP16）HBM3 带宽：~3.35 TB/s一个n=16Kn=16\text{K}n=16K的注意力计算需要约 4B FLOPs，理论上 4 微秒就能算完；但在标准实现中，将QKTQK^TQKT矩阵写入 HBM 再读回需要约 30 毫秒——99.99% 的时间花在了数据搬运上。这就是 Flash Attention 要解决的问题：如何在不显式存储完整注意力矩阵的前提下，算出精确的注意力输出？二、核心洞察：GPU 内存层次与 IO-Awareness2.1 GPU 内存层次理解 Flash Attention 之前，需要先理解 GPU 的内存体系：内存层级大小（H100）带宽可编程性HBM（显存）80 GB~3.35 TB/s全局访问L2 Cache50 MB~12 TB/s自动缓存SRAM（Shared Memory）228 KB/SM~20 TB/s手动管理SRAM 速度快但极小（单 SM 仅 228KB），HBM 大但慢。标准 Attention 的做法是：在 SRAM 中计算S=QKTS = QK^TS=QKT写回 HBM（因为太大，SRAM 放不下）再从 HBM 读回做 softmax用 softmax 结果乘VVV，再写回 HBM这种「算一步、写回一步」的模式导致大量冗余 HBM 读写。Flash Attention 的洞见是：我们可以把计算切分成小块，让每个小块完全在 SRAM 内完成，无需写回中间结果到 HBM。2.2 Tiling：分块计算核心思想是将Q,K,VQ, K, VQ,K,V切分成 Block：Q=[Q1,Q2,…,QTr],K=[K1,K2,…,KTc],V=[V1,V2,…,VTc]Q = [Q_1, Q_2, \ldots, Q_{T_r}], \quad K = [K_1, K_2, \ldots, K_{T_c}], \quad V = [V_1, V_2, \ldots, V_{T_c}]Q=[Q1,Q2,…,QTr],K=[K1,K2,…,KTc],V=[V1,V2,…,V

释放被锁住的音乐：QMCDecode让你的QQ音乐文件重获自由

释放被锁住的音乐：QMCDecode让你的QQ音乐文件重获自由【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac，qmc0,qmc3转mp3, mflac,mflac0等转flac)，仅支持macOS，可自动识别到QQ音乐下载目录，默认转…...

2026/5/27 22:55:40 阅读更多 →

2026论文全流程终极榜单：10款AI智能降重工具，合规修正一路顺畅

毕业季的论文战场，重复率与 AIGC 率已成两大 "生死关"。知网、维普不断升级检测算法，AI 写作痕迹一查一个准，单纯降重已不够，必须双率齐降。本文实测 2026 年主流 10 款学术工具，从千笔AI领衔，覆…...

2026/5/27 22:55:40 阅读更多 →

2026年横评10款降AIGC网站:找到导师推荐的“无痕降AIGC”终极方案

随着AI写作工具的普及，论文写作和内容创作变得越来越高效，许多学生和职场人士都开始依赖这些工具来提升效率、节省时间。然而，随着各大高校、期刊和平台对AIGC内容检测技术的不断升级，问题也逐渐显现。很多用户发现，原…...

2026/5/27 22:55:39 阅读更多 →

【限时解密】Claude 3.5 Sonnet专属编程模式：仅开放给前500家企业的上下文感知补全协议

更多请点击： https://kaifayun.com 第一章：Claude 3.5 Sonnet编程辅助的核心能力边界与适用场景 Claude 3.5 Sonnet 在编程辅助领域展现出显著的推理深度与上下文理解能力，但其本质仍是基于大规模语言模型的生成式系统，不具备实时…...

2026/5/27 12:43:11 阅读更多 →

RMAN 增量备份（Incremental Backup）

1、概念RMAN 增量备份是指 RMAN 只备份自上次备份以来发生过更改的数据块，而不是备份整个数据库的所有数据块。它是 Oracle 为解决大型数据库全量备份时间长、占用空间大的问题而设计的核心特性，也是现代企业级备份策略的基础。简单类比：全库…...

2026/5/27 0:57:50 阅读更多 →

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧【免费下载链接】ProperTree Cross platform GUI plist editor written in python. 项目地址: https://gitcode.com/gh_mirrors/pr/ProperTree 想要轻松编辑macOS和iOS的配置文件却苦于复杂的XML语法…...

2026/5/27 16:46:38 阅读更多 →

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件【免费下载链接】ScriptHookV An open source hook into GTAV for loading offline mods 项目地址: https://gitcode.com/gh_mirrors/sc/ScriptHookV ScriptHookV是一个专为《侠盗猎车手V》&…...

2026/5/27 17:17:05 阅读更多 →