ops-softmax：Transformer 推理中的概率归一化引擎

张

张建站

2026/5/23 2:36:47

10分钟阅读

Transformer 里 Attention 的核心是 Softmax——它把注意力分数变成概率分布。没有 Softmax注意力分数就只是一个数值没有归一化的矩阵无法作为权重来聚合 Value。CANN 的 ops-softmax 仓库专门管理 Softmax 及其变体的实现。Softmax 的计算量不大——就是exp → sum → div三步——但它的数据访问模式决定了它是 Memory Bound 算子在昇腾NPU 上需要针对大序列长度做专门的优化。Softmax 为什么是 Transformer 核心Attention 的计算公式Attention(Q,K,V) Softmax(Q × K^T / √d) × VQ × K^T输出的注意力分数矩阵S是[n, n]的矩阵。矩阵中的每个元素S_ij表示第 i 个 Token 对第 j 个 Token 的注意力强度。但这些分数是未归一化的——可能很大也可能很小。Softmax 把它们归一化成概率分布让sum(S_ij over j) 1。Softmax 的步骤exp(x_i)——指数化把分数转为正数sum(exp(x_i))——求所有指数值的和exp(x_i) / sum——每个指数值除以总和归一化为概率Softmax 为什么会成为性能瓶颈Softmax 的计算量很小——每个元素一次指数运算、一次除法。但它的数据访问模式很差输入读取[n, n]矩阵的全部元素从 DDR 搬到 L1对所有元素做指数运算Vector Unit 执行在行方向做 sum归约操作需要对整行扫描再读取一次每个元素除以 sum从 DDR 搬到 L1对于 n4096 的序列Score 矩阵 32MB。整个流程需要搬运约 64MB——两次读S、一次写S_softmax。计算/搬运比很低。FlashAttention 中的 Softmax 优化FlashAttention 对 Softmax 的优化是让它原地完成——Score 矩阵不落地 DDR。具体做法Score 矩阵被切成block×block的子块每次只搬运一个子块到 L1。在 L1 上做完 Softmax 后立即跟 Value 做矩阵乘Softmax 的结果不需要写回 DDR。这个过程需要 Online Softmax 算法——在不知道全局最大值的情况下分块计算初始化max_val -inf, sum_val 0 循环每个 K/V 块当前块的最大值 local_max max(S_ij) 更新 max_val max(max_val, local_max) 缩放旧的 sum_valsum_val * exp(max_val - local_max) 当前块的 exp 和local_sum sum(exp(S_ij - max_val)) 累积sum_val local_sumOnline Softmax 的计算精度跟标准 Softmax 完全一致但避免了 Score 矩阵的整体搬运。在长序列场景中Softmax 不再是性能瓶颈。Online Softmax 的数值稳定性Softmax 的朴素实现exp(x_i)在x_i很大时如 Attention Score 的值可能超过 30会导致 float16 溢出。标准做法是减去最大值exp(x_i - max(x)) / sum(exp(x_j - max(x)))。FlashAttention 的 Online Softmax 在分块计算时也保持了数值稳定性——每个分块独立减去自己的局部最大值跨分块时用 running max 修正。这个修正的数值误差在10^-5级别——不影响推理精度。ops-softmax 在 Vector Unit 上的实现ops-softmax 在 Vector Unit 上的实现不是直接写一条softmax指令——Vector Unit 只有基本的数学指令。Softmax 被拆解为vec_max(x)— SIMD 找最大值vec_sub(x, max)— 每个元素减最大值vec_exp(x)— SIMD 指数运算使用多项式近似vec_sum(exp_x)— SIMD 求和vec_div(exp_x, sum)— 每个元素除以总和这 5 条 Vector 指令在 L1 上执行不需要写 DDR。对于 4096 个元素的 SoftmaxVector Unit 的执行时间约 1-2μs。大序列长度n 4096时Score 矩阵[n, n]超出了一次 Kernel 可以处理的 L1 容量。ops-softmax 把 Score 矩阵按行分成多块——每块在 L1 上做完完整的 Softmax 后再写回 DDR。参考仓库ops-softmax 仓库FlashAttention 融合优化

Keil C51模块链接顺序对嵌入式开发的影响与优化

1. 模块链接顺序对嵌入式开发的影响解析在Keil C51嵌入式开发环境中，模块链接顺序对程序稳定性有着决定性影响。我曾在多个工业控制项目中遇到程序运行时好时坏的问题，最终发现根源都在于链接顺序不当。特别是当项目中混合使用C语言和内联汇编时&#xf…...

2026/5/23 2:36:28 阅读更多 →

电动工具MCU选型与开发：从FOC算法到高集成度设计的工程实践

1. 项目概述：为什么电动工具需要一颗“聪明”的MCU？大家好，我是覃杰，在瑞萨电子上海分公司负责MCU相关的技术方案支持。今天我们不聊那些高大上的概念，就从一个工程师最熟悉的场景聊起：你手里那把正在“嗡嗡…...

2026/5/23 2:13:53 阅读更多 →

基于Crosstool-NG为i.MX6ULL构建定制化ARM交叉编译器实战

1. 项目概述与动机在嵌入式Linux开发领域，交叉编译器是连接开发主机（通常是x86_64架构的PC）与目标开发板（如ARM架构）的桥梁。对于特定的硬件平台，尤其是像NXP i.MX6ULL这样基于Cortex-A7内核的处理器&…...

2026/5/23 2:13:20 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/22 17:23:01 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/22 17:49:20 阅读更多 →