别再死记硬背公式了！用Python手写一个Self-Attention，5分钟搞懂Transformer核心

张

张建站

2026/5/4 19:45:00

10分钟阅读

别再死记硬背公式了！用Python手写一个Self-Attention，5分钟搞懂Transformer核心

用Python从零实现Self-Attention5行核心代码透视Transformer灵魂当你第一次看到Transformer架构中那个神秘的Scaled Dot-Product Attention公式时是否曾被各种矩阵运算绕得头晕目眩让我们换种方式——用NumPy亲手构建一个自注意力机制你会惊讶地发现那些看似复杂的Q、K、V矩阵交互本质上只是一系列精心设计的向量游戏。1. 环境准备与数据建模在开始编写注意力机制之前我们需要先搭建一个极简的实验环境。打开你的Python环境推荐Jupyter Notebook导入以下基础工具包import numpy as np from scipy.special import softmax为了保持实验的直观性我们构造一个包含3个单词的微型句子Thinking Machines。这里的每个单词将被表示为512维的嵌入向量——这是Transformer架构的典型配置# 构造3个单词的词嵌入矩阵 (3x512) word_embeddings np.random.randn(3, 512) # 随机初始化代替真实嵌入 # 单词索引映射 word_index {Thinking: 0, Machines: 1, END: 2}提示实际应用中词嵌入通常通过训练获得这里使用随机初始化仅用于演示目的2. 权重矩阵QKV的诞生之谜自注意力机制的核心在于学会动态生成三种不同的向量表示查询(Query)、键(Key)和值(Value)。这些向量都源自同一输入但通过不同的权重矩阵进行投影# 定义可训练的权重矩阵 (512x64) W_Q np.random.randn(512, 64) # 查询权重 W_K np.random.randn(512, 64) # 键权重 W_V np.random.randn(512, 64) # 值权重 # 生成Q、K、V矩阵 Q word_embeddings W_Q # (3x512) (512x64) → 3x64 K word_embeddings W_K # 同上 V word_embeddings W_V # 同上为什么选择64维这是原始Transformer论文中的设计选择——将512维的嵌入压缩到64维的注意力空间既保留了足够的信息量又控制了计算复杂度。3. 注意力分数的计算艺术现在进入最精妙的部分通过查询和键的交互计算注意力分数。这个阶段决定了每个单词应该关注句子中的哪些部分# 计算缩放点积注意力分数 attention_scores Q K.T / np.sqrt(64) # (3x64) (64x3) → 3x3 # 应用Softmax归一化 attention_weights softmax(attention_scores, axis1)让我们分解这个3x3的注意力矩阵行代表查询(query)单词列代表键(key)单词每个元素表示两个单词之间的关联强度例如attention_weights[0,1]表示Thinking对Machines的关注程度。通过打印这个矩阵你会看到类似这样的模式[[0.9, 0.1, 0.0], [0.3, 0.6, 0.1], [0.1, 0.2, 0.7]]这显示第一个单词(Thinking)主要关注自身(0.9)而对其他单词关注较少——这是自注意力在学习单词间关系时的典型行为。4. 注意力输出上下文感知的表示最后一步是将注意力权重应用于值矩阵生成每个单词的上下文相关表示# 计算加权值向量和 Z attention_weights V # (3x3) (3x64) → 3x64这个输出矩阵Z的每一行都是原始单词嵌入的精炼版其中包含了句子级别的上下文信息。例如Thinking的新表示融合了它与其他单词的关系标记的表示现在包含了句子结构的线索5. 可视化与扩展实践为了更直观地理解我们可以用热力图展示注意力权重import matplotlib.pyplot as plt plt.imshow(attention_weights, cmapviridis) plt.colorbar() plt.xticks(range(3), [Thinking, Machines, END]) plt.yticks(range(3), [Thinking, Machines, END]) plt.title(Attention Weights Heatmap) plt.show()当你运行这段代码时会看到一个色彩鲜明的矩阵其中明亮的对角线通常表示单词对自身的强烈关注——这是自注意力机制的典型特征。如果想进一步探索可以尝试以下扩展实验修改输入句子的长度观察注意力模式的变化调整嵌入维度(如改为256维)比较计算效率添加位置编码解决纯自注意力缺乏位置信息的问题6. 自注意力与RNN/CNN的思维差异与传统序列模型相比自注意力机制展现出独特的优势特性RNNCNNSelf-Attention并行计算不支持支持支持长距离依赖困难需要多层直接建模计算复杂度O(n)O(kn)O(n²)可解释性低中等高(通过注意力权重)这种全局视野使Transformer能够同时处理序列中的所有关系而不像RNN那样受制于顺序处理。在实际项目中这种特性对于理解长文档中的指代关系特别有效。7. 工程实践中的常见陷阱虽然我们的示例代码简洁明了但在真实场景中实现自注意力时有几个关键点需要注意数值稳定性当嵌入维度较大时点积结果可能爆炸性增长导致Softmax饱和解决方案缩放因子(1/√dₖ)必不可少内存消耗序列长度的平方复杂度限制了长文本处理优化策略采用分块计算或稀疏注意力模式训练动态随机初始化的QKV矩阵可能导致训练初期不稳定技巧使用Xavier初始化或残差连接缓解# 改进的初始化示例 W_Q np.random.randn(512, 64) / np.sqrt(512) # Xavier初始化8. 从单头到多头注意力的自然演进我们实现的单头注意力已经能捕捉单词间的基本关系但真正的Transformer使用多头注意力机制——本质上并行运行多个独立的注意力子空间每个头学习不同的关系模式# 简化的多头注意力实现 num_heads 8 head_dim 64 // num_heads multi_head_Z [] for _ in range(num_heads): # 每个头有独立的QKV权重 W_Q np.random.randn(512, head_dim) / np.sqrt(512) W_K np.random.randn(512, head_dim) / np.sqrt(512) W_V np.random.randn(512, head_dim) / np.sqrt(512) # 计算单头注意力 Q word_embeddings W_Q K word_embeddings W_K V word_embeddings W_V # 缩放点积注意力 attention_scores Q K.T / np.sqrt(head_dim) attention_weights softmax(attention_scores, axis1) Z attention_weights V multi_head_Z.append(Z) # 拼接所有头的输出 multi_head_Z np.concatenate(multi_head_Z, axis1) # (3x64)这种设计让模型能够同时关注不同位置的不同关系模式——就像人类阅读时会同时注意语法结构、语义关联和指代关系等多个方面。