标题【Transformer 组件】前馈网络 FFN位置级非线性变换提升模型表达摘要FFNFeed-Forward Network是 Transformer 编码器/解码器的标配对每个位置独立做两次线性一次非线性增强单位置特征的非线性表达。一、结构两层全连接 非线性激活对每个位置的向量xxxFFN(x)W2⋅σ(W1xb1)b2 \text{FFN}(x) W_2 \cdot \sigma(W_1 x b_1) b_2FFN(x)W2​⋅σ(W1​xb1​)b2​W1,b1W_1, b_1W1​,b1​第一层升维通常 4 倍σ\sigmaσ非线性激活常用 ReLU/GELUW2,b2W_2, b_2W2​,b2​第二层降维回原维度二、特点位置独立每个位置单独计算不跨位置升维再降维中间维度更大增强非线性与注意力互补注意力负责全局关系FFN 负责局部特征变换三、作用引入更强非线性提升模型拟合能力对注意力输出做特征提纯与变换增强单位置语义表达小结FFN 是 Transformer 的**“非线性引擎”**注意力建模全局关系FFN 强化单位置特征二者配合模型既懂上下文又懂细节。