面试-Linear Attention的学习

张

张建站

2026/4/6 2:11:57

10分钟阅读

Linear Attention 学习笔记0. Linear Attention 的目的与背景0.1 标准 Attention 的瓶颈在 Transformer 的标准 Self-Attention 机制中，注意力分数的计算方式如下：Attention(Q,K,V)=softmax(QKTd)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)VAttention(Q,K,V)=softmax(dQKT)V其中：Q,K,V∈Rn×dQ, K, V \in \mathbb{R}^{n \times d}Q,K,V∈Rn×d：分别代表查询（Query）、键（Key）、值（Value）矩阵。nnn：序列长度（Sequence Length）。ddd：隐藏层维度（Head Dimension）。复杂度分析：计算QKTQK^TQKT：矩阵形状为(n×d)×(d×n)(n \times d) \times (d \times n)(n×d)×(d×n)，结果是一个n×nn \times nn×n的注意力矩阵。计算复杂度为O(n2d)O(n^2d)O(n2d)（左行右列乘一下就知道了：d次乘法 * n行 * n行）。再乘以VVV：(n×n)×(n×d)(n \times n) \times (n \times d)(n×n)×(n×d)，复杂度仍受n2n^2n2主导，计算复杂度仍为O(n2d)O(n^2d)O(n2d)。其中，ddd为固定值，那么当序列长度nnn变大时（例如长文本、高分辨率图像），n2n^2n2的内存和计算开销会急剧增加，这成为了限制 Transformer 处理长序列的主要瓶颈。0.2 Linear Attention 的核心思想Linear Attention 的目标是将复杂度从O(n2d)O(n^2d)O(n2d)降低到O(nd2)O(nd^2)O(nd2)。由于通常d≪nd \ll nd≪n且ddd是固定的，这相当于实现了关于序列长度nnn的线性复杂度。实现原理：利用矩阵乘法的结合律标准 Attention 的计算顺序是先算QKTQK^TQKT（n×nn \times nn×n），再乘VVV。如果我们改变计算顺序，先算KTVK^T VKTV（d×dd \times dd×d），再让QQQ去乘这个结果，复杂度就会改变。数学变换如下（忽略 softmax 和归一化系数）：Output=Q(KTV) \text{Output} = Q (K^T V)

OpenClaw本地缓存优化：千问3.5-35B-A3B-FP8重复任务响应速度提升方案

OpenClaw本地缓存优化：千问3.5-35B-A3B-FP8重复任务响应速度提升方案 1. 为什么需要本地缓存优化在使用OpenClaw对接千问3.5-35B-A3B-FP8模型进行日常自动化任务时，我发现一个明显的性能瓶颈：重复任务的响应速度。比如每天定时执行的日报生…...

2026/4/6 2:05:44 阅读更多 →

嵌入式社招避坑指南：从Linux应用到RTOS的转型实战（附字节跳动面经解析）

嵌入式开发者转型实战：从Linux应用到RTOS的核心突破点在嵌入式开发领域，Linux应用开发和RTOS开发看似同属嵌入式范畴，实则存在显著差异。许多拥有1-3年Linux应用开发经验的工程师，在尝试转向RTOS开发或应聘相关岗位时&#xff0c…...

2026/4/6 2:02:40 阅读更多 →

嵌入式开发必备：ToolKit工具包设计与实战

1. 嵌入式开发者的瑞士军刀：ToolKit工具包深度解析在嵌入式开发领域，我们经常需要重复实现一些基础功能模块。每次新项目都重写队列管理、定时器调度和事件处理，不仅效率低下，还容易引入隐蔽的bug。今天要介绍的ToolKit正是为解决…...

2026/4/6 2:02:39 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章