[LLM初步] Transformer 架构综述

张

张建站

2026/5/22 6:24:14

10分钟阅读

画师竹取工坊大佬们好我是Mem0rin现在正在准备自学转码。如果我的文章对你有帮助的话欢迎关注我的主页Mem0rin欢迎互三一起进步文章目录前言一、什么是 Transformer Transformer 架构Transformer 模型二、Transformer 的构成三、一个简单的例子串起来看看前言这是我在 agent 方向的初步探索希望能在后端学习的过程中走完 LLM 等agent 相关的技术栈分享出来希望能有所帮助。这篇博客主要是整体进行一个简单的表述具体的自然文本处理模型训练和 Transformer 架构的结构等会在后面具体展开。一、什么是 Transformer Transformer 架构Transformer 架构是著名论文《Attention Is All You Need》提出的框架最初用于翻译后来被用于语言模型的自然语言处理上诞生了一系列具有广泛影响力的模型例如 GPT、BERT并逐渐成为现在大模型的基础。Transformer 模型Transformer 模型是已经通过无监督学习完成大量的原始文本训练的语言模型类似于 GPT。这样的模型对训练过后的数据具有统计学意义上的理解但是对于“特定的”任务可能表现就不尽如人意因此针对特定任务的处理还需要对模型进行微调。流程大概为预训练得到语言模型再通过微调迁移学习成我们需要的模型。具体的内容会在后面的模型训练板块讲到。二、Transformer 的构成最初的 Transformer 架构由两部分组成编码器和解码器。图示如下左边的部分为编码器负责接收输入通过自注意机制建立词和词之间的权重关联用数字表示计算其高级表示条目传输给解码器。右侧的部分为解码器接收编码器的输出和用于预测生成的其他输入预测的 output 可能会在之后重复使用自回归这两个部分都基于 Transformer 的一个重要特性注意力层负责告诉模型在处理单词的时候对于不同单词的重视或忽略程度。在编码器中体现为自注意机制分析原文本词和词之间的关联。在解码器中期限为自注意力和交叉注意力的结合一方面通过掩码注意力机制生成文本右上角一方面通过编码器的输出判断输出的准确性右下角。具体的机制会在后面说明。用一个翻译的例子说明三、一个简单的例子串起来看看你是一个专业的翻译员语言模型经过大量的英语文本的学习预学习已经掌握了英语的相关知识现在要求你去翻译美国文学作品由于文学的写作方式美国的风土人情等专业术语和表达还有所欠缺因此你带着专业的英语知识学习了对应的知识点微调迁移学习具备了翻译出信达雅的文学作品的能力。在翻译一个作品时你先精读了一遍原文本对词和文章的联系有了整体的认知编码层自注意力之后着手进行翻译一方面你一边翻译一边审查你前面翻译的文本确定下面要写的翻译文本是通顺且符合语境的解码层自注意力另一方面因为你已经对文章有了整体的认知因此也可以判断这段文本是忠于原文的解码层交叉注意力。并且你会标注上一些不需要关注的单词比如自己阅读的批注避免对原文的翻译产生干扰注意力掩码层

30天AI小白变高手：从零开始掌握AI画图、写文、做视频、提效变现！

每天一个知识点，30 天从 AI 小白到 AI 高手你是不是经常看到别人用 AI 画图、写文章、做视频，自己却连 AI 工具都还没打开过？ 别慌，这篇文章就是为你准备的。我用最通俗的语言，帮你梳理了一条 30 天的 AI 成长路线。…...

2026/5/22 6:21:08 阅读更多 →

1987年4月28日傍晚17-19点出生性格、运势和命运

1987年4月26日下午出生的人，从生理节律的角度看，其精力曲线与“午后型”高度吻合。他们通常在上午和下午前半段状态最佳，而到了晚上容易感到疲惫。理解并顺应这一规律，是预防中年健康问题的关键。生物钟特点：下午是黄金…...

2026/5/22 6:21:06 阅读更多 →

【习题04】计算求和

题目： 求Snaaaaaaaaaaaaaaa的前5项之和，其中a是一个数字， 例如：222222222222222 1、题目分析我们观察这5个数 222*10222222*1022222222*102222222222*102 通过以上列举，我们可以发现规律：每次得到的新a就是…...

2026/5/22 6:00:30 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/21 12:13:15 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/21 5:13:18 阅读更多 →