Bert模型

张

张建站

2026/5/22 22:46:39

10分钟阅读

一、定义只用做 Transformer 架构的编码器Encoder堆叠多层训练出一个懂文本语言的通用特征提取器二、BERT 机制1.双向注意力Bidirectional Attention①定义普通 RNN/LSTM 只能从左到右看一句BERT 可以同时看一句话的左右两边双向每个位置可以关注左边所有词右边所有词。一句话内也就是上下文 full context无任何未来遮挡。例如句子“我喜欢吃苹果因为它很甜。”BERT 看 “苹果” 时左边喜欢吃右边很甜同时理解真正双向注意力②标准自注意力公式也即双向注意力公式Q查询当前词K键所有词V值所有词无 mask2.多头注意力Multi-HeadBERT 注意力是多头并行。每一头都是完整双向注意力每头学习不同语义关系主谓、指代、上下文关联…最后拼接输出三、BERT 预训练任务任务模型的任务看【最后一层输出损失函数】怎么定义同一个模型结构只要改最后输出层和损失任务完全变掉。1.Bert模型Bert 模型主体完全不动只改最后一层① 输出每个 token 预测原词交叉熵损失→MLM 任务掩码语言模型② 输出CLS 向量二分类IsNext/NotNext 交叉熵→NSP 任务下一句预测③ 输出CLS 向量二分类积极 / 消极→情感分析任务④ 输出每个 token 分类B/I/O→NER 命名实体识别⑤ 输出每个 token 做分类起止位置→阅读理解问答任务2. 再看 GPTGPT 结构Decoder本身也不是生成模型只是因为它最后输出 “下一个词概率” 自回归损失才变成生成模型。1. MLMMasked Language Model掩码语言模型随机遮住 15% 的词让模型去猜。例子“我喜欢吃 [MASK]因为它很甜。”模型要猜是苹果香蕉还是橘子目的让模型学会双向上下文推理。2. NSPNext Sentence Prediction下句预测给模型两句话判断是不是同一段文章的连续两句输出是 / 不是二分类。目的让模型学会段落级别的逻辑关系。四、BERT 的输入Token Embedding词向量Segment Embedding句子编号向量A 或 BPositional Encoding位置向量BERT 的输入向量是由三种 Embedding 直接相加得到的[CLS] 和 [SEP] 作用[CLS]分类专用 token.最后一层 [CLS] 代表整个句子的语义向量[SEP]句子分隔符注意力边界句间隔离不让两句词互相看见五、Bert预训练流程以下列图片为例1.分词将 “商将务大床房”拆成单个汉字商务大床房。这是 BERT 的中文分词方式按单个字 / 词切分也可以是词粒度但中文 BERT 通常用字粒度。注意实际 BERT 分词器还会加上特殊符号商务大床房→商务大床房最终序列是[CLS] 商务大床房 [SEP]2.生成标准输入向量1.input_ids词表索引(101, 2112, 555, 2315, 13145, 32141, 102)每个数字代表该 token 在词表中的索引101是[CLS]的 ID102是[SEP]的 ID后续模型会通过这些 ID在嵌入层查表得到词向量2.mask注意力掩码(1,1,1,1,1,1,1, 0,0,0,0,0,0,0,0,......)1代表真实 token模型需要处理0代表 padding填充的无效 token模型会忽略作用让所有输入序列长度一致不影响注意力计算3.seq_idssegment_ids句子标记(0,0,0,0,0,0,0,0 ........................)标记每个 token 属于哪个句子0代表第一句1代表第二句这张图是单句输入所以全是0如果是句子对任务如问答第一句标0第二句标13.Embedding 嵌入根据标准输入向量得到3种EmbeddingToken Embedding词嵌入———— input_idsSegment Embedding句子嵌入———— seq_idsPosition Embedding位置嵌入————pos_idsBERT 把这三种向量直接相加得到每个 token 的最终输入向量嵌入的实际操作input_idsseq_idspos_ids 各自通过一次全连接输出维度为768的向量4.多头自注意力Multi-Head Attention1.输入向量 Embeedding 经过3个分别的全连接线性变换得到Query(Q)、Key(K)、Value(V)2.计算多头注意力把 Q/K/V 分成多个头每个头独立计算注意力再拼接起来3.输出的向量维度和输入保持一致还是7685.Add Norm残差连接与层归一化第1次1.Add残差连接把「多头注意力的输出」和「原始输入向量」直接相加2.Norm层归一化对相加后的结果做层归一化稳定分布结果输出的向量维度和输入保持一致还是768作为下一层前馈网络的输入6.前馈神经网络Feed Forward这是一个两层的全连接网络 LinearBERT 里的标准结构是第一层Linear(768 → 3072)然后加激活函数GELU第二层Linear(3072 → 768)恢复维度作用对每个位置的向量做非线性变换提取更复杂的语义特征7.Add Norm残差连接与层归一化第2次Add把「前馈网络的输出」和「前馈网络的输入」直接相加Norm对相加后的结果做层归一化稳定分布输出的向量维度和输入保持一致还是768传给 BERT 的下一层或者传给Pooler output层8.Pooler output1.取最后一层[CLS]token 的 hidden state也就是从 BERT 输出的最终向量里只拿出每句话的第 0 个位置 [CLS]。即每句话开头的[CLS] 768维向量【以BERT-base 的 768 为例】为什么要拿[CLS] 768 维向量因为[CLS] 经过了全部 12 层双向注意力它融合了整句话所有词的信息所以可以当作句子的总代表向量2.拿到 [CLS] 768 维向量后通过一个全连接层Linear Tanh 激活公式pooler_outputtanh(W⋅CLS_hiddenb)输入维度hidden_sizeBERT-base 是 768输出维度和输入一样也是 768作用把[CLS]的向量映射成一个 “句子级的向量表示”9.输出给解码器

随机性之海：在不确定的世界中修筑你的航道

1. 幸存者的幻觉二战时期，英国皇家空军曾陷入一个著名的认知困境。当轰炸机从德国上空返航时，机身往往布满弹孔。工程师们忙着在弹孔最密集的地方——机翼、机身中段、尾部——加装装甲。逻辑看似直白：哪里中弹多，哪里就该加固。…...

2026/5/14 11:49:27 阅读更多 →

探索三维流固耦合中岩石试样孔隙度变化的奇妙世界

三维流固耦合，考虑岩石试样孔隙度变化在工程和科学研究领域，三维流固耦合问题一直是备受关注的焦点，而当考虑到岩石试样孔隙度变化时，这个问题更是增添了不少复杂性与趣味性。三维流固耦合基础概念简单来说，流固耦合…...

2026/5/14 11:49:26 阅读更多 →

新手必学！3个OpenClaw基础Skill快速上手，5分钟搞定实操任务

新手必学！3个OpenClaw基础Skill快速上手，5分钟搞定实操任务在前两篇内容里，我们先是吃透了OpenClaw Skill的核心概念，又完成了全平台的环境部署、Skill安装加载与必装技能配置，理论和准备工作都已经到位。很多新手安装…...

2026/5/14 11:49:24 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/22 17:23:01 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/22 17:49:20 阅读更多 →