本文从Transformer架构的核心组件——输入词嵌入入手深入浅出地讲解了词表构建、词嵌入矩阵生成及其正态分布特征。文章通过实例展示了词嵌入维度与语义理解能力的关系并对比了Word2Vec、BERT、GPT等模型在嵌入维度上的演进。高维词向量能够捕捉更复杂的语义联系为理解文本含义提供了坚实基础。对于想要入门大模型的小白程序员来说本文提供了宝贵的理论基础和实践指导值得收藏学习。一、词表在正式探讨输入词嵌入之前首先要讲一下词表的概念在经典 Transformer以及绝大多数基于 Token 的 NLP 模型中词表都是模型架构的“地基”。词表是一个离散的映射表它包含了模型在训练前通过分词算法从海量语料中统计归纳出的所有Token中文公认的翻译为词元。每个Token对应一个唯一的整数编号。词表内容在模型训练开始前就已确定本身并不包含可学习的参数。词表的大小是模型的一个关键超参数它决定了模型能直接识别与表达的“词汇”总量。如果没有预先定义好的词表输入嵌入层Input Embedding Layer就无法构建模型也就无法初始化。我们可以请大模型生成一个查询GPT-4词表的程序# pip install tiktoken # 先安装 import tiktoken # ① 选择对应模型的 tokenizer enc tiktoken.encoding_for_model(gpt-4) # GPT‑4 # enc tiktoken.encoding_for_model(gpt-3.5-turbo) # GPT‑3.5 # ② 查看词表大小 vocab_size len(enc._mergeable_ranks) # 私有属性但公开可用 print(词表大小Token 数:, vocab_size) # 约 100,000 # ③ 列出前 N 条示例 20 条词表内容 for i, token in enumerate(enc._mergeable_ranks.keys()): #if i 20: break print(i, -, token)经过相当长的一段时间的等待我们就可以查看GPT-4的词表长度100256100Ktoken的顺序编号为0~100255也就是说明该模型能够识别的不同token数量上限为100256个。**BERT / RoBERTa**约 30,000 - 50,265BERT-base的词汇表通常为30,522个tokenRoBERTa的词汇表扩展至约50,265个tokenGPT系列40,000 - 约 100,000GPT-1词汇表为40,000GPT-2扩展至50,257GPT-4等后续模型据信进一步扩大约100K二、词嵌入众所周知计算机不能直接处理文本等信息故而需要先将其数字化为0、1编码。与之类似 大模型也不可能直接“读懂文本”也需要先将文本转换为模型能够看懂的数字向量词嵌入矩阵。随机生成的词嵌入矩阵对语言的段落、文本、单词的含义一无所知不能表达任何语义信息。我们可以使用Python的PyTorch库生成一个简单的Python程序模拟生成词嵌入表。为了后面验证的方便暂且设置嵌入维度100。import torch import torch.nn as nn # Transformer经典配置词汇表10000词嵌入维度512 vocab_size 10000 d_model 100 # 【核心】创建词嵌入层内部就是随机初始化的矩阵 embedding nn.Embedding(vocab_size, d_model) # 查看初始权重全是随机数 print(初始词嵌入矩阵前2行) print(embedding.weight[:2]) # 输出2行512列的随机向量随机初始化词嵌入矩阵第1行[-1.3733, 0.4495, -0.0771, 0.3698, -1.6959, -0.2821, -0.8875, 0.8115, -0.2193, -0.0729, 0.9815, 0.3891, 0.3280, 1.7729, 2.1530, 1.1492, 0.1678, 0.1782, -0.9906, -0.0387, 1.2132, 0.5514, -0.5893, 0.5342, -1.5082, -0.8268, 0.2504, -0.9111, -1.6653, 1.1402, -0.3704, -1.8449, -2.6438, 1.7788, -0.8923, 0.9224, 0.3797, 1.2837, -0.8440, 1.0131, -2.2577, -0.2050, -0.3591, 0.6755, -1.3041, -0.1148, 1.5228, -0.8987, -0.4183, -0.4292, 0.2030, 1.4788, 0.5475, -0.1155, 0.7294, 0.3461, -0.3203, -1.0219, 1.0988, 1.1669, 0.8631, 0.1367, -0.0606, -0.3082, -1.7180, -0.4303, 0.2233, -0.5944, -0.0604, -0.6190, 0.6817, -0.7429, -0.2533, 0.1235, 0.3690, -0.0836, -0.6077, 1.9320, -1.6618, -0.8639, 0.8634, -0.1090, 0.9075, -0.8088, -0.0651, 2.5026, 0.7189, 0.2619, 1.3061, -0.8456, 0.9355, -0.2115, -1.4427, 0.5955, -1.9372, -1.3172, 1.4857, 0.4590, -0.8914, -0.4586]仅凭我们的观察很难发现其中的奥秘。有问题找AI我们请大模型帮我们分析这组数据是否符合正态分布样本量 n100均值 ≈−0.064标准差 ≈1.06偏度 ≈ -0.05接近对称峰度 ≈ -0.10接近正态峰度 0均值接近 0标准差接近 1偏度、峰度都接近正态分布的特征如果仍然还有疑惑还可以请大模型帮助我们使用Python语言绘制直观的图像看看是否就是我们熟悉的正态分布模样import numpy as np import matplotlib.pyplot as plt import seaborn as sns from scipy import stats # 1. 准备数据 data np.array([-1.3733, 0.4495, -0.0771, 0.3698, -1.6959, -0.2821, -0.8875, 0.8115, -0.2193, -0.0729, 0.9815, 0.3891, 0.3280, 1.7729, 2.1530, 1.1492, 0.1678, 0.1782, -0.9906, -0.0387, 1.2132, 0.5514, -0.5893, 0.5342, -1.5082, -0.8268, 0.2504, -0.9111, -1.6653, 1.1402, -0.3704, -1.8449, -2.6438, 1.7788, -0.8923, 0.9224, 0.3797, 1.2837, -0.8440, 1.0131, -2.2577, -0.2050, -0.3591, 0.6755, -1.3041, -0.1148, 1.5228, -0.8987, -0.4183, -0.4292, 0.2030, 1.4788, 0.5475, -0.1155, 0.7294, 0.3461, -0.3203, -1.0219, 1.0988, 1.1669, 0.8631, 0.1367, -0.0606, -0.3082, -1.7180, -0.4303, 0.2233, -0.5944, -0.0604, -0.6190, 0.6817, -0.7429, -0.2533, 0.1235, 0.3690, -0.0836, -0.6077, 1.9320, -1.6618, -0.8639, 0.8634, -0.1090, 0.9075, -0.8088, -0.0651, 2.5026, 0.7189, 0.2619, 1.3061, -0.8456, 0.9355, -0.2115, -1.4427, 0.5955, -1.9372, -1.3172, 1.4857, 0.4590, -0.8914, -0.4586]) # 2. 设置绘图风格 sns.set(stylewhitegrid) # 设置网格背景 # 设置中文字体路径 plt.rcParams[font.sans-serif] [SimHei] # SimHei 是黑体的意思你也可以尝试 Microsoft YaHei 等其他中文字体 plt.rcParams[axes.unicode_minus] False # 正确显示负号 plt.figure(figsize(10, 6)) # 3. 绘制直方图 # densityTrue 表示绘制概率密度以便与曲线面积对应 # bins15 表示分15个桶可以根据数据量调整 plt.hist(data, bins15, densityTrue, alpha0.6, colorskyblue, edgecolorblack, label数据直方图) # 4. 计算拟合曲线的参数 mu, sigma np.mean(data), np.std(data) x np.linspace(min(data), max(data), 100) # 生成x轴数据点 # 计算对应的正态分布概率密度 y值 y stats.norm.pdf(x, mu, sigma) # 5. 绘制正态拟合曲线 plt.plot(x, y, r-, linewidth2, labelf正态拟合曲线\n($\mu${mu:.2f}, $\sigma${sigma:.2f})) # 6. 添加图例和标题 plt.title(数据正态分布拟合验证图, fontsize16) plt.xlabel(数值, fontsize12) plt.ylabel(概率密度, fontsize12) plt.legend() # 显示图例 # 显示图形 plt.show()数据维度越大越接近正态分布足以说明输入词嵌入的随机矩阵并不是漫无目的随机而是符合严格的数学规律。当然具体的随机生成算法会随着Transformer架构相关技术的发展演进而不断变化。三、维度和语义观察我们自己以及身边的人不难发现极其聪明与很不聪明的人毕竟只是少数绝大多数都是像我一样的普通人这何尝不是一种广泛存在的正态分布。我们的智力水平基础与脑容量显著相关这是人类进化历程与脑科学研究的基本共识。词表的大小和词嵌入维度的高低共同构成大模型的基础“脑容量”我们可以把词嵌入向量想象成给每个词语画一张全面、立体的画像就像我们描述一个人不能只说性别或年龄要结合身高、性格、爱好、职业等很多特征才能更完整地认识一个人。词向量的每一个维度就是一个隐藏特征可能代表褒贬义、时态、主动被动、抽象还是具体、情感强弱、积极消极等等维度越多画像越细致入微。两个词向量越接近就说明它们在语义上越像就像两个性格爱好高度相似的人。Transformer 就是通过对比这些 “语义画像”理解词语之间的关系从而“读懂”整句话的含义。Transformer架构诞生之前的自然语言处理模型Word2Vec词嵌入维度只有200左右我们不难理解复杂语义理解难度与计算速度等瓶颈所在。直到自注意力机制、并行计算等技术的迭代革新有更高的数据维度、更快的计算速度支撑的Transformer方才得以引领生成式人工智能的一日千里、推陈出新。Word2Vec通常设置在 200 维左右BERT-Base维度为 768 维DeepSeek V2 Lite其隐空间维度为 2048 维DeepSeek V3嵌入维度达到了 7168 维GPT-3其 Token 维度高达 12288 维Llama 3向量维度达到了 16384 维高维度的向量表示为更复杂的语义联系提供了更大的可能性这些维度的划分通常不是人类手动定义而是模型通过阅读海量文本自己“悟”出来的。比如模型可能会发现在某个维度上“高兴”、“快乐”、“兴奋”的数值都很高而“悲伤”、“痛苦”的数值很低那么这个维度就自动代表了“积极情感”而在另一个维度上“昨天”、“过去”、“曾经”可能数值很高而“明天”很低这个维度就代表了“时间性”。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】