文章目录前言一、huggingface国内1.引入库2.LLM 大模型语言的基础知识2.LLM主要类别架构介绍3.卷积神经网络CNN4.循环神经网络总结全文通俗总结一、入门工具Hugging Face二、LLM底层核心语言模型的进化三、主流LLM架构大盘点四、深度学习基础两大核心神经网络五、最终总结前言例如随着人工智能的不断发展机器学习这门技术也越来越重要很多人都开启了学习机器学习本文就介绍了机器学习的基础内容。一、huggingface国内官网链接https://huggingface.co/国内镜像站https://hf-mirror.com/# 二、使用步骤1.引入库循环神经网络2.LLM 大模型语言的基础知识通俗的讲是N-gram 核心就是用统计预测下一个词最常用的是二元Bigram和三元Trigram模型。核心原理极简版核心假设下一个词只跟前面有限个词有关Bigram 只看前 1 个词。计算逻辑统计语料库中词对出现次数比如 “我” 后面跟 “想” 的次数。用 “词对次数 / 前词总次数” 算出概率。比如表格中 P (想 | 我)800/2100≈0.38P (去 | 想)3/9000.003。关键表格含义左表C (Wi-1, Wi)—— 连续两个词同时出现的次数。右表C (Wi-1)—— 前一个词单独出现的总次数。概率公式P(Wi​∣Wi−1​)C(Wi−1​)C(Wi−1​,Wi​)​通俗类比就像输入法联想输入 “我”推荐 “想” 的概率远高于 “篮球”因为统计数据里 “我 想” 出现得最多。神经网络语言模型NNLM它是 N-gram 的 “进化版”核心用神经网络替代纯统计能捕捉词之间更复杂的关联而非简单算词频。核心目标一句话概括给你前 n-1 个词比如 “我想喝”通过神经网络预测下一个最可能的词比如 “水”。逐步骤通俗拆解输入层把词变成向量查表不能直接读 “词”得转成数字向量词向量。图中Table look-up in C就是 “查词表”把w_{t-n1}…w_{t-1}这些词转成对应的向量C(w)。比如 “我”→向量 A“想”→向量 B把这些向量拼起来形成一个长向量 x作为网络输入。隐藏层提取特征全连接 激活把长向量 x 喂进全连接层做线性计算后再用tanh激活函数处理。这一步是核心 “计算”作用是把前 n-1 个词的向量融合提取出能表示上下文的特征比如捕捉 “我想喝” 里的 “口渴” 语义。输出层预测下一个词归一化概率最后接一个全连接层输出 V 个节点V 是词汇总数每个节点对应一个词的 “未归一化分数”logits。用softmax把这些分数转成概率总和为 1概率最高的那个词就是模型预测的下一个词。和 N-gram 的核心区别表格对比维度 N-gram 神经网络语言模型核心逻辑 纯统计词频 神经网络学习语义词的表示 独热编码稀疏 词向量稠密、有语义关联捕捉 固定窗口内的简单关联 复杂语义关联如长距离依赖通俗类比N-gram 像记 “口头禅频率”“我” 后面说 “想” 的次数多就猜下一个是 “想”神经网络语言模型像理解 “语境”结合 “我、想、喝” 的语义精准猜下一个是 “水 / 奶茶”而非盲目按频率选。2.LLM主要类别架构介绍BERT的核心架构并将其与GPT、ELMo做了横向对比。BERT 本质是一个基于 Transformer 的双向语言模型它是当前 NLP自然语言处理的基石。以下是结合图表的极简通俗解释核心定位BERT 是什么正如图中文字所说BERT 是一个典型的双向编码模型。通俗理解它像一个 “阅读理解大师”能同时看左下文和右下文来理解词义比如判断 “ bank ” 在 “河岸” 和 “银行” 里的意思。对比看架构BERT左边直接堆叠多层 TransformerTrm信息双向流动看的最全。GPT用的是单向 Decoder 结构只能往左看有局限性。ELMo简单拼接左向和右向 LSTM不如 BERT 融合得好。BERT 的三大核心模块宏观上BERT 由下往上分为三层功能各不相同① 底层Embedding词嵌入模块作用把输入的字 / 词变成计算机能看懂的向量。构成不仅包含词向量还加上了位置向量知道词的顺序和句子向量区分是哪句话。② 中间层Transformer核心编码模块作用BERT 的 “大脑”。由多层图中画了两层实际通常 12 层 / 24 层Transformer 编码器堆叠而成。关键机制利用Attention注意力机制让每个词都能同时关注到句子里的其他所有词双向从而深度理解语义关联。③ 顶层Pre-training预训练模块作用模型训练好后的 “应用层”。流程接收 Transformer 提取的深层特征经过简单的全连接层输出最终的预测结果比如做分类、提取特征等。一句话总结流程输入词 → Embedding 转向量 → Transformer 双向理解语义 → 输出任务结果初代 GPT 训练用的数据集BooksCorpus以及 OpenAI 选它的两个核心理由。数据集基本信息规模约 5GB 文本包含 7400 万 句子来自 7000 本不同风格、不同类型的书籍。本质一个专门用于预训练大语言模型的书籍语料库。选择这个数据集的两个核心原因通俗版01 练 “长文理解” 能力书籍里有大量高质量长句子、连贯的长段落能让 GPT 学会长距离的上下文依赖。比如小说里 “他十年前埋下的盒子今天终于挖了出来”模型要能把 “十年前” 和 “今天” 关联起来而不是只看前后几个词。这比用零散的网页、短文本训练更能练出模型的 “全局理解能力”。02 测 “泛化能力”这些书籍没有开源、没有公开下游任务比如问答、分类用的数据集里几乎不会出现这些内容。用它预训练相当于让模型在 “全新的、没见过的文本” 上学通用语言规律而不是死记硬背常见数据。这样训练出来的模型在各种下游任务上的表现会更好真正验证了模型的泛化能力。补充小知识帮你串起之前的内容初代 GPT 是单向自回归模型只能从左到右预测下一个词BooksCorpus 的长文本刚好完美适配它的训练目标让模型在连贯的书籍内容里学习 “根据上文预测下文” 的能力为后续的微调打下基础T5 是个全能型大模型在 Transformer 基础上做了 2 个小优化核心是把所有 NLP 任务都统一成「文本输入→文本输出」的格式。架构小改动人话版层归一化简化了计算去掉偏置把归一化放到残差连接外面训练更稳。位置编码不用固定位置的向量改用「相对距离标量」不同注意力头学自己的位置信息更灵活。训练流程人话版预训练用类似 BERT填空GPT续写的方式学通用语言规律。微调把翻译、问答、摘要等所有任务都改成 “输入文本、输出文本”一个模型搞定所有任务泛化能力超强。一句话总结T5 优化版 Transformer 统一文本到文本格式 双目标预训练是能理解也能生成的全能 NLP 模型。3.卷积神经网络CNNdef train(model,train_dataset): criterionnn.CrossEntropyLoss()# 构建损失函数optimizeroptim.Adam(model.parameters(),lr1e-3)# 构建优化方法epoch100# 训练轮数forepoch_idxinrange(epoch):# 构建数据加载器dataloaderDataLoader(train_dataset,batch_sizeBATCH_SIZE,shuffleTrue)sam_num0# 样本数量total_loss0.0# 损失总和starttime.time()# 开始时间# 遍历数据进行网络训练forx, yindataloader: outputmodel(x)losscriterion(output, y)# 计算损失optimizer.zero_grad()# 梯度清零loss.backward()# 反向传播optimizer.step()# 参数更新# 计算每次训练模型的总损失值 loss是每批样本平均损失值total_lossloss.item()*len(y)# 统计损失和sam_numlen(y)print(epoch:%2s loss:%.5f time:%.2fs%(epoch_idx 1,total_loss / sam_num,time.time()- start))# 模型保存torch.save(model.state_dict(),model/image_classification.pth)4.循环神经网络RNN介绍循环神经网络Recurrent Neural Network, RNN是一种专门处理序列数据的神经网络。与传统的前馈神经网络不同RNN具有“循环”结构能够处理和记住前面时间步的信息使其特别适用于时间序列数据或有时序依赖的任务。我们要明确什么是序列数据时间序列数据是指在不同时间点上收集到的数据这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义当然这里也可以不是时间比如文字序列但总归序列数据有一个特点——后面的数据跟前面的数据有关系。RNN的应用 l 自然语言处理NLP文本生成、语言建模、机器翻译、情感分析等。 l时间序列预测股市预测、气象预测、传感器数据分析等。 l 语音识别将语音信号转换为文字。 l音乐生成通过学习音乐的时序模式来生成新乐曲。总结全文通俗总结这篇文章是大语言模型LLM 深度学习基础的新手入门指南从工具、底层原理、主流模型到神经网络基础和实战代码手把手带你搞懂AI大模型到底是怎么回事核心内容可以拆成5个部分一、入门工具Hugging Face它就是AI圈的“GitHub”是全球最大的大模型、数据集开源仓库官方地址和国内镜像站都给好了解决国内访问慢的问题新手不用从零造轮子直接就能用现成的模型和数据。二、LLM底层核心语言模型的进化这部分讲清了“AI是怎么学会说话、猜下一个词的”核心是两代模型的升级初代N-gram靠“死记词频”干活。比如统计“我”后面跟“想”的次数最多输入“我”就优先猜“想”本质是输入法联想的逻辑只会背规律不会理解语义。进化版神经网络语言模型NNLM不用死记硬背了。先把词转成带语义的向量再用神经网络学习上下文的意思比如看到“我想喝”能理解是要找饮品而不是光看词出现的次数真正学会了“理解语境”。三、主流LLM架构大盘点讲了现在最核心的3类大模型底子一句话说清各自的定位BERT「阅读理解大师」。双向Transformer结构能同时看一句话的前后文精准理解词义最适合做语义理解、文本分类、智能问答这种“读懂文本”的任务。GPT「续写作家」。单向Transformer结构只能从左到右看上文、猜下文天生适合文本生成ChatGPT就是在这个架构上发展来的用大量书籍文本训练练会了长文理解和通用能力。T5「全能翻译官」。把翻译、问答、摘要、分类等所有NLP任务全统一成“输入一段文本、输出一段文本”的格式一个模型就能搞定所有文本任务泛化能力拉满。四、深度学习基础两大核心神经网络补充了大模型的“前辈”——CNN和RNN也是AI最核心的基础组件CNN卷积神经网络「特征提取专家」。最擅长抓局部关键特征原本是做图像识别的也能处理文本文章里不仅讲清了它的结构还附了完整的训练代码新手能直接跑通。RNN循环神经网络「序列处理专家」。专门处理有顺序的数据比如文本、天气预报时序数据自带“记忆功能”能把前面的内容存下来给后面的预测用天生适合文本生成、机器翻译文章里还做了周杰伦歌词生成的实战项目输入开头词就能自动生成歌词把原理落地成了可运行的项目。五、最终总结整篇文章从“AI怎么学会说话”的底层逻辑到主流大模型的区别再到神经网络基础和实战代码完整覆盖了LLM入门的核心内容。核心就是让你搞懂AI大模型的本质是从海量文本里学习语言规律从最开始的死记词频到现在用神经网络深度理解语义一步步变得更智能最终能完成各类文本理解、生成任务。