AI 学习路线 01:一文讲清 AI、机器学习、深度学习和大模型的关系
AI 学习路线 01一文讲清 AI、机器学习、深度学习和大模型的关系前言现在 AI 很火但很多人刚开始学的时候最容易被一堆概念绕晕AI 是什么机器学习和深度学习有什么区别大模型和 ChatGPT 是一回事吗模型、参数、训练、推理到底是什么意思为什么说大模型不是数据库普通人、开发者、企业分别应该怎么用 AI这篇文章是我的 AI 学习系列第一篇目标不是一上来就讲复杂公式而是先建立一个清晰的知识地图。如果你刚开始学习 AI建议先把这篇看完。后面再学 Python、机器学习、深度学习、Prompt、RAG、Agent会顺很多。一、先看整体关系AI、机器学习、深度学习、大模型之间可以理解成一层套一层的关系人工智能 AI ├─ 规则系统人手写规则 └─ 机器学习 Machine Learning ├─ 传统机器学习分类、回归、聚类、推荐 └─ 深度学习 Deep Learning └─ 大模型 Large Model ├─ 大语言模型 LLM └─ 多模态模型一句话概括AI 是目标机器学习是实现 AI 的重要方法深度学习是机器学习的一个分支大模型通常是深度学习发展到大规模之后的结果。分别解释一下。1. AI人工智能AI 是最大的概念。只要机器表现出某种类似“智能”的能力都可以归到 AI 这个大范围里例如看懂图片听懂语音理解文本进行推理自动规划生成文章写代码辅助决策所以AI 不等于 ChatGPT。ChatGPT 只是 AI 发展到大模型阶段后的一个典型应用。2. 机器学习让机器从数据中学习规律机器学习的核心是不完全依赖人手写规则而是让模型从数据中学习规律。比如以前做客服系统可能会写规则如果用户消息中包含“退款”就进入退款流程。 如果用户消息中包含“发票”就进入发票流程。这种方式简单直接但真实用户不会总按关键词说话。用户可能会说我买错了能不能退 这个订单不想要了。 钱什么时候能回来这些句子里不一定出现“退款”两个字但意思仍然是退款。机器学习的做法是收集很多历史样本用户表达标签我买错了能不能退退款钱什么时候回来退款帮我开票发票发票抬头怎么改发票模型通过这些样本学习哪些表达更像退款哪些表达更像发票。这就是从“人写规则”变成“模型学规律”。3. 深度学习用神经网络学习复杂模式深度学习是机器学习的一个重要分支。它的核心是多层神经网络适合处理更复杂的数据和模式比如图像识别语音识别机器翻译文本生成视频理解传统机器学习很多时候需要人工设计特征而深度学习更擅长从原始数据中自动学习特征。4. 大模型规模更大的深度学习模型大模型通常“大”在几个方面参数规模大训练数据多算力消耗高任务能力更通用普通模型可能只会完成一个任务比如判断邮件是不是垃圾邮件。大模型则可以完成很多任务问答总结翻译写作写代码分析数据生成计划识别图片调用工具大语言模型也就是 LLM是大模型的一种主要处理文本。现在很多模型已经发展成多模态模型不只看文字也能处理图片、音频、视频和屏幕内容。二、从规则系统到机器学习为了更直观理解可以看下面这个对比。规则系统 人写规则 - 程序执行规则 - 输出结果 机器学习 样本数据 - 模型训练 - 学到规律 - 输入新问题 - 输出预测结果规则系统适合规则明确、变化不大的场景。例如如果金额大于 10000 元需要主管审批。这个规则很明确用 if-else 就够了。但如果问题是判断这段评论是正面还是负面。 判断这个用户是否可能流失。 判断这张图片里有没有缺陷。这类问题很难完全靠人写规则因为表达方式太多、情况太复杂。这时候机器学习就更适合。三、模型、参数、训练、推理是什么学习 AI 时有几个词一定要先搞清楚概念通俗解释例子模型根据输入产生输出的系统输入文章输出摘要参数模型内部可以被学习和调整的数字神经网络中的权重训练用数据调整参数让模型学会识别垃圾邮件推理使用训练好的模型输入一封新邮件判断是否垃圾邮件损失函数衡量预测结果和正确答案差多远预测 80 分真实 100 分优化器决定参数怎么调整梯度下降、Adam训练是什么训练可以理解成给模型一个样本 模型先猜一个答案 和正确答案比较 发现错了多少 调整内部参数 重复很多次也就是数据 - 预测 - 计算误差 - 调整参数 - 再预测举个垃圾邮件识别的例子。训练数据可能是邮件内容标签恭喜你中奖了垃圾邮件免费领取大奖垃圾邮件明天下午开会正常邮件项目报价单见附件正常邮件模型一开始可能判断不准但经过大量样本训练后内部参数会不断调整逐渐学会哪些表达更像垃圾邮件。推理是什么推理就是使用已经训练好的模型。比如训练完成后来了一封新邮件输入限时领取现金红包 输出垃圾邮件这时候模型一般不再更新参数只是使用已经学到的参数做判断。训练和推理的区别可以总结成对比训练推理目的学会规律使用规律是否调整参数通常会通常不会数据量通常很大可以只有一个输入成本高相对低例子用百万邮件训练模型判断一封新邮件四、AI 为什么能学习AI 的学习不是有意识地理解世界而是通过数据和反馈调整参数。核心链路是输入数据 - 模型预测 - 计算误差 - 调整参数 - 重复很多次1. 损失函数告诉模型错得多远损失函数可以理解成“扣分器”。例如预测房价真实房价预测房价误差300 万200 万100 万300 万250 万50 万300 万295 万5 万误差越小模型表现越好。训练的目标就是让损失越来越小。2. 梯度下降告诉模型往哪改知道错了还不够还要知道参数应该怎么改。梯度可以先理解成参数往哪个方向调整损失会下降得更快。梯度下降就是沿着让损失变小的方向一步步调整参数。可以用“下山”来类比下山类比AI 中的概念山的高度损失你当前的位置当前参数往下走的方向梯度方向每次走多远学习率山谷损失较小的位置3. 泛化真正有用的是会做新题如果模型只是记住训练样本那意义不大。真正有价值的是模型能从训练数据中学到规律并在没见过的新数据上表现良好。这叫泛化能力。反过来如果模型在训练集上表现很好但遇到新数据就不行这叫过拟合。情况表现欠拟合训练集和新数据都差正常学习训练集好新数据也不错过拟合训练集很好新数据差五、大模型不是数据库这是学习大模型时非常重要的一个误区。很多人会以为大模型见过很多数据所以它应该像数据库一样能准确查出所有答案。但实际上大模型不是数据库。数据库大模型精确存储数据参数中压缩了大量统计规律适合查询确定信息适合理解、生成、归纳、迁移查询结果通常稳定输出可能受上下文和采样影响数据更新明确训练后的知识可能过时权限边界清晰需要额外设计权限和安全数据库更像问订单 123 的金额是多少 查表订单 123 98 元 答98 元大模型更像基于训练中学到的语言模式和上下文 生成一个可能合理的回答所以大模型擅长生成、总结、改写、推理但也可能出现回答过时编造信息不知道企业内部资料对细节不够可靠如果企业想让 AI 回答内部制度正确思路通常不是让模型猜而是使用 RAG。RAG 的核心流程是用户问题 - 检索企业内部文档 - 取出相关片段 - 交给大模型生成回答 - 输出带引用的答案这样模型回答时有资料依据可靠性会更高。六、普通人、开发者、企业分别怎么用 AI不同角色使用 AI 的方式不一样。1. 普通人提高个人效率普通人用 AI核心是提高学习、写作、办公和信息处理效率。常见场景场景AI 可以做什么学习解释概念、出题、批改、制定学习计划写作写文章、润色、改标题、生成大纲办公总结会议、整理待办、写邮件信息处理总结长文、对比资料、提取重点语言翻译、改写、调整语气创意起名、头脑风暴、脚本、图片创意普通人使用 AI 的关键能力是提问能力也就是后面会学的 Prompt Engineering。差的提问帮我写个总结。更好的提问请把下面这段会议记录整理成 1. 会议结论 2. 待办事项 3. 负责人 4. 截止时间 要求语言简洁输出 Markdown 表格。2. 开发者把 AI 接入产品和流程开发者使用 AI不只是聊天而是把模型接入软件系统。常见方向方向例子模型 API 调用问答、总结、翻译、分类Prompt 编排为不同任务设计稳定提示词RAG让 AI 读取企业文档、产品手册、知识库Agent让 AI 调用工具完成多步骤任务数据处理信息抽取、文本分类、自动标注AI 编程辅助代码生成、生成测试、解释代码LLMOps评估、日志、监控、成本控制开发者要关注的不只是“模型答得好不好”还要关注稳定性 成本 延迟 权限 安全 错误处理 可观测性 可评估性例如企业知识库问答系统不是直接调用一次大模型就结束而是用户问题 - 权限判断 - 检索相关文档 - 拼接 Prompt - 调用模型 - 输出答案 - 展示引用来源 - 记录日志 - 收集用户反馈3. 企业解决业务问题企业用 AI核心不是炫技而是解决业务问题。常见目标降本 提效 增收 控风险 改善体验常见场景部门AI 应用客服智能客服、工单总结、自动回复销售销售话术、客户画像、线索评分市场文案生成、广告创意、竞品分析人力简历筛选、面试题生成、培训助手财务发票识别、报销审核、异常检测法务合同审查、条款提取、风险提示研发代码助手、需求分析、测试生成运营数据分析、用户分群、活动复盘管理会议纪要、知识管理、决策辅助企业落地 AI 时最重要的不是“选哪个模型最强”而是这些问题问题说明数据在哪里是否有可用、可信、合规的数据流程在哪里AI 应该嵌入哪个业务流程谁来审核高风险输出是否需要人工确认怎么评估准确率、召回率、满意度、成本、时延怎么上线权限、日志、监控、回滚、兜底ROI 如何投入成本和业务收益是否匹配七、真实应用里怎么选技术面对一个 AI 需求不要一上来就问“用哪个大模型”。更好的问题是这个问题的核心是什么可以按下面方式判断问题类型常见方案让模型按要求回答Prompt需要接入私有知识RAG需要执行多步骤任务Agent 或工作流需要固定风格或稳定任务模式微调表格预测、风险评分、销量预测传统机器学习图片、语音、视频理解深度学习或多模态模型举几个例子场景更常见方案写文章、总结、翻译Prompt企业知识库问答RAG自动查资料并生成报告Agent 或工作流固定客服话术风格Prompt 或微调预测用户是否流失传统机器学习图片缺陷检测深度学习或视觉模型八、面试中可以怎么回答1. AI、机器学习、深度学习、大模型是什么关系可以这样回答AI 是目标机器学习是实现 AI 的重要方法。 机器学习强调从数据中学习规律而不是完全依赖人工规则。 深度学习是机器学习的一个分支核心是多层神经网络。 大模型通常是深度学习模型在数据、参数和算力上扩大后的结果。 大语言模型是大模型的一类主要处理文本多模态模型可以同时处理文本、图片、音频、视频等信息。2. 训练和推理有什么区别可以这样回答训练是用大量数据调整模型参数让模型学到规律。 推理是使用训练好的模型处理新输入通常不会再更新参数。 比如用历史邮件训练垃圾邮件模型是训练用训练好的模型判断一封新邮件是不是垃圾邮件是推理。3. AI 为什么能学习可以这样回答AI 的学习本质上是通过数据、误差反馈和参数调整完成的。 模型先根据输入做预测再用损失函数衡量预测和正确答案之间的差距。 优化器根据误差方向调整参数重复很多轮后模型会逐渐学到数据中的规律。 真正有价值的模型不只是记住训练集而是能泛化到没见过的新数据。4. 大模型和数据库有什么区别可以这样回答数据库适合精确存储和查询确定数据。 大模型不是逐条查询答案而是通过参数学习数据中的统计规律擅长理解、生成和迁移。 因此大模型可能生成不准确或过时的信息。 如果要回答企业内部制度这类问题通常要结合 RAG把可靠资料检索出来再交给模型回答。5. 企业落地 AI 时为什么不能只看模型强不强可以这样回答AI 项目能否成功不只取决于模型能力。 还要看数据是否可用业务流程是否适合接入 AI输出是否可评估权限和安全是否可控成本和延迟是否能接受。 企业最终关注的是降本、提效、增收、控风险和改善体验而不是单纯使用最热门的模型。九、常见误区误区更准确的理解AI 等于 ChatGPTChatGPT 是 AI 应用的一种不等于整个 AI大模型什么都知道它可能不知道私有知识也可能知识过时模型就是数据库模型是参数化系统不是精确查询系统推理时模型还在学习大多数情况下推理不更新参数Prompt 写好就万能复杂业务还需要 RAG、工具、评估、权限和工程化大模型一定比传统机器学习好表格预测、小数据、强解释场景中传统机器学习仍然有价值选最强模型就能成功AI 项目还依赖数据、流程、评估、安全、成本和组织落地十、自测题下面这些题目来自本篇核心知识点适合看完后快速检查自己是否真正理解。题目Q1. AI、机器学习、深度学习、大模型的关系哪项最准确A. 深度学习包含机器学习机器学习包含 AIB. AI 包含机器学习机器学习包含深度学习大模型通常建立在深度学习之上C. 大模型包含 AIAI 包含机器学习D. 它们完全无关Q2. “如果用户消息包含退款就进入退款流程”更像什么A. 规则系统B. 机器学习C. 深度学习预训练D. 多模态模型Q3. “参数”在模型中通常指什么A. 用户输入的问题B. 模型内部可以被训练调整的数字C. 数据库里的表名D. 程序的页面颜色Q4. 下面哪个过程更像“训练”A. 给已经训练好的模型输入一篇文章让它生成摘要B. 用大量标注样本反复调整模型参数让预测更接近正确答案C. 用户点击提交按钮D. 把模型文件复制到另一个文件夹Q5. 下面哪个过程更像“推理”A. 用历史数据调整模型参数B. 设计损失函数C. 给训练好的垃圾邮件模型输入一封新邮件让它判断是否垃圾邮件D. 清洗训练集里的重复数据Q6. 损失函数的主要作用是什么A. 保存训练数据B. 衡量模型预测和正确答案之间的差距C. 控制网页颜色D. 删除错误样本Q7. 过拟合指什么A. 训练集表现差新数据表现好B. 训练集表现很好但新数据表现差C. 训练和测试都完全无法运行D. 模型没有任何参数Q8. 企业想让 AI 回答内部制度问题优先应该怎么做A. 让通用大模型直接猜B. 把内部资料接入检索或知识库流程让模型基于资料回答C. 只换一个更长的 PromptD. 只训练图片识别模型Q9. 开发者使用 AI 时除了模型效果还应该重点关注什么A. 稳定性、成本、延迟、权限、安全、错误处理和可评估性B. 只关注回答是否看起来长C. 只关注页面颜色D. 不需要日志和监控Q10. 为什么说“选最强模型”不等于“AI 项目一定成功”A. 因为项目还依赖数据质量、业务流程、评估、安全、成本、用户体验和组织落地B. 因为模型强就一定不能用C. 因为 AI 项目不需要业务目标D. 因为企业只需要 Prompt不需要系统设计答案与解析题号答案解析Q1BAI 是最大概念机器学习是方法深度学习是机器学习的重要分支大模型通常建立在深度学习之上。Q2A关键词触发流程是典型人工规则不是模型从数据中学出来的规律。Q3B参数是模型内部可学习、可调整的数字。Q4B训练的核心是用数据调整参数让预测更接近正确答案。Q5C推理是使用训练好的模型处理新输入。Q6B损失函数用于衡量预测和正确答案之间的差距。Q7B过拟合是训练集表现很好但新数据表现差。Q8B企业内部知识通常需要 RAG 或知识库检索让模型基于资料回答。Q9A开发 AI 应用要关注稳定性、成本、安全、权限、日志、监控和评估。Q10AAI 项目成功依赖数据、流程、评估、安全、成本和组织落地不只是模型能力。十一、本篇小结这篇文章先建立了 AI 学习的总体认知。可以记住这几句话AI 是最大概念机器学习、深度学习、大模型是逐层展开的技术路径。机器学习的核心是从数据中学习规律而不是完全靠人写规则。深度学习用多层神经网络学习复杂模式。大模型通过海量数据、大量参数和工程训练获得更通用的能力。模型是输入到输出的系统参数是模型内部可学习的数字。训练是调整参数推理是使用训练好的模型。AI 学习的核心链路是预测、计算误差、调整参数。大模型不是数据库企业知识问答通常需要 RAG。普通人用 AI 提效开发者用 AI 构建系统企业用 AI 改造业务流程。AI 落地不能只看模型强不强还要看数据、流程、安全、成本和 ROI。十二、下一篇预告下一篇准备进入 AI 学习的基础能力AI 学习路线 02学习 AI 前需要掌握哪些 Python 和数据处理基础会重点讲Python 基础要学到什么程度NumPy、Pandas、Matplotlib 分别做什么为什么真实 AI 项目里数据处理非常重要数据清洗、探索和可视化的基本流程