多数产品经理做AI产品决策时依赖的是对AI能力的模糊判断而非对模型能力边界的精准认知。这种认知缺口的后果是需求文档写到一半发现方向不对选型会上被算法一句话怼回来功能上线后才发现成本结构根本不可持续。大模型知识的核心价值不是让你变成算法工程师是让你在选型、功能设计、成本估算三个决策环节不再依赖他人翻译。老王整理了P0级别的20个大模型本体概念直接影响你每天的工作判断。按理解优先级排列聚焦模型本体不涉及Agent架构、知识库、工具调用等应用层内容。不讲数学不背定义只讲你工作中用得到的。01 PART 模型的分类产品经理在规划AI功能时直觉反应往往是调个大模型API就完事了。但实际到了技术评审你会发现处理文字、图片、语音、视频需要的是完全不同的模型。大模型处理的信息类型被称为模态。不同模态对应不同类型的模型这是产品选型的起点。LLM也叫纯文本语言模型只处理文本输入和文本输出。GPT-5.4对话、Claude问答均属此类。绝大多数产品中调用的API是LLM。多模态模型同时处理文本和图片部分支持视频和音频。GPT-5.4、Gemini 3.1、Claude 4.6 Sonnet是多模态模型。产品中需要识别图片内容、分析截图或处理文档扫描件必须调用多模态模型纯文本LLM无法接收图片输入。文生图模型接受文本输入输出图片。Stable Diffusion、DALL-E 3、Midjourney属此类。这是与LLM完全独立的模型类型底层架构不同不能混用API。语音模型分三类。TTS是文字转语音ASR是语音转文字S2S是端到端语音对话。产品中的语音交互功能通常需要单独集成这类模型LLM本身不处理音频。视频生成模型接受文字或图片输入生成视频。Sora、可灵、即梦属此类。当前生成延迟高、帧率和分辨率有限制商业化产品中使用场景集中在内容创作方向。老王的经验是一个需要同时处理文字、图片、语音的产品意味着至少三套模型接入方案。三套接入复杂度和三套计费逻辑规划阶段如果没有识别出来工期预估一定出错。02 PART 开源闭源模型做选型评估时第一个要回答的问题是数据能不能出公司。这个问题的答案直接决定你走闭源还是开源路线。闭源模型的权重不对外公开通过API访问按调用量计费。GPT-4系列、Claude 3系列、Gemini Ultra属此类。数据经API传输会经过第三方服务器处理。适合快速上线的场景无需自行维护模型基础设施。开源模型的权重公开发布可下载到本地服务器运行。Llama 3、Qwen 2.5、DeepSeek-V2属此类。数据不离开自有基础设施满足数据不出境的合规要求。需要团队自行维护GPU算力运维成本由自己承担。两者的核心差异不是模型能力是数据控制权和成本结构。闭源模型的使用成本随调用量线性增长开源模型的成本集中在GPU采购和运维边际成本低。金融、医疗、政务类产品多数选择开源自部署路线根本原因是监管层对数据出境有明确限制。还有一种中间态叫开源不开权重代码和架构公开但模型权重受商业许可约束不能自由商用。选型时需要仔细阅读license文件不能只看GitHub上的开源标签。评估选型方案前先跟法务确认数据合规边界这一步决定了后面所有技术方案的可选范围。03 PART 模型本地云端部署方案评审阶段部署位置是绕不开的问题。部署在哪直接决定了成本结构、延迟水平和数据安全等级。云端部署是模型运行在云服务商的服务器上产品通过网络API调用。延迟受网络条件影响通常100ms到2秒不等。按Token数量或API调用次数计费。这是当前绝大多数AI产品的接入方式上手成本最低。端侧部署是模型运行在用户的设备上比如手机芯片、PC的NPU。数据不通过网络传输延迟低无网络也能运行。受设备算力限制能运行的模型参数量通常在7B以下。苹果的Apple Intelligence、手机厂商的端侧AI功能均属此类。私有化部署是企业采购或租用GPU服务器在自有机房或私有云上运行开源模型。数据不出内网满足最严格的合规要求但GPU采购和运维成本高。三种部署方式的决策维度是成本、延迟、数据安全三者的权衡。方案评审阶段你必须先排好这三个维度的优先级顺序再选择部署方案。把架构决策完全交给工程团队会导致后期因合规问题推倒重来。04 PART 基础模型 vs 对话模型这是最容易混淆的概念对混淆后直接导致选型方向出错。基础模型Base Model仅经过大规模语料预训练学到的能力是根据上下文预测下一个词。这类模型不具备遵循指令的能力直接输入帮我写一份邮件输出是按照训练数据里的概率分布续写文字不一定产出邮件格式内容。基础模型不适合直接面向最终用户。对话模型Chat/Instruct Model在基础模型之上经过指令微调和RLHF对齐这两个概念后面展开具备理解和遵循用户指令的能力。GPT-4-turbo、Claude 3 Opus、Qwen-72B-Instruct均是对话版本。调用API时选择的版本后缀通常是 -instruct、-chat 或 -turbo对应的就是对话模型。你通过API调用的几乎全部是对话模型。基础模型更多用于需要最大化生成多样性的场景比如生成训练数据、创意实验。看模型文档时直接跳到对话版本的章节即可。05 PART 推理模型同样一个复杂分析任务普通对话模型经常漏掉关键逻辑推理模型的准确率明显更高但API账单也跟着翻了好几倍。推理模型是2024年以来出现的新范式与普通对话模型存在本质区别。普通对话模型在接收用户输入后直接生成回复。推理模型在生成最终回复前会执行一段内部的逐步思考过程这个过程通常以隐藏的思维链形式存在对用户不可见但计入Token消耗。代表性模型有OpenAI的o1和o3系列Anthropic的Claude 3.7 Sonnet扩展思考模式阿里的Qwen3系列。数学计算、逻辑推理、代码生成、复杂分析类任务推理模型的准确率显著高于普通对话模型。定性的文字类任务摘要、改写、翻译普通对话模型够用用推理模型只是增加延迟和成本。老王判断你的核心决策点是用户的任务是否需要多步骤推导。客服问答不需要推理模型合同风险分析需要推理模型。这个判断不做清楚产品成本模型就会出现结构性错误。06 PART TokenSystem Prompt明明不长但每次API调用费用就是居高不下。问题可能出在Token的计算方式上。Token是大模型处理文本的最小单位不等于字或词。英文中一个Token平均对应约0.75个单词。中文中一个汉字通常对应1到2个Token具体取决于分词器。处理同样信息密度的文本中文消耗的Token数量高于英文成本更高这个差异在高频调用场景下累积效果显著。Token对你有两个直接影响。第一个是计费。主流大模型API按输入Token和输出Token分开计费输出Token通常比输入Token更贵。写一个功能的System Prompt加上用户输入再加上模型回复三者合计的Token数量决定单次调用成本。System Prompt过长超过3000 Token时每次调用都会重复计费这部分高频场景下累计成本不可忽视。第二个是内容限制。模型的上下文窗口限制了单次能处理的Token总量见概念7。长文档处理时文档内容必须被切分为不超过上下文窗口的片段分批处理这是产品架构设计的硬约束。⚠️ Token · 单次成本基线上线前先算清楚单次调用的Token消耗System Prompt 平均用户输入 平均输出三项乘以单价这就是你的单次成本基线。07 PART Context Window用户上传一份50页的PDF要求总结模型只总结了前10页。不是模型偷懒是Context Window不够了。Context Window是模型在单次推理中能同时处理的最大Token数量包括输入和输出的总和。这个参数直接决定产品能做什么。当Context Window是4K Token时模型大约能处理3000字中文文本。128K Token时能处理约10万字。当前部分模型已达到1M Token的上下文长度对应约75万字的处理能力。产品中的典型约束场景用户上传长文档要求摘要超过Context Window的内容会被截断模型看不到。长对话中历史消息超出Context Window后模型开始遗忘早期内容。代码库分析时Context Window限制了能同时分析的代码文件数量。更大的Context Window通常意味着更高的单次API费用因为推理计算量与输入Token数成正比。设计功能时先明确典型场景下的Token规模据此选择合适的模型版本而不是默认选最大上下文的版本再考虑成本。08 PART Hallucination模型生成的内容读起来很专业引用了数据源和出处但一查发现数据源根本不存在。这就是幻觉。Hallucination是模型生成听起来合理但实际上错误或虚构内容的现象。这不是模型的诚信问题是模型生成机制的固有特性。模型的生成过程是基于统计概率预测下一个Token没有验证机制核查生成内容是否符合事实。幻觉的高风险场景集中在三类生成具体数字引用来源、统计数据、金额生成人名和职位信息可能混淆不同人物的属性描述近期事件模型有知识截止日期截止日期后的事件模型不具备。降低幻觉的产品设计方向有三个。要求模型在回复中标注信息来源。通过检索系统提供原始文档作为上下文让模型基于文档回答而非依赖训练数据。在输出后增加事实验证步骤。 幻觉 · 产品兜底老王的判断是幻觉无法完全消除。你的工作是识别高风险场景并在产品设计中建立兜底机制而不是假设模型输出都是正确的。没有兜底机制的AI产品在C端规模化运营后必然出现严重的用户信任危机。09 PART Temperature同一个Prompt调了三次三次结果完全不一样下游系统解析全报错。问题不在Prompt在Temperature设高了。Temperature是控制模型生成随机性的参数通常取值范围在0到1之间部分模型支持到2。设为0或接近0时模型在生成时倾向于选择概率最高的Token输出结果高度稳定多次调用相同输入通常得到相同或相近的输出。设为较高值0.7到1.0以上时模型在生成时给低概率的Token分配更高采样权重输出结果更多样多次调用相同输入会得到不同结果。需要精确、一致输出的场景数据抽取、格式化输出、代码生成选择低Temperature0到0.2。需要创意多样性的场景文案生成、内容创作、头脑风暴选择中到高Temperature0.7到1.0。Temperature设置错误是很多产品早期体验问题的直接原因。低Temperature的创意产品会显得刻板重复高Temperature的数据提取产品会输出不稳定的字段值。上线前先根据业务场景确定Temperature值写进配置文档。10 PART System Prompt想让模型只回答产品相关的问题不聊别的。System Prompt是最直接的控制手段不需要改代码就能改变模型行为。System Prompt是在用户输入之前发送给模型的隐藏指令用于定义模型的角色、行为规范和输出格式。System Prompt可以定义的内容包括输出语言强制用中文回复、回复格式必须用JSON格式输出、角色身份、行为边界不回答产品功能范围以外的问题、输出长度限制回复控制在200字以内。三个工程约束你必须了解。System Prompt计入输入Token每次调用都会重复计费这部分TokenSystem Prompt越长每次API成本越高。用户输入可以尝试覆盖System Prompt中的指令Prompt注入攻击产品需要设计防御机制尤其是面向公众开放的场景。模型对System Prompt的遵循不是100%部分情况下模型仍会偏离指令产品需要有后处理校验逻辑不能假设模型一定按System Prompt输出。 System Prompt · 上线前验证老王建议写完System Prompt后拿10条真实用户输入跑一遍验证模型是不是真的按要求输出。不跑测试直接上线后面出的问题全是低级错误。11 PART Chain-of-Thought多步骤的数学题直接问模型模型倾向于压缩中间步骤直接跳到答案错误率偏高。Chain-of-ThoughtCoT的做法是在Prompt里加一句请一步步思考或先列出推理步骤再给出结论引导模型显式输出每一步推导过程。中间步骤写出来之后最终答案的准确率通常有显著提升。效果在推理密度高的任务上最明显比如数学计算、逻辑推断、代码调试、多条件判断。简单的分类或提取任务不需要CoT加了只是增加输出Token数量和延迟。推理模型概念5可以理解为内置了CoT机制模型自动执行思维链推理不需要Prompt中手动引导。如果产品已用推理模型再加一步步思考只是浪费Token。12 PART Few-Shot描述了半天输出格式模型就是不按要求来。与其写更长的格式说明不如直接给两三个例子。Few-Shot是在Prompt中提供几个输入-输出示例引导模型按照示例格式和逻辑处理新的输入。在System Prompt或用户消息中提供2到5组示例随后提供需要处理的新输入。模型通过模式匹配按照示例的格式产出结果。Few-Shot在三类场景效果明显。需要特定输出格式但格式描述复杂时用示例代替冗长的格式说明。需要模型遵循特定分类标准时比如将用户反馈按内部标准分类示例比文字描述更精确。需要保持输出风格一致时提供风格样本。Few-Shot会消耗额外的输入Token。示例内容越长、示例数量越多Token消耗越高。高频调用场景下需要在效果和成本之间找平衡点通常2到3个示例是性价比最高的数量。13 PART Zero-Shot拿到一个新任务第一反应是要不要先写几个示例。大多数情况下不需要。Zero-Shot是不提供任何示例直接描述任务要求让模型完成任务的方式。当前主流大模型GPT-4系列、Claude 3系列、Gemini 1.5系列在Zero-Shot条件下的指令理解能力已相当强大量常规任务摘要、翻译、分类、提取不需要示例就能完成。设计Prompt时先用Zero-Shot试效果如果输出格式或质量不满足要求再引入Few-Shot。不要默认加入大量示例因为示例会增加Token消耗和推理延迟。Zero-Shot效果差的时候优先检查任务描述是否足够精确而不是立即堆砌示例。模糊的任务描述在Zero-Shot条件下会导致模型理解偏差这时候问题在描述不在方法。14 PART Pre-training模型对最近两个月发生的事情一无所知问了就编这是预训练数据有截止日期导致的。Pre-training预训练是大模型建立基础能力的阶段也是成本最高的阶段。预训练的过程是在数以万亿计的文本数据上网页、书籍、论文、代码等通过预测下一个Token的任务持续训练模型权重。模型在这个过程中未直接学习任何特定任务但获得了语言规律、事实知识、推理能力和世界常识的隐式表达。预训练对你有两个直接影响。预训练数据有时间范围通常滞后当前时间6到18个月。2024年Q4发布的模型训练数据截止时间可能是2024年Q1到Q2。截止日期之后的事件和知识模型不具备这是幻觉的高发场景之一。产品中涉及时效性信息的功能需要通过检索系统补充最新数据不能依赖模型的内置知识。不同厂商在预训练数据规模、质量和训练策略上的差异决定了模型的基础能力水平。这是不同模型在Benchmark上表现差异的根本原因不是单纯的参数量差异。老王建议产品功能涉及时效性信息时默认加检索系统补充最新数据不要指望模型自带的知识能覆盖你的业务场景。15 PART SFT通用对话模型在垂直领域总是输出不精确的术语或者格式不符合内部规范。这时候可以考虑用领域数据做一次SFT。SFTSupervised Fine-Tuning监督微调是在预训练模型基础上用人工标注的指令-回复数据对进行有监督训练使模型具备遵循指令的能力。这是从基础模型到对话模型的关键步骤。SFT的训练数据是格式化的问答对输入是用户指令输出是高质量的期望回复由人工书写或筛选。通过SFT模型学会了什么样的输入对应什么样的输出格式从而能够遵循指令产出符合预期的结果。对你来说有两个应用场景。使用厂商提供的对话模型时厂商已完成SFT通过API调用的就是SFT后的版本无需关注训练过程。定制化微调是当通用对话模型不能满足产品特定领域的需求时垂直领域术语、特定输出格式、企业内部规范用领域数据进行二次SFT。这需要至少数千条高质量的标注数据以及GPU算力支持启动成本不低。决策前先评估Prompt工程能不能达到类似效果能的话就不要上微调。16 PART RLHF同样是开源模型有的回复安全、有帮助有的动不动就输出不该输出的内容。这个差异的核心来源就是RLHF。RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习是在SFT基础上通过人类偏好反馈进一步优化模型输出质量的训练方法。SFT让模型学会生成合理的回复但无法准确区分哪个回复更好。RLHF的作用是在多个可能的回复中引导模型持续生成更符合人类偏好的输出。训练流程是标注人员对模型生成的多个回复进行排序这个排序数据用于训练一个奖励模型Reward Model再用奖励模型的信号通过强化学习优化原始模型的生成策略。理解RLHF的实际价值在于它解释了为什么不同厂商的模型在安全限制和回复风格上存在明显差异。这是不同的标注标准和偏好设计的结果不是模型能力差异造成的。选型时如果发现某个模型太保守或太激进根源在RLHF阶段的标注偏好设定。17 PART Quantization部署一个大参数模型需要的GPU显存动辄几百GB硬件预算直接爆掉。Quantization是把硬件成本砍下来的核心手段。Quantization量化是通过降低模型权重的数值精度来减少模型存储空间和推理计算量的技术。模型权重默认以16位浮点数FP16存储。量化将精度降低到8位整数INT8甚至4位整数INT4存储空间和计算量随之减少。对你的直接影响体现在三个方面。成本方面INT4量化后的模型相比FP16版本推理使用的GPU显存减少约75%在相同硬件上可以部署更大参数量的模型或者处理更多并发请求。质量方面量化会引入精度损失。INT4量化的模型在某些任务上的准确率低于FP16版本具体损失因任务类型和量化算法而异。速度方面量化后的推理速度通常更快延迟降低对实时交互类产品有价值。老王建议选型时先跑一轮业务场景测试确认精度损失在可接受范围内再决定用哪个量化级别。不能默认量化版本与原版质量相同。18 PART Parameter Count对比两个模型一个7B一个70B直觉告诉你70B更强。大多数情况下是对的但不绝对。Parameter Count参数量是模型中可训练权重的总数量通常以十亿BillionB为单位如7B、70B、405B。有三个反直觉的认知。更大不等于更好。在同等训练质量下更大的参数量通常意味着更强的能力但训练数据质量、微调策略、架构设计同样决定模型能力。一个经过高质量数据精炼训练的7B模型在特定任务上可以超过粗糙训练的70B模型。参数量决定部署成本。70B参数的模型在FP16精度下需要约140GB显存需要2张A100。405B参数模型需要约810GB显存硬件成本显著提升。评估私有化部署方案时必须将参数量与GPU成本对应。参数量与API定价正相关。主流大模型API定价按模型版本分层更大参数量的版本每百万Token的费用更高。早期规划阶段就把参数量和API定价的关系纳入成本模型选型时先从小模型试起能满足业务需求就不上大模型。19 PART Benchmark厂商宣传MMLU得分92.3%超越GPT-4看起来很强。但Benchmark得分高不等于你的业务场景好用。Benchmark基准评测是用于衡量大模型能力的标准化测试集选型时需要参考但不能只看这个。MMLU覆盖57个学科的知识问答包括数学、历史、法律、医学等评估模型的知识广度和理解能力。MATH是高中到竞赛级别的数学题评估模型的数学推理能力。准确率低于60%的模型在数学密集型任务中不适合作为主力模型。HumanEval是编程任务评测评估代码生成的功能正确率。MMLU-Pro和SimpleQA分别针对专业场景知识和事实准确性。老王的经验是最可靠的选型方法是用你的实际业务数据构造测试集在候选模型上实测以业务任务的准确率作为选型依据。厂商Benchmark可能存在测试集污染只看官方榜单排名会踩坑。20 PART Emergent Ability小模型跑不动的多步骤推理任务换了个大一号的模型同样的任务突然就能做了。这不是玄学是涌现。Emergent Ability涌现能力是指大模型在参数量或训练数据规模达到某个阈值后突然具备之前没有的能力且该能力无法从更小规模的模型线性外推。这个概念解释了为什么模型升级有时体验到能力的质变而不是量变。多步骤数学推理在部分模型规模阈值以下准确率接近随机超过阈值后准确率迅速提升。代码调试、复杂逻辑判断、跨语言理解等任务均在不同规模节点上出现类似现象。对你的应用价值是当升级到更大规模的模型时可能解锁之前无法实现的产品功能。小模型跑不动的任务换大模型试一次是有数据支撑的策略。涌现的边界是并非所有任务都存在明确的涌现阈值也不是所有升级都能带来涌现效果。小模型做不到的事先换大模型试一轮成了就上不成再找别的方案。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】