QDKT-大模型课程1-3节作业点评详解

张

张建站

2026/4/11 19:07:44

10分钟阅读

第一节课作业详解一、作业题目为什么大模型的厂商们不让大家让AI说“谢谢”这类礼貌用语二、核心知识点零基础必记这是本次作业的底层逻辑零基础学员需先理解再看作答思路大模型对所有输入内容都会启动完整的推理响应流程无“无意义话术识别”能力大模型的训练过程和推理过程是完全独立的模型发布后用户的任何输入/反馈都不会改变模型参数仅作为当前对话的上下文提示无意义的话术如谢谢会让大模型做无价值的推理消耗算力/计算负载/成本这是厂商禁止的核心原因。三、学员作业常见情况分析一正确但思考不足改进要求作答时需补充前因后果比如“说谢谢会让大模型启动完整的推理响应流程做无价值的计算从而增加算力消耗和运营成本”。二核心概念模型发布后仅启动推理过程用户输入不会改变模型参数所谓“信息污染”只是污染互联网检索结果而非模型本身推理过程中模型不会接收任何“反馈学习”用户的“谢谢”仅作为下一轮对话的提示词不会让模型产生“回答正确”的判断。三优秀作业这类作答是零基础学员的参考范本需学习其「结论推理」的结构典型作答1从大模型原理角度用户说一句谢谢都会让大模型启动实时推理随着大模型普及大量无意义的谢谢会消耗相当的算力增加厂商的成本典型作答2谢谢这类礼貌用语对模型来说是多余的输入模型会照样启动完整的响应流程处理无意义的输入会大大增加计算负载量典型作答3跟大模型说谢谢是无意义的交流但大模型需要解读并尝试给出答案这个过程会增加计算负荷。优秀共性明确结合大模型推理的底层逻辑说清“为什么谢谢会导致算力消耗”有结论有思考。四、老师额外强调核心是理解「无意义输入消耗算力」的核心逻辑。第二节课作业详解一、作业题目解释大模型回答问题、完成任务的完整过程。二、核心知识点零基础必记通俗拆解这是大模型运行的核心流程零基础学员需按步骤理解拒绝记专业术语用通俗的话表述即可老师在课程中刻意绕过了Transformer、注意力机制等未讲解的术语作答时禁止使用。大模型回答问题的5个核心步骤TOKEN化大模型将用户输入的内容依据内置的TOKEN表“切碎”成一个个最小的语言单位TOKEN比如把“方案”拆成一个TOKEN向量嵌入给每个TOKEN赋予维度坐标/向量表达不是“打分”这是大模型预训练时形成的固定参数相当于给每个TOKEN贴“特征标签”并行调整向量所有TOKEN同时向前寻找最相关的TOKEN调整自身的向量属性这个过程会多轮重复对应多层神经网络且全程是并行计算而非串行概率选取下一个TOKEN多轮调整后以最后一个TOKEN的最终向量为依据和TOKEN表中所有TOKEN做相似度比对得到每个TOKEN的相似度概率再按预设规则随机/选高概率选取下一个TOKEN持续续写直至结束将选取的TOKEN作为新的“最后一个TOKEN”重复上述过程直到无法在TOKEN表中找到相似的TOKEN续写完成并输出结果。关键补充大模型的概率性大模型是概率生成系统不是“精准匹配系统”选取下一个TOKEN时不会只选相似度最高的而是加入随机性否则输出内容会非常机械、死板对应技术中的temperature/top p参数用于增加模型输出的“创意”。三、学员作业常见问题分析零基础重点规避一乱用未讲解的专业术语典型作答提到Transformer架构、注意力机制、特征提取等课程中未讲解的术语核心问题学员本身大概率不理解术语的含义只是堆砌词汇属于“信息压缩”违背课程“用自己的话复述核心”的要求老师强调大厂的“黑话/专业术语”是信息压缩的结果若无法将术语拆解成通俗的话就不要使用尤其是产品经理写PRD/做调研时禁止使用未拆解的专业术语。二核心概念理解给TOKEN赋予固定的向量坐标/特征属性不是“评分”TOKEN的向量属性是预训练时确定的推理时仅做调整而非重新“打分”。三完全臆想脱离课程内容作答必须基于课程讲解的内容不要加入自己的无依据猜测。四直接用AI代写作业老师明确不点评课程作业的目的是让学员自己理解并表达而非让AI代劳。五表述不完整/逻辑混乱无步骤拆解老师无法判断学员是否理解每个环节的核心和“只给结论无思考”的问题一致。四、学员高频疑问解答零基础必看疑问1为什么TOKEN要并行计算而不是等第一个TOKEN算完再算第二个核心答案底层算法设计效率提升串行计算会大幅降低推理速度增加训练/推理的时间成本延伸若想深入了解可查阅论文《Attention Is All You Need》大模型领域的核心论文。疑问2为什么要把每一轮的调整信息都汇总到最后一个TOKEN核心答案最后一个TOKEN包含了前边所有TOKEN的调整信息能代表整句话的语义和方向通俗类比玩狼人杀时最后一个发言的人掌握了全局的信息对局面的了解最全面因此用最后一个TOKEN做后续计算。疑问3为什么不直接选取相似度最高的TOKEN要加入随机性核心答案如果只选相似度最高的模型输出的内容会过于机械、死板完全符合语法但缺乏灵活性关键补充随机性不能过高如temperature调至0.1否则模型会输出天马行空、驴唇不对马嘴的内容出现“幻觉”。五、优秀作业参考范本核心总结从问题中寻找答案步骤拆解大模型将输入内容数据化TOKEN化依据内置TOKEN表切碎成TOKEN给每个TOKEN赋予向量嵌入维度坐标所有TOKEN并行向前调整向量属性多轮重复后以最后一个TOKEN的向量为依据和TOKEN表中所有TOKEN做相似度比对按概率选取下一个TOKEN并续写直至无法匹配输出结果。优秀共性按步骤拆解贴合课程核心不用专业术语用通俗的话讲清每个环节。第三节课作业详解一、作业题目为什么AI无法做到真正意义上的推理二、核心知识点零基础必记本题目围绕大模型的能力边界展开核心结论AI的所谓“推理”只是概率统计的模式匹配/TOKEN预测并非真正的逻辑因果推理。人类推理的核心特征有全局视野能跳脱当前步骤从宏观视角看问题的整体逻辑能双向推理可从头开始正向推理也能从中间/结果倒推还能反复核对、修正错误能发现事物的隐藏关系从看似无关的信息中找到关联形成新的结论即创意/灵感基于逻辑因果和对世界的理解能应对未知场景灵活调整推理逻辑。AI“伪推理”的核心特征无全局视野只有“前文信息”AI只能根据已生成的TOKEN向前推理无法跳脱当前步骤看整体单向流式输出只能按顺序从头生成TOKEN无法回退、无法修正错误一旦生成错误的TOKEN会在错误的基础上继续推理“将错就错”无隐藏关系发现能力AI的推理是基于训练语料中的规律模仿人类的推理模式无法从无关信息中找到新的关联本质是概率预测AI的推理只是根据前文TOKEN预测下一个最可能的TOKEN没有真正的“逻辑因果判断”仅追求“内容合理”。关键补充AI幻觉的成因AI无法做到真正推理的直接后果就是产生幻觉当AI从A推理出错误的C而非正确的B时为了“自圆其说”会在C的基础上编造虚假的信息/逻辑强行完成推理这就是AI“胡说八道”的核心原因。三、学员作业常见情况分析二核心概念生成式大模型没有传统意义上的“知识库”其知识存储在TOKEN词表和参数矩阵中并非单独的数据库推理时是基于向量匹配而非知识库检索传统AI才有知识库生成式AI无。五不要过度贬低大模型不要过度贬低大模型AI的推理能力优于绝大多数普通人类只是相对于“具备逻辑思辨能力的精英人类”有缺陷AI能模仿人类的推理模式在训练语料覆盖的场景中推理结果是准确且有价值的。四、优秀作业核心亮点优秀作业均能贴合课程核心抓住AI推理的本质缺陷以下是老师明确标注的优秀作答核心点零基础学员可直接参考指出AI无全局视野大模型只能从头开始按顺序生成TOKEN没有对整个问题的完整视角而人类推理可跳步、可倒推指出AI单向输出无回头机制大模型生成TOKEN后无法修改、无法纠正错误一旦跑偏就会“将错就错”而人类推理能反复核对、修正指出AI无法发现隐藏关系推理需要从事物中寻找隐藏的关联而这种关联依赖逻辑思维并非训练语料中的文本记录AI无法做到指出AI本质是概率匹配AI的推理是基于海量数据的统计性模式匹配看似有逻辑实则未触及理解的核心只是根据TOKEN的概率预测生成内容无真正的因果判断。五、延伸知识点1. 大模型的“创意局限性”AI几乎无法产生真正的创意/幽默因为创意的本质是发现事物的隐藏关系而AI的推理是基于训练语料的规律其“创意”只是概率随机性带来的“偶然匹配”并非真正的灵感2. Deepseek R1的“伪思考”网传Deepseek R1有“思考能力/推理能力”实际只是拙劣的模仿工程师在微调控时给了模型大量“思考过程的语料”模型只是模仿这些语料的特征并非真正的思考其核心价值是让模型构建更多上下文提升回答质量3. 不要滥用“因果”一词“因果”并非简单的“因为所以”而是复杂的规律抽象包含大量的信息不要随意用“因果关系”堆砌需结合大模型的技术原理具体分析。核心强调的通用知识点训练与推理独立大模型发布后训练过程结束用户的任何输入/反馈都不会改变模型参数仅作为上下文提示TOKEN是大模型的最小单位大模型的所有操作都是基于TOKEN展开的包括推理、续写、向量匹配大模型是概率生成系统不是精准匹配系统输出内容带有随机性这是为了避免机械也是AI幻觉的成因之一单向输出无回头机制大模型只能按顺序生成TOKEN无法回退、无法修正错误这是AI无法做到真正推理的核心原因拒绝信息压缩若无法将专业术语拆解成通俗的话就不要使用尤其是产品经理需用直白的语言表达核心逻辑。零基础学员专属学习建议做作业重“思考过程”不要只给结论要补充“前因后果”不懂就问不要硬编对知识点有疑问时可在群里讨论不要强行臆想作答拒绝AI代写作业课程作业的目的是让自己理解并表达理解核心而非堆砌术语入门阶段不要死记硬背专业术语重点理解大模型的底层逻辑如TOKEN化、向量嵌入、概率生成用通俗的话表述即可结合业务场景理解知识课程是“大模型应用转型课”不是纯理论课理解知识点的同时要思考“这个知识点在实际工作中怎么用”比如知道AI无回头机制就可以在设计产品时规避AI的错误推理注重表达和论述逻辑尤其是想做产品经理的学员要锻炼自己的论述能力作答时按“步骤/逻辑”拆解不要东拼西凑这是写PRD、做调研的基础不要过度贬低大模型理解大模型的能力边界是为了“在边界处收手”而非否定其价值大模型在多数普通场景中的推理/生成能力远优于普通人类要学会合理利用。

ARMv8架构下Cache一致性：PoU和PoC到底有什么区别？

ARMv8架构下Cache一致性：PoU和PoC核心差异与工程实践解析在嵌入式系统开发中，Cache一致性是影响系统性能和正确性的关键因素。对于ARMv8架构的开发者而言，理解Point of Unification（PoU）和Point of Coherency&#xf…...

2026/4/11 19:01:43 阅读更多 →

py每日spider案例之米画师之wasm逆向

window=globalThis;function getEnvs(proxyObjs) {for (let i = 0; i < proxyObjs...

2026/4/11 19:01:40 阅读更多 →

从零到一：手把手教你用Labelme打造专属Mask数据集

1. 为什么你需要掌握Labelme标注工具如果你正在做计算机视觉相关的项目，尤其是图像分割任务，那么高质量的数据集就是你的命根子。市面上现成的数据集往往无法完全匹配你的业务需求，这时候自己动手标注数据就成了必经之路。我刚开始接触图像分…...

2026/4/11 19:00:12 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章