机器学习核心术语手册:从数据到部署的完整概念解析与实战指南
1. 项目概述为什么我们需要一份自己的术语手册刚入行机器学习那会儿我最头疼的就是各种英文术语。看论文、读文档、听技术分享满屏的“Gradient Descent”、“Overfitting”、“Cross-Entropy”每个词单独看好像都懂但组合在一起再配上不同的上下文经常就云里雾里了。更麻烦的是很多术语的中文翻译五花八门同一个“Recall”有人叫“召回率”有人叫“查全率”讨论问题时经常得先对齐一下“语言”。所以我花了很长时间一点点整理、核对、理解最终形成了一份自己用的机器学习中英术语对照表。这份表格不是简单的词典罗列而是融入了我对每个术语核心思想、应用场景和常见“坑点”的理解。今天把它分享出来希望能帮你快速跨越术语障碍把精力更多集中在模型和算法本身。这份汇总主要面向三类朋友一是刚刚接触机器学习的学生和转行者帮你快速建立知识地图二是需要频繁阅读英文文献和代码的工程师作为手边的速查手册三是团队的技术负责人或导师用于统一团队内部的沟通语言减少因术语歧义带来的沟通成本。我会按照机器学习的核心流程——从数据、模型、训练、评估到部署——来组织这些术语并穿插解释它们之间的关联和实际应用中的注意事项。2. 核心流程与术语框架解析在深入每个术语之前我们先搭建一个宏观框架。一个典型的机器学习项目流程可以粗略分为五个阶段数据准备、模型构建、模型训练、模型评估和模型部署与监控。每个阶段都有一套专属的“行话”。理解这些术语本质上是在理解这个流程中每个环节的核心任务与挑战。2.1 数据准备阶段一切的基石数据是机器学习的“燃料”。这个阶段的术语围绕着如何获取、理解和加工数据。数据集 (Dataset)所有数据的集合。通常分为三部分训练集 (Training Set)用于模型学习、调整参数的数据。这是模型“上学”用的课本。验证集 (Validation Set)用于在训练过程中评估模型表现进而调整超参数如学习率、网络层数防止模型在训练集上表现过好而在新数据上表现不佳。它像是“模拟考”。测试集 (Test Set)用于最终评估训练好的模型的泛化能力。在模型的整个训练和调参过程中都不能被“偷看”相当于“最终高考”。实操心得常见的划分比例是 6:2:2 或 7:1.5:1.5。对于数据量极大的情况验证集和测试集的比例可以更小如98:1:1。关键是测试集必须绝对“干净”不能参与任何形式的训练包括通过验证集进行的间接调参。特征 (Feature) / 自变量 (Independent Variable)描述每个样本的属性或变量。例如在预测房价的任务中房子的面积、楼层、房龄就是特征。特征工程是这阶段最核心的工作。标签 (Label) / 目标值 (Target) / 因变量 (Dependent Variable)我们希望模型预测的值。在监督学习中每个样本都带有标签。继续房价的例子房子的实际售价就是标签。特征工程 (Feature Engineering)利用领域知识从原始数据中提取、构造、选择对预测目标更有用的特征的过程。这是最能体现数据科学家经验价值的环节之一。特征缩放 (Feature Scaling)将不同特征的值归一化到相似的尺度如0-1之间常见方法有标准化 (Standardization)和归一化 (Normalization)。这对于基于距离的算法如KNN、SVM和梯度下降法至关重要能加速收敛。独热编码 (One-Hot Encoding)将分类变量转换为二进制向量表示。例如“颜色”有红、绿、蓝三类可以编码为[1,0,0], [0,1,0], [0,0,1]。处理缺失值 (Handling Missing Values)策略包括删除缺失样本、用均值/中位数/众数填充、或用模型预测缺失值。数据泄露 (Data Leakage)指在训练过程中不小心让模型接触到了本应在预测时才能获得的信息。这是导致模型在测试集上表现虚高的最常见原因之一。例如在训练前就用整个数据集包含训练集和测试集做了全局的标准化那么测试集的信息就“泄露”给了训练过程。注意防范数据泄露是建模的第一要务。任何基于数据的预处理步骤如缩放、填充缺失值都必须仅在训练集上计算参数如均值、方差然后将其应用于验证集和测试集。2.2 模型构建与训练阶段算法的核心这个阶段我们选择算法并让模型从数据中学习规律。算法 (Algorithm)机器学习模型背后的数学原理和计算步骤。例如决策树、支持向量机、神经网络都是不同的算法。模型 (Model)算法在特定数据集上训练后得到的具体“产物”是一个可以用于预测的函数。我们常说“训练一个模型”。参数 (Parameters)vs超参数 (Hyperparameters)参数模型内部通过学习如梯度下降自动调整的变量。例如线性回归中的权重Weights和偏置Bias神经网络中的权重和偏置。超参数在训练开始前由人工设定的、用于控制训练过程的配置。例如学习率、迭代次数、神经网络的层数和每层神经元数量、决策树的深度等。核心区别参数是模型“自己学会的”超参数是“我们告诉模型怎么学的”。损失函数 (Loss Function) / 成本函数 (Cost Function)用于衡量模型在单个样本损失或整个训练集成本上预测值与真实值之间的差距。训练的目标就是最小化这个函数。均方误差 (Mean Squared Error, MSE)常用于回归任务对大的误差惩罚更重。交叉熵损失 (Cross-Entropy Loss)常用于分类任务衡量预测概率分布与真实分布之间的差异。优化器 (Optimizer)用于调整模型参数以最小化损失函数的算法。最基础的是梯度下降 (Gradient Descent)。批量梯度下降 (Batch Gradient Descent)使用整个训练集计算梯度更新稳定但计算慢。随机梯度下降 (Stochastic Gradient Descent, SGD)每次使用一个样本计算梯度并更新速度快但波动大。小批量梯度下降 (Mini-batch Gradient Descent)折中方案每次使用一个小批量Mini-batch数据是深度学习中最常用的方法。自适应优化器如Adam、RMSprop能自动调整每个参数的学习率通常收敛更快。学习率 (Learning Rate)一个关键的超参数控制每次参数更新的步长。太大可能导致在最优解附近震荡甚至发散太小则收敛速度极慢。学习率调度 (Learning Rate Schedule)在训练过程中动态调整学习率的策略如随着训练轮次增加逐渐减小。迭代 (Iteration)与轮次 (Epoch)迭代使用一个Mini-batch数据完成一次前向传播、损失计算、反向传播和参数更新的完整过程。轮次整个训练集的所有样本都参与了一次训练可能被分批用于多次迭代。例如有10000个样本Mini-batch大小为100那么1个Epoch包含100次Iteration。前向传播 (Forward Propagation)输入数据从网络第一层流向最后一层计算得到预测值的过程。反向传播 (Backpropagation)根据损失函数计算出的误差从最后一层反向逐层计算每个参数对损失的贡献梯度是神经网络训练的核心算法。2.3 模型评估阶段衡量好与坏模型训练好了我们需要客观地评价它的性能。过拟合 (Overfitting)模型在训练集上表现非常好但在未见过的数据验证集/测试集上表现很差。意味着模型“死记硬背”了训练数据甚至记住了噪声而没有学到普适规律。好比一个学生把习题集答案背得滚瓜烂熟但遇到新题就不会了。应对策略获取更多数据、降低模型复杂度、使用正则化 (Regularization)、Dropout针对神经网络、早停等。欠拟合 (Underfitting)模型在训练集和测试集上的表现都不好。意味着模型过于简单无法捕捉数据中的基本模式。好比一个学生连课本基础知识都没掌握。偏差 (Bias)与方差 (Variance)用于诊断模型误差来源的理论工具。偏差模型预测值的期望与真实值之间的差异。高偏差通常导致欠拟合。方差模型预测值自身的离散程度波动性。高方差通常导致过拟合。偏差-方差权衡 (Bias-Variance Tradeoff)模型复杂度提高偏差减小拟合能力变强但方差增大对数据波动更敏感。我们的目标是找到一个平衡点。正则化 (Regularization)为了防止过拟合在损失函数中添加一个惩罚项限制模型参数的大小鼓励模型更简单。L1正则化 (Lasso)惩罚项是参数绝对值之和倾向于产生稀疏权重部分权重为0可用于特征选择。L2正则化 (Ridge)惩罚项是参数平方和倾向于让权重值较小且分布均匀。准确率 (Accuracy)分类任务中最直观的指标即预测正确的样本数占总样本数的比例。但在类别不平衡的数据集上可能具有误导性。精确率 (Precision)与召回率 (Recall)在二分类问题特别是关注正类中更细致的指标。精确率在所有被模型预测为正类的样本中真正为正类的比例。“查得准不准”。召回率在所有真实为正类的样本中被模型正确预测为正类的比例。“查得全不全”。这两者通常相互矛盾需要根据业务需求权衡。例如在金融风控中我们可能更追求高精确率宁可错放不可错杀在疾病筛查中则更追求高召回率宁可误诊不可漏诊。F1分数 (F1-Score)精确率和召回率的调和平均数用于综合评估模型性能尤其在类别不平衡时比准确率更有参考价值。混淆矩阵 (Confusion Matrix)一个NxN的表格N为类别数直观展示分类模型在所有类别上的预测结果与真实标签的对应关系。是计算精确率、召回率等指标的基础。ROC曲线 (Receiver Operating Characteristic Curve)与AUC (Area Under Curve)用于评估二分类模型性能的常用工具尤其关注模型在不同分类阈值下的表现。ROC曲线以假正例率 (False Positive Rate, FPR)为横轴真正例率 (True Positive Rate, TPR即召回率)为纵轴绘制的曲线。AUCROC曲线下的面积。AUC值越接近1模型性能越好0.5表示模型没有区分能力相当于随机猜测。2.4 高级概念与模型类型监督学习 (Supervised Learning)训练数据包含特征和对应的标签。模型学习从特征到标签的映射关系。任务包括分类和回归。无监督学习 (Unsupervised Learning)训练数据只有特征没有标签。模型学习数据的内在结构或分布。任务包括聚类、降维、异常检测。强化学习 (Reinforcement Learning)智能体通过与环境交互根据获得的奖励或惩罚来学习最优策略。深度学习 (Deep Learning)使用包含多个隐藏层的神经网络进行机器学习。其核心是表示学习 (Representation Learning)能自动从原始数据中学习层次化的特征表示。卷积神经网络 (Convolutional Neural Network, CNN)专门为处理网格状数据如图像设计的神经网络通过卷积核提取局部空间特征。循环神经网络 (Recurrent Neural Network, RNN)及其变体如LSTM, GRU专门为处理序列数据如文本、时间序列设计的神经网络具有“记忆”能力。迁移学习 (Transfer Learning)将一个领域源领域上训练好的模型知识迁移到另一个相关领域目标领域上。在数据不足或计算资源有限时非常有效尤其在计算机视觉和自然语言处理领域。集成学习 (Ensemble Learning)通过构建并结合多个学习器基模型来完成学习任务通常能获得比单一模型更优越的泛化性能。常见方法有Bagging如随机森林、Boosting如AdaBoost, XGBoost, LightGBM和Stacking。3. 中英术语对照速查与深度解析下面我将以表格形式列出更全面的术语并对其中容易混淆或至关重要的部分进行深度解析。3.1 基础与核心概念英文术语中文术语核心解析与注意事项Machine Learning (ML)机器学习让计算机从数据中学习规律而无需显式编程。Artificial Intelligence (AI)人工智能更宽泛的概念指让机器表现出智能行为。ML是实现AI的一种重要方法。Data Mining数据挖掘从大量数据中探索未知的、有价值的模式。ML提供了很多数据挖掘的工具。Pattern Recognition模式识别侧重于识别数据中的规律或模式与ML高度重叠。Training训练模型从数据中学习的过程。Inference / Prediction推理 / 预测使用训练好的模型对新数据进行预测。Supervised Learning监督学习关键点必须有标注数据。模型学习的是输入到输出的映射函数。Unsupervised Learning无监督学习关键点只有输入数据。模型学习的是数据的内在结构如聚类或简洁表示如降维。Semi-supervised Learning半监督学习同时使用大量未标注数据和少量标注数据进行训练是实用场景中的常见范式。Reinforcement Learning (RL)强化学习核心要素智能体、环境、状态、动作、奖励。学习的是在特定状态下采取何种动作能最大化长期累积奖励的策略。Classification分类预测离散的类别标签。如垃圾邮件识别是/否、图像识别猫/狗。Regression回归预测连续的数值。如房价预测、销量预测。Clustering聚类将数据分组使得组内相似度高组间相似度低。如客户分群。Dimensionality Reduction降维在尽可能保留信息的前提下减少特征数量。用于可视化、去噪、加速后续学习。主成分分析(PCA)和t-SNE是经典方法。深度解析监督 vs 无监督 vs 强化学习这三者是ML的三大范式根本区别在于学习信号反馈的来源。监督学习学习信号来自“标准答案”标签。老师标签告诉你每道题的对错。无监督学习没有“标准答案”。给你一堆东西让你自己发现它们怎么分类或简化描述。强化学习学习信号来自环境反馈的“奖励”或“惩罚”。像训狗做对了给零食做错了不给但它需要自己摸索出哪些动作能获得零食。3.2 模型训练与优化英文术语中文术语核心解析与注意事项Model模型学习结果的函数化表示。Hypothesis假设模型所属的函数空间或形式。Parameter参数模型内部变量通过训练数据学习得到。如线性模型的斜率和截距。Hyperparameter超参数训练过程配置训练前由人设定。如学习率、树的最大深度。调参 (Tuning)调的就是它。Loss Function损失函数计算单个样本的误差。Cost Function成本函数计算整个训练集或一个Batch的平均误差。实践中常混用。Objective Function目标函数模型训练过程中要优化最小化或最大化的函数。损失/成本函数正则化项目标函数。Gradient Descent梯度下降通过迭代沿负梯度方向更新参数来最小化目标函数。是绝大多数ML模型训练的基石。Learning Rate学习率梯度下降的步长。是最重要、最需要仔细调节的超参数之一。Backpropagation反向传播高效计算神经网络中损失函数对所有参数梯度的方法是梯度下降在神经网络中的具体实现。Batch Size批次大小一次迭代中用于计算梯度的样本数量。影响训练速度、内存占用和梯度估计的稳定性。Epoch轮次完整遍历一次训练集。通常需要多个Epoch模型才能收敛。Iteration迭代完成一个Batch的训练。Iteration数 (总样本数 / Batch Size) * Epoch数。Overfitting过拟合模型复杂度过高记住了训练数据的噪声和细节。表现训练误差极低验证/测试误差很高。Underfitting欠拟合模型复杂度过低无法捕捉数据的基本模式。表现训练误差和验证/测试误差都很高。Bias偏差模型预测值的期望与真实值的差距。高偏差导致欠拟合。Variance方差模型预测值自身的离散程度。高方差导致过拟合。Bias-Variance Tradeoff偏差-方差权衡机器学习的基本矛盾需要在模型复杂度上取得平衡。Regularization正则化在损失函数中添加惩罚项限制模型复杂度防止过拟合。L1产生稀疏解和L2使参数变小最常用。Dropout随机失活神经网络特有的正则化技术训练时随机“关闭”一部分神经元防止神经元之间产生复杂的共适应。Early Stopping早停一种简单有效的正则化。当验证集误差不再下降反而开始上升时停止训练。Optimizer优化器实现梯度下降的具体算法。SGD, Momentum, Adam, RMSprop等。Adam因其自适应学习率通常作为默认选择。深度解析梯度下降的变体与选择批量梯度下降 (BGD)梯度估计最准但计算慢无法处理超出内存的数据集且容易陷入局部极小点的“平原区”。随机梯度下降 (SGD)每次用一个样本更新快、可在线学习但梯度噪声大收敛路径曲折。可以加入动量 (Momentum)来平滑更新方向加速收敛并帮助跳出局部最优。小批量梯度下降 (Mini-batch GD)兼顾了BGD的稳定性和SGD的速度是深度学习的事实标准。Batch Size是一个需要调节的超参数通常设为2的幂次如32, 64, 128以利用硬件并行计算优势。自适应优化器 (Adam, RMSprop)为每个参数计算不同的学习率。Adam结合了动量一阶矩估计和自适应学习率二阶矩估计在大多数情况下收敛快且效果不错常被用作“开箱即用”的首选。但在某些任务上经过精细调参的SGD with Momentum可能达到更好的最终性能。3.3 模型评估与指标英文术语中文术语核心解析与注意事项Training Error训练误差模型在训练集上的误差。Validation Error验证误差模型在验证集上的误差。用于模型选择和超参数调优。Test Error测试误差模型在测试集上的误差。用于最终评估模型泛化能力的无偏估计。Generalization泛化模型在未见过的数据上表现良好的能力。是机器学习的终极目标。Accuracy准确率(TPTN)/(TPTNFPFN)。注意在类别不平衡数据上不适用。Precision精确率 / 查准率TP/(TPFP)。关注预测的准确性。Recall召回率 / 查全率TP/(TPFN)。关注正类被找全的程度。F1-ScoreF1分数2 * (Precision * Recall) / (Precision Recall)。精确率和召回率的调和平均。Confusion Matrix混淆矩阵所有评估指标的计算基础。务必分清行真实标签和列预测标签。True Positive (TP)真阳性预测为正实际也为正。False Positive (FP)假阳性预测为正实际为负。误报True Negative (TN)真阴性预测为负实际也为负。False Negative (FN)假阴性预测为负实际为正。漏报ROC CurveROC曲线描绘TPR和FPR在不同阈值下的变化。AUCROC曲线下面积综合衡量模型排序能力的指标与阈值选择无关。值域[0.5, 1]。Mean Absolute Error (MAE)平均绝对误差回归任务指标绝对误差的平均值对异常值不敏感。Mean Squared Error (MSE)均方误差回归任务指标平方误差的平均值对异常值敏感。R-squared (R²)决定系数回归任务指标表示模型解释数据方差的比例。越接近1越好。深度解析精确率、召回率与业务场景的绑定这两个指标不能脱离具体业务来谈优劣。我常用一个安检系统的例子来说明高精确率低召回率系统只有非常确信时才报警。结果误报很少精确率高但很多真正的危险品被漏掉了召回率低。适用于误报成本极高的场景如金融欺诈自动冻结账户宁可错放不可错杀。低精确率高召回率系统宁可错杀一千不可放过一个。结果几乎所有危险品都被查出来了召回率高但很多无辜行李也被开箱检查精确率低。适用于漏报成本极高的场景如癌症筛查宁可误诊不可漏诊。 在实际项目中你需要和业务方明确“我们更怕误报追求精确率还是更怕漏报追求召回率” 然后以此为导向去调整模型的分类阈值或选择模型。3.4 特定模型与算法英文术语中文术语核心解析与注意事项Linear Regression线性回归最基础的回归模型拟合一个线性关系。Logistic Regression逻辑回归注意名为回归实为分类模型常用于二分类。输出是概率。Decision Tree决策树树形结构通过一系列if-else规则进行决策。易于解释。Random Forest随机森林决策树的Bagging集成方法。通过并行训练多棵树并投票降低方差提高泛化能力。Gradient Boosting梯度提升决策树的Boosting集成方法。通过串行训练每一棵新树学习前一棵树的残差。XGBoost, LightGBM, CatBoost是其高效实现。Support Vector Machine (SVM)支持向量机寻找一个最大“间隔”的超平面来分隔数据。可通过核方法处理非线性问题。k-Nearest Neighbors (k-NN)k近邻惰性学习算法。预测时找最相似的k个训练样本用它们的标签投票或平均。Neural Network (NN)神经网络由大量神经元互联构成的模型具有强大的表示学习能力。Deep Learning深度学习通常指具有多个隐藏层的神经网络。Convolutional Neural Network (CNN)卷积神经网络核心是卷积层自动提取图像的局部空间特征。池化层用于降维。Recurrent Neural Network (RNN)循环神经网络具有循环连接能处理序列数据。但存在梯度消失/爆炸问题。Long Short-Term Memory (LSTM)长短期记忆网络RNN的改进通过门控机制更好地学习长期依赖关系。TransformerTransformer基于自注意力机制的模型架构彻底改变了自然语言处理领域并行计算效率高。BERT、GPT都是基于Transformer。Generative Adversarial Network (GAN)生成对抗网络包含生成器和判别器两者对抗学习用于生成逼真数据如图像、音频。深度解析集成学习——Bagging vs Boosting这是提升模型性能的利器但原理迥异Bagging (Bootstrap Aggregating)思路并行训练多个强且复杂、高方差、低偏差的基模型如深决策树通过投票分类或平均回归降低整体方差。代表性算法随机森林。它通过行采样Bootstrap和列采样进一步增加基模型间的差异性。效果主要降低方差对过拟合的基模型效果提升明显。Boosting思路串行训练多个弱模型如浅决策树每个新模型专注于学习前序模型组合的残差错误逐步降低偏差。代表性算法AdaBoost, Gradient Boosting (XGBoost, LightGBM)。效果主要降低偏差能将弱模型提升为强模型。核心技巧每一轮会根据上一轮的预测误差调整样本权重AdaBoost或拟合损失函数的负梯度Gradient Boosting。4. 实战避坑指南与术语应用心得知道术语只是第一步在实战中灵活、正确地应用它们才是关键。这里分享几个我踩过坑后总结出的心得。4.1 数据集划分的陷阱与最佳实践新手最容易犯的错误就是数据泄露而错误的划分方式是罪魁祸首。时间序列数据绝对不能随机划分必须按时间顺序划分用过去的数据训练预测未来的数据。例如用2020-2022年的数据做训练集2023年的数据做测试集。分组或层次化数据如果数据有分组结构如多个患者的数据每个患者有多条记录划分时必须保证同一个组的数据只出现在一个集合中训练集、验证集或测试集否则会发生组间信息泄露。这时需要使用分层抽样或分组K折交叉验证。类别极度不平衡的数据在划分时需要使用分层抽样 (Stratified Sampling)确保训练集、验证集、测试集中各个类别的比例与原始数据集基本一致。交叉验证 (Cross-Validation)当数据量较少时常用K折交叉验证来更稳健地评估模型。但请注意交叉验证主要用于模型评估和超参数调优。在最终确定模型和参数后仍需要一个独立的、从未参与过任何训练和调优过程的测试集来做最终的无偏评估。4.2 过拟合与欠拟合的诊断与应对光知道定义不够要会在训练过程中识别和解决。诊断绘制训练误差和验证误差随训练轮次Epoch变化的曲线。两条曲线都高且接近欠拟合。训练误差持续下降验证误差先降后升过拟合。应对欠拟合增加模型复杂度如增加神经网络的层数和神经元增加决策树的深度。增加更多特征进行更深入的特征工程。减少正则化强度如减小L2正则化的系数。训练更长时间但需配合早停防止后期过拟合。应对过拟合获取更多训练数据最有效但往往最难。使用数据增强对现有数据进行变换如图像旋转、裁剪、加噪声人工增加数据多样性。降低模型复杂度如减少网络层数、神经元数剪枝决策树。增加正则化如增大L2系数在神经网络中增加Dropout率。早停监控验证集误差在其开始上升时停止训练。4.3 指标选择没有“最好”只有“最合适”准确率在类别平衡时是直观的但现实中的数据往往不平衡。例如在检测罕见疾病的系统中即使模型把所有样本都预测为“健康”也能获得99%以上的准确率但这个模型毫无用处。二分类问题优先看混淆矩阵然后根据业务重点选择精确率-召回率曲线或ROC曲线。如果正负样本代价不对称如欺诈检测用F1分数或精确率-召回率曲线下的面积 (PR-AUC)更合适。如果关心模型在不同阈值下的整体排序能力用ROC-AUC。多分类问题可以计算每个类别的精确率、召回率、F1分数然后计算宏平均对所有类别取平均或微平均汇总所有类别的TP/FP/FN后再计算。宏平均平等看待每个类微平均平等看待每个样本。回归问题MSE对大的误差惩罚更重如果你的业务对异常值敏感如预测金融风险MSE更合适。MAE则更稳健。R²可以直观地看出模型解释了多大比例的数据波动。4.4 工具与框架中的术语映射在实际使用Scikit-learn、TensorFlow/PyTorch时这些术语会体现在具体的API中。Scikit-learn:model.fit(X_train, y_train)-训练model.predict(X_test)-推理/预测model.score(X, y)- 默认返回准确率分类或R²回归train_test_split- 划分训练集/测试集cross_val_score-交叉验证GridSearchCV-超参数调优网格搜索TensorFlow/PyTorch:optimizer tf.keras.optimizers.Adam(learning_rate0.001)- 定义优化器和学习率model.compile(losscategorical_crossentropy)- 定义损失函数model.fit(..., validation_data(X_val, y_val), callbacks[EarlyStopping(...)])- 训练使用验证集和早停回调tf.keras.layers.Dropout(0.5)-Dropout层Layer-层Activation-激活函数BatchNormalization-批标准化理解这些术语在代码中的对应关系能让你在阅读文档和他人代码时更加顺畅也能让你更准确地表达自己的意图。这份术语表不是终点而是一张地图。机器学习领域日新月异新的概念和术语不断涌现。我的建议是每遇到一个新术语不要停留在字面理解去查它的数学定义看它在代码中如何实现在论文中如何被使用并尝试在自己的项目中应用它。只有这样这些术语才会从陌生的词汇变成你工具箱里得心应手的工具。