用“挑西瓜”讲透《机器学习》第四章-决策树

张

张建站

2026/5/23 6:51:29

10分钟阅读

《机器学习》第4章·通俗解读 | 决策树像做选择题一样做判断决策树是机器学习里最像人类思维的模型之一。它的思路很简单遇到一个问题一步步问“是或否”最终走到一个答案。就像医生看病先问“发烧吗” → 是再问“咳嗽吗” → 是 → 可能是感冒……1. 决策树长什么样还是用西瓜举例。你要判断一个瓜是不是好瓜。你可能这样问自己色泽是什么青绿 → 再看根蒂乌黑 → 再看敲声浅白 → 大概率不是好瓜根蒂怎么个蜷法蜷缩 → 好瓜稍蜷 → 再听敲声硬挺 → 坏瓜把这些问题串起来画成一个树状图就是决策树。树的顶部叫根结点中间叫内部结点每个都是一个判断题底部叫叶结点最终答案。从根走到叶的过程就是对瓜的一次完整判断。2. 怎么构建一棵决策树—— 分而治之构建决策树的核心思想找一个最“好”的属性来作为当前的判断问题。比如现在有一堆瓜你要先问一个什么问题问“色泽”还是问“根蒂”还是问“敲声”哪个问题能最好地把好瓜和坏瓜分开就先问哪个。这就是划分选择。3. 怎么判断哪个属性最好—— 三种常用标准方法一信息增益ID3算法通俗理解问完一个问题后数据会变“纯”多少变得越纯说明这个问题越有用。“纯”的意思是一堆瓜里要么全是好瓜要么全是坏瓜不要混在一起。信息增益原来的混乱程度 - 问完问题后的混乱程度。增益越大说明这个问题越值得先问。但是存在一个问题信息增益偏爱取值多的属性。比如“编号”这种每个瓜都不同的属性信息增益会很大因为每个分支只有一个瓜非常纯但这种树没意义不能泛化。所以需要改进。方法二增益率C4.5算法给取值多的属性“打个折”避免偏心。先算一个“固有值”取值越多固有值越大然后用信息增益除以固有值得到增益率。C4.5不是直接选增益率最大的而是先找信息增益高于平均的再从中选增益率最高的既防偏心又不失效果。方法三基尼指数CART算法基尼指数反映的是从一堆瓜里随机抽两个它们类别不同的概率。基尼指数越小说明数据越纯。选属性时选划分后基尼指数最小的那个。三种方法各有千秋实际中差别不大随便选一种都能用。4. 剪枝防止树长得太“茂密”如果你让树一直长它可能会把训练数据里的“意外”也当成规律这就是过拟合。比如某个好瓜刚好颜色浅树就记住了“颜色浅也是好瓜”结果新来一个浅白瓜它可能就判错了。剪枝就是砍掉一些不必要的树枝。预剪枝边建边剪每要分一个新分支前先问“分了之后在验证集上的表现会变好吗”如果不会就不分把当前结点直接当叶子。好处快不容易过拟合。坏处只盯着眼前一步的收益放弃了可能带来更大收益的深层分支。后剪枝建完再剪先让树完整长到最大然后自底向上看每个内部结点“把这个子树换成叶子取多数类验证集表现会变好吗”如果会就剪。好处比预剪枝保留更多分支泛化能力通常更好。坏处慢要先建完整棵树。5. 处理连续值和缺失值连续值怎么办比如“密度”是连续数字不能直接问“密度等于多少”处理办法二分法。把连续值排序取相邻两数的中点作为候选切分点然后像离散属性一样比较信息增益选最好的那个切分点。比如密度有0.4、0.5、0.6候选切分点就是0.45、0.55。问“密度 ≤ 0.45”就是一个二分问题。注意连续属性可以被重复使用比如父结点用了“密度≤0.5”子结点还可以再用“密度≤0.3”。缺失值怎么办有些样本某个属性值缺失比如根蒂脱落。处理思路计算信息增益时只考虑不缺失的样本然后按比例折算划分时如果样本在该属性上缺失就以不同概率分到所有分支概率该分支的样本比例C4.5就是这样做的。6. 多变量决策树斜着切一刀传统的决策树每次只问一个属性如“色泽青绿”所以分类边界是平行于坐标轴的直线或折线。如果真实的分类边界是斜线传统决策树需要用很多段折线去逼近树会很大。多变量决策树允许结点问多个属性的组合比如“0.5×色泽 0.3×根蒂 0.6”。这样就能用一条斜线直接分开树会小很多也更简洁。但多变量决策树的每个结点相当于训练一个小分类器计算量更大。第四章总结背下这5句就够了决策树一步一步问“是/否”问题最后走到答案划分属性时常用信息增益、增益率、基尼指数剪枝预剪枝/后剪枝用来防止过拟合连续值用二分法处理缺失值用概率分配处理多变量决策树可以斜着切边界更灵活树更小下章预告第五章讲神经网络——模仿人脑神经元的模型。你会学到什么是神经元、什么是BP算法误差反向传播、深度学习为什么这么火。

Transformer语言模型架构和细节梳理

Byte-Pair Encoding 是什么 BPE是现代大模型中实现Tokenization（分词）的一种主流方法。为什么需要它先从问题出发，LLM的目标是输入文本，输出文本，但是模型是通过数学运算运转的，因此需要先将文本转化为数字进行计算。有几种自然的想法：一个字分配一个id，缺点是…...

2026/5/23 6:51:26 阅读更多 →

快速上线的线上培训系统怎么选？低代码PaaS架构技术深度解析

核心结论：线上培训系统的"快速上线"能力，本质取决于其底层技术架构——基于低代码PaaS（Platform as a Service）架构的系统可实现1-7天完成部署上线，而传统SaaS系统通常需要2-4周的定制开发周期。架构选型直接…...

2026/5/23 6:48:40 阅读更多 →

为什么高级的棕色，永远是大自然原创，而非工厂复刻？

在审美高度同质化的当下，我们的配饰、穿搭、生活好物，似乎都逃不开工业调色的桎梏。市面上的棕色系美学层出不穷：摩卡棕、复古棕、焦糖棕、奶咖棕……这些被精心调试的流行色，看着精致干净，却有一个共同的短板——没有…...

2026/5/23 6:47:54 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/22 17:23:01 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/22 17:49:20 阅读更多 →