Scikit-learn 的 Dummy 模型

张

张建站

2026/5/15 2:31:05

10分钟阅读

原文towardsdatascience.com/the-dummy-models-of-scikit-learn-3001f54c48e9Dummy 模型设置非常简单同时还能提供检查机器学习模型性能的深刻见解。在这篇文章中我想解释 dummy 模型是什么以及如何在 scikit-learn 中使用它们。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2fc274af16d9ecb63f40f90edfcc8a80.png由Nicolas Thomas在Unsplash上的照片如果您喜欢或想用 scikit-learn 学习机器学习请查看我关于这个神奇包的教程系列Sklearn 教程所有图片均为作者所有。什么是 dummy 模型Dummy 模型是非常简单的模型旨在用作基准来比较您的实际模型。基准只是某种参考点以便进行比较。当您计算第一次交叉验证结果以估计模型性能时您通常知道得分越高越好如果第一次尝试得分相当高那很好。但这种情况并不常见。如果第一个准确度得分相当低——或者低于您想要的或预期的呢这是否是因为数据是否是因为您的模型两者都是吗我们如何快速知道我们的模型是否调得不好Dummy 模型旨在回答这些问题。它们的复杂性和“智能”非常低想法是您可以与它们比较看看您比“最愚蠢”的模型好多少。请注意它们并不是故意预测愚蠢的值它们只是做出最简单、非常简单的智能猜测。如果您的模型比 dummy 模型表现更差您应该调整或完全更改您的模型。一个简单的 dummy 回归器示例是始终预测训练目标的平均值无论输入如何这并不理想但平均来说它给出一个合理的简单猜测。如果您的实际模型比这个非常非常简单的方案表现更差您可能需要审查您的模型。Scikit-learn 中的 Dummy 模型scikit-learn 的 dummy 模型包相当简单它只包含 2 个类一个DummyClassifier一个DummyRegressorhttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/28324a79485d7febd8edd99685c0f7ff.pngscikit-learn 中 dummy 模块的 API 文档相当简单。这些是暴露 scikit-learn 中estimator API的类它们是实际模型可以使用.fit方法从训练集中学习并使用.predict方法根据新的输入预测目标。换句话说它们的工作方式与您使用 Pipeline 创建的典型模型一样例如。注意正如我们将在下面更详细地看到的那样这两个虚拟估计器都接受一个strategy参数。这个策略允许创建不同的虚拟模型变体例如使用mean策略的虚拟回归器总是预测训练目标的平均值或者允许我们指定模型应该始终预测的特定常量。换句话说sklearn 提供了多个虚拟回归器和多个虚拟分类器模型。**对于大多数策略虚拟估计器在训练时只使用 y 目标值并且在预测时永远不会使用 X 测试集。**我们将在下面看到这一点。虚拟回归器DummyRegressor 类可以使用 4 种不同的策略进行实例化这些策略的名称相当直观。对于任何新的样本 x_i这个虚拟模型简单地返回它在训练期间学习到的值并且完全忽略样本的内容mean: 总是返回训练目标的平均值median: 总是返回训练目标的中位数quantile: 总是返回训练目标的指定分位数constant: 总是返回一个指定的常量值https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bb4b4b0a6d0f3cf78681ba77d3f95686.pngDummyRegressor 策略的预测方法。让我们专注于一个使用mean策略的例子。

一次线上OOM排查实录：我是如何通过替换glibc的ptmalloc为jemalloc，将内存占用降低40%的

一次线上OOM排查实录：从ptmalloc到jemalloc的内存优化之旅凌晨3点的告警铃声总是格外刺耳。监控大屏上那条陡峭上升的内存曲线，让整个运维团队瞬间清醒——核心订单服务再次触发了OOM（Out Of Memory）自动重启。这已经是本周第三次…...

2026/5/15 2:29:22 阅读更多 →

CircuitPython SD卡文件系统挂载与数据记录实战指南

1. 项目概述：为什么要在嵌入式系统里折腾SD卡？如果你玩过树莓派Pico、Adafruit的Feather系列或者任何一款支持CircuitPython的开发板，你肯定对板载的那块小小的存储（通常被挂载为CIRCUITPY盘符）又爱又恨。爱的是&#…...

2026/5/15 2:27:06 阅读更多 →

VRLog×框架：隐私保护记录链接与验证注册的创新融合

1. VRLog框架：隐私保护记录链接与验证注册的融合创新在选民登记系统这类需要跨机构协作的高敏感场景中，如何在确保数据隐私的同时实现准确记录匹配，一直是困扰业界的难题。传统隐私保护记录链接（PPRL）技术虽然能保护计…...

2026/5/15 2:26:11 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/14 5:05:50 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/14 23:26:14 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/12 17:56:15 阅读更多 →