Z-Score 标准化 (Standardization)，Min-Max 归一化 (Normalization / Rescaling)

张

张建站

2026/6/29 16:18:05

10分钟阅读

Z-Score 标准化 (Standardization)，Min-Max 归一化 (Normalization / Rescaling)

在构建 Lasso 回归模型时特征标准化是至关重要的一步因为 Lasso 的 L1 正则化惩罚项对特征的尺度非常敏感。如果特征量纲不同例如“年龄”范围是 0-100“收入”范围是 0-100,000未标准化的数据会导致模型对大数值特征施加过大的惩罚从而影响特征选择的准确性。常用的两种特征标准化/缩放方法分别是 ‌Z-Score 标准化 (Standardization)‌ 和 ‌Min-Max 归一化 (Normalization)‌。1. Z-Score 标准化 (Standardization)‌原理‌将数据转换为均值为 0、标准差为 1 的分布。它保留了原始数据的分布形状但消除了量纲影响。公式x′x−μσx′σx−μ其中 μμ 是均值σσ 是标准差。‌适用场景‌‌Lasso/Ridge 回归的首选‌。大多数机器学习算法特别是基于距离或正则化的算法假设数据符合正态分布或至少具有零均值和单位方差。数据中存在异常值时虽然标准化受异常值影响但相比归一化它不会将数据强制压缩到固定区间因此在某些情况下更稳健尽管通常建议先处理异常值。‌代码实现‌‌Python (sklearn):‌pythonfrom sklearn.preprocessing import StandardScalerimport numpy as np# 假设 X 是你的特征数据矩阵X np.array([[10, 200], [20, 300], [30, 400]])# 创建标准化器scaler StandardScaler()# 拟合并转换训练数据X_scaled scaler.fit_transform(X)# 转换测试数据只 transform不 fit# X_test_scaled scaler.transform(X_test)print(标准化后的数据:\n, X_scaled)print(均值:, X_scaled.mean(axis0)) # 接近 0print(标准差:, X_scaled.std(axis0)) # 接近 1‌R 语言:‌# 假设 df 是你的数据框排除目标变量列# scale() 函数默认进行 Z-Score 标准化data_scaled - scale(df[, -which(names(df) target)])# 查看结果head(data_scaled)2. Min-Max 归一化 (Normalization / Rescaling)‌原理‌将数据线性映射到 [0, 1] 区间也可以指定其他区间如 [-1, 1]。公式x′x−xminxmax−xminx′xmax−xminx−xmin‌适用场景‌当算法要求输入数据必须在特定 bounded 区间时如神经网络的一些激活函数、图像处理像素值。数据分布不符合正态分布且你希望保留原始数据的相对比例关系。‌注意‌对于 Lasso 回归虽然可以使用归一化但 ‌Standardization (Z-Score)‌ 通常更推荐因为 Lasso 的正则化路径在标准化数据上表现更稳定。如果数据中有极端异常值Min-Max 会将大部分数据压缩到非常小的区间导致区分度降低。‌代码实现‌‌Python (sklearn):‌from sklearn.preprocessing import MinMaxScalerimport numpy as npX np.array([[10, 200], [20, 300], [30, 400]])# 创建归一化器min_max_scaler MinMaxScaler(feature_range(0, 1)) # 默认就是 0-1# 拟合并转换X_normalized min_max_scaler.fit_transform(X)print(归一化后的数据:\n, X_normalized)print(最小值:, X_normalized.min(axis0)) # 0print(最大值:, X_normalized.max(axis0)) # 1‌R 语言:‌# R 基础包中没有直接的 MinMax 函数可以手动编写或使用 caret/scales 包# 手动实现 Min-Max 归一化min_max_norm - function(x) {return ((x - min(x)) / (max(x) - min(x)))}# 对数据框中的每一列应用df_numeric - df[, sapply(df, is.numeric)] # 仅选择数值列df_normalized - as.data.frame(lapply(df_numeric, min_max_norm))总结与建议表格特性Z-Score 标准化 (StandardScaler)Min-Max 归一化 (MinMaxScaler)‌输出范围‌无固定范围均值0标准差1固定在 [0, 1] (或指定范围)‌对异常值敏感度‌中等 (均值和标准差受异常值影响)‌高‌ (最大值/最小值直接决定缩放比例)‌Lasso 回归推荐度‌‌⭐⭐⭐⭐⭐ (强烈推荐)‌⭐⭐⭐ (可用但不如标准化普遍)‌主要用途‌线性回归、SVM、KNN、PCA、聚类神经网络、图像处理、需要边界值的算法‌针对 Lasso 模型的最佳实践‌‌优先使用StandardScaler(Z-Score)‌。务必在‌训练集‌上fit然后同时转换训练集和测试集以防止数据泄露。如果使用 Python 的sklearn推荐使用Pipeline将标准化和 Lasso 模型封装在一起确保交叉验证时每一步都正确执行。‌Python Pipeline 示例 (最佳实践):‌from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LassoCVfrom sklearn.model_selection import train_test_split# 假设 X, y 已准备好X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 创建管道先标准化再运行 Lassopipeline Pipeline([(scaler, StandardScaler()),(lasso, LassoCV(cv5)) # LassoCV 自动通过交叉验证选择最佳 alpha])# 训练模型 (管道会自动对训练数据进行 fit_transform对测试数据 transform)pipeline.fit(X_train, y_train)# 预测y_pred pipeline.predict(X_test)# 查看最佳 alpha 和系数print(Best Alpha:, pipeline.named_steps[lasso].alpha_)print(Coefficients:, pipeline.named_steps[lasso].coef_)

MySQL主从复制报错：UUID冲突导致I/O线程停止的排查与修复

1. 虚拟机克隆引发的MySQL主从复制"双胞胎"问题前几天帮朋友处理一个MySQL主从复制的故障，场景特别典型——他用VMware克隆了两台虚拟机做测试，结果主从复制死活配不通。错误日志里明晃晃写着："Fatal error: The slave I/O t…...

2026/6/29 16:09:58 阅读更多 →

Wayback Machine终极网页存档指南：如何永久保存你的互联网记忆 [特殊字符]

Wayback Machine终极网页存档指南：如何永久保存你的互联网记忆 🌐 【免费下载链接】wayback-machine-webextension A web browser extension for Chrome, Firefox, Edge, and Safari 14. 项目地址: https://gitcode.com/gh_mirrors/wa/wayback-machine…...

2026/6/29 16:05:15 阅读更多 →

ComfyUI ControlNet Aux插件完全指南：解锁AI绘画的终极控制力

ComfyUI ControlNet Aux插件完全指南：解锁AI绘画的终极控制力【免费下载链接】comfyui_controlnet_aux ComfyUIs ControlNet Auxiliary Preprocessors 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 想要在ComfyUI中实现精准的图像控…...

2026/6/29 15:58:43 阅读更多 →

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…...

2026/6/28 1:01:54 阅读更多 →

快人一步，预发掘的监控系统

快人一步：基于AI预发掘与多角色评审的下一代监控系统架构设计摘要传统监控系统长期面临一个核心矛盾：监控覆盖率的完备性与报警的精准性之间的博弈。运维团队往往在"漏报"与"误报"的夹缝中疲于奔命。本报告提出并完整设计了一种…...

2026/6/29 2:08:46 阅读更多 →

Workflow 系列（01）：基础理论——三种执行模型与 Anthropic 5 种模式

工作流不是流程图传统工作流是确定性的：每个节点是一段代码，分支条件是布尔表达式，失败是预定义的异常类型。相同输入给相同输出，跑一百次和跑一次结果一样。 Agent Workflow 打破了这个假设：传统 Workflow（Airflow / n8n）：节点 = Python 函数 / API 调用（…...

2026/6/29 2:08:19 阅读更多 →