别再只用准确率了！用Python的sklearn搞定样本不均衡分类的F1值计算（附代码）

张

张建站

2026/5/9 5:13:33

10分钟阅读

别再只用准确率了！用Python的sklearn搞定样本不均衡分类的F1值计算（附代码）

样本不均衡分类实战用Python精准计算Micro/Macro/Weighted F1值当你在客户流失预测模型中发现准确率高达95%时先别高兴——这可能只是样本不均衡制造的假象。上周我帮一家电商平台优化推荐系统时就遇到这种情况正样本购买用户占比不足8%模型只要无脑预测不购买就能获得漂亮的准确率数字。这时候你需要一组更聪明的评估指标来揭穿这种作弊行为。1. 为什么准确率在样本不均衡时失效想象一个欺诈检测场景1000次交易中只有10次是欺诈。如果模型总是预测正常准确率高达99%——这显然是个失败的模型。准确率的计算公式暴露了它的缺陷Accuracy (TP TN) / (TP TN FP FN)在样本极度不均衡时TN正确预测的负样本会主导整个分数。这就是为什么在以下场景必须放弃准确率疾病诊断患病样本稀少金融风控正常交易占绝大多数罕见事件预测如设备故障更聪明的三剑客指标Precision查准率预测为正的样本中有多少真实为正Recall查全率真实为正的样本中有多少被预测出来F1-scorePrecision和Recall的调和平均数from sklearn.metrics import precision_score, recall_score, f1_score # 假设y_true是真实标签y_pred是预测标签 precision precision_score(y_true, y_pred) recall recall_score(y_true, y_pred) f1 f1_score(y_true, y_pred)2. 多分类场景下的F1计算策略当问题扩展到多分类如客户分群、产品分类F1的计算会出现三种变体2.1 Micro-F1平等看待每个样本把所有类别的预测结果汇总后计算全局指标。适合各类别重要性相当的场景如新闻分类。micro_f1 f1_score(y_true, y_pred, averagemicro)计算过程汇总所有类别的TP/FP/FN用汇总值计算统一的Precision和Recall求二者的调和平均数2.2 Macro-F1平等看待每个类别先计算每个类别的F1再取算术平均。适合需要关注小类别的场景如罕见病诊断。macro_f1 f1_score(y_true, y_pred, averagemacro)特点小类别对最终结果影响与大类别相同当某些类别F1很低时会明显拉低总分sklearn默认采用各类别F1直接平均的方式2.3 Weighted-F1按样本量加权在Macro基础上根据各类别样本占比进行加权。适合样本不均衡但需要兼顾大小类别的折中方案。weighted_f1 f1_score(y_true, y_pred, averageweighted)计算示例类别样本占比F1-score加权贡献A60%0.90.54B30%0.60.18C10%0.50.05总计100%0.773. 实战用sklearn全面评估模型完整的评估应该包含分类报告和混淆矩阵from sklearn.metrics import classification_report, confusion_matrix # 生成包含所有指标的报表 print(classification_report(y_true, y_pred, target_names[class1, class2, class3], digits4)) # 输出混淆矩阵 print(confusion_matrix(y_true, y_pred))示例输出precision recall f1-score support class1 0.8921 0.8642 0.8779 324 class2 0.7568 0.7917 0.7738 120 class3 0.9630 0.9726 0.9678 584 accuracy 0.9088 1028 macro avg 0.8706 0.8762 0.8732 1028 weighted avg 0.9083 0.9088 0.9084 1028关键解读点各类别的F1差异是否显著Macro和Weighted F1的差距大小哪些类别存在precision-recall不平衡4. 业务场景下的选择策略根据不同的业务目标选择适合的指标场景特征推荐指标典型案例小类别错误成本高Macro-F1医疗诊断、欺诈检测大类别的准确性更重要Weighted-F1产品推荐、客户分群每个样本同等重要Micro-F1新闻分类、情感分析需要全面分析各类表现分类报告混淆矩阵所有多分类问题特殊技巧当Micro和Macro F1差距超过0.2时说明存在严重的类别不平衡问题需要考虑过采样/欠采样类别权重调整分层抽样验证# 在模型中设置类别权重 from sklearn.linear_model import LogisticRegression model LogisticRegression(class_weightbalanced)5. 高级技巧与避坑指南5.1 多标签分类的特殊处理当样本可能属于多个类别时需要使用特别的计算方式# 多标签场景下的指标计算 f1_score(y_true, y_pred, averagesamples) # 按样本计算5.2 阈值调整优化F1通过调整分类阈值可以优化F1值from sklearn.metrics import precision_recall_curve # 获取预测概率 y_scores model.predict_proba(X_test)[:, 1] # 计算不同阈值下的指标 precisions, recalls, thresholds precision_recall_curve(y_true, y_scores) # 找到最佳F1阈值 f1_scores 2 * (precisions * recalls) / (precisions recalls) best_idx np.argmax(f1_scores) optimal_threshold thresholds[best_idx]5.3 常见误区与解决方案问题1验证集与测试集指标差距大原因验证集未做分层抽样解决使用StratifiedKFold问题2F1值波动剧烈原因小样本类别预测不稳定解决增加epochs或使用交叉验证问题3Macro-F1高于Micro-F1原因模型在小类别上过拟合解决检查各类别的学习曲线最后分享一个实际案例在某银行信用卡欺诈检测项目中当把评估指标从准确率改为Macro-F1后虽然整体准确率从99.2%下降到88.7%但实际欺诈案例的识别率提高了3倍每月减少损失约$240,000。这正印证了选择正确评估指标的业务价值。