别再到处找数据集了！手把手教你用Python和Pandas搞定波士顿房价预测（附完整代码和避坑指南）

张

张建站

2026/5/23 14:55:06

10分钟阅读

别再到处找数据集了！手把手教你用Python和Pandas搞定波士顿房价预测（附完整代码和避坑指南）

从零构建波士顿房价预测实战数据获取、特征工程与模型调优全流程解析当你第一次接触机器学习项目时数据集获取往往成为拦路虎。以经典的波士顿房价预测为例许多教程仍在引用已被移除的sklearn内置数据集导致初学者在复现代码时频频碰壁。本文将提供一套完整的解决方案从数据获取到模型部署手把手带你避开所有常见陷阱。1. 数据获取与预处理避开第一个坑波士顿房价数据集作为机器学习入门经典曾长期存在于sklearn.datasets模块中。但在最新版本中由于伦理考量该数据集已被移除。这导致大量网络教程和GPT生成的代码无法运行。以下是三种可靠的替代数据获取方式UCI机器学习仓库原始数据访问UCI官网下载原始CSV文件这是最权威的数据来源。文件包含506条记录每条记录有14个特征13个输入特征1个输出标签。备用数据源import pandas as pd data_url http://lib.stat.cmu.edu/datasets/boston raw_df pd.read_csv(data_url, sep\s, skiprows22, headerNone)第三方托管平台许多数据科学社区如Kaggle提供了清洗后的版本适合快速开始。数据加载后首要任务是理解各特征含义特征名描述单位/类型CRIM城镇犯罪率比例RM平均房间数整数LSTAT低收入人群比例百分比注意原始数据中的B特征黑人比例因涉及敏感信息在新版数据集中已被移除或匿名化处理。2. 环境配置与探索性分析推荐使用conda创建独立Python环境避免包冲突conda create -n boston python3.9 conda activate boston pip install pandas scikit-learn seaborn matplotlib数据探索是理解数据集的关键步骤。通过可视化可以快速发现数据特性import seaborn as sns import matplotlib.pyplot as plt # 绘制特征分布直方图 plt.figure(figsize(12,8)) for i, col in enumerate(df.columns[:-1]): plt.subplot(3,5,i1) sns.histplot(df[col], kdeTrue) plt.tight_layout()关键发现NOX一氧化氮浓度呈现明显的右偏分布DIS就业中心距离存在多个峰值CHAS查尔斯河虚拟变量是二元特征3. 特征工程从原始数据到模型输入原始数据通常不能直接用于建模。我们需要进行以下处理3.1 缺失值处理检查并处理缺失值是首要任务missing df.isnull().sum() print(missing[missing 0])对于少量缺失可采用中位数填充df[AGE].fillna(df[AGE].median(), inplaceTrue)3.2 特征缩放不同特征的量纲差异巨大需要进行归一化from sklearn.preprocessing import MinMaxScaler scaler MinMaxScaler() scaled_features scaler.fit_transform(df.iloc[:, :-1]) df_scaled pd.DataFrame(scaled_features, columnsdf.columns[:-1])3.3 特征选择通过相关性分析筛选重要特征corr_matrix df.corr() plt.figure(figsize(10,8)) sns.heatmap(corr_matrix, annotTrue, cmapcoolwarm)高相关性特征RM房间数0.7LSTAT低收入比例-0.74PTRATIO师生比-0.514. 模型构建与评估三大回归方法对比我们将实现三种经典回归方法并对比其性能。4.1 基础线性回归from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score lr LinearRegression() lr.fit(X_train, y_train) predictions lr.predict(X_test) print(fMSE: {mean_squared_error(y_test, predictions):.2f}) print(fR2: {r2_score(y_test, predictions):.2f})4.2 岭回归L2正则化from sklearn.linear_model import Ridge ridge Ridge(alpha0.5) ridge.fit(X_train, y_train) ridge_pred ridge.predict(X_test)4.3 Lasso回归L1正则化from sklearn.linear_model import Lasso lasso Lasso(alpha0.01) lasso.fit(X_train, y_train) lasso_pred lasso.predict(X_test)模型性能对比表模型MSER2特征数线性回归23.180.7213岭回归24.880.7013Lasso回归25.410.699提示Lasso会自动进行特征选择将不重要特征的系数压缩为05. 超参数调优与模型部署正则化参数α的选择显著影响模型性能。我们可以使用网格搜索寻找最优值from sklearn.model_selection import GridSearchCV param_grid {alpha: [0.001, 0.01, 0.1, 1, 10, 100]} grid GridSearchCV(Ridge(), param_grid, cv5) grid.fit(X_train, y_train) print(f最佳参数: {grid.best_params_})将训练好的模型保存以便后续使用import joblib joblib.dump(grid.best_estimator_, boston_ridge_model.pkl)在实际项目中我发现特征工程环节往往比模型选择更重要。花费80%的时间在数据清洗和特征处理上通常能带来比更换算法更显著的提升。特别是在处理房价这类复杂预测问题时理解业务背景和特征含义有时比复杂的模型架构更有价值。

中小团队如何利用 Taotoken 统一管理多个项目的 API 密钥与用量

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度中小团队如何利用 Taotoken 统一管理多个项目的 API 密钥与用量对于中小型技术团队而言，同时推进多个项目是常态。每个…...

2026/5/21 22:15:05 阅读更多 →

多代码平台多项目管理工具

代码平台多项目管理工具项目背景：多项目全保存在state.vscdb这一个文件里，默认又还有原大小的备份文件，从cursor里删除项目删不干净，望着爆红又不敢随意重装系统的C盘陷入了沉思基本原理：项目与用户配置等文件全在us…...

2026/5/22 2:39:29 阅读更多 →

常用工具清单

Mem Reduct — 免费内存优化器 https://mem-reduct.com/#system-requirements Redis — Github 安装地址 Another-Redis-Desktop-Managerhttps://github.com/qishibo/AnotherRedisDesktopManager/tags redishttps://github.com/tporadowski/redis/tags...

2026/5/22 23:35:30 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/22 17:23:01 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/22 17:49:20 阅读更多 →