3.监督学习实战:手把手预测你家小区房价
什么是监督学习定义用带“正确答案”的历史数据训练模型去预测新数据的答案。 现实场景根据面积、卧室数、房龄预测房价训练数据过去100套房的【特征 成交价】预测任务新房的特征 → 估算成交价核心概念特征输入变量面积、位置、楼层…标签输出目标房价回归问题预测连续值房价、温度分类问题预测离散类别猫/狗、垃圾邮件/正常案例波士顿房价预测简化版步骤1准备数据importpandasaspdfromsklearn.model_selectionimporttrain_test_split# 假设已有数据面积(平米)、卧室数、房龄(年)、房价(万)datapd.DataFrame({area:[50,80,100,120,60],bedrooms:[1,2,3,3,2],age:[10,5,2,1,8],price:[150,250,320,400,180]})Xdata[[area,bedrooms,age]]ydata[price]X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2)步骤2选择模型线性回归fromsklearn.linear_modelimportLinearRegression modelLinearRegression()model.fit(X_train,y_train)步骤3预测与评估y_predmodel.predict(X_test)fromsklearn.metricsimportmean_absolute_error maemean_absolute_error(y_test,y_pred)print(f平均误差{mae:.2f}万元)真实项目的完整流程数据采集爬虫/数据库/API清洗处理缺失值、异常值特征工程创造新特征如人均面积划分数据集训练70%验证15%测试15%训练多个模型线性回归、决策树、随机森林…调参网格搜索找最佳超参数部署将模型封装成API常见监督学习算法速查任务 推荐算法 特点回归 线性回归、决策树、XGBoost 速度快、可解释分类 逻辑回归、随机森林、SVM 准确率高小结监督学习是应用最广的机器学习方法只要你有一堆【特征→答案】的数据就能训练一个预测模型。下一篇我们探索“无监督学习”看看在没有答案的数据里能发现什么秘密。下一篇预告《无监督学习让AI自己发现“人以群分”的秘密》