一、KNN所属模块KNN在SPSSAU中属于【机器学习】模块。二、方法概述KNN是一种常见的分类方法核心思路是根据与目标样本最接近的邻近样本来判断类别。它适合做用户分群、样本识别、标签预测等分类分析尤其适用于结构相对直观的数据场景。三、变量设置规则1.总体要求KNN共需要设置2类变量分别是分析项X定量和Y定类两类变量都为必填。2.具体设置1分析项X定量● 最少放入1个最多可放入400个变量且为必填。● 它们是进入模型用于判断样本相似性的输入特征通常要求为定量数据。2Y定类● 只能放入1个变量且为必填。● 它是模型要识别和预测的类别结果因此该方法更适合分类任务。四、参数设置及解释说明1.训练集比例● 用于设置总样本中有多少比例参与模型训练默认值为0.8。● 训练样本比例越高模型学习通常越充分测试样本相应减少。一般可先采用默认设置。2.数据归一化● 可选None、norm、mas、mms。● None表示不处理norm表示正态标准化mas表示区间化mms表示归一化。● KNN基于距离判断样本相似性不同变量量纲差异过大时通常建议先做数据处理。3.保存预测值● 勾选后会额外保存预测信息。● 分类任务下通常会保存预测类别和各类别预测概率方便后续结果比对与应用。4.保存训练测试标识● 勾选后会生成训练集和测试集标识其中训练集记为1测试集记为2。● 适合后续核对样本划分情况也便于将分析结果回写到原始数据继续使用。5.交叉验证● 默认不进行也可以选择2折、3折、5折或10折。● 它用于检验模型在训练数据中的稳定性折数越高结果通常更稳定但计算时间也会更长。6.邻近样本的个数● 该参数用于设置参与投票的邻近样本数量默认值为5。● 邻近样本个数较小时模型对局部差异更敏感个数较大时结果通常更平稳但也可能忽略局部特征。7.样本投票权重● 可选等比投票权和距离反比投票权默认是等比投票权。● 等比投票权表示每个邻近样本影响相同距离反比投票权表示距离越近的样本权重越高。若希望更突出相似样本的作用可考虑距离反比投票权。8.邻近搜索方法● 可选auto、全局搜索、kd树、球树默认是auto。● 它用于决定寻找最近邻样本时采用哪种方式。样本量较大时通常更关注搜索效率与资源消耗。9.叶节点数量● 该参数用于控制树结构规模仅在使用kd树或球树时有效。● 它会影响搜索效率与资源占用一般可先使用默认设置再结合样本规模调整。10.距离计算方法● 可选欧氏距离和曼哈顿距离默认是欧氏距离。● 欧氏距离更常用于常规空间距离判断曼哈顿距离更适合强调各维度差异的累积效果。可根据数据特点选择更合适的方式。五、分析结果表格及其解读SPSSAU完成KNN分析后常见会输出knn分类基本信息汇总、特征权重值、训练集模型评估结果、交叉验证模型评估结果、测试集模型评估结果、模型汇总表、AUC指标值和数据集情况。1.表1knn分类基本信息汇总该表格用于展示因变量各类别的样本分布情况以及有效样本、缺失样本和总样本情况。● 频数表示各类别对应的样本数量。若某些类别样本过少分类结果通常更不稳定。● 百分比表示对应类别在总体中的占比。若类别分布差异较大模型可能更偏向样本量较多的类别。● 有效样本表示真正参与建模的数据量。有效样本越充分结果通常越可靠。● 缺失样本表示未进入分析的数据量。若缺失占比较高需要更谨慎看待结果代表性。2.表2特征权重值该表格在输出相关结果时出现用于展示各分析项在模型中的相对重要性包含项和权重值两个核心指标。● 项表示进入模型的特征名称。● 权重值表示变量对分类结果的相对贡献。通常数值越大说明该变量越重要更适合做变量之间的相对比较。3.表3训练集模型评估结果该表格用于判断模型在训练集上的分类表现通常包含精确率、召回率、f1-score、样本数、准确率和平均值等信息。● 精确率表示模型判定为某类时有多大概率判对越高越好。● 召回率表示某类别真实样本被识别出来的比例越高越好。● f1-score综合反映精确率与召回率的平衡情况越高越好。● 样本数表示对应类别参与评估的样本量样本量较少时该类指标波动可能更大。● 准确率表示整体分类正确的比例通常越高越好。4.表4交叉验证模型评估结果或测试集模型评估结果交叉验证模型评估结果仅在开启交叉验证时输出用于观察模型在不同训练划分下的稳定程度测试集模型评估结果则用于判断模型在未参与训练数据上的实际分类效果。● 如果交叉验证结果与训练集结果接近通常说明模型稳定性较好。● 如果测试集表现明显弱于训练集通常说明模型在新样本上的泛化能力一般后续可考虑调整参数或优化数据。5.表5模型汇总表或AUC指标值模型汇总表用于集中展示本次分析使用的参数设置及模型评估效果便于快速回顾建模方案AUC指标值在输出ROC相关结果时出现用于展示训练集和测试集的区分能力。● 参数名表示本次分析采用的参数项目。● 参数值表示对应参数的具体设置作用是帮助复现实验过程。● AUC用于衡量模型区分类别的能力通常越接近1越好若接近0.5通常说明区分能力较弱。6.表6数据集情况该表格用于展示训练集、测试集、预测集和缺失数据的数量与占比。● 训练集用于模型学习比例过低时模型可能学得不充分。● 测试集用于检验模型效果比例过少时评估稳定性可能不足。● 预测集表示仅用于生成预测结果的数据。● 缺失数据表示未能进入分析的数据量若占比偏高需要关注数据完整性问题。六、分析结果图表及其解读SPSSAU完成KNN分析后常见会输出特征权重图、测试集结果混淆矩阵和ROC曲线。1.图1特征权重图该图表本质上是条形图用于直观展示各特征在模型中的相对重要性。● 条形越长通常说明该特征对分类结果影响越大。● 如果少数变量明显高于其他变量说明模型更依赖这些关键特征。2.图2测试集结果混淆矩阵该图表用于查看真实类别与预测类别之间的对应关系是判断分类效果的直观图形。● 如果对角线位置数值更集中、更高通常说明模型分类更准确。● 如果非对角线位置数值较多说明某些类别更容易被混淆。3.图3ROC曲线该图表用于展示模型在不同判定阈值下的区分能力通常可同时查看训练集和测试集表现。● 曲线越靠近左上方通常说明模型区分能力越强。● 若测试集曲线明显弱于训练集通常说明模型在新样本上的稳定性一般。● 实际解读时建议结合AUC指标值一起看这样更容易判断模型是否具有较好的分类能力。以上就是SPSSAU KNN的相关内容更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。