KNN算法的API实现

张

张建站

2026/4/24 14:49:58

10分钟阅读

简述1. KNN算法介绍K Nearest Neighbor-K近邻算法2. 原理1️⃣ 基于欧氏距离(欧氏距离对应维度差值平方和开平方根,简单理解勾股定理)或其他距离计算方式计算测试集和每个调试集之间的距离再根据距离排序找到最近的K个样本2️⃣ 基于K个样本投票票组多的就作为最终预测结果》分类问题3️⃣ 基于K个样本计算均值作为最终预测结果》回归问题3. 实现思路1️⃣ 分类问题适用于适用于有特征、有标签且标签是不连续的离散的2️⃣ 回归问题适用于适用于有特征、有标签且标签是连续的4. KNN算法分类问题思路1️⃣ 计算测试集和每个训练的样本之间的距离2️⃣基于距离进行升序排序3️⃣找到最近的K个样本4️⃣①分类问题K个样本进行投票|| ②回归问题基于K个样本的标签计算均值5️⃣①分类问题票数多的结果作为最终预测结果|| ②回归问题将计算出的均值作为最终的预测结果5. 代码实现思路1️⃣ 导包2️⃣准备数据集测试集和训练集3️⃣ 创建模型对象KNN模型对象/ KNN回归对象4️⃣ 模型训练5️⃣ 模型预测6. 总结K值过小容易受到异常值的影响且会导致模型学到大量脏的特征导致出现过拟合K值过大模型会变得简单容易发生欠拟合1. KNN算法分类API# 1.导包fromsklearn.neighborsimportKNeighborsClassifier#KNN算法的分类模型# 2.准备数据集测试集和训练集x_train[[0],[1],[2],[3]]#训练集的特征数据因为特征可以有多个所以是一个二维数组y_train[0,0,1,1]#训练集的标签数据因为标签是离散的所以是一个一维数组x_test[[5]]#测试集的特征数据要和测试集特征格式保持一致# 3.创建模型对象KNN模型对象# estimator估计器模型对象也可以用变量名model做接收estimatorKNeighborsClassifier(n_neighbors3)# 4.模型训练# 传入训练集的特征数据、训练集的标签数据estimator.fit(x_train,y_train)#不需要返回值# 5.模型预测# 传入测试集的特征数据获取到预测结果测试集的标签y_testy_predestimator.predict(x_test)# 6.打印预测结果print(f预测值为{y_pred})# 求谁离5最近3因为5-32,2平方44开根号2即为根号4# 5和2之间的距离5-233的平方99开根号3# n_neighbors2求的是距离x_test5最近的2个即3,2对3,2对应的y_train进行投票投票结果都是1所以最终预测结果是1# n_neighbors3求的是距离x_test5最近的3个即3,2,1对3,2,1对应的y_train进行投票投票结果1个0、2个1所以最终预测结果是1# n_neighbors4求的是距离x_test5最近的4个即4,3,2,1对4,3,2,1对应的y_train进行投票投票结果2个0、2个1# 但是01两个预测值哪个结果小就认为哪个模型更简单根据奥卡姆剃刀原则(给定两个具有相同泛化误差的模型较简单的模型比较复杂的模型更可取)所以最终预测结果是0# 当票数相同时优先选择再训练集中最早出现的类别在y_train[0,0,1,1]0比1更早出现所以最终预测结果是0# 当票数相同时会比较Unicode0更小所以预测结果是0# Scikit-learn中平票处理默认选择数值较小的标签可以通过设置weightsdistance让距离近的样本有更大权重、选择距离最近的标签2. KNN算法回归API# 1.导包fromsklearn.neighborsimportKNeighborsRegressor#KNN算法的回归模型# 2.准备数据集测试集和训练集# 差值(3,11,9) (2,10,10) (0,1,0) (1,0,2)# 平方和211 204 1 5# 开根号14.53 14.28 1 2.24x_train[[0,0,1],[1,1,0],[3,10,10],[4,11,12]]#训练集的特征数据因为特征可以有多个所以是一个二维数组y_train[0.1,0.2,0.3,0.4]#训练集的标签数据因为标签是连续的所以是一个一维数组x_test[[3,11,10]]#测试集的特征数据要和测试集特征格式保持一致# 3.创建模型对estimatorKNeighborsRegressor(n_neighbors4)# 4.模型训练estimator.fit(x_train,y_train)# 5.模型预测y_preestimator.predict(x_test)# 6.打印预测结果print(预测结果,y_pre)# n_neighbors33邻距求距离最近(平方和/开根号最小)的3个值分别对应的y_train的值即 0.2, 0.3, 0.4三者平均值是0.3所以预测结果为0.3# n_neighbors22邻距求距离最近(平方和/开根号最小)的2个值分别对应的y_train的值即 0.3, 0.4两者平均值是0.35所以预测结果为0.35# n_neighbors44邻距求距离最近(平方和/开根号最小)的4个值(即跟样本数一致)分别对应的y_train的值即 0.1, 0.2, 0.3, 0.4,求平均数所以预测结果为0.25# 因为找的数是所有的全算即kn当kn时永远取全部数字的平均值即k值过大会发生欠拟合k值过小会发生过拟合

SD-PPP终极指南：3步实现Photoshop与AI绘图的无缝融合

SD-PPP终极指南：3步实现Photoshop与AI绘图的无缝融合【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp SD-PPP是一款革命性的Photoshop AI插件，它彻底改变了设计师使用AI进行创意工作的方式。…...

2026/4/24 14:48:25 阅读更多 →

终极解决方案：修复AeroSpace窗口焦点切换异常，提升macOS窗口管理效率

终极解决方案：修复AeroSpace窗口焦点切换异常，提升macOS窗口管理效率【免费下载链接】AeroSpace AeroSpace is an i3-like tiling window manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ae/AeroSpace AeroSpace是一款为macO…...

2026/4/24 14:44:15 阅读更多 →

攻克MacOS构建fmt库的POSIX宏陷阱：从报错到根治的完整方案

攻克MacOS构建fmt库的POSIX宏陷阱：从报错到根治的完整方案【免费下载链接】fmt A modern formatting library 项目地址: https://gitcode.com/GitHub_Trending/fm/fmt 在MacOS系统上构建fmt库时，许多开发者都会遭遇由POSIX宏定义冲突引发的构建错…...

2026/4/24 14:39:28 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/21 20:14:59 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →