1.简介

knn算法是监督学习中分类方法的一种。所谓监督学习与非监督学习，是指训练数据是否有标注类别，若有则为监督学习，若否则为非监督学习。所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类（加权），就把该输入实例分类到这个类中。

最初的近邻法是由Cover和Hart于1968年提出的，随后得到理论上深入的分析与研究，是非参数法中最重要的方法之一，它在论文Nearest Neighbor Pattern Classification中给出了算法准确率的详细描述，最近邻法的错误率是高于贝叶斯错误率。[没来得及看，标注，方便以后翻阅]

knn计算输入实例与每一个训练实例的距离，当训练集很大时，计算非常耗时，为了提高knn搜索的效率，可以考虑使用特殊结构存储训练数据，以减少计算距离的次数。[见参考资料1，本篇数据不大，暂时没有看]

2.k-最近邻分类算法

图1来自参考文献2

技术分享

3.knn特性

计算量大、对噪声敏感、样本各个属性的量纲差异很大时要进行数据预处理。

图2来自参考文献2

技术分享

参考资料：

[1]《统计学习方法》, 李航,P41-44

[2]数据挖掘导论（完整版）,Pang-Ning Tan、Michael Steinbach、Vipin Kumar著（范明、范宏建等译）,P137-139

end!!

算法学习笔记：knn理论介绍

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 算法学习笔记：knn理论介绍

算法学习笔记：knn理论介绍

1.简介

2.k-最近邻分类算法

3.knn特性

看完仍有疑问？有类似问题直接问程序猿