KNN距离函数的简单拓展

2024-07-29 18:34:18 217人阅读

KNN--k-NearestNeighbor可以是是分类法中最简单的算法了。

大致的idea为：找出k各跟新数据点最像的点，看这些点主要属于哪类，那么新数据点也就属于哪类的了。

其伪代码如下：

1. 拿到一个新的数据点

2. 计算其到training set中每个点的距离

3. 对距离排序

4. 对距离新数据点最近的前k个点的label数进行统计，出现次数最多的种类则为新数据点的label

在本篇随笔中，我们最要对距离函数进行讨论。

标准的kNN是使用二范数进行计算距离的，其实我们也还可以使用其他范数（1范数~无穷范数）等范数进行距离计算。

同时，我们也可以考虑参考SVM的kernel trick使用gaussian kernel来算距离。也可以考虑使用余弦函数算距离。

那么，实际应用中我们怎么选取合适的距离函数呢？

可以考虑是用k-fold的方法来试错得出。

简单的说，就是对使用以上各种距离函数的kNN：把data set分成k组。重复k次，每次选第k组为training set，剩下的为testing set。

计算总的错误数，然后排序，找到能使错误数最小的距离函数。

KNN距离函数的简单拓展

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们