首页 > 代码库 > 【学习笔记】K近邻归类算法
【学习笔记】K近邻归类算法
# -*- coding:utf-8 -*- __author__ = ‘Ghostviper‘ """ K近邻归类算法 """ from numpy import * import operator def createDataset(): group = array([ [1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1] ]) labels = [‘A‘, ‘A‘, ‘B‘, ‘B‘] return group, labels def classify0(inX, dataSet, labels, k): # shape获得数据集中数组的大小 dataSetSize = dataSet.shape[0] # 根据输入的元素复制矩阵并与已知数据集矩阵做差 diffMat = tile(inX, (dataSetSize, 1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 sortedDistIndicies = distances.argsort() classCount = {} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] if __name__ == "__main__": group, labels = createDataset() print classify0([1, 1], group, labels, 3)
注:计算两个向量点xA和xB之间的距离利用欧式距离公式:
算法步骤:
计算已知类别数据集中点与当前点之间的距离
按照距离递增排序
选取与当前点距离最小的k个点
确定前k个点所在类别的出现频率
返回前k个点出现的频率最高的类别作为当前点的预测分类
算法适用范围:数值型和标称型
优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
本文出自 “ghostviper” 博客,请务必保留此出处http://ghostviper.blog.51cto.com/3396458/1865001
【学习笔记】K近邻归类算法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。