首页 > 代码库 > K-近邻算法原理分析
K-近邻算法原理分析
前言
本文介绍机器学习分类算法中的K-近邻算法并给出伪代码,Python代码实现。
算法原理
首先获取训练集中与目标对象距离最近的k个对象,然后再获取这k个对象的分类标签,求出其中出现频数最大的标签。
这个标签就是分类的结果。
伪代码
对训练集中的每个点做以下操作:
1. 计算已知类别数据集中的点与当前点之间的距离
2. 按照距离递增次序排序
3. 选取与当前点距离最小的k个点
4. 确定前k个点所在类别的出现频率
5. 返回前k个点出现频率最高的类别,即为分类结果。
代码示例
1 #!/usr/bin/env python 2 # -*- coding:UTF-8 -*- 3 4 ‘‘‘ 5 Created on 2014-12-17 6 7 @author: fangmeng 8 ‘‘‘ 9 10 # 导入numpy数学运算库11 import numpy12 # 导入运算符函数库13 import operator14 15 # ==============================================16 # 输入:17 # 空18 # 输出:19 # group, labels:样本训练集及其对应标签集20 # ==============================================21 def createDataSet():22 ‘创建训练集及其对应标签集并返回‘23 24 group = numpy.array([[1.0, 1.1], [1.0, 1.0], [0.0, 0.0], [0.0, 0.1]])25 labels = [‘A‘, ‘A‘, ‘B‘, ‘B‘]26 27 return group, labels28 29 # ==============================================30 # 输入:31 # inX:目标向量32 # dataSet:训练集33 # labels:训练集对应的标签集34 # k:算法参数35 # 输出:36 # sortedClassCount[0][0]:目标向量的分类结果37 # ==============================================38 def classify0 (inX, dataSet, labels, k):39 ‘kNN 分类器‘40 41 #计算目标向量与训练集中所有对象的距离并排序42 dataSetSize = dataSet.shape[0]43 diffMat = numpy.tile(inX, (dataSetSize, 1)) - dataSet44 sqDiffMat = diffMat ** 245 sqDistances = sqDiffMat.sum(axis=1)46 distances = sqDistances ** 0.547 sortedDistIndicies = distances.argsort() # 返回数组从小到大的索引值48 49 # 取出与目标向量距离最近的三个50 classCount = {} # 该字典存放各种标签及其对应的频数51 for i in range(k): # 由前 k 位索引的结果构建字典52 voteIlable = labels[sortedDistIndicies[i]]53 classCount[voteIlable] = classCount.get(voteIlable, 0)+154 55 # 以各个标签的频率为基准进行排序56 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)57 58 return sortedClassCount[0][0] # 返回出现频率最高的标签59 60 def test():61 ‘分类器测试函数‘62 63 # 新建训练集及其对应标签集64 group, labels = createDataSet()65 66 # 输入目标向量并返回分类结果后打印67 label = classify0([0.0, 0.0], group, labels, 3)68 print label69 70 if __name__ == ‘__main__‘:71 # 调用测试函数72 test()73 74
运行结果
小结
本文简要介绍了机器学习中经典的K-近邻算法,并给出了代码实现。
后面的文章中,将继续讲解如何将此算法应用于具体的实际生活中。
K-近邻算法原理分析
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。