首页 > 代码库 > K-近邻算法原理分析

K-近邻算法原理分析

前言

  本文介绍机器学习分类算法中的K-近邻算法并给出伪代码,Python代码实现。

算法原理

  首先获取训练集中与目标对象距离最近的k个对象,然后再获取这k个对象的分类标签,求出其中出现频数最大的标签。

  这个标签就是分类的结果。

伪代码

  对训练集中的每个点做以下操作:

    1. 计算已知类别数据集中的点与当前点之间的距离

    2. 按照距离递增次序排序

    3. 选取与当前点距离最小的k个点

    4. 确定前k个点所在类别的出现频率

    5. 返回前k个点出现频率最高的类别,即为分类结果。

代码示例

 1 #!/usr/bin/env python 2 # -*- coding:UTF-8 -*- 3  4 ‘‘‘ 5 Created on 2014-12-17 6  7 @author: fangmeng 8 ‘‘‘ 9 10 # 导入numpy数学运算库11 import numpy12 # 导入运算符函数库13 import operator14 15 # ==============================================16 # 输入:17 #18 # 输出:19 #        group, labels:样本训练集及其对应标签集20 # ==============================================21 def createDataSet():22     创建训练集及其对应标签集并返回23     24     group = numpy.array([[1.0, 1.1], [1.0, 1.0], [0.0, 0.0], [0.0, 0.1]])25     labels = [A, A, B, B]26     27     return group, labels28 29 # ==============================================30 # 输入:31 #        inX:目标向量32 #        dataSet:训练集33 #        labels:训练集对应的标签集34 #        k:算法参数35 # 输出:36 #        sortedClassCount[0][0]:目标向量的分类结果37 # ==============================================38 def classify0 (inX, dataSet, labels, k):39     kNN 分类器40     41     #计算目标向量与训练集中所有对象的距离并排序42     dataSetSize = dataSet.shape[0]43     diffMat = numpy.tile(inX, (dataSetSize, 1)) - dataSet44     sqDiffMat = diffMat ** 245     sqDistances = sqDiffMat.sum(axis=1)46     distances = sqDistances ** 0.547     sortedDistIndicies = distances.argsort()  # 返回数组从小到大的索引值48     49     # 取出与目标向量距离最近的三个50     classCount = {}         # 该字典存放各种标签及其对应的频数51     for i in range(k):      # 由前 k 位索引的结果构建字典52         voteIlable = labels[sortedDistIndicies[i]]53         classCount[voteIlable] = classCount.get(voteIlable, 0)+154     55     # 以各个标签的频率为基准进行排序56     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)57     58     return sortedClassCount[0][0]   # 返回出现频率最高的标签59 60 def test():61     分类器测试函数62     63     # 新建训练集及其对应标签集64     group, labels = createDataSet()65 66     # 输入目标向量并返回分类结果后打印67     label = classify0([0.0, 0.0], group, labels, 3)68     print label69 70 if __name__ == __main__:71     # 调用测试函数72     test()73     74     

运行结果

  

小结

  本文简要介绍了机器学习中经典的K-近邻算法,并给出了代码实现。

  后面的文章中,将继续讲解如何将此算法应用于具体的实际生活中。

 

K-近邻算法原理分析