二分K-均值算法

首页 > 代码库 > 二分K-均值算法

2024-07-05 08:49:36 237人阅读

伪代码：

将所有点看成一个簇
当簇数目小于k时
对于每一个簇
        计算总误差
         在给定的簇上面进行k-均值聚类（k=2）
         计算将该簇一分为二之后的总误差
选择使得误差最小的那个簇进行划分操作

def biKmeans(dataSet,k):
    m=np.shape(dataSet)[0]
    clusterAssment=np.mat(np.zeros((m,2)))
    centroid0=np.mean(dataSet,axis=0).tolist()
    centList=[centroid0]
    for j in range(m):
        clusterAssment[j,1]=distEclud(centroid0, dataSet[j,:])**2
    while (len(centList) < k):
        lowsetSSE=np.inf
        for i in range(len(centList)):
            ptsInCurrCluster=dataSet[np.nonzero(clusterAssment[:,0].A==i)[0],:]
            centroidMat,splitClusterAss=kMeans(ptsInCurrCluster, 2)
            sseSplit=np.sum(splitClusterAss[:,1])
            sseNotSplit=np.sum(clusterAssment[np.nonzero(clusterAssment[:,0].A!=i)[0],1])
            if sseSplit+sseNotSplit<lowsetSSE:
                bestCentToSplit=i
                bestNewCents=centroidMat
                bestClustAss=splitClusterAss.copy()
                lowsetSSE=sseSplit+sseNotSplit
            bestClustAss[np.nonzero(bestClustAss[:,0].A==1)[0],0]=len(centList)
            bestClustAss[np.nonzero(bestClustAss[:,0].A==0)[0],0]=bestCentToSplit
            centList[bestCentToSplit]=bestNewCents[0,:].A[0]
            centList.append(bestNewCents[1,:].A[0])
            clusterAssment[np.nonzero(clusterAssment[:,0].A== bestCentToSplit)[0],:]=bestClustAss
    centList=[i.tolist() for i in centList]
    return np.mat(centList),clusterAssment

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 二分K-均值算法

二分K-均值算法

看完仍有疑问？有类似问题直接问程序猿