首页 > 代码库 > 理解谱聚类

理解谱聚类

2024-08-06 03:29:06 223人阅读

理解谱聚类

前面介绍过K-means聚类方法，这个方法简单易懂，主要在于如何定义距离计算公式（一般使用欧氏距离），如何选择K值，这两个问题。这次我们介绍谱聚类，它是K-means的升级版。我们计划从这样几个方面介绍谱聚类：K-measn聚类有什么缺点？谱聚类的基本思想，以及谱聚类的算法步骤。

那么K-means到底有什么问题呢？我们为什么需要改进它呢~

当样本维数增大时，K-means的计算会困难。因为在K-means中，输入计算的是欧氏空间中的原始向量；
K-means求得的是一种局部最优的聚类策略，SSE不一定就是最小的；

1. 谱聚类的基本思想

谱聚类是一种基于图论的聚类方法。将样本看成顶点，样本的相似度看作带权边。这样，把样本集划分成K个簇的过程就等同于一个图的分割问题。

如下图所示，每个顶点是一个样本，共有7个样本（实际中一个样本是特征向量）。边的权值就是样本之间的相似度。然后我们需要分割，分割之后要使得连接不同组之间的边的权重尽可能低（组间相似度小），组内部的边的权重尽可能高（组内相似度高）。

比如我们把中间的边去掉，就满足上面的簇间相似性最小，簇内相似性最大。如下图：

2. 算法步骤

谱聚类算法主要有下面这几步：

1）计算得到图的邻接矩阵E，以及拉普拉斯矩阵L；

给定样本的原始特征，我们需要计算两两样本之间的相似度值，才能构造出邻接矩阵E。我们一般使用高斯核函数来计算相似度。公式如下：

其中xi和xj是两个样本的原始特征向量，我们可以计算出它们二者之间的相关性。注意，邻接矩阵的对角线元素一致等于零。这样我们就得到了邻接矩阵E。

拉普拉斯矩阵L=D-E, 其中D为上面图的度矩阵，度是图论中的概念，也就是矩阵E行或列的元素之和。后面我们就要基于矩阵L来进行研究。

2）聚类划分准则

关于划分准则的问题是聚类技术中的核心。谱聚类被看作属于图论领域的问题，那个其划分也会和边的权重有关。

准则1：最小化进行分割时去掉的边的权重之和。

这个准则直观地让分割之后簇之间的相似度最小了。但是有个问题，就是这个准则没有考虑到簇的大小，容易造成一个样本就能分为一个簇。为了避免这个问题，有了下面的准则。

准则2：考虑簇的大小。

这个准则2相比于准则1的改进，类似于C4.5中的增益比率和ID3的信息增益的改进。在RatioCut中，如果某一组包含的顶点数越少，那么它的值就越大。在一个最小化问题中，这相当于是惩罚，也就是不鼓励将组分得太小。现在只要将最小化RatioCut解出来，分割就完成了。不幸的是，这是个NP难问题。想要在多项式时间内解出来，就要对这个问题作一个转化了。在转化的过程中，就用到上面提到的L的那一组性质，经过若干推导，最后可以得到这样的一个问题：

这个问题和线性鉴别分析LDA中的目标函数转化过程类似。这个问题可以转化为特征分解，我们对拉普拉斯矩阵L做特征分解，取前k个最小的特征值对应的特征向量，这些k个特征向量组成了新的样本特征矩阵，维数为N*k.

接下来，我们N*k的矩阵的每一行都看作k维空间中的向量，也就是每个样本现在只有k维，每一行看作一个点进行K-means聚类。聚类得到改行属于哪一个簇，那么原来的样本就属于该簇。

所以说，谱聚类的聚类过程只需要数据之间的相似度矩阵就可以，而K-means聚类是拿样本的原始特征向量来聚类，这是它们的不同。

理解谱聚类

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 理解谱聚类

理解谱聚类

1. 谱聚类的基本思想

2. 算法步骤

看完仍有疑问？有类似问题直接问程序猿