首页 > 代码库 > [模式识别].(希腊)西奥多里蒂斯<第四版>笔记10之__聚类:基本概念

[模式识别].(希腊)西奥多里蒂斯<第四版>笔记10之__聚类:基本概念

一,引言

之前几个章节讨论的都是监督聚类,从本章开始讨论非监督聚类,即训练模式不带标签的情形。


    聚类的步骤:

1,特征选择。选取最能够表示我们目标物体信息的特征。

2,相似性度量。给出两个特征量相似点或者不想似的地方。

3,聚类标准。聚类标准。可能由损耗函数(cost function)或者其他形式表达。

4,聚类算法。根据相似性度量和聚类标准,阐明数据的结构。

5,结果验证。

6,解释结果。

 

不同的特征、相似性度量、聚类标准和聚类算法会导致完全不同的结果。

主观性会一直伴随我们。(Subjectivity is a reality we have to live with from now on.)

 

聚类的应用:

1,数据简化。

2,提出假设。

3,验证假设。

4,基于组群的预测。

 

二,相似性度量

1,点间度量

2,点和数据集间度量

3,数据集间度量