首页 > 代码库 > 数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性

数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性

基本概念

数据矩阵

技术分享

表示 n个对象 × p个属性

相异性矩阵

技术分享

表示n个对象两两之间的临近度   n×n的矩阵

d(i,j)表示对象i与对象j之间的相异性

1 标称属性的临近性度量

技术分享

计算公式:

技术分享

m: 匹配的数目(即i和j取值相同状态的属性数)

p:  刻画对象的属性总数

令p=1 (主要目的是使相异矩阵的值在[0,1]之间),相同时为1,不同时为0

相异矩阵为:

技术分享

相似性:

技术分享

 

2 二元属性的临近性度量

(1)对称的二元相异性

技术分享

其中q,r,s,t的含义见表2.3

技术分享

 

(2)非对称的二元相异性

技术分享

可以看出非对称的二元相异性是忽略t的,即忽略属性均为0的

例:

技术分享

y(yes) p(positive) 值为1,n(no, negative) 值为0

其中name是对象标示符,gender是对称属性,其余均为非对称属性

对于非对称属性进行计算:

d(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jack,Mary)=(0+1)/(2+0+1)=0.33

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

 

3 数值属性的相异性

 介绍几个基本概念

一般计算距离之前数据应该规范化

欧几里得距离

 技术分享

加权的欧几里得距离

技术分享

曼哈顿(城市块)距离

 技术分享

闵可夫斯基距离

技术分享

其中h是实数 h≥1

上确界距离

技术分享

 (1)序数属性的临近性度量

计算步骤:

第一步:把test-2的每个值替换为它的排位,则四个对象将分别被赋值为3,1,2,3

第二步:按照公式技术分享 Mf表示总的排位,rif表示第i个对象的排位 (此公式的目的是将每个属性的值域映射到[0.0,1.0])

所以排位1的值为0,排位2的值为0.5,排位3的值为1

第三步:可以使用比如欧几里得距离算出相异性矩阵

技术分享

(2)数值属性的临近性度量

技术分享

对test-3计算

maxhxh=64,minhxh=22

技术分享

 

4 混合类型属性的相异性

 把所有有意义的属性转换到共同的区间[0.0,1.0]上

技术分享

技术分享

 技术分享

结果

技术分享

 

 5 余弦相似性

对于稀疏矩阵,例比较文档或针对给定的查询词向量对文档排序

技术分享

例:

技术分享

技术分享

 

数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性