首页 > 代码库 > 统计学基础知识-欧式距离与其他

统计学基础知识-欧式距离与其他

刷了一篇“Measures of distance between samples: non-Euclidean”,顺手写个笔记

×××××××××××××××××××××××××啦啦啦今天浑身都痛简直萌萌哒××××××××××××××××××××××××××××××××××××

衡量距离的东西,我们称为metric,那么两个点a和b之间的距离应该满足这些条件(朝老师提过!!好爱她)

技术分享

但是有的时候第三条会很难满足,因为它们并不是距离,而是一种dissimilarity

(1) Bray-Curtis dissimilarity: 衡量样本之间的差异

下面是栗子!!!大栗子!!!!

样本数据:

技术分享

计算:

技术分享

也就是这个公式:

技术分享

如果说我们计算了30个样本两两之间的BC-dissimilarity,可以发现(3)被违背了。

一般会把它写成百分比,那么Bray-Curtis index = 100 - Bray-Curtis dissimilarity

 

Bray-Curtis dissimilarity versus chi-square distance

首先,chi-square distance是啥:

技术分享

技术分享

很难说到底哪个更好。

BC的好处是:直观(0就是相同,1就是不同),但违反三角不等式;

chi-square的好处是:true metric(0是指相对丰度identical,最大值与数据有关)

如果都用relative count,那么两者相似;如果使用raw count,size(数值大小)相差大时,很不同。

比如下面的例子,当样本之间的差异不够大时,卡方反映的不够准确。

技术分享

 

L1 distance (city-block)

Lp distance,J是维度数。L2就是欧式距离。

技术分享

 

Dissimilarity measures for presence–absence data(dichotomous,二叉的)

技术分享

Jaccard index:co-presence/(sum - co-absence)

比如A和B,有sp1,sp2,sp5和sp10是co-presence的,sp6和sp7是co-absence的,sp3sp4sp8sp9是mis-match,

所以应为4/(10-2)=0.5

dissimilarity = 1 - Jaccard index

注意:co-absence也是一种match,但是很多时候我们不关心那些,所以才用Jaccard index来衡量相似度

 

correlation coefficient

技术分享技术分享

 

 Distances for heterogeneous data(异构数据,比如下面这种连续和离散混合的)

 技术分享

 

统计学基础知识-欧式距离与其他