首页 > 代码库 > 统计学基础知识-欧式距离与其他
统计学基础知识-欧式距离与其他
刷了一篇“Measures of distance between samples: non-Euclidean”,顺手写个笔记
×××××××××××××××××××××××××啦啦啦今天浑身都痛简直萌萌哒××××××××××××××××××××××××××××××××××××
衡量距离的东西,我们称为metric,那么两个点a和b之间的距离应该满足这些条件(朝老师提过!!好爱她)
但是有的时候第三条会很难满足,因为它们并不是距离,而是一种dissimilarity
(1) Bray-Curtis dissimilarity: 衡量样本之间的差异
下面是栗子!!!大栗子!!!!
样本数据:
计算:
也就是这个公式:
如果说我们计算了30个样本两两之间的BC-dissimilarity,可以发现(3)被违背了。
一般会把它写成百分比,那么Bray-Curtis index = 100 - Bray-Curtis dissimilarity
Bray-Curtis dissimilarity versus chi-square distance
首先,chi-square distance是啥:
很难说到底哪个更好。
BC的好处是:直观(0就是相同,1就是不同),但违反三角不等式;
chi-square的好处是:true metric(0是指相对丰度identical,最大值与数据有关)
如果都用relative count,那么两者相似;如果使用raw count,size(数值大小)相差大时,很不同。
比如下面的例子,当样本之间的差异不够大时,卡方反映的不够准确。
L1 distance (city-block)
Lp distance,J是维度数。L2就是欧式距离。
Dissimilarity measures for presence–absence data(dichotomous,二叉的)
Jaccard index:co-presence/(sum - co-absence)
比如A和B,有sp1,sp2,sp5和sp10是co-presence的,sp6和sp7是co-absence的,sp3sp4sp8sp9是mis-match,
所以应为4/(10-2)=0.5
dissimilarity = 1 - Jaccard index
注意:co-absence也是一种match,但是很多时候我们不关心那些,所以才用Jaccard index来衡量相似度
correlation coefficient
Distances for heterogeneous data(异构数据,比如下面这种连续和离散混合的)
统计学基础知识-欧式距离与其他