距离与相似性计算方法

庞紫成长馆 2019-06-07

展开全文

距离

距离可以用来衡量N维空间中点的差异性，在数据分析、挖掘、监督、无监督学习等都是关键因素，那么距离算法定义为怎样才合理。

1、属性

距离是满足以下属性的变量：

2、一般及欧式距离

根据笛卡尔坐标，如果p=(p1,...,pn)，q=(q1,...,qn)和是欧几里得n维空间中的两个点，根据勾股定理，p,q之间距离可以表示为：

向量p-q表示向量p和q之间的距离，这个新的向量有大小也有距离

上面是用坐标表示的向量p和q之间的距离，如果用向量表示就是

这里p-q看作一个新的向量，可以用向量p，q表示出来。

一维空间

二维空间

n维空间

一般情况下，距离如下：

3、平方欧式距离

欧式距离可以平方，以便在距离更远的对象上增加更大的权重，正数而言，越大的数据平方越大，这种增大是指数级的。

距离为0的两个向量或者说点的相似性确实最高，相似性取值通常在[-1,1]或[0,1]之间，相似性得分为1，表示相似性最高，相似性的度量也有很多种。

Dice系数

重叠度

Jaccard系数

Jaccard度量表示了相关性的重要程度。

夹角余弦

两个向量之间角度的余弦由下式给出：

距离和相似性是两个相反的度量。例如，数值型数据的相关程度是相似性度量，欧式距离是距离度量。通常，相似性度量的值被限制在0~1，但是距离没有这样的上界。相似性可能是负的，但根据定义，距离不能为负。

在不同算法，比如聚类算法中，需要找到新的距离度量。比如聚类算法中，两个簇的距离，可以是两个簇中的最远两个点的距离，也可以是最近两个点的距离，又或者到对方中心的平均距离。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：庞紫成长馆 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多