数据对象与对象之间相似度与相异度的度量

您所在的位置:网站首页 皮尔森相关系数例题 数据对象与对象之间相似度与相异度的度量

数据对象与对象之间相似度与相异度的度量

2024-06-05 00:26| 来源: 网络整理| 查看: 265

为方便起见,我们使用术语邻近度(proximity)表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数。

我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度,然后考虑具有多个属性的对象的邻近度度量。

名词概念解释 定义: 两个对象之间的相似度(similarity)的非正式定义是这两个对象相似程度的数值度量。通常,相似度是非负的,并常常在 0 (不相似)和 1 (完全相似)之间取值。两个对象之间的相异度(dissimilarity)是这两个对象差异程度的数值度量。通常术语距离(distance)用作相异度的用一次,相异度在区间 【0,1】中取值,但是相异度在 0 和 正无穷大 之间取值也很常见。 变换——相似度/相异度转换 通常使用变换把相似度转换成相异度或相反,或者把邻近度变换到一个特定区间,如【0,1】, 邻近度变换到特定区间 通常,邻近度度量(特别是相似度)被定义为或变换到区间【0,1】中的值。这样做的动机是使用一种恰当的尺度,由邻近度的值表明两个对象之间的相似或相异程度。对于从 0 变化到 正无穷 的相异度度量,考虑 d’ = d / d+1,将相似度变换成相异度或相反 如果相似度(相异度)落在【0,1】区间,则相异度(相似度)可以定义为 d = 1 - s (或 s = 1 - d)。另一种简单的方法是定义相似度为负的相异度(或相反)。例如,相异度 0 ,1, 10,100 可以变换成相似度 0 ,-1,-10,-100。

负变换产生的相似度结果不必局限于【0,1】区间,但是,如果希望的话,可以使用变换 s = 1/ (d + 1), s = e -d 或 s = 1 - (d - mi_d) / ( max_d - min_d) 。对于变换 s = 1/ (d + 1) ,相异度 0 ,1 ,10 ,100分别被变换到 1, 0.5 , 0.09 ,0.01 ;等等。

一般来说,任何单调递减函数都可以用来将相异度转换到相似度(或相反)当然在此过程中也必须考虑一些其他因素。涉及保持意义、扰乱标度和数据分析工具的需要。 简单属性之间的相似度和相异度——针对不同对象的单个属性 标称属性 由于标称属性只携带了对象的相异性信息,因此我们只能说两个对象之间有相同的值,或者没有,如果属性值匹配,相似度则为1 ,或者为 0 。相异度类似。对于具有单个序数属性 的对象,情况更为复杂,常常需要将分类映射到从 0 或 1开始 的相继整数。 , 如{ poor = 1, fair = 2, OK = 3, good = 4, wonderful = 5}之类。 ==存在问题:序数属性比如 fair 与 good 之间的差真的和 OK 与 wonderful 的差相同吗 ? ==可能不相同,但是在实践中,我们的选择是有限的,并且在缺乏跟多信息的情况下,这是定义序数属性之间邻近度的标准方法。 简单属性的相似度和相异度

在这里插入图片描述

数据对象之间的相异度——针对数据对象的所有属性集合 距离 最常见的欧几里得距离(Euclidean distance)。在这里插入图片描述 距离矩阵: 在这里插入图片描述 在这里插入图片描述 欧几里得距离可由 闵可夫斯基距离(Minkowski distance)来推广: 在这里插入图片描述 其中 r 是参数, 下面是闵可夫斯基距离的三个最常见例子:r = 1 ,曼哈段距离(或 L 1范数)r = 2 , 欧几里得距离(或 L2范数)r = 3 , 上确界距离( Lmax范数),这是对象属性之间的最大距离,更正式的定义在这里插入图片描述 距离具有一些众所周知的性质,如果 d ( x,y)是两个点 x 和 y 之间的距离,则如下性质成立。

(1)非负性。 (a) 对于所有 x 和 y ,d(x,y) >= 0 ,(b) 仅当 x = y 时 d ( x,y) = 0。 (2)对称性。 对于所有的 x 和 y ,d(x , y) = d(y , x)。 (3)三角不等式。 对于所有 x, y 和 z ,d( x, z)



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3