【知识图谱】知识融合

您所在的位置:网站首页 知识图谱实体消岐 【知识图谱】知识融合

【知识图谱】知识融合

2024-06-17 23:50| 来源: 网络整理| 查看: 265

文章目录 一、知识融合1、基本概念2、数据层的知识融合(1)不同KG的知识融合(2)不同知识库的知识融合(3)不同来源数据的知识融合(4)知识在线融合 3、Schema层的知识融合4、技术及其挑战5、相关比赛——OAEI 二、知识融合的基本技术流程1、基本技术流程2、数据预处理3、记录链接(1)属性相似度① 编辑距离② 基于集合相似度③ 基于向量的相似度 (2)实体相似度① 基于聚合的方法② 基于聚类的方法③ 基于知识表示学习 4、分块(Blocking)5、负载均衡6、结果评估 三、典型知识融合工具1、本体匹配(本体对齐)工具——Falcon-AO2、实体匹配工具——Dedupe(1)指定谓词集合&相似度函数(2)训练Blocking(3)训练逻辑回归 (LR)模型 3、实体匹配工具——Limes4、实体匹配工具——Silk

一、知识融合 1、基本概念

知识融合目标是融合各个层面(概念层、数据层)的知识,在合并两个知识图谱(本体)时,需要确认:

等价实例(数据层面)等价类/子类等价属性/子属性

相关的术语:(不同维度的描述)

知识融合 (Knowledge Fusion):最为全面Schema层面: 属性和概念 本体对齐 (Ontology Alignment)本体匹配 (Ontology Matching) 数据层面: Record Linkage (传统数据库领域)Entity Resolution (传统数据库领域)实体对齐 (Entity Alignment) 2、数据层的知识融合

数据层的知识融合主要强调实体的知识融合

最主要的工作:实体对齐,即找出等价实例

(1)不同KG的知识融合

下图是将猫王从YAGO和ElvisPedia进行融合的例子。

最主要的工作:实体对齐,即找出等价实例,图中的sameAs就是融合的关键步骤。 在这里插入图片描述

(2)不同知识库的知识融合

来源于不同知识库的“自由女神像” 在这里插入图片描述

(3)不同来源数据的知识融合

在这里插入图片描述

(4)知识在线融合

示例:实体——扑热息痛 在这里插入图片描述

此外,还有跨语言等的知识融合。

3、Schema层的知识融合

Schema层的融合主要强调概念和属性等的融合。

示例:医疗知识图谱——如将中文医疗知识图谱与UMLS体系结构概念等的融合 在这里插入图片描述

4、技术及其挑战

知识融合需要:

确定哪些会对齐在一起;从不同地方抽取出来的数据的置信度是多少;这些置信度如何随着融合而合理的聚合。

注意:知识融合并不是合并两个知识图谱,而是发现两个知识图谱之间的等价实例、等价或为包含关系等概念或属性。

知识融合的主要技术挑战:

数据质量的挑战 命名模糊,数据输入错误,数据丢失,数据格式不一致,缩写等 数据规模的挑战: 数据量大 (并行计算),数据种类多样性,不再仅仅通过名字匹配,多种关系,更多链接等 5、相关比赛——OAEI

OAEI (Ontology Alignment Evaluation Initiative)本体对齐竞赛:用来评估各种本体对齐算法,以达到评估、比较、交流以及促进本体对齐工作的目的。

OAEI每年举办一次,结果公布在官网上。

Tracks: 在这里插入图片描述

二、知识融合的基本技术流程 1、基本技术流程

知识融合一般分为两步:本体对齐 和 实体匹配,因为两者相关性,方法思路如下: ==》Pipeline方法、Joint方法

它们的基本流程相似,如下:

在这里插入图片描述

2、数据预处理

数据预处理阶段:原始数据的质量会直接影响到最终链接的结果,不同的数据集对同一实体的描述方式往往是不相同的,对这些数据进行归一化处理是提高后续链接精确度的重要步骤。

数据预处理相关技术:

语法正规化 语法匹配:联系电话的表示方法综合属性:家庭地址的表达方式 数据正规化 移除空格,《》,“”,-,等符号输入错误类的拓扑错误用正式名字替换昵称和缩写等 3、记录链接

假设两个实体的记录 x x x 和 y y y , x x x 和 y y y 在第 i i i 个属性上的值是 x i , y i x_i,y_i xi​,yi​,那么通过如下两步进行记录链接:

属性相似度: 综合单个属性相似度得到属性相似度向量 [ s i m ( x 1 , y 1 ) , s i m ( x 2 , y 2 ) , … , s i m ( x N , y N ) ] [sim(x_1,y_1),sim(x_2,y_2),…,sim(x_N,y_N)] [sim(x1​,y1​),sim(x2​,y2​),…,sim(xN​,yN​)] 实体相似度: 根据属性相似度向量得到一个实体的相似度 (1)属性相似度

计算属性相似度的方法:编辑距离(基于字符)、集合相似度计算 和 基于向量的相似度计算。

① 编辑距离

Levenshtein distance (最小编辑距离):

目的:用最少的编辑操作将一个字符串转换成另一个。示例:将 Lvensshtain 转换成Levenshtein 在这里插入图片描述 上述将 Lvensshtain 转换成Levenshtein,总共的操作 3 次,编辑距离也就是 3。求解:Levenshtein distance是一个典型的动态规划问题,可以使用动态规划算法计算: { D ( 0 , 0 ) = 0 D ( i , 0 ) = D ( i − 1 , 0 ) + 1 1 ; i ≤ N D ( 0 , j ) = D ( 0 , j − 1 ) + 1 1 ; j ≤ M \left\{ \begin{aligned} D(0,0);=0 \\ D(i,0);=D(i-1,0)+1;1;i\le{N}\\ D(0,j);=D(0,j-1)+1;1;j\le{M} \end{aligned} \right. ⎩⎪⎨⎪⎧​D(0,0)D(i,0)D(0,j)​=0=D(i−1,0)+1=D(0,j−1)+1​1θ 其中, y y y 相当于样本点。因为样本点 E E E 的数量是远小于目标数据集 T T T 的数量,所以过滤这一步会急剧减少后续相似性比较的次数,因而对大规模的Web数据,这是非常高效的算法。 推理式说明 m ( x , z ) ; θ m(x, z) ; \theta m(x,z)>θ 的计算可以省去。 (3)相似度计算:相似度计算见上(4)序列化:存储为用户指定格式 4、实体匹配工具——Silk

Silk:An open source framework for integrating heterogeneous data sources.

整体框架 在这里插入图片描述

预处理:会将索引的结果排名前N的记录下来进行作为候选对,进行下一步更精准的匹配 (损失精度)。相似度计算:里面包含了很多相似度计算的方法。过滤:过滤掉相似度小于给定阈值的记录对。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3