知识图谱实体链接：一份“由浅入深”的综述

您所在的位置：网站首页 › 知识图谱的特征是什么呢 › 知识图谱实体链接：一份“由浅入深”的综述

知识图谱实体链接：一份“由浅入深”的综述

2024-07-17 06:11| 来源: 网络整理| 查看: 265

这个世界充斥着无数的结构化数据（wiki）和非结构化数据（web），然而，如何将两者有效地集成仍然是个非常困难的问题。

作者丨Nicolas

单位丨追一科技AI Lab研究员

研究方向丨信息抽取、机器阅读理解

本文介绍实体链接（Entity Linking）这一技术方向，会先从最基础的概念讲起，然后对 EL 中的三个主要模块做一个清晰的梳理。在此基础上，选取三篇比较有代表性的论文，详述其中的核心方法和思想。

EL入门

1. 任务定义

实体链接，就是把文本中的 mention 链接到 KG 里的 entity 的任务。如下图所示 [1]：

▲ Entity Linking示意图

有些读者可能对知识图谱的概念不甚了解，这边先解释一下图谱里常用的一些概念。

Knowledge Graph（知识图谱）：一种语义网络，旨在描述客观世界的概念实体及其之间的关系，有时也称为 Knowledge Base（知识库）。

图谱由三元组构成：或者；

例如：、；

常见的KB有：Wikidata、DBpedia、YOGO。

Entity（实体）：实体是知识图谱的基本单元，也是文本中承载信息的重要语言单位。

Mention（提及）：自然文本中表达实体的语言片段。

回过头再看，上面的这个图中，“乔丹”、“美国”、“NBA”这些蓝色的片段都是 mention，其箭头所指的“块块”就是它们在图谱里对应的 entity。

2. 几个应用

EL 有什么用呢？一般有 KB 的地方就离不开 EL。以下是 EL 的几个应用 [2]：

Question Answering：EL 是 KBQA 的刚需，linking 到实体之后才能查询图数据库；

Content Analysis：舆情分析、内容推荐、阅读增强；

Information Retrieval：基于语义实体的搜索引擎，google 搜索一些实体，右侧会出现 wikipedia 页面；

Knowledge Base population：扩充知识库，更新实体和关系。

3. Taxonomy

▲ Taxonomy

大体来说，EL 的工作可以分为两类 [3]：

End-to-End：先从文本中提取到实体 mention（即 NER），对应到候选实体，然后将提取到的 entities 消除歧义，映射到给定的 KB 中。

Linking-Only：与第一种方法对比，跳过了第一步。该方法直接将 text 和 mention 作为输入，找到候选实体并消除歧义，映射到给定的 K B中。

由于端到端的工作比较少，且 NER 也没太多可讲的。本文着重介绍 Linking-Only 的相关技术方向和工作。

EL的三大模块

EL 的工作非常有挑战性，主要有两个原因：

1. Mention Variations：同一实体有不同的 mention。（：小飞侠、黑曼巴、科铁、蜗壳、老科）

2. Entity Ambiguity：同一 mention 对应不同的实体。（“苹果”：中关村苹果不错；山西苹果不错）

针对上述两个问题，一般会用 Candidate Entity Generation (CEG) 和 Entity Disambiguation (ED) 两个模块 [2] 来分别解决：

1. Candidate Entity Generation：从 mention 出发，找到 KB 中所有可能的实体，组成候选实体集（candidate entities）；

2. Entity Disambiguation：从 candidate entities 中，选择最可能的实体作为预测实体。

下面我们来讲讲这两个模块里都有些啥东西。其中，CEG 的方法都比较朴素，没什么可讲的，笔者会把重点放在 ED 上。

1. Candidate Entity Generation (CEG)

最重要的方法：Name Dictionary ( {mention: entity} )

哪些别名：首字母缩写、模糊匹配、昵称、拼写错误等。

构建方法：

Wikipedia (Redirect pages, Disambiguation pages, Hyperlinks)；

基于搜索引擎：调 google api，搜 mention。若前 m 个有 wiki entity，建立 map；

Heuristic Methods；

人工标注、用户日志。

CEG 这部分，最主流也最有效的方法就是 Name Dictionary，说白了就是配别名。虽然 CEG 很朴素，但作为 EL 任务中的第一道门槛，其重要性不言而喻。对于每一个 entity，紧凑而充分地配置别名，才能保证生成的 candidate entites 没有遗漏掉 ground truth entity。

具体的，要配置哪些别名，要用什么构建方法，往往取决于 EL 的使用场景。比如做百科问答或是通用文本的阅读增强，就很依赖于 wikipedia 和搜索引擎；但如果是某个具体的行业领域，就需要通过一些启发式的方法、用户日志、网页爬取，甚至人工标注的方法来构建 Name Dictionary。

2. Entity Disambiguation (ED) (手动划重点)

Features:

Context-Independent Features:

LinkCount: #(m->e)，知识库中某个提及 m 指向实体 e 的次数；

Entity Attributes: Popularity, Type；

Context-Dependent Features:

Textual Context: BOW, Concept Vector

Coherence Between Entities: WLM, PMI, Jaccard Distance

实体消歧时，不同场景的特征选取是非常重要的。总的来说，实体消歧的特征分为，context 独立和 context 不独立的。

特征里，独立的有：mention 到实体的 LinkCount、实体自身的一些属性（比如热度、类型等等）。其中，LinkCount 作为一个先验知识，在消歧时，往往很有用，比如当我们在问“姚明有多高？”时，大概率都是在问，而不是其他不为人知的“姚明”。

虽然 context 中完全没有包含篮球运动员这一信息，但大多数情况下，根据“姚明”到的 LinkCount 最高，选其作为实体进行查询，都会是一个不错的答案。

不独立的有：文本的 context、实体间的 coherence（一致性）。这部分，可深入挖掘的东西比较多，文本 context 可以用一些深度学习的方法去深度理解文本的语义，从而实现消歧；实体间的一致性更加有趣，由于文本包含的所有的 mention 都没有确定，所以全局地进行 entities 的消歧实际上是一个 NP-hard 的问题。因此，如何更加快速有效地利用一致性特征，是一个非常有趣的方向。

基于这些常用的特征，消歧的方法可以大致分为以下几种：

Learning to Rank Methods: Point-wise、Pair-wise、List-wise。由于 ED 任务 ground truth 只有一个实体，一般都是用 point-wise 来做。输入是文本的 context、mention、某个 entity 的一些 attributes，输出 mention 指向该 entity 的置信度，以此 rank，选出最可信的 entity；

Probabilistic Methods: Incorporate heterogeneous knowledge into a probabilistic model。结合不同信息，得到条件概率 P(e|m,c)，其中 c 是输入文本，

【本文地址】

知识图谱实体链接：一份“由浅入深”的综述

知识图谱实体链接：一份“由浅入深”的综述

今日新闻

推荐新闻