开源知识图谱介绍

您所在的位置:网站首页 百科常识软件 开源知识图谱介绍

开源知识图谱介绍

2023-11-11 07:12| 来源: 网络整理| 查看: 265

(1)wikidata

WikiData的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。WikiData由维基百科于2012年启动,早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会以及Google的联合资助。WikiData继承了Wikipedia的众包协作的机制,但与Wikipedia不同,WikiData支持的是以三元组为基础的知识条目(Items)的自由编辑。一个三元组代表一个关于该条目的陈述(Statements)。例如可以给“地球”的条目增加“”的三元组陈述。截止2016年,WikiData已经包含超过2470多万个知识条目。

 

Wikidata是一个大型数据库,存储了维基百科、Freebase中的海量信息。为了便于机器识别、算法调用,在存储时Wikidata将数据结构化成了固定的格式——RDF。

知识图谱描述了现实中的对象或抽象概念,实例(entity)。每个实例对应知识图谱中的一个项(item)。比如上图就是一个项,对应的实例是一个Linux命令“cat”。

每个项都有标签(label)、描述(description)、别名(aliases)。比如上图中“cat”命令的描述为“Unix utility that concatenates and lists files”。

每个项中的具体数据被称为条目(statement),一个实例可以有许多条目,表现了实例不同方面的特征。条目由属性(property)和数值(value)构成。比如上图中“cat”命令包含了两个条目,其中一个条目的属性为“part of”,数值为“GNU Core Utilities”。

 

链接:https://www.wikidata.org/wiki/Wikidata:Database_download/zh

说明:包含所有维基数据实体列表

(2)freebase

Freebase 是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献。它整合了许多网上的资源,包括部分私人wiki站点中的内容。Freebase 致力于打造一个允许全球所有人(和机器)快捷访问的资源库,由美国软件公司Metaweb开发并于2007年3月公开运营。2010年7月16日被Google收购, 2014年12月16日,Google宣布将在六个月后关闭 Freebase ,并将全部数据迁移至Wikidata。

Freebase数据结构: Topic:即实例或实体,每一条信息叫做Topic,比如:姚明等。 Type:类型或概念,每个Topic可以属于多个Type,比如:人、运动员等。 Domain:域,对类型的分组,便于schema管理,比如:人物。 Property:属性,每个Type可以设置多个属性,其值默认可以有多个,可通过设置unique为true限制只能有一个值。比如:出生日期、所在球队等。 属性值类型可以是基本类型,比如:整型、文本等;也可以是另一个type,比如:所在球队、父母等,这种情况叫做CVT,compound value type 组合值类型,比如:所在球队就是一个CVT,它有自身结构化的属性,不仅仅只是一种简单的值。 MID:实体编号。不考虑实体合并和分裂时,一个实体和一个MID是一一对应的;当考虑实体合并和分裂时,多个MID可能指代一个实体,但是只有一个MID是master,其他的MID通过一个特殊的属性()指向这个MID。

KEY:可以通过key来唯一确定一个实体,一个实体可以有多个key,每个key都属于一个namespace,比如: "/en/yao_ming"的namespace为"/en"、"/wikipedia/zh-cn_title/姚明" 的namespace为"/wikipedia/zh-cn_title"。对于平台基础模型的实体(Domain、Type、Property),Freebase会从Key中选一个值,作为该实体的ID。

属性约束:用于约束属性的取值范围,比如:类型约束(整型、文本、浮点型、datetime、CVT等)、条件约束(是否单值、是否去重、主属性、逆属性等)

 

链接:https://developers.google.com/freebase/

说明:类似维基百科,不同的时freebase是结构化数据

(3)dbpedia

DBpedia 是一个很特殊的语义网应用范例,它从维基百科(Wikipedia)的词条里撷取出结构化的资料,以强化维基百科的搜寻功能,并将其他资料集连结至维基百科。透过这样的语义化技术的介入,让维基百科的庞杂资讯有了许多创新而有趣的应用,例如手机版本、地图整合、多面向搜寻、关系查询、文件分类与标注等等。

链接:https://wiki.dbpedia.org/

说明:它从维基百科的词条里撷取出结构化的资料,并将其他资料集连结至维基百科。DBpedia 同时也是世界上最大的多领域知识本体之一

(4)wordnet

WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。

 它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。

 WordNet包含描述概念含义,一义多词,一词多义,类别归属,近义,反义等问题,访问以下网页,可使用wordnet的基本功能 http://wordnetweb.princeton.edu/perl/webwn

 

Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense:

 

链接:https://wordnet.princeton.edu/

说明:它是一个覆盖范围宽广的英语词汇语义网



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3