PersonGraphDataSet近十万的开放人物关系图谱项目

您所在的位置:网站首页 贵妇还乡人物关系分析 PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet近十万的开放人物关系图谱项目

2023-06-22 18:13| 来源: 网络整理| 查看: 265

PersonGraphDataSet

PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

项目地址:https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

项目由来

关于为什么要开放这个项目,主要有以下几个方面的缘由: 1、阶段性总结。以刻画人物复杂关系为核心的网络关系网构建,居于十分重要的现实意义,两年前,带着个人兴趣,发布了一个未完成版的人物关系知识图谱项目(https://github.com/liuhuanyong/PersonRelationKnowledgeGraph),尝试采用基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,并以此完成基于知识图谱的知识问答等应用。但但由于工作时间为题,一直没能更新。今天,先对该工作的一个结果数据集开放出来,以对之前的项目做一个阶段性的总结。 2、数据集空缺。目前,面向中文领域的人物关系抽取数据集,还相对较少,代表性有ccks2019的开放数据集(https://arxiv.org/abs/1907.12801) ,该数据集公开了亲属关系、社交关系、师生关系三大类,现夫、潜伏、朋友、恋人等34小类的人物关系数据集。该数据集是面向评测使用的,其所涉及的人物关系类型有限,并且不提供现成可用的人物关系数据。 3、应用驱动。当前,面向知识图谱入门级别的知识图谱推理、知识图谱可视化、知识问答、图谱搜索等场景,还缺乏可用的数据集。目前关于人物关系方面的应用,目前看到的,主要是百科类的展示以及搜狗人物图谱(https://www.sogou.com/tupu/person.html) 为代表,虽说是娱乐导向,但目前还缺乏这样的练手的数据和项目。 4、应用支撑。基于开放出来的人物关系知识数据,大家可以在此基础上进行多种应用尝试,包括算法训练、知识图谱入门、培训等等,这十分有意义。

项目构成

本项目一共包括三个文件,分别记录人物关系元组信息以及关系类型信息: 1、big_rel_distribution.txt:大类关系及其分布文件。 2、person_rel_kg.data:人物关系图谱数据集文件。 3、small_rel_distribution.txt:小类关系及其分布文件

数据概况

本数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条,大致的情况具体如下:

数据类型数据规模示例关系数目97,158父亲、母亲、女友人物数目71,243姚明、易建联、乔布斯大类关系数102父亲、母亲、朋友小类关系数266闺蜜、女好友、前妻 关系类型

本数据集对人物关系进行了上下级分类,针对小类关系进一步归类整理成了若干个大类,选取小类数大于3的大类进行展示,如下表所示:

关系大类关系小类敌人死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战父亲父亲;其父;继父;生父;干爹;义父;养父学生学生;爱徒;徒孙合作同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人情人初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手朋友圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友丈夫未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫祖先祖先;鼻祖;始祖;先祖姐姐大姐;二姐;姐姐妻子妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子同门同门师兄;校友;师妹;师弟;师兄弟;师姐弟弟义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟女儿女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿儿子四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子哥哥三哥;哥哥;长兄;二哥;四哥;大哥;五哥家人亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈老师启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐母亲义母;生母;养母;继母;干妈;母亲下属下级;下属;属下;部下;君臣同学同班同学;同学;同门继任者继任者;后裔;继承人;后人;后代;继任偶像喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像妹妹义妹;二妹;三妹;妹妹 数据分布

目前,共涉及大类关系102个,小类关系266条,大类的top20样例如下:

关系类型关系规模示例关系类型关系规模示例合作14,048哥哥2,379朋友13,632学生2,017父亲6,857敌人1,948丈夫5,348弟弟1,880情人4,880同学1,695老师4,727女友1,427儿子4,631妹妹1,384妻子4,491姐姐1,149母亲3,832子女977女儿2,583祖父962 数据样例

1、数据格式为:,为四元组形式,以满足不同的数据需求。 2、注意:为了对存在歧义的实体,采用了实体[实体简短描述]的方式进行区分处理。 3、样例数据:

""" 周洋,队友,合作,孙琳琳 周洋,队友,合作,王濛 周洋,队友,合作,张会 周洋,启蒙教练,老师,崔顺子 周洋,老师,老师,李琰 周扬[中国内地女演员],搭档,合作,叶童 周扬[中国内地女演员],好友,朋友,蒋欣 周扬[中国内地女演员],同学,同学,黄渤 周扬,搭档,合作,高圆圆 周扬,搭档,合作,叶童 周扬,好友,朋友,蒋欣 周扬,好友,朋友,霍思燕 周扬,好友,朋友,佟丽娅 周扬,同学,同学,黄渤 """ 数据应用

拥有了刻画人与人之间的复杂关系数据集,可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究:

大类场景小类场景应用举例信息检索知识问答姚明的老婆是谁?信息检索多跳推理姚明的女儿的爷爷是谁?信息检索图谱可视化将数据导入图数据库,进行图谱可视化展示信息检索未知关系推理给定两个人物节点,进行人物之间的潜在关联路径发现信息抽取数据回标根据结构化人物关系数据,利用远程监督方法进行回标信息抽取特征增强根据结构化人物关系数据,将用户的关联关系作为某个用户的某个特征信息推荐人物推荐根据关注某个人物,类推出与该人物相关的其他人物用户画像人物建模利用某个人物的关联信息,对其进行特征表示和画像建模 项目总结

1、本项目开放了一个人物关系知识图谱数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条。 2、本项目采用了数据格式为:,为四元组形式,可以满足不同的数据使用需求。 3、基于本项目,可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究工作。 4、本项目面向开放文本,采用人物关系抽取模型进行抽取形成,经人工矫正后,可以保证数据的质量。

关于作者

刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: 1、我的github项目介绍:https://liuhuanyong.github.io 2、我的csdn技术博客:https://blog.csdn.net/lhy2014 3、我的联系方式: 刘焕勇,中国科学院软件研究所,[email protected]. 4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon. 5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn. 6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn 7、我的公众号: 在这里插入图片描述



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3