DataIntelligence发布FR2KG

您所在的位置:网站首页 知识图谱元数据 DataIntelligence发布FR2KG

DataIntelligence发布FR2KG

2023-12-27 15:45| 来源: 网络整理| 查看: 265

    金融研报是各类金融研究组织对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是由专业人员撰写,其特点是对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同内容的表达方式也会略有差异。这些特点导致了研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。

    本评测任务参考TAC KBP中的Cold Start评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测任务从预定义图谱模式和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱。在给定图谱模式和种子知识图谱的条件下,评测内容为自动从研报文本中抽取出符合图谱模式的实体、关系和属性值,实现金融知识图谱的自动化构建。所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。

评测结果回顾

    本次评测一共有740个队伍报名,其中F1分数最高的18支队伍中,有3支队伍来自企业,10支队伍来自高校,3支队伍是高校和企业的组合,另外2支队伍未透露相关信息。本次评测的Top 5队伍都梳理并提交了他们所使用的方法的简要说明,下文对这些方法和说明进行分析总结。

所有队伍都使用了规则或者labeling function来生产训练样本,只有一个队伍在自动生成样本之外,又额外人工标注了20份的研报来作为补充和验证的训练样本。

所有队伍在实体抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于规则的方法来对特定的实体类型进行补充。

在关系和属性抽取方面,所有的队伍都使用了基于共现的方法,共现是远程监督的基本假设,也就是说,当两个实体共同出现在一个较短的一段文本时,即可假设它们存在符合相应的关系。在基于共现的假设之上,三支队伍使用了规则来判断是否真正存在这种关系,另外两只队伍使用了基于BERT的模型来对关系进行分类。

有一支队伍使用了聚类的方法来将相似或相同主题的研报聚在一起,对研报进行了预处理。

知识图谱自动构建研究的挑战和未来方向

从本次基于知识图谱模式的自动化构建知识图谱评测的结果来看,最高的F1值只有0.5左右,距离真正应用的要求还比较远。这对知识图谱领域提出了一些更有挑战性的课题和新的研究方向:

在给定知识图谱模式和种子知识图谱来自动化的构建知识图谱上,现有的方法效果都不太好,如何实现端到端或者多步的框架实现知识图谱的完全自动化构建是值得继续探索的。

通过知识图谱及其对应的Schema如何实现自动化标注语料是一个值得研究的课题,能够实现高精度的自动化标注语料可以带来更好的抽取模型。此外,自动化标注语料方面的评测也是一件非常有意义的事情。

实体抽取方面,评测的优秀选手都使用了基于BERT的模型,再加上基于规则的方法来实现,在这种真实的场景且计算力资源受限的情况下,如何在少量语料的情况下实现高精度的抽取?

关系和属性抽取与识别上,目前集中在采用短文本内共现并过滤的方法来实现,这极大地依赖于实体抽取的F1分数,高precision和高recall的实体抽取决定了关系和属性抽取有好的效果。那么如何在噪声较多,即不那么高的情况下来实现好的关系和属性抽取?

本次评测没有看到使用端到端的实现实体和关系联合抽取的模型,可能的原因是实体和关系类型较多且没有大量的语料,那么在这种情况下如何开发出端到端的模型也是非常具有挑战性的课题。

当Schema的规模进一步扩大时,比如50种实体类型,数百种的实体属性和实体间的关系,对这样的知识图谱研究其自动化构建是一个既具挑战性有非常有现实意义的课题。

多语言的知识图谱自动化构建技术的研究。本次评测集中在中文,以及中文中存在的少量英文的情况,特别的,没有涉及到多语言之间实体融合的情况。但在真实场景下,多语言语料以及构建多语言图谱是非常重要的。这涉及了多方面的内容,包括多语言的实体、关系和属性的抽取,多语言之间实体的融合等方面技术的研究。同时,组织多语言知识图谱自动化构建方面的评测也是非常有意义的事情。

本次评测中隐含着少量实体的消歧与融合,这块没有显性的进行评测,未来可以将这块明确的表达出来,以促进相关领域的研究。

 

通讯作者简介

 

王文广,达观数据副总裁,高级职称,上海市人工智能标准化技术委员会委员,中文信息学会(CIPS)语言与知识计算专委会委员,中国人工智能学会(CAAI)深度学习专委会委员,中国计算机学会(CCF)会员,在人工智能领域和系统架构设计上有十余年工作经验,在系统架构设计、人工智能算法研究和产品落地等方面经验丰富,申请有十多项国家发明专利,发表有十多篇学术论文,浙江大学计算机硕士。曾摘取ACM KDD CUP、EMI Hackathon、“中国法研杯”法律智能竞赛等世界最顶尖的AI算法竞赛荣誉,擅长将OCR、NLP和知识图谱应用于金融、智能制造、贸易等领域,数十次在学术或产业论坛上分享在人工智能技术研究和行业落地经验。

 

夏季出游去哪里

点击抢购

夏季出游去哪里

点击抢购

Data Intelligence 期刊介绍

Data Intelligence 是中国科学院文献情报中心主办的英文学术期刊。创刊于2019年,目前被EI、ESCI、Scopus、DOAJ、Inspec数据库收录。期刊以知识表示、处理与应用(本体、元数据及其标准、语义标注体系、知识图谱等)及结构化、语义化的数据论文、语义数据驱动的智能算法、系统、平台为刊发主体,致力于推动数据融合、数据与数据处理平台的有效共享、倡导数据追本溯源,促进知识实时构建,并为下一代精准智能语义数据分析和应用以及深度知识服务提供创新源泉。期刊官网:https://direct.mit.edu/dint 。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3