ZhangbuDong/CMeIE: 实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。 本任务就是在这样的背景下产生的,并在CHIP2020会议发布了评测任务(http://cip

您所在的位置:网站首页 数据抽取技术 ZhangbuDong/CMeIE: 实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。 本任务就是在这样的背景下产生的,并在CHIP2020会议发布了评测任务(http://cip

ZhangbuDong/CMeIE: 实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。 本任务就是在这样的背景下产生的,并在CHIP2020会议发布了评测任务(http://cip

2023-03-04 13:02| 来源: 网络整理| 查看: 265

CMeIE中文医学文本实体关系抽取

实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。

给定schema约束集合及句子sentence,其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别,例如: (“subject_type”:“疾病”,“predicate”: “药物治疗”,“object_type”:“药物”) (“subject_type”:“疾病”,“predicate”: “实验室检查”,“object_type”:“检查”)。 任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。 下表中展示了数据集中包含的53个schema,包含10种同义词子关系(表1中合并为一种),43种其他子关系。

数据集介绍

4.评测数据 本评测开放训练集数据14339条,验证集数据3585条,测试集数据4482条。数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。

数据集名称为:CMeIE(Chinese Medical Information Extraction dataset)

数据集下载文件为:CMeIE.zip, 包括:

53_schema.jsonl: SPO关系约束表 CMeIE_train.jsonl: 训练集 CMeIE_dev.jsonl: 验证集 CMeIE_test.jsonl: 测试集, 选手提交的时候需要为每条记录填充"spo_list"字段,类型为列表。每个识别出来的关系必须包含"subject", "predicate", "object"3个字段,且"object"是一个字典(和训练数据保持一致): {"@value": "some string"}。请注意,CBLUE2.0的提交结果文件后缀名变更为jsonl example_gold.jsonl: 标准答案示例 example_pred.jsonl: 提交结果示例 README.txt: 说明文件

数据集提供方 郑州大学自然语言处理实验室,河南郑州 450001。 北京大学计算语言学教育部重点实验室,北京 100871。 鹏城实验室人工智能研究中心智慧医疗课题组,广东深圳 518052。 哈尔滨工业大学,深圳 518000。

数据样例 { "text": "慢性胰腺炎@ ###低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用,并且已经开始被用于非肿瘤性疼痛的治疗。", "spo_list": [ { "Combined": true, "predicate": "放射治疗", "subject": "慢性胰腺炎", "subject_type": "疾病", "object": { "@value": "外照射" }, "object_type": { "@value": "其他治疗" } }, { "Combined": true, "predicate": "放射治疗", "subject": "非肿瘤性疼痛", "subject_type": "疾病", "object": { "@value": "外照射" }, "object_type": { "@value": "其他治疗" } } } ] } How to Cite @book{2020CMeIE, title={CMeIE: Construction and Evaluation of Chinese Medical Information Extraction Dataset}, author={ Guan, T. and Zan, H. and Zhou, X. and Xu, H. and K Zhang}, publisher={Natural Language Processing and Chinese Computing, 9th CCF International Conference, NLPCC 2020, Zhengzhou, China, October 14–18, 2020, Proceedings, Part I}, year={2020}, }


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3