电网故障处置知识图谱构建研究与应用

您所在的位置:网站首页 电网图示模型 电网故障处置知识图谱构建研究与应用

电网故障处置知识图谱构建研究与应用

2024-07-10 11:47| 来源: 网络整理| 查看: 265

0 引言

目前,电网故障后的处置调度工作主要依赖于调度人员的主观性决策,由调度人员实时分析故障后电网的状态、参数变化情况,查明故障发生的原因并制定相应的故障处置措施[1]。这种处置方式需要调度人员反复查阅与记忆大量以非(半)结构化文本形式存在的故障处置信息,如系统稳定要求、故障后运行方式、故障处置要点等。以关键字进行匹配的传统文本检索方法虽然能够提供段落定位功能,但是检索结果缺乏碎片化、缺乏组织,经常出现检索不全、答非所问的情况,容易产生疏忽遗漏,使得故障应急处置工作的效率降低。随着电力系统的快速发展,电网结构和运行模式愈加复杂,故障后的处置难度不断提高,依赖于人工经验的传统调度决策机制越来越难以应对复杂大电网的快速故障分析和故障处置[2]。电力系统亟需借助智能化技术将非结构化的故障处置文本数据抽取提炼为知识,并将这些知识组织成结构化、可视化的表示形式。在电网故障发生时,帮助调度员快速分析事故原因,全面地掌握故障处理的关键信息,并进行辅助决策,以提高电网的应急处置能力。

知识图谱(knowledge graph)是Google公司于2012年提出的一种知识表示方法,在本质上是一个结构化语义知识库,它以三元组(头实体,关系,尾实体)的形式对客观世界中的实体及其相互关系进行建模,这些三元组通过共有的实体或属性相互连接,构成网状的知识结构[3-4]。相较于传统的知识组织、管理方式,知识图谱基于图的数据组织结构支持更高效的数据调取,能够处理复杂多样的关联表示,能够模拟人类思考过程进行语义分析。因此,通过构建电网故障处置的领域知识图谱,以图的形式对故障处置知识进行组织和存储,并将其作为机器理解人类知识的载体,利用计算机进行语义搜索与辅助决策,为故障处置工作提供智能化的信息服务与应用。

目前,关于知识图谱在电力领域中的应用,国内外已经进行了许多的探索。文献[5]为提高电力设备的管理效率,以多源异构的电力设备数据为对象,构建了电力设备知识图谱。文献[6]分析了电网提供能源服务的模式,构建了能源服务知识图谱,集成与能源服务相关的各种领域知识。文献[7]分析了现有的螺栓缺陷分类方法的不足,使用GGNN构建栓母对知识图谱,指导栓母对的缺陷分类工作。文献[8]以电力设备缺陷记录文本为基础,构建了电力设备缺陷知识图谱,用于类似故障记录的检索。

然而,在电网故障处置领域,相关的研究还较少,文献[1]提出了电网故障处理知识图谱的应用框架,并对其中关键环节的实施技术进行分析,但并未实际利用电网故障处置数据进行知识图谱的构建。文献[9]构建了线路故障处置知识图谱,但知识抽取的方式依赖于手工与规则模板。

综上所述,虽然知识图谱在电力领域快速发展,但针对电网故障处置的知识图谱构建及其应用研究尚未深入开展。因此,本文以电网故障处置预案文本为对象,设计了领域知识图谱的构建框架。其中,利用深度学习方法进行知识抽取,以减少对规则模板的需求。将抽取的知识利用Neo4j图数据库进行存储和可视化表示,实现一个用于电网故障处置信息智能检索和辅助故障诊断的知识图谱。

1 电网故障处置预案 1.1 电网故障处置预案文本内容

为了提高电网的故障应急处置能力,保证故障应急处置工作高效、有序地进行,最大限度减少事故对社会的影响,电力企业及有关部门针对电网运行中可能发生的故障进行分析,模拟故障后电网运行方式的变化情况,确定预想故障的大致影响范围和电网薄弱环节,通过调度经验针对性地制定故障处置措施,形成文本格式的电网故障处置预案(以下简称为预案)。

预案文本由预案编号、故障名称、稳定要求、故障后运行方式、故障处置要点5部分内容组成。其中,故障后方式描述了预想故障发生后电网运行方式的变更情况及原因;处置要点描述了电网恢复正常运行所需采取的处置措施和紧急状态调整;稳定要求描述了故障处置工作需要遵守的稳定规定。

1.2 电网故障处置预案文本特点

相较于日常领域的文本,预案文本具有以下的特点:

1)预案文本的构成复杂,类型多样。其中既包含了结构化的信息,如预案编号、故障名称、稳定要求,又包含了非结构化信息,如故障后运行方式、故障处置要点。并且故障后运行方式和故障处置要点又可根据描述对象、处置措施进一步细分。

2)预案文本包含了大量电力领域的专有名词和专业术语,例如厂站设备、电力调度机构、调度指令、设备指标等。一些适用于日常领域的自然语言处理技术,如文本分词、词性标注等,难以直接应用于电网故障处置预案文本中。

3)预案文本中的实体往往由地区、厂站、电压等级等多个名词嵌套构成,实体的界限模糊。

本文在构建电网故障处置知识图谱时,充分考虑了上述特点,采取有针对性的文本预处理方法,并构建了一套适用于电力领域的知识抽取模型,实现预案文本从传统的基于手工和规则模板的知识抽取方法到基于深度学习的智能化知识抽取方法的转变。

2 电网故障处置知识图谱的构建方法 2.1 构建框架

知识图谱的构建方式通常可分为自顶向下、自底向上和混合方式3种[10]。自顶向下的构建方式先构建知识图谱的模式(scheme)层,预先定义知识图谱的知识组织架构,之后在模式层的指导下利用一系列知识抽取方法从数据源中抽取知识实例添加到知识库中。与之相反,自底向上的构建方式没有预先定义知识图谱的模式层,而是从数据源中归纳模式层,在知识抽取的过程中逐步形成并不断地更新概念与概念间关系的组织架构。两者相结合的混合构建方式则是在初期有预定义的模式层,同时随着知识抽取的进行,根据数据源的知识组织结构对模式层进行改进更新,形成置信度更高的知识组织架构,使知识图谱更加完备和可靠。

由于预案文本的核心构成要素相对固定,但核心要素可进一步细分为类型多样的非结构化信息。因此,本文采用自顶向下与自底向上相结合的方式构建电网故障处置知识图谱。首先,通过分析预案文本的内容,采用自顶向下的方式设计知识图谱的模式层。之后,在模式层的指导下,采用自底向上的方式构建数据层,针对预案文本的特点设计合适的抽取方法,进行实体、关系和属性3个知识要素的抽取,形成一系列高质量的事实表达,通过知识图谱的底层存储方式,映射到相关概念节点当中。其构建流程如图 1所示。

图 1 电网故障处置知识图谱构建流程 Fig. 1 Construction process of power grid fault handing knowledge graph 2.2 模式层构建

模式层是知识图谱的知识组织架构,是对领域内实体、实体间关系以及属性进行描述的数据模型。本文在电力领域专家的帮助下对预案文本内容进行详细分析,提炼出电力领域里有意义的概念类型与相关的属性,以及概念之间关系,从而形成领域知识体系。

如图 2所示,电网故障处置知识图谱的模式层由故障名称、系统稳定要求、故障后运行方式、故障处置要点4个核心要素以及它们之间的相互关系构成。

图 2 电网故障处置知识图谱模式层 Fig. 2 Scheme layer of power grid fault handing knowledge graph 2.3 数据层构建

数据层的构建主要分为知识抽取、知识融合与知识更新3个步骤。其中,知识抽取是在模式层知识组织架构的指导下,通过一系列知识抽取方法从非(半)构化数据中获取实体、实体间关系以及属性等结构化知识;知识融合是对知识抽取所得到的实体进行实体消歧和共指消解处理;知识更新则是在知识图谱应用的过程中,对其中知识的质量与时效性进行评估,并结合知识的发展进行更新和修正。

目前,电力领域的知识抽取主要采用规则模板或领域字典的方法[11-12]。这种方法需要在领域专家的帮助下构建并维护一个领域字典,之后通过手工编写大量规则模板进行知识抽取。然而规则模板的适用范围有限,难以适应复杂的语言环境和形式多变的实际应用需求。为解决上述问题,本文针对预案文本的特点,提出了一套基于深度学习的知识抽取方法,具体包括:文本分类、命名实体识别、实体间关系抽取。

2.3.1 基于字向量TextCNN的预案文本分类

文本分类(text classification)是将预案文本按预先定义的类别进行自动分类标记。如表 1所示,预案文本中的“故障后运行方式”常分为潮流变化信息、潮流转移信息、电压变化信息、设备状态变化信息、出力损失信息5类情况,描述故障后电网运行方式的变化情况;“故障处置要点”也可细分为:潮流控制、电压控制、负荷控制、出力调整、运行方式调整5类,描述针对预想故障应采取的具体处置措施。对预案文本进行准确、高效地分类,是知识抽取的一个重要内容。

表 1(Table 1) 表 1 文本类别及示例 Table 1 Text categories and examples 预案文本类别 示例 潮流变化信息 XX-XX双线潮流越限 潮流转移信息 潮流转移到XX3台主变 电压变化信息 XX1000kV电压略有下降 设备状态信息 XX 3期2台100万机组跳闸 出力损失信息 损失出力232万 潮流控制 控制XX-XXX潮流断面在限额内 电压控制 XX监控抬高XX地区500kV电压水平 负荷调整 转移220kV XX变部分负荷至XX供区 出力调整 XX省调减XX机端出力至270万 运行方式调整 XX分区与XX220kV改合环运行 表 1 文本类别及示例 Table 1 Text categories and examples

依靠人工进行文本分类的方法不仅效率低而且对人员的专业知识有很高的要求,本文参考Yoon Kim[13]提出的TextCNN模型,构建适用于预案文本的文本分类模型。针对通用领域分词工具不能很好地对预案文本进行分词的情况,使用字向量代替词向量对文本进行embedding表示,避免了分词错误带来的影响。

2.3.2 基于LR-CNN的命名实体识别

命名实体识别(named entity recognition,NER)是对文本中具有特定含义的实体进行边界确定和类别识别,本文定义的命名实体类别如表 2所示。电网故障处置预案属于特定领域的文本,因此在构建命名实体识别模型时应充分考虑文本的特点。

表 2(Table 2) 表 2 命名实体类别及示例 Table 2 Named entity categories and examples 实体类别 实体说明 实体示例 调度机构、厂站设备 电力调度机构、发电厂、变电站、电力设备、输电线路等 XX网调、XX抽蓄机组 指标 电力指标 潮流、出力 动作 描述处置操作、指标状态变化 抬高、越限 数量 描述指标量或设备数的数值 73万、2台 程度 描述处置操作的紧急程度、指标变化的剧烈程度 紧急、严重 属性 描述电压等级、设备容量 220kV、200万 表 2 命名实体类别及示例 Table 2 Named entity categories and examples

通过分析,预案文本的结构紧凑,实体成分复杂、边界难以界定,候选词冲突的现象突出。如图 3所示,在“山西省调控制芝堰-信安线潮流不越限”一句中,“山西省调控制”存在6个候选词:“山西”、“省调”、“山西省”、“山西省调”、“调控”、“控制”。而“芝堰-信安线”又由“芝堰”、“信安”两个地名实体嵌套而成。

图 3 候选词冲突示例 Fig. 3 Example of word conflict

针对上述问题,本文使用引入Lexicon Rethinking机制的CNN网络(LR-CNN)[14]实现电网故障处置领域的命名实体识别并解决候选词冲突问题。模型结构如图 4所示。

图 4 LR-CNN模型结构 Fig. 4 Structure of LR-CNN model

LR-CNN模型使用堆叠的窗口大小为2的CNN对句子的字符、候选词特征进行提取,并使用注意力机制模块合并字符和候选词信息。由于CNN的层次结构,低层的CNN无法引用高层CNN中的信息对错误的候选词的权重进行调整,不能很好地处理候选词冲突,因此通过引入Rethinking机制[15],向每个CNN层添加反馈层,使用高层的字词信息来调整低层注意模块的权重,通过降低错误候选词的权重解决候选词冲突问题。

2.3.3 基于BiGRU-Attention的实体间关系抽取

实体间关系抽取(named entity relation extraction,NRE)是在命名实体识别的基础上判断实体间是否存在预定义的关系,从而构成一系列三元组知识。本文定义的实体间关系类别如表 3所示。

表 3(Table 3) 表 3 实体间关系类别及示例 Table 3 Entity relation categories and examples 实体A类别 实体B类别 关系类别 调度机构、厂站设备 调度机构、厂站设备 A包含B/无关系 调度机构、厂站设备 动作 A动作为B/无关系 调度机构、厂站设备 指标 A电力指标为B/无关系 指标 数量 A指标量为B/无关系 指标 动作 A指标状态为B/无关系 动作 程度 A动作程度为B/无关系 调度机构、厂站设备/指标 属性 A属性B/无关系 调度机构、厂站设备 数量 A设备数量为B/无关系 表 3 实体间关系类别及示例 Table 3 Entity relation categories and examples

本文在BiLSTM-Attention[16]模型的基础上,使用参数量更小的双向门控循环(BiGRU)结构以提高模型训练速度。BiGRU-Attention模型结构如图 5所示。

图 5 BiGRU-Attention模型结构 Fig. 5 Structure of BiGRU-Attention model

BiGRU- Attention模型在BiGRU的基础上引入注意力机制,找到对关系分类起重要作用的字,学习得到一个权重,通过赋予这些字更高的权重以提高他们的重要性,从而提高关系抽取的准确率。

2.3.4 知识融合

经过知识抽取得的知识需要经过知识融合进行实体消歧和共指消解处理。其中,实体消歧指的是对可能存在多种含义的实体(例如“《三国演义》”可能指中国的四大名著,也可能指影视剧)进行区分;共指消解是指将具有相同含义和指代的名词和代词在知识图谱中进行合并。由于预案文本属于电力领域文本,实体词义仅限于电力领域,并且电力行业有明确的术语规范,实体歧义的问题基本不存在。然而,在预案文本存在较多的共指问题,这主要是由名词缺省所造成的,例如“申请加出太丹江、富春江电厂出力”一句中,“太丹江”实际上指的是“太丹江电厂”。因此,需要对这些缺省名词进行补全:首先编写正则表达式找出存在名词缺省的句子与实体的结尾,正则表达式为“[\u4e00-\u9fa5]) (、)?(或)?(与)?(和)?[\u4e00-\u9fa5]+”,之后根据NER的结果确定缺省实体的边界后再编写规则自动补全实体。

2.3.5 知识更新

目前,电力系统的快速发展,电网结构和运行模式愈加复杂,电力设备、处置预案均在不断发展。因此,在知识图谱构建之后需要持续地更新,以保证其中知识的有效性。电网故障处置知识图谱的更新分为模式层和数据层两方面:模式层的更新是指新增的预案中出现当前模式层中不存在的概念(例如新的处置要点类别)时,则根据新的概念对模式层中的文本类型、实体类型、关系类型进行更新;数据层的更新则是当新产生的预案没有产生新的概念时,采用增量更新的方式[3],对新增的预案进行知识抽取与知识融合后添加到原有的图谱中。除此之外,数据层的更新也包含对其中知识的质量与有效性进行评估,及时删除失效知识,这部分工作的工作需要专业调度人员的协助。

3 算例分析 3.1 算例情况

为了验证本文所构建的信息抽取模型的有效性,以某地区的1035份电网故障处置预案文本为实验对象,选取其中“故障后运行方式”和“故障处置要点”共3900条,经过长句切分后得到共9875条,经过人工标注后得到用于训练各信息抽取模型的数据集。各数据集均按8:1:1的比例随机划分为训练集、验证集和测试集用于模型的训练和测试。

3.2 预案文本分类实验 3.2.1 实验设计与评价指标

为了对比本文构建的基于深度学习的文本分类模型与传统机器学习方法的分类效果,选取朴素贝叶斯、邻近算法(KNN)、支持向量机(SVM)作为对照进行实验,上述算法的实现基于Python的sklearn工具包。

为了验证本文使用字向量代替词向量进行embedding的有效性,在模型其他参数保持不变的情况下,使用词向量对句子进行embedding,词向量采用随机初始化的方式在TextCNN模型中训练。句子的分词处理使用Python的jieba工具包完成。

模型在各类别文本上的分类性能以精确率(precison)、召回率(recall)、F1值[17]为评价指标进行评估,模型的整体评价指标采用macro-F1值进行评价,macro-F1值是各类文本F1值的算术平均。

3.2.2 TextCNN模型参数设置

本文构建的基于字向量的TextCNN模型的参数设置如表 4所示。

表 4(Table 4) 表 4 TextCNN模型参数设置 Table 4 Parameters setting of TextCNN model 模型参数 模型参数取值 字嵌入维度 300 CNN卷积核尺寸 2, 3, 4 Dropout随机失活率 0.5 训练批数(epoch) 10 学习率 0.001 各尺寸卷积核数量(channels) 256 表 4 TextCNN模型参数设置 Table 4 Parameters setting of TextCNN model 3.2.3 文本分类实验结果与分析

各分类模型的macro-F1值如表 5所示,其中预训练的字向量由文献[18]提供。由表 5可见,本文构建的基于字向量的TextCNN模型取得最好的分类效果,优于各类基于传统机器学习的方法,比其中表现最好的SVM方法提高了7.4%的macro-F1值。

表 5(Table 5) 表 5 文本分类实验结果 Table 5 Results of text classification 模型 macro-F1 朴素贝叶斯 0.8252 KNN 0.8126 SVM 0.9112 TextCNN + 词向量(随机初始化) 0.8562 TextCNN + 字向量(随机初始化) 0.9693 TextCNN + 字向量(预训练) 0.9852 表 5 文本分类实验结果 Table 5 Results of text classification

此外,通过对比基于词向量的TextCNN模型可以发现,使用通用领域分词工具所带来的分词错误会极大地影响模型的分类性能。可见本文使用的基于字向量的嵌入方式能避免分词错误对文本分类造成的影响,从而更好地从预案文本中学习句子的语义特征,提高分类效果。

3.3 预案命名实体识别实验

为了验证本文提出的基于LR-CNN模型的预案命名实体识别方法的有效性,选择隐马尔可夫模型(HMM)、条件随机(CRF)、BiLSTM-CRF[19]模型、IDCNN-CRF[20]模型和Lattice LSTM[21]模型作为对照模型。其中,BiLSTM-CRF模型、IDCNN-CRF模型和Lattice LSTM模型是中文命名实体任务常用的深度学习模型。

模型的性能指标同样使用精确率、召回率、F1值进行评价,其中样本是否被正确预测的评估方式是以实体为单位而不是以单个标签。此外,将模型的预测耗时作为模型的速度指标。

3.3.1 TextCNN模型参数设置

本文所构建的LR-CNN模型的参数设置如表 6所示。

表 6(Table 6) 表 6 LR-CNN模型参数设置 Table 6 Parameters setting of LR-CNN model 模型参数 模型参数取值 嵌入方式 50维字向量+50维词向量 CNN层数 4 Dropout随机失活率 0.5 训练批数(epoch) 10 学习率 0.0015 学习率衰减率 0.05 优化器 Adamax 每层卷积核数量(channels) 128 表 6 LR-CNN模型参数设置 Table 6 Parameters setting of LR-CNN model 3.3.2 命名实体识别实验结果与分析

各命名实体识别模型的准确率(P)、召回率(R)、F1值和预测速度如表 7所示,各深度学习模型的训练曲线如图 6所示。

表 7(Table 7) 表 7 命名实体识别实验结果 Table 7 Results of named entity recognition 模型 准确率(P) 召回率(R) F1值 预测100句用时/s HMM 0.7420 0.8700 0.8009 - CRF 0.8677 0.8506 0.8590 - BiLSTM-CRF 0.9219 0.9386 0.9302 1.84 IDCNN-CRF 0.9258 0.9360 0.9309 1.35 Lattice LSTM 0.9367 0.9579 0.9471 3.88 LR CNN 0.9404 0.9658 0.9529 2.08 表 7 命名实体识别实验结果 Table 7 Results of named entity recognition 图 6 模型训练曲线 Fig. 6 Model training curve

由表 7和图 6可见,本文构建的LR-CNN模型在各指标上都取得了最好的性能,而Lattice LSTM模型的识别性能和本文模型相近。原因是BiLSTM- CRF模型、IDCNN-CRF模型以字符作为输入,没有利用相邻字之间存在的语义信息,无法解决候选词冲突问题。LR-CNN模型和Lattice LSTM模型在字符输入的基础上使用了候选词信息,能够较好解决候选词冲突问题。

此外,通过对比4种深度学习模型预测100条预案速度可以得出,基于CNN的LR-CNN比基于序列的Lattice LSTM具有更高的计算效率。

3.4 实体间关系抽取实验 3.4.1 实验评价指标与参数设置

使用精确率、召回率、F1值作为模型在各类别关系上的性能指标,模型整体性能使用macro-F1值评价。

使本文所构建的BiGRU-Attention模型的参数设置如表 8所示。

表 8(Table 8) 表 8 BiGRU-Attention模型参数设置 Table 8 Parameter settings of BiGRU-Attention model 模型参数 模型参数取值 嵌入方式 100维预训练字向量 BiGRU隐藏层单元数 230 Dropout随机失活率 0.5 训练批数(epoch) 15 学习率 0.0015 表 8 BiGRU-Attention模型参数设置 Table 8 Parameter settings of BiGRU-Attention model 3.4.2 实验结果与分析

表 3中所定义的各类型关系的识别结果如表 9所示。

表 9(Table 9) 表 9 实体间关系抽取实验结果 Table 9 Results of entity relation extraction 关系类别 准确率(P) 召回率(R) F1值 包含 0.9413 0.9497 0.9456 动作 0.9351 0.8928 0.9135 电力指标 0.9018 0.8788 0.8902 指标量 0.9224 0.9151 0.9188 指标状态 0.9203 0.9199 0.9202 动作程度 0.8978 0.8486 0.8726 属性 0.8951 0.9118 0.9034 设备数量 0.9068 0.8855 0.8960 无关系 0.8625 0.8327 0.8474 表 9 实体间关系抽取实验结果 Table 9 Results of entity relation extraction

模型在各类别关系上的F1均值经过计算为0.9001,但是模型在不同类型关系上的抽取效果存在一定差异,“无关系”关系的F1值明显低于其余关系,主要的原因是预案文本结构紧凑、冗余信息较少,一条语句通常只对应一个电网状态描述或电网操作,句子中无关的实体较少,从而导致“无关系”样本所占比例较低,模型没有足够的数据进行学习。

4 知识图谱的可视化与应用

基于本文提出的知识图谱构建方法,1035份电网故障处置预案文本经过知识抽取之后,共形成25 861个节点与54 824个实体间关系,将这些三元组数据导入Neo4j图数据库中进行存储与表示,构建可视化的电网故障处置知识图谱,图 7是知识图谱的部分展示。

图 7 电网故障处置知识图谱(部分) Fig. 7 Power grid fault handing knowledge graph(part)

电网故障处置知识图谱的应用主要在以下两个方面:

1)智能信息检索。传统的故障处置信息检索方式通过对关键词分解与匹配来完成,不能深入理解与处理问题的语义信息。知识图谱以图的形式对故障处置知识进行表示,准确地表达知识之间的关联关系。借助知识图谱对使用者查询的关键字进行解析,将其映射到具体概念或实体上,基于图谱丰富的语义网络,能够返回全面、准确的搜索结果。

2)辅助故障诊断。传统电网的故障诊断依赖于调度员的工作经验和专业知识,需要调度员实时分析故障后电网的状态、参数变化信息,推理事故发生的原因。电网故障处置知识图谱详细记录了各类预想故障的事故特征,当事故发生后根据事故后电网运行方式的变化情况,对知识图谱进行检索和推理,实现知识驱动型的故障诊断辅助决策,减少对调度员的经验依赖。此外,将每次故障诊断的结果作为新的知识对知识图谱进行更新完善,可以使知识图谱提供更为精确、全面、动态化的决策辅助支持。

应用知识图谱进行故障处置的流程如图 8所示。当电网发生故障时,首先由SCADA/EMS设备数据采集与监视控制系统返回事故的告警信息;将获得的事故告警信息进行解析,得到故障后电网运行方式的变化报告;之后利用构建的TextCNN文本分类模型对报告内容进行分类,并利用LR-CNN模型与BiGRU-Attention模型将其解析为对应的三元组信息;然后利用图数据库Neo4j的查询语句Cypher查找知识图谱中是否存在故障后方式与解析内容一致的故障类型;若存在则返回故障类型与相应的处置要点信息;若不存在,则由电力调度人员分析故障类型后,查询知识图谱返回对应的处置要点。

图 8 电网故障处置流程 Fig. 8 Power grid fault handling process 5 结论

本文以电网故障处置预案文本为对象,提出一种自顶向下与自底向上相结合的知识图谱构建方法,并针对预案文本的特点提出了一套基于深度学习的电力领域知识抽取方法:

1)针对通用领域的分词工具不能很好地对预案文本进行分词的情况,构建了基于字向量的TextCNN模型,避免了分词错误带来的影响,实现了预案文本高准确率的自动分类。

2)针对预案文本实体成分复杂,实体边界难以界定的情况,构建了LR-CNN模型进行命名实体识别,通过引入Lexicon Rethinking机制,利用高层CNN的字词信息对错误低层CNN的候选词的权重进行调整,提高了模型识别的准确率。

3)在命名实体识别结果的基础上,构建BiGRU-Attention模型进行关系的抽取,将预案文本转化为三元组信息。

最后,通过Neo4j图数据库对本文构建的知识图谱进行了可视化,并对其应用进行了分析。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3