知识图谱在电力领域的应用与研究

您所在的位置:网站首页 知识图谱的建立与应用论文 知识图谱在电力领域的应用与研究

知识图谱在电力领域的应用与研究

2024-05-30 18:47| 来源: 网络整理| 查看: 265

0 引言

电力行业作为国家重大的基础能源体系,应用领域遍布广泛,但是随着全世界对环境保护的日趋关注以及各国对能源管理的创新与改革,对电力行业提出了节能环保和信息化等要求,而传统的电力系统无法满足这些要求。同时,随着互联网、云计算、物联网技术的应用与普及,“大数据”成了推动行业发展的新动力,电力大数据成为电力领域改革发展的新思路。随着电力领域的发展,电力信息的利用率达到瓶颈期,为了提高电力数据的有效利用,实现电力系统的智能化、自动化,人工智能与电力领域的结合成了新的发展方向。

知识图谱是融合人工智能技术与传统数据库的智能数据库,用于大规模知识的结构化管理。将知识图谱与电力领域结合,使电力系统获得挖掘和分析大规模文本信息中有用知识的能力,能够串联电力领域内零散的知识点[1]。充分借助移动互联、人工智能等先进信息与通信技术,实现各种信息传感设备与通信信息资源结合,可以衍生出更智能的电力系统,为电力系统的安全运行、有效管理、精准投资、优质服务提供了一条新出路[2]。本文采取大数据分析与挖掘技术,通过对电力领域构建中文专业词典、知识图谱以及交叉学科分析,为电力企业更为准确把握行业发展动态及学科建设提供指导。

1 知识图谱电力热点适用性分析 1.1 知识图谱理论概述

知识图谱(Knowledge Graph)是由google在2012年正式提出的概念,主要目的是提升搜索引擎的智能化和效率。知识图谱本质上是一种语义网络,节点代表实体或属性,边代表实体之间以及实体与属性之间的各种语义关系[3]。其中,实体是指客观存在于现实世界并且具有区分性的对象或事物,比如中国、桃子等。属性是描述实体特征的信息,比如面积、成熟度等。关系是知识图谱最重要的特征,据此才能实现万事万物的互联,从而支撑语义理解、情报检索等多种应用[4]。知识图谱构建技术主要包括:知识抽取、知识融合、知识表示、知识验证和知识推理,构建流程框架如图1所示。

图1 知识图谱构建流程 Fig.1 Knowledge graph construction process

知识抽取指从海量的半结构化和非结构化数据中抽取实体、属性和关系等信息,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。知识抽取技术主要包括无监督的基于规则与词典的方法,以及有监督的基于统计机器学习和深度学习的方法。由于抽取的实体、属性和关系等知识来自多个数据源,容易存在名称多样性问题,从而导致与事实对象之间的歧义。为了融合不同来源的数据来提高知识图谱的规模和质量,以实体消歧、指代消解等为代表的知识融合技术应运而生[5]。知识表示指为知识和数据进行抽象建模,主要方法包括资源描述框架(Resource Description Framework,RDF),以及基于深度学习的神经张量模型、矩阵分解模型、单层神经网络模型等[6]。知识表示技术可以高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。知识验证的目的是将正确的知识放入知识图谱中,保证知识图谱的质量,代表方法是马尔科夫逻辑网络模型,通过使用概率软逻辑机制(Probabilistic soft logic)来实现知识的质量评估[7]。知识推理则是在构建的知识图谱基础上进一步挖掘隐含的知识,从而丰富、扩展知识图谱。知识推理方法主要分为以一阶谓词逻辑、描述逻辑以及规则等为代表的基于逻辑的推理和基于图的推理2种类别。在基于图的推理方法中,主要是利用关系路径中的蕴涵信息,通过图中2个实体间的多步路径来预测它们之间的语义关系。

知识图谱作为一种智能高效的知识组织方法,让机器具备认知能力来理解世界,成为学术界和工业界竞相研究的课题。比较知名的知识图谱包括DBpedia[8]、YAGO[9]、Freebase[10]、XLORE[11]及Zhishi.me[12]等,除了这些中英文通用知识图谱外,与特定行业结合的领域知识图谱也投入使用,比如天眼查构建了一个包含企业基本数据、企业诉讼数据、企业失信数据等行业信息数据的知识图谱,达到业务智能化,提升用户的使用体验。

1.2 电力知识图谱适用性分析

电力工业作为国家重大的能源支撑体系,分布广泛,结构复杂,在发电、输电、变电、配电、用电等电力生产和电力服务的各环节都会产生海量数据,比如,发电过程中,火电厂会产生水位、温度和变速风力等数据;智能电表每15 min采集1次数据,理想状态下采集数据的间隔可以不足1 s。在输电网下,各种开关信号量、电压、电流、功率、变压器油温等基础信息也可达到至少1 s刷新1次。在这种高频率的记录下,后台会形成可观的数据量。国家电网有限公司现在正在运行2.4亿块智能电表,平均每年产生数据量为200 TB左右;此外,电力公司在运行和管理过程中会产生大量的人才物资、电力市场信息、资本运作、协同办公等数据。

随着电力信息化的不断深入和电能应用领域的不断拓宽,电力数据正以前所未有的速度增长,并且由于各级电力调度中心在建设信息化平台过程中缺乏标准化的数据输出格式的规定,使得数据来源种类不一,导致数据表示格式多样,除了结构化的数据格式外,大部分数据以文本、音频、视频等非结构化的形式存储。此外,由于电力生产和电力服务各个环节都会产生数据,导致电力数据的维度很多。这些数据一起构成了庞大、零散、多源、异构、多维、多形式的电力数据资源。

知识图谱作为一种智能高效的知识组织方法,在通用领域以及金融、医疗、地理等特定领域已有了广泛应用,阿里巴巴的达摩研究院发布了“藏经阁”计划;中国平安等集团努力打造医疗领域知识图谱;众多金融和投资机构则已经在金融知识图谱构建方面取得了一定的进展。由于电力领域与其他领域的数据存在相同的特征:规模庞大、来源多样、数据结构不一致等,因此知识图谱的很多应用场景和想法都可以延伸到电力领域。其中,以Reverb[13]和TextRunner[14]为代表的开放域信息抽取技术(Open Information Extraction),就是高效处理互联网上海量的不同领域的文本数据,用以构建基于自由文本的开放域知识图谱。现有的知识图谱,包括DBpedia、YAGO、Freebase、XLORE等,构建的数据来源包括维基百科、百度百科等,这类数据存在大量的电力领域知识,包括电力系统、智能电网等科技名词的详细介绍,从中可以分析提取电力热点领域中的技术术语,并分析其间的关联关系,是建设电力领域知识图谱非常重要的手段。

综上所述,构建电力领域知识图谱,可以将电力领域零散分布及结构多样的数据进行有效处理和组织,来保证电网的数据能“一处录入,全网使用”,为信息的真实性、一致性和完整性提供保障,以实现国家“SG186工程”将全国电网建成“一体化企业级信息集成平台”的目标。

2 电力领域中文专业词典构建

研究电力领域的第一要素就是充分理解电力领域的相关专业术语,因为专业术语是理解领域专业文章的基础。构建电力领域中文专业词典可以帮助人们了解专业词条涵义,提高专业知识学习效率,继而推动电力领域的技术发展。下面将介绍电力领域中文专业词典的构建方法。

2.1 词典构建方法

术语抽取和定义抽取是构建词典的重要方法。电力领域术语抽取问题主要是通过形式化表示,输出它的置信度,从而判断领域术语的置信程度。但是,领域术语抽取问题存在一个较为明显的问题:低频问题可利用的统计信息有限。为了控制通用分词的识别难度,分词错误对识别效果的影响,领域术语抽取主要基于表示学习和置信度传播的方法,抽取过程主要包括三步。第一,使用模版匹配自动从语料中抽取候选术语集[15];第二,借助点互信息的方法计算候选术语词组性,使用百科语料库利用词向量表示学习的方法获得候选术语的语义嵌入表示,再通过语义关系构建“术语语义网络”;最后,根据置信度传播的术语排序,筛选排名高的候选术语,如图2所示。

图2 电力领域中文专业词典构建方法流程 Fig.2 The construction process of Chinese professional dictionary in the electricity power field

术语的定义信息还有助于理解电力领域专业词条的涵义。定义抽取主要从网络中的知识共享平台,通过统计自然语言处理的方法获取定义。首先是从预处理的领域专业词表出发,通过基于语义相似度的词条匹配方法获取百科知识库中相关的词条页面。由于在进行专业术语和数据源词条匹配时存在多样化表示的问题,因此通过基于大规模的语料库作为训练词语向量空间模型,对专业术语和词条向量化,利用余弦相似度计算语义相似度,抽取超过阈值的词条[16]。然后使用基于隶属度的定义抽取方法从词条页面获取定义信息,定义隶属度越高,候选定义句作为术语定义的概率越大。

在构建电力领域中文专业词典过程中,因为词典包括专业领域最基础的信息,直接关系到文本预处理中分词、词性标注等的准确率和领域知识图谱的构建,所以对词条的数量和质量有较高要求[17]。但是,电力领域相关术语的数量繁多,分支繁杂,表达方式多样,增加了词条抽取、信息处理的工作量,并且在最终确定专业词典之前需要借助人工审核保障定义描述准确度,导致词条数量和质量受限,这是需要进一步完善的问题。

2.2 词典构建分析

根据第2.1中的词典构建方法,从论文数据、百科网站等多种数据源中分析提取了与电力领域相关的471条中文专业术语及其详细解释,构建了电力领域中文专业词典。

大数据、云计算、物联网、移动互联网、人工智能等现代信息技术和先进通信技术是实现电力领域智能化发展的必要手段。为了满足电力领域的智能化和信息化发展需求,本文编制的中文专业词典,涵盖了电力领域和计算机领域的相关专业词条。其中与电力领域相关的有:配电变压器、自动电压控制、输电物联网、配电物联网、同步发电机、送端电网、送电线路、枢纽变电站、三相不平衡、柔性交流输电系统等;与计算机领域相关的有:自然语言处理、机器学习、神经网络、机器视觉、知识图谱、云计算、云平台、形式文法、网络信息安全等。

3 电力领域知识图谱构建与应用分析

由于电力领域中文专业词典中各个词条独立存在,它们之间不存在关联性,因此需要构建电力领域知识图谱,用可视化和关联分析等技术来挖掘、分析、构建、绘制和显示专业词条及他们互相之间的关系,以结构化知识表示形式帮助电力企业实现业务智能化。本章节将重点论述构建电力领域知识图谱的方法。

3.1 电力领域知识图谱的构建方法

电力领域大量创新性和交叉研究成果的涌现,使得电力领域的技术体系急剧膨胀,如何准确描述和快速跟踪该领域的技术体系及其变化,成为一个亟待解决的问题。从各种数据源中分析提取该领域中的技术术语,并分析其间的关联关系是非常重要的手段。将这个问题映射到知识图谱研究领域,可以发现,这就是一个典型的领域知识图谱构建的过程。

基于以上考虑,对电力领域知识图谱的构建问题,本文的解决方案是从论文数据、百科网站等多种数据源中分析提取了与电力领域相关的专业术语及上下位关系。其中,术语抽取方法与构建电力领域中文专业词典的术语抽取方法一致,针对术语之间的层次关系学习问题,本文采用了一个三阶段的解决方案,包括标签文档语义建模、标签语义关系度量及基于主动学习的层次结构建模,如图3所示。

图3 电力领域知识图谱构建方法 Fig.3 Construction method of knowledge graph in the electricity power field

首先对标签文档进行语义建模。通常标签可能隐含多种语义,为了掌握标签文档间固有的语义关系和标签间语义相似度,一般采用向量空间模型或者语言模型对语义关系进行建模[18]。由于2种模型对语义关系和语义关联性的描述能力有限,本文主要利用词嵌入表示和概率话题模型2种方式。词嵌入表示是将词语以连续实值向量表示,具体方式是借助Skip-Gram模型,最大化词条的共现概率。考虑标签产生的场景可能会影响词语与潜在话题的关联性,于是提出了标签话题模型进行描述,在计算概率时需要进行参数估计,主要使用的方法是吉布斯采样(Gibbs Sampling)。通过该模型虽然能够基于文档建立标签潜在语义描述,但是标签间的同现关系并没有被充分考虑,需要通过对话题平滑来解决。主要方法是通过建立标签的同现网络,再基于该网络定义标签调和[19]。

标签文档语义建模为每个标签赋予了词嵌入和话题分布两种潜在语义表示,再通过标签语义关系度量量化各标签间可能存在的语义关系,以方便层次结构建模。研究过程中通过定义上下位连接、合并,保持,并分布通过量化指标,如词向量的余弦相似度和话题分布的KL散度(Kullback-Leibler divergence,又称相对熵)来度量,一般散度越大,可能性越小。

最后进行层次结构建模,从全局角度,筛选出操作组合来生成最终的层次化概念体系。具体迭代过程中采用主动学习框架,根据既定策略选取一些包含信息量比较大的标签对寻求用户的反馈信息,并充分利用该信息指导后续的操作选择。每次选取一个标签(或者已经进行过某种操作的虚拟节点)对进行一个局部最优操作,迭代进行至总体目标函数不再减小后终止。

在电力领域知识图谱构建过程中,虽然基于中文专业词典进行实体识别时可以保证准确率,但在关系抽取过程中,确定电力相关实体的关系类型是一个挑战,既需要做到精准描述,又要满足数据挖掘需求,这需要依靠专业的实践经验和总结。在确定实体关系后如何推理出新的关系是实现电力知识图谱智能化的关键步骤,也是重要挑战之一。

尽管电力知识的表示形式都规范为“实体-关系-实体”三元组,但如何将三元组运用到所有电力实体关系表示,可否使用其他的知识表示形式,避免知识表示的局限性,是通用知识图谱和领域知识图谱需要进一步探索的问题。

3.2 电力领域知识图谱分析

电力领域不论在数据积累、行业信息化程度,还是资源支撑力度和应用需求等方面都具有一定的优势,因此,在电力领域发展知识图谱及相关技术是非常必要的,也是水到渠成的。

电力领域知识图谱包括了大量该领域的相关专业术语,以及它们之间的上下位关系,并以网络形式组织。通过第3.1节构建方法,将电力领域的1187个中英文专业术语细分为1~6级,并通过知识图谱的方式清晰地展现了它们之间存在的层级关系。图4展示了电力领域知识图谱部分词条之间的组织关系。

图4 电力领域知识图谱示例 Fig.4 Examples of knowledge graph in the electricity power field

表1 电力领域与其他学科领域交叉研究论文数量统计结果 Table 1 Statistical results of the number of papers between the electricity power and other interdisciplinary research fields

3.3 电力领域知识图谱交叉领域分析

通过构建电力领域知识图谱,可以发现电力领域是一个多学科交叉领域,涉及大数据、云计算、物联网、网络安全、人工智能等多个领域。通过统计分析电力领域与多个领域的交叉研究论文数量,如表1所示。我们选择论文数量最多的人工智能领域进行交叉分析。

在构建电力领域与人工智能交叉图谱时,选取了电力领域中的11个子领域和人工智能领域中热度最高的17个子领域,使用“交叉创新笛卡尔智能分析”方法,通过对2个领域的研究学者和发表论文的计算,再对2个领域的子领域进行笛卡尔乘积热点挖掘,实现通过分析历史数据,来预测未来趋势。其中,领域交叉热力值由交叉研究的论文的引用量等数据加权计算得出,热力值越高,表明这2个交叉子领域交叉研究的越深入和广泛。

4 电力领域研究热点分析与预测

基于构建的电力领域中文专业词典和领域知识图谱,并对其与人工智能领域进行交叉分析,为预测电力领域未来研究热点分布提供重要依据。

“人工智能+电力领域”是目前的热门话题,它将人工智能、大数据、物联网、云计算等新型技术和手段,运用于电力领域上。人工智能与电力领域的结合,使得设备智能化、电网数字化和决策智能化成为可能[20]。

本文综合利用循环神经网络(RNN)和长短期记忆网络(LSTM)来解决交叉领域研究热点预测问题,主要采用2层RNN,其中的神经元单元采用LSTM。根据工作单元的信息读取速度,模拟近因效应,得出交叉领域的研究学者数量和论文数量的预测模型。

图5展示了人工智能和电力领域交叉领域的研究热点分布。其中,交叉的单元背景颜色表示当前研究的技术热点,颜色越深代表当前越受关注,空白则表示需要进一步挖掘。数字方面,绿色标注的数据为交叉领域涉及的研究学者数量,蓝色标注的数据为交叉领域相关的论文数量。根据这些信息可以看出机器学习与配电物联网、新一代智能电表、输电物联网、负荷分解等子领域的交叉研究,以及计算机视觉与输电物联网领域的交叉研究是电力领域未来的热点研究方向。

图5 电力领域与人工智能交叉研究热点图 Fig.5 Interdisciplinary research heat maps of the electricity power field and artificial intelligence field

5 结语

在电力领域中,随着电力信息化水平的逐步深入,积累了大量电力数据,电力数据的有效使用对构建智能电网、电网安全运行、精益电力管理、优质电力服务、精准电力投资等工作都有着重要的意义。构建电力领域的知识图谱提供了一种从海量电力信息和图像中抽取结构化知识的手段,具有广阔的应用前景。本文从知识图谱与电力热点领域相结合的视角出发,通过构建电力领域的中文专业词典、知识图谱、与人工智能领域交叉图谱,电力领域的技术进行了全面调研和深入分析。基于多源多结构数据构建的电力领域知识图谱有助于实现对全局电力数据资源的智能分析、索引及管理,使电网大数据得到充分利用,有效支撑了上层应用的开展,为电网应用的深度探索和创新提供了思路。

(编辑:刘雪莹)

参考文献

[1] 俞阳. 基于知识图谱的电力知识平台关键技术研究[D]. 南京: 东南大学, 2018.

[2] 孟祥甫, 郭志华, 芮光辉, 等. 关于泛在电力物联网二重性的探讨[J]. 青海电力, 2019, 38(2): 64-67. MENG Xiangfu, GUO Zhihua, RUI Guanghui, et al.Discussion on the duality of ubiquitous electric power Internet of things[J]. Qinghai Electric Power, 2019, 38(2): 64-67.

[3] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600. LIU Qiao, LI Yang, DUAN Hong, et al.Overview of knowledge mapping technology[J]. Computer Research and Development, 2016, 53(3): 582-600.

[4] 郭云峰, 韩龙, 皮立华, 等. 知识图谱在大数据中的应用[J]. 电信技术, 2015, 1(6): 25-29. GUO Yunfeng, HAN Long, PI Lihua, et al.Application of knowledge mapping in big data[J]. Telecom Technology, 2015, 1(6): 25-29.

[5] 欧艳鹏. 知识图谱技术研究综述[J]. 电子世界, 2018(13): 54, 56.

[6] 李涓子, 侯磊. 知识图谱研究综述[J]. 山西大学学报(自然科学版), 2017, 40(3): 454-459. LI Juanzi, HOU Lei.Overview of knowledge mapping research[J]. Journal of Shanxi University(Natural Science Edition), 2017, 40(3): 454-459.

[7] 宫云宝. 面向知识图谱构建的知识验证方法研究[D]. 湖南: 国防科学技术大学, 2017.

[8] BIZER C, LEHMANN J, KOBILAROV G, et al.DBpedia-a crystallization point for the web of data[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2009, 7(3): 154-165.

[9] SUCHANEK F M, KASNECI G, WEIKUM G.YAGO: a core of semantic knowledge[C]// International Conference on World Wide Web. Banff, Canada: University of Calgary, 2007: 697-706.

[10] BOLLACKER K D, EVANS C, PARITOSH P, et al.Freebase: A collaboratively created graph database for structuring human knowledge[C]// Proceedings of the 2008 ACM SIGMOD international conference on Management of data. Vancouver, Canada: AcM, 2008: 1247-1250.

[11] WANG Z, LI J, WANG Z, et al.XLore: a large-scale english-chinese bilingual knowledge graph[C]// International semantic web conference(Posters & Demos). Sydney, Australia: International Association, 2013: 121-124.

[12] NIU X, SUN X, WANG H, et al.Zhishi. me-weaving chinese linking open data[C]// International Semantic Web Conference. Heidelberg, Germany, 2011: 205-220.

[13] WU F, WELD D S.Open information extraction using Wikipedia[C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden: Association for Computational Linguistics, 2010: 118-127.

[14] YATES A, CAFARELLA M, BANKO M, et al.Textrunner: open information extraction on the web[C]// Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. New York, USA: Association for Computational Linguistics, 2007: 25-26.

[15] 傅质馨, 李潇逸, 袁越. 泛在电力物联网关键技术探讨[J]. 电力建设, 2019, 40(5): 5-16. FU Zhixin, LI Xiaoyi, YUAN Yue.Discussion on key technologies of ubiquitous power Internet of things[J]. Electric Power Construction, 2019, 40(5): 5-16.

[16] WANG J Z, DU Z, PAYATTAKOOL R, et al.A new method to measure the semantic similarity of GO terms[J]. Bioinformatics, 2007, 23(10): 1274-1281.

[17] 王慧芳, 曹靖, 罗麟. 电力文本数据挖掘现状及挑战[J]. 浙江电力, 2019, 38(3): 4-10. WANG Huifang, CAO Jing, LUO Lin.Current situation and challenges of power text data mining[J]. Zhejiang Electric Power, 2019, 38(3): 4-10.

[18] ZHAO L, ZHANG Q.Mapping knowledge domains of Chinese digital library research output, 1994-2010[J]. Scientometrics, 2011, 89(1): 51-87.

[19] 罗杰, 王庆林, 李原. 基于word2vec与语义相似度的领域词语聚类[C]// 中国控制会议, 南京, 中国, 2014: 528-532.

[20] 许振亮, 陈悦, 葛莉, 等. 基于知识图谱的国际创新管理前沿与热点的分析[J]. 管理评论, 2009, 21(5): 13-18, 34. XU Zhenliang, CHEN Yue, GE Li, et al.Analysis of frontier and hot spots of international innovation management based on knowledge mapping[J]. Management Review, 2009, 21(5): 13-18, 34.

刘津(1976-),女,高级工程师,参与制定多项电力行业标准及国家标准,从事电力期刊品牌建设与国际化竞争策略研究工作;

杜宁(1980-),女,副编审,从事科技期刊编审及运营工作;

徐菁(1990-),女,博士研究生,从事科技人才大数据研究工作,[email protected]



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3