新兴学科科学知识图谱绘制的大数据挖掘方法和实现

您所在的位置:网站首页 知识图谱的特征是什么意思 新兴学科科学知识图谱绘制的大数据挖掘方法和实现

新兴学科科学知识图谱绘制的大数据挖掘方法和实现

2024-07-17 06:04| 来源: 网络整理| 查看: 265

0. 科学知识图谱 0.1 科学知识图谱概念

学知识图谱(下简称知识图谱)是以科学文献知识为对象,以文献计量学、信息计量学、网络计量学、知识计量学和科学计量学的理论方法为基础,显示学科或领域发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征,是一种复杂网络结构图。知识图谱作为一种有效的、综合性的可视化分析方法和工具,被广泛应用并取得了较可靠的结论,被越来越多的学者所重视。通过知识图谱较形象、定量、客观、真实地显示一个学科的结构、热点、演化与趋势,无疑为学科的基础研究提供了一种新的视角。

与一般计算机图的结构相比,复杂网络的复杂性最主要表现在节点数目庞大,通常达到几千甚至几万个。因此,复杂网络的结构比一般的计算机图的结构要复杂得多。复杂网络可以用来描述人与人之间的社会关系、物种之间的捕食关系、计算机之间的网络联接、词与词之间的语义联系、科学家之间的合作关系、科研文章之间的引用关系,以及网页的链接结构等等。

科学知识图谱主要用于对研究热点、研究前沿、研究趋势、知识结构和科学领域结构进行探索。研究前沿是正在兴起的理论趋势和新主题的涌现,共引网络则组成了知识基础。在分析中可以利用从文献题目、摘要等部分提取的突发性术语与共引网络的混合网络来进行分析。

研究热点可以认为是在某个领域中学者共同关注的一个或者多个话题,从“研究热点”的字面理解,它具有很强的时间特征。一个专业领域的研究热点保持的时间可能有长有短,在分析时要加以注意。

关于学科领域结构的研究视角,笔者认为最直接的方法是是使用科学领域的贡献网络进行分析,但这些结果是宏观的,还可以结合期刊的共被引聚类进行分析。

目前应用领域主要集中在图书馆与档案管理、管理科学与工程、安全科学以及教育学等领域。

0.2 知识图谱主要工具

围绕科学知识图谱的绘制,学者和工程师们开发了很多有用的绘制工具,如Citespcae、Bibexcel、Pajek、Ucinet、HistCite和Sci2等

软件名称开发者功能描述推荐指数CiteSpaceChaomei Chen科学计量与可视化分析★★★★★VOSViewerVan Eck, N.J科学计量与可视化分析★★★★★SCI2Katy Borner团队科学计量与可视化分析★★★★★SciMatM.J.Cobo,A.G科学计量与可视化分析★★★★Loet_ToolsLeydesdorff科学计量与可视化分析★★★★BibExcelOlle Persson科学计量与可视化分析★★★★HistCiteEugene Garfield科学计量与引证网络★★★★CiteNetExploreVan Eck, N.J等引证网络及可视化★★★★★Publish or PerishAnne Wil Harzing谷歌学术数据采集及分析★★★MapequationDaniel Edler等网络及演化的可视化★★★Gephi 网络可视化分析★★★★★PajekV Batagelj等网络可视化分析★★★★★NetDrawBorgatti, S.P网络可视化分析★★★Cyoscape 网络可视化分析★★★UcinetBorgatti, S.P网络文件的统计分析★★★BICOMB崔雷等矩阵的提取和统计★★★SATI刘启元矩阵的提取和统计★★★Carrot2Audilio Gonzales辅助文本可视化★★★JigsawJohn Stasko团队辅助文本可视化★★★GPS Visualizer 辅助地理可视化★★★ 0.3 CiteSpace

CiteSpace 是国际著名信息可视化专家、美国德雷塞尔大学(Drexel_University)信息科学与技术学院陈超美教授和团队研发的一款用于分析和可视共现网络的Java应用程序。CiteSpace近年来在中国广泛使用,大连理工大学等多所中国院校使用CiteSpace展开了不同程度的研究,并将国内的CNKI、CSSCI等数据源成功应用到了CiteSpace中。

有学者认为,根据引文半衰期的明显不同,科学文献可分为持续高被引的经典文献和在短暂时间内达到被引峰值的过渡文献。研究前沿可以被理解为过渡文献,知识基础则是这些过渡文献的引文。CiteSpace就是利用“研究前沿术语的贡献网络”、“知识基础文章的同被引网络”、“研究前沿术语引用知识基础论文网络”这三个网络随着时间演变来寻找研究热点和趋势,并用可视化方式展示出来。

CiteSpace最初以Webof Science导出的题录数据为主要数据源,探讨科学文献可视化的模式和发展趋势。使用的题录字段主要有:Author(作者)、Title(标题)、Abstract(摘要)、Keyword(关键字)、Country(国家)、Institution(机构)、Reference_Cited(参考文献)、Journal(期刊)、Category(分类)等。

CiteSpace不仅适用于自然科学领域还适用于社会科学领域,但自然科学的新理论、新发现要比社会科学相对频繁,研究内容变化幅度要比社会科学相对较大,变化趋势较容易捕捉。

0.4 Bibexcel

Bibexcel软件是瑞典于默奥大学(Umeå_University)Olle_Persson教授设计开发的一款软件,主要用于辅助用户分析书目数据或者格式相近的自然语言文本,生成的数据文件可导出到Excel或其他可以处理Tab键隔开数据的程序中。Bibexcel是免费软件,包括一系列工具,这些工具一些可以在程序窗口中看到,一些被设置在菜单中。

Bibexcel软件与其帮助文档均可从于默奥大学官方网站进行下载,http://www.soc.umu.se/english/research/bibexcel/。早期在Windows系统中安装Bibexcel软件需要将Bibexcel程序放在C:\bibexcel目录下,但现在可以将其放在任何磁盘和目录下。Bibexcel还可以在Linux系统利用“wine”命令进行运行。如果运行中需要附加文件,可以根据提示在互联网中进行下载。

Bibexcel利用汤森路透旗下Web_of_Science平台中的SCI、SSCI和A&HCI3个引文库中的数据进行分析,也可以转换其他格式的数据。利用Bibexcel可以进行文献计量分析(bibliometric)、书目计量分析(bibliometry)、引文分析(citation_analysis)、共引分析(co-citation)、文献共享(shared_references)、书目耦合(bibliographic_coupling)、聚类分析(cluster_analysis)、绘制文献图谱(prepare_bibliometric_maps)等。

Bibexcel软件可视化功能不够强大,但是研究人员可以将输出数据应用到Pajek、Ucinet、NetDraw或者SPSS中。Bibexcel软件只能得到共现矩阵,可以生成作者合作、文献共引的共现文件,可以将这些文件转换成Pajek(免费软件)可用的文件,以便利用其进行分析和可视化。Bibexcel还可以为Pajek生成clu-files和vec-files。

0.5 Pajek

Pajek在斯洛文尼亚语中是“蜘蛛”的意思。Pajek软件是有斯洛文尼亚卢布尔雅纳大学的Vladimir Batagelj和Andrej Mrvar两位教授共同编写的免费软件。 下载地址:http://mrvar.fdv.uni-lj.si/pajek/

wos2pajek(以下简称w2p)是pajek 的作者Vladimir_Batagelj为了更加有效的处理wos上的记录数据而开发出的一款小程序,用它可以对从wos上下载的全纪录进行预处理,生成若干直接用pajek进行分析的文件,如果没有这款软件,用pajek对大型引文网络的分析将是几乎不可能的(不排除还有其他软件,但我目前还不知道)。目前w2p目前最新的版本是0.8版wos2pajek8.zip,下载地址:http://vlado.fmf.uni-lj.si/pub/networks/pajek./WoS2Pajek/default.htm

费弗尔(Jurgen Pfeffer)编写了两个Windows应用程序,用于帮助创建Pajek网络文件。Txt2pajek 下载地址:http://www.pfeffer.at/txt2pajek/

Pajek软件的结构基于六大数据类型:

(1)Networks(网络)Networks主要对象是结点和边,数据文件的默认扩展名是.net。(2)Partitions(分区)Partition指明了每个结点分别属于哪个区,数据文件的默认扩展名是.clu。(3)Permutations(排序)Permutations将结点重新排列,数据文件的默认扩展名是.per。(4)Cluster(类)Cluster是指结点的子集,数据文件的默认扩展名是.cls。(5)Hierarchy(层次)Hierarchy是指按层次关系排列的结点,数据文件的默认扩展名是.hie。(6)Vectors(向量)Vectors是指每个结点具有的数字属性(实数),数据文件的默认扩展名是.vec。

Pajek可以读取多种纯文本格式的网络数据或含有未格式化文本(ASCII)的文件,Pajek2.0以上版本还支持Unicode UTF-8编码格式的标签,这可以让用户用任何语言文字系统来编辑标签。 创建Pajek数据输入文件有多种方法,用户可以在Pajek软件中手动创建,可以利用辅助软件创建,还可以利用关系型数据库创建。

Pajek软件操作基本流程:

(1)在Pajek软件中选择Network—Create Random Network—Total No. of Arcs命令生成一个含指定数量顶点但不含连线的网络文件,然后在字处理软件中编辑顶点标签和增加连线即可;(2)Jurgen Pfeffer编写了两个Pajek辅助软件createPajek.exe和txt2Pajek.exe,前者可以从Microsoft Excel工作表中读取数据,后者可以从纯文本文件中读取数据,比前者提供了更灵活的设置和选项,运算速度也比前者快;(3)Pajek官网提供了一个Microsoft Acess空白数据库模板(network.mdb),用户可以构建1-Mode和2-Mode网络所需的“表”、“查询”、“报表”三种内容。

Pajek可处理结点数高达百万的大型网络,同时具有网络分析和可视化功能,还可以将一个大型网络分解为多个、可以独立显示的子网络,有助于进行进一步的精确分析;它还为使用者提供了有效的分析算法和强大的可视化工具,提供给了一个可视化的界面,帮助用户更加直观地了解各种复杂网络的结构。

与其他社会网络可视化软件相比较,Pajek具有以下特点:

(1)快速有效 一个算法的复杂度主要表现时间复杂度和存储空间复杂度两个方面。Pajek为用户提供了一整套快速有效的、分析复杂网络的算法,用以计算和分析数以万计结点数的大型复杂网络。(2)可视化 Pajek为用户提供了一个界面友好的可视化平台。用户不仅可以快速绘制出一张网络图,还可以根据自己的需要对网络图进行精细调整,从而允许用户从视觉的角度更加直观的分析复杂网络特性。(3)抽象化 Pajek可以将复杂网络的全局结构进行抽象,将联系紧密的结点归为一类。每个类看成一个整体,将它作为新的结点得到一个新的网络图。新的网络图中各个类之间通过少数几条边相连接,可以很容易看出整个网络的整体结构。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3