杨浩

2024-07-09 10:23| 来源: 网络整理| 查看: 265

1 面向古籍整理的人工智能技术与平台搭建

传统的古籍整理包括很多步骤。从流程上来说，如果要对某一本古籍进行整理，需要根据目录学、版本学等知识选择最适合的底本以及校本。底本与校本的选择不仅要依据被选古籍的一些外部知识确定，而且要在校勘的过程中针对不同版本进行判定。当然在具体操作的过程中，确定进行古籍整理的版本还要考虑到具体的条件，例如版本是否容易获得等因素。在一个有可能展开进一步工作的底本和校本的基础上，首先要对其中的文字进行录入与校对。在获得一个大致可信文本的基础上，对文本进行基本的版式整理，包括标题、分段等，同时根据上下文对文字进行校对，包括疑难字的识别、集外字的处理、异体字的归并等。个别难以识别的字，其实可以在后续环节处理。在有一个文字基本可靠的文本基础上，可以对文本进行校勘。校勘在开始阶段可以只是一个简单的对校。在后续环节，比如在标点等环节之后，还可以进行进一步的比勘。在可靠文本的基础上，进一步的工作就是标点与专名识别。标点与专名识别是古籍整理的基础工作。专名识别主要为了更好地服务于古籍阅读。因此，基础的古籍整理主要是这样四个方面：文字录入与校对、文本对勘、标点、专名识别。当然，进一步的古籍整理还可以包括：疑难字注音、疑难字词释义、现代语译等。传统古籍整理中的文字录入、标点、专名识别都可以采用人工智能技术进行人机协作的处理。

1.1 古籍智能处理的核心技术

针对传统古籍整理中繁复的文字录入、标点、专名识别等工作，人工智能技术都可以有很大的帮助。因此，人工智能技术在古籍智能整理方面主要体现在古籍图像的OCR、自动标点、自动命名实体识别等三个方面。[1]

1.1.1 古籍图像OCR技术

传统中文古籍的载体丰富，除了传统的纸张以外，还有甲骨、简帛、石刻等，其中涉及大量的古代汉字的写法。有些数量虽大，但是相比全部古代文献来说是极小的一部分，因此靠人力可以完成。而数量巨大，难以依靠人力完成的部分，主要是宋代至民国时期采用雕版方式印刷的版刻古籍。此外，还有数量众多的抄本或写本古籍。这两部分文献，相当于古代典籍的印刷体与手写体。其中，印刷体容易很多，而手写体的难度显然更大一些。

刻本与抄本古籍的光学字符识别（OCR，Optical Character Recognition）能够极大地提升文字的效率与准确率。[2]对古籍进行自动识别，是典型的计算机图像处理的应用。具体针对古籍，有一些特别的难点需要处理。传统古籍与现代书籍类似，有很多复杂的版面需要处理。版面中的一些要素对于文字读出是干扰项，要专门识别，特别是版心部分。与现代西文图像的自动识别相比，古籍版面有一些特殊之处，主要有三个方面：常见版面为竖排，多有双行小字作为加注，古代汉字个数数以万计。对于这些古籍独有的特点，需要制定专门的对策。古籍图像有关的高质量的开放标注数据较少，也给训练带来了难度。

古籍图像的字符识别过程，从总体上来说分为三个步骤：版式识别，文字识别，文字顺序读出。版式识别的主要难度就是文字行的识别与文字的定位。文字识别的难度，主要是建立训练集，对2-3万的各类古籍汉字进行识别。文字顺序的读取，与版式有一定的关系，但要实现古籍阅读的自然顺序则有一定的难度。在没有标注数据的情况下，一般采用规则的方法。近些年来，深度学习的目标检测、文字识别等技术快速发展，在古籍的文字识别上也表现优异。比如，在北京大学团队里，针对古籍图像识别任务进行探索，最终达到在普通版刻古籍上稳定达到95%以上准确率的水平，基本达到可用的水平。[3]

（图一：北京大学团队的古籍文字识别效果）

1.1.1 古籍文本的自动标点技术

与现代语言的标点符号不同，古籍为了书写与印刷的便利，刻本古籍与抄本古籍都没有标点符号。古人阅读文献的时候，常常用有颜色的笔在古籍上加点或者加圈，即所谓的“句读”，也即俗称的点断。句读是阅读古籍的第一步。如果一篇古文没有办法进行点断，那么基本上也就没有办法理解其中的大义。传统的古文学习都是在老师的带领下，经过长时间的阅读，形成阅读古文的语感，再根据古文中的文言虚词等语言标识，从而对自己经常阅读类型的古籍进行阅读。

2018年末，Google公司的AI团队的BERT模型开启了自然语言处理领域预训练模型时代。[4]北京大学团队率先在古文断句上进行探索，证明BERT模型在古文断句方面的优异表现，准确率比之前的算法提升一大步。[5]在此之后，还将自动标点集中在点断位置的判断上，重点训练模型在文本上施加逗号、句号、顿号、冒号、分号、感叹号、问号等七种标点的能力，而将书名号、引号作为命名实体识别任务或者相似文本比对等任务，从而使得自动标点的任务更加明确，准确率取得进一步提升，在测试集上的准确率能达到94%以上。[6]根据实际测试，由于古汉语的点断位置本身没有绝对正确的答案，笔者评测的实际准确率还要更高一些。最近，南京农业大学团队公布了SikuBERT的预训练模型，是目前开放的利用颇为便利的预训练模型。[7]

1.1.1 古籍文本的命名实体识别技术

传统的古籍整理规范中，往往建议在古籍文本上施以专名线。专名线与书名线形成对照。书名线一般用波浪线标识，专名线则用下划线标识，表示人名、地名、天文名、朝代名、民族名、国名等。此外，职官在古代有其自身的体系，也可以作为单独的一类专名。传统古籍整理中的专名识别，与自然语言处理中的命名实体识别（Named Entity Recognition, NER）是颇为接近的任务。命名实体去除书名，并对其他实体不做区分就是一种专名识别。北京大学团队提出了一种面向古籍实体抽取的整体方案，其中包括一个半自动的预标注模块和一个基于多通道门控的卷积神经网络MoGCN的命名实体识别模块，在自建的三个数据集上进行测试，平均F1值接近87%。[8]结合亚词（偏旁部首、字符结构）在字符表征信息的作用，平均F1值可以达到90%以上。[9]而基于预训练模型，基于北京大学数字人文中心的BERT模型，利用BERT+BLSTM+CRF算法，在《资治通鉴》数据集上F1值能达到98%，先秦语料上则达到87%，完全达到了实用的程度。

与古籍自然语言处理有关的还有古汉语分词等技术，北京大学团队也进行了积极探索，如将非参数贝叶斯模型与BERT深度学习语言建模方法结合在一起，进行了无指导古文分词研究，取得优异的效果。[10]同时，还考虑到汉语上古、中古、近古、现代的不同，提出一个跨时代的汉语分词模型，整合特定时代的语言知识，分词的效果要更优。[11]

在实体标记的基础上，北京大学团队正在探索实体销歧、实体链接等两项任务。实体销歧是将不同的实体赋予相同的ID，标明不同的实体名称实质上表示同一实体。实体链接则在实体销歧任务基础上更进一步，与已有的词典或者百科的词条关联起来。目前内部测试的准确率都在85%以上，也差不多达到可用做统计分析的水平。根据实际需要，利用人工智能算法的自动注音、自动注释等也在积极探索中。

此外，文言文翻译为白话方面，目前业界也已经有很多探索，百度公司[12]、微软公司[13]、字节跳动公司[14]皆发布了可供测试的平台，可能主要受限于高质量的对照语料，目前效果一般。北京大学团队在此方面也有探索，目前的效果并没有超过业界水平。

1.2 “吾与点”古籍智能处理系统

（图二：北京大学团队的自动标点与命名实体识别效果）

北京大学团队将已有的主要算法整合成为了一个演示系统——“吾与点古籍自动整理系统”。[15]该系统按照传统古籍整理的流程，开发了一个从自动标点、自动分词、命名实体识别的古籍整理平台原型系统。该系统的起点是较为准确可靠的古籍文本数据，经过自动标点、专名识别，能够获得一个施以现代标点，同时标示书名、人名、地名、朝代名的现代整理规范之下的文本。展示效果见（图二）。

1.3 人机协作的古籍智能标注平台

在目前的古籍智能处理技术的算法基础上，北京大学团队正在建设基于人机协作的古籍智能标注平台。古籍OCR、自动标点、自动命名实体识别只是古籍文本处理的第一步，要进行基于古籍文本的数字人文研究，还需要更进一步的标注，才能够进行更深入的文本挖掘。目前没有专门针对古籍文本的标注平台，更没有内置古籍智能技术，支持人机协作的功能的标注平台，从而造成人工标注成本过高。在具体标注任务中，一般文本标注平台还缺少分段、标题等信息的标注功能，更不支持面向古汉语的实体关系标注功能。

为了解决古籍文本的特定标注需求，面向古籍知识库和语料库的生成，北京大学团队设计了一个针对古文信息标注的工具平台。该平台提供标注前的文本整理功能，例如分段和篇章标题信息的标注，同时提供基于知识库的分词词性标注，实体关系标注等标注功能。该平台的最大的特色，与现有的古籍自动标注算法，例如自动标点，自动分段，自动实体识别等结合的，将自动标注与人工校对结合，能够大量减少了标注者的工作量。[16]

1.4 “识典古籍”阅读平台与整理平台

为了更好地将古籍知识与内容向大众传播，在字节跳动的支持下，北京大学与字节跳动公益部门联合成立了“北京大学-字节跳动开放实验室”。目前该实验室的主要目标是打造互联网环境下内容丰富、使用便捷的古籍阅读平台，[17]同时为了支持阅读平台的数据加工的需要，还建设有对应的整理平台。

阅读平台设计了简单易用的书库浏览功能，书库目前按照传统的经、史、子、集、道教、佛教六部分类方法。每种分类皆有二级类目，部分有三级类目。平台上对每一种书不仅标示了书名、卷数、作者、作者年代、版本等基本信息，而且还标示了每种书的撰述年代。具体撰述年代，优先采用真正的写作年代。对于大部分写作年代难以考证的书，一般采用作者卒年作为撰述年代。如果作者本身生卒不详，则根据作者生活的大致年号等进行推算。由此，所有的图书大致按照撰述年代排序。另外，每一种书都有简单的内容简介，以方便学者了解其大致内容。

阅读界面采用图文对照的方式，提高文本内容的可靠性与可用性。文本的质量目前有粗校、精校两种。粗校主要是指文本较为准确，但是标点与实体的识别都是通过机器自动识别，还未经人工校对。精校则是文字、标点、实体（若有的话）均经过人工的认真校对。除了图文对照的功能之外，还有三级目录的显示，同时还支持隐藏注文、繁简转换等功能。具体电脑端的阅读页面如（图三）所示。移动端的阅读界面也已经上线，适合手机端、平板端的阅读。

（图三：识典古籍阅读平台的内容阅读页面）

与阅读平台进行无缝衔接的是背后的整理平台。可以将阅读平台中粗校的数据推送在整理平台上进行精加工。具体加工的内容包括但不限于：文字的校对、标题的识别与校对、分段、标点的校对、实体的校对等。同时该平台还支持元数据的修改，古籍图像的OCR与文字校对、文本对勘等。所有这些整理都尝试充分利用计算机技术的优点，在计算机辅助下进行加工与整理，最大程度地减轻整理者的工作量。相关页面如（图四）所示。

（图四：识典古籍整理平台任务列表页面）

2 面向古籍的可视化分析系统

深度学习技术在大量数据的支持下，可以帮助传统的古籍整理减轻很多大量繁复的劳动。但是传统的学术研究领域又与知识之间的关联密切相关，目前深度学习技术在此方面无能为力。因此，在这一方面，北京大学团队重点利用知识图谱能相关技术，同时借助相关的可视化技术予以呈现。

2.1 “宋元学案”知识图谱系统

在中国古代思想史上，宋元时期的儒家思想非常活跃，涌现出诸如周敦颐、二程、杨时、朱熹、陆九渊、吕祖谦等一大批思想家。传统人文学者要理清楚其中错综复杂而又异彩纷呈的学术史脉络，往往要借助黄宗羲及其后学编修的《宋元学案》一书。然而，这可是一部一百多卷，240万字的大书，即使对于传统人文学者来说也颇为浩繁，需要很长的时间才能将其翻阅一过。至于其中所记录的超过二千多名宋元理学学者、近100个学术流派，更是让人一时难以理清头绪。

北京大学团队利用大约一年时间建构了《宋元学案》知识图谱可视化系统。[18]将《宋元学案》中所涉及的人物、时间、地点、著作等提取出来，并借助其他如CBDB、CHGIS等结构化数据，构造成《宋元学案》知识图谱。提供关系图谱、学术流变、师承关系、学派传承等遥读功能，从宏观上纵览整个学术史演化脉络和完整师承网络。同时也可以按照人物、地点、时间、著作、官职等进行传统细读。但此种细读也有传统线性阅读的方式有很大不同，是一种按照按照人物、时间、著作、官职等多维度重组的阅读方式。本系统通过提供可视化展现、交互式浏览、语义化查询等功能，用户不仅可以纵观宋元两朝学术史的衍化脉络和师承关系网络，而且还可以选择感兴趣的人物、地点、事件或者学说来汇聚相关的资料，阅读其学说的精华片段，而且还可以探索不同人物之间的潜在关系。[19]

（图五：《宋元学案》知识图谱对各学案关系的可视化展示）

2.2 古籍目录的数据集成与可视化

中国古代有丰富的目录学著作，最具代表性的无疑是各种官修史志目录，此外还有丰富的各类目录著作。根据这些目录，可以考察图书在古代的存佚情况，考察图书的演变情况，也可以考察各类史志类目之间的演变情况。比如，姚名达《中国目录学史》中专门用表格讨论到《七略》、《七录》、《隋书·经籍志》、《古今书录》、《新唐书·艺文志》、《崇文总目》、《郡斋读书志》、《遂初堂书目》、《直斋书录解题》、《文献通考·经籍考》、《宋史·艺文志》、《明史·艺文志》、《四库全书总目》共十三种书目的分类对应表。[20]

为了直观分析历代类目与书籍的演变情况，北京大学团队打造了“中国历代典籍目录分析系统”，[21]这是一套对中国历代典籍目录之间类书与书目之间关系的可视化分析系统。该系统对于历朝史志目录、《四库全书总目》、《中国古籍总目》等九种代表性官修目录的数据进行标准化处理与书目认同，并利用可视化手段对各目录之间的关系进行呈现。利用该系统，学者可以方便地对各目录进行检索，直观地查看各目录中书目的分布情况以及各类目的具体收书情况，同时查看与分析目录子类中所收录的具体典籍分类演变情况。[22]

（图六：历代目录的部类的大致分布统计）

2.3 朱熹年谱可视化系统

历史人物年谱的信息，本身与相关年谱人物、历史时间有着密切的联系，但同时又与事件地点、历史事件、人物交游、个人撰述等有着密切关联。传统的年谱写作，一般按照人物生平的年代线索展开，是一种系年的线性结构。但是系年的方法虽具有其编年体得优势，但与地点有关的信息则较为分散。

北京大学团队有鉴于此，以浙江大学束景南教授所著《朱熹年谱长编》为数据源，以时空为基础架构，设计了朱熹年谱的可视化系统。[23]该系统将人、时、地等多因素的系统化分析研究，以地理信息为线索，对朱熹年谱设计的人物、地点、事件等进行重新组织。该系统本身是一个可交互的查询系统。可以根据事件类别、人物、地点，在加上时间维度的筛选，获取相关的信息。根据实际内容，该系统对具体的事件进行了为学、为政、写作、生活、其他等五大类十四小类的定义。在人物关系中则定义了亲属关系、学术关系（含师生关系、学术交往、学术主题相近、文学艺术交往等子关系）、朋友关系、政治关系（含笼统的政治关系、官场关系、政治奥援、荐举保任、政治对抗等）、著述关系（含记咏文字、墓志文字、序跋文字、礼仪文字、传记文字、论说文字、箴铭文字、书札文字、应酬文字）以及其他关系。地点则可以按照行政区划按照路、府、县等进行交叉选择。在地图中，不仅可以展现出相关条件约束下的朱熹年谱中与朱熹相关的人物以及相关行迹路线。借助该系统，可以生动、直观地展示朱熹的人生经历和思想演化，在此基础上探索分析朱熹生平信息之间可能存在的相关关系。[24]

（图七：朱熹年谱可视化系统）

3 面向古籍的专题性研究

利用可视化技术以及其他统计分析手段，我们可以从宏观角度对学术史进行分析比较，也可以考察某部经典在历史上的影响，也可以借助一定的算法对相关人文问题进行量化分析。北京大学团队开展众多数字人文的相关研究，以下择要对其中三个专题性研究进行简要介绍。

3.1 学案体文献的儒家学术史可视化分析

传统的学术史的写作，主要采用学案体的形式。学案体按照小的学派或人物进行分类，每个人物介绍其相关学术传承与渊源，同时简述每个人物的学说特色，对主要人物的代表学说进行摘录。在传统的学案体著作中，最重要的无疑是所谓“四朝学案”，分别是：黄宗羲及其后学所著的《宋元学案》、黄宗羲本人所著的《明儒学案》，以及近代学者徐世昌主持编纂的《清儒学案》。这些著作代表着传统学术视角下宋元明清四朝的学术史。

北京大学团队在《宋元学案》知识图谱研究的基础上，利用学案体文献的体例特征，对学术关系做统计、分类和绘图，实现对儒学师承、家学渊源、流派和交游等多维学术关系的可视化呈现，描绘学术史的整体特征，对四朝学案进行对比分析。通过从三个层面展开分析：宏观层面，对学案文本中的人物及关系数量予以统计描述以了解学术背景概貌；中观层面，对学案传承、学术源流进行可视化；微观层面，通过“先驱→同辈→后继”这一关系序列构建学术传承网络，以发现学案中的“学派”。[25]比如，从宏观角度看，宋元、明代、清代学术的传承的不同，从可视化的角度印证了学者对三个时期学术脉络的直觉印象。如（图八）所代表的明代学派传承、（图九）所代表的清代学派传承与（图五）所代表的宋元时期学派传承有着明显的不同。

（图八：《明儒学案》的学派传承图）

（图九：《清儒学案》的学派传承图）

3.2 《论语》的文本复用计量研究

古代典籍常有袭用前贤文字的现象，或逐字逐句直引原文，或以相近之意异文复用。踵武前贤的文本复用行为使得先贤的思想观念在后世传播演化、历久弥新。然而许多文献在复用前贤文字时并未直接标明因袭的出处，因此人文学者以往是通过逐句排比对读的方法来研究文本之间的复用关系。

北京大学团队选取《中国学术名著提要·哲学卷》中上始先秦下迄晚清的136本儒学经典书目作为论语复用检索的参考语料集合，采用近似最长公共子串匹配方法自动识别和提取后世文献中与《论语》表述相近、取意相同的复用文本，并从篇目、章节和短语三个由粗到精的文本粒度对平行文本进行计量统计。结合既有的史学研究问题与观点，观察《论语》在中国儒家经典中被广泛复用的思想主题，及不同类型文献对复用内容的侧重；观察《论语》二十篇文本及其思想主题在不同历史阶段的复用频次变化，进而探析不同社会背景下思想内容受关注程度的演变，以及不同历史时期论语在中国哲学体系中的地位变迁。[26]比如，如（图十）所示，统计《论语》在后世文献中高频复用的短语，可见“一以贯之”、“克己复礼”、“性与天道”等思想格外受到后世的重视。

（图十：《论语》在后世中高频复用短语统计）

3.3 《史记》《汉书》的比较研究

司马迁《史记》和班固《汉书》是正史当中的前两部，也是最为重要的两部纪传体著作。有意思的是，这两部纪传体著作在记述内容上有西汉开头一段内容是相同的。这就为后世学者研究司马迁、班固撰史方面的异同留下了丰富的素材。历史上将该问题称为“班马异同”问题。在古代，对两部正史异同问题主要依靠基于直觉的宏观讨论。近代以来，学者借助现代学术方法，也包括统计方法对其中的相似内容进行了种种比较分析。但是由于《史记》《汉书》都不是一个小部头的著作，人力的统计与分析显然有一些限制。

北京大学团队通过对字、词、命名实体、段落等的多粒度、多角度分析，对于《史》《汉》进行了比较研究，取得了可喜的成果。主要成果有二：一是，使用一种融入命名实体作为外部特征的文本相似度算法对于《史记》《汉书》的异文进行自动发现，成功识别出过去研究者通过人工手段没有发现的袭用段落，使得我们对于《史记》《汉书》的承袭关系形成更加完整和立体的认识。二是，通过计算异文段落之间的最长公共子序列来自动得出两段异文之间存在的差异，从宏观统计上证明了《汉书》文字风格《史记》的差别，并从微观上进一步对二者语言特点进行了阐释，为理解《史记》《汉书》异文特点提供了新的角度和启发。[27]这个研究成果切实地推进了传统的人文领域的研究成果，并且用量化的方法证实了传统人文的直觉判断。比如，如十一所示，《汉书》在写作的过程中，在《史记》的文字基础上，更倾向于对“之”“为”“而”“其”“以”“于”“者”“也”等非实体性词汇进行删削，体现出《汉书》文字更加精炼的特色。

（图十一：《汉书》相比《史记》异文删除次数最高的十个字的加字与减字数量，纵轴为加字与减字的频数）

4 结语

北京大学团队在王军教授的带领下，近年来将面向古籍整理与研究作为数字人文研究的重点方向，应用深度学习、知识图谱、文本挖掘、地理信息系统、可视化等技术重构中国历代典籍，打造数字人文研究平台，展开数字人文的相关研究工作。将最新的人工智能有关技术运用在最为古老的传统典籍，在新旧之间碰撞出火花，使得传统古代典籍在新的信息环境下焕发新的光辉。从总体上来说，目前的代表性工作主要有以下三个方面：

第一，在对古籍文本进行各种标注的基础上，全方面推进古籍领域的人工智能处理技术。在人机协作的工作方式指引下，开展古籍OCR、自动标点、词性标注、命名实体识别、实体销歧、实体链接等工作，同时搭建平台对古籍相关数据进行标注与加工。

第二，利用知识图谱等技术，建立古籍中实体之间的关联，利用可视化技术手段，对古籍中蕴藏的知识进行挖掘，同时建设相关可视化系统，为相关的研究问题提供可交互的分析工具。

第三，利用人工智能技术、可视化等手段，针对具体的人文问题进行具体而微的分析，旨在深化传统人文的研究问题，拓展传统人文的研究视域。

[1]与古籍自然语言处理技术有关的技术综述参见：苏祺，胡韧奋，诸雨辰等：《古籍数字化关键技术评述》，《数字人文研究》，2021年第1期。有古籍有关的更全面但简介的综述参见：刘忠宝，赵文娟：《古籍信息处理回顾与展望》，《大学图书馆学报》2021年第6期。

[2]对古籍的OCR探索很早，据说北京书同文公司在数字化《四库全书》时就已经开始探索。有学者甚至提出直接建立基于OCR的动态的古籍文本库的思路：Sturgeon D., “Unsupervised extraction of training data for pre-modern Chinese OCR”, The Thirtieth International Flairs Conference. 2017. Sturgeon D., Chinese Text Project: a dynamic digital library of premodern Chinese. Digital Scholarship in the Humanities, Vol. 36, Supplement 1, 2021, p. i101–i112.

[3]胡书凯：《基于深度学习的古籍文本识别》，硕士学位论文，北京大学，2020年；颜苏卿：《一种高精度古文光学字符识别系统》，硕士学位论文，北京大学，2021年。

[4]Devlin J, Chang M W, Lee K, et al., “Bert: Pre-training of deep bidirectional transformers for language understanding”. arXiv preprint arXiv:1810.04805, 2018.

[5]俞敬松，魏一，张永伟：《基于BERT的古文断句研究与应用》，《中文信息学报》2019年第11期。魏一：《古汉语自动句读与分词研究》，硕士学位论文，北京大学，2020年。

[6]唐雪梅，苏祺，王军，陈雨航，杨浩：《基于预训练语言模型的繁体古文句读研究》，《中文信息学报》2022年（已接收）。

[7]王东波，刘畅，朱子赫等：《SikuBERT与SikuRoBERTa：面向数字人文的〈四库全书〉预训练模型构建及应用研究》，《图书馆论坛》2022年第6期。

[8]Yan, C., Su, Q., & Wang, J., “MoGCN: Mixture of gated convolutional neural network for named entity recognition of Chinese historical texts”. IEEE Access, 2020, 8, 181629-181639.

[9]Yan, C., Wang, J., “Exploiting Hybrid Subword Information for Chinese Historical Named Entity Recognition”, In Proceedings of 6th Special Session on Intelligent Data Mining, IEEE International Conference on Big Data, 2020.

[10]俞敬松，魏一，张永伟等：《基于非参数贝叶斯模型和深度学习的古文分词研究》，《中文信息学报》2020年第6期。

[11]Xuemei Tang, Jun Wang, Qi Su., “That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation with Switch-memory”. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics(ACL). 2022.

[12]https://fanyi.baidu.com/

[13]https://cn.bing.com/translator/

[14]https://translate.volcengine.com/translate

[15]http://wyd.pkudh.xyz/

[16]该平台由北京大学数字人文中心设计与开发。张楚悦：《面向资源库生成的古籍标注平台设计与研究》，硕士学位论文，北京大学，2022年。（正在答辩）

[17]https://shidianguji.com/

[18]https://syxa.pkudh.org/

[19]Jun Wang, Xiaoyu Li, Enhua Bian, Linxu Wang, Shuran Liu, Nuo Chen.“A Visualization-Assisted Reading System for a Neo-Confucian Canon”. Digital Humanities Conference, 2020.

[20]姚名达：《中国目录学史》，上海古籍出版社，2011年。

[21]https://bib.pkudh.org/

[22]李文琦，王凤翔，孙显斌等：《历代史志目录的数据集成与可视化》，《中国图书馆学报》2022年（已接收）。

[23]https://nianpu.pkudh.org/

[24]位通,桑宇辰,史睿：《基于知识重构的年谱时空可视化呈现——以〈朱熹年谱长编〉为例》，《中国图书馆学报》2022年第2期。Tong Wei, Yuchen Sang, Shufen Chen, Letian Wang, Rui Wang, Jun Wang, Qi Huang, Jun Wang, “WebGIS approach of entity-oriented search to visualize historical and cultural events”, Digital Scholarship in the Humanities, 2022.

[25]王林旭，杨浩，王军：《基于学案体文献的儒家学术史可视化分析与呈现》，《中国图书馆学报》2022年（已接收）。

[26]李佳纯，杨浩，苏祺，王军：《论语在儒家典籍中的文本复用计量研究》，第三届中国数字人文大会，南京，2021。

[27]邓泽琨，杨浩，王军：《数字人文视角下的〈史记〉〈汉书〉比较研究》，第二十一届中国计算语言学大会(CCL 2022)，2022。

杨浩

杨浩

今日新闻

推荐新闻