自然语言处理与古代文学研究

您所在的位置：网站首页 › 大数据已成为自然科学不可或缺的工具或研究平台 › 自然语言处理与古代文学研究

自然语言处理与古代文学研究

2023-04-26 06:31| 来源: 网络整理| 查看: 265

摘要：数字人文近年来方兴未艾，诞生了一系列实用的数据库与工具平台，也形成了如E考据、社会网络分析、历史地理信息分析等各具代表性的研究方法。还有学者致力于丰富古籍数据的类型与规模，通过精细加工而让数据结构化，形成知识图谱，或者开发更直观的可视化工具。这些努力使数字人文日渐成为一个多学科共同支撑的“学科共同体”。数字人文的出现，也呼应了文学研究的范式转型。研究者越来越不满足于仅仅通过具有代表性的个案来解释整体的研究方法。

数字人文近年来方兴未艾，诞生了一系列实用的数据库与工具平台，也形成了如E考据、社会网络分析、历史地理信息分析等各具代表性的研究方法。还有学者致力于丰富古籍数据的类型与规模，通过精细加工而让数据结构化，形成知识图谱，或者开发更直观的可视化工具。这些努力使数字人文日渐成为一个多学科共同支撑的“学科共同体”。

数字人文的出现，也呼应了文学研究的范式转型。研究者越来越不满足于仅仅通过具有代表性的个案来解释整体的研究方法，而期待在中观甚至宏观的视野下探寻事物之间的联系，计算机处理大数据的能力也就吸引了学者的目光。不过，围绕着如何平衡统计计算与文本阐释、如何保持人文研究的自由精神与情感温度、技术的升级是否能够有效解决人文学科的问题等等，学界也一直存在讨论。本文结合具体案例，从工具与方法两个层面，探讨数字人文中的自然语言处理技术对于中国古代文学研究的助益作用(自然语言处理主要指让计算机处理及运用人类的自然语言，包括对自然语言的认知、理解与生成等方面，是人工智能和语言学领域的分支学科),同时审视技术应用过程中的障碍，及其与人文研究的关系定位。

一作为工具的数字人文

对多数学者而言，数字人文是一种便捷的研究工具，譬如数据库可以快速检索信息，时空地图可以定位作家作品之关系等等。自然语言处理技术目前也在古籍整理领域提升着学者的工作效率。

从古籍到便于排版或数字化利用的文本，需要经过录入、标点、校对等过程，如果要加工为更便于学者使用的结构化数据或知识图谱，还须对文本进行精加工，标注其中的时间、地点、人物、书名等专名信息。对于大型古籍整理项目来说，消耗的人力、物力、时间成本都是巨大的。因此，不少机构都致力于开发打通古籍数字化整理的工具及平台，其中最成熟的是浙江大学徐永明团队的“智慧古籍平台”。该平台与多家单位合作，集合了OCR、自动标点、专名标注等功能，并通过平台招募志愿者参与校勘，实现了古籍数字化整理的“一条龙”服务，在准确率上也有不俗的表现。北师大胡韧奋团队的“古诗文断句v3.1”,在自动标点与专名识别任务上的人工接受率也分别达到了90%和87%,基本可以满足古籍整理者的初步需求。对于一些较有迷惑性的句子，自动标点也能做出不错的效果。比如“此即昔人所谓东坡诗如大家妇女大踏步走出山谷便不免花面丫头屏角窥人扭捏作态之意”一句中的“山谷”很容易与上句“大踏步走出”相连，形成动宾关系。然而“山谷”是黄庭坚的号，须与下句“便不免花面丫头”相连成句，形成主谓关系。这处断句比较依赖背景知识，模型则准确判断了“山谷”的断句。

之所以能实现较高的准确率，主要得益于“深度学习”算法的突破。2018年，谷歌公司发布了预训练语言模型BERT,极大提升了计算机捕捉词语句法知识的能力。其原理来自Harris的语言学假说——上下文相近的词有着相近的含义。计算机通过学习每个词语上下文的语境信息，就可以捕捉到关于语义与句法的语言知识，从而完成一系列复杂的加工运算。在古文领域，研究者首先根据现有的数字化文本(如《四库全书》等),通过完形填空和预测句子是否相邻两个任务来训练BERT语言模型，使计算机能捕捉到词语和句子级别的语言知识。获得了预训练语言模型后，就可以把输入的句子表示为融合了词语位置信息的“语境向量”。该向量可以反映句子的语义和句法信息，进而出色地完成标点、专名识别、词性标注、文本排序、相似度识别等后续任务。目前，有研究者正尝试运用基于语境向量的语言模型，处理竹简的排序与判断错简等问题。在方法上也是将已经排序、整理好的简牍文本作为训练语料，让计算机学习词语的上下文以及句子的前后顺序，再以未排序的文本作为测试语料，检测模型能否准确预测竹简的顺序，希望以此辅助出土文献的整理与研究工作。

在文献整理的基础上，还需要对文本中的典故加以注释，形成考证性的研究。以往的注释依赖大量的文献积累与细致的文本比对，十分考验研究者的阅读量和记忆力，需要投入较大的时间或人力成本。数字文献的逐渐普及，则在一定程度上为研究者提供了便利，比如基于数据检索的E考据等等。然而，数据库与全文检索便于查考词汇相对固定的事典，却难以定位句子形态丰富的语典。通过字符串匹配来筛选文本时，只能选择部分关键词，而古人在化用典故时常常师其意而不师其辞，加之词义衍生等语言现象，全文检索总是匹配到大量无关信息，同时又难免遗漏一些有价值的信息。比如何景明《津市打鱼歌》中“鲇鲂收百万”“楚姬玉手挥霜刀，雪花错落金盘高”等句都在模仿杜甫《观打鱼歌》中的“鲂鱼色胜银”“饔子左右挥霜刀，脍飞金盘白雪高”等句。但是以上三个句对中都只有两三个相同的字，字符串匹配的方法就很难准确定位到杜甫的诗句。“搜韵网”在《津市打鱼歌》的“相似句子”页面中就未显示杜甫的诗句，与“雪花错落金盘高”高度相似的句子反而是“雪花错落马行空”,可是这两句无论在语义还是语境上都大不相同，而这正是不少学者质疑数字人文研究有效性的理由之一。

技术的发展正让基于语义特征的文本比对成为可能。上述基于深度学习的预训练语言模型由于对文本进行了精细的语境信息编码，可以更准确地识别出文本的语义特征，从而克服以往依靠字符匹配检索时遇到的障碍。清华大学孙茂松团队发布的BERT-CCPoem就是基于古诗词语料训练的语言模型，它可以将任意诗句表示为语境向量，从而完成相似度计算、聚类等后续任务。应用BERT-CCPoem可算出“鲇鲂”“楚姬”“雪花”三句诗与相应杜诗的相似度分别高达0.89、0.85、0.89,而且“雪花错落金盘高”与“脍飞金盘白雪高”的相似度(0.89)要高于与“雪花错落马行空”的相似度(0.87)。可见BERT模型能够在语义层面准确地识别出相似诗句，而这就为注释语典提供了方便。

相似句的提取还有助于产生新的学术增长点。在书籍史、阅读史的研究中，作者、读者、传媒等多重主体的知识结构、阅读经验、传播网络等因素，都可以通过文学文本中的辑录、引用或化用前代典籍的情况来综合判断。牛津大学与澳大利亚国立大学的研究团队就运用相似句抽取的方法，从“18世纪作品在线”(ECCO)的二十多万种文本中抽取了四百万段“共享段落”,考察18世纪“引经据典”的文化如何向原创性与自主性的文化转移，分析其传播网络的建立、国家与语言分布、启蒙与反启蒙话语体系的运作规律等问题。类似的思路亦可应用于中国古代文学研究中。比如明清诗文具有文本量大而经典化程度低、创作与批评的复古倾向等特点。这使得经典的文学研究范式未必完全适用于明清诗文研究，因为多数作品不够“经典”,甚至多有雷同。然而，从书籍阅读、知识建构与文化传播等角度切入，却有可能利用明清文学文献量庞大的特点，在辑录、引用、化用等文本现象中，分析作家的知识结构、作品的传播接受、文学流派的发展演变等问题，进而探寻明清文学与商业出版、精英文化与大众文化等的互动关系。在这个意义上，数字人文的未来应当是大有可为的。

二作为方法的数字人文

对人文学者而言，仅有一些现成的数字人文工具是不够的。一些看似好用的工具，比如词频统计、词云可视化等，由于开发时并未针对具体研究对象的特点而设计，往往对深入剖析文本特征的帮助不大。比如有人算出唐诗、宋词的高频词为“何处”“人间”“不知”等，其实无助于诗词研究的细化。数字人文的深度发展，必须充分考虑人文学者的需求，将人文研究的经验融入数学建模的实施过程，使数字人文成为一种能体现研究者个性的研究方法。

作为方法的数字人文有不同的分支，比如历史地理信息技术对应历史学的方法，社会网络分析对应社会学的方法，它们侧重文学的外部研究；而自然语言处理技术更接近于语言学的方法，侧重文学的内部研究。由于不同学者对文本细读的角度与需求不同，在应用时就需要摆脱对既有工具的依赖，让更多与文本相关的因素被计算机学习与测量，同时尽量用简单而有效的建模过程代替硬件算力的比拼。由于BERT等深度学习模型对计算机硬件的要求较高，训练语言模型的耗时也比较长，所以现阶段应用自然语言处理技术开展数字人文研究时，往往采用“机器学习”来实现。其原理也是先用训练数据训练模型，之后用模型来预测、分析测试数据。机器学习的数学建模过程相对简单，对计算量的要求更低，但是为了达到更好的效果，机器学习模型更依赖人工对模型算法的参数、特征以及训练数据等进行反复调试，而这一过程正是研究者参与文本分析的过程。

应用自然语言处理方法研究文学问题，起步较早、同时也最知名的是对《红楼梦》前八十回与后四十回在语言风格上的对比研究，类似的实验至今还在进行。研究者在计算机的辅助下，挖掘各种可量化的文本特征，比如高频词、低频词、虚词、双音节词等词汇信息，句子、小句、四言句、对仗句等句子信息，还包括字向量等涉及语义的特征。应用不同算法建构数学模型，就可以对两部分文本的语言特征加以量化计算，从而判断文本的相似程度。虽然从结论上看，这些实验无非证明了两部分文本的语言风格不同，但是其价值在于用一个经典的问题来验证不同算法、文本特征在风格计算时的可行性。而各种行之有效的算法与特征归纳，则可以在人文学者的专业背景下催生出更多课题。仅就小说而言，包括《儒林外史》在内的不少章回小说中都存在部分章回是否为原作的争议。通过计算语言学方法对这些段落的语言风格进行定量分析，想必也有助于类似辨伪问题的厘清。

与直接使用已开发好的数字人文工具相比，作为方法的数字人文对研究者的编程能力提出了更高要求，因为各种特征计算、模型建构及其调试过程都需要代码来实现。这提高了研究门槛，却也带来了更为立体的研究视角。研究者在掌握了编程语言后，就可以从不同层面对文本的整体与局部面貌加以动态审视。以对早期文体演变的研究为例，李绅等从《全上古三代秦汉三国六朝文》中抽取了汉代至六朝的文章，之后筛选出篇目在五十篇以上的二十七种文体作为观察对象。通过文体分类任务测试不同文本特征及算法在识别文体上的有效性，最终确定以高频词、低频词、双音节词、句长、对仗句等二十三个特征为测量对象，并运用支持向量机(SVM)算法对文本进行表征和计算。之后就可以从整个时代、具体文体、局部篇目等不同层次来考察早期文体的演进现象(李绅、诸雨辰、胡韧奋《中国古代文体相似度的计量研究》,“第三届中国数字人文大会”会议论文，2021年，PANEL8)。

从宏观的时代层面看，西汉至东汉(二十种文体的相似度均值为0.54)、东汉至三国(二十种文体的相似度均值为0.57)、三国至两晋(二十三种文体的相似度均值为0.66),各时代之间文体相似度均值较高，文风变化较小；晋至南朝(二十八种文体的相似度均值为0.29)与晋至北朝(二十二种文体的相似度均值为0.40)的组间相似度均值较低，可见此时确实发生了文体的变化，且南朝的变化更显著，这与文学史对南北朝文学的描述相一致。具体到各种文体，箴(0.82)、诔(0.79)、赋(0.77)、骚赋(0.73)、议(0.71)、问对(0.65)、赞(0.63)、奏疏(0.56)、铭(0.55)在各个时代分组之间的相似度均值较高，其承继性高于变体性；而教(-0.08)、令(-0.02)、书(0.04)、表(0.08)、策(0.31)、诏(0.33)等的相似度均值较低，其变体性高于承继性。可见韵文与奏议类实用性公文的变化较小，而宣诏类仪式性公文的变化较大。再聚焦到单一文体，比如书体文在汉代至晋代一直比较稳定(相似度在0.66至0.82),至南朝发生剧变(相似度为-0.46),考察不同时代与书体文最接近的文体，会发现南朝以前，书体文都与议、奏疏、问对等“臣僚敷奏”式的公文很接近，而南朝与书体文最相似的却是序(0.74)、碑(0.74)、论(0.73),其功能转而接近“朋旧往复”的书信，文体功能在此时开始分化。

运用自然语言处理方法比对文本的相似度时，计算机不仅能算出最终结果，还能输出不同文本特征对相似度的贡献程度。这既让研究者看到了文本比对的标准，同时也有助于在微观层面发现文本形态变化的具体表现。仍以书体文为例，其在南朝的变化主要体现在词汇量、低频字比例、对仗句密度、句子破碎度、句长标准差的增加，以及双音节词、八言句、九言句的占比减少，这些特征的变化说明书体文从公文转向书信后，词汇层面上更古奥；句子层面上则表现为一句之内的小句数增加，且更加整齐凝练。而南朝奏议的句子破碎度、句长标准差、小句长标准差等指标，相对于前朝则没有明显变化。书体文的特征变化鲜明地显示出文体在脱离了“上书”语境后，词汇的古奥与句式的骈俪特点。在这个意义上，文学史上争论已久的“文学自觉”说确有一定道理，因为南朝文人已经有意识地在区分对公、对君写作与对私、对臣写作时不同的表达方式了，而对这种表达方式的细致描述，正是数字人文的长项。

机器学习借由对文本特征的描述建立了数学模型，并根据不同研究对象的具体特征进行反复调试，这就可以在很大程度上解决技术工具与文本对象不契合的问题。而调适后的模型可以帮助学者从宏观与微观等不同层面上观察文本，从而更加细致地描述文本在风格与写法上的变化。在这个意义上，自然语言处理技术兼备了对文本的“远读”把握能力与“细读”分析能力，成为一种类似结构主义的文本分析方法。

三数字人文的困境与定位

数字人文尚属人文研究中的新生事物，不免带有各种局限，自然语言处理的方法也不例外。

首先是数据层面，存在着文本数据量不足和校勘质量参差不齐的问题。目前项目中大部分训练数据来自开源获取的《四库全书》、殆知阁、国学宝典等，其中很多是对大型丛书OCR转化的结果，未经校勘也没有句读，有时甚至会将注文混入正文。以文献学标准看，它们存在版本不精、真伪不辨等问题。一段时间以来，学者对数据库与全文检索的质疑也在于此，但至今仍未有特别好的解决办法。虽然自然语言处理技术的主要应用场景在于处理大数据的整体趋势与数据间的关联，并不试图在具体的文献考辨上越俎代庖，所以它在研究范式上具有一定容错率，受数据质量的影响相对小一些(参见郑永晓《加快“数字化”向“数据化”转变——“大数据”、“云计算”理论与古典文学研究》,《文学遗产》2014年第6期)。但是训练数据的讹误同样会影响模型的预测能力，比如北师大团队在研究自动标点时，就曾经因为训练数据中混入了一些只点了句号的文本，导致部分测试数据无法正确标点。所以绝大部分项目必须从清理、校对训练数据做起。此外，数字人文研究还可能遇到数据的代表性问题。Hoyt Long就反思了因“青空文库”的数据缺口而导致的数字人文研究者对日本现代文学描述的偏差(霍伊特·朗著，刘凯译《档案与样本——以日本青空文库和日本现代文学研究之关系为例》,《山东社会科学》2021年第11期)。因此，对古籍基础数据的建设恐怕仍是未来数字人文发展过程中不可或缺的一步。

其次，有时受限于硬件条件，尤其是服务器计算能力的限制，研究者不得不限制输入数据的规模，从而影响文本比对的范围。比如BERT-CCPoem模型虽然在2020年就已开源发布，但至今依然鲜见应用该模型来分析诗歌相似性的成熟案例。可能的原因之一是现阶段一般服务器难以加载并处理大规模的诗歌文本数据。尤其是细化到多位诗人在句子级别的相似度计算时，调用模型的次数会以指数级增加。该团队开发的应用工具“AI九歌中国古诗词类义句搜奇”也限于输入单一诗句后，与后台存储的数十万首诗来计算比对。所以现阶段，它是检索语典的好工具，但还难以实现普查式的相似度计算，必须由人文研究者基于经验或者经过多次分类筛选，审慎地选取文本比对的范围，这也造成了研究时的障碍。

再次，人文学者对数字人文更大的期待，或许是在利用算法实现对文本的“远读”之后，能够发现新问题。但就目前的研究现状看，量化统计的结果常常无法突破既有的文学史结论。尤其是文学研究往往更关注独特性，仅仅停留于抽象的“远读”,就容易陷入主流趋势的遮蔽中，难以发掘文学文本的特殊性。上述对文体的宏观量化研究如果仅停留在算出南朝文风丕变，那么就属于文学史常识。不少数字人文研究止步于算出某个数据或结论，或者训练出一个足以验证既有文学史规律的模型，其实是远远不够的。

在要求精确性的文本细读任务中，必须警惕原数据本身的缺陷；在处理大规模数据运算时，不能彻底交给算法；在项目实施时，不能仅满足于可行性验证的浅尝辄止：这些都是当前自然语言处理方法研究文学问题时难以圆满解决的问题。我们可以等待规模更完备、校勘更准确的数据资源，也可以等待算法的优化或者硬件的升级。但在此之前，数字人文还可以为我们带来什么呢?

关键是如何看待数字人文之于人文研究的定位。如果我们不把定量的数学模型视为研究问题的一揽子解决方案，而将其视为某种他者的视角，或许更能发挥模型的作用。国外学者已有一些探索。比如Hoyt Long和Richard Jean So对美国现代主义诗歌中改编自日本俳句的作品的研究(霍伊特·朗、苏真著，林懿译《文学模式识别：文本细读与机器学习之间的现代主义》,《山东社会科学》2016年第11期),他们没有止步于调试出一个能够准确识别英文俳句的模型，而是借助模型观察了那些被误判为英文俳句的其他诗歌的文体特征。由于模型是基于英文俳句的特征训练的，相当于它获得了判断“俳句性”特征的眼睛。那么分析那些被模型误判为俳句的其他诗歌，就可以发现美国现代诗歌中更多元的东方主义发展线索。又如他们训练了能识别英语意识流修辞特征的模型(Hoyt Long and Richard Jean So, Turbulent Flow: A Computational Model of World Literature, Modern Language Quarterly, 77:3, 2016),同样是在模型帮助下，发现了以往从未被认为与意识流相关的早期浪漫主义小说The Way Beyond中蕴含的意识流的修辞特征。进而在跨文化、跨语言的语料中，探索了意识流小说如何向全球扩散。在这些案例中，模型化身为敏锐的“机器读者”,读出了那些被文学史叙述所忽略的演化线索与经典文本。

对中国古代文学的探索亦可循此思路展开，比如早期文体演变的研究。多数情况下，同一文体在相邻时代的相似度高于隔代的相似度，且距离越远相似度越低。但是从模型计算的结果看，南朝论体文却出现了反常现象，其与西汉、东汉、三国、两晋论体文的相似度分别为0.32、0.26、0.20、0.13,显示出更强的复古倾向。此时模型就可以提供一个以西汉文为标准来审视南朝文的视角，看是谁在摹仿西汉文、偏爱摹仿哪些西汉文，从而分析论体文的复古是如何发生的?具体输出单篇南朝论与西汉论的相似度，发现最接近西汉论体风格的是刘峻《辩命论》、颜延之《又释何衡阳达性论》、何承天《报应问》《达性论》《安边论》几篇，而他们主要模仿的对象是《过秦论》《四子讲德论》《难蜀父老》与《非有先生论》。这些文章在题材、内容上并不相同，而在平均log字频、虚字比例、双音节词占比、四言句、五言句比例等语言形式与风格上高度相似，自然语言处理技术正有助于发现其中复古的语言现象。至于其原因则有待文学研究者进一步分析。

以此审视自然语言处理技术之于文学研究的关系定位，计算机为学者提供的只是一个针对特定研究对象的测量模型。这个模型可以放大地看全部文本的特征，也可聚焦特定范围内的文本，关键要看研究者如何运用。泛泛地测试技术而没有人机的互动，计算机就只能呈现出一些常识性结论。而人的介入则可以调整计算机的观察视角，经由机器学习、文本细读与文化研究的融合，在文学史的“主流”中发现那些未被注意的“湍流”。在这个意义上，与其说模型的优势是提供了一套对于文本的定量描述，不如说它提供了一种观察文本的视角：以何种文本作为训练集就意味着模型获得了那个时代的作者群体理解文学的视角；而应用这个模型处理测试集，就意味着在此视角下审视那些被测试的文本，而模型观测出的某些异常值可能比数据的主流趋势更有价值。这就像《红楼梦》中的“风月宝鉴”:正面去照可能平淡无奇，可是换一个视角，它却有可能照出文本源流中的某些特异点，发现新问题。

数字人文提供了一个蕴含着“可能性”的研究空间，当然也要求科学家与人文学者的深度配合。很难要求一个学者既饱读诗书又精通编程，也不可能指望由程序员一劳永逸地编写出包打天下的数字工具。那么是时候改变思路、拥抱合作性的工作了。数据科学家制造出这面风月宝鉴，并尽可能让它拥有更清晰、更准确的视野；而人文学者则凭借专业知识与经验寻找烛照文本的角度，发现特异点并给出解释。如此配合，数字人文终将发挥它的巨大潜力。

诸雨辰.自然语言处理与古代文学研究[J].文学遗产,2022,(06):13-18.

【本文地址】

自然语言处理与古代文学研究

自然语言处理与古代文学研究

今日新闻

推荐新闻