Python 分析样例|文本整理案例:《全唐诗》文本整理

您所在的位置:网站首页 5个字的唐诗三百首 Python 分析样例|文本整理案例:《全唐诗》文本整理

Python 分析样例|文本整理案例:《全唐诗》文本整理

2024-07-10 22:48| 来源: 网络整理| 查看: 265

在整理《全唐诗》的文本之前,我们首先需要完成以下两个步骤:

确定需求了解文本

在完成以上步骤后,我们开始实际着手整理文本,在整理的过程中大体上也包含两个流程:

文本解析结果输出

全唐诗文本语料在“全唐诗.txt”文件中,请参考语料阅读以下内容。

确定需求

我们计划将《全唐诗》中的每一首诗的各种信息分别提取出来,并转存为csv的形式。根据对文本的初步了解,我们发现我们需要提取的信息(即绝大部分诗文都包含的共性信息)包括:

诗文的所属的卷编号(后简称卷编号)诗文的在当前卷中的序号(后简称诗编号)诗文的标题诗文的作者诗文的内容

虽然有的诗并没有作者(例如卷899_19),但是在整体结构设计的时候不用考虑它们。

了解文本

在了解文本的过程中,主要围绕需要提取的信息的形式;通过了解文本,我们基本上得到可以解析大部分文本内容的规律性方法。

卷25_7【杂曲歌辞·侠客行】 李白 赵客缦胡缨,吴钩霜雪明。银鞍照白马,飒沓如流星。 十步杀一人,千里不留行。事了拂衣去,深藏身与名。 闲过信陵饮,脱剑膝前横。将炙啖朱亥,持觞劝侯嬴。 三杯吐然诺,五岳倒为轻。眼花耳热后,意气素霓生。 救赵挥金槌,邯郸先震惊。千秋二壮士,烜赫大梁城。 纵死侠骨香,不惭世上英。谁能书阁下,白首太玄经。 卷106_7 【送金城公主适西蕃应制】郑愔 下嫁戎庭远,和亲汉礼优。笳声出虏塞,箫曲背秦楼。 贵主悲黄鹤,征人怨紫骝。皇情眷亿兆,割念俯怀柔。主

首先,通过了解我们发现每首诗的形式,都类似以上的形式。以一个标题行开始,标题行中基本上都包括卷编号和诗编号(卷[0-9]+_[0-9]+)和标题(【[^】]+】)两部分,有的时候也会包含作者名。因此,我们可以以标题行为标志,一旦发现标题行,就认为一首诗的内容已经结束,下一首诗的内容即将开始(即完成一首诗的整理)。

接着,通过仔细观察,我们发现标题行、诗文中偶尔会有多余的空格(包括半角或全角)出现,在诗文末尾还会有校注者知古斋主的标注。因此,对每一行我们需要进行初步的清洗,包括移除空格、换行符和校注者的标注((?



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3