Python小说文本挖掘正则表达式分析案例

您所在的位置:网站首页 python可视化分析案例 Python小说文本挖掘正则表达式分析案例

Python小说文本挖掘正则表达式分析案例

2023-03-22 09:22| 来源: 网络整理| 查看: 265

原文链接:http://tecdat.cn/?p=5673 约瑟夫·海勒的《第二十二条军规》是我最喜欢的小说。我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。 数据集

该文有大约175,000个单词,分为42章。我在网上找到了这本书的原始文本版本并开始工作。

我使用正则表达式和简单字符串匹配的组合在Python中解析文本。

我shiny在R中以交互方式可视化这些数据集。

地中海旅行

94019cc654dd22d594fe1da00ef98b40.png

这种可视化映射了整本书中提到的地中海周围位置的提及。 

人物形象

9be175c720419df8f797816746b81f29.png

该图基本上代表了书中提到不同字符的时间序列。 

我将数据绘制为标准散点图,章节为x轴(因为它与时间相似),字符为离散y轴,垂直条为标记。

人物关系

30d2322b6023e0dbf64a80982facdec7.png

用于构建此可视化的数据与前一个中使用的数据完全相同,但需要进行大量转换才能将其转换为可表示这些模式的形式。 

聚类为此图添加了另一个维度。在整本书上应用分层聚类方案,以尝试在角色中找到社区。再次,使用章节(1表示现在,0表示不存在)和42维欧几里德距离用于使用完整链接AGNES算法对字符进行聚类。对不同聚类方案和距离测量的树状图进行人工检查发现,这是最“水平”,因为更频繁出现的角色占主导地位的方案最少。这是六个簇的树形图:

ce70772e30f35e3a734e5160742d2cb0.png

当用户选择通过聚类对图进行着色时,用于共享相同聚类的字符的共同位置的单元用唯一颜色填充,而显示来自不同社区的字符的共同位置的那些单元用灰色阴影。应该注意,聚类是在整个文本上执行的,而不是由应用程序的用户放大的章节。我觉得动态改变聚类会让人分心。

字母或频率排序将群集“爆炸”成无法识别的空间,但按群集排序会将它们带入紧密的社区,让观众也可以看到群集之间的某些交互。

我对共同位置的编码和应用于每个单元的阴影的映射肯定会引起争论,而其他聚类方法导致找到非常不同的社区。也就是说,从定性上讲,我花了很多时间用我自己的文本知识来评估结果,发现当前的实现比我测试的任何其他实现更令人满意。

我发现书中的每个主角在某些时候与几乎所有其他角色互动都非常有趣。我不会期望这么多重叠。与Les Mis相比,情节更加密集,我怀疑这是由于聚集的章节数量的10倍差异。

特色词

fd3d82260cefcb9762e44a9ab4b02375.png

这个图可能是四个图中最常规的图,但可能显示了对文本的很多见解。

我可以选择为此可视化选择堆叠条形图或堆积区域图。我喜欢堆积区域图更好地显示单词突出的连续章节,但是承认当章节之间存在高度可变性时,三角形形式会扭曲关系。

结论

我在这个过程中学到了很多东西,无论是在使用方面,还是在shiny本身方面。

点击标题查阅往期内容

sas文本挖掘案例:如何使用SAS计算Word Mover的距离

R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘

主题模型及文本情感分析疫情新闻数据

R语言对NASA元数据进行文本挖掘的主题建模分析

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

Python使用神经网络进行简单文本分类

python使用MongoDB,Seaborn和Matplotlib文本分析和可视化API数据

用于NLP的Python:使用Keras进行深度学习文本生成 

更多内容,请点击左下角“阅读原文”查看

b9e8254c360a531917f8e00afa4e3c9a.gif

5ab8b0469a59c7c5caa910ff346d74a1.png

0cd8893cf73738fb9c97b4dc09669f2f.jpeg

关注我们

案例精选、技术干货 第一时间与您分享

1f049ae040f3dc054967a15714a4ae6a.jpeg

长按二维码加关注

更多内容,请点击左下角“阅读原文”查看

8e88ca6ffeb845700e782596bcce4b90.gif



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3