python统计三国高频词,画条形图,绘词云图

您所在的位置:网站首页 pyplot模块中绘制条形图 python统计三国高频词,画条形图,绘词云图

python统计三国高频词,画条形图,绘词云图

#python统计三国高频词,画条形图,绘词云图| 来源: 网络整理| 查看: 265

文章目录 前言思路代码效果总结

前言

记录一次期末作业,要求: 1、统计三国演义(下卷)前十的高频词,含出现次数。 2、根据上题结果,绘制高频词出现次数的条形图。 3、生成三国演义(下卷)词云图

思路

1.open打开读取整篇文档 2.使用split()方法找到关键字,分开上下卷 3.使用jieba进行中文分词 4.使用Counter统计词频并将前10个高频词使用append添加到列表 5.使用matplotlib模块中的plt函数绘制条形图 6.使用WordCloud模块用刚才保存的高频词列表生成词云图

代码 import jieba from collections import Counter from wordcloud import WordCloud # 导入词云图生成模块 import matplotlib.pyplot as plt # 导入绘图模块 plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为SimHei w = [] # 搞个列表,用来放排名前10的词汇 # 读取文本文件 with open('三国.txt', 'r', encoding='utf-8') as f: # 打开文本文件,以utf-8编码方式读取,并赋值给变量f book = f.read() # 读取文件内容,并赋值给变量text text = book.split('三国演义 下卷')[1] # 找到关键字分开上下卷,赋值给text # 使用jieba进行中文分词 words = jieba.cut(text) # 过滤掉长度小于2的词 filtered_words = [word for word in words if len(word) > 1] # 统计词频并输出前10个高频词 counter = Counter(filtered_words) top10 = counter.most_common(10) for word, count in top10: print(f'{word}: {count}') w.append(word) # 把统计的词添加到列表 # 绘制条形图 x = [word for word, count in top10] # 将top10列表中每个元素的第一个元素(即词语)赋值给列表x y = [count for word, count in top10] # 将top10列表中每个元素的第二个元素(即出现次数)赋值给列表y plt.bar(x, y) # 绘制条形图,其中x轴为词语,y轴为出现次数 plt.title('三国演义(下卷)前十的高频词') # 设置图表标题 plt.xlabel('高频词') # 设置x轴标签 plt.ylabel('出现次数') # 设置y轴标签 plt.show() # 显示图表 # 生成词云图 wordcloud = WordCloud(width=800, height=600, background_color='white', font_path='C:\\Windows\\Fonts\\STSONG.TTF').generate((' '.join(w))) # 使用WordCloud方法,生成词云图,并赋值给变量wordcloud;其中width和height分别指定词云图的宽度和高度,background_color指定背景颜色,font_path指定字体文件路径,' '.join(wo)将w列表中的元素用空格连接成一个字符串 plt.imshow(wordcloud, interpolation='bilinear') # 显示词云图 plt.axis('off') # 隐藏坐标轴 plt.show() # 显示图表 效果

在这里插入图片描述 在这里插入图片描述

在这里插入图片描述

总结

中间遇到了三个问题:

是分词,最开始不知道该怎么分,想着去掉所有的标点符号,直接统计字数出现的频率。是条形图标题出现中文乱码,通过百度得到了在绘图时指定支持中文字符集的字体,例如SimHei、Microsoft YaHei等。具体的方法是在绘图代码中添加以下两行代码: import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为SimHei plt.rcParams['axes.unicode_minus'] = False # 解决负号'-'显示为方块的问题 词云图乱码,这个找了好久,最后得到结果:WordCloud库默认使用的是英文字体,如果要在生成词云图时使用中文字体,需要通过设置字体参数来解决中文乱码问题。可以使用 font_path 参数来指定中文字体的路径,在 Windows 操作系统中,字体文件通常存储在以下文件夹中: C:\Windows\Fonts


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3