python的jieba库和词云图 |
您所在的位置:网站首页 › python中词云collocations起什么作用 › python的jieba库和词云图 |
1.安装第三方库 首先要实现中文分词和词云图,先要安装jieba库和wordcloud库,安装截图为jupyter notebook 安装的截图。 指令为: pip install wordcloud安装完成截图: 安装完成截图: 运行结果如下: 接下来我们对网络下载的小说《天龙八部》进行中文分词,源代码如下: import pandas as pd import os character = open('D:\\Python\\天龙八部人物表.txt',encoding='utf-8').read() import re data = re.split(r'\s+|:|,',character) data = pd.DataFrame(data,columns =['姓名']) data['词性'] = 'nr' data.to_excel('D:\\Python\\天龙八部人物分词.xlsx',index = False,header = None) #添加自定义词库 import jieba #jieba.enable_parallel(4) #并行分词不支持windows系统 jieba.load_userdict('D:\\Python\\天龙八部人物词典.txt') stopwords = [line.rstrip() for line in open('D:\\Python\\停用词表.txt',encoding = 'utf-8')] def seg_sentence(sentence): sentence_seged = jieba.cut(sentence.strip()) outstr = '' for word in sentence_seged: if word not in stopwords: if word != '\t': outstr+=word outstr+='' return outstr inputs = open('D:\\Python\\天龙八部.txt','r',encoding='GB18030') outputs = open('D:\\Python\\天龙八部分词.txt','w',encoding = 'utf-8') for line in inputs: line_seg =seg_sentence(line) outputs.write(line_seg+'\n') outputs.close() inputs.close()运行结果: (2)指定词性,提取关键词,并打印出TF-IDF方法计算出的权重最大的前10人物。 import jieba.analyse n= 100 指定关键词数量 result = jieba.analyse.extract_tags(text,topK = n,withWeight = True,allowPOS=('nr',)) result[:10] #打印前10个人物运行结果: 注意:有的同学可能找不见设置字体的文件,simsun.ttc文件到底在哪了,我们一起找一下: 运行结果: |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |