手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

2024-04-28 06:36| 来源: 网络整理| 查看: 265

前言

前几天星耀群有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题，如下图所示。

他要构建语料库，目前通过Python网络爬虫抓到的数据存在一个csv文件里边，现在要把数据放进txt里，表示不会，然后还有后面的词云可视化，分词，语义分析等，都不太会。

关于词云的文章，历史文章已经写了十几篇了，感兴趣的话可以在公众号历史文章搜索关键字“词云”前往，但是关于分词和语义分析的文章，就分享过一篇，这个我在读研的时候写的，虽然有些时日，但是内容依旧精彩，欢迎前往查探：Python大佬分析了15万歌词，告诉你民谣歌手们到底在唱什么。

一、思路

内容稍微有点多，大体思路如下，先将csv中的文本取出，之后使用停用词做分词处理，再做词云图，之后做情感分析。

1、将csv文件中的文本逐行取出，存新的txt文件，这里运行代码《读取csv文件中文本并存txt文档.py》进行实现，得到文件《职位表述文本.txt》

2、运行代码《使用停用词获取最后的文本内容.py》，得到使用停用词获取最后的文本内容，生成文件《职位表述文本分词后_outputs.txt》

3、运行代码《指定txt词云图.py》，可以得到词云图；

4、运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》，得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件，将《分词结果.txt》中的统计值可以去除，生成《情感分析用词.txt》，给第五步情感分析做准备

5、运行代码《情感分析.py》，得到情感分析的统计值，取平均值可以大致确认情感是正还是负。

关于

【本文地址】

今日新闻