自然语言处理之 snownlp,分词、词性标注、情感分析、文本分类、提取关键词、文本相似度

您所在的位置:网站首页 中文词性标注的方法是什么 自然语言处理之 snownlp,分词、词性标注、情感分析、文本分类、提取关键词、文本相似度

自然语言处理之 snownlp,分词、词性标注、情感分析、文本分类、提取关键词、文本相似度

2024-07-10 17:17| 来源: 网络整理| 查看: 265

情感分析的基本流程通常包括:

自定义爬虫抓取文本信息; 使用Jieba工具进行中文分词、词性标注; 定义情感词典提取每行文本的情感词; 通过情感词构建情感矩阵,并计算情感分数; 结果评估,包括将情感分数置于0.5到-0.5之间,并可视化显示。 SnowNLP

SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、Jieba、BosonNLP等。注意SnowNLP处理的是unicode编码,所以使用时请自行decode成unicode。

Snownlp主要功能包括:

中文分词(算法是Character-Based Generative Model) 词性标注(原理是TnT、3-gram 隐马) 情感分析 文本分类(原理是朴素贝叶斯) 转换拼音、繁体转简体 提取文本关键词(原理是TextRank) 提取摘要(原理是TextRank)、分割句子 文本相似(原理是BM25)

安装和其他库一样,使用pip安装即可。

pip install snownlp 1、snownlp 常见功能及用法: # -*- coding: utf-8 -*- from snownlp import SnowNLP s = SnowNLP(u"这本书质量真不太好!") print("1、中文分词:\n",s.words) """ 中文分词: 这 本书 质量 真 不 太 好 ! """ print("2、词性标注:\n",s.tags) print("3、情感倾向分数:\n",s.sentiments) """ 情感分数: 0.420002029202 """ print("4、转换拼音:\n",s.pinyin) print("5、输出前4个关键词:\n",s.keyw


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3