R语言︱情感分析

2023-07-25 18:57| 来源: 网络整理| 查看: 265

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

笔者寄语：词典型情感分析对词典要求极高，词典中的词语需要人工去选择，但是这样的选择会很有目标以及针对性。本文代码大多来源于《数据挖掘之道》的情感分析章节。本书中还提到了监督算法式的情感分析，可见博客： R语言︱情感分析—基于监督算法R语言实现笔记。

可以与博客 R语言︱词典型情感分析文本操作技巧汇总（打标签、词典与数据匹配等）对着看。

词典型情感分析大致有以下几个步骤：

训练数据集、neg/pos情感词典、分词+数据清洗清洗（一、二、三级清洗步骤）、计算情感得分、模型评价

————————————————————————————————————————————

《数据挖掘之道》书中几点赠言：

（1）在分析过程中，难免会产生很多中间变量，它们会占用大量内存。书中提到通常会将所有的临时中间变量命名为temp，只需要保证下一个temp出现之前，临时变量不会再延用就可以了。

（2）毫无疑问，如果不追求高大上的算法的话，词典法不失为一种好方法，其实有时候我们使用了很多方法，结果发现并没有什么质变，也浪费了大量时间；

比如在优化词典的时候，我希望使用高大上的算法解决问题，自动分辨出情感词，结果浪费了大量的时间，尝试了卡方统计量、各种分类器等等，结果可想而知，最后还是使用人工的方法将词典优化了一遍，是的，是用肉眼。其实有时候看起来最笨的方法也许是现阶段最有效最合适最省事的方法，只是它看起来很low，这也许就是笨方法的高深之处，“聪明人”是不屑于使用这些方法的。

（3）仅仅使用词汇并不能非常准确的识别一条文本所表达的情感倾向。一些修辞手法例如反讽、欲扬先抑等等也会给基于词典的情感分析造成困难。

————————————————————————————————————————————————

一、训练数据集

文本作为非结构化数据，在构造训练集的时候，很少会发给你完整的数据集，可能需要批量读取txt字符，读取方式见：R语言︱词典型情感分析文本操作技巧汇总（打标签、词典与数据匹配等），第一节。

`read.csv`函数读取文件时，可能报警：“EOF within quoted string”，一般为数据中不正常的符号所致，常见的方法是将`quote = ""`设置为空，这样做虽然避免了警告，但是仍然解决不了问题，有时数据会对不上号，所以最好从符号上着手将一些特殊符号去除，还有一些文本的正则表达式的问题，可见博客： R语言︱文本（字符串）处理与正则表达式。

本文中导入的数据集是清华大学李军标注的近24000个酒店评论文本和谭松波整理的12000个来自京东、携程、当当网的跨行业评论文本。并给出了每个文本数据的评分。李军老师的数据是众多的txt文件的评论文本+用rlabelclass文件来存放文本标签，可以用read.table来调用。

其他的一些市面上的免费语料库可见博客：情感分析︱网络公开的免费文本语料训练数据集汇总

train

【本文地址】

R语言︱情感分析

R语言︱情感分析

今日新闻

推荐新闻