爱数科案例

2023-04-12 08:25| 来源: 网络整理| 查看: 265

爱数科（iDataScience）平台是一款数据科学科研和教学一体化平台，集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。使用拖拽式工具在线运行本案例请登录 http://www.idatascience.cn

该案例选取中文外卖评论数据集，该数据集包括外卖订单的评论以及每条评论对应的情感，0表示消极情感，1表示积极情感。对评论进行分词、去停用词等数据清洗操作，用TF-IDF算法构建词向量。使用逻辑回归算法训练评论情绪识别模型。最后把评论的情感真实值和预测值进行对比，用混淆矩阵对预测效果进行可视化。

1. 读取中文外卖评论数据集

中文外卖评论数据集包含两列数据，其中review列为评论文本，label列标签列，0表示消极情感，1表示积极情感，共包含11987条评论，其中消极评论7987条，积极评论 4000条。数据集中的部分评论数据如下表所示。

2.缺失值检测查看数据集是否存在缺失数据。

结果显示该数据集不存在缺失数据。

3.重复值检测

查看是否存在重复行。

结果显示该数据集不存在重复行。

4.情感数量柱状图

用柱状图对评论的情感值进行可视化。

发现该数据集存在数据不均衡情况，消极情感的样本有近8000条，积极情感的样本有近4000条。

5.数据随机抽样

为了加快模型训练速度，我们使用无放回抽样的方法从11987条样本中随机抽取2000条数据。

6.评论文本分词

对评论文本进行分词。

7.加载哈工大停用词表

加载哈工大停用词表。

8.评论文本去除停用词

去除停用词，并查看去停用词后的效果。发现标点符号和”的“、”吧“等无意义的词语都被去除了。

9.TF-IDF

用TF-IDF算法对词语进行向量化，此时选择的词向量维度为200。

10.训练/测试集划分

采用分层抽样的方法，分层列设置为label，以4：1的比例划分训练集和测试集。

11.逻辑回归情感分类模型

构建逻辑回归分类器，因为该数据集存在数据不均衡情况，所以将类别权重参数设置为Balanced。

12.逻辑回归模型预测

使用训练好的逻辑回归分类器对测试集数据进行预测，得到预测结果label_predict。

13.逻辑回归分类模型评估

进行模型评估，得到分类报告、混淆矩阵和ROC曲线。

分类准确率达到0.83，精确率为0.81，召回率0.82，F1值为0.81。ROC_AUC(ROC曲线下的面积) 为0.9。

总结

该案例对评论进行分词、去停用词等数据清洗，用TF-IDF算法构建词向量。利用逻辑回归分类器训练对数居进行训练，发现逻辑回归分类器的分类效果较好。总体的准确率达到0.83，精确率为0.81，召回率0.82，F1值为0.81。ROC_AUC (ROC曲线下的面积) 为0.9。

爱数科（iDataScience）平台是一款数据科学科研和教学一体化平台，集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 http://www.idatascience.cn

【本文地址】

爱数科案例

爱数科案例

今日新闻

推荐新闻