爱数科案例

您所在的位置:网站首页 wwwidatasciencecn 爱数科案例

爱数科案例

2023-04-12 08:25| 来源: 网络整理| 查看: 265

爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。使用拖拽式工具在线运行本案例请登录 http://www.idatascience.cn

该案例选取中文外卖评论数据集,该数据集包括外卖订单的评论以及每条评论对应的情感,0表示消极情感,1表示积极情感。对评论进行分词、去停用词等数据清洗操作,用TF-IDF算法构建词向量。使用逻辑回归算法训练评论情绪识别模型。最后把评论的情感真实值和预测值进行对比,用混淆矩阵对预测效果进行可视化。

1. 读取中文外卖评论数据集

中文外卖评论数据集包含两列数据,其中review列为评论文本,label列标签列,0表示消极情感,1表示积极情感,共包含11987条评论,其中消极评论7987条,积极评论 4000条。数据集中的部分评论数据如下表所示。

2.缺失值检测查看数据集是否存在缺失数据。

结果显示该数据集不存在缺失数据。

3.重复值检测

查看是否存在重复行。

结果显示该数据集不存在重复行。

4.情感数量柱状图

用柱状图对评论的情感值进行可视化。

发现该数据集存在数据不均衡情况,消极情感的样本有近8000条,积极情感的样本有近4000条。

5.数据随机抽样

为了加快模型训练速度,我们使用无放回抽样的方法从11987条样本中随机抽取2000条数据。

6.评论文本分词

对评论文本进行分词。

7.加载哈工大停用词表

加载哈工大停用词表。

8.评论文本去除停用词

去除停用词,并查看去停用词后的效果。发现标点符号和”的“、”吧“等无意义的词语都被去除了。

9.TF-IDF

用TF-IDF算法对词语进行向量化,此时选择的词向量维度为200。

10.训练/测试集划分

采用分层抽样的方法,分层列设置为label,以4:1的比例划分训练集和测试集。

11.逻辑回归情感分类模型

构建逻辑回归分类器,因为该数据集存在数据不均衡情况,所以将类别权重参数设置为Balanced。

12.逻辑回归模型预测

使用训练好的逻辑回归分类器对测试集数据进行预测,得到预测结果label_predict。

13.逻辑回归分类模型评估

进行模型评估,得到分类报告、混淆矩阵和ROC曲线。

分类准确率达到0.83,精确率为0.81,召回率0.82,F1值为0.81。ROC_AUC(ROC曲线下的面积) 为0.9。

总结

该案例对评论进行分词、去停用词等数据清洗,用TF-IDF算法构建词向量。利用逻辑回归分类器训练对数居进行训练,发现逻辑回归分类器的分类效果较好。总体的准确率达到0.83,精确率为0.81,召回率0.82,F1值为0.81。ROC_AUC (ROC曲线下的面积) 为0.9。

爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 http://www.idatascience.cn


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3