爱数科案例 |
您所在的位置:网站首页 › wwwidatasciencecn › 爱数科案例 |
爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。使用拖拽式工具在线运行本案例请登录 http://www.idatascience.cn 该案例选取中文外卖评论数据集,该数据集包括外卖订单的评论以及每条评论对应的情感,0表示消极情感,1表示积极情感。对评论进行分词、去停用词等数据清洗操作,用TF-IDF算法构建词向量。使用逻辑回归算法训练评论情绪识别模型。最后把评论的情感真实值和预测值进行对比,用混淆矩阵对预测效果进行可视化。 中文外卖评论数据集包含两列数据,其中review列为评论文本,label列标签列,0表示消极情感,1表示积极情感,共包含11987条评论,其中消极评论7987条,积极评论 4000条。数据集中的部分评论数据如下表所示。 结果显示该数据集不存在缺失数据。 3.重复值检测查看是否存在重复行。 结果显示该数据集不存在重复行。 4.情感数量柱状图用柱状图对评论的情感值进行可视化。 发现该数据集存在数据不均衡情况,消极情感的样本有近8000条,积极情感的样本有近4000条。 5.数据随机抽样为了加快模型训练速度,我们使用无放回抽样的方法从11987条样本中随机抽取2000条数据。 对评论文本进行分词。 加载哈工大停用词表。 去除停用词,并查看去停用词后的效果。发现标点符号和”的“、”吧“等无意义的词语都被去除了。 用TF-IDF算法对词语进行向量化,此时选择的词向量维度为200。 采用分层抽样的方法,分层列设置为label,以4:1的比例划分训练集和测试集。 构建逻辑回归分类器,因为该数据集存在数据不均衡情况,所以将类别权重参数设置为Balanced。 使用训练好的逻辑回归分类器对测试集数据进行预测,得到预测结果label_predict。 进行模型评估,得到分类报告、混淆矩阵和ROC曲线。 分类准确率达到0.83,精确率为0.81,召回率0.82,F1值为0.81。ROC_AUC(ROC曲线下的面积) 为0.9。 总结该案例对评论进行分词、去停用词等数据清洗,用TF-IDF算法构建词向量。利用逻辑回归分类器训练对数居进行训练,发现逻辑回归分类器的分类效果较好。总体的准确率达到0.83,精确率为0.81,召回率0.82,F1值为0.81。ROC_AUC (ROC曲线下的面积) 为0.9。 爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 http://www.idatascience.cn |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |