高职生NCRE成绩预测模型准确度比较与优化 |
您所在的位置:网站首页 › 决策树分类法 › 高职生NCRE成绩预测模型准确度比较与优化 |
·124· 智谋方略
高职生 NCRE 成绩预测模型准确度比较与优化 李冠利 (南京广播电视大学玄武分校,江苏南京 210016) 摘要: 利用 RapidMiner 数据挖掘技术,对学生成绩数据进行探究,建立不同的 NCRE 成绩预测模型。比较各模型预测准确度,对预测准确 度最高的模型进行优化,进一步提升成绩预测效能,并运用该模型对学生样本成绩数据进行预测,验证了该模型的预测准确性。 关键词: NCRE;成绩预测;RapidMiner;数据挖掘 中图分类号: G623.58 文献标识码: A 文章编号: 2096-4609(2019)17-0124-002 一、引言 计算机基础是高职校学生必修课程,计 算机基础应用技术也是高职学生必须具备的 一项技能。NCRE 考核成绩,在某种程度上 反映出计算机基础课程的教学效果和水平。 其考核通过率,作为检验教学效果和促进学 生提升计算机基础知识与应用能力的手段, 已得到学生和学校的广泛重视。由于学科间 存在着必然的联系, 我们利用学生成绩数据, 运用 RapidMiner 数据挖掘工具,建立 NCRE 成绩预测模型并实施有效的优化。希望该模 型的预测结果,可以为计算机基础课程教师 教学工作提供有效的帮助。 二、模型构建 RapidMiner 数据挖掘工具提供了经典 的分类算法,包括:决策树分类法,贝叶斯 分类算法,神经网络算法等。以上算法属于 监督学习,其任务是学习带标签(label) 的训练数据集, 从而预测任何有效的输入值, NCRE 成绩预测属于监督学习。我们依次按 照上述三个算法, 构建 NCRE 成绩预测模型。 成绩预测模型构建前,需要为模型构建 准备可信、有效、准确的数据,因此需要 学生成绩数据抽取、数据探索分析、数据 预处理等工作。这些工作前期研究已经完 成,本文就不再赘述。数据准备好后,导入 RapidMiner 工具, 进入模型建立流程。 首先, 通过 “Set Role” 设置 “计算机” 为 “Label” 标签, 调用 “Split Data” 分割数据操作符, 对学生成绩数据随机选取 20% 作为测试数 据,剩下的 80% 作为训练数据。然后,分别 调用 “Decision Tree” 决策树操作符、 “ Naive Bayes”贝叶斯操作符和“Neural Net”神 经网络操作符,连接“Apply Model”应用 模型操作符, 其中 20% 测试数据传给 “Apply Model” 应用模型。 最后, 连接 “Performance” 性能测试操作符验证模型的准确性。 三、模型评估 运行模型,对学生成绩数据进行挖掘, 决策树算法预测模型预测的 NCRE 准确度最 高 91.43%,贝叶斯算法预测模型准确度为 85.71%,神经网络算法预测模型准确度为 80.00%。其中,决策树模型中 NCRE 为不合 格的准确度为 88.89%,召回度为 80.00%, 为 合 格 的 准 确 度 为 92.31%, 召 回 度 为 96.00%1。可以看出,该模型对 NCRE 为合格 的预测准确度更高。 调用“Compare ROCs”操作符,在此操 作符中连接决策树、神经网络、贝叶斯三种 不同的预测模型,输出 ROC 曲线。ROC 曲线 图中 , 决策树(Decision Tree)模型曲线 积分面积最大。由于该曲线积分面积大小与 每种方法优劣密切相关,其值越接近 1 说明 该算法效果越好,因此可以判断该模型是三 者中预测效果最好的。 四、模型优化 为了进一步提高本例中决策树预测模型 的预测准确度, 除了可以通过调整模型参数, 达到提高预测模型预测能力外,我们还可以 通过最常用的 Bagging 和 Boosting 方法优 化模型。 Bagging 和 Boosting 都 是 将 已 有 的 分 类或回归算法通过一定方式组合起来,形成 一个性能更加强大的将弱分类器组装成强分 类器的方法。 Bagging 方法是从原始样本数据集中抽 取训练集,每轮从原始样本数据集中任意抽 取若干个训练数据样本,进行 n 轮抽取,得 到相应数量的训练集。每次使用一个训练集 得到一个模型,将得到的模型采用投票的方 法,找出分类最优模型。 Boosting 方 法 是 将 弱 分 类 算 法 作 为 图 1 贝叶斯模型预测结果与学生 NCRE |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |