教育数据挖掘研究进展综述

您所在的位置:网站首页 数据挖掘的现状有哪些 教育数据挖掘研究进展综述

教育数据挖掘研究进展综述

2024-06-10 14:37| 来源: 网络整理| 查看: 265

数据挖掘技术可以从大量的数据中发现隐藏的模式与知识[1],目前已成功应用在生物、金融和电子商务等广泛的领域.近年来,在教育信息化、远程教育和Web 2.0等应用的带动下,教育数据挖掘(educational data mining,简称EDM)开始受到越来越多的研究者的关注[2].

教育数据挖掘技术综合应用教育学、计算机科学、心理学和统计学等多个学科的理论和技术来解决教育研究与教学实践中的问题.通过分析和挖掘教育相关的数据,EDM技术可以发现和解决教育中的各类问题,如辅助管理人员做出决策、帮助教师改进课程以及提高学生的学习效率等.教育问题的复杂性和多学科交叉的性质,使EDM在数据来源、数据特点、研究方法和应用目的等方面均表现出其独特性.

在过去几年中,教育领域和信息领域都发生了革命性的变化,在线学习系统、智能手机应用和社交网络为EDM研究提供了大量的应用和数据.以在线学习系统MOODLE[3]为例,截至2013年,已为全球超过6 000万名学生和老师提供服务[4].截至2012年6月,全球智能手机用户人数超过10亿人[5],社交媒体Facebook的用户数超过22亿人[6].大规模公开在线课程(massive open online courses,简称MOOCs)是近两年兴起的新型教学模式.截至2014年底,在MOOCs网站Coursera上注册的用户人数已超过1 000万[7].显然,EDM也正处于一个“大数据”的时代.这一特殊的背景,预示着EDM研究将在近几年内迅速发展.与以往的EDM综述性论文相比,本文的主要贡献如下:

(1) 从教育环境的角度对EDM研究进行分类介绍.以往的EDM综述性论文一般按技术或应用目的对研究成果进行分类,本文按教育环境进行分类,以体现了EDM“从教育中来,回到教育中去”的理念.

(2) 介绍了近两年的EDM研究进展.现有的EDM综述论文主要分析了2012年以前的研究成果,本文则以2013年~2014年的研究成果为主,使读者了解这一领域的最新研究进展.特别地,增加了对一些新型教育技术(如MOOCs和移动计算)的研究成果的介绍.以往的EDM综述性论文很少涉及这些内容,本文对其作了介绍和总结.

(3) 对EDM研究的现状及发展趋势作了分析与评价.本文对近年来EDM的重要研究案例进行了分类、统计和对比分析,对当前EDM研究的特点与不足进行了归纳,同时预测了该领域的研究趋势.

(4) 展望了大数据时代下EDM的研究前景.大数据技术对教育的发展有着深远的影响,最新的EDM研究也印证了这一趋势.本文对这一时代背景下EDM研究面临的挑战和机遇进行了分析和展望.

本文首先介绍EDM的基本知识和一般研究过程.之后,重点对EDM近年的研究成果作分类介绍.然后对这些研究成果作分析与评价.最后,对大数据时代下的EDM研究进行总结与展望.

1 EDM研究概述 1.1 EDM的特点

与EDM联系最紧密的学科分别是计算机科学、教育学和统计学,如图 1所示[8].从图中可以看到,这三大学科两两交叉分别产生了数据挖掘与机器学习(data mining and machine learning,简称DM&ML)、基于计算机的教育(computer-based education,简称CBE)以及学习分析(learning analytics,简称LA).通过与这3个领域的对比可以看出EDM的特点.

图 1(Fig.1) Fig.1 Main areas related to educational data mining[8] 图 1 EDM涉及的主要学科[8]

EDM与一般的DM&ML研究的主要区别在于其数据的教育学科特色,表现在以下几个方面:

$ \bullet $ 多学科:EDM数据通常涉及教育学、心理学和社会学的概念和技术,如教学目的、学习经验、教学评估、兴趣、动机、团队协作、人际关系和家庭背景等.对这一类数据,研究者既要能理解其概念,也要掌握测量和评价它们的技术.

$ \bullet $ 多层次:EDM数据的多层次特性来自于教育机构和教学材料的结构性,如学生可按学区、学校、院系和班级进行组织,而教学内容可按课程、章节、知识点和概念进行组织.

$ \bullet $ 多精度:EDM数据通常包含时间刻度,一项教学研究可能跨越几年甚至一生,也可能以毫秒的精度进行记录.这使研究者可按不同的时间精度分析数据.

$ \bullet $ 多情景:EDM数据的多情景特性来自于教育学科本身的特点.一个学生获得知识的经验与教学的时间、地点、教师和环境相关,也与学生自身的动机、能力和情绪相关,以上任意要素的改变可能会导致不同的学习经验.

$ \bullet $ 多语义:EDM数据的多语义特性来自于几个方面,如师生的行为存在多义性、师生使用的自然语言存在多义性、教育环境中的噪声数据或缺失的数据会带来歧义,甚至不同教育理论对同一数据的解释也会导致多义性.

EDM与一般CBE研究的主要区别在于应用目的的不同,后者的目标是辅助或替代传统的教学过程,而EDM则致力于实现传统教学缺少或难以完成的功能.表 1总结了不同角色使用EDM的目的.

表 1(Table 1) Table 1 Application purposes of EDM for different stakeholders表 1 不同角色使用EDM的目的 角色 使用EDM的目的 学生 了解自己的性格、兴趣、能力和学习风格 了解自己的学习效率、学习效果和学习进展 向其推荐课程、学习资源和学习策略 教师 了解教学的效率,改进教学材料 了解学生的个体和总体情况 预测学生的学习成绩 管理人员 了解教育机构的历史与现状 提供决策支持,改进管理制度,科学分配教育资源 对教师和课程进行评价 教育研究者 验证现有教育理论,发现新规律 为教育实验提供数据和论据 对教学材料、课程或教学系统进行评价 Table 1 Application purposes of EDM for different stakeholders表 1 不同角色使用EDM的目的

EDM与一般LA研究的主要区别在于采用的技术:后者多采用统计,而EDM多采用机器学习和数据挖掘技术.从另一角度来看,LA侧重于描述已发生的事件或其结果,而EDM侧重于发现新知识与新模型[8].

1.2 EDM的发展历程

EDM的发展大致可分为两个时期:

$ \bullet $ 第1个时期是20世纪80年代~20世纪末,研究者开始将数据挖掘技术用于教育领域,但研究方法比较简单,研究成果很少.受当时的技术水平的限制,这一时期的数据一般来自于调查问卷和信息管理软件,采用的数据挖掘技术主要是统计分析和关联规则算法.

$ \bullet $ 第2个时期则是从本世纪初至今,EDM的研究方法与研究成果快速发展.进入21世纪以来,互联网的普及引发了教育技术的变革,这一时期的EDM数据主要来自于开放和智能的在线学习系统,采用的数据挖掘技术更加多样化.2012年,美国教育部发布的蓝皮书《通过教育数据挖掘和学习分析促进教与学》标志着EDM已受到广泛关注[9].

国内的EDM研究起步较晚,与国外相比在研究广度和深度上均有较大的差距[10].近10年以来,国内对EDM的研究取得了一些进展[11, 12, 13],但总体上仍存在不足,主要体现在3个方面:一是创新性不强,研究成果多为对国外研究的评论、跟踪和改进;二是技术深度不够,研究成果多发表在教育类期刊而非技术类期刊;三是研究范围较窄,研究成果主要集中在智能导学系统[14]和个性化学习[15]两个领域.

近几年来,教育技术领域发生了巨大的变化:一是许多新型的信息技术开始用于教育领域并取得了巨大的成功,如增强现实、移动计算和云计算技术;二是一些相对成熟的信息技术同教育结合产生了新的教学形态,如基于游戏的学习、基于社交网络的教学以及MOOC等.这些新的教育技术和教学形态为EDM的研究提供了海量数据,而大数据技术又为分析和挖掘这些数据提供了支持.可以预见,在大数据时代背景下,EDM将更加成熟和繁荣;另一方面,随着我国对教育改革和大数据的日益重视,国内的EDM研究也将迎来新的转折点.

1.3 EDM的学术组织与成果总结

目前,与EDM最相关的两个国际学术组织分别是成立于2011年的Int’l Educational Data Mining Society (http://www.educationaldatamining.org)以及成立于2012年的IEEE Task Force of Educational Data Mining (http://datamining.it.uts.edu.au/edd).

与EDM相关的学术会议最早于20世纪80年代开始举办,目前已经有多个与EDM密切相关的会议(参见表 2).国际人工智能协会在2005年和2006年连续举办了两届EDM专业研讨会,即AAAI workshop on Educational Data Mining.自2008年开始,EDM的专业会议Int’l Conf. on Educational Data mining每年举办一次,截至2014年7月已经举办7届.刊登EDM研究成果的期刊数量更多,表 3列出了与EDM相关的部分知名期刊.

表 2(Table 2) Table 2 Related conferences about EDM表 2 EDM相关学术会议 会议名称 缩写 类型 首届年份 Int’l Conf. on Artificial Intelligence in Education AIED Biannual 1982 Int’l Conf. on Intelligence Tutoring Systems ITS Biannual 1988 Int’l Conf. on Educational Data mining EDM Annual 2008 Int’l Conf. on User Modeling, Adaption, and Personalization UMAP Annual 2009 Int’l Conf. on Learning Analytics and Knowledge LAK Annual 2011 Table 2 Related conferences about EDM表 2 EDM相关学术会议 表 3(Table 3) Table 3 Related journals about EDM表 3 EDM相关的期刊 期刊名称 缩写 ISSN号 影响因子(2013年) Journal of Engineering Education JEE 2168-9830 2.717 Computers & Education CAE 0360-1315 2.630 Expert System with Applications ESWA 0957-4174 1.965 IEEE Trans. on Learning Technologies TLE 1939-1382 1.22 Journal of Educational Data Mining JEDM 2157-2100 - Table 3 Related journals about EDM表 3 EDM相关的期刊

在EDM发展的各个时期,均有相应的综述性论文发表 [8, 16, 17, 18, 19, 20].例如,文献[19]对1995~2005年的EDM研究成果进行了总结;文献[17]重点剖析了2004年~2012年发表的9篇典型的EDM论文;文献[8]发表于2013年,对EDM的概况、技术和发展历程做了较全面的介绍.

除此之外,还可以通过两个途径更详细地了解EDM技术:一是2010年Romero等人编写的第一本关于EDM技术的专业书《Handbook of Educational Data Mining》[21],共有36章,详细阐述了EDM的概念、主要技术和典型案例;二是2014年Baker在MOOCs网站Coursera(https://www.coursera.org)上开设的课程《Big Data in Education》,讲授了EDM的基础知识和技术.

2 EDM的工作流程

图 2显示了EDM正常的工作流程.从数据挖掘的角度来看,处理流程包含了预处理、数据挖掘和评估3个阶段[22];从教育的角度来看,这是一个从教育环境产生的数据中发现知识,再利用这些知识来改善教育环境的循环过程.

图 2(Fig.2) Fig.2 Flow chart of EDM[23] 图 2 EDM流程图[23]

数据是EDM的研究素材.从教育环境中获取的数据通常具有多学科性、多情景和多语义等复杂特性,并且不同教育环境产生的数据也具有多样化的形态.例如,传统的教学方式产生的数据可能来自于手写的纸质文档,教务管理系统中的数据通常存储于结构化的关系数据库中,在线学习系统的数据可能记录在半结构化的日志文件中,而一些新型教育环境则涉及微博、音频和视频等非结构化数据.

知识则是EDM的研究结果.根据用途的不同,本文将EDM的知识分为以下3类:

$ \bullet $ 原理类知识,其目的是验证或修正现有的教育理论,如发现新的学习规律;

$ \bullet $ 实践类知识,其目的是帮助教师开展教学实践,如预测学生的期末成绩;

$ \bullet $ 优化类知识,其目的是改进学习系统的效果和性能,如提高系统的自适应能力.

从图 2可以看出,EDM的工作流程与一般的数据挖掘应用完全相同,均要经历预处理、数据挖掘和评估这3个阶段.教育环境在整个流程中既是起点也是终点,并且是EDM研究不同于普通数据挖掘应用的一个要素.下文首先对教育环境进行说明,然后分别介绍3个处理阶段.

2.1 教育环境

教育环境是开展教学和学习活动的场所或载体,它可以是传统的学校和教室、互联网上的远程教育系统,也可以是安装在智能手机上的教学软件,或者是微博、微信等社交媒体.教育环境不仅是EDM研究的数据来源,也是其最终要改进的目标对象,因而在EDM研究中占有重要的地位.本文将教育环境分为4类:

$ \bullet $ 传统教学环境,是指未采用或较少采用信息系统的教学环境,如中小学的教学课堂.

$ \bullet $ 封闭式教学环境,是指以封闭式信息系统为主的教学环境,如单机版的学习软件.

$ \bullet $ 开放式教学环境,是指以开放式信息系统为主的教学环境,如基于互联网的远程教学系统.

$ \bullet $ 新型教学环境,是指近年来在大数据时代的背景下涌现出的新型教学场所或载体的总称,如智能手机和MOOCs等.

本文的第3节将详细介绍不同教育环境下的EDM研究成果.

2.2 预处理

数据挖掘算法处理的数据通常是符合一定标准的、规范的数据.而原始数据可能有多个来源,或者包含有噪音、缺失的和不一致的数据,数据挖掘算法很难直接使用这些数据.预处理,即是将原始数据转换为符合数据挖掘要求的数据格式的过程.由于数据的质量直接影响着数据挖掘的结果,预处理在数据挖掘中占有重要的地位.预处理主要包括:数据清理(data cleaning),其目标是消除数据中的噪声;数据集成(data integration),其目标是对多个数据源的数据进行合并;数据归约(data reduction),其目标是减少原数据的大小,从而提高数据挖掘的效率;数据变换(data transformation),其目标是将数值转换成数据挖掘算法需要的形式[24].

由于教育数据的复杂性,预处理通常是EDM研究中工作量最繁重的阶段.一些资深专家的经验表明:在EDM项目中,数据搜集和预处理阶段需要的人力资源往往是最多的[9].

2.3 数据挖掘

数据挖掘的目的是从数据中建立模型,主要包括预测模型(predictive model)和描述模型(descriptive model)两类.其中,预测模型通过已知的数据去预测未知的数据[25],而描述模型则通过分析数据发现新的模式或结构[26].这两类模型常见的数据挖掘方法包括:

$ \bullet $ 分类,其目的在于为数据对象指定一个类别,例如判断学生的性格类型.常见的分类算法有决策树[27, 28]、贝叶斯理论[29]和人工神经网络[30]等.

$ \bullet $ 回归,其目的在于为数据对象赋予一个数值,例如预测学生的GPA成绩.常用的是线性回归[31]和逻辑回归[32]等.

$ \bullet $ 聚类,其目的在于将相似的数据对象归为同一类别,例如将知识点相近的试题放入同一目录下.与分类不同的是,聚类要划分的类别是未知的.常见的聚类算法有k-means[33]等.

$ \bullet $ 关联规则挖掘,其目的在于发现数据对象之间的关联或关系,例如发现学生同时选修的课程.常见的关联规则挖掘算法有Apriori算法[34]、散列[35]、事务压缩[36]和FP-树频集算法[37]等.

其他方法还包括文本挖掘、马尔可夫模型、序列模式挖掘和推荐算法等.

2.4 评 估

实验数据通常会被分为3个部分,即训练集,用以训练模型;验证集,用以选出最优模型;测试集,用以评价模型的性能.

常见的评估分类器性能的度量有:准确率(accuracy),即全部样本中被正确识别的百分比;召回率(recall),即真实的正样本中被正确识别的百分比;精度(precision),即识别为正样本中真实的正样本所占的百分比.除了这些评估指标之外,还有一些其他指标,如F-score,Kappa,AUC等.而多类别分类器、回归、聚类和关联规划一般采用其他评估指标,受篇幅所限,在此不做描述,感兴趣者可参考文献[24].

3 EDM的最新研究进展

教学环境不仅是EDM研究的起点和终点,也决定了数据特征和教学形态.最原始的教学环境即师生间的面对面交流,它仍是当前最主要的教学环境之一.计算机技术和通信技术引发了教育变革,产生了基于计算机的教学模式.这是一种全新的教学环境,也为各种新型教学环境的出现奠定了基础.互联网和人工智能技术在教育中的应用则创造了更加开放和智能的教学环境,它不仅增强了学生间的交流互动,也产生了更丰富的教学数据.以上几种教学环境都是依次产生和逐渐发展的,但在过去几年中,一批新型的教学环境在短时间内集中出现并呈现爆发式的增长.这也成为大数据时代背景下的教学环境的一个显著特点.

本节将介绍不同教学环境下EDM研究的最新进展,对每一种教学环境,将讨论1~2个典型的研究案例,并列出多个有代表性的研究成果,包括其数据来源、研究方法和EDM应用类型等内容.其中,数据来源指产生数据的系统或包含数据的记录集,研究方法是指研究采用的数据挖掘技术,而应用类型则是对EDM应用场景的分类.主要的EDM应用类型如下:

$ \bullet $ 可视化(visualization,简称VS)将信息或知识作形象化地展示.在EDM中,可视化技术能够帮助人们更加直观地理解教育数据,如用户在线论坛数据[38]、在线评估过程中产生的数据[39]、教师和学生之间的互动[40]、考试成绩[41]或者学生团体活动的相关数据[42]等.

$ \bullet $ 学生建模(student modeling,简称SM)通过对学生的行为、动机和学习策略等方面建立模型来揭示其学习特征.在EDM中,采用了贝叶斯网 [43, 44, 45, 46, 47]、序列模式挖掘 [48, 49, 50]、关联规则[51, 52]和逻辑回归[53]等方法对学生特点和学习行为进行自动建模[54].

$ \bullet $ 学生表现预测(predicting student performance,简称PSP)通过现有数据预测学生未来的学习表现,是EDM最早也是最流行的应用之一[55],例如根据学习记录预测学生的最终分数[56]或者学术表现[57].

$ \bullet $ 推荐系统(recommender system,简称RS)可以根据学生的特点向其推荐课程、学习资料或学习方法,例如根据学生的学习情况推荐合适的学习材料[58].

$ \bullet $ 自适应系统(adaptive system,简称AS)可以根据学生建模的结果做自适应变化的学习系统.

3.1 传统教学环境

传统教学环境,主要指师生之间面对面交流的课堂教学环境.EDM对传统教学环境的研究在早期较为流行,通常采用机器学习或统计学技术对传统教育研究方法(如访谈、观察记录等)收集的数据进行分析.表 4列出了几个属于传统教学环境的研究案例,研究数据分别来自学生成绩记录、课堂观察记录和调查问卷.由于这类数据通常以纸质文档的形式存放,在应用数据挖掘技术前,需要对原始数据进行编码、录入和格式化等预处理.

表 4(Table 4) Table 4 Related researches about traditional educational environment表 4 传统教学环境相关的研究 文献编号 数据来源 主要方法 论文要点 发表时间 学生类型 应用类型 文献[59] 对学生课堂行为的观察 决策树和回归树算法 发现教学形式与学生上课分心之间的关系 2013 小学生 SM 文献[60] 调查问卷 机器学习算法 发现视觉检测(visualinspection)的性别差异 2013 成年人 SM 文献[61] 学生CET 4和CET 6的成绩以及他们的GPA分数 可视化技术、关联规则、决策树算法和聚类算法 对学生CET 4,CET6和GPA成绩关系的可视化 2009 研究生 VS Table 4 Related researches about traditional educational environment表 4 传统教学环境相关的研究

尽管传统教学环境已有几千年的历史,但它仍然是校园教学的主流.因此,近年来不断有少量的研究成果出现.例如,Godwin等人观察了22个班级小学生的课堂表现,并运用回归树算法对记录数据进行分析[59].研究结果表明,学生在课堂上“开小差”的原因分别是同学间的互相干扰(占45%)、个人注意力分散(占18%)和环境干扰(占16%).该研究说明,EDM技术可以使我们对一些经典的课堂现象有更深的理解.

3.2 封闭式教学环境

封闭式教学系统主要包括单机学习系统和基于C/S结构的信息管理系统.这类系统一般仅供内部学生和工作人员使用,且学生之间没有互动和交流.近年来,EDM对封闭式教学环境的研究成果较少,表 5列出了有代表性的几篇论文.这些论文的研究数据来自于教学管理信息系统和学习管理系统,其研究目的是利用数据挖掘技术,帮助学生更有效地学习或者为教育管理者提供决策支持.

表 5(Table 5) Table 5 Related researches about closed educational environment表 5 封闭式教学环境相关的研究 文献编号 数据来源 主要方法 论文要点 发表时间 学生类型 应用类型 文献[27] 某高等教育信息系统 决策树算法 发现影响学生课程成绩的要素 2014 大学生 PSP 文献[32] 土耳其中等教育 过渡系统 分类,决策树, 回归算法 预测学生的分班考试成绩 2012 大学生 PSP 文献[62] 学生在学习系统中的记录及其个人信息 决策树算法 根据学生特点向其推荐课程内容的学习顺序 2009 大学生 RS Table 5 Related researches about closed educational environment表 5 封闭式教学环境相关的研究

封闭式教学系统经过多年运行后积累了大量数据,由于缺乏技术支持,这些数据未能得到及时的整理和分析,往往是凌乱和繁杂的.对于教育机构而言,这些数据就像未开发的“金矿”,经挖掘后可以产生较大的价值.例如,文献[27]对106名本科生的课程成绩进行了分析,以期通过学生的个人信息(如性别、年龄和是否全日制等)及其在各教学环节中的得分来预测该课程的最终等级.研究结果表明,采用决策树算法可以实现较高的预测准确率.该研究还发现,学生在教学活动中的表现及其笔试成绩是影响课程最终成绩的关键因素.文献[32]则是从土耳其中等教育过渡系统中抽取了5 000名8年级学生的数据(包括学生前一年的成绩和奖学金情况等),采用多种数据挖掘算法来预测学生的入学分班成绩.其中,逻辑回归模型的预测精度为82%;人工神经网络和支持向量机分别为89%和91%;而C5决策树的预测精度最高,达到95%.研究结果表明:借助数据挖掘技术,学校可以不开展大规模测试而对学生直接分班,从而节省教育资源.

3.3 开放式教学环境

20世纪末,互联网的快速发展推动了网络技术在教育中的应用,远程教育课程开始流行并取得了较大的成功.本世纪初,一类新型网络教学环境开始兴起,它们一般基于Web技术,并采用了某种程度的人工智能技术.与封闭式的教学环境相比,它们的最大特点是开放性,允许学生之间互相交流和协作学习.我们把这类教学环境统称为开放式教学环境,其中,最典型的代表是智能导学系统(intelligent tutoring system,简称ITS)和计算机支持的协作学习(computer-supported collaborative learning,简称CSCL).

ITS是一种智能的学习系统,提供学生交流的机会,并能提供给老师管理和记录学习情况等功能;同时, ITS记录的数据十分丰富,包括学生的登录日志、论坛发言、作业和教学资源等,因此成为EDM研究最常见的数据来源之一.表 6列出近年来基于ITS的一些研究成果.这些ITS系统中既包括时下流行的开源系统,如MOODLE, ASSISTMent等,也有一些仅在小范围使用的智能学习系统.

表 6(Table 6) Table 6 Related EDM researches about ITS表 6 ITS相关的EDM研究 文献编号 数据来源 主要方法 论文要点 发表时间 学生类型 应用类型 文献[4] MOODLE 神经网络和支持向量机 预测学生是否能完成在线课程 2014 大学生 PSP 文献[63] 学生在线课程记录及其GPA 二元逻辑回归算法 预测学生能否完成在线课程 2014 大学生 PSP 文献[64] 一个智能导学系统 离散马尔可夫模型,K-means聚类算法和逻辑回归分析 分析学生求助策略与学业成绩间的关系 2014 大学生 SM 文献[31] ASSISTMent 逻辑回归和贝叶斯知识追踪 预测学生能否考上大学 2013 大学生 PSP 文献[58] MOODLE 聚类算法和关联规则挖掘 向学生推荐课程 2013 - RS 文献[65] 一个电子学习系统 关联规则挖掘算法 自动化地构建概念图(concept map) 2013 - AS 文献[66] 学生的在线问答及对话记录 数据挖掘和文本挖掘 发现学生提问与成绩之间的关系 2013 大学生 SM 文献[67] 学生在线课程的参与情况 分类和聚类 根据学生使用论坛的情况预测学生的成绩 2013 大学生 PSP 文献[68] 一个智能导学系统 线性回归模型 预测学生是否出现沮丧情绪 2013 小学生 PSP 文献[69] 学习者对学习资源的评级 协同过滤和基因算法 向学生推荐学习资源 2013 - RS 文献[30] 学生的英语在线课程学习记录及其个人信息 神经网络 根据学生的特点决定学习材料的难度 2011 大学生 AS Table 6 Related EDM researches about ITS表 6 ITS相关的EDM研究

近几年对ITS的研究主要集中在对学生的表现和行为进行建模,如,文献[66]使用文本挖掘技术对138门在线课程中的问答和聊天记录进行分析,揭示了学生提问的次数与最终成绩之间的关系;Lara等人则通过MOODLE上课程的历史学生数据建立了参考模型,利用该模型,可以预测某一个学生是否能够顺利完成课程[4]. ITS系统同时也朝着自动化和自适应的方向发展,通过对学生的目标、偏好和知识等进行建模后,个性化地适应每个学生的学习方式.如,Wang等人设计并实现了一个自适应的英语学习系统[30].该系统使用5名英语教学专家提供的样本对BP神经网络进行训练.正式运行时,系统可根据学生的性别、性格和学习焦虑程度向其推荐不同难度等级的词汇、语法和阅读材料.实验结果表明,采用自适应学习系统的学生成绩要明显优于对照组.Aher等人对学生在MOODLE上的课程学习记录进行聚类和关联规划分析,然后向学生推荐合适的课程[58].例如,当学生完成《操作系统》课程后,向其推荐《分布式系统》课程.研究发现,结合K-means与Apriori算法推荐的课程与学生选课的历史数据最吻合.这些研究说明:数据挖掘技术使我们在辅导大量学生时,依然可以实现“因材施教”这一教学目标.

CSCL是指团队成员在网络和软件的支持下,通过对话和联合行动共同完成学习任务的形式.表 7列出了近年来对CSCL的部分研究成果.这些研究对不同在线学习平台的数据进行了分析,其主要研究目的是发现影响协作学习效果的因素和规律.

表 7(Table 7) Table 7 Related EDM researches about CSCL表 7 CSCL相关的EDM研究 文献编号 数据来源 主要方法 论文要点 发表时间 学生类型 应用类型 文献[23] MOODLE 协同过滤和关联规则挖掘 向教师推荐用于改善教学的信息 2011 - RS 文献[70] 一个在线协作学习工具 聚类和序列模式挖掘 发现软件开发小组成员的协作模式及其对软件质量的影响 2009 - SM 文献[71] 一个在线学习系统 可视化和回归模型 学生分组中性别组合对学习效果的影响 2011 中学生 VS 文献[72] 在线课程论坛 统计分析 发现教师的反馈与学生成绩的关系 2014 研究生 SM Table 7 Related EDM researches about CSCL表 7 CSCL相关的EDM研究

尽管各类学科对学生的团队协作能力都很重视,然而对该技能的教学和评估一直是个难题.Perera等人对7组学生参加软件开发项目的团队表现进行了研究,数据来自软件开发项目中常用的内容管理、任务管理和代码管理工具[70].该研究利用聚类技术获得了3类小组和4种成员角色在团队协作中的特征,通过序列模式挖掘,发现了优异和平庸的小组在使用3种工具时的差异.研究结果表明,数据挖掘技术可以帮助高校开展团队协作技能的教学与实践.它不仅能够发现学生使用团队协作工具的规律,为团队协作中的抽象概念提供案例与数据,也能自动识别各小组在项目协作中的问题,帮助学生监控并改进个人在小组合作中的表现.Ding等人研究了不同性别组合的学生在求解问题时的合作模式[71],96名中学生被随机分配到48个小组中,两个小组成员利用计算机进行远程通信,合作解答物理问题.对通信内容做可视化处理和多层回归分析后发现,女生与同性别同学合作的学习效果要优于与异性合作的效果,而男生则不存在这一现象.

3.4 大数据时代下的新型教学环境

大数据时代见证了众多新型教学环境的诞生和飞速发展,包括基于游戏、社交网络、智能移动设备和增强现实技术的教学环境和MOOC等教学形态.目前,EDM对它们的研究还较少,然而借助日渐成熟的大数据分析技术,新型教学环境正在成为EDM的研究热点,并反过来推动EDM的发展.

基于游戏的学习系统(game-based learning system,简称GBLS)是指融合了游戏元素的学习系统,它可以给学习者带来轻松愉悦的学习氛围,激发其内在的学习动机和激情,甚至提高协作学习的效果[73].EDM可利用GBLS来分析学生的性格和特征(见表 8).例如,文献[29]搜集了47名计算机专业的大学生在某个策略类小游戏上的尝试次数、持续时间和最终等级等数据,采用Naïve Bayes分类器对学生的感知类型(感觉性或直觉性)进行判断,其准确率超过85%.与传统的方法相比,该方法的成本更小,且学生的接受度更高.

表 8(Table 8) Table 8 Related researches about GBLS表 8 GBLS相关的研究 文献编号 数据来源 主要方法 论文要点 发表时间 学生类型 应用类型 文献[29] 一个益智类游戏的记录数据 朴素贝叶斯分类器 根据游戏记录判断学生的学习风格(learning style) 2014 大学生 PSP 文献[74] 一个大型的多人在线数学游戏 聚类 发现学生团队协作中的规律 2014 中小学生 SM Table 8 Related researches about GBLS表 8 GBLS相关的研究

社交网络(social network,简称SN)已成为当代学生日常生活的一部分.EDM研究结果表明,社交网络可以帮助我们更好地了解学生(见表 9).例如,文献[75]利用社交分析技术和随机图模型对39名学生相互之间发送的617封电子邮件进行了分析,使用图(graph)来表示学生收发邮件的社交关系.研究结果表明,随着学习负担的增加,邮件的个数相应增加,图却变得更稀疏.研究中还发现,在学习负担最重的阶段,图包含的典型结构与其他阶段不同.该研究既可以向教师显示学生的学习状态,也可以让学生了解自己与同学们的交流情况.Chen等人对Twitter上发表的微博进行了研究,旨在帮助大学的管理层以及相关政策的制定者了解工程专业的大学生学习和生活的真实体验[76].该研究获取了在Twitter上发表的标签为#EngineeringProblem的2万多条微博,首先采用社会学研究中的质性分析方法对随机选取的近3 000个微博进行处理,将微博反映的学生体验分成6个类别;然后,利用文本处理技术和Naïve Bayes多标签分类器建立预测模型.实验结果表明,该预测模型能够达到较高的准确率;最后,研究者使用该模型对在美国普渡大学附近发表的3万多条微博进行了分析.研究中发现:工程专业的学生通常面临着睡眠不足、学习负担过重、缺乏社交和不适应社会多样化等问题;而普渡大学由于采取了相应措施,学生对社会多样化问题较能适应.该项研究结果表明:与传统的社会学调查方法相比,数据挖掘技术可用较小的成本完成对大规模样本的分析.

表 9(Table 9) Table 9 Related researches about social network表 9 社交网络相关的研究 文献编号 数据来源 主要方法 论文要点 发表时间 学生类型 应用类型 文献[75] 学生的电子邮件通信 社会网络分析和指数随机图模型 发现电子邮件通信与学业负担间的关系 2014 大学生 SM 文献[76] 工科学生的Twitter微博 文本处理与分类算法 通过挖掘微博发现工科学生面临的主要问题 2014 大学生 SM 文献[77] 调查问卷与访谈 回归模型 发现Facebook的使用与学习投入程度之间的关系 2012 大学生 SM Table 9 Related researches about social network表 9 社交网络相关的研究

智能移动设备凭借其优越的物理特性(可触摸、便携性、自带无线上网和多种传感器功能)和丰富的应用为学生带来了新的学习体验,已有研究结果表明:利用移动设备可以提升学生的学习兴趣[78],提高注意力[79],或者帮助学生更好地理解植物[80]和动物[81]方面的知识.

增强现实技术允许使用者在真实的物理空间上叠加虚拟对象,在教育上使用时,可以增加学生的学习动

机[82],提供给学生一个更好的学习体验.其有效性已经被众多研究所证实,如在结构工程[83]、电磁学[84]和少儿阅读[85]方面都有很好的效果.还有其他诸如虚拟实验室LabViEW[86]、虚拟学习环境[87, 88]等应用.

MOOCs是一种可在互联网上同时教授大量学生的远程教育形式,MOOCs不对学生设限,只要通过网络申请即可学习.自2012年以来,MOOCs在全球范围内取得了巨大的成功.截至2014年,仅Coursera,edX和Udacity这三大MOOCs网站的用户数就超过1 500万.由清华大学发布的中文MOOC平台“学堂在线”也受到广泛欢迎[89].MOOC课程可以为EDM提供大量的研究资料.文献[90]对美国SJSU大学与Udacity联合开发的3门MOOCs课程进行了研究,每门课程均有50名正式学生(matriculated student)和50名非正式学生(主要来自合作高中和网络用户).利用逻辑回归分析建模,研究者发现:学生能否及格主要与个人的努力程度(如登陆次数、观看视频的时间以及完成的作业数量)相关,而与学生的基本特征(如性别、年龄和家庭收入)无关.研究者还发现:那些使用在线支持较多的非正式学生(尤其是高中生)不及格的概率更大,可能与他们不习惯在线学习有关.并基于以上发现提出了几个提升MOOCs教学质量的建议.该研究结果表明,数据挖掘技术不仅可以发现MOOCs课程的一些新现象,也能帮助MOOCs课程的创建者和实施者改善教学效果.

4 EDM研究的分析与评价 4.1 典型案例的对比与分析

我们对表 4~表 9列出的26个文献中的案例进行了对比和分析,在选择参考文献时,我们主要考虑3个原则:

$ \bullet $ 及时性:所选文献均在2009年以后发表,其中69%以上发表于2013和2014年.

$ \bullet $ 重要性:所选文献主要来自EDM领域的重要期刊或会议.

$ \bullet $ 创新性:所选案例在研究内容或研究方法上具有明显创新.

因此,这些案例基本能反映近年来EDM研究的概况.以下从多个方面对这些案例做概要性的对比和分析:

$ \bullet $ 从学生类型来看,小学案例共有2个(约占8%),中学2个(约占8%),高校16个(约占61%),其他类型6个(约占23%).当前的EDM研究以高校为主,可能在于3个原因:一是高校有充足的资金,信息化建设相对完善;二是高校学生对信息技术的熟练程度较高;三是高校的教学体制更加灵活.随着技术的发展和普及,这些因素都在发生改变.预计未来,面向中小学生和职场人士的EDM研究将大幅度增加.

$ \bullet $ 从教育环境来看,传统和封闭式教育环境的案例共有6个(约占23%),开放式教育环境15个(约占58%),新型教育环境5个(约占19%).目前,开放式教育环境仍然是EDM研究的主流,因为这类环境广泛存在,可以方便地获取数据.新型教育环境刚出现不久,目前所占比例较小,未来将成为EDM的研究重点.

$ \bullet $ 从应用类型来看,SM共有10个(约占38%),PSP有8个(约占31%),RS有4个(约占15%),VS和AS各有2个.SM和PSP成为EDM的研究热点体现了一种现代教育理念,即,有效的教学和学生培养应建立在对学生的了解与理解的基础上.然而,与传统的教育研究相比,EDM很少涉及对教师的研究.尽管教师在教学中的作用也很重要,但是采集教师的数据要比学生困难得多.

$ \bullet $ 从采用的数据挖掘技术来看(如图 3所示),分类、聚类和回归是EDM研究中最常用的技术,它们同时也是数据挖掘最基本、最成熟的技术,包含在常见的数据挖掘工具箱中.关联规则、协同过滤和可视化技术也是EDM中的常用技术.其他技术(如文本挖掘、马尔可夫模型、序列模式挖掘等)分属不同的类别,但每一类技术出现的频率都很低,类似于“长尾分布”.

图 3(Fig.3) Fig.3 Distribution of data mining techniques (note that some cases employ more than one technique) 图 3 数据挖掘技术分布(注:某些案例使用了多种技术)

我们对26篇文献全体作者的学科背景也进行了统计(如图 4所示).从统计结果来看,研究人员的构成具有多样性.其中,从事教育学、心理学和管理学等社会科学的研究人员比例较高.与理工研究人员相比,社会科学研究者在研究问题的提出、原始数据的理解以及研究结果的解释等方面更有优势.而来自计算机科学领域的研究者相对较少,这也解释了当前EDM研究主要采用成熟的数据挖掘技术这一现象.随着越来越多的计算机技术专家开展EDM的研究,未来很可能出现许多教育领域的专用数据挖掘技术.

图 4(Fig.4) Fig.4 Distribution of researchers’ discipline background 图 4 研究者的学科背景分布

此外,我们还对各个案例涉及的学生人数进行了估计.其中,学生人数为500人以下的案例共有17个(约占65%),人数为500~5 000的案例有6个(约占23%),人数在5 000人以上的案例有3个(约占12%).这说明当前的EDM研究涉及的海量数据还不多.然而,借助大数据处理技术,EDM可以在短时间内对数万学生的数据完成建模、预测和可视化等复杂的操作,这是其相对于传统教育研究的巨大优势.

以上案例表明,EDM的研究成果遍及各个教育环境、学生类型和应用类型,体现出其“从教育中来,回到教育中去”的研究理念以及“以学生为中心”的教育理念.另一方面,EDM研究在很大程度上仍然受到数据来源和研究者技术能力的限制.

4.2 现有研究的不足及发展趋势

EDM研究目前仍存在许多不足.这些不足不仅有助于我们理解其研究现状,同时也为我们指出了未来的发展趋势:

$ \bullet $ 首先是研究选题的不足.在EDM众多的研究类型中,PSP和AS对教育的影响最大,它们有两个共同点:一是改变了我们对教育的理念与实践,二是实现了传统技术难以达到的教学效果.然而在过去10年中,EDM暂未出现具有同样影响力的新的研究方向.近年来,教育和信息领域连续出现多项技术变革,极有可能孕育一批重要的EDM研究课题.在思考选题时,研究者应把握好教育与数据挖掘技术的关系.在EDM研究中,教育是其目的,而数据挖掘技术为其方法.因此,我们建议信息技术专家与教育专家深度合作,首先思考教育的本质问题,然后利用先进技术解决这些问题或发现新的规律.

$ \bullet $ 其次是研究方法的不足,表现在两个方面:

对数据预处理技术的研究较少.现有的EDM文献中处理的数据一般是意义清晰的最终数据集,很少对数据预处理工作进行详细描述.然而,EDM具有多情景、多语义、存在大量噪声和数据缺失等特征,而将教育学、心理学和社会学概念与数据进行准确对应也是一项挑战.事实上,数据预处理方法对于EDM研究的重要性不亚于数据挖掘算法,在有的情况下甚至超过后者.因此,研究者应特别重视数据预处理方法的研究和论述,特别是那些具有推广价值的预处理技术.

采用的数据挖掘算法相对简单.当前的EDM研究文献主要采用成熟的数据挖掘算法,许多研究直接采用封装好的数据挖掘工具处理数据,只有少数文献针对具体应用和场景来改进数据挖掘算法.究其原因,许多研究课题为首次提出,对算法性能的提高并非其优先考虑的问题.此外,许多研究者缺乏信息技术背景,不具备算法设计和改进的能力.因此,信息技术专家积极参与该领域的研究将有利于EDM的快速发展.

$ \bullet $ 第三是数据来源的不足,表现在3个方面.

缺少公开数据集.大多数EDM文献目前未将研究数据集发布在互联网上或附在论文中,研究者不愿公开数据集主要有两个原因:一是数据集涉及研究对象的隐私,按照学术道德和法律规定不适合公布;二是数据集的获取耗费大量了时间、人力和经济成本,是研究者的宝贵财富.然而对研究者而言,不公开数据集可能会降低研究成果的可信度和影响力;对EDM研究社区而言, 公开数据集的匮乏会阻碍EDM研究的发展.我们建议EDM研究者在综合考虑隐私保护、经济投入和学术意义的基础上,共享更多的教育数据集.

对新型教育环境的研究较少.现有的EDM研究成果对智能手机、增强现实和MOOC等新型教育环境的研究较少,由于这些新技术可能对教育产生深远的影响,同时又能方便地搜集大量数据,对该类型的EDM研究将成为未来的研究趋势.

研究涉及的数据量较小.目前的EDM研究涉及的人数一般从几十人到几百人,少数研究涉及几千名学生,数据集大小则从几KB到几十MB不等.这些研究还称不上大数据研究.事实上,在数据搜集方面,我国高校比国外更有优势:一是中国许多高校的学生都在万人以上;二是我国高校对许多数据都进行了集中式处理,如校园卡和网络计费系统.我们期待在“教育大数据”领域,中国的研究者能走在世界前列.

5 总结与展望

本文首先描述和总结了EDM研究的相关背景知识,然后介绍了不同教育环境下的EDM研究进展,涉及研究的数据来源、研究方法、研究结果及意义和应用效果等方面.此外,对近年来的EDM研究成果做了对比与分析,并指出现有研究的不足及未来的发展趋势.

在过去两年中,大数据技术在舆论界、学术界和工业界均获得了前所未有的关注,这一背景为EDM的发展同时带来机遇与挑战.EDM面临的机遇包括政策、资源和技术等多个方面:

$ \bullet $ 政策机遇:EDM体现了“教育大数据”的理念.随着大数据技术上升为国家战略,EDM将逐渐受到各政府部门和教育机构的重视,教师与管理人员对EDM的接受度也会越来越高.

$ \bullet $ 资源支持:由于政府的重视和教育机构意识的转变,EDM将得到更多政策、人力、资金和基础设施的支持,从而为EDM的发展提供必要的教育资源和研究资源.

$ \bullet $ 技术支持:大数据技术的研究成果为EDM中海量数据的存储、处理和知识发现提供了方法、标准和工具,可以帮助EDM解决许多技术难题.

另一方面,EDM在研究和实践中也面临着诸多挑战:

$ \bullet $ 伦理方面的挑战:EDM的研究过程通常涉及学生的隐私数据,其研究结果也可能对学生和教师产生不良影响.既要遵从伦理限制、保护学生隐私,又要最大化研究的学术价值,这对EDM的研究者是一个 挑战.

$ \bullet $ 技术方面的挑战:大数据技术有利于数据的后期处理和知识发现,然而EDM的工作量和难点主要集中于数据的采集、理解和预处理.为了理解数据,研究者通常需要采集一些线下的数据,这要求其掌握教育学、心理学和统计学方面的知识和技术;同时,研究者还应精通数据处理算法和工具,以提高数据预处理的效率.

$ \bullet $ 管理方面的挑战:EDM研究需要学生、教师和管理人员同研究者紧密配合.由于涉及的角色众多,且不同的人参与研究的动力、对项目的期望和对技术的理解有很大的差异,EDM研究通常比普通项目更复杂,需要从整个教育机构的层面来协调人员与活动.

经过30多年的发展,EDM受到越来越多研究者的关注.近年来,众多新型教学环境为EDM的研究提供了丰富的应用和海量的数据来源,研究成果不断涌现.在大数据时代背景下,EDM面临着政策、资源和技术等多方面的机遇,即将迎来重大的转折.EDM的研究有益于教育乃至整个社会的发展,我们期待它更加成熟和繁荣.

致谢 郑友杰和孟瑶为本文的完成提供了帮助,陈自郁、葛亮、赵素芬和朱郑州仔细阅读原稿并提出了建议,本文编辑和审稿专家在审阅原稿时给出了许多宝贵意见,提高了论文的质量和可读性,在此表示感谢.



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3