关键词:
数据仓库
数据挖掘
联机分析处理
Apriori
C4.5
摘要:
数据仓库和数据挖掘技术是信息技术应用领域研究的焦点,目前其在金融、保险、银行等领域都有比较广泛的应用,但是在教育领域的应用却不多。高校公共课程的开设旨在给学生构建一个全面、完善的知识体系,是为培养全面发展的高素质人才做准备的。但是目前由于高校公共课普遍采用大班教学形式,学生本身感兴趣程度不太高等原因造成高校公共课的教学水平很难提高到一个新的层次。本文从高校公共必修课,同时也作为高校统考课程之一的计算机基础课程的学生统考成绩入手,利用数据仓库和数据挖掘技术进行研究和分析,力求能给高校教学管理部门在做出相关教学决策时提供科学有效的数据支持。
本文通过对数据仓库理论和数据挖掘技术的学习和研究,并结合对我校计算机基础考试系统的调查情况,以及对我校连续两年的四次测试中共包括有20个学院7500条学生成绩数据进行分析,提出了如何将数据仓库和数据挖掘技术应用于计算机基础统考成绩分析中,该方法也可以推广应用到其它高校统考课程中,比如大学英语、马克思主义哲学等。本文所包括的内容主要有以下三个方面:
第一,分析建立了一个高校统考课程成绩数据仓库。首先从决策分析需求出发以总分分析、难度分析、题型得分分析三个主题来构建了高校统考课程成绩数据仓库模型,并且将我校计算机基础考试平台中的学生成绩数据进行抽取、转换过程之后,装载入成绩数据仓库,然后利用OLAP(联机分析处理)技术中的切片、切块、旋转等技术对数据仓库中的成绩数据进行多层次、多角度的分析,分析所得结果不仅可以帮助教学管理者清晰了解到学生成绩的波动趋势,还有利于判别试卷难度分布的合理性以及影响学生成绩波动的主要原因。
第二,在所建立的统考课程成绩数据仓库的基础之上,本文利用了数据挖掘中的关联规则算法对数据进行深层次的分析。其中,考虑到教师对不同学院考生计算机基础成绩的关注程度不同以及该门课程考试中各题型本身之间的不同难度,本文使用了混合加权的关联规则方法对学生成绩进行分析。在分析过程中,权值的设定是考虑学生得分与三次测试平均分的偏差值比较并且结合教师的经验值来确定的,而且使用了较符合该成绩数据特点的加权算法来进行分析,分析结果表明了在相同的阈值下,使用混合加权算法比传统Apriori算法得到了更多有价值计算机基础课程中的各章节之间、章节与每个学生总成绩之间、学院与各题型之间隐含的的关联关系,这些关联关系不仅可以给教学者合理安排该门课程教学时各章节内容之间的次序和教学时间上提供参考,还可以帮助教学者针对不同学院学生的教学使用合理的教学计划。
第三,利用决策树算法对该数据仓库中的成绩数据进行了分析。本文以该门课程的知识点为出发点,考虑到成绩数据量较多,并且属于连续性数值等特点选用了决策树技术中C4.5算法来进行分析,建立了一个比较有效的分类模型,通过分析结果得出了一个比较科学的分班教学的方法,即基于学生对于知识点掌握情况来进行分班教学,这种分班教学方式可以作为有关教学管理部门为提高高校公共课课程教学水平时的参考。
本文以计算机基础成绩作为实例,通过在高校统考课程成绩中进行挖掘实践,得到了很多有价值的信息,这些信息在辅助教学者做教学决策,提高高校统考课程的教学水平以及对教学管理部门今后教学工作的开展和改进都具有一定的指导意义。