关键词:
数据挖掘
决策树分类
算法
ETL
数据仓库
摘要:
数据挖掘技术能够从海量数据中提取出人们感兴趣的、潜在的、可用的知识,并能将这些知识转化为各种规则供人们理解和运用。分类是数据挖掘主要功能之一,我们能够运用分类算法建立分类模型,并运用模型形成的分类规则来预测类标记未知的对象,以便解释说明所要分析的问题。
决策树分类是最常见的一种分类方法,计算速度快,构建的分类模型易转化为各种规则被人理解,其应用较为广泛。但通过认真分析现有决策树分类算法后发现,决策树分类算法仍存在着许多不足,例如:分类属性的选择、属性空缺值的处理、属性离散化处理等问题,因而研究算法以提高决策树分类精度、性能和准确率,使算法更加适合于数据挖掘的应用要求,具有重要的理论研究与现实意义。
本文针对决策树分类算法中存在的缺陷,通过深入细致的研究,探索优化算法的策略,建立优化决策树分类模型,并结合理论和实验比较说明优化算法的性能优势。在此基础上,结合数据仓库多维数据模型的特点,本文将决策树优化算法与数据仓库技术相集成,同时结合高校学生就业这一实际问题来说明决策树分类算法的具体应用。本文主要的研究工作如下:
第一,阐述了数据挖掘、分类技术的理论基础以及决策树分类的基本知识,比较说明几种典型的决策树分类算法,如ID3、C4.5、SLIQ、SPRINT算法,并重点对ID3算法和C4.5算法进行了深入的研究分析。
第二,阐述现有决策树分类算法存在的属性值空缺、分类属性多值偏向、连续属性的离散化、属性约减等问题,并针对不同问题,总结分析各类专家、学者提出的各种优化策略,详细说明优化问题的思想和方法。
第三,现有的决策树分类算法大都要求数据集信息完整、无空缺值。因为对缺失数据处理不当会积累大量的错误,增加后续算法的运算时间和复杂度,从而降低算法的性能。本文针对上述问题进行认真分析研究后,运用相似性原理的思想,提出一种基于相似类的空缺数据填充方法,本文旨在通过优化空缺数据,以达到优化决策树分类算法的性能。
第四,通过收集整理某高校与学生就业相关的信息数据,采用数据仓库异构数据源操作处理的方法,进行ETL操作,构建出用于决策树分类挖掘的“就业信息数据仓库”,并针对学生就业问题建立了就业问题的多维数据模型。
第五,在分析说明决策树分类算法与数据仓库技术相集成的具体优势的基础上,本文抽取上述“就业信息数据仓库”数据作为决策树分类算法的分析数据源,并结合第三章中提出的优化决策树分类算法,分析说明高校学生的就业问题。本文通过详细介绍决策树分类技术在分析高校学生就业问题时的全过程,旨在说明算法的实际应用价值和意义。