关键词:
高速铁路接触网
数据仓库
维度建模
数据抽取-转换-装载(ETL)
摘要:
近年来,中国高速铁路发展迅速,高铁的普及对于国民经济发展、人民生活出行等具有十分重要的意义。接触网作为高速铁路牵引供电系统的重要组成部分,是高速列车动力来源的唯一途径,其良好的运行状态对保障高速铁路安全可靠运行具有重要作用。在高速铁路接触网的运营过程中产生和积累了大量的业务数据,这些数据真实地反映了高铁接触网的运营状态,若能对这些数据进行综合分析和利用,发掘出能为高铁接触网运行维修决策提供支持的有用信息,将具有重要的意义。然而,高铁接触网数据具有种类繁多、分散存储、结构互异、不规范等特点,给数据的综合分析与利用造成诸多不便和困难。为此,本文采用数据仓库理论与技术,研究构建高速铁路接触网数据仓库,通过将高铁接触网的多源异构数据进行整合,为数据的综合分析与利用提供一个统一的、规范的、标准的数据环境。论文的工作主要包括:首先,对我国高铁接触网的业务过程进行研究,充分了解和认识伴随接触网业务过程产生的业务数据,包括数据的种类、来源、含义、特点等,分析原始数据在记录、存储、管理和利用过程中存在的问题,明确高铁接触网数据仓库的建设需求。其次,采用Kimball维度建模方法设计高铁接触网数据仓库的数据模型,在设计过程中按照概念模型、逻辑模型、物理模型三个层次递进展开。概念模型设计确定高铁接触网数据仓库的三个主题,即固有参数主题、检测参数主题、缺陷主题,并分析每个主题应该包含的事实和维度。逻辑模型设计定义事实表和维度表应该包含的属性,以及事实表和维度表之间的主外键关系。物理模型设计根据Oracle数据库管理系统定义事实表和维度表的物理存储信息,包括字段名、数据类型、约束等。然后,结合高铁接触网数据源的特点和目标数据仓库的数据模型,设计高铁接触网数据的抽取-转换-装载(Extract-Transform-Load,简称ETL)过程。数据抽取以联机、增量的方式进行,由自动化调度程序定期执行,抽取到的原始数据存放在操作数据存储区。数据清洗根据检验规则对抽取到的数据进行检验,移除不合格的数据。数据转换将清洗后的数据按照编码规则进行编码转换,统一数据格式。数据装载将维度数据和事实数据分别加载到数据仓库的维度表和事实表中。最后,基于上述对ETL过程的设计,借助数据整合工具Kettle对现场采集的接触网缺陷原始数据进行ETL实现,包括数据抽取实现、数据清洗实现、数据转换实现和数据装载实现四个部分,装载成功后即生成了高铁接触网数据仓库。通过Navicat for Oracle的自定义查询和制作报表功能展示高铁接触网数据仓库的访问与应用。