关键词:
港口信息化建设
数据仓库技术
分布式运算框架
数据传输
摘要:
随着大数据时代的到来,数据信息逐渐成为了一种举足轻重的资源。港口,作为全球运输网络的中转站,货物的流通日渐频繁,这就意味着海量数据信息的产生。这些数据信息贯穿着交易,物流,监管和支付等一系列服务流程。然而这些数据都是碎片化的,也就是所谓的信息孤岛,它们之间没有建立起相应的联系,也缺乏对数据的有效整合与运用。在这个日新月异的大数据时代,无疑是一种信息资源的浪费。因此越来越多的港口意识到数据的重要性,纷纷向智慧化,数据化港口转型。希望通过海量的数据分析,引导船舶进行更为合理有序的停靠,缓解停泊压力。也希望通过大量的数据对港口吞吐量进行预测,从而对港口装卸货物进行合理调度分配,增强港口运营效率,进一步提高我国港口在国际航运中的核心竞争力。从港口数据仓库建模,港口数据仓库架构设计,港口数据仓库应用三个方面入手,研究利用大数据平台搭建港口数据仓库,并测试港口数据传输过程。1.港口数据仓库建模:以港口的业务和数据仓库的需求为目标,搭建港口数据仓库。按照港口不同的业务部门,根据实际应用建立不同的数据主题和数据纬度表,明确数据颗粒度。2.港口数据仓库架构设计:对于此次港口数据仓库的搭建,在数据采集方面,使用Kafka,Flume和Sqoop传输框架;数据存储采用Hadoop版本下的HDFS分布式存储结构;对于数据的计算框架,选择Hive作为离线数据的计算框架;最后使用E-chart进行数据呈现。3.港口数据仓库应用:建立一个港口数据仓库的可视化KPI分析系统,利用数据采集技术,批量计算处理技术,分布式存储结构技术将这些系统中的孤岛数据进行关联分析。根据业务需求的KPI指标进行模型设计,将需要的数据进行抽取,清洗,转化,挖掘,并使用可视化技术展示,为港口的判断与决策提供科学的参考依据。