关键词:
时空活动数据
时间地理学
空间轨迹
空间数据存储
数据采集
数据挖掘
摘要:
通信技术与计算机硬件设备的演进,让空间数据存储限制大为降低,间接推动二十世纪末期相关研究的蓬勃发展,致使大量具备空间位置与时间戳数据的储存需求逐年攀高。以技术层面来说,传统以文本为导向的关联性数据库已无法满足逐年成长的空间数据储存需求,空间属性的支持与高效运算成为下一世代数据库研究学者的拓展目标,数据仓库的设计亦成为以空间为基础的数据挖掘研究关注焦点。以人文层面来说,如何从海量空间数据中进行拟合与匹配,挖掘出有用知识,成为业界与学者的高度兴趣。以时空活动为基础的轨迹数据仓库,正是在这个背景下诞生。 时空活动亦即除了空间轨迹上最为直观的时空维度外,还考虑了轨迹段上所代表的用户活动类型。然而,时空活动数据随时间变化、空间复杂度高、难以度量等特性,在应用于数据管理与多维分析层面上存在着一定难度。 本文宗旨在于设计了一套数据仓库模型,同时融合了空间与统计型态的度量计算方式,以适合时空活动数据的特异性。其研究工作焦点如下: 1.针对基于时空活动的数据采集工作备受用户回馈率低、配合度低和负担性高等挑战,本文所提出的方法结合了被动式采集与提示性回想的概念,将用户的回想负担性降至最低,更利用在线实时轨迹重建算法,对原始数据进行快速索引与滤波,实现数据采集与预处理同步的效果;2.针对时空活动数据难以高效管理与不一致性的问题,我们设计了一个多维数据立方体模型,透过ETL过程对原始数据进行泊点树建构,以实现不同维度层次上的统计聚集与空间聚集。 3.针对时空活动数据仓库为空间而开发的特殊结构,我们在上层定义了两种分析方式:用户兴趣挖掘与时空地理分析,以发现城市居民的行为模式,更可将此知识用于协同过滤与推荐上。我们采用了2010年于北京市天通苑、亦庄和颐和园所收集的GPS与活动日志数据,以及微软研究院的GeoLife项目所提供的GPS数据作为样本数据。这项研究亦获得国家自然科学基金项目补助。