关键词:
边缘计算
成本效益优化
数据放置
数据去重
负载均衡
摘要:
随着物联网和人工智能的飞速发展与普及,越来越多的数据开始在网络边缘产生。边缘计算作为一种将计算和存储能力下沉到更靠近用户的网络边缘的新型计算范式,具有数据访问低延迟和节约核心网络带宽的优势。然而,相比于云计算,边缘服务器有限的部署规模导致了其资源的受限性。如何在资源受限的边缘计算环境中存储和管理庞大规模的数据成为了亟待解决的问题。现有的数据存储管理机制大多是针对云计算环境所设计,无法契合边缘计算环境的特点,这主要体现在三个方面:一是存在数据存储粒度大的问题,现有的多副本数据存储放置策略带来了巨大的存储资源浪费;二是忽略了由于边缘服务器的广泛地理部署而带来数据冗余度高的问题,降低了资源的利用率;三是缺乏探索边缘服务器之间的协作机制,由于边缘服务器的存储资源异构性而导致存在负载不均衡问题,增加了数据存储成本。与此同时,边缘计算环境中存在着包括服务器有限的覆盖范围、数据检索的低延迟需求、数据分布具有区域性和边缘资源异构性等特有属性,这增加了在边缘计算环境中探索成本效益优化的数据存储管理机制的难度。基于此,主要研究了如何在边缘计算环境下实现存储成本效益优化的数据管理机制,在保障数据存储管理高效性的同时实现了最小化数据存储成本。针对数据存储前如何节约存储空间和数据存储后如何释放存储空间这两个出发点,可以将目前面向存储成本效益优化的边缘数据管理机制研究划分为三个核心策略,即数据存储放置、冗余数据去重和存储负载均衡。在数据存储前如何节约存储空间方面,针对边缘计算环境下的数据存储放置策略,讨论了现有的多副本数据存储策略的高额存储开销问题,在边缘计算环境下引入了纠删码数据存储策略。分析了云存储系统和边缘存储系统的主要区别,研究了在边缘存储系统中应用纠删码数据存储机制的主要挑战,并且对边缘服务器的邻近性约束、传输性约束和编码性约束等特征进行了形式化定义,提出了基于整数规划的最优算法。针对最优算法计算开销大的问题提出了基于投票策略的近似算法,通过编码参数设置优化和编码块的放置优化来节约边缘存储系统的存储空间。在真实数据集上的实验结果表明提出的方法与其他对比算法相比平均可以节省68.58%的存储空间,在大规模场景下空间节省可高达81.16%。在数据存储后如何释放存储空间方面,针对边缘计算环境下的冗余数据去重策略,讨论了边缘数据冗余情况以及导致的存储资源浪费问题,分析了现有的针对云存储数据设计的去重策略在边缘计算环境的局限性。不同于全局去重方案,通过对边缘服务器网络拓扑的分析,提出了基于网络拓扑感知的边缘数据去重问题的形式化定义。通过对邻近边缘服务器之间冗余数据的去重操作以最小化系统整体存储成本,同时确保数据服务覆盖的范围不变。分别提出了基于整数规划的最优算法和基于启发式搜索的近似算法。在真实数据集上的实验结果表明提出的方法平均可以实现49.87%的数据去重率,大幅度降低了边缘数据存储成本。在数据存储后如何释放存储空间方面,针对边缘计算环境下的数据存储负载均衡策略,讨论了由于边缘资源异构性带来的数据负载不均衡问题及其对于存储成本效益的影响。通过边缘服务器之间的协同资源共享,在部分边缘服务器上移除冗余数据,以实现边缘服务器的数据存储负载均衡。根据数据访问延迟的差异来定义数据存储收益以避免热门数据的聚集。为缓解基于整数规划的最优算法的高额计算开销,提出了基于拉格朗日松弛的边缘数据负载均衡近似算法,并从理论上证明了该算法是可收敛的。在真实数据集上的实验结果表明提出的方法可以实现最优的数据负载均衡,较于其他对比算法平均具有53.85%的性能提升,极大地提高了存储资源利用率。