关键词:
注记系统
文件查询
文件同步
文件系统
摘要:
当前普遍使用的目录系统存在多分类文件目录创建困难和文件查找缓慢等问题,其原因是目录系统采用的是树形结构,先有目录结构再有文件,以结构为中心来管理文件。也就是说,目录系统中出现的问题起因于这种自上而下的设计方法。为了解决上述困难,人们发展了以元数据为基础的文件管理系统,它将丰富的元数据和文件进行关联,通过元数据进行检索来有效地提高文件查询速度。然而,元数据管理服务独立于目录系统,两个系统难以同步。基于第一性原理,本文采用自下而上的设计哲学,以文件为中心,提出了注记文件系统,即先有文件再向文件添加注记的方式将文件和其描述信息进行关联,达到文件目录系统和元数据注记系统合二为一的目的。注记文件系统将目录的结构信息转化为数据,使用数据库的方式来管理文件,实现了文件系统和数据库系统的合一,在解决多分类文件目录创建困难的同时提高了文件的查询效率。本文以文件查询中文件比较的次数为依据,分别对两种系统中文件查询中文件比较次数进行了理论值计算,计算结果表明注记文件系统所需要的文件比较次数更少。随后,设计了三组实验,分别为了验证在不同目录深度、文件个数和文件夹个数情况下两种系统的查询速度,实验结果表明在三种情况下始终是注记文件系统的查询速度更快,验证了理论计算的结果。在文件同步方面,最为著名的文件同步算法是RSYNC算法,该算法将数字内容进行分块,识别相同的块,只发送具有差异的部分,使得能够在网络资源有限的情况下高效地同步文件,随后许多研究者在RSYNC算法上进行了优化,改进了RSYNC算法的分块策略,并获得了显著的提升。可惜的是这些方式的同步效率还是不够理想,造成这种情况的原因是该算法会花费大量的时间去校验文件差异块,导致了同步效率不高。因此一些研究者设计了先进文件筛选的同步方案,及先把客户端和服务器端版本不同的文件筛选出来,然后有针对性地进行同步,但是这种方式需要将客户端的文件信息同步服务器端的文件信息进行比对才能筛选出版本不同的文件。针对这一问题,本文以注记文件系统为基础设计了一种文件同步方法,该方法结合注记文件系统可以使用注记对文件进行标记,并且可以使用注记对文件快速查询的特点,设计了三种特殊注记(“synchronous”注记、“modified”注记和“first”注记),分别对需要同步的文件、和服务器端版本不同的文件和第一次加入同步队列的文件进行描述。在发起文件同步时使用特殊注记快速地筛选出需要同步的文件,并对不同注记对应的文件使用不同的同步方法进行同步。最后以同步的速度为评估标准,分别对本文提出的文件同步方案和RSYNC进行了实验,实验结果表明,本文提出的文件同步方案效率更高。