关键词:
DNA存储
数据纠错
加密存储
文件组织
可靠编码
摘要:
随着云计算、大数据等技术的快速发展,全球数据总量爆发式增长。传统基于磁、光、电的存储技术在功耗、尺寸、使用寿命等方面均存在技术瓶颈,其发展与部署速度严重滞后于数据量的增长。由于DNA分子具有超高的信息密度、超长的使用寿命、超低的维护成本等优点,DNA存储成为一种极具竞争力的存储技术,有望解决未来海量数据存储的危机。与传统存储不同,DNA存储包括编码、合成、存储、聚合酶链式反应(PCR)扩增提取、测序、解码等过程;文件由多个相同长度的DNA分子分散存储,文件地址(引物靶向区域)“显性”地与文件数据捆绑存储;文件写入与读取的过程中会发生序列碱基的插入、删除和替换等错误、序列丢失及序列分布不平衡等问题。目前DNA存储研究仍面临如下一些挑战,亟需解决:(1)数据存储编解码方法生化兼容性差,数据纠错策略主要基于传统信息领域纠错码技术的“生搬硬套”,纠错算法复杂且纠错能力差;(2)数据存储安全主要基于生物困难,实验操作复杂、成本高,数据加密通量低;(3)文件地址(寻址)空间有限,其规模的扩大往往牺牲逻辑信息密度。针对这些问题,本文围绕海量数据安全可靠DNA存储系统这一整体思路,从数据纠错、数据加密及存储体系等三个方面进行研究。本文的主要工作包括:
(1)针对文本文件的特点,对每个常见文本字符设计了具有一位纠错能力的DNA码,提出了一个“编码本纠错-多序列比对纠错-单词纠错”的层次纠错方法。仿真结果表明,所提方法编码的DNA序列满足常见的生物序列约束,对DNA存储中的碱基错误具有鲁棒性,最大容忍错误率可达5%,可以部署在主流DNA合成和二代测序平台上。
(2)在具有一位纠错能力的文本存储前向纠错码基础上,提出了一个高精度聚类和桶式分配相结合的纠错策略。所提聚类算法通过在序列编码中采用“索引+CRC哈希+索引”模式,提高测序读长的聚类精度;桶式分配策略是一个旨在通过最大限度识别测序读长的可识别DNA码、并将其分配到其最可能出现的位置(桶),进而通过多数投票策略获取每一位置的DNA码的纠错方法。仿真结果表明所提方法具有较强的纠错能力,最大容忍错误率可达15%,可以部署在主流DNA合成和三代测序平台上。
(3)受载波信号在通信领域具有较强抗噪能力的启发,提出了一种基于调制技术的DNA存储编解码方法。所提方法使用一个01均衡的二进制字符串作为载波信号,在编码阶段可以将用户数据编码成满足序列约束的DNA碱基序列,在读取阶段可以对测序数据中的插入/删除错误进行检测并对校正后的测序数据进行正确的解码。仿真数据表明,所提方法编码简单且友好,具有极强的碱基错误纠正能力,最大容忍错误率可达40%。
(4)鉴于DNA存储信道高噪声的特点及数据加密存储需求,提出了一个适用于高噪声DNA存储信道的图片加密方法。所提方法在调制DNA存储编解码方法的基础上,实现了传统加密方法与高噪声DNA存储信道加密方法的融合,具有较强的抵抗鲁棒攻击、差分攻击、统计攻击及经典攻击的能力。与同类方法相比,该方法更适合大规模加密存储的应用需求。
(5)针对目前DNA存储文件组织方法存在的可用地址空间有限、DNA序列有效载荷区域较短以及引物与有效载荷有串扰等问题,提出了一个虚拟多级目录文件系统。基本思想是将文件路径寻址信息嵌入到载波序列中。该种寻址编码策略对有效载荷编码区域没有影响,具有较高的逻辑密度。理论分析表明,对于长度为200碱基的DNA序列,所提方法具有大小为2的寻址空间和10ZB的理论存储容量。寻址可靠性分析表明,即使错误率高达15%,所提方法也能识别目标文件中99.9%以上的读长数据。此外,所提方法编码本中引物码和信息码的分离确保了引物和有效载荷之间几乎没有串扰发生。