关键词:
数据仓库
机器学习
复杂网络
关联规则
分布式Charm
摘要:
中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的采用传统方法对中医药数据进行存储和计算,这种方式扩展性不高且容易达到瓶颈。针对该问题,本文将有效结合大数据技术、机器学习及复杂网络等算法,对海量临床数据进行分布式挖掘,本文主要包括以下内容:(1)基于CDH(Cloudera’s Distribution Including Apache Hadoop)大数据平台,完成了对中医药大数据资源数据仓库的构建。首先,提出了一种自上而下和自下而上相结合的体系结构,使数据仓库的逻辑结构更加的清晰。同时,将多源数据采集到HDFS,分析其数据特点和相互之间的联系,设计了主题域模型和多维数据模型。然后,采用Spark、Hive QL等技术开发了ETL任务并通过Dolphin Scheduler配置了ETL工作流,完成了多源数据到数据仓库的映射,当前数据仓库包含的记录条数近3.4亿条,数据量约351GB。最后,采用Kylin针对方药主题构建了数据立方体,进行了多维OLAP分析示范研究。该数据仓库具有多源数据整合及数据处理等功能,具备Web多维分析和数据挖掘功能。(2)基于中医药大数据资源数据仓库,完成了对中医临床有效处方的分布式挖掘工作。首先,从数据仓库中抽取出慢阻肺病患者的临床诊疗数据形成数据集市。然后,根绝患者的治疗情况分为有效组和无效组,采用倾向性评分匹配方法消除两组间的混杂偏倚,针对有效组人群,提取其处方信息构建药物配伍网络并通过多尺度骨干网络算法提取核心药物子网,通过药物富集分析方法进行有效处方(P<0.05)发现,发现了165个有效处方,其有效比达到了80.88%,可作为治疗慢阻肺病的核心处方。最后,通过条件互信息法挖掘出有效药症知识。(3)开展了中药方剂配伍规律的分布式挖掘研究。为高效挖掘中药方剂中的关联规则,本文提出了一种分布式Charm算法,该算法基于Spark框架下,有效解决了传统方法挖掘效率低及内存溢出的问题。针对关联规则数量较多的问题,本文提出了一种分布式压缩算法,得到了更少的且更具代表性的关联规则,实验表明,得到的关联规则在临床上具有非常好的指导意义。