关键词:
分类预测
数据仓库
维度模型
脑卒中筛查
摘要:
针对全国脑卒中筛查数据中存在的大量筛查数据未分级、数据利用率低与维护复杂等问题,通过以相关分类算法与数据仓库技术为基础进行研究,训练筛查数据危险级别预测模型并建立数据仓库维度模型,实现对脑卒中筛查数据的准确统计分析与高效利用,为脑卒中防治临床研究和医疗决策提供数据支持。为了解决由于医疗资源紧缺带来的筛查数据未分级的问题,提升危险分级数据分析的准确度,以全国脑卒中历史筛查数据为研究对象,提出了一种C5.0算法与BP神经网络算法组合的危险级别预测模型。首先通过分层抽样与过采样得到初始样本数据,采用特征划分高效的C5.0算法选择相关性较强的特征变量,并以此作为神经网络模型训练的初值,利用以高血压、糖尿病等8个主要相关特征变量的神经网络进行分类预测,有效提升多变量和缺失信息数据下的危险分类准确性。测试结果表明,C5.0-BP组合预测模型的总体分类准确率为93.68%,与当前中国卒中数据中心基于C4.5算法的分类模型相比提升了8.65%,中危和高危等级预测综合评价指标分别提升了37.5%和63%。该模型实现了较为精准的危险分级预测,对脑卒中疾病的预防与干预起到了促进作用。针对当前国家脑卒中防控数据平台中存在的交互性低、维护复杂等缺点,结合筛查数据背景与特点,以危险分级预测数据为基础,设计了合并、清洗、转换规则,构建包含基本信息、危险因素等4个分析主题,包含性别、年龄、地区等50个分析维度的数据仓库维度模型,并利用BI服务对分析结果进行展示。从分析结果看出,筛查数据仓库维度模型实现了对不同分析主题、多维度、交互性强的数据分析与展示,在国家卫生计生委脑卒中数据分析工作中得到部分应用,对国家脑卒中筛查防治工作提供数据支撑,为管理决策和脑卒中流行病学研究提供数据分析服务。