关键词:
脑性瘫痪
磁共振成像
影像组学
机器学习
预测
儿童
摘要:
目的比较基于多参数MRI影像组学的9种机器学习模型对校正年龄4个月~2岁婴幼儿脑瘫的预测效能。方法回顾性队列研究。纳入2013年4月—2021年9月河南中医药大学第一附属医院行MRI检查的符合条件的患儿277例,其中脑瘫89例、非脑瘫188例,按1∶1比例在非脑瘫患儿中按照门诊号随机化选取89例。最终纳入178例患儿,其中男113例、女65例,校正年龄为4个月~2岁。脑瘫组与非脑瘫组178例患儿分别按照8∶2的比例随机分入训练集(142例)和测试集(36例)。对每例患儿的T1加权像(WI)、T2WI进行图像分割和特征提取,在训练组中对提取的影像组学特征采用独立样本t检验、最小绝对收缩和选择算子(LASSO)、Z分数归一化技术进行图像特征筛选。筛选出来的影像组学特征采用逻辑回归(LRA)、决策树(DT)、随机森林(RF)、k近邻(kNN)、支持向量机(SVM)、朴素贝叶斯(NB)、梯度提升机(GBM)、轻量梯度提升机(LightGBM)、极端梯度提升(XGBoost)等9种机器学习方法构建机器学习模型。在训练集、测试集中分别采用受试者操作特征曲线(ROC曲线)评估并验证9种模型对婴幼儿脑瘫的预测效能,选择预测效能较好的模型采用五折交叉验证评估其预测效能的稳定性。结果(1)脑瘫组和非脑瘫组的基线资料比较:训练集、测试集中2组患儿智力障碍、认知障碍、缺血缺氧性脑病差异均有统计学意义(P值均<0.05),校正年龄、性别、癫痫、语言障碍、视力异常、高胆红素血症、低血糖、发育畸形、新生儿肺炎、先天性心脏病差异均无统计学意义(P值均>0.05);患儿出生时胎龄、出生体质量在训练集中2组间比较差异均有统计学意义(P值均<0.05),而在测试集中2组间比较差异均无统计学意义(P值均>0.05)。(2)MRI T1WI和T2WI特征提取后每例患者获得11190个影像组学特征,在训练集中筛选出20个特征采用9种机器学习方法构建机器学习模型。在训练集中,DT、RF、GBM、LightGBM模型的灵敏度、特异度、准确度均达到1.000,AUC均为0.995,预测效能极佳;其次是LRA、SVM、XGBoost模型,预测效能均较高,灵敏度、特异度、准确度、AUC均>0.900;kNN、NB模型的预测效能相对较低,灵敏度、特异度、准确度均<0.900。在测试集中,LRA、SVM、LightGBM模型的预测效能较高,灵敏度、特异度、准确度、AUC均>0.900,其中LRA模型的预测效能最佳(AUC=0.963);而DT、RF、kNN、NB、GBM、XGBoost模型的预测效能相对较低,灵敏度、特异度、准确度均<0.900,其中DT模型的预测效能最低(AUC=0.825)。9种机器学习模型中LRA模型在训练集、测试集预测效能均较高,AUC(95%CI)分别为0.971(0.945~0.993)、0.963(0.932~0.989),灵敏度、特异度、准确度训练集均为0.940、测试集均为0.932;对LRA模型进行五折交叉验证评估其预测效能的稳定性,ROC曲线显示在训练集、测试集中LRA模型平均AUC分别为0.971、0.963,预测效能优异且稳定。结论基于多参数MRI影像组学的9种机器学习模型对4个月~2岁婴幼儿脑瘫均具有良好的预测效能,其中LRA模型的预测效能最佳且稳定性好。