关键词:
空气污染
呼吸系统
缺勤
模型
统计学
学生
摘要:
目的探讨机器学习预测模型在学生因大气污染引起呼吸系统症状缺课短期序列中的应用性能,以期为学校疾病发生的早期预警提供方法学参考。方法基于江苏省2019年9月—2022年10月学生因呼吸系统症状缺课短期序列数据,集成大气污染物平均浓度数据,结合单因素分布滞后非线性模型筛选大气污染物最优滞后变量,构建极端梯度提升(XGBoost)算法模型预测学生因呼吸系统症状缺课频数,并与季节性自回归综合移动平均外生(SARIMAX)模型进行比较。结果2019—2022年江苏省日均因呼吸系统症状缺课学生9709名,大气指标日均空气质量指数(AQI)为76.96,PM_(2.5)、PM_(10)、NO_(2)以及O_(3)的日均质量浓度分别为35.75,61.13,28.89,104.81μg/m^(3)。格兰杰因果检验显示,AQI、PM_(2.5)、PM_(10)、NO_(2)和O_(3)均是因呼吸系统症状缺课频数序列的预测因素(F值分别为1.46,1.79,1.67,3.41,2.18,P值均<0.01)。PM_(2.5)、PM_(10)、NO_(2)和O_(3)单日滞后效应RR值分别在lag4、lag0、lag0、lag4时达到峰值。结合大气污染物最优滞后变量的XGBoost模型与SARIMAX模型相比,平均绝对误差(MAE)指标由2.251降低至0.475、平均绝对百分比误差(MAPE)指标由0.429降低至0.080、均方根误差(RMSE)指标由2.582降低至0.713。预警阈值为P_(75)时,XGBoost模型与SARIMAX模型相比,灵敏度由0.086提升至0.694、特异度由0.979提升至0.988、约登指数由0.065提升至0.682。结论XGBoost模型在预测学生因大气污染引起呼吸系统症状缺课短期序列方面有较好的预测性能和预警效果。学校可适时采用该模型,及早发现疾病流行进行预警及防控,完善学校卫生工作。