流行性感冒(简称流感)是一种由流感病毒感染所引起的暴发和流行的呼吸道急性传染病
[1],其流行具有明显的季节性,气象因素、人口规模、流感病毒亚型都会影响其传播
[2]。根据世界卫生组织调查估计,全球每年大概有10亿人感染季节性流感病毒,季节性流感相关呼吸系统死亡病例每年29万~64万例[(4.0~8.8)/10万],其中75岁及以上老年人[(51.3~99.4)/10万]死亡率较高
[3]。流感与许多常见疾病存在关联,研究表明,流感病毒感染后3 d内心脏病发作和中风的风险增高
[4],流感与肺炎也存在密切关联,高达50%的肺炎病例与呼吸道病毒有关
[5]。近年来,随着抗生素耐药性问题日趋严重,流感病毒的防控面临着严峻的挑战。2019年3月,世界卫生组织发布了全球性流感防控策略以期进一步加强流感防控。此外,2019年年底一种恶劣的新型冠状病毒开始在世界范围流行,该病毒的入侵给我国带来了巨大的经济和生命财产损失,因其引发的症状与流感类似,具有传播迅速快和致死率高等特点,这也增加了人们对于流感的重视。
随着数学建模的普遍化,越来越多的预测模型用于疾病的预测,其中指数平滑法不适用于长期预测及波动较大的数据预测,对于大流行预测精度会下降;灰色理论模型对于有季节性的传染病的预测效果会受到影响,而自回归滑动平均混合模型(autoregressive integrated moving average,ARIMA)是一种广泛应用于非平稳时间序列分析的线性模型,具有较高的灵活性和参数可解释性,可用于分析时间序列数据中的长期趋势和周期性变动,短期预测效果较好,从国内外相关研究中得知,许多研究者充分证实了用ARIMA模型来预测传染病发病率或发病数是具有一定的可行性与准确性的
[6]。ARIMA模型是时间序列预测中常用的模型,在医学领域中也得到了很好的应用
[7-9]。因此,本研究采用乘积季节自回归移动平均(seasonal autoregressive integrated moving average,SARIMA) 模型对重庆市流感发病率进行预测,为卫生相关部门开展流感疾病防控提供必要的理论依据。
1 资料与方法
1.1 资料来源
流感最新数据来源于重庆市卫生健康委员会官网政务公开疫情信息,包含全市38个区县约3 000万总人口的流感总月度病例数据,人口数据从重庆市统计局获取,与统计年鉴人口总数相对应以获得2010年到2021年重庆市流感每月发病率,本研究数据真实可靠。
1.2 建立ARIMA模型
1.2.1 模型算法
ARIAM模型是一种常用的时间序列模型,由自回归模型(autoregressive model,AR)、差分过程(integrated,I) 和移动平均模型(moving average,MA)3部分构成,AR考虑了时间序列的自相关性,即当前值与过去观测值之间存在的线性关系、I用于处理非平稳序列,将数据平稳化可以使得建模效果更佳,MA考虑时间序列的随机波动性即当前值与过去的噪声项之间的关系。ARIMA模型要求数据符合平稳性且非白噪声序列,同时也需要足够长度的历史数据来捕捉时间序列的规律,对于非平稳序列需要进行差分并通过白噪声检验才可用ARIMA模型进行建模。
SARIMA模型以ARIMA模型为基础,又称为ARIMA乘积模型。因为时间序列的内部因素相互之间的关系是十分复杂的,有时候ARIMA模型不能满足建模的需要,此时就需建立SARIMA模型。乘积模型实际上为时间序列的短期相关性和季节效应相乘从而进行拟合,对ARMA和ARMA两者的参数进行相乘,结合d阶的趋势差分使序列平稳化和D阶S步季节差分运算,该模型的呈现形式用ARIMA(p,d,q)(P,D,Q)s来表示,若P=D=Q=0时,就变成简单的ARIMA模型。
1.2.2 建立模型
使时间序列平稳化:在建模初期,往往发现资料是不平稳的,所以本研究需要经过一系列的方法使它达到平稳性这一目的,获取手段有对数转换或差分等。
ARIMA模型的参数确定:简单的ARIMA模型的3个参数分别为p、d和q,它们的辨别方法主要通过看相关图得出。观察偏自相关函数图确定p值,自相关函数图可确定q值,差分阶数确定d值。在收集整理数据过程中,若发现数据是存在一定的季节趋势,就可以采用模型表达式为ARIMA(p,d,q)(P,D,Q)s的乘积季节ARIMA模型,确定P,D,Q三者的参数依旧是通过自相关图。通过上述步骤可以初步确定相应参数的值。
ARIMA模型的建立及预测:根据以上确定的参数来建立ARIMA模型,通过赤池信息量准则 (akaike information criterion,AIC)、贝叶斯信息准则(bayesian information criterion,BIC)筛选最佳模型来进行预测。
1.3 统计学方法
本次研究使用Excel 2010整理数据、建立数据库,接着使用R语言4.1.3软件建模。对重庆市2010年1月至2021年12月的发病率监测数据进行数据清理和统计。绘制重庆市流感发病率的时间分布图,以2010年1月至2021年6月的流感监测发病率为训练集,构建乘积季节ARIMA模型并预测2021年7月至2021年12月的发病率,比较预测值与真实值的误差评估模型预测的效果。
2 结果
2.1 模型建立
2.1.1 流行概况
图1为2010年至2021年重庆市流行性感冒发病率时间分布,主要呈现单峰特点,发病高峰在11月到次年1月,具有明显的季节性特征。从
图2的重庆市流感发病率变化趋势可以看出,2018年前重庆市流感发病率都比较低,2018年到2020年有增加到趋势,在2019年末达到最高,之后有下降趋势,但相对2018年前发病率依然较高。绘制2010年至2021年重庆市流感发病率的序列分解图(
图3),可以发现其具有明显的季节性特征且呈现波动上升趋势。
2.1.2 季节性差分处理
将2010年1月到2021年6月的数据作为训练集,将2021年7月至2021年12月的数据作为测试集,考虑到流感的周期性和季节性,对序列进行了一阶逐期差分及长度为12阶的季节差分,得到一个基本围绕0值波动的平稳序列(
图4),经单位根(augmented dickey-fuller test,ADF)检验,结果显示该序列是平稳的,对差分后的序列进行白噪声检验,延迟6阶和12阶的Ljung-Box检验统计量均小于显著性水平,认为该序列为非白噪声序列,可以用于构建时间序列模型。
2.1.3 构建时间序列模型
考察差分后序列的自相关图和偏自相关图(
图4),对模型的参数进行逐步试阶,对通过了残差白噪声检验和模型参数显著性检验的模型的AIC和BIC如
表1所示,进行拟合优度检验,根据AIC和BIC最小的原则,确定最优模型为
ARIMA(0,1,2)×(0,1,2)
12,其AIC和BIC分别为872.09和886.23,模型参数估计值如
表2所示,所有估计参数均通过显著性检验。
2.2 运用模型进行预测
用
ARIMA(0,1,2)×(0,1,2)
12模型对2021年7月至12月重庆市流行性感冒发病率进行预测,通过
表3和
图5可看出,虽然有部分月份的实际值与模型预测的区间是有偏的,但总体而言该模型的预测效果较好,预测值几乎都在95%置信区间内,均方根误差为10.70,平均绝对百分比误差为70.04%,可以用此模型对往后的年份进行预测。
3 讨论
随着大量有传染性流感病毒变异株的出现,短时间内流感将仍然存在,近年新型冠状病毒的出现起到了警示作用,我国对于流感的防治工作越来越重视。为了便于掌握疾病的变化趋势、提高卫生服务需求和卫生服务效率、保证居民健康水平,及时为相关疾病卫生防控部门配置医护人员等资源配置提供基础数据,对流感疾病进行科学准确的预测在医学管理范畴和防范决策范畴中是十分必要且关键的,这将是未来卫生部门工作的主要内容之一。
3.1 流行趋势
根据本文研究发现,每年的流感高峰出现在冬春季节,与重庆市以往的流感研究和全国大部分省市的流感研究类似
[10-14]。由此可见,本研究具有一定的代表性,可作为防控参考。另外,2019年重庆市流感发病率大幅上升,而后出现一个总体的下降趋势,该趋势的发生可能与同年全国暴发的新型冠状病毒疫情相关,使得该地区的流感监测力度有所增强,医院的就诊率升高。下降趋势可能的原因有:①可能与人群受疫情影响在家里封闭式管理有关;②卫生部门加强了对新冠病毒和流感的预防教育工作。2020年末又出现一个上升的趋势,表明疫情暴发期间流感仍然存在较强的季节性和周期性。
3.2 ARIMA模型拟合与预测的思考
当下数学模型与医学的联系已经相当紧密,许多模型诸如灰色GM预测、指数平滑模型预测、线性回归预测、ARIMA模型
[15-17]被用于疾病预测研究并取得诸多成果,其中,在有季节变动和周期性的数据中,ARIMA模型运用得较多,其在短期预测上效果更佳、精确度较高。本次研究通过对2010年1月到2021年6月的流感监测数据进行模型识别、估计、检验和预测,最终显示模型
ARIMA(0,1,2)×(0,1,2)
12的拟合效果较好,对2021年7月至12月数据进行预测,均方根误差为10.70,预测值与实际值存在差异可能是由于新冠疫情之后,社会防控措施力度加大以及居民对于传染病的防控意识普遍提高,居民更主动采取公共场合戴口罩、勤洗手消毒等措施降低了流感病毒感染的机会,因此实际值与预测值产生较大差异,考虑此因素后该模型的预测效果良好,可用此模型对该地区流感发病率进行预测。然而,观察发现2021年12月拟合度不高,流感发病率实际值与预测值的绝对误差较大,这也说明了此模型会存在一些局限性,即对于大流行之后的预测存在一定的偏差。此外,本研究还存在一些局限性。由于研究仅获得流感病例的月度发病资料,且检测数据可能存在漏报、误报等引起的报告偏倚。而流感的发生和传播是一个复杂的过程,所以需要考虑的因素也比较多,仅使用发病率进行预测会存在一定偏差,因此在未来的建模过程中,可以尝试使用神经网络来拟合、完善模型,同时需要考虑流感的影响因素,模型预测能力受部环境干扰较大,流感的发生会受到各种疾病防控力度的影响,比如新冠防控措施有效的减少了流感的发生
[18],这些因素在构建预测模型时需要及时调整以提高模型预测的准确度。
综上所述,本研究建立的模型适合运用到本次预测中。从预测的结果可知,未来还会有一定程度的季节性爆发,春冬季前后做好必要的防控措施。该结果对疾控和医院合理配置人力资源具有实际应用价值,卫生防控机构可以根据预测结果采取对应措施,如疾病控制中心可定期通过网络或者宣传栏普及流感防控知识,如提倡人们出门需佩戴好口罩,切断流感的传播途径,保持个人清洁,注意卫生,提高免疫力等。