摘要
客观的
目的描述2019 - 2020年金华市新生儿先天性心脏病(CHD)新发病例数的时间变化趋势,探索适合的模型来拟合和预测CHD趋势。
方法
2019年至2020年的冠心病数据来自一个健康信息系统。我们每周统计冠心病新生儿数,分别采用相加Holt-Winters ES方法和ARIMA模型拟合和预测金华市新生儿冠心病数。通过比较各种方法的均方误差、根均方误差和平均绝对百分比误差,评价不同方法预测新生儿冠心病数的效果。
结果
在2年的研究期间,金华市医院共收治新生儿1135例,其中女婴601例,男婴534例。2019年金华市新生儿冠心病患病率为0.96%。房间隔缺损是所有冠心病新生儿中诊断最多的。2019年和2020年新生儿冠心病病例数保持稳定。春季和夏季病例较少,11月和12月病例达到高峰。在预测冠心病新生儿数方面,ARIMA(2,1,1)模型相对于相加的Holt-winters ES方法具有优势,而ARIMA(2,1,1)模型的准确性不是很理想。
结论
冠心病的诊断与许多危险因素有关,因此在使用时间模型拟合和预测数据时,必须考虑这些因素的影响,并尽量将其纳入模型中。
简介
先天性心脏病(先天性心脏缺陷,CHD)是围产期婴儿最常见的出生缺陷之一,对健康和生命造成了极大的危害[1,2,3.].冠心病包括许多类型,如心脏内部的空洞,使血液无法正常流动。在一些病例中,冠心病可以在出生时被检测到。有时,这些问题可能直到成年后才被发现。4].2015年,据报道,全球有4890万人患有冠心病[5].冠心病是出生缺陷相关死亡的主要原因之一,2015年导致超过30万人死亡[6].冠心病在发展中国家的发病率通常高于发达国家[7,8].2016年北京市冠心病患病率约为7.77 / 1000,2010-2017年北京市共确诊危重冠心病1851例,患病率为10.43 / 10000 [1,9].先前的研究已证实遗传和环境因素是冠心病的危险因素[10].然而,目前还没有有效的方法来预防冠心病。
时间序列是将统计指标的数值按时间顺序排列,形成相应的序列。在研究某些传染病或疾病事件的时间序列时,它们的长期趋势、季节性模式、周期性或节律性模式可以模拟和预测未来的疫情。几十年来,时间模型得到了很大的发展,可分为确定性模型和随机模型。确定性模型通常适用于具有典型变化特征的时间序列。而传染病数据并不总是具有一些典型的变化特征,这使得确定性模型产生的随机误差项不能满足随机性的条件。因此,研究人员通常选择随机模型而不是确定性模型对疾病事件进行时间序列分析。基于时间模型的时间序列分析在流行病学中得到了广泛的应用,如流感、疟疾等疾病的数据拟合。Spaeder等人利用2009年实验室证实的H1N1流感发病率数据建立了Box-Jenkins模型,用于预测2010-2011年H1N1流感发病率[11].结果表明,Box-Jenkins模型的95%置信区间(95% CI)对该机构的预测精度为±3.6例/ 3天,提示该模型可能是预测甲型H1N1流感发病率的有效工具。Alegana等人使用贝叶斯时空条件自回归模型拟合2006 - 2009年阿富汗的疟疾数据[12].他们发现疟疾发病率通常在8月和11月达到高峰,这一发现将对当地的疟疾病例管理做出很大的贡献。为了确定西班牙因肺栓塞(PE)住院的可能趋势和季节性模式,Guijarro等人使用了一些不同的方法生成了一个预测时间序列模型,该模型显示住院的PE发病率呈线性增长和季节性模式[13].
采用指数平滑法(ES)和自回归综合移动平均模型(ARIMA)等方法拟合2019-2020年浙江省金华市新生儿冠心病周发病数,并对3个月(12周)新生儿冠心病周发病数进行预测。我们假设了一个合适的时间模型,可为浙江省金华市新生儿冠心病流行趋势的研究提供参考,并有助于采取合理的疾病预防措施。
方法
冠心病的研究区域和数据
本研究在中国浙江省第四大经济发达地区金华市进行。金华位于浙江省中部,总面积10942公里2.据官方人口统计,2020年金华市常住人口7050683人。
我们通过健康信息系统(HIS)收集了2019 - 2020年金华市所有医院的新生儿数据。新生儿冠心病的诊断和分类由有资格的医生根据超声结果进行。使用之前的算法对冠心病新生儿进行分类,该算法基于胚胎相关缺陷表型对冠心病进行分类[14,15].这些缺损表型主要包括动脉导管未闭(PDA)、房间隔缺损(ASD)、室间隔缺损(VSD)和卵圆孔未闭(PFO)。由于病例数量较少,其他表型被统一归类为其他。人口资料来源于《金华市统计年鉴》。
统计分析
每周统计冠心病新生儿数,分别采用ES法和ARIMA模型对金华市新生儿冠心病数进行拟合和预测。
ES是由Robert G. Brown提出的生产预测中常用的方法,也用于中长期经济发展趋势的预测。ES方法的基本原理是对时间序列数据的观测值赋予不同的权重。与早期的数据相比,近期的数据会被赋予更大的权重,这样可以更好地消除噪声的影响,得到更合理可靠的模型。根据平滑过程的次数和参数的不同,ES方法可分为基本指数平滑法、双指数平滑法和三指数平滑法[16,17,18].基本的指数平滑方法是只对训练数据进行一次指数平滑。双指数平滑法采用两次指数平滑,通常适用于具有线性趋势的时间序列。与基本指数平滑法和双指数平滑法相比,三指数平滑法应用了三次指数平滑,在模型中加入了季节效应。设α为平滑因子(0 < α < 1),可得:
平滑的统计数据在哪里年代t是当前观测结果的简单加权平均数吗yt和之前平滑的统计量年代t−1.因此,基本指数平滑法、双指数平滑法和三指数平滑法分别可表示为:
双指数平滑模型,又称线性预测模型,其公式为:
原始观测数据序列用什么表示yt从时间t = 0开始。我们使用一个t表示时间t的平滑值,并且bt是我们对t时刻趋势的最佳估计。算法的输出现在写为\({\帽子{Y}} _ {t + t} \), t >在t + t时刻x的值的估计,基于到t时刻的原始数据,α为数据平滑因子,0 < α < 1。
具有乘法季节性的三重指数平滑模型,公式为:
自回归综合移动平均模型(ARIMA),又称Box-Jenkins模型,是一种经典的非平稳时间序列建模方法。一般情况下,需要将非平稳时间序列转换为平稳时间序列,然后根据迟滞值和前面的随机误差项进行回归,建立ARIMA模型。根据原序列的稳定性和回归中包含的部分,ARIMA模型通常分为移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)和ARIMA过程。模型被写成ARIMA(p, d, q),其中p描述AR部分,d描述集成部分,q描述MA部分。ARIMA模型可表示为:
在哪里Yt表示响应序列,εt表示t时刻的随机误差,∅(b) = 1−∅1B−∅2B2−−…∅PBP表示自回归算子,θ(B) = 1−θ1B−θ2B2−…−θPBP表示移动平均算子,和∅(B)∆dYt表示同一周期内不同周期点之间的相关性。当P = D = Q且它们都等于0时,该模型是一个简单的ARIMA模型。
数据集的最后3个月(12周)被划分为测试集,以评估不同时间序列模型的准确性。我们用赤池信息准则(AIC)来评价每种方法的拟合效果。模型的预测效果通常以预测值与实际值的差值来评价,即误差。通过比较各种方法的均方误差(MSE)、均方根均方误差(RMSE)和平均绝对百分比误差(MAPE),评价不同方法预测新生儿冠心病数的效果。
时间序列分析使用R 3.6.3和结果P≤0.05为显著值。
结果
一般特征
在2年的研究期间,金华市医院共收治新生儿1135例,其中女婴601例,男婴534例。2019年金华市新生儿冠心病患病率为0.96%。金华市平均每周有10例新生儿患冠心病。女婴患冠心病的新生儿中位数高于男婴(6.0比5.0)。金华市1周内确诊新生儿冠心病31例。在所有冠心病新生儿中,ASD的诊断率最高,占所有受试者的81.9%。81.6%的冠心病男婴被诊断为ASD,而82.0%的冠心病女婴被诊断为ASD。在冠心病新生儿中,PDA是第二大常见表型,占所有被试的64.3%,男婴和女婴的构成比分别为63.7和62.4%(表2)1).
冠心病的趋势
虽然本研究的持续时间不够长,但仍然可以看出冠心病的流行病学趋势是周期性的(图1)。1).总体而言,2019年和2020年新生儿冠心病病例数保持稳定。春季和夏季病例较少,11月和12月病例达到高峰。男女新生儿冠心病发病趋势与总受试者相同,无明显差异。
拟合结果
我们首先用相加的Holt-winters ES方法拟合了金华市冠心病的时间序列数据。拟合结果如图所示。2.加性ES模型在拟合前期表现良好,但在后期对训练集数据拟合效果不佳。参数估计结果表明,该时间序列没有明显的季节性,ES模型不能很好地拟合长期趋势。水平平滑因子、季节平滑因子和趋势平滑因子均小于0.001,无显著性(P< 0.05)。
然后利用ARIMA模型对训练集数据进行拟合。根据对原始序列的观察和Kwiatkowski-Phillips-Schmidt-Shin检验的结果,我们可以发现金华市冠心病病例的时间序列是非平稳的(KPSS Level = 0.834,P= 0.01)。因此,我们做了一阶微分以使其平滑。一阶差分后的自相关和偏相关结果如图所示。3..
结果表明,差分后的序列以0为中心随机波动,表明该序列是稳定的。结合自相关图和部分自相关图的信息,最后尝试建立ARIMA(2,1,1)模型。ARIMA(2,1,1)模型的残差如图所示。4.采用Dickey-Fuller检验对静止态进行检验。
采用最小二乘方法对差分序列建立ARIMA(2,1,1)模型,结果表明,一阶移动平均模型的参数为−0.588,一阶自回归模型和二阶自回归模型的参数分别为−0.133和0.156。分别。AIC为557.48,该ARIMA(2,1,1)模型为:
不同模型的比较
分别采用加性ES模型和ARIMA(2,1,1)模型对金华市12周新生儿冠心病周发病数进行预测。计算每种方法的均方误差(MAPE)、均方误差(RMSE)以比较预测效果2).
结果表明,ARIMA(2,1,1)模型的MSE、MAPE和RMSE均小于相加Holt-winters ES方法(MSE为84.83,MAPE为226.07,RMSE为9.21)。最终确定最适合金华市新生儿冠心病新发病例的预测模型为ARIMA(2,1,1)模型。
讨论
本研究描述了2019 - 2020年浙江省金华市新生儿冠心病的时间趋势,分别采用相加Holt-winters ES方法和ARIMA模型对金华市新生儿冠心病周发病数进行拟合和预测。本研究共纳入1135例冠心病新生儿,金华市平均每周10例冠心病新生儿。ASD是最常见的冠心病类型,占所有受试者的81.9%。新生儿周新发冠心病病例数每年均有明显的高峰和低谷,季节性不明显。在预测冠心病新生儿数方面,ARIMA(2,1,1)模型相对于相加的Holt-winters ES方法具有优势,而ARIMA(2,1,1)模型的准确性不是很理想。
冠心病是一种最常见的先天性异常,给儿童及其家庭带来了严重的情感和经济负担。先前的研究表明,包括冠状动脉疾病在内的一系列畸形(也在基因组重排综合征中描述)在新生儿中难以诊断[19].冠心病的病因尚不明确。孕妇孕期暴露与婴儿冠心病密切相关[20.,21,22].一些研究表明,怀孕期间的感染(如德国麻疹)、接触有毒物质和叶酸缺乏可能是冠心病的危险因素[10,23,24].由于CHD通常发生在胚胎发生过程中,在此期间通过检查很难发现。有些冠心病可以通过胎儿超声心动图在产前诊断,而有些冠心病通常在出生后不久,有时甚至多年后才被诊断出来[25].
在本研究之前,很少有研究描述和分析新生儿冠心病的流行趋势。我们发现新生儿年冠心病患者数在年初较低,然后逐渐增加,在年底达到峰值。然而,没有观察到明显的季节性趋势。这一现象可能与中国的某些社会因素有关,比如在春节期间新生儿患冠心病的数量是最低的,即新生儿患冠心病的数量受医院诊断能力的限制。我们的研究表明,在假日期间增加医院的容量可以使更多的冠心病新生儿得到及时的诊断和治疗。需要更多的数据来确认和进一步发现新生儿冠心病发病率的其他模式。
ARIMA模型是非平稳时间序列分析中最常用的方法,它可以从原始序列中综合趋势因素、长期因素和随机误差,通过将非平稳时间序列转化为平稳时间序列,提取确定性信息。ARIMA模型广泛应用于各个领域,在预测方面具有良好的效果。Omar等人从文章标题中提取词语,提出了一种基于ARIMA模型的新型混合神经网络模型来预测销售额[26].在瑞典,研究人员用它来估计青少年中大麻和酒精使用之间的联系[27].Cortes等人也试图通过ARIMA模型估计巴西两个城市登革热发病率的时间模式[28].此外,ARIMA模型也是目前比较流行的机器学习技术之一,它甚至可以用来预测污水处理厂的接收水量[29].我们尝试使用ARIMA(2,1,1)模型拟合浙江省金华市冠心病新发病例的原始数据。预测值与原值之间的误差较小,说明采用该模型进行预测在一定程度上是可行的。
ES法也是一种非常常用的方法,它直观、适应性强、操作简单。我们可以通过给观测值赋予不同的权重来预测未来的数据。ES方法可以拟合时间序列序列的长期趋势、循环波动和随机波动。由于一些观测值为零,我们没有使用乘法ES方法,而只使用加法Holt-winters ES方法来拟合数据。结果表明,在对金华市冠心病新发病例的预测过程中,加性Holt-winters ES方法的预测效果不如ARIMA模型。一般情况下,加性霍尔特-温特斯ES方法的预测值低于原始值。结果表明,当原始序列出现突然波动时,加性Holt-winters ES方法不能很好地拟合时间序列序列。1如图所示,年底冠心病病例数有明显下降,这可能会影响模型的效果。
我们的研究有一些局限性。首先,我们的数据比较单一,无法充分讨论冠心病的危险因素。其次,我们的研究只包括了2019 - 2020年的数据,需要更多的观察来完善我们的模型。最后,我们的模式相对简单,神经网络方法可以用来预测未来的案件数量。我们的研究也有一些优势。首先,我们描述了新生儿冠心病的时间趋势,这在以前很少被提及。其次,我们的研究数据来自金华市所有医院,数据可靠,覆盖区域全面。冠心病的发生和诊断与许多危险因素有关,因此在使用时间模型拟合和预测数据时,必须考虑这些因素的影响,并尽量将其纳入模型中。
结论
总的来说,尽管ARIMA(2,1,1)在预测浙江省金华市新生儿每周新发冠心病病例方面优于相加的Holt-winters ES方法,但时间序列模型在预测新发冠心病病例方面的准确性仍有不足。需要收集更详细的病例信息,并需要改进的时间序列模型来预测未来新生儿中冠心病的新病例数量。
数据和材料的可用性
本研究中使用和分析的数据集可根据合理要求从通讯作者处获得。
缩写
- 冠心病:
-
先天性心脏病
- 95%置信区间:
-
95%置信区间
- ES:
-
指数平滑法
- 华宇电脑:
-
自回归综合移动平均
- 他:
-
卫生信息系统
- PDA:
-
动脉导管未闭
- 自闭症谱系障碍:
-
心房中隔缺损
- 房间隔缺损:
-
心室中隔缺损
- 卵圆孔未闭:
-
卵圆孔未闭
- 马:
-
移动平均线
- 基于“增大化现实”技术:
-
自回归
- ARMA:
-
自回归移动平均
- 另类投资会议:
-
Akaike信息标准
- 均方误差:
-
均方误差
- RMSE:
-
根均方误差
- 日军:
-
平均绝对百分比误差
参考文献
王东,金玲,张娟,王丽,任安,金丽。产妇胎周补充叶酸与胎儿先天性心脏缺陷的风险。J Pediatr。2021;240:72-8。
Dolk H, Loane M, Garne E,欧洲先天性异常的监测工作G.欧洲先天性心脏缺陷的患病率和围产期死亡率,2000 - 2005。循环。2011;123(8):841 - 9。
合作者GBDCoD。1980-2017年,195个国家和地区282种死因的全球、区域和国家年龄性别死亡率:2017年全球疾病负担研究的系统分析。柳叶刀》。2018;392(10159):1736 - 88。
多尔贝克K,米克西北部。先天性心脏病。美国北部新兴医学临床。2011;29(4):811-27 vii。
1990-2015年310种疾病和伤害的全球、区域和国家发病率、患病率和残疾寿命:2015年全球疾病负担研究的系统分析。柳叶刀》。2016;388(10053):1545 - 602。
C. 1980-2015年全球、区域和国家249种死因的预期寿命、全因死亡率和死因特异性死亡率:2015年全球疾病负担研究的系统分析。柳叶刀》。2016;388(10053):1459 - 544。
吴伟,何静,邵晓。1990-2017年全球、地区和国家层面先天性心脏病发病率和死亡率趋势。医学(巴尔的摩)。2020; 99 (23): e20593。
刘勇,陈思,Zuhlke L, Black GC, Choy MK, Li N,等。1970-2017年全球先天性心脏缺陷出生患病率:260项研究的最新系统综述和荟萃分析。国际流行病学杂志2019;48(2):455-63。
张伟,徐海辉,张永春,刘克波。北京地区新生儿严重先天性心脏缺陷延迟诊断预测危险因素和生存率的回顾性研究中国国际医学杂志,2021;49(7):3000605211028028。
Virani SS, Alonso A, Benjamin EJ, Bittencourt MS, Callaway CW, Carson AP,等。心脏病和中风统计数据-2020年更新:来自美国心脏协会的一份报告。循环。2020;141 (9):e139 - 596。
Spaeder MC, Stroud JR, Song X.预测甲型H1N1流感对儿童医院影响的时间序列模型。论文感染。2012;140(5):798 - 802。
Alegana VA, Wright JA, Nahzat SM, Butt W, Sediqi AW, Habib N,等。2006-2009年阿富汗间日疟原虫和恶性疟原虫疟疾发病率建模。《公共科学图书馆•综合》。2014;9 (7):e102304。
gujarro R, Trujillo-Santos J, Bernal-Lopez MR, de Miguel-Diez J, Villalobos A, Salazar C,等。肺栓塞住院的趋势和季节性:时间序列分析。中华血液学杂志。2015;13(1):23-30。
吴XX,葛荣祥,黄磊,田飞,陈亚云,吴丽丽,等。孕前糖尿病在母体肥胖与先天性心脏缺陷风险之间起中介作用。糖尿病杂志。2021;13(2):367-74。
Botto LD, Lin AE, Riehle-Colarusso T, Malik S, Correa A, National Birth Defects Prevention S.寻找病因:在病因学研究中分类和评价先天性心脏缺陷。出生缺陷研究与临床畸胎瘤杂志。2007;79(10):714-27。
Anggrainingsih R, Aprianto GR, Sihwi SW,编辑。利用指数平滑预测Sebelas mararet大学网站访问量的时间序列预测。2015第二届信息技术、计算机和电气工程国际会议(ICITACEE)。2015.14 - 19页。
Bermúdez JD, Segura JV, Vercher E. Holt-Winters预测:应用于英国航空乘客数据的替代公式。应用统计2007;34(9):1075-90。
用指数加权移动平均线预测销售。等科学。1960;6(3):324 - 42。
Falsaperla R, Giacchi V, Aguglia MG, Mailo J, Longo MG, Natacci F,等。新生儿先天性心脏病的单基因综合征(新生儿医师的诊断线索):一项具有系统文献回顾的批判性分析。儿科学杂志。2021;10(3):173-93。
维纳SL,沃尔夫DS。母亲心血管疾病与后代健康之间的联系。中华心血管杂志。2021;37(12):2035-44。
Bolin EH, Gokun Y, Romitti PA, Tinker SC, Summers AD, Roberson PK,等。母亲吸烟与先天性心脏缺陷,国家出生缺陷预防研究,1997-2011。J Pediatr。2022;240:79 - 86。
余旭,苗红,曾强,吴红,陈勇,郭鹏,等。妊娠早期环境热暴露与先天性心脏缺陷风险之间的关系:一项基于大规模人群的研究。环境科学与环境科学,2019;29(5):7627-38。
刘s, Joseph KS, Luo W, Leon JA, Lisonkova S, Van den Hof M,等。加拿大强化叶酸食物对先天性心脏病亚型的影响。循环。2016;134(9):647 - 55。
张松,王磊,杨涛,陈磊,赵磊,王涛,等。父母饮酒与后代患先天性心脏病的风险:一项更新的系统综述和荟萃分析欧洲预防心脏病杂志2020;27(4):410-21。
Brida M, Gatzoulis MA。成人先天性心脏病:过去、现在和未来。Acta Paediatr。2019;108(10):1757 - 64。
基于ARIMA和文章标题搜索热度的混合神经网络销售预测模型。计算智能神经科学2016;2016:9656453。
Gripe I, Danielsson AK, Ramstedt M.瑞典青少年中饮酒的变化与大麻使用的变化有关吗?1989-2016年的时间序列分析。上瘾。2018;113(9):1643 - 50。
Cortes F, Turchi Martelli CM, Arraes de Alencar Ximenes R, Montarroyos UR, Siqueira Junior JB, Goncalves Cruz O,等。巴西两个城市登革热监测数据的时间序列分析。Acta太多。2018;182:190-7。
Ansari M, Othman F, Abunama T, El-Shafie a.分析机器学习技术开发综合进水时间序列模型的准确性:以马来西亚污水处理厂为例。环境科学与环境学报,2018;25(12):12139-49。
确认
我们感谢金华市医院的护士、临床医生和管理人员对本研究的参与和支持。
资金
本研究得到了浙江省重点研发计划项目(2020C03120)和国家科技支撑计划项目(2019YFC0840702)的资助。
作者信息
作者和联系
贡献
徐卫泽:概念化,数据策划,形式分析,方法论,写作-初稿,写作-审阅和编辑。邵泽华、楼红亮:数据策展、概念化、形式分析。齐建川、朱继华:数据策展。李蝶:数据策划,形式分析。强书:监管,资金获取。作者(们)阅读并批准了最终稿。
相应的作者
道德声明
伦理批准和同意参与
所有研究方案均经浙江大学医学院儿童医院伦理委员会批准。本研究中使用的所有数据在使用前都是匿名的。这项研究是根据《赫尔辛基宣言》进行的。本研究已获得浙江大学医学院儿童医院伦理委员会的知情同意豁免。所有方法均按照申报中的相关指导方针和规定进行。
同意出版
不适用。
相互竞争的利益
作者声明他们没有竞争利益。
额外的信息
出版商的注意
188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。
权利和权限
开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献放弃书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。
关于这篇文章
引用这篇文章
徐、W。邵,Z,卢,H。et al。新生儿先天性心脏病的预测:Holt-Winters指数平滑和自回归综合移动平均模型的比较分析。BMC医学治疗方法22257(2022)。https://doi.org/10.1186/s12874-022-01719-1
收到了:
接受:
发表:
DOI:https://doi.org/10.1186/s12874-022-01719-1
关键字
- 先天性心脏病
- 新生儿
- 时间序列
- Holt-Winters指数平滑法
- 自回归综合移动平均模型