跳到主要内容

Mann-Kendall-Sneyers测试,以确定美国COVID-19时间序列的变化点

摘要

背景

时间序列分析中的一个关键变量是变化点,它是在按时间顺序观测中发生突变的点。现有的用于变化点检测的参数模型,如线性回归模型和贝叶斯模型,要求观测值是正态分布的,并且趋势线不能有极端的可变性。为了克服参数模型的局限性,我们采用非参数方法——曼-肯德尔- sneyers (MKS)检验,对美国疫情爆发早期州级COVID-19病例时间序列数据进行了变点检测。

方法

采用MKS测试实现了变更点检测。向前和向后顺序是根据2020年3月22日至2021年1月31日期间50个州每周新增病例计算的。两个序列之间落在95%置信区间内的交点被确定为变化点。结果与另外两种变点检测方法,即剪枝精确线性时间法(PELT)和基于回归的变点检测方法进行了比较。此外,还开发了Microsoft Excel开放访问工具,以方便模型的实现。

结果

通过将MKS检验应用于美国的COVID-19病例,我们发现30个州(60.0%)在95%置信区间内至少有一个变点。在这些状态中,26个状态有一个更改点,4个状态(即LA、OH、VA和WA)有两个更改点,一个状态(GA)有三个更改点。此外,在第一发展阶段(2020年3月23日至5月31日),东北部各州(如康涅狄格州、马萨诸塞州、新泽西州、纽约州)出现了大部分向下的变化;在第三个发展阶段(2020年11月19日至2021年1月31日),西部各州(如AZ、CA、CO、NM、WA、WY)和中西部各州(如IL、in、MI、MN、OH、WI)的上升变化最多。

结论

这项研究是首次探索MKS测试应用于COVID-19病例变化点检测的潜力。MKS测试具有计算效率高、易于实现、能够识别方向变化、对数据分布不做假设等优点。然而,由于MKS检验在变化点检测方面的保守性和与其他方法的适度一致性,我们建议主要使用MKS检验进行初始模式识别和数据修剪,特别是在大数据中。经过修改,该方法可以进一步应用于其他健康数据,如伤害、残疾和死亡率。

同行评审报告

背景

2019冠状病毒病(COVID-19)大流行扰乱了人类社会的方方面面。由于该疾病具有高度传染性,美国各州政府已采取了保持社会距离措施(如关闭非必要企业、区域封锁和强制蒙面),以遏制病毒传播,并拉平疫情曲线(计划免疫曲线)[1].然而,由于这些国家层面的措施在政策执行力度和时间表上存在差异,很难依靠一个简单的标准来评估政策的有效性。另一个步骤是通过分析COVID-19病例的时间序列,这最终可以帮助利益相关者制定积极的卫生政策,例如确定缓解社交距离的最佳时间。

时间序列分析中的一个关键变量是变化点,也称为拐点,它是在按时间顺序观测中突然发生变化的点。变化点检测在统计理论中应用已久[2],但其在COVID-19中的应用还相对较少。例如,在对COVID-19病例建模时,大多数研究将变化点定义为政策干预或社会事件的关键日期[13.].其他研究采用了参数模型,如线性回归模型[45]和贝叶斯模型[67]来推导变化点。然而,这些参数模型大多要求观测值是正态分布的,并且趋势线不能有极端的可变性。在观测结果显示随时间变化较大且趋势线不能很好拟合的情况下,参数模型变得不那么可靠。这些情况在拟合COVID-19免疫指数曲线时并不罕见,因为疾病进展具有相当程度的不确定性和可变性[1].

为了克服参数模型的局限性,我们应用了一种称为Mann-Kendall-Sneyers (MKS)检验的非参数模型来改变COVID-19计划免疫曲线中的点检测。MKS测试,由Mann [8,用于检测时间序列数据中的单调趋势(如上升、下降)及其对应的变化点。该模型主要应用于地球科学研究,以表征气候和环境变量的波动,如降雨量、气温和地表径流[91011].最近,一些关于COVID-19的研究使用了曼-肯德尔(MK)检验(MKS检验的早期版本)进行趋势检测[1213].虽然MK检验在检测单调趋势方面有用,但它不能检测趋势的变化和相应的变化点,因此在中长期疾病跟踪和监测方面用处不大。MKS检验,作为MK检验的顺序扩展[14,填补了这一空白。它可以成为长期疾病监测的宝贵工具,从而支持公共卫生决策。

本文的贡献如下。

  • 本文首次将MKS检验应用于COVID-19时间序列分析。

  • 本文确定了国家COVID-19病例的6个变化点模式。

  • 本文开发了一种用于模型实现的开放存取工具。

方法

非参数MKS检验[15],通常称为顺序Mann-Kendall-Sneyers检验,已应用于长期时间序列数据(如水文变化、气候变化)的变化点检测。根据美国疾病控制和预防中心(CDC)的报告,社交距离和大规模集会都可能导致区域COVID-19病例的突然变化,尽管方向不同[16].然后,我们评估了MKS检验在短期时间序列数据(COVID-19感染病例)中变化点检测的潜力。

在本节中,我们首先阐明MKS测试。然后,我们用一个例子来演示模型的实现。

方法描述

应用于COVID-19时间序列数据的MKS测试可分三个主要步骤完成。

步骤1:导出测试统计信息(年代k

我们将每周新增病例作为45周时间序列数据中的独立观察。在新病例发展保持稳定的零假设下,对于每个状态,我们有每周新病例的时间序列:X= {x1,x2,x3....xN},n所观察的总周数(N在我们的案例研究中= 45)。= 1, 2,…N)表示元素总数xjxj<),xj<x

基于,检验统计量年代k得到累积的,如式所示(1).

$ ${年代}_k = \ sum_ {i = 1} ^ k {m} _i \ \离开(k = 1, 2, 3, \点,N \右)$ $
(1)

的平均值年代k可由式导出(2).

$ $ E \离开({}_k \右)= k \左(k - 1 \右)/ 4 $ $
(2)

的方差年代k可由式导出(3.).

$ $ VAR \离开({}_k \右)= k \左(k - 1 \) \左(2年级\右)/ 72 $ $
(3)

步骤2:推导两个序列(Uf而且Ub

接下来,我们推导出两个序列,正向序列Uf这是逆向序列Ub,基于这三个变量(年代kE年代k),VAR年代k)在等式中。(1)通过(3.).具体来说,是正向序列Uf的值由式[导出4].

$ ${你}_f = \离开({年代}_k-E \左({年代}_k \) \右)/ \√{VAR \离开({年代}_k \右)}$ $
(4)

然后,我们反转原始时间序列的序列X并将其命名Xr.中间序列Ufr是通过应用Eq. (4)到反转的时间序列Xr.中值的顺序颠倒Ufr(即,第一个值出现在最后一个值,反之亦然)。我们生成逆向序列Ub在颠倒的值后面加一个负号。

步骤3:推导变更点

最后,我们确定了时间序列的变化点X根据生成的两个序列(Uf而且Ub).我们首先确定初始的变化点集作为两个序列之间的交点。以往的研究表明,将所有这些变化点都认定为突变是不确定的,因为一个变化点可能是由两个稳定时期的平均值突然变化引起的[17].这些离群点可以通过使用额外的检测方法重新评估,例如双质量曲线[18].为了避免错误计算变化点,同时使所提出的方法更适用,我们使用了一个统计过滤器——超出95%置信区间(ci)的交点(对应于Z-scores =±1.96)被拒绝。该过滤器已用于相关的MKS研究[19].值得注意的是,MKS检验还可以识别单调趋势或方向的变化——如果一个交点在0到1.96之间,则变化是向上的;如果这个点在- 1.96和0之间,变化是向下的。

模型实现

在本节中,我们以弗吉尼亚州为例,进一步详细说明模型实现。MKS测试可以通过调用嵌入式函数在Microsoft Excel中实现。数据集和代码可在GitHub (https://github.com/peterbest52/mks).

数据清理

2020年3月22日至2021年1月31日(共45周)期间的每日累计确诊COVID-19病例数据来自USAFacts网站(https://usafacts.org/data/).然后,我们每周汇总数据,为每个州生成一个代表每周新病例的45周时间序列。最后,为了演示该方法,我们提取了弗吉尼亚州的数据作为时间序列X

MKS测试

对于时间序列X,我们得到,本周case值大于前一周case值的累计次数。按照这一步,年代k是累积的吗= 1, 2,…k),根据式(1);的均值年代kE年代k的方差年代kVAR年代k)由方程导出。(2)及(3.),分别。值得注意的是,自从k是方程中唯一的自变量。(2)及(3.),E年代k),VAR年代k)在这项研究中,所有州都是一样的。根据式(4),推导出正向序列Uf弗吉尼亚州(图中实线)。1).

图1
图1

弗吉尼亚州每周新增病例的MKS测试,向前序列(实线)和向后序列(虚线)。黑点为确定的变更点,白点为排除的变更点

然后,我们反转时间序列X和派生Xr.我们推导了中间序列Ufr应用式(4)Xr.最后,我们推导了逆向序列Ub(图中虚线。1),即先将中数值的顺序颠倒Ufr然后给这些值加上一个负号。

变点检测

正向序列(Uf)和反向序列(Ub)分别绘制为实线和虚线(图;1).两个序列的交点就成为了变换点的初始集合。以95% ci的阈值(Z-scores =±1.96)为统计过滤器。只保留阈值内的变更点。具体来说,在弗吉尼亚的案例中,最初发现了三个交点。第4周(图中A点)1)和第43周(图中C点)1)被确定为具有统计可信度的最终变更点。第8周(图中B点)1)被排除在外(Z-score = 2.72),因为它超出了阈值。因为A点和C点的z分数都在0到1.96之间,所以这些变化是向上的。

结果

通过将MKS测试应用于50个州的每周新发COVID-19病例,我们发现30个州(60.0%)在95% ci内至少有一个变点。对于不合格状态,大多数状态在95% ci内没有更改点,但在95% ci之外至少有一个更改点。只有佛蒙特州在95% ci范围内或以上都没有变化点,这意味着在整个研究期间没有病例突然减少或增加。

为了表征这些变化点的时间分布,我们进一步将研究期分为三个疾病发展阶段,即第1 - 10周(2020年3月23日至5月31日)、第11-30周(2020年6月1日至11月19日)和第31 - 45周(2020年11月19日至2021年1月31日)。这三个阶段由三组按时间顺序排列的变化点决定,如图所示。2.基于这三个发展阶段,我们绘制出每个状态的变化点的出现,如图所示。3.

图2
图2

基于按时间顺序排列的变化点集群的三个发展阶段

图3
图3

每个状态的变化点的出现一个在第一阶段(1-10周),b第二阶段(第11-30周),以及c第三阶段(31-45周)。该地图由作者绘制

数字4显示了在95% ci范围内至少有一个变化点的30个州的MKS检验检测到的变化点。在这些状态中,我们确定25个状态存在一个变更点,4个状态存在两个变更点(即LA、OH、VA和WA),一个状态存在三个变更点(即GA)。然后,根据三个阶段变化点的出现和方向,我们进一步推导出6种变化模式,如表所示1

图4
图4

至少确定了一个变更点的州。横轴为周;纵轴是每周新病例归一化到0-100%,相对于每个州的每周最大新病例数

表1基于三个阶段变化点的出现和方向的变化模式总结

讨论

表中有两种流行病学模式1.首先,第一阶段的下降变化(模式4)仅出现在东北部各州(如CT、MA、NJ、NY),如图所示。3.a.这种模式可以用该地区在疫情爆发初期立即采取的保持社交距离的国家政策行动来解释。2020年3月1日,总统宣布2019冠状病毒病进入全国紧急状态[20.],东北部大多数州在3月底和4月初执行了保持社交距离的规定,包括关闭非必要的企业和学校[21].这些政策在很大程度上限制了面对面的互动,减缓了病毒的扩散,最终抑制了免疫指数曲线。第二,第三阶段的上升变化主要出现在西部各州(如AZ、CA、CO、NM、WA、WY)和中西部各州(如IL、in、MI、MN、OH、WI),如图所示。3.c.这一结果与大多数西部和中西部州在夏末和秋季突然出现病例激增的观察结果一致[22].这一上升趋势可能与它们的重新开放政策不那么严格有关,尤其是在没有全州范围内强制要求蒙面的情况下重新开放室内餐厅。23].

为了进一步验证MKS检验,我们将其与另外两种变点检测方法进行了比较,即剪枝精确线性时间(PELT)方法和基于回归的方法(表2)2),两者通常用于检测时间序列数据中的多个变化点。具体来说,PELT方法通过最小化变更点可能数量和位置上的代价函数来搜索变更点,并实现了有效的修剪以提高计算效率[2425].基于回归的方法使用具有多个段的回归模型分析时间序列,其中系数从一个稳定的回归关系转移到另一个稳定的回归关系。它实现了一种动态规划方法来寻找可以最小化残差平方和的段[2627].我们使用R中的' changepoint '包实现了PELT方法[25]和基于回归的方法,使用R中的' strucchange '包[28].

表2三种方法识别的变更点(CP)的总结

验证测试mks识别的变更点是否可以通过其他两种方法确认。如果mks识别的变更点在两周的窗口内被另一种方法验证,则接受确认。对比结果见表2.基于mks识别的36个变化点,mks检验与PELT方法的一致性为41.7%(15/36),与基于回归的方法的一致性为47.2%(17/36)。值得一提的是,其他两种方法为每个状态确定了至少一个更改点,即使没有明显的方向更改。对比结果表明,MKS检验是一种相对保守的变化点检测方法,它只能检测突变,可以避免假阳性结果。

结论

综上所述,MKS检验在变化点检测方面有几个优势。首先,它具有计算效率高、易于实现的特点。用户可以轻松地在Microsoft Excel中实现此方法,而无需任何统计知识或建模技能。其次,该方法可以检测到方向的变化,而其他一些方法(如PELT)只能识别变化的存在,而不能指定方向。第三,由于MKS检验是一个非参数模型,它可以应用于非正态分布或具有极端可变性的时间序列数据。然而,由于它的保守性和与其他较慢但更敏感的方法的适度一致性,我们建议将MKS测试主要用于初始模式识别和数据修剪,特别是在大数据中。例如,为了识别COVID-19感染数据长序列中的变化点,我们可以首先使用MKS检验缩小可能发生变化的时间窗口,然后使用第二种方法(计算成本更高,但更敏感)重新确认变化模式。此外,由于MKS检验的保守性可以通过调整统计滤波器的宽度很容易地修改,因此未来的研究应该研究从MKS检验中得到的结果质量如何随着统计滤波器的函数而变化。

这项试点研究是首次在COVID-19研究中实施MKS测试。开发了一个开放获取工具来促进模型的实现。通过进一步验证和修改,该方法可以应用于其他健康数据,如伤害、残疾和死亡率。通过确定按时间顺序观测结果发生重大变化的关键时间点,该方法最终有助于揭示这些健康结果的病因,并支持公共卫生决策。

数据和材料的可用性

该研究的数据和代码可在Github上访问[https://github.com/peterbest52/mks].

缩写

疾病预防控制中心:

疾病控制和预防中心

置信区间:

置信区间

COVID-19:

2019冠状病毒病

CP:

变化点

MKS:

Mann-Kendall-Sneyers

皮:

剪枝精确的线性时间

我们:

美国

参考文献

  1. 陈旭,张安,王宏,Gallaher A,朱霞。社会距离中的合规性和遏制:跨乡镇COVID-19的数学建模。地球科学进展,2018;35(3):446-65。

    文章谷歌学者

  2. 陈杰,古普塔。关于变化点的检测和估计。中国计算机科学。2001;30(3):665-97。

    文章谷歌学者

  3. Dehning J, Zierenberg J, Spitzner FP, Wibral M, Neto JP, Wilczek M,等。推断COVID-19传播的变化点揭示了干预措施的有效性。科学。2020;369(6500)。

  4. Vokó Z,皮特JG。社会距离措施对欧洲COVID-19流行病的影响:中断时间序列分析GeroScience。2020年,42(4):1075 - 82。

    文章谷歌学者

  5. 张松,徐震,彭慧。新冠肺炎数据的变化点模型:美国;2020.

    谷歌学者

  6. Dehning J, Zierenberg J, Spitzner FP, Wibral M, Neto JP, Wilczek M, Priesemann V.研究文章摘要:推断COVID-19传播率和病例数预测的潜在变化点。medRxiv。2020.https://doi.org/10.1101/2020.04.02.20050922

  7. Mbuvha R, Marwala T.南非COVID-19传播率的贝叶斯推断。公共科学学报,2020;15(8):e0237126。

    中科院文章谷歌学者

  8. 曼HB。反趋势的非参数检验。费雪。1945;13(3):245 - 59。

  9. 王杰,关明平。在暴露评估中整合环境背景和个体流动性的时空动态分析框架:食品环境暴露与体重关系的研究。中华卫生杂志。2018;15(9):2022。

    文章谷歌学者

  10. 马拉曼,李云生,李志强。基于Mann-Kendall、Spearman rho检验和ARIMA模式的孟加拉国降雨趋势分析与预测。地球物理学报,2017;29(4):489 - 497。

    文章谷歌学者

  11. 用Mann-Kendall和Sen斜率方法对温度波动的空间统计分析。中国生物工程学报,2017;48(3-4):783-97。

    谷歌学者

  12. Ison D.评估冠状病毒疾病趋势的统计程序,美国19例。国际卫生杂志2020;14(5):23。

    谷歌学者

  13. Shaharudin SM, Ismail S, Samsudin MS, Azid A, Tan ML, Basri MAA。基于mann-kendall和反复预测-奇异谱分析的COVID-19流行趋势预测马来人。2021;50(4):1131-42。

    中科院文章谷歌学者

  14. 冯涛,王晓明,王晓明,王晓明。埃塞俄比亚北部半干旱高原径流对气候变化和人类活动的响应。环境科学学报,2017;17(4):1229-40。

    文章谷歌学者

  15. 关于一系列观察的统计分析。技术说明第143号,世界气象组织,瑞士日内瓦,1990年。

  16. Moreland A, Herlihy C, Tynan MA, Sunshine G, McCord RF, Hilton C,等。州和地区COVID-19居家令的时间和人口流动的变化-美国,2020年3月1日至5月31日。Morb Mortal Wkly代表2020;69(35):1198。

    中科院文章谷歌学者

  17. 付超,王强。气候突变的定义与检测。大气科学,1992;04:482-93。

    谷歌学者

  18. Searcy JK, Hardison CH,双质量曲线。地质调查供水文件1541-B,美国地质调查局,华盛顿特区,1960。

  19. Some'e BS, Ezani A, Tabari H.伊朗降水的时空趋势和变化点。Atmos res 2012; 113:1-12。

    文章谷歌学者

  20. 众议院W.关于宣布2020年新型冠状病毒病(COVID-19)爆发全国进入紧急状态的公告[可从:https://www.whitehouse.gov/presidential-actions/proclamation-declaring-national-emergency-concerning-novelcoronavirus-disease-covid-19-outbreak/

  21. Adolph C, Amano K, Bang-Jensen B, Fullman N, Wilkerson J.大流行政治:选择州级社会距离应对COVID-19的时间。《卫生政策法》,2021;46(2):211-33。

    文章谷歌学者

  22. 克拉克JK,麦克切斯尼R,门罗DK,欧文EG。美国远郊聚居格局的空间特征。城市规划。2009;30(3):388 - 388。

    文章谷歌学者

  23. Kaufman BG, Whitaker R, Mahendraratnam N, Smith VA, McClellan MB.比较国家重新开放战略与COVID-19负担的关系。中华外科杂志2020;35(12):3627-34。

    文章谷歌学者

  24. Killick R, Fearnhead P, Eckley IA。具有线性计算代价的最优变化点检测。《中国统计杂志》,2012;37(5):589 - 589。

    中科院文章谷歌学者

  25. Killick R, Eckley I. changepoint:用于变更点分析的R包。统计统计,2014;58(3):1-19。

    文章谷歌学者

  26. 白军,裴龙。多结构变化线性模型的估计与检验。费雪。1998;66(1):47 - 78。

  27. Zeileis A, Leisch F, Hornik K, Kleiber C. strucchange:用于测试线性回归模型结构变化的R包。中华统计杂志,2002;7:1-38。

    文章谷歌学者

  28. Zeileis A, Leisch F, Hornik K, Kleiber C, Hansen B, Merkle EC, Zeileis MA。包“strucchange”。J统计软件。2015。

下载参考

致谢

不适用。

资金

不适用。

作者信息

作者及隶属关系

作者

贡献

XC对概念化、编写初始草案和修改草案做出了贡献。HW对概念化、方法论和初稿的撰写做出了贡献。WL在可视化结果和修改草案方面做出了贡献。RX对方法和修订草案作出了贡献。所有作者都阅读并批准了手稿。

相应的作者

对应到香陈

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

188博金宝app网施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

陈晓霞,王宏,吕伟,陈晓霞。et al。Mann-Kendall-Sneyers测试,以确定美国COVID-19时间序列的变化点。BMC医学Res Methodol22, 233(2022)。https://doi.org/10.1186/s12874-022-01714-6

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12874-022-01714-6

关键字

  • Mann-Kendall-Sneyers
  • Epi曲线
  • 时间序列
  • 非参数
  • 新型冠状病毒肺炎
  • 变点检测