跳到主要内容

4个bootstrap程序在估计医院概况的预测与预期比率的置信区间时失败

摘要

背景

医疗保健提供者概况涉及对不同医疗保健提供者护理的患者之间的结果进行比较。提供者分析的一个重要组成部分是风险调整,以便照顾病情较重患者的提供者不会受到不公平的惩罚。提供者分析的一种方法需要使用随机效应逻辑回归模型来计算特定于提供者的预期比。这些比率将给定医疗机构在患者病例组合情况下的预测死亡人数与在平均医疗机构治疗的患者的预期死亡人数进行比较。尽管这个指标在提供者分析中很有用,但还没有描述方法来估计这些比率的置信区间。本研究的目的是评估四种自举程序的性能,以估计预期预期比的95%置信区间。

方法

我们使用蒙特卡洛模拟来评估四种引导过程:naïve引导、一个集群内的引导、参数多层引导和一个新的集群特定的参数引导。数据生成过程的参数来自对急性心肌梗死住院患者的经验分析。在模拟中有三个因素是不同的:每组受试者的数量、二元结果的类内相关系数和结果的患病率。我们检查了正常理论bootstrap置信区间和bootstrap百分位数区间的覆盖率。

结果

一般来说,所有四种引导过程都会导致对特定于集群的预测期望比的标准误差的不准确估计。同样,所有四种bootstrap程序的结果都是95%置信区间,其经验覆盖率与广告覆盖率不同。在许多情况下,经验覆盖率大大低于广告覆盖率。

结论

在进行提供者分析时,不应该使用现有的引导过程来计算预测与预期比率的置信区间。

同行评审报告

背景

提供者分析涉及医疗保健提供者之间结果的比较[118金宝搏抽水].提供者概况的例子包括冠状动脉搭桥术(CABG)和急性心肌梗死(AMI)住院后各医院的结果比较[23.4567118金宝搏抽水].提供者分析的一个重要组成部分是风险调整,以便照顾病情较重患者的提供者不会受到不公平的惩罚[118金宝搏抽水].

历史上,风险调整最常用的方法是计算特定于医疗机构的观察到与预期的比率,将每个医疗机构的观察到的死亡率与考虑其患者病例组合的预期死亡率进行比较。通过使用传统逻辑回归来回归二元结局(例如,CABG手术后30天内死亡或因AMI住院),可以计算观察到的与预期的比率。使用拟合模型,结果的预测概率取决于他们的基线协变量,为每个患者确定。这些概率在每个医疗机构内相加,得出每个医疗机构在考虑患者病例组合的情况下的预期死亡人数。然后用观察到的死亡人数除以预期死亡人数,就得到了提供者的观察到的死亡人数与预期死亡人数之比(该比率可以乘以整个样本范围内的事件率,从而得到经风险调整的死亡率)。比率大于1的提供者观察到的死亡率超过了考虑到其患者的病例组合所预期的死亡率。比率小于1的提供者观察到的死亡率低于考虑到其患者的病例组合所预期的死亡率。Hosmer和Lemeshow为观测期望比的标准误差提供了一个封闭形式的表达式,允许估计该比值周围的置信区间[118金宝搏抽水].如果提供者的估计置信区间不包括1的空值,则可被归类为具有与预期显著不同的结果。除了为观察预期比的标准误差提供一个封闭形式的表达式外,Hosmer和Lemeshow建议,可以使用自举法为特定于提供者的观察预期比构建置信区间。虽然在单个数据集中进行了bootstrap置信区间与使用渐近方法导出的区间的经验比较,但这些区间的性能没有使用模拟进行评估。事实上,作者建议“在我们可以在方法之间推荐一个明确的选择之前,需要一个详细的模拟研究”。

Krumholz和他的同事建议对观察到的与预期的比率进行修改[118金宝搏抽水].与使用传统的逻辑回归模型不同,二元结果使用随机效应逻辑回归模型对基线特征进行回归,该模型包含提供者特定的随机效应:

$ ${分对数}}{\文本(p_ {ij} = \公关(Y_ {ij} = 1)) = \ beta_ {0} + \ beta_ j {0} + {\ varvec {X} \β}_ {ij} $ $
(1)

在哪里\ (p_ {ij} \)表示死亡的概率在医院的那个病人jth provider (Yij= 1死/Yij= 0 alive)和where\(\beta_{0j} \sim N(0,\tau^{2})\)是提供者特定的随机效果。对观察到的死亡人数与预期死亡人数的比率进行了修改,将观察到的死亡人数替换为考虑到提供者患者的病例组合的预测死亡人数。每个病人的死亡概率是\ \(压裂{{\ exp(\帽子{\β}_{0}+ \帽子{\β}_ {0 j} + {\ varvec {X \帽子{\β}}}_ {ij})}} {{1 + \ exp(\帽子{\β}_{0}+ \帽子{\β}_ {0 j} + {\ varvec {X \帽子{\β}}}_ {ij})}} \).这些概率在每个医疗服务提供者内部相加,以获得该医疗服务提供者在其患者的病例组合情况下的预测死亡人数。对于每个病人来说,如果他或她在一家普通医院接受治疗,死亡的概率是\ \(压裂{{\ exp(\帽子{\β}_ {0}+ {\ varvec {X \帽子{\β}}}_ {ij})}} {{1 + \ exp(\帽子{\β}_ {0}+ {\ varvec {X \帽子{\β}}}_ {ij})}} \)(请注意,这个表达式与前面的表达式的区别仅仅在于去掉了预测的特定于集群的随机效应{\ \(\帽子β}_ {0 j} \)).这些概率在每个医疗机构内相加,得到在平均医疗机构治疗的患者的预期死亡人数。这两个量的比率是预期与预期的比率,可用于度量提供者的性能。它的解释与观察到的预期比率类似。Krumholz和他的同事们认为,这种方法的一个优点是,使用随机效应模型明确地解释了结果中提供者内部的相关性,因此该模型明确地解释了提供者之间潜在的质量差异。此外,使用预测死亡人数而不是预期死亡人数可以更容易地将患者数量较少的提供者包括在内。当结果很少时,低容量的提供者可能没有观察到的结果,尽管预测的结果数量大于零。尽管使用预测与预期比率具有吸引人的特点,但尚未开发出该比率的封闭式方差估计器。此外,自举法估计这些比率的置信区间的性能还没有得到系统的检验。

本研究的目的是评估不同的自举估计器对提供者特定的预测期望比的性能。我们考虑了非聚类数据的传统自举程序,多层数据的自举程序,以及最近提出的估计预测聚类特定随机效应置信区间的参数自举程序[118金宝搏抽水].本文的结构如下118金宝搏抽水,我们描述了不同的候选人引导程序,以估计预测与预期比的置信区间。在118金宝搏抽水,我们描述了一系列蒙特卡洛模拟的设计,以评估不同的引导程序的性能。这些模拟的结果总结在118金宝搏抽水.在118金宝搏抽水,我们提供了一个案例研究,说明这些方法的应用到AMI住院患者的样本。最后,我们总结了我们的结论,并将它们放在文献的背景下118金宝搏抽水

预测与预期比率的引导程序

在本节中,我们将简要回顾集群(或多层)数据的引导过程,并简要说明为什么有些方法不适用于推断特定于集群的预测期望比。

简单的或naïve引导

传统的bootstrap从原始样本中抽取一个有替换的随机样本,使该随机样本与原始样本的大小相同[118金宝搏抽水].虽然不建议对集群数据使用原始引导过程,但我们在这里将其包含进来,因为它是后续引导过程的基础。

多级引导过程

van der Leeden及其同事、Goldstein和Carpenter及其同事描述了三种不同的用于线性混合模型的引导程序:参数引导、残差引导和非参数引导[131415118金宝搏抽水].我们将在公式(所示的随机效应逻辑回归的背景下描述这些。118金宝搏抽水).我们假设有J个簇。

参数自举法估计[的随机效应逻辑回归模型118金宝搏抽水].特别地,我们得到一个估计值,{\ \(\帽子τ}^ {2}\),为集群特定随机效应的方差。然后,对于每个J个集群,我们从这个分布中得到一个特定于集群的效果:j \ (\ beta_{0} ^{{{文本\ {b}}}} \ sim N(0 \帽子{\τ}^ {2}),\;j = 1,…,文本{j}} {\ \).然后确定每个受试者出现结果的概率如下:\({\文本{分对数}}(p_ {ij} ^ {{{{b \文本 }}}} ) = \ 帽子{\β}_ {0}+ \ beta_ j{0} ^{{{文本\ {b}}}} + {\ varvec {X \帽子{\β}}}_ {ij} \).新的二元结果\ (Y_ {ij} ^{{{文本\ {b}}}} \)是由具有学科特定参数的伯努利分布模拟的\ (p_ {ij} ^{{{文本\ {b}}}} \).然后用随机效应逻辑回归模型拟合数据\((Y_{ij}^{{{\text{bs}}}},{\mathbf{X}}_{ij})\).然后使用拟合模型计算每家医院的预测与预期比率。这个过程包含一个引导迭代。

残差自举与上面描述的参数自举非常相似。它与参数bootstrap的不同之处在于,而不是从估计的分布模拟特定于集群的影响\(N(0,\hat{\tau}^{2})\),其中一个从它们的经验分布模拟了集群特定的效应。预测的集群特定效应的经验分布开始于\(\{\hat{\beta}_{0j} |j = 1,…,j \}\).然后将其标准化,使其均值为零,并将其膨胀,使其样本方差等于{\ \(\帽子τ}^ {2}\)

非参数引导,也称为案例引导,采用集群的引导样本。一旦选择了一个集群,该集群的所有主题都包含在引导示例中。注意,平均引导将包含63.2%的集群,并省略36.8%的集群。重要的是,在一个给定的引导示例中多次包含的那些集群被赋予不同的集群标识符,因此它们被视为不同的集群。

正如其他地方所描述的,这三种自举程序允许人们对模型参数(例如,回归系数和随机效应的方差)进行推断,然而,它们不能用于对预测的特定于集群的随机效应进行推断,也不能用于对从它们导出的数量进行推断[118金宝搏抽水].使用参数和残差自举程序,对于给定的群集,在自举复制中模拟的群集特定随机效应的平均值将为零。因此,模拟的平均集群特定随机效应将不是该集群的预测集群特定随机效应的一个可接受的估计量。如果对于一个给定的集群,模拟的集群特定随机效应的平均值为零,这意味着,平均而言,预测与预期比率的中心值为1。因此,在构造基于百分位的引导置信区间时,为所有集群构造的区间将包含空值。使用非参数引导或大小写引导,给定的集群可以多次包含在给定的引导示例中。该集群的不同副本被赋予了不同的集群标识符。当对特定于集群的预测随机效应(以及由此产生的数量,如预测与预期比)进行推断时,尚不清楚应该使用哪些集群重复。此外,从给定的引导样本中省略36.8%的集群的后果还不清楚。

基于预测聚类特定随机效应的聚类特定参数自举程序

Austin和Leckie描述了一种新的特定于集群的参数自举程序,用于推断特定于集群的随机效应[118金宝搏抽水].在估计随机效应后,logistic回归模型由式(118金宝搏抽水),则得到预测的特定于集群的随机效应及其标准误差的估计:{\ \(\帽子β}_ {0 j} \)而且\({\text{se}}(\hat{\beta}_{0j})\),因为j= 1,…,J。对于每个集群,模拟特定于集群的随机效应:j \ (\ beta_{0} ^{{{文本\ {b}}}} \ sim N(\帽子{\β}_ {0},{{se}} \文本(\帽子{\β}_ {0})^ {2})\).在为每个J个聚类模拟了特定于聚类的随机效应之后,然后将它们膨胀(与残差自举一样),使它们的样本方差等于{\ \(\帽子τ}^ {2}\).然后进行与参数引导或残差引导相同的操作。请注意,这个过程与参数引导过程不同,因为每个特定于集群的随机效应都是从自己的分布中提取的,而不是从相同的分布中提取的。

蒙特卡洛模拟:方法

我们进行了一系列蒙特卡洛模拟,以检验不同的自举程序的性能,以估计使用随机效应逻辑回归模型生成的医院特定预测与预期比率的置信区间。模拟设计的依据是AMI住院患者的实证分析。

为蒙特卡洛模拟提供经验分析

我们进行了一系列的经验分析,以确定参数的值,这些参数将用于后续蒙特卡洛模拟中的数据生成过程。我们使用的数据来自安大略心肌梗死数据库(OMID),该数据库包含1992年至2016年期间在加拿大安大略省住院的AMI患者的数据[118金宝搏抽水].在当前的研究中,我们使用了2016年4月1日至2017年3月31日期间157家医院19,559名确诊为AMI的患者的数据。AMI患者的住院人数从1到1146人不等,中位数为52人(25th和75年th百分位数:分别为16和148)。

我们考虑了两个二元结局变量:住院后30天内死亡和住院后一年内死亡。结果是通过与省级死亡登记处的联系确定的。在19,559名患者中,1479人(7.6%)在入院后30天内死亡,2951人(15.1%)在入院后一年内死亡。

我们考虑了11个变量来预测死亡率:年龄、性别、充血性心力衰竭、脑血管疾病、肺水肿、伴有并发症的糖尿病、恶性肿瘤、慢性肾衰竭、急性肾衰竭、心源性休克和心性心律失常。这11个变量组成了安大略急性心肌梗死死亡率预测模型,该模型在安大略推导,随后在马尼托巴省和加利福尼亚州得到验证[118金宝搏抽水].

在安大略AMI死亡率预测模型的11个变量上,我们使用传统逻辑回归回归两个二元结果(30天内死亡和1年内死亡)。对于两个拟合模型,我们确定了每个受试者的线性预测因子。因此,每个受试者都有两个线性预测因子:两个结果各有一个。两个线性预测因子都经过标准化处理,使其在整个样本中具有均值零和单位方差。然后使用包含医院特异性随机效应的随机效应逻辑回归模型在标准化线性预测器上回归每个二元结果。我们使用潜变量方法计算残差类内相关系数(ICC),它等价于方差分区系数(VPC) [118金宝搏抽水].

随机效应logistic回归模型30天死亡率的平均截距和固定斜率分别为-3.06和1.17,1年死亡率模型的平均截距和固定斜率分别为-2.26和1.39。两个模型的残差ICC均为0.01,表明用标准化线性预测器无法解释的死亡率变化中有1%是由于医院之间的差异造成的。这些数量将在我们后续的数据生成过程中使用。

蒙特卡洛模拟中的因素

我们允许三个因素在我们的模拟中发生变化:N(每家医院的患者数量),ICC(表示二元结果的组内同质性的组内相关系数),以及逻辑回归模型的截距和斜率(决定二元结果的患病率)。N有两个值:每家医院有50或100名患者。ICC有三个值:0.01、0.02和0.05。截距和斜率有三种组合:(-3.06,1.17),(-2.26,1.39)和(0,1.39)。第一个截距和斜率来自以上30天死亡率的实证分析。第二截距和斜率来自以上1年死亡率的实证分析。第三组的截距设为零,因此结果的流行率将约为0.5,使我们能够在结果流行率很高的情况下检查bootstrap程序的性能(第三组的斜率只是1年死亡率模型的斜率)。我们使用了全阶乘设计,因此考虑了18个(2 × 3 × 3)场景。

医院集群数据生成过程

我们模拟了50家医院住院受试者的数据(由于计算原因,这个数量在所有场景中都是固定的;增加集群的数量会导致模拟计算过于密集)。我们的目标是检验医院特异性预测预期比估计置信区间的覆盖率。因此,重要的是,这些医院特有的比率被视为在模拟重复中固定的固定参数。因此,在18个不同的场景中,我们从正态分布中生成了50个特定于医院的随机效应:\(\beta_{0j} \sim N(0,\tau^{2})\),在那里\ \(τ^ {2}\),以便底层随机效应逻辑回归模型将具有所需的ICC(或VPC),使用公式:文本\ ({\ {ICC}} = \压裂{{\τ^{2}}}{{\τ^{2}+ \π^ {2}/ 3}}\)118金宝搏抽水].在给定的场景中,这50个医院特定的随机效应被固定在剩余的模拟中。

然后,我们从标准正态分布中模拟每个受试者的基线协变量:\(x_{ij} \sim N(0,1)\)在医院的那个病人j医院。由于平均截距和固定斜率(\(\beta_{0},\beta_{1})\)在给定的场景中是固定的,我们计算了每个主题的线性预测:文本\ ({\ {LP}} _ {ij} = \ beta_ {0} + \ beta_ j {0} + \ beta_{1}间{ij} \).在每家医院内,预测死亡人数确定为:\ \(和\ limits_ {i = 1} ^ {N}{\压裂{{\ exp (\ beta_ {0} + \ beta_ j {0} + \ beta_{1}间{ij})}} {{1 + \ exp (\ beta_ {0} + \ beta_ j {0} + \ beta_{1}间{ij})}}} \),而预期死亡人数则确定为\ \(和\ limits_ {i = 1} ^ {N}{\压裂{{\ exp (\ beta_ {0} + \ beta_{1}间{ij})}} {{1 + \ exp (\ beta_ {0} + \ beta_{1}间{ij})}}} \)(请注意,后一个总和与前一个总和的区别仅仅在于排除了集群特定的随机效应)。每个医院的真实预测与预期比率被计算为这两个量的比值。这些比率是真实的比率,在模拟重复中是固定的。我们将确定估计95%置信区间的经验覆盖率。医院特定的随机效应、受试者的基线协变量和真实的预测与预期比在每个场景中都是固定的,并且在模拟重复中不发生变化。

在给定的模拟复制中,我们使用真正的线性预测器为每个受试者生成结果:文本\ ({\ {LP}} _ {ij} = \ beta_ {0} + \ beta_ j {0} + \ beta_{1}间{ij} \).从真正的线性预测,我们确定\ (p_ {ij} = \压裂{{\ exp({\文本{LP}} _ {ij})}} {{1 + \ exp({\文本{LP}} _ {ij})}} \),即受试者特定结果发生的概率。然后,我们使用具有特定主题概率的伯努利分布生成一个二元结果。对于18个场景中的每一个,我们使用这个过程创建了200个数据集(因此每个场景涉及200个模拟重复)。

模拟样本的统计分析

在每个模拟重复中,我们进行了以下分析:(i)我们拟合了一个随机效应逻辑回归模型,其中二元结果在连续基线协变量上回归。该模型结合了集群特定的随机效应。计算50个聚类的预测预期比,得到50个聚类特定的预测预期比;(ii)从模拟样本中抽取1000个bootstrap样本用于给定的模拟复制;(iii)在每个自举样本中,我们拟合一个随机效应逻辑回归模型(使用与步骤(i)相同的程序),并计算50个集群中每个集群的预测与期望比(因此,我们对50个集群中的每个集群有1000个预测与期望比);(iv)为每家医院的预测预期比构建95%置信区间。这是通过正常理论的引导方法和基于百分位的引导方法完成的。对于正常理论自举法,我们计算了每个医院1000个自举重复的估计预测与预期比率的标准差。这个量作为估计的预期预期比的标准误差的估计。各医院预期预期比的95%置信区间为原始模拟样本的预期预期比±1.96 ×预期预期比标准误差的自举估计。 For the percentile-based bootstrap method, the end points of the 95% confidence interval were the 2.5th和97.5th在1000个引导样本中预测与预期比率的百分位数。

然后我们在200个模拟重复中进行了以下分析。首先,对于50个集群中的每一个,我们确定了200个模拟重复中预测与预期比率的标准误差的平均自举估计与200个模拟重复中估计的预测与预期比率的标准偏差的比值。如果该比值等于1,则预测期望比的标准误差的自举估计正确地近似于预测期望比的抽样分布的标准差。因此,我们得到了50个这样的比率,每50个集群一个。其次,对于两种类型的自举置信区间(基于常规理论或基于百分位数)中的每一种,我们确定了包含该聚类的预测与预期比率的真实值的估计95%置信区间的比例。如果估计的置信区间具有正确的覆盖率,我们将期望构建的置信区间的95%包含该医院的预测与预期比率的真实值。

我们检查了四种不同的引导程序。首先,我们使用了标准的自举法,在该方法中,受试者被替换抽样,且不考虑样本的多层结构。我们将其称为naïve引导。其次,我们使用了集群内引导,即从每个集群内选择主题的引导样本。第三,我们使用了上面描述的参数引导过程(尽管我们假设它不会很好地执行,但这个过程被包括在内)。第四,我们使用bootstrap程序来推断上面描述的特定于集群的随机效应。

模拟使用R统计编程语言(版本3.6.3)进行。使用lme4包(版本4_1.1-21)中的glmer函数拟合随机效应逻辑回归模型。

蒙特卡洛模拟:结果

我们分别报告四个引导过程的结果。

天真的引导

图中报告了naïve引导的结果。118金宝搏抽水(平均估计标准误差与经验标准误差之比),118金宝搏抽水(使用常规理论方法的自举法覆盖95%置信区间),图。118金宝搏抽水(使用自举百分位数间隔的95%置信区间的覆盖率)。每个图都是一个点图,18个场景中每一个都有一条水平线。每条水平线上有5个点,代表最小值25th百分位数,中位数,75th50个聚类的百分位数和最大数量(比率或经验覆盖率)。在无花果。118金宝搏抽水我们叠加了一条垂直线,表示比率为1。在无花果。118金宝搏抽水而且118金宝搏抽水我们叠加了垂直图,表示广告覆盖率为0.95。在后两幅图上,我们还叠加了表示覆盖率为0.92和0.98的竖线。由于我们使用了200个模拟重复,小于0.92或大于0.98的经验覆盖率与使用标准正常理论检验所宣传的0.95的覆盖率显著不同。

图1
图1

抽样分布的平均估计标准误差与标准差之比(朴素自举)

图2
图2

95%的实证覆盖率自举CIs(正规理论方法)(朴素自举)

图3
图3

95%自举法(百分位数法)的经验覆盖率(幼稚自举法)

我们提供了一个解释图的指南。118金宝搏抽水(后面所有的数字都有类似的解释)。最上面的水平线表示每组50名受试者的情况,ICC为0.05,结果患病率约为50%。请注意,在模拟中,我们估计了50个特定于集群的平均估计标准误差与经验标准误差的比率(每个集群一个比率)。在50个聚类中,平均估计标准误差与经验标准误差的最低比率为0.25。在50个集群中,25th平均估计标准误差与经验标准误差之比的百分数为0.31。在50个聚类中,平均估计标准误差与经验标准误差的中位数之比为0.34。在50个集群中,75th平均估计标准误差与经验标准误差之比的百分数为0.36。最后,在50个聚类中,平均估计标准误差与经验标准误差的最大比值为0.42。这五个量由沿着水平线的五个不同的标绘符号表示。注意,所有五个量都在表示比率为1的垂直线的左边。因此,50个聚类中没有一个是平均估计的标准误差是经验标准误差的准确估计。

在检查图。118金宝搏抽水,我们观察到,在18个场景中的大多数情况下,预测预期比的标准误差的自举估计低估了50个集群中预测预期比抽样分布的标准差。一般来说,naïve引导程序对预测与预期比率的标准误差提供了较差的估计。

在观察图的时候。118金宝搏抽水而且118金宝搏抽水,我们观察到,构建置信区间的两种bootstrap方法往往会导致95%的置信区间,其覆盖率低于广告的覆盖率。bootstrap百分位数区间方法的表现特别差,在18个场景中的15个中,至少一半的集群具有经验覆盖率为零的置信区间。

这些分析表明,使用naïve bootstrap会导致对标准误差和置信区间的不准确估计,其覆盖率低于宣传的覆盖率。

Within-cluster引导

结果如图所示。118金宝搏抽水118金宝搏抽水而且118金宝搏抽水.这些图形的结构与图相似。118金宝搏抽水118金宝搏抽水而且118金宝搏抽水.簇内自举的使用大大高估了预测与期望比率抽样分布的标准差。每组50名受试者的高估幅度往往大于每组100名受试者的高估幅度。95%置信区间的经验覆盖率,虽然仍然是次优的,但往往比naïve bootstrap更好。例如,在正常理论置信区间下,在所有18个情景中,有一些簇的经验覆盖率小于0.85(在某些情景中低于0.40)。然而,在大多数场景中,至少75%的集群具有覆盖率至少为92%的置信区间。虽然使用自举百分位数间隔往往不如使用正常理论方法,但它比使用naïve自举方法观察到的自举百分位数间隔要好得多。

图4
图4

平均估计标准误差与抽样分布标准差的比值(簇内自举)

图5
图5

95%自举ci(标准理论方法)的经验覆盖率(簇内自举)

图6
图6

95%自举ci(百分位数法)的经验覆盖率(聚类内自举)

参数引导

参数引导的结果报告在图中。118金宝搏抽水118金宝搏抽水而且118金宝搏抽水.这些图形的结构与图相似。118金宝搏抽水118金宝搏抽水而且118金宝搏抽水.参数自举导致了对集群特定预测期望比的标准误差的不准确估计。在18种情形中,参数自举的使用倾向于高估预测期望比抽样分布的标准差。这两种基于自举的估计置信区间的方法往往产生的置信区间的经验覆盖率与宣传率显著不同。在大多数情况下,至少一半的聚类估计的置信区间在使用正常理论方法时,其经验覆盖率小于92%。当使用bootstrap百分位间隔时,也观察到类似的发现。

图7
图7

抽样分布平均估计标准误差与标准差之比(参数BS)

图8
图8

95%自举CIs(正规理论方法)的经验覆盖率(参数BS)

图9
图9

95%自举ci(百分位法)的经验覆盖率(参数BS)

特定于集群的参数引导

结果如图所示。118金宝搏抽水118金宝搏抽水而且118金宝搏抽水.这些图形的结构与图相似。118金宝搏抽水118金宝搏抽水而且118金宝搏抽水.一般来说,这种自举过程会导致预测与预期比率的估计标准误差大于预测与预期比率抽样分布的标准差。对于18个场景中的每一个,半数集群的估计标准误差与标准偏差之比超过约1.15。估计置信区间(使用正常理论方法和使用自举百分位数区间获得)的实证覆盖率往往大大低于宣传的水平。

图10
图10

平均估计标准误差与抽样分布标准差之比(聚类特定参数BS)

图11
图11

95%自举CIs(正常理论方法)的经验覆盖率(聚类特定参数BS)

图12
图12

95%自举ci(百分位法)的经验覆盖率(聚类特定参数BS)

案例研究

我们提供了一个案例研究,说明了四种引导程序在157家医院的19,559名确诊为AMI的住院患者中的应用。

方法

我们使用了上面描述的OMID数据集。结果是入院后30天内死亡。我们使用安大略AMI死亡率预测模型(如上所述)中的11个变量进行风险调整。我们使用随机效应逻辑回归模型对这11个变量的二元结果进行回归,该模型包含了医院特有的随机效应。拟合模型为文本\({\{分对数}}(\公关(Y_ {ij} = 1)) = \ beta_ {0} + \ beta_ j {0} + \ beta_{1}间{1 ij} + \ cdots + \ beta_{11}间{11 ij} \),在那里\ (Y_ {ij} \)的二进制结果在医院的那个病人j医院,还有\(间{1 ij} \)通过\(间{11 ij} \)表示用于风险调整的11个变量。我们假设\(\beta_{0j} \sim N(0,\tau^{2})\),在那里j \ (\ beta_ {0} \)的随机效应j医院。

计算每家医院的预测预期比。四种自举程序中的每一种都被用来计算每个医院的预测与预期比的95%置信区间。对于每个自举过程,我们构建了两个置信区间:一个使用正常理论方法,另一个使用自举百分位数区间。

为了便于比较,我们还使用马尔可夫链蒙特卡罗(MCMC)方法在贝叶斯框架内拟合随机效应模型[118金宝搏抽水].对所有模型参数假设弥漫性非信息性先验:\ (\ beta_ {k} \ sim N(0 \σ^{2}= 10000),{\文本为}{}k = 0, 1,…,11 \)而且\ \(τ^ {2}\ sim \伽马^{1}({\文本{形状= 0}}{{\文本。01, scale = 0}}{.01)}\),在那里\(\Gamma^{- 1}\)表示逆伽马分布。采用MCMC方法计算各医院预测预期比的贝叶斯95%可信区间。

结果

图中显示了各医院的预测预期比及其估计95%置信区间的毛虫图。118金宝搏抽水(正常理论bootstrap置信区间)和图。118金宝搏抽水(引导百分位间隔)。每个图有四个面板,每个面板对应四个引导过程。所有八个面板对垂直轴使用相同的刻度(预期与预期比率)。当使用自举百分位区间时,一些估计的95%置信区间不包含估计的预期比。图中的置信区间。118金宝搏抽水使用两种颜色(红色:置信区间包含估计的预测与预期比率;蓝色:置信区间不包含估计的预期预期比)。有问题的引导百分位间隔的医院数量为19家(naïve引导)、28家(集群引导)、7家(参数引导)和2家(集群特定参数引导)。在观察图的时候。118金宝搏抽水而且118金宝搏抽水有人注意到,八个展板上的毛毛虫分布图差异很大。当使用自举百分位数方法时,人们注意到估计的置信区间通常是基本不对称的(即,点估计不位于区间的中心)。此外,间隔的宽度随引导过程的不同而不同。

图13
图13

用自举法进行频率分析的毛虫图(正规理论法)

图14
图14

用自举法进行频率分析的毛虫图(百分位间隔)

数字118金宝搏抽水包含一个Bland-Altman图,比较频率率和贝叶斯预测期望比之间的一致性。在这张图上,我们有重叠的水平线,表示从0到±1的标准差和±2的标准差(没有差异)。我们看到,对于绝大多数医院,这两个预测与预期的比率在0.01以内。

图15
图15

Bland - Altman图比较贝叶斯和频率预测与期望比

数字118金宝搏抽水报告了由贝叶斯分析得到的毛虫图。只有一家医院95%的可信区间排除了统一。我们注意到可信区间比图中的引导百分位数区间显示出更大的对称性。118金宝搏抽水.贝叶斯可信区间在宽度上显示出比自举置信区间更小的可变性。贝叶斯区间的最长宽度与最短宽度之比为3.2,而在构建置信区间的8种bootstrap程序和方法的组合中,该比值从12.8到222.9不等。

图16
图16

毛毛虫图为30天预测-期望比的贝叶斯分析

讨论

我们检查了四种bootstrap程序的性能,以估计提供者特定的预测预期比的置信区间。我们发现所有四个引导过程的性能都不是最优的。

目前研究的主要局限性是其对蒙特卡洛模拟的依赖。这样的模拟是必要的,因为我们正在检查基于重采样的程序的性能,分析推导是不可行的。由于我们使用模拟,由于这些模拟的时间密集性质,我们只能检查有限数量的场景。尽管考虑了有限数量的场景,不同的引导过程在这些场景中的性能始终很差,这表明,一般来说,这些引导过程不应用于估计预测与预期比的置信区间。第二个限制是模拟只使用每个场景200次迭代。这一决定的基本原理是随机效应模型自举模拟的计算强度。例如,每个场景有200次迭代,对于18个场景,4个引导过程的模拟大约需要23、27、29和30天的cpu时间(总共大约109天的cpu时间)。在计算时间方面,将模拟重复的数量增加到1000将是令人望而却步的。通过使用200个模拟重复,小于0.92或大于0.98的经验覆盖率与使用标准正常理论检验所宣传的0.95的覆盖率显著不同。

在当前的研究中,我们专注于用于计算预测预期比的随机效应模型的频率估计。如案例研究中所说明的,另一种方法是使用贝叶斯方法来估计模型参数的后验分布和由此产生的预测-期望比。不同的作者建议将贝叶斯方法用于提供者分析[118金宝搏抽水118金宝搏抽水],而一些研究评估了贝叶斯方法在提供者分析方面的性能[23242526118金宝搏抽水].使用贝叶斯方法有几个优点。首先,在使用MCMC方法估计模型参数的后验分布时,可以直接计算MCMC过程每次迭代中的预测期望比。这允许直接计算预测与预期比率的可信区间(类似于置信区间的贝叶斯)。其次,贝叶斯方法不是简单地报告预测与预期比率及其相关的可信区间,而是允许报告其他与政策相关的指标,例如预测与预期比率超过预定的政策相关阈值的概率(例如,预测与预期比率超过1.25的概率)。考虑到预测与预期比率估计的标准误差缺少一个封闭形式的表达式,以及观察到的不同bootstrap程序的失败,我们建议希望使用预测与预期比率的作者在贝叶斯框架内工作。

未来的研究方向包括开发预测与预期比率的标准误差的封闭表达式,或开发适合用于这些提供者性能度量的引导程序。

结论

观察到四种自举程序导致对医疗保健提供者的预期与预期比率和置信区间的标准误差估计不准确,这些置信区间没有宣传的覆盖率。我们建议将贝叶斯方法用于涉及预测与预期比率的分析。

数据和材料的可用性

这项研究的数据集以编码形式安全地保存在国际内燃机研究所。虽然国际信息中心与数据提供者(例如医疗保健组织和政府)之间的法律数据共享协议禁止国际信息中心公开数据集,但可以将访问权授予那些符合预先指定的机密访问标准的人www.ices.on.ca DAS(电子邮件:das@ices.on.ca)。

缩写

AMI:

急性心肌梗死

介入治疗:

冠状动脉搭桥术

CPU:

中央处理机

国际刑事法庭:

类内相关系数

OMID:

安大略心肌梗死数据库

密度:

马尔可夫链蒙特卡洛

VPC:

方差分配系数

参考文献

  1. Iezzoni李。衡量健康结果的风险调整。编辑李依佐尼。芝加哥:卫生行政出版社;1997.

  2. 1989-1991年在纽约州进行冠状动脉搭桥手术。纽约州奥尔巴尼:纽约州卫生部;1992.

  3. Luft HS, Romano PS, Remy LL, rainy J.加州医院结果项目年度报告。加州萨克拉门托:加利福尼亚州全国卫生规划和发展办公室;1993.

    谷歌学者

  4. 宾夕法尼亚卫生保健成本控制c冠状动脉搭桥手术消费者指南。宾夕法尼亚州哈里斯堡:宾夕法尼亚州医疗成本控制委员会;1995.

    谷歌学者

  5. Romano PS, Zach A, Luft HS, rains J, Remy LL, Campa D.加利福尼亚医院结果项目:使用管理数据比较医院绩效。中国机械工程学报1995;21(12):668-82。

    中科院PubMed谷歌学者

  6. 涂金芬,Austin PC, Naylor CD, Iron K,张华。安大略急性心肌梗死的预后。在:Naylor CD, Slaughter PM,编辑。安大略省心血管健康和服务:ICES地图集。多伦多:临床评价科学研究所;1999.p . 83 - 110。

    谷歌学者

  7. Naylor CD, Rothwell DM, Tu JV, Austin PC,心脏护理网络指导C.安大略冠状动脉搭桥手术的结果。在:Naylor CD, Slaughter PM,编辑。安大略省的心血管健康和服务:一份ICES地图集。多伦多:临床评价科学研究所;1999.p . 189 - 98。

  8. 雅各布斯调频。2002年新泽西州的心脏手术:一份消费者报告。新泽西州特伦顿:卫生和老年服务部;2005.

    谷歌学者

  9. Hosmer DW, Lemeshow S.基于逻辑回归模型的质量绩效指标的置信区间估计。中华医学杂志1995;14(19):2161-72。

    文章中科院谷歌学者

  10. Krumholz HM, Wang Y, Mattera JA, Wang Y, Han LF, Ingber MJ,等。行政索赔模型适用于基于心衰患者30天死亡率的医院绩效分析。循环。2006;113(13):1693 - 701。

    文章谷歌学者

  11. Austin PC, Leckie G.多水平逻辑回归模型中方差参数、异质性度量和随机效应的bootstrap推理。中国科学d辑(英文版)。

    文章谷歌学者

  12. 埃夫隆,Tibshirani RJ。Bootstrap的介绍。纽约,纽约州:查普曼&霍尔;1993.

    谷歌学者

  13. van der Leeden R, Busing FMTA, Meijer E.两层模型的Bootstrap方法。莱顿大学;1997.

  14. van der Leeden R, Meijer E, Busing FMTA。重采样多级模型。在:de Leeuw J, Meijer E,编辑。多层次分析手册。纽约,纽约州:施普林格;2008.401 - 33页。

    谷歌学者

  15. 一种新颖的评估班级规模与成绩关系的引导程序。中国科学(d辑)2003;

    文章谷歌学者

  16. 多级模型中的Bootstrapping。入选者:Hox JJ, Roberts JK,编辑。高级多级分析手册。纽约,纽约州:劳特利奇;2011.p . 163 - 71。

    谷歌学者

  17. 屠JV, Naylor CD, Austin P. 1992-1996年安大略急性心肌梗死预后的时间变化。协会。1999, 161(10): 1257 - 61。

    中科院PubMed公共医学中心谷歌学者

  18. 屠JV, Austin PC, Walld R, Roos L, Agras J, McDonald KM。安大略急性心肌梗死死亡率预测规则的制定和验证。中国心血管病学杂志2001;37(4):992-7。

    文章中科院谷歌学者

  19. Snijders T, Bosker R.多级分析:基本和高级多级建模的介绍。伦敦:Sage Publications;2012.

    谷歌学者

  20. 马尔可夫链蒙特卡洛的实践。吉尔克斯WR,理查森S, Spiegelhalter DJ,编辑。伦敦:Chapman & Hall;1996.

  21. Normand SLT, Glickman ME, Gatsonis CA。用于分析医疗保健提供者的统计mertods:问题和应用。中国科学(d辑:自然科学版)。

    文章谷歌学者

  22. 克里斯汀森公司,莫里斯公司。改进卫生保健提供者概况的统计方法。Ann Intern Med. 1997;127(8 Pt 2): 764-8。

    文章中科院谷歌学者

  23. 奥斯丁的电脑。在提供者分析中优化使用贝叶斯层次回归模型以识别高死亡率医院的贝叶斯规则。《BMC医学研究方法》,2008;8:30。

    文章谷歌学者

  24. 奥斯丁的电脑。贝叶斯方法在医院绩效分析中的比较。医学计量。2002;22(2):163-72。

    文章谷歌学者

  25. 奥斯丁的电脑。贝叶斯方法的可靠性和有效性医院概况:蒙特卡洛评估。统计计划推断。2005;128:109-22。

    文章谷歌学者

  26. Austin PC, Brunner LJ。医院成绩单的最优贝叶斯概率水平。卫生服务结果测定方法,2008;8:80-97。

    文章谷歌学者

  27. Austin PC, Naylor CD, Tu JV。贝叶斯方法与频率分析方法在医院绩效分析中的比较。中华临床医学杂志2001;7(1):35-45。

    文章中科院谷歌学者

下载参考

确认

不适用

资金

国际癌症研究中心是一个独立的、非营利性的研究机构,由安大略省卫生部(MOH)和长期护理部(MLTC)的年度拨款资助。作为安大略省隐私立法规定的实体,国际卫生信息中心被授权为卫生系统分析、评估和决策支持的目的收集和使用卫生保健数据。对这些数据的安全访问受安大略省信息和隐私专员批准的政策和程序的约束。本材料的部分内容是基于CIHI编译和提供的数据和/或信息。但是,材料中所表达的分析、结论、观点和陈述都是作者的观点,并不一定是CIHI的观点。本文所报道的观点、结果和结论均为作者个人观点,与研究经费来源无关。icics、安大略卫生部或MLTC的任何背书都不是有意或应该被推断的。这项研究的数据集以编码形式安全地保存在国际内燃机研究所。本研究得到了加拿大卫生研究院(CIHR) (PJT 166161)的运营拨款支持。Austin博士获得了安大略心脏和中风基金会的职业中期研究者奖的部分支持。

作者信息

作者和隶属关系

作者

贡献

PA构思了这项研究,进行了模拟,进行了分析,撰写了手稿,并批准了最终的手稿。

作者的信息

不适用。

相应的作者

对应到彼得·c·奥斯汀

道德声明

伦理批准和同意参与

在本项目中使用的数据得到了安大略省个人健康信息保护法(PHIPA)第45条的授权,不需要研究伦理委员会的审查。PHIPA第45条授权健康信息保管人向规定的实体(如临床评估科学研究所(ICES))披露个人健康信息,而无需为此目的征得同意。作为PHIPA规定的实体,临床评估科学研究所(ICES)被允许在没有个人同意或研究伦理批准的情况下收集个人身份信息(https://www.ices.on.ca/Data-and-Privacy/Privacy-at-ICES).本研究所有方法均按照相关指南和规定进行。

发表同意书

不适用。

相互竞争的利益

作者声明他们没有竞争利益。

额外的信息

出版商的注意

188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。

权利与权限

开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献放弃书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

Austin, P.C.在估计医院概况的预测与预期比率的置信区间时,四个bootstrap程序的失败。BMC医学治疗方法22, 271(2022)。https://doi.org/10.1186/s12874-022-01739-x

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12874-022-01739-x

关键字

  • 医院分析
  • 医院成绩单
  • 随机效应模型
  • 多层次分析