摘要
背景
聚类随机试验(CRTs)通常设计有少量的聚类,但当结果为二元时,不清楚哪种分析方法是最优的。该模拟研究旨在确定(i)聚类水平分析(CL)、广义线性混合模型(GLMM)和三明治方差方法的广义估计方程(GEE)是否保持可接受的第一类误差,包括聚类效应的非正态性和低流行率的影响,如果是这样(ii)哪些方法最有效。我们模拟了8-30个簇的crt,改变了簇大小、结局患病率、簇内相关系数和簇效应分布。我们用加权和非加权CL分析每个数据集;自适应求积受限伪似然的GLMM使用独立和可交换工作相关矩阵的Kauermann-and-Carroll和Fay-and-Graubard三明治方差的GEE。p值来自t分布,自由度(DoF)为簇减去簇级参数;GLMM伪似然也使用Satterthwaite和Kenward-Roger自由度。
结果
非加权CL, GLMM伪似然和Fay-and-Graubard GEE具有独立的或可交换的工作相关矩阵控制的第一类误差,在> 97%的场景下,集群负参数DoF。结果的聚类效应分布和流行度通常不会影响分析方法的性能。GEE的功率最小。在20 ~ 30个集群中,GLMM的功率大于CL,但集群大小不同,但功率相近;当聚类较少时,聚类大小相同的GLMM功率较小,聚类大小变化中等的GLMM功率相近,聚类大小变化较大的GLMM功率较大。
结论
我们建议≤30个簇和二元结果的crt使用非加权CL或受限伪似然GLMM,且簇的自由度减去簇级参数。
背景
聚类随机试验(crt)通常设计有少量的聚类[1],但当结果为二元时,不清楚哪种分析方法是最优的。
在一项对照表中,被称为群组的个人,如卫生诊所或村庄,被随机分配接受控制或干预条件。来自相同星系团的观测结果可能比来自不同星系团的观测结果更相似,众所周知,需要考虑这种相关性,以防止置信区间过窄和p值过小[2].
可用于crt的分析有三种主要类型:聚类分析、广义线性混合效应模型(GLMM)和带有三明治标准误差的广义估计方程(GEE)。在聚类级别的分析中,每个聚类的观察结果被汇总,这些聚类级别的汇总使用独立数据的简单方法进行分析,最常见的是加权或非加权t检验。在一个GLMM中,通过包含一个随机效应来直接模拟同一星系团中观测的相关性。GEE假设在同一星系团中有一个工作的相关结构,并考虑到数据中观测到的相关性,计算标准误差。
每种类型的分析方法都有大量的文献,聚类较少。众所周知,聚类级分析可以用少量的聚类和非正态分布结果来保持对第一类错误的控制[3.,4].GLMM或GEE需要用少量集群进行小样本修正,以保持可接受的第一类错误率[5,6,7,8].GLMM需要使用受限的最大似然,并将检验统计量与t分布(而不是正态分布)进行比较[5].GEE要求使用偏差校正的标准误差以及使用t分布。已经开发了许多校正偏差的标准误差,每一个都在不同的场景中表现良好。在crt常见的情况下,有些是保守的[9,而其他的则更接近于名义上的第一类错误[7,8,10].高患病率的连续结果和二元结果已得到充分研究[6,10,11到目前为止,所有评估都假定模型假设得到满足。众所周知,聚类分析可以在非正态分布的结果下保持对第一类错误的控制[3.,4].GLMM对某种程度的非正态具有鲁棒性[12],但是还没有对少数集群或GEE进行探索。对于大量的集群,使用GLMM或GEE进行个体级分析比使用不同集群大小的集群级分析更有能力[2].众所周知,使用具有连续结果的GEE小样本校正可以降低功率[11],但还没有研究过这种二元结果。在下面的“方法背景”小节中,我们将为每种分析类型提供更多以前文献的细节。
二元结果是crt最常见的结果类型[1],但对CRT分析方法提出了问题。当一些集群没有感兴趣的事件时,集群级方法变得更具挑战性,而GLMM需要随机效应的数值积分方法[2].通常使用的效应度量,如比值比也是不可折叠的,因此GEE估计对聚类级分析和GLMM有不同的解释。
在本文中,我们解决了文献中关于二元结果的一些剩余空白:是否有可能在低患病率结果中控制每种方法的第一类错误?如果第一类错误可以控制,哪一种方法的威力最大?每种类型的分析对群集效应的非正态性有多敏感?首先,我们将更详细地描述分析方法,并回顾关于在少量聚类中使用这些方法来估计优势比的以前的文献。然后,我们报告了一个广泛的模拟研究,以解决我们的三个研究问题。我们展示了分析选择对说明性对照表的影响,并向试验人员提供建议。
方法
分析方法背景
在本节中,我们将回顾已展示的分析方法,以保持具有二元结果和少量簇的crt的第一类误差。我们只考虑没有对协变量进行调整的分析。
这些方法得出的估计结果有不同的解释。聚类水平分析和GLMM提供了聚类特定干预效果估计;这是对一个参与者进行干预后的平均效果和一个参与者进行控制后的平均效果的估计。GEE提供人口平均(也称为边际)干预效果估计;这些是对一个参与者的平均效果的估计比较一个参与者进行了干预和一个参与者进行了控制从人群中抽取。
我们认为CRT有\ (n \)分组随机分为干预组或对照组\ ({y} _ {ijk} = \ mathrm {0,1} \)在手臂上我\ \ ()在集群\ (j \)对个人\ (k = 1, \点,{m} _ {ij} \)在哪里\ ({m} _ {ij} \)观察次数是否一致我\ \ ()在集群\ (j \).
集群级别分析
在聚类级别的分析中,对每个聚类的个别观察结果进行汇总。对于二元结果,通常使用比例,但为了与GLMM和GEE进行比较,这里我们将考虑每个集群中结果的log odds,这样我们就可以估计一个odds ratio干预效果。在没有相关事件的集群中,没有定义日志几率。为了避免这种情况,我们在每个集群中添加了0.5个事件和0.5个非事件[2],使集群日志的赔率定义为:
这些集群的日志概率是相互独立的,因此可以使用简单的分析过程来导出置信区间和p价值。自由度为n - 2的t检验已被证明在只有6个簇的情况下保持第一类错误[13].
我们知道,对于离正态假设相对较大的偏差,聚类摘要的t检验是稳健的[14];支持图。1A和C展示了不影响t检验性能的非正态分布结果的例子。然而,如果集群的大小不同,这种方法会变得低效[15].为了提高效率,建议对聚类使用几种权重,并使用加权t检验,但这些权重的表现仍不清楚。虽然权重类可以最大限度地利用信息,但这必须考虑到权重估计本身的不确定性[2].
在这里,我们比较以下聚类权重的性能:
未加权的分析
所有集群都被赋予相同的权重。
反变量权重
反方差权重通过对每个集群汇总的方差进行反加权来说明每个集群提供的信息。从泰勒级数展开,集群的方差对数赔率近似为
在哪里\ ({\ widehat {p}} _ {ij} \)观察结果的观察比例是否有变化我\ \ ()在集群\ (j \),\({\σ}_ {b} ^ {2} \)是真实群集对数概率的方差,\ ({p} _ {ij} \)观察结果的真实比例是否有效我\ \ ()在集群\ (j \).
我们可以将集群内相关系数(ICC)代入此公式。ICC是群集变异性除以总变异性之间的差别。我们使用ICC的对数概率尺度的定义\({\ρ}_{我}={\σ}_ {b} ^{2} / \离开({\σ}_ {b} ^ {2} + 1 / {p} _{我}[1 - p{} _{我}]\)\)[16),我\ (p {} _ {} \)是每组结果的患病率。cluster log-odds的方差导致不同的反向方差权重,这取决于对结果在cluster中流行程度的假设。在零假设下,两组的平均患病率相同,那么两组的ICC是相同的,因此\({\ρ}_{0}={\ρ}_{1}=ρ\ \),我们得到了克里和布兰德建议的反向方差权重[15)(见派生补充文本)
使用ICC的不同定义也可以得到相同的权重,该定义假定存在一个决定每个人是否经历结果的潜在变量。该潜变量假定遵循logistic分布[16].
按簇大小和簇内方差加权也在其他地方使用,但这里没有考虑。按簇大小加权忽略了簇大小对簇提供的信息的非线性影响,并已被证明可以给出有偏差的效应估计[11,17].集群内方差加权忽略了集群对数优势方差的集群元素之间的权重,已经被证明会给出膨胀的第一类错误,除非结果非常常见[17].
广义线性混合效应模型
采用二项分布和logit链接的glmm直接模拟簇间的变化,从而:
在哪里\ ({\ varvec {y}} \)是长度结果的向量吗\ (n {m} _ {ij} \),\ ({\ varvec {X}} \)是一个\ (n {m} _ {ij} \)x\ [2 \)由1向量和试臂分配组成的固定效应协变量矩阵,\ ({\ varvec{\β}}\)是固定效应参数的矢量,由截距(\({\β}_ {0}\))和对数比值比比较控制和干预条件(\({\β}_ {1}\)),\ ({\ varvec{你}}\)是一个向量的随机效果的集群与元素\({你}_ {ij} \ sim N(0,{\σ}_ {b} ^ {2}) \).
采用极大似然法估计参数\ ({\ varvec{\β}}\),\({\σ}_ {b} ^ {2} \).对于具有连续结果的crt,使用类似的GLMM,但具有身份联系的正态分布。极大似然估计导致对\({\σ}_ {b} ^ {2} \)使用少量的聚类,并使用限制极大似然估计,在估计随机效应方差之前,对数据进行转换,去除固定效应,减少了这种偏差[18].
对于上述二元结果模型,边际似然没有一个封闭的形式表达,因此需要数值积分方法。自适应求积法是一种常用的方法,但目前还没有与用于减少连续结果偏差的方法等价的限制方法。Pseudo-likelihood [19]及惩罚准似然[20.性能不如具有大量簇的自适应求积[20.],但也有限制的方法。Elff等人发现,这使得惩罚准似然性成为一种更适合于具有共同结果和probit链接的聚类更少的数据的技术[5].
除了选择积分方法外,当聚类数量较少时,为了考虑标准误差估计的不确定性,还需要用t分布来构造置信区间和p值。自由度有三种常用选项:
集群减去集群级参数。在未经调整的分析中,这是F (\ D {} _ {c p} = n - 2 \)
Satterthwaite [21].对于干涉效应参数的检验,自由度为
$ $ D {F} _{年代}= \压裂{2 Var{({\β}_ {1})}^ {2}}{Var \离开(Var({\β}_{1})\右]}$ $
在哪里左\ (Var \ [Var({\β}_{1})\右]\)用多元增量法逼近。
肯沃德和罗杰[22]提出了一种小样本校正方法,其中包括标准误差的膨胀以及自由度校正(DF)基米-雷克南).对于干涉效应参数的测试,该修正的自由度部分与DF相同年代,但标准误差可能不同。
对于连续的结果,Satterthwaite自由度最接近于名义上的第一类误差,而簇减去簇级参数和Kenward-Rogers自由度则更为保守[11].对于二元结果,集群减去集群级别参数之前给出的最接近名义覆盖[6,并有共同的结果。
对于大量的集群,GLMM提供了正态和非正态分布的集群效应的类似结果(这里这些是集群对数比),除了非正态的极端情况或非常大的集群可变性[12,23].支持图。1B和C展示了不影响GLMM性能的集群效应分布的例子。然而,这一点还没有在集群数量较少的情况下进行研究。
广义估计方程
GEE模型是将相关参数视为妨害参数的边缘个体水平数据。我们假设数据有一个相关结构,它给出了一个协方差矩阵\ ({{\ varvec {V}}} _ {{\ varvec {W}} {\ varvec{我}}{\ varvec {j}}} \)每个聚类的结果向量\ ({{\ varvec {y}}} _ {{\ varvec{我}}{\ varvec {j}}} \).我们使用logit链接
的(未校正的)夹心协方差矩阵\ (\ widehat {{\ varvec{\β}}}\)是
在哪里\ ({{\ varvec {V}}} _ {{\ varvec {M}}} \)模型的方差是\ ({\ varvec{\β}}\),\ ({{\ varvec {D}}} _ {ij} ={\部分{\ varvec{\μ}}}_ {{\ varvec{我}}{\ varvec {j}}} / \部分{\ varvec{\β}}\ boldsymbol {^ {\ '}} \),\ (\ widehat {x} \离开({{\ varvec {y}}} _ {{\ varvec{我}}{\ varvec {j}}} \右)= \离开({{\ varvec {y}}} _ {{\ varvec{我}}{\ varvec {j}}} - {\ widehat {{\ varvec{\μ}}}}_ {{\ varvec{我}}{\ varvec {j}}} \右){\离开({{\ varvec {y}}} _ {{\ varvec{我}}{\ varvec {j}}} - {\ widehat {{\ varvec{\μ}}}}_ {{\ varvec{我}}{\ varvec {j}}} \右)}^ {T} \).
少于40-50个集群[24,与GEE一起使用的夹心协方差估计已知会估计平均上太小的标准误差,因此它们是负偏的,一些偏差修正已被建议来减少这种偏差[7,8,9,25,26].考尔曼和卡罗尔发展的修正[8费伊和格劳巴德[7在一系列使用crt的场景中都具有特别有前途的性能[10,27].其他人则通常比较保守[9或高度可变的[26].
Kauermann和Carroll建议估算者:[8]
在哪里\ ({{\ varvec{一}}}_ {{\ varvec {K}} {\ varvec {C}} {\ varvec{我}}{\ varvec {j}}} ={左\ [{{\ varvec{我}}}_ {{\ varvec{我}}{\ varvec {j}}}, {{\ varvec {D}}} _ {{\ varvec{我}}{\ varvec {j}}} {{\ varvec {V}}} _ {{\ varvec {M}}} {{\ varvec {D}}} _ {{\ varvec{我}}{\ varvec {j}}} ^ {{\ varvec {T}}} {{\ varvec {V}}} _ {{\ varvec {W}} {\ varvec{我}}{\ varvec {j}}} ^{1} \右]}^ {5}\).
Fay和Graubard建议估算者:[7]
在哪里\ ({{\ varvec{一}}}_ {{\ varvec {F}} {\ varvec {G}} {\ varvec{我}}{\ varvec {j}}} =诊断接头左\[\左左((\ [0.75,{{\ varvec {D}}} _ {{\ varvec{我}}{\ varvec {j}}} {{\ varvec {V}}} _ {{\ varvec {W}} {\ varvec{我}}{\ varvec {j}}} ^ {1} {{\ varvec {D}}} _ {{\ varvec{我}}{\ varvec {j}}} ^ {{\ varvec {T}}} {{\ varvec {V}}} _ {{\ varvec {M}}} \右]\)\右]\)
除了标准误差修正外,还需要从t分布中构造置信区间和p值,这在聚类级分析和GLMM中已经看到。关于GEE的文献较少,但是DFc p表现良好[10].
与集群级别分析和GLMM不同,GEE不对集群日志赔率的分布做任何假设。它们是作为一种非正态结果的稳健分析方法而开发的,因此我们希望这种方法对簇对数概率的非正态性具有稳健的效果。
这些方法的比较
比较不同类型方法的文献尤其稀少。由于现在可以在所有方法中使用少量的集群来维护type-one错误,因此性能比较是相关的。虽然有大量的集群,但我们知道,当集群大小不同时,我们描述的个体级别的方法比集群级别的方法更强大[28],对个人层面的方法应用小样本修正的功率比较很少。对于连续的结果和正态分布的簇级摘要,经过小样本校正的glmm比未加权的簇级分析和GEEs具有更高的幂次,其幂次与方差反比加权的簇级分析相似[11].其他人发现,在应用小样本校正后,GLMM比GEE具有更高的功率[29].
仿真研究方法
我们进行了模拟研究,以比较上述分析方法的性能。模拟在SAS软件中进行,SAS系统的9.4版本的windows[30.].表中给出了模拟中包括的场景1更多细节在支持信息文本.每个场景的所有组合都进行了1000次重复模拟,因此有95%的概率估计真正的第一类误差(5%)在3.6%到6.4%之间。
数据生成机制
我们使用数据生成模型模拟二进制、聚类数据:
在哪里\ ({Y} _ {ij} \)事件的数量是否相等我\ \ ()在集群\ (j \),\({\β}_ {0}\)是控制条件下结果的真实对数,\({\β}_ {1}\)对数优势比干预效应,和\({你}_ {ij} \)均值为零且方差为零的聚类是否具有随机效应\({\σ}_ {b} ^ {2} \).
对照组结果的发生率为10%或30%。我们模拟了有或没有干预效果的场景(\({\β}_ {1}\)).对于有干预效果的场景,我们使用Stata 15 [31power命令选择集群特定的优势比,在每个场景中,该优势比预计为80%。此命令使用设计效果左(m - 1 \ \(1 + \) \ \)ρ来解释聚类和van Breukelen, Candel和Berger的设计效应,以解释不相等的聚类大小[32].
在log odds scale上,ICC被设置为0.001、0.01、0.5或0.1,定义为\({\σ}_ {b} ^{2} /({\σ}_ {b} ^{2} +{\π}^ {2}/ 3)\),在健康研究中跨越一系列共同的价值观[33,34,35].的分布\({你}_ {ij} \),我们考虑了一个正态分布,一个均匀分布来探索峰度的影响,和一个带形状参数的伽马分布\ \(λ= 2 \).之所以选择这些分布,是因为它们是glmm估计具有大量聚类的无偏簇级系数的极限[12,23].
试验设计
我们以1:1的随机比例模拟试验,总共有8、12、20或30个簇。集群大小对于所有集群都是通用的,或者模拟成不同的集群。根据负二项分布得出的可变簇大小为最小簇大小为3,簇大小的变异系数为0.5(英国初级保健信托规模的中位数CV [36]),或0.8(变异性较大)[11,37].平均簇大小为10、50或1000,代表小型、中型和超大型簇[1].
估算与分析方法
模拟试验分析的兴趣估计是比值比干预效应和无干预效应的统计检验。我们在聚类级分析中使用了特定于聚类的估计,在GEE中使用了GLMM和总体平均估计。
我们使用之前描述的所有方法分析数据:非加权聚类分析(CL-UNW),以及在聚类内方差相等的反方差权重(CL-W);利用自适应高斯-埃尔米特正交(AQ)或限制拟似然(REPL)和自由度作为簇减去簇级参数(DF)的GLMMCP), Satterthwaite (DF年代),或者Kenward-Rogers (DF基米-雷克南), DF年代和DF基米-雷克南只对REPL可用;利用DF对边界参数为0.75的Kauermann和Carroll校正(KC)或Fay和Graubard校正(FG)进行夹心方差分析CP和独立的(I)或可交换的(E)工作相关矩阵。可交换工作相关矩阵GEE只在平均簇大小为10或50的场景下运行,因为当簇大小为1000时,运行时间长得不可行。
我们的数据生成机制指定了一个集群特定的干预效应优势比。由于GEE估计的人口平均(边际)优势比,我们使用近似公式来估计真实的边际效应,以便与GEE估计进行比较[38]:
首先,我们选择了在模拟研究中对一类误差控制最一致的聚类级、GLMM和GEE方法;然后比较了这三种方法的性能。
性能的措施
对于每种情景和分析方法,我们计算了干预效果估计的标准化偏差,即偏差占1000次重复干预效果估计标准差的百分比;标准误差中的相对偏差;一类错误;和功率(39].我们还计算了覆盖率,但由于结果与第一类误差结果相似,结果没有显示。我们认为第一类误差小于3.6%为保守,第一类误差大于6.4%为夸大。总结了收敛速度,排除了不收敛的分析。
结果
对于每一类型的分析,我们将总结重要的结果,更多的细节在支持信息.
干预效应估计偏差、标准误差偏差和一类误差
集群级别的方法
只有不到1%的CL-UNW或CL-W在所有场景下不能提供干预效果或p值。只有当所有聚类级别的总结在每个臂内都是相同的,臂内方差为零时,才会出现不收敛。
CL-UNW和CL-W在平均聚类大小为10和低结局患病率的场景中,干预效果的平均估计标准化偏差分别为52%和38%,更接近于零(图1)。1).两种方法在任何其他情况下均无偏差(CL-UNW的平均标准化偏差为-2%,CL-W为-1%)。
CL-UNW在所有情景下的标准误差均在模拟估计标准差的10%以内,第一类误差在所有情景下均接近名义误差(图1)。1).由于有偏差的干预效果估计,在平均聚类规模为10和低结局患病率(102/144(71%)场景的覆盖率< 93.6%)的情况下,可信区间的覆盖率往往较低。
CL-W的标准误差比平均聚类大小为10和低流行率的估计的标准差小46%和大6%。在其他情况下,标准误差更接近模拟估计的标准偏差(在小9%和大14%之间)。CL-W的一型误差在平均聚类大小为10和低结局患病率(97/144(67%),一型误差> 6.4%)和当聚类大小变化时(25/240(10%),聚类大小CV = 0.5和49/240(20%),聚类大小CV = 0.8)被夸大。
支持无花果。2,3.,4,5而且6通过每个模拟研究参数显示聚类分析的性能。
GLMM
在REPL和AQ中,高达10%的模型未能收敛于8个簇,平均簇大小为10,结果流行率较低。REPL导致高达8%的不收敛,平均簇大小为1000,ICC = 0.001;这种情况在30个集群中更为明显,但在20个集群中仍然存在。在所有其他情况下,非收敛性小于5%。
REPL和AQ都给出了在所有情景下干预效果的最小偏差估计(在所有情景下,AQ和REPL的标准化偏差平均值分别为2.9%和0.6%,如图所示。2).
AQ导致的标准误差太小,当平均簇大小为1000且簇数为20或更少时(平均比12个簇的模拟标准差小8%,8个簇的模拟标准差小12%)。标准误差的偏差随着ICC的增大而增加(ICC = 0.1标准误差偏差= -6%,ICC = 0.001,标准误差偏差= -3%)。这导致了平均第一类误差7%,ICC = 0.1,平均簇大小为1000和8或12簇。
REPL给出了更一致的标准误差。然而,当平均簇大小为10时,标准误差平均比12簇模拟的标准差大4%,比8簇模拟的标准差大10%。Kenward-Roger标准误差校正的影响很小。REPL与DF组合CP控制第一类错误,但在标准错误膨胀的情况下是保守的(平均簇大小10平均第一类错误= 3.8%的30簇,1.9%的12簇,0.8%的8簇)。DF基米-雷克南和DFSA更保守。
支持无花果。7,8,9而且10通过各参数的仿真研究,验证了该方法的性能。
哇
有了独立的工作相关矩阵,在大多数情况下,小于3%的不收敛。高达9%未能收敛于平均聚类大小为10和结果流行率为10%。在工作相关矩阵可交换的情况下,簇的大小不收敛是常见的。当聚类规模CV = 0.8,平均聚类规模10时,平均有20%的聚类不能收敛;当平均聚类大小为50时,这一数据增加到34%的平均值,无法收敛。
在没有影响的情况下,干预效果的估计误差很小;在干预确实有影响的情况下,干预效果的估计误差可以忽略不计(与估计的边际效应相比)(独立和可交换工作相关性矩阵的平均标准化偏差分别为5%和3%,图。3.).在独立的和可交换的工作相关矩阵之间,效应估计的变异性是相似的。
通过独立的工作相关矩阵,KC和FG的标准误差在20个或20个以上的聚类时都显示出很小的偏差。在12个或更少的聚类中,FG的标准误差平均太大6%,KC的标准误差平均太小2%。3.).在FG标准误差的情况下,第一类误差在25%的情况下是保守的,在3%的情况下是夸大的。膨胀的第一类错误发生在集群较大的时候,集群大小有很大的可变性。
使用可交换的工作相关矩阵,FG的标准误差变得更加多变,在12个或更少的聚类中,平均有10%的标准误差高估。KC标准误差在12个或12个以上的聚类中几乎没有偏差,在8个聚类中平均高估3%。在FG标准误差的情况下,第一类误差在33%的情况下是保守的,在1%的情况下是夸大的。
为了选择一个工作相关矩阵来与GLMM和CL方法进行比较,我们还考虑了功率。与FG标准误差和DFCP,功率与独立或可交换工作相关矩阵相似(独立工作相关矩阵平均功率增加1%)。在20-30个集群中,功率相似(可交换平均值高0.4%),但在集群较少的情况下,功率倾向于独立的工作相关矩阵(可交换平均值分别比12和8个集群低0.8%和3.8%)。功率倾向于独立工作相关矩阵ICC = 0.001(平均比可交换功耗高3.1%),但倾向于可交换功耗相关矩阵ICC = 0.1(平均比可交换功耗高1.6%)。
由于功率相近且收敛性较好,我们将独立的工作相关矩阵向前推进,与聚类级方法和GLMM方法进行比较。
支持无花果。11,12,13而且14通过仿真研究各参数,验证了GEE方法的性能。
聚类级方法、GLMM和GEE的比较
接下来,我们比较每种分析类型的最佳性能方法:CL-UNW和REPL。DFCP,和具有FG标准误差和独立工作相关矩阵(FG. i.f df .)的GEECP).
在大多数情况下,这三种方法都控制了第一类错误。4).CL-UNW控制的第一类误差最一致;只有1%的场景有夸大,5%保守的第一类错误。REPL-BW有最保守的第一类错误:42%的场景有保守的第一类错误,1%有夸大的第一类错误。FG.I.DFCP有最多可变的第一类错误:6%的场景夸大了第一类错误,17%保守。
权力
排除低患病率和群集规模为10的情景(由于CL-UNW的偏差效应估计),REPL。DFCP比CL-UNW的平均功率高2%,而fg - i.dfCP平均功率比CL-UNW低3%(图1)。5).
CL-UNW与fg - i.df的功率差CPICC的影响最大,ICC越高,CL-UNW的功率越大:ICC = 0.1时,CL-UNW的功率比fg - i.f fCP,但ICC = 0.001CP比CL-UNW的平均功率大8%。由于集群较少,CL-UNW更受青睐。
REPL之间的功率差。DFCPCL-UNW受簇大小变化的影响最大。在一般的簇大小下,CL-UNW比REPL平均高2%的功率。DFCP;CV = 0.5时,REPL-BW比CL-UNW平均高2%;CV = 0.8, REPL。DFCP比CL-UNW平均高10%。随着集群的减少,这些方法之间的功能变得更加相似。随着ICC的提高,两种方法的功率趋于一致。
在所有情况下(包括低流行率和集群大小为10的情况),REPL。DFCP比fg - i - df的平均功率高5%CP.这受ICC的影响最大:当ICC = 0.1时,REPL。DFCP平均提高10%,但ICC = 0.001, REPL。DFCP和FG.I.DFCP有类似的权力。集群的数量对功率差异的影响最小。
支持无花果。15,16而且17显示每个仿真研究参数的功率比较。
鲁棒性,non-normality
基于集群对数概率是呈正态分布,还是偏态或峰度分布,我们的发现没有差异(支持图。3.,8,12,16).
建议
表格2总结我们的结果,按场景提供最健壮和最强大的分析建议。
说明性的例子
肺结核的治疗包括6个月的每日交替用药。不坚持治疗妨碍康复,护理标准(SoC)是直接观察治疗,由卫生工作者或家庭成员直接观察患者服药。这是昂贵的,对坚持的影响有限[40].
在一项试验中,两种干预措施,短信提醒和药物电子监测箱,与SoC进行了比较[41].在这里,我们将重点放在监控框与SoC的比较上:每个臂中有9个集群的比较。随机分组按省份和集群是否为城市进行分层:在本例中,为了简单起见,忽略了这一点。在监测箱臂中,患者的药物储存在一个盒子中,记录了盒子的开口,临床医生可以审查,以评估是否需要坚持咨询,并有灯光和声音提醒患者服药。我们将重点关注试验的次要结果:患者是否在治疗过程中遗漏了超过10%的剂量。每组平均116例患者,变异系数为0.1。log-odds scale上的ICC估计为0.09(根据REPL GLMM估计)。
数字6显示了本文所考虑的每种方法的估计干预效果、置信区间和p值。结果在两组中都很常见:对照组和干预组中分别有59%和41%的人遗漏了超过10%的剂量。所有分析都发现强有力的证据表明,与SoC相比,监测盒改善了粘附性,但证据的强度与模拟研究结果相一致。
由于集群是中等大小的,所以表2推荐使用CL-UNW或REPL。DFCP。这些提供了几乎相同的结果(CL-UNW: OR = 0.45 95% CI [0.25, 0.83]p= 0.013, REPL。DFCP: or = 0.46 95% ci [0.25, 0.83]p= 0.013)。
由于这个例子在簇大小上的可变性很小,CL-W可能会有名义上的第一类误差,因此结果与CL-UNW类似。AQ.DF膨胀的第一类误差CP导致了更小的p值(p= 0.009),置信区间较窄(0.26,0.80),但由于本试验的集群规模不小,自由度对REPL的影响不大。由于集群的大小,GEE方法可能会增加第一类错误,但也发现比其他方法具有更低的功耗。这导致了更多不同的结果(p= 0.009 ~ 0.016)。
讨论
我们已经确定了控制第一类错误的方法,在高和低流行情况下,通过聚类级分析、GLMM和GEE,只有8个聚类。聚类级分析应该给予所有聚类同等的权重。GLMM应使用REPL进行似然整合,GEE应使用Fay和Graubard的小样本标准误差修正。所有方法都需要一个t分布,其中簇减去簇级参数作为计算置信区间和的自由度p值。我们发现,当ICC较高时,非加权聚类水平分析在普通聚类规模和竞争能力方面具有最大的效力。尽管存在保守的第一类错误,但使用REPL的glmm在不同簇大小或20个或更多簇的情况下具有最大的能力。在FG标准误差下,GEE方法的功率趋于与其他方法相同或更低。所有方法均具有良好的非正态分布聚类效果。
我们对聚类水平分析方法的比较发现了聚类的反方差加权问题。加权最小二乘法假设权重是已知的,但实际上它们是估计的。这导致了CL-W观察到的标准误差的偏差[42].使用稳健的标准误差可能能够解释权重估计,但这可能导致与本文中显示的GEE方法相似的结果,后者具有更低的功耗。集群级分析很容易在任何软件中手工编码,用户编写的Stata命令族也可以使用[43].
我们发现在GLMM中使用的积分方法对于获得无偏标准误差很重要:REPL优于AQ。这扩展了Elff等人[5]到逻辑模型和低流行率结果。我们使用SAS glimmix程序来实现这个方法。R函数glmmPQL实现了类似的方法[44].据我们所知,REPL在统计软件Stata中是不可用的。我们用簇级参数减去簇级参数的类一级误差和用Kenward-Rogers和Satterthwaite计算的保守类一级误差的发现得到了以前研究的支持[6],我们确定这些发现支持低流行率的结果。
对于GEE,我们推荐的FG标准误差减去簇级参数自由度的建议与其他人一致[10,45,46,47].这之前的文献没有报道收敛的速度,我们发现在一些情况下与可交换的工作相关矩阵是低的。收敛性差的原因可能是反演与簇大小相同的矩阵的计算复杂度,以及某些迭代需要反演不可逆矩阵[48].通过选择工作相关矩阵进行功率比较是一种新颖的方法。在簇数较多的情况下,正确选择工作相关矩阵可以提高功率[49].我们发现,这种差异随着少量的聚类而减小,因此拟合更复杂的可交换工作相关矩阵几乎没有好处。类似的结果也出现在阶梯楔形随机试验中[50,所以我们发现的相似性很可能与用于比较的较小的簇大小相同。这种方法在统计软件中得到了广泛的应用:我们使用了SAS [30.,在Stata用户写的命令xtgeebcv是可用的[51],在R中,锯片包实施FG校正[7].
我们从三种类型的分析中比较权力是新颖的。我们发现,尽管存在保守的第一类错误,但与GEE或聚类级分析相比,GLMM通常具有更大的竞争力。与大量集群的设置相反,我们发现当ICC较大时,即使集群大小不同,集群级分析仍然保持竞争力。GEE具有较低的ICC,但其功耗往往低于GLMM。Leyrat等人也证实了低功率对连续结果的影响[11].如果两种方法之间的功率和第一类误差相似,并且GEE的收敛性是合理的,那么可以根据研究人员是否对估计特定集群或平均群体干预效果感兴趣来指导选择。这种选择的另一个考虑因素是群集效应的非常态性。我们发现方法的性能与我们考虑的分布没有区别。在这些分布中,混合效应模型在大量集群中表现良好的极限[12],所以如果怀疑存在较大程度的非正态性,我们建议使用GEE或集群级分析。
无论我们考虑的所有集群数量的集群日志概率分布如何,我们的发现都是相似的。由于我们选择的非正态性是具有大量集群的良好GLMM性能的边界,这表明具有少量集群的方法的性能与具有大量集群的方法的性能相似[12,23].因此,对于非常倾斜的数据应该使用聚类级分析,但对于一些倾斜或显示峰度的数据,这两种方法都仍然适用。
我们所选择的所有方法在平均每组10次观察和低发生率的情况下都遇到了困难,但这种情况下的少数集群,规模小,发病率低,在实践中不太可能发生。由于没有事件的聚类存在,未加权聚类级别分析在这些场景中给出了有偏差的干预效果估计。在这些情况下,GLMM和GEE方法高估了标准误差。在较大的群集中,低流行率通常对结果影响不大。
我们的模拟研究覆盖了广泛的crt常见场景。但是,还有一些我们没有考虑的分析方法,它们可能具有更好的性能。这包括可用于GEE的其他小样本修正[10,25,27,52];其中一些可以改善GEE的第一类错误控制,特别是在集群大小变化较大的情况下[25,一个过分散二项模型[53,54]和非参数方法,如排列检验。我们的分析方法没有调整协变量,我们的模拟使用了简单的随机化。我们所考虑的方法都可能受到集群级协变量调整的影响。我们只考虑了干预效果的估计,这是一个集群水平的协变量。与估计的边际效应相比,GEE方法的性能可能会受到影响,因为我们的数据生成机制使用了特定于集群的效应。我们排除了任何不收敛的跑动。这在GEE中是很常见的,如果它们识别出干预效应,运行或多或少可能会收敛,这可能会对估计的功率产生偏差:据我们所知,情况并非如此。此外,我们只认为患病率低10%。
结论
我们建议如果有30个或更少的集群和二元结果的CRTS使用非加权的集群级分析,或者使用REPL的GLMM。两种方法的置信区间和p值都应该基于t分布计算,自由度的数量定义为簇的数量减去簇级参数。
数据和材料的可用性
说明示例的数据可在http://doi.org/10.17037/DATA.4.代码中提供了实现本文中讨论的方法的代码补充材料.
参考文献
Kahan BC, Forbes G, Ali Y,等。在有少量或中等数量集群的集群随机试验中,I型错误的风险增加:一项综述、再分析和模拟研究。试验。2016;17:438。https://doi.org/10.1186/s13063-016-1571-2.
海耶斯RJ和莫尔顿LH。集群随机试验。纽约:CRC出版社;2017.
Donner A, Klar N.在以集群为分配单位的干预研究中比较事件发生率的方法。中华流行病学杂志1994;140:279-89。https://doi.org/10.1093/oxfordjournals.aje.a117247讨论300 - 271。1994/08/01。
违反t检验假设的影响。Psychol公牛。1960;57:49 - 64。https://doi.org/10.1037/h0041412.
李志强,李志强,李志强,等。很少聚类的多级分析:改进基于似然的方法提供无偏估计和准确推断。政治科学。2019;51(1):412-26。https://doi.org/10.1017/S0007123419000097.
李P, Redden DT。比较广义线性混合模型在小样本聚类随机试验中分析二元结果的分母自由度近似。BMC医学研究方法。2015;15:38。https://doi.org/10.1186/s12874-015-0026-x.文章。
费伊议员,格劳巴德商业内幕网。使用三明治估计器的wald型测试的小样本调整。生物识别技术。2001;57:1198 - 206。https://doi.org/10.1111/j.0006-341X.2001.01198.x.
考尔曼G,卡罗尔RJ。三明治协方差矩阵估计效率的一个注记。美国统计协会2001;96:1387-96。https://doi.org/10.1198/016214501753382309.
Mancl LA, DeRouen TA。具有改进小样本性质的GEE协方差估计。生物识别技术。2001;57:126-34。https://doi.org/10.1111/j.0006-341X.2001.00126.x.
李P, Redden DT。带有二元结果的聚类随机试验中偏差校正三明治估计的小样本性能。统计医学。2015;34:281 - 96。https://doi.org/10.1002/sim.63442014/10/28。
刘志强,刘志强,刘志强,等。采用少量聚类的聚类随机试验:应该使用哪种分析?国际流行病学杂志,2018;47:321-31。https://doi.org/10.1093/ije/dyx169.
Litière S, Alonso A, Molenberghs G.在广义线性混合模型中,错误指定的随机效应分布对估计和推断程序性能的影响。统计医学。2008;27:3125-44。
Ukoumunne OC, Carlin JB, Gulliford MC.聚类随机试验二元结果的比值比估计的模拟研究。统计医学。2007;26:3415-28。https://doi.org/10.1002/sim.2769.
Heeren T, D 'Agostino R.两个独立样本的鲁棒性T检验应用于序数比例数据。统计医学。1987;6:79 - 90。https://doi.org/10.1002/sim.47800601101987/01/01。
Kerry SM, Martin BJ。英格兰和威尔士全科实践中试验的不相等簇大小:对样本量计算的影响。统计医学。2001;20:377 - 90。
Eldridge SM, Ukoumunne OC, Carlin JB。聚类随机试验中的聚类内相关系数:定义的综述。Int Stat Rev. 2009; 77:378-94。
韦斯特盖特点。在具有二元结果和聚类水平协变量的分组随机试验中的小样本推断。Biom j . 2013; 55:789 - 806。
块大小不相等时块间信息的恢复。生物统计学。1971;58:545-54。https://doi.org/10.2307/2334389.
李志刚,李志刚。伪似然方法的广义线性混合模型。统计计算机模拟1993;48:233-43。https://doi.org/10.1080/00949659308811554.
布雷斯洛NE,克莱顿DG。广义线性混合模型中的近似推理。美国统计协会1993;88:9-25。https://doi.org/10.2307/2290687.
Satterthwaite铁。方差分量估计的近似分布。生物识别技术通报。1946;2:110-4。https://doi.org/10.2307/3002019.
Kenward MG, Roger JH。限制最大似然固定效应的小样本推断。生物识别技术。1997;1997/10/23 53:983 - 97。
Heagerty PJ, Kurland BF。错误指定的极大似然估计和广义线性混合模型。生物统计学。2001;88:973 - 85。https://doi.org/10.1093/biomet/88.4.973.
刘志强,刘志强。关于广义估计方程的小样本性质多元二分类结果的估计。J统计模拟1992;41:19-29。https://doi.org/10.1080/00949659208811388.
福特WP, Westgate PM。用于在小簇随机试验中保持推断有效性的改进标准误差估计器。Biom j . 2017; 59:478 - 95。https://doi.org/10.1002/bimj.2016001822017/01/28。
Morel JG, Bokossa MC, Neerchal NK。GEE估计量方差的小样本校正。Biom j . 2003; 45:395 - 409。https://doi.org/10.1002/bimj.200390021.
刘国强,刘国强,刘国强,等。广义估计方程两种偏校正协方差估计的比较。生物识别技术。2007;63:935-41。https://doi.org/10.1111/j.1541-0420.2007.00764.x2007/09/11。
Omar RZ, Thompson SG。使用多级模型分析具有二元结果数据的聚类随机试验。统计医学。2000;19:2675 - 88。
McNeish DM, Harring JR.小样本的聚类数据:比较基于模型和基于设计的方法的性能。公共统计模拟计算机。2017;46:855-69。https://doi.org/10.1080/03610918.2014.983648.
SAS软件版本9.4。SAS研究所有限公司卡里,数控。https://www.sas.com/images/contact_box/ReferenceFormatsforSASMaterials.pdf.
StataCorp。Stata统计软件:第15版。德州College Station: StataCorp LLC;2017.
van Breukelen GJP, Candel MJJM, Berger MPF。聚类随机和多中心试验中不相等和相等聚类大小的相对效率。统计医学。2007;26:2589 - 603。https://doi.org/10.1002/sim.2740.
马立群,马立群,马立群,等。从初级保健研究到研究设计和分析的聚类内相关性模式。中华临床流行病学杂志2004;57:785-94。https://doi.org/10.1016/j.jclinepi.2003.12.013.
MC Gulliford, Adams G, Ukoumunne OC等。在聚类二元数据中,组内相关系数和预后患病率是相关的。中华流行病学杂志2005;58:246-51。https://doi.org/10.1016/j.jclinepi.2004.08.012.
张志强,刘志强等。低收入和中等收入国家5项集群随机对照试验围产期结局的集群内相关系数和变异系数:结果和方法学意义试验。2011;12:151。https://doi.org/10.1186/1745-6215-12-151.
Eldridge SM, Ashby D, Kerry S.聚类随机试验的样本量:聚类大小变异系数的影响和分析方法。国际流行病学杂志,2006;35:1292-300。https://doi.org/10.1093/ije/dyl129.
邹国刚,唐纳。二元预后数据的类内相关系数的置信区间估计。生物识别技术。2004;60:807-11。https://doi.org/10.1111/j.0006-341X.2004.00232.x.
刘志强,刘志强,刘志强。纵向数据模型:一种广义估计方程方法。生物识别技术。1988;44:1049-60。
白色的红外光谱。模拟研究的分析,包括蒙特卡洛误差。占据j . 2010; 10:369。
刘志强,刘志强,刘志强,等。在巴基斯坦治疗结核病的不同交通部战略的成本和成本效益。卫生政策计划,2002;17:178-86。https://doi.org/10.1093/heapol/17.2.178.
刘旭,Lewis JJ,张浩,等。电子提醒提高结核病患者服药依从性的有效性:一项聚集-随机试验。《公共科学图书馆·医学。2015;12:e1001876。https://doi.org/10.1371/journal.pmed.1001876.
吴建军,刘建军。加权最小二乘中权重估计的影响。美国统计协会1988;83:1045-54。https://doi.org/10.1080/01621459.1988.10478699.
CLAN: Stata模块对聚类随机试验进行聚类水平分析。Nash S, Thompson JA和Leurent B.波士顿学院经济系2020。
沈晓东,李志强,李志强。hglm:一种拟合层次广义线性模型的程序集。R j . 2010; 2:20-8。
王明,孔林,李泽,等。小样本纵向分析广义估计方程的协方差估计。统计医学。2016;35:1706-21。https://doi.org/10.1002/sim.68172015/11/21。
史考特JM, deCamp A, Juraska M,等。梯级楔形群随机试验群体平均处理效应的有限样本修正广义估计方程。统计方法医学文献2014;2017(26):583-97。https://doi.org/10.1177/0962280214552092.
McNeish D, Stapleton LM。用很少的集群建模集群数据。多变量行为研究2016;51:495-518。https://doi.org/10.1080/00273171.2016.1167008.
Hanley JA, Negassa A, Edwardes MDd。二元负相关反应分析:一个警告。统计医学。2000;19:715-22。https://doi.org/10.1002/ (SICI) 1097 - 0258(20000315)上19:5 % 3 c715:: AID-SIM342 % 3 e3.0.co; 2 t.
梁坤,刘志刚。基于广义线性模型的纵向数据分析。生物统计学。1986;73:13-22。https://doi.org/10.1093/biomet/73.1.13.
J, Hemming K, Forbes A,等。具有二元结果的阶梯楔形簇随机试验中广义估计方程的小样本标准误差修正的比较:一项模拟研究。统计方法医学文献2020;0:0962280220958735。https://doi.org/10.1177/0962280220958735.
Gallis JA, Li F, Turner EL。xtgeebcv:用于集群随机试验GEE分析的偏差校正三明治方差估计命令。中国生物医学工程学报。2020;https://doi.org/10.1177/1536867x20931001.
韦斯特盖特点。协方差估计的偏差校正,以改进使用非结构化相关矩阵的广义估计方程的推断。统计医学。2013;32:2850-8。https://doi.org/10.1002/sim.5709.
威廉姆斯哒。Logistic线性模型的外二项变异。J Roy Stat Soc: Ser C(应用属性)。1982; 31:144-8。https://doi.org/10.2307/2347977.
Westgate PM, Cheng DM, Feaster DJ,等。具有罕见事件的社区随机试验中的边际模型:负二项回归模型的利用中国新药试验。2022;19:162 - 71。https://doi.org/10.1177/17407745211063479.
确认
不适用
资金
JAT、KF和RH是由英国医学研究理事会(MRC)和英国国际发展部(DFID)根据MRC/DFID协约协议共同资助的,也是欧盟支持的EDCTP2计划的一部分[拨款编号MR/R010161/1和MR/K012126/1]。CL由英国医学研究理事会(技能发展奖学金MR/T032448/1)资助。
作者信息
作者和联系
贡献
RJH构思了这篇文章的想法。JAT设计并进行了模拟研究,对结果进行了解释,并撰写了初稿。所有作者都为模拟研究的设计和解释提供了输入,并阅读并批准了最终的手稿。
相应的作者
道德声明
伦理认可和同意参与
不适用。
同意出版
不适用。
相互竞争的利益
本文的作者没有竞争利益声明。
额外的信息
出版商的注意
188博金宝app网施普林格《自然》对出版的地图和机构附属关系中的管辖权要求保持中立。
权利和权限
开放获取本文根据知识共享署名4.0国际许可协议授权,该协议允许以任何媒介或格式使用、共享、改编、分发和复制,只要您适当地注明原作者和源代码,提供知识共享许可协议的链接,并说明是否进行了修改。本文中的图像或其他第三方材料均包含在本文的知识共享许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的知识共享许可中,并且您的预期使用不被法定法规允许或超过允许的使用,您将需要直接从版权所有者获得许可。如欲查阅本牌照副本,请浏览http://creativecommons.org/licenses/by/4.0/.知识共享公共领域转让豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在对数据的信用额度中另有说明。
关于这篇文章
引用这篇文章
汤普森,j.a.,莱拉特,C,菲尔丁,堪萨斯et al。具有二元结果和少量聚类的聚类随机试验:个体和聚类水平分析方法的比较。BMC医学研究方法22222(2022)。https://doi.org/10.1186/s12874-022-01699-2
收到了:
接受:
发表:
DOI:https://doi.org/10.1186/s12874-022-01699-2
关键字
- 集群级别分析
- 集群级别分析
- 广义线性混合模型
- 广义估计方程
- 比较的方法
- 集群随机试验
- 集群数量少