跳到主要内容

知情贝叶斯生存分析

摘要

背景

我们提供了贝叶斯估计、假设检验和模型平均的概述,并说明它们如何受益于参数生存分析。我们将贝叶斯框架与目前占主导地位的频率论方法进行了对比,并强调了其优点,如历史数据的无缝整合、证据的持续监测以及对真实数据生成过程的不确定性的整合。

方法

我们举例说明了贝叶斯方法在一个示例数据集上的应用,回顾性重新分析了一个结肠癌试验。通过仿真研究,我们评估了贝叶斯参数生存分析和AIC/BIC模型选择的最大似然生存模型在固定n和顺序设计中的性能。

结果

在对样本数据集的回顾性再分析中,贝叶斯框架提供了证据,证明在FOLFOX6方案中加入西妥昔单抗对切除的III期结肠癌患者的无病生存没有积极的治疗效果。此外,贝叶斯序列分析比标准频率分析提前10.3个月终止试验。在顺序设计的模拟研究中,贝叶斯框架在保持相同的幂函数和适当的假阳性率的情况下,平均用时几乎是频率分析框架的一半。在模型错误规范下,贝叶斯框架的假阴性率高于频率主义框架,导致未确定试验的比例更高。在固定n设计中,贝叶斯框架在估计小样本处理效果时显示出略高的功率、略高的错误率、较低的偏差和RMSE。我们没有发现生存预测有明显的差异。我们已经在RoBSA R包中使分析方法对其他研究人员很容易使用。

结论

当应用于参数生存分析时,概述的贝叶斯框架提供了几个好处。它更有效地使用数据,能够大大缩短临床试验的长度,并提供更丰富的推论集。

同行评审报告

背景

在过去的几年里,贝叶斯统计的受欢迎程度和兴趣稳步上升[1].在本文中,我们利用了长期存在的贝叶斯估计的优点[2,假设检验[3.]和模型平均[4方法,并将其应用于参数生存分析。这种类型的贝叶斯生存分析是可能的,这要归功于最近发展的用于拟合贝叶斯模型的灵活工具(如JAGS [5和斯坦[6])和估计边际可能性的有效技术(如桥梁抽样[789])。

生存分析是一种常用的方法,在临床试验的终生结果评估中具有重要的应用价值[1011].生存分析最常用的版本是非参数Cox比例风险模型,该模型不需要说明基线风险[12].然而,有很好的理由使用参数生存模型来代替:(1)可泛化性,模型可以很容易地扩展以处理区间截尾数据[13],(2)简单性,仅使用少量参数即可定义模型;(3)完备性,风险和生存函数都得到了充分指定;(4)与理论生存函数的一致性[11],以及(5)在测量时间框架之外推断生存函数的能力[14](对Cox’s比例风险模型的预测可结合Breslow’s [15]估计的基线危险)。由于这些原因,我们在这里关注参数化生存模型。然而,参数化模型的优势是以对数据生成过程的额外假设为代价的,这些假设可能导致模型不规范,这可以用这里概述的贝叶斯方法来解决。

贝叶斯方法为参数生存分析提供了多种好处,我们将在下面详细阐述:(1)外部知识的无缝整合,(2)持续监测证据的可能性,以及(3)包含数据生成过程的不确定性的可能性。脚注1

贝叶斯估计允许我们通过先验分布无缝地将外部知识纳入统计模型[16171819](见[20.为频率论者的选择)。吸收历史数据或专家意见并不是一个新概念。在医学上,它早在45年前就被提出了[21并一再主张[22232425].这样的外部知识可以提高估计的精度,降低错误率,赋予更好的小样本特性,并提高生存估计的精度[242627282930.31].而不恰当地纳入外部知识则可能使估计产生偏差,增加错误率[32],就存在防范外部知识不利影响的措施。例如,研究人员可以使用元分析预测先验[30.结合了研究间异质性的信息,以调整与之前研究的不同之处[33].

贝叶斯假设检验允许我们持续监测支持(反对)具有贝叶斯因子的假设的证据[34353637].贝叶斯因子量化了两个竞争假设的相对证据,这与在零假设为真的假设下引用假设错误率的频率主义假设检验形成对比[38)(详见“贝叶斯证据”一节)。此外,频率论者通常只检查数据有限的、预先指定的次数[3940],贝叶斯因子可选停止能够以真正连续的方式监测证据[3641)(参见Lan-DeMets支出函数[42])。这是有利的,因为持续监测可能会提高临床研究的效率,这些临床研究不仅昂贵,而且在生命和伤害方面也很昂贵[434445].正如在不同的设置中所显示的,贝叶斯因子序列分析可能进一步增加频率群序列设计的好处[34464748].注意贝叶斯可以通过贝叶斯因子持续监测证据,但不能像有时声称的那样通过后验参数分布[222349](见易卜拉欣及其同事[50]详情)。

最后,贝叶斯模型平均(BMA) [515253]允许我们通过同时基于多个模型的推理来接受数据生成过程的不确定性脚注2(一种替代方法是使用赤池权值进行频率模型平均[5455565758]或使用平滑方法[13])。BMA尤其适用于参数生存分析,因为基于不同参数族的模型可能不会得出相同的结论、估计和/或预测[145960].BMA还简化了研究人员的分析。而不是在检查来自各种模型规格的结果并主观评估其拟合度后进行非正式推断[10295561], BMA允许研究人员根据它们的后验模型概率(即它们对当前应用的适用性)自动组合模型。

尽管贝叶斯生存分析有很多优点,但在实践中很少用到。例如,外部信息很少通过感兴趣参数的知情先验进入分析[62],只有大约15%的儿科医学研究使用历史信息[63].虽然顺序分析在医学中很常见,但它们很少基于贝叶斯因子[5064].尽管BMA的优势已被认可[6566,加拉赫,奥古斯特和康诺克[67]发现,在最近14项基于生存模型进行外推的评估中,没有使用BMA。

我们怀疑所概述的贝叶斯方法仍未得到充分利用,因为研究人员对它们相对不熟悉,而且目前还没有容易访问的软件实现[3468].此外,值得注意的是,缺乏官方的FDA和EMA贝叶斯分析指南[69].因此,本文的目标有三个方面。首先,我们回顾了生存分析的贝叶斯方法,包括贝叶斯估计、贝叶斯假设检验和贝叶斯模型平均。我们讨论了贝叶斯和频率论框架在量化证据方面的关键差异,以及如何调和它们。其次,我们应用了这两种框架,并通过结肠癌试验的一个例子展示了它们各自的好处[70].我们证明,纳入历史数据并指定一个知情的假设可以缩短试验一年以上,并可能使参与者的无进展生存期总共增加1299年。最后,我们通过模拟研究来支持我们的观点。我们的研究表明,贝叶斯框架可以将连续试验的持续时间减少近一半,在固定n设计中稍微增加功率,并提高小样本处理效果估计的精度。唯一的缺点是在模型错误规范下对假负率的影响很小。通过在RoBSA R包中实现分析,我们将该方法提供给研究界[71].

贝叶斯生存分析

在本节中,我们概述了一个连贯的、完整的生存分析贝叶斯框架。我们从贝叶斯估计开始,转向不太常见的贝叶斯假设检验,并将估计和检验扩展到使用贝叶斯模型平均(BMA;参见[5172]以浏览BMA的深入教程)。为了简单起见,我们使用了单一处理变量、右审查和带有加速失效时间(AFT)规范的参数模型,该规范随后允许我们获得所有指定模型的加速因子(AF)的模型平均估计。脚注3.AFT模型假设两组之间的生存时间之比,加速因子随时间的变化是恒定的。AF大于1表示某一特定群体的存活时间长于预期(与比例风险模型PH相反,PH中风险比HR越高,意味着事件发生的风险越高)。比较具体的课题,如贝叶斯因子的解释和比较p-值,指定先验参数分布,先验模型概率,或贝叶斯因子设计分析在“贝叶斯证据”和“示例”部分概述。

贝叶斯估计

按照标准符号,我们使用年代d),hd)分别表示一个参数族的生存函数和危险函数d(例如,指数,威布尔,对数正常,对数逻辑,或伽马),描述观察到的生存时间t带有审查指示器cc= 1为观察到的事件)为每个参与者.我们使用β表示虚拟编码治疗的治疗效果x,并使用αd而且γd用于拦截和辅助参数(如果适用)。数据的可能性= {t、c}在生存模型M下d给定的参数θd= {α,βdd}可以写成:

左($ $ p \ \ mathrm{数据}| {\ uptheta} _ {d}, {\ mathcal {M}} _ {d} \右)= \ prod {h} _ {d}{\离开({t} _{我}| {x} _ {}, {\ uptheta} _ {d} \右)}^{我\离开({c} _{我}= 1 \右)}\ *{年代}_ {d} \离开({t} _{我}| {x} _ {}, {\ uptheta} _ {d} \右),$ $
(1)

我们通过赋值先验分布(p(θ)来完成模型规范d|米d)到每个参数(β .fβ(.),αdfα,(.)和γdfγ,d();参见“示例”部分的“模型规范”小节,了解更多关于指定先验分布的细节),并根据贝叶斯定理获得后验参数分布:

$ $ p \离开({\θ}_ {d} | \ mathrm{数据},{\ mathcal {M}} _ {d} \右)= \压裂{p \离开(\ mathrm{数据}| {\ uptheta} _ {d}, {\ mathcal {M}} _ {d} \) \乘以p \离开({\ uptheta} _ {d} | {\ mathcal {M}} _ {d} \右)}{p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {d} \右)},$ $
(2)

在哪里p(数据|米d)表示边际似然,是先验参数分布加权似然在整个参数空间上的积分,

$ $ p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {d} \右)= {\ int} _{{\θ}_ {d}} p \离开(\ mathrm{数据}| {\ uptheta} _ {d}, {\ mathcal {M}} _ {d} \) \乘以p \离开({\ uptheta} _ {d} | {\ mathcal {M}} _ {d} \右)d{\θ}_ {d} $ $
(3)

这也量化了模型对观测数据的先验预测性能[73].

贝叶斯假设检验

尽管贝叶斯估计允许我们在假设治疗有效果的前提下获得后验参数分布,但它不能量化支持治疗效果存在/不存在的证据。换句话说,为了检验治疗效果非零的假设,必须将假设不存在效果的模型与假设存在效果的模型进行比较[4174].为此,我们采用了哈罗德·杰弗里斯爵士的贝叶斯假设检验框架[3.75并将指定的模型拆分为两个变体。模型假设没有治疗效果(β= 0), M0d,模型假设处理效应的存在(βfβ)),米1d.在下列方程中,我们显式地,有点不同寻常地,以参数族为条件d强调结果取决于这个特定的选择。我们分配先验模型概率,p(Md|d),对模型的每个变量,再一次应用贝叶斯规则,得到模型的后验概率,

$ $ \ p{数组}{c}开始\离开({\ mathcal {M}} _ {0 d} | \ mathrm}{数据,d \右)= \压裂{p \离开(\ mathrm{数据}| {\ mathcal {M}} _} {0, d, d \) \乘以p \离开({\ mathcal {M}} _ {0 d} | d \右)}{p \离开(\ mathrm{数据}| d \右)},\ \ p \离开({\ mathcal {M}} _ {1 d} | \ mathrm}{数据,d \右)= \压裂{p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {1,}, d \) \乘以p \离开({\ mathcal {M}} _ {1 d} | d \右)}{p \离开(\ mathrm{数据}| d \右)},\{数组}$ $
(4)

在哪里p(数据|d)遵循了全概率定律,

$ $ p \离开文本(文本数据}{}{\ \{|}{文本\ d{}} \右)= p \离开(\ mathrm{数据}| {\ mathcal {M}} _} {0, d, d \) \乘以p \离开({\ mathcal {M}} _ {0 d} | d \右)+ p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {1,}, d \) \乘以p \离开({\ mathcal {M}} _ {1 d} | d \右),$ $
(5)

更重要的是,贝叶斯假设检验允许我们量化两种模型的证据,而不考虑贝叶斯因子(BF)的先验模型概率[4767778),

$ ${\文本{BF}} _{10} = \压裂{p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {1,}, d \右)}{p \离开(\ mathrm{数据}| {\ mathcal {M}} _} {0, d, d \右)},$ $
(6)

作为边际可能性的比率。贝叶斯因子是对证据的连续度量,其大小可以直接解释为一个模型对另一个模型的支持程度。

由式可以看出3.,模型比较由数据和参数的先验分布共同决定,有效地规定了模型比较/假设检验。然而,由于两个模型包含相同的先验分布αd而且γd,男朋友10只取决于的先验分布β-我们打算测试的治疗效果。

贝叶斯因子量化了从先验模型概率到后验模型概率的更新率。因此,我们可以重新制定这个方程6随着从先验模型概率到后验模型概率的变化[7879),

$ $ \压裂{p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {1,}, d \右)}{p \离开(\ mathrm{数据}| {\ mathcal {M}} _} {0, d, d \右)}= \压裂{p \离开({\ mathcal {M}} _ {1 d} | \ mathrm}{数据,d \右)}{p \离开({\ mathcal {M}} _ {0 d} | \ mathrm}{数据,d \右)}/ \压裂{p \离开({\ mathcal {M}} _ {1 d} | d \右)}{p \离开({\ mathcal {M}} _ {0 d} | d \右)},$ $
(7)

这在同时比较多个模型时很有用。

贝叶斯model-averaging

到目前为止,我们总结了如何用贝叶斯方法获得后验参数分布估计以及如何用贝叶斯方法评估存在或不存在影响的证据测试.现在,我们扩展了贝叶斯估计和贝叶斯测试model-averaging(BMA),它允许我们放松对单一一组辅助假设的承诺[80].这个假设在公式中可见5,这表明所有的推断都是有条件的假设数据生成过程,具体的参数族d(当然,这也适用于相应的频率分析)。通过指定基于不同参数族的多个模型,并根据它们的相对预测性能将其组合,我们放松了这一假设[515253].这样,我们的后验参数分布和治疗效果是否存在的证据不再基于一个特定的数据生成机制的假设。换句话说,“不把所有的鸡蛋放在一个篮子里”保护了研究人员不受数据特质的影响,并导致了更可靠的推断[81].

贝叶斯model-averaged估计

为了使用BMA进行估计,我们依赖模型假设存在来自竞争参数族(H1d).我们的目标是获得治疗效果的后验分布(假设治疗效果存在),考虑到竞争参数族的不确定性。在这里,我们将自己限制在具有AFT参数化的模型中,并将处理效果量化为加速失效。AF在所有参数族中都有相同的解释,这使我们可以直接将所有模型的治疗效果估计合并为一个单一的汇总估计。一般来说,我们可以添加具有不同参数化的模型,如PH模型,将处理效果量化为风险比。在这种情况下,我们将分别集合治疗效果的不同度量(并确定每个参数化的后验概率),然而,我们仍然可以在所有模型中获得集合的生存和危险函数。

我们首先为每个模型指定先验模型概率并展开方程5为了适应假设处理效应存在的所有参数族模型,

$ $ p \离开(\ mathrm{数据}| {\ mathcal {M}} _{1} \右)={\总和}_ {d = 1} ^ {5} p \离开(\ mathrm{数据}| {\ mathcal {M}} _ {1 d} \) \乘以p \离开({\ mathcal {M}} _ {1 d} \右),$ $
(8)

然后,我们通过贝叶斯定理(类似于方程4).

因为我们只关注具有AFT参数化的模型,处理效果β,及其先验分布fβ),可以在所有参数族的模型中交替指定为log(AF)。基于边际似然的后验模型概率因此独立于治疗效果的共同先验分布。模型M之间的后验概率的差异1d,假设存在一种效应,反映了由于生存时间分布的缩放和形状,它们先前预测性能的差异。这些差异来自于参数假设和相关的拦截和辅助参数的特定于模型的先验分布。

现在,我们可以结合来自竞争参数族的治疗效果的后验分布,根据后验模型概率对其进行加权[3.4].由此得到的治疗效果的模型平均后验分布对应于混合分布,

$ $ p \离开(β\ | {\ mathrm{数据}\ mathcal {M}} _{1} \右)={\总和_ {d = 1} ^ {5}} p \离开(β\ | {\ mathcal {M}} _ {1,}, \ mathrm{数据}\)\乘以p \离开({\ mathcal {M}} _ {1 d} | \ mathrm{数据}\右),$ $
(9)

以同样的方式,我们还得到了假设治疗效果存在的后验模型平均生存和危险函数,

$ $ \{数组}{c}开始年代\离开(。\右)={\总和}_ {d = 1} ^{5}{年代}_ {1 d} \离开(。\)\乘以p \离开({\ mathcal {M}} _ {1 d} | \ mathrm{数据}\)\ \ h \离开(。\右)={\总和}_ {d = 1} ^ {5} {h} _ {1 d} \离开(。\)\乘以p \离开({\ mathcal {M}} _ {1 d} | \ mathrm{数据}\右)。\{数组}$ $
(10)

贝叶斯模型平均假设检验

为了将BMA应用于贝叶斯假设检验,我们将假设不存在治疗效应的模型与假设所有分布家族都存在治疗效应的模型进行比较。我们的目标是量化支持或反对治疗效果的证据,考虑到竞争参数族的不确定性。

我们再次从指定每个模型的先验模型概率开始,并进一步展开方程8为了适应假设没有治疗效果的模型,

$ $ {p \离开(文本数据}{}{\ \右)}= {\ sum_ {m = 0} ^ {1}} \ {\ sum_ {d = 1} ^ {5}} {p \离开(\ mathrm{数据}|{\θ}_ {d}, {\ mathcal {m}} _ {{m}, d} \右)}\ * {p \离开({\ mathcal {m}} _ {{m}, {d}} \右)},$ $
(11)

在哪里= 0表示模型假设没有处理效果和= 1个假设存在处理效应的模型。我们再次通过贝叶斯定理(类似于方程)获得每个模型的后验模型概率4).

与贝叶斯模型平均估计相比,该模型集现在还包括那些假设不存在治疗效应的模型。也就是说,除了它们的参数假设之外,现在的模型与治疗效果的先验分布不同。这一关键差异将通过模型平均包含贝叶斯因子对治疗效果进行比较的两组模型分开:(1)所有模型假设存在治疗效果(在提名者中),(2)所有模型假设不存在治疗效果(在分母中)[5181),

$$\underbrace{{\text{BF}}_{10}}_{\text{包含贝叶斯因子}{\text{包含贝叶斯因子}{\text{{\sum_{d=1}^5}p\左({\mathcal M}_{1}^5}p\左({\mathcal M}_{{\sum_{d}}}}_{\text{包含贝叶斯因子}{\text{{\sum_{d}}}}{{\ mathcal M}_{1}^5}p\左({\mathcal M}_{1,d}\右)}}_{\text{包含贝叶斯因子}{\text{{\sum_{BF}}_{\text{包含贝叶斯因子}{\text{{\sum_{d}}}}{{\ mathcal M}_{0,d}\右)}}_{\text{包含贝叶斯因子}{\text{{\mathcal M}_{{\mathcal M}_{0,d}\右)}}_{\text{包含贝叶斯因子}{\text{{\mathcal M}_{{\mathcal M}_{d}}} {{\sum_{d}} p\左({\mathcal M}_{1}^5}p\左({\mathcal M}_{0,d}\右)}}_{\text{包含贝叶斯因子}{\text{{\mathcal M}_{d}}} {{\ mathcal M}_{0,d}\右)}}_{\text{包含贝叶斯因子}}}}{\text{包含贝叶斯因子}{\text{{\mathcal M}_{d}}} {{\ mathcal M}_{0,d}\右
(12)

与贝叶斯模型平均估计类似,后验模型概率受每个参数族的先验预测精度的影响。尽管如此,由于每个参数族都在主名和分母中表示,可能的参数族规范的缺失导致其贡献在模型平均证据中的权重降低。

我们还可以评估支持一个参数家庭就业的证据超过其余家庭。为此,我们将来自给定参数族的模型的预测性能与模型集合的其他部分进行比较。假设d= 1表示指数族,则支持指数族对所有其他指定参数族的包含贝叶斯因子为

$ $ \ underbrace{{\文本{BF}} _{\文本{exp}}} _{\文本{包括贝叶斯因子指数家族}}= \ underbrace{\压裂{{\总和}_ {m = 0} ^ {1} p \离开({\ mathcal {m}} _ {m, 1} | \ mathrm{数据}\右)}{{\总和}_ {m = 0} ^{1}{\总和}_ {d = 2} ^ {5} p \离开({\ mathcal {m}} _ {m, d} | \ mathrm{数据}\右)}}_{\文本{后包含概率指数家庭}}\境/ \ underbrace{\压裂{{\总和}_ {m = 0} ^ {1} p \离开({\ mathcal {m}} _ {m, 1} \右)}{{\总和}_ {m = 0} ^{1}{\总和}_ {d = 2} ^ {5} p \离开({\ mathcal {m}} _ {m, d} \右)}}_{\文本{之前加入对指数家庭}}$ $
(13)

由于我们使用的模型假设治疗效果的存在和不存在,因此在支持参数族中产生的包含贝叶斯因子解释了治疗效果存在的不确定性。

最后,我们可以评估支持或反对将任何单一模型纳入模型集合的证据。例如,如果M01表示假设不存在处理效应的指数族模型,则有利于将该单一模型加入集合的包含贝叶斯因子定义为,

$ $ \ underbrace{{\文本{BF}} _ {{\ mathcal {M}} _ {\ mathrm{0,1}}}} _{{包括贝叶斯因子}\ \ \文本mathcal {M} _ {\ mathrm {0,1}}} = \ underbrace{\压裂{p \离开({\ mathcal {M}} _ {0,1} | \ mathrm{数据}\右)}{1 - p \离开({\ mathcal {M}} _ {\ mathrm {0,1}} | \ mathrm{数据}\右)}}_{\文本{后包容几率}\ \ mathcal {M} _ {\ mathrm{0,1}}} \境/ \ underbrace{\压裂{p \离开({\ mathcal {M}} _ {\ mathrm{0,1}} \右)}{1 - p \离开({\ mathcal {M}} _ {\ mathrm{0,1}} \右)}}_{{之前包容几率}\ \文本{{\ mathcal {M}} _ {\ mathrm{0,1}}}}。$ $
(14)

与方程相反12,不同参数族和单一模型的比较依赖于截距参数和辅助参数的先验分布,这些参数和辅助参数在竞争参数族之间不共享,因此不能抵消。

贝叶斯证据

尽管贝叶斯因子基于可靠的统计方法[82尽管人们一再呼吁使用它们(例如,[34388384),它们很少在医学上使用。在本节中,我们通过强调与目前占主导地位的两个显著差异来解释贝叶斯因子的吸引力p基于-值的Neyman-Pearson方法[85]和基于后验参数分布的概念上类似的方法(例如,[8687):序列分析下贝叶斯因子的解释及其行为。贝叶斯因子的解释及其在序贯分析下的表现。与基于后验参数分布的推断相比,贝叶斯因子的另一个可取属性是对先验参数分布的相对依赖性。当指定备择假设为最大似然估计时,贝叶斯因子提供了最有利于备择假设的证据(将贝叶斯因子检验转变为似然比检验[88])和任何其他规范导致支持备择假设的证据减少;基于后验可信区间的后验参数分布和推理可以移位,以提供虚阳性率[34,这个比例甚至比我们在频率者身上看到的还要高p值。这使得贝叶斯因子成为一种保守的证据度量方法,并且当明确的假设(例如基于历史数据)被指定时,贝叶斯因子的好处尤其明显。

还要注意贝叶斯估计和贝叶斯假设检验(在前一节中描述)提供的信息之间的区别。通过贝叶斯估计得到的后验参数分布告诉我们假设影响存在的程度,而贝叶斯因子告诉我们支持影响存在的证据。因此,95%可信区间可能包含数字零,而贝叶斯因子显示了效应存在的证据(反之亦然)。然而,这两个信息并不矛盾,因为它们回答了不同的问题。

贝叶斯因子的解释

用贝叶斯因子测量的证据强度对应于一种模型相对于另一种模型的相对先验预测性能[4767778].换句话说,就是得到BF10= 5表示备择假设下的数据概率是零假设下的5倍[89].这种解释明显不同于p值;这并不意味着我们会拒绝一个真零假设\ \ (1/5)我们会观察到这样或更极端的数据\ \ (1/5)零假设为真。脚注4

为了说明这一点,考虑一个简单的二项例子,我们试图治疗十个病人。让我们假设50%的病人能自行康复,所以我们设零假设为θ0= 05.此外,我们定义了两个备选假设,第一个指定θ1= 06,第二个是θ2= 07、治疗后对应的治愈率为60%或70%。假设我们观察到8/10的患者康复。这导致了两个不同的贝叶斯因子,BF10= 275年,男朋友20.= 531分别量化支持第一和第二功效假设的证据,而不是无效假设。脚注5不出所料,比较关于治疗效果的不同假设会得出支持治疗效果存在或不存在的不同证据。因此,设置相同的决策标准,例如BF = 5,在原假设和每个备选假设之间进行二元选择,如果原假设为真,则会导致选择的差异,进而导致误导证据的比例不同。在这个例子中,当将零假设与第一个备择假设比较时,证据会误导我们在5.5%的情况下错误地选择备择假设,而在将零假设与第二个备择假设比较时,不足0.1%的情况下会错误地选择备择假设。我们故意使用“误导证据”一词,是为了强调这样一个事实:虽然获得的证据与数据相对应,换句话说,在第二种备选假设下,观察到8/10成功的可能性确实比实际高出5.31,但数据本身的抽样变异性误导我们做出错误的决定[90].

这是与目前占主导地位的公司截然不同的地方p基于-值的Neyman-Pearson方法[919293它围绕二元决策建立统计推理,在给定的I型和II型错误率下接受或拒绝零假设。虽然控制错误决策的比例不是贝叶斯因子的目标,但可以通过贝叶斯因子设计分析的方法来评估错误决策的预期比例[9495].贝叶斯因子设计分析允许研究人员评估给定贝叶斯因子下的决策导致假阳性和假阴性证据的可能性。我们将在“贝叶斯因子设计分析”小节(位于“示例”部分)中说明如何通过固定n和顺序设计获得贝叶斯假设检验的频率特征。或者,决策者可以根据竞争假设的成本和收益及其后验模型概率指定一个完整的决策函数,连贯地遵循贝叶斯框架。然而,这超出了本文的范围,并在其他地方进行了讨论[96].

贝叶斯因子序列分析

贝叶斯因子和p基于-值的方法存在于顺序分析中。贝叶斯因子遵循似然原理,因此与抽样方案无关[35363741].换句话说,研究人员可以在不影响贝叶斯因子解释的情况下决定收集数据,直到达到令人满意的证据水平。相反,在连续监测下,错误拒绝真零假设的概率接近于统一p值(3940].这个关键的区别是由于p-值在零假设下具有均匀分布,并在0和1之间自由“漂移”,而随着样本量的增加,贝叶斯因子要么接近0,要么接近∞,这取决于零假设或备择假设是否成立[97].

当然,顺序分析仍然是可能的p基于-值的内曼-皮尔逊方法。然而,它需要根据预先指定的分析计划相应地调整alpha级别,该计划概述了制定决策的频率、时间和内容[98].与频率者序列分析的许多alpha花费函数(通常导致在预先指定的抽样计划结束时拒绝或接受零假设)相比,贝叶斯因子序列分析不一定产生支持任何假设的决定性证据。如有必要,贝叶斯因子序列分析(即假阳性和假阴性证据的发生率)的频率特性也可以用贝叶斯因子设计分析进行评估。针对频率特性校准的贝叶斯因子顺序停止规则(与它们的证据解释相反)必须调整为比固定n分析的贝叶斯因子停止规则更严格的证据标准。也就是说,如p-值贝叶斯因子受数据抽样变异性的影响。但是,与p-为Bayes因子序列分析的证据级别设定值,调整后考虑到数据的抽样可变性这两个假设。这从根本上不同于所做的多重测试调整p-值,因为当零假设为真时,它们的“自由漂移”行为。因此,不像p-值贝叶斯因子在两种假设下是一致的,而且平均而言,随着样本量的增加,对真实假设的支持增加[479495].

例子

在本节中,我们将概述的建模框架应用于一个真实的数据集,并讨论进一步的细节,如先验参数分布的规范和先验模型概率。所有分析脚本,使用新开发的RoBSA R包[71],以供下载https://osf.io/ybw9v/.所有数据集可从项目数据范围[99,然后在https://www.projectdatasphere.org/

数据

我们使用项目数据圈提供的数据[99)包含n= 2,968例患者[One hundred.]参加一项III期结肠癌切除术辅助治疗的随机III期试验[101].该数据集是Alberts和同事[70已发表的研究(n= 2,686),尽管样本量略大,但得到的结果基本上相同。该研究发表于2004年至2009年,主要评估了在FOLFOX标准第六版方案中添加西妥昔单抗对无病生存期的影响。在计划的中期分析未显示FOLFOX +西妥昔单抗患者的预后改善后,该试验暂停。原始研究的作者调整了几个协变量的分析。为了简单起见,我们在分析数据时不调整协变量。协变量的遗漏对主要的兴趣比较没有显著影响:FOLFOX制度下的无病生存率(比较组,n= 1247, 22.9%事件)与FOLFOX +西妥昔单抗方案(实验组,n= 1251, 25.1%事件)转移性野生型KRAS患者。

模型规范

要使用贝叶斯模型平均框架,我们需要指定三个组成部分:(1)模型空间,包括参数族d(2)治疗效果的先验分布;(2)治疗效果的先验分布;(2)治疗效果的先验分布β,分别进行贝叶斯模型平均估计和贝叶斯模型平均检验(因为我们在这里关注AFT模型,下面我们将提到处理效果β更具体地说,是log(AF)),(3)支持参数的先验分布,包括拦截的先验分布αd和辅助参数γd

模型空间

我们通过关注五个AFT生存参数族来定义模型空间:指数、威布尔、对数正规、对数逻辑和伽马。由于我们对任何单个参数族都没有很强的先验偏好,我们遵循BMA中的一个常见惯例,假设效应存在或不存在,将先验模型概率平均分布到所有参数族和模型中(即,我们将贝叶斯模型平均估计中每个模型的先验模型概率设置为\ \ (1/5)\ \ (1/10)在贝叶斯模型平均检验中)[197781102103104105106107].

治疗效果

在贝叶斯模型平均估计中,处理效果的先验分布f日志(尾)没有发挥很大的作用,因为它是由所有假设该效应存在的模型共享的。因此,治疗效果的先验分布不影响假设效果存在的模型的后验模型概率(式8),进而决定模型平均治疗效果后验分布的权重(式9).因此,我们的目标是为治疗效果日志(AF)指定一个弱信息先验分布——一个跨越所有合理值的分布,没有范围限制,这允许我们从数据中吸收尽可能多的信息,同时排除先验不现实值(如AF > 10) [108].这种先验分布的一个可能的候选者是标准正态分布(将95%的先验概率质量置于加速度因子的范围内)014日至710)。

与贝叶斯模型平均估计相比,在贝叶斯模型平均检验中,处理效果的先验分布起着至关重要的作用。如等式所示12,治疗效果的先验分布定义了假设存在效果的备择假设,随后确定了计算得到的模型平均包含贝叶斯因子。因此,如果治疗有效,先验分布与我们预期观察到的效应大小相对应。在我们的示例中,我们指定log(AFT)正常(030.015)[0,∞]在日志(AF)尺度上。这个有正数限制的正态分布以预注册协议中规定的利益效应大小为中心(风险比为1.3时为90%),脚注6小标准差量化了我们对效应大小的兴趣(见Johnson和Cook [34更复杂的选择)。

支护参数

与简单的贝叶斯估计和贝叶斯假设检验相比,截距上的先验分布αd和辅助参数γd特定于每个参数族的参数在确定后验模型概率方面起着重要作用。后验模型概率权重(1)贝叶斯模型平均估计参数族中治疗效果的后验分布(式9)和(2)贝叶斯模型平均检验中包含贝叶斯因子中个别参数族对处理效果的证据(式12).因此,对任何单个参数族(例如,不同时间尺度上的生存时间分布)的支持参数的严重缺失将降低其预测性能,并降低参数族对模型平均结果的影响。

在我们的例子中,我们使用了关于既往结肠癌无病生存试验的历史信息,并将其合并为元分析预测先验分布。元分析预测先验分布包含了关于过去研究的研究间异质性的信息,这些信息根据过去数据的不相似性降低了其影响的权重[30.33].脚注7这使得我们不仅可以校准支持参数的先验分布,还可以使用关于生存时间分布的缩放和形状的现有信息,使我们的分析更加有效。为了获得历史数据,我们搜索了Project data Sphere数据库的其余部分,并确定了另外24项“结直肠”肿瘤类型的研究。我们成功提取了相关的参与者级别的数据k= 3个与评估无病生存期的研究相对应的数据集n= 2860) [109110111].虽然三个数据集只能提供有限的信息,特别是关于研究之间的异质性,但我们使用了具有弱信息先验分布的贝叶斯元分析来估计元分析预测先验分布(见附加文件)1:附录A)。脚注8

得到的先验分布汇总在表中1表明截距的所有元分析先验分布都相当相似,均值略低于9,相似的标准差在2左右。辅助参数也是如此,其中平均对数参数接近于0,标准差在0.30左右。图的左面板。1可视化不同参数族的缩放和形状的相似性,全线对应于预测的平均生存函数(在比较器臂中),阴影区域对应于95%的先验预测区间。图的右面板。1可视化比较臂的先前模型平均生存函数(浅绿色)与实验臂的模型平均生存函数(深紫色;由模型预测,假设存在贝叶斯模型平均检验所指定的处理效果)。实验臂的预测模型平均生存函数略高于比较器臂的预测模型平均生存函数,因为指定的备选假设描述了积极的治疗效果,换句话说,更长的生存时间(注意,在估计集合中,模型平均先验预测生存函数之间没有差异,因为我们没有预先限制估计效果为正)。阴影的95%先验预测区间显示了基于历史数据的相当大的不确定性,这保证了贝叶斯更新过程有足够的灵活性。

表1处理效果的先验分布概述β,拦截αd,辅助参数γd对于贝叶斯模型平均检验(上表)和估计(下表)的竞争参数族。“Pr.概率。表示先验模型的概率,Post。概率。“后验模型概率”,“log(marglik)”是边际似然的对数,“Incl. BF”是包含贝叶斯因子,用于将每个模型纳入模型集合
图1
图1

左:各参数族中比较器臂的先验预测生存函数。阴影区域对应95%的先验预测区间。右:假设存在贝叶斯模型平均假设检验方法所指定的治疗效果,比较组(浅绿色)和实验组(深紫色)的模型平均先前预测生存函数。阴影区域对应95%的先验预测区间

贝叶斯因子设计分析

我们使用贝叶斯因子设计分析[479495]来评估指定贝叶斯模型-平均测试模型的频率特性。首先,我们在基于全样本的固定n分析或序列分析下,使用对称决策标准对支持处理效果存在/不存在的证据做出决策时,评估假阳性和假阴性证据的预期发生率。其次,我们校准决策标准,使假阳性和假阴性证据的预期率与频率主义者I型(α= 005)及第二类(β= 010)错误。校正后的决策标准允许我们以Alberts和同事预期的相同方式分析示例数据[101].

设置

为了评估指定模型的属性,我们模拟来自指定先验分布的数据(表1)。在第一种情况下,我们在假设不存在该效应的模型为真的前提下模拟数据。在第二个场景中,我们在假设模型假设效应存在为真的前提下模拟数据。我们重复模拟1000次,并将它们平均分配到生成参数族的真实数据中(即,我们从指数参数族中模拟数据200次,假设不存在治疗效应,从指数族中模拟数据200次,假设存在治疗效应……)。脚注9对于固定n的设计,我们分析了所有预期的2070名参与者[1015年之后。对于顺序设计,我们简化了试验,假设所有2070名参与者在同一时间开始,每个月分析他们的数据,直到达到5年的周期(或者如果贝叶斯因子漂移到的范围之外\ \ (1/15)到15以加快计算速度)。

评估误导性证据

图的左面板。2可视化包含贝叶斯因子的分布,在固定n设计中处理效应的存在。在假设处理效应不存在的情况下,根据模型模拟的数据计算,浅绿色密度对应于处理效应存在的包含贝叶斯因子。根据假设存在处理效应的模型模拟的数据计算,深紫色密度对应于处理效应存在的包含贝叶斯因子(32.5%的贝叶斯因子大于1000,在图中省略)。我们可以看到一个明显的密度分离,原假设下87.2%的贝叶斯因子小于1,正确地支持原假设,备择假设下78.1%的贝叶斯因子大于1,正确地支持备择假设。如果我们要在对称边界处应用决策,我们还可以计算误导证据的比例\ (BF_ {10} = 10 / BF_ {10} = 1/10 \)对应有力证据[75112].强证据边界会导致我们在0.3%的情况下错误地接受替代假设(假设原假设为真),在3.7%的情况下错误地接受原假设(假设原假设为真)。这比我们通常建议的频率设置所获得的错误百分比要低得多α= 005年和β= 010.请注意,任何给定证据水平的错误率取决于样本量,这就是为什么需要贝叶斯因子设计分析。

图2
图2

左:原假设下(假设不存在处理效应;浅绿色)和备择假设(假设存在治疗效应;深紫色)。在备择假设下,32.5%的贝叶斯因子大于1000且未显示。垂直虚线表示获取10%假阴性证据和5%假阳性证据的边界。右:原假设下序列设计中治疗效应存在的包含贝叶斯因子的轨迹(假设没有治疗效应;浅绿色)和备择假设(假设存在治疗效应;深紫色)。十个例子的轨迹是可视化的全彩色线。边界被截断在1/15和15的范围内。 The horizontal dashed lines visualize boundaries for obtaining 10% false-negative evidence and 5% false-positive evidence

图的右面板。2可视化包含贝叶斯因子的轨迹在顺序设计中处理效果的存在。在假设不存在处理效应的模型模拟数据的基础上计算,浅绿色密度对应于处理效应存在的最支持性夹杂贝叶斯因子轨迹的95%。在假设存在处理效应的模型模拟数据的基础上计算,深紫色密度对应于处理效应存在的最支持性夹杂贝叶斯因子轨迹的90%。图的右面板。2还展示了贝叶斯因子的十个例子轨迹。正如在“贝叶斯证据”一节中所讨论的,贝叶斯因子倾向于向有利于真实假设的证据靠拢。然而,数据的采样方差可能会在轨迹中引入振荡,这是贝叶斯因子序列分析中较高正反证据率的原因[479495].在我们的例子中,使用相同的决策标准对应于强证据(对称边界)\ (BF_ {10} = 10 / BF_ {10} = 1/10 \)),我们会在3.3%的情况下错误地接受零假设,在3.1%的情况下错误地接受备择假设。脚注10同样,与普通频率设置相比,误差百分比更低,并且可以在不调整边界的情况下持续监测证据。

校准频率特性

为了使我们的例子的结果直接与频率分析相比较,我们校准了贝叶斯因子上的决策边界,从而得到与预期的第I型和第II型错误率(α= 005年,β= 010)。我们通过计算95%来校准贝叶斯因子th和10%th对于固定n设计,在零假设和备择假设下分别得到贝叶斯因子的分位数,并通过寻找序列设计中不超过5%和10%的轨迹交叉的上界和下界。

图的左面板。2将固定-n设计的校正决策标准可视化为两条对应BF的虚线01= 2.72和BF10= 172.这些边界,校准为常见频率错误率,对应的证据要弱得多。同样,图的右面板。2将顺序设计的校正决策标准可视化为两条对应BF的虚线水平线01= 44和男朋友10= 69.这些边界比固定n设计的边界要宽得多,这是由于数据的抽样方差,当跨越更窄的边界时,会导致误导性决策。然而,校准的边界仍然明显比强贝叶斯证据对应的边界更紧。值得考虑的是,在固定n和顺序设计中,如此微弱的证据是否允许得出强有力的结论。

实现

虽然存在先验分布和参数族某些组合的解析解[50,我们使用MCMC抽样来估计后验分布(式4;在runjags R包中实现[113在后台访问JAGS统计编程语言[5])。我们使用桥式抽样[89]来估计每个模型的边际可能性(式3.;在桥采样R包中实现[7])。我们结合了所有所需的功能,将贝叶斯模型平均生存分析拟合、解释和绘制到RoBSA R包中[71].

结果

表的上部1总结了贝叶斯模型平均测试集合的结果。它包含五个假设治疗效果不存在的模型和五个假设积极治疗效果存在的模型。我们发现有力的证据反对模型假设存在积极的治疗效果BF01= 62.5,它跨越了贝叶斯强证据阈值以及校准频率特性的阈值。获得的证据使阳性治疗效果的先验概率从0降低50 002.我们检验了竞争参数族的包含贝叶斯因子,发现了强有力的证据支持基于对数正规参数族BF的模型对数正态分布= 122.0(在假设效应存在和不存在的模型之间的平均值,即13).我们在表的上部找到了更细粒度的结果1,这表明在不存在正向治疗效应的情况下,数据与对数正态模型最一致,其后验模型概率从0增加10 095.

贝叶斯模型平均估计集合只包含假设存在治疗效果的模型,在治疗效果上具有更广泛的、无界的先验分布。事实上,我们发现了强有力的证据,证明假设治疗效果不存在的模型优于假设积极治疗效果存在的模型,这并不意味着效果一定为零——治疗效果的负值也提供了反对假设积极治疗效果存在的模型的证据。事实上,我们发现治疗效果的模型平均估计大多为负值,log(AF) = -0.188, 95% CI[-0.346, -0.034]。图的左面板。3.可视化治疗效果的先验(虚线灰)和后验(全黑线)分布。峰后验分布表示从观察到的数据中学到的信息量。另一个学习过程的例子在图的右边显示出来。3.,其中生存函数的后验可信区间明显收紧。如下表所示1我们发现大多数后验模型概率为099,同样属于对数正态参数族。

图3
图3

左:贝叶斯模型平均估计得到的治疗效果先验(灰色虚线)和后验(全黑线)分布。右:用贝叶斯模型平均估计得到的比较器臂(浅绿色)和实验臂(深紫色)的模型平均先验(虚线)和后验(全线)生存函数。阴影区域对应于95%的先验(较不饱和)和后验(较饱和)可信区间。贝叶斯模型平均估计的实验臂模型平均先验分布的平均值略低于控制臂的平均值,这是由于计算生存所涉及的非线性变换,尽管先验分布以零处理效果为中心

这些结果与Alberts和同事提出的Cox比例风险模型的结果在定性上相似(HR = 1.21, 95% CI [0.98, 1.49],p=。08;[70])。

序列分析

我们可以利用以真正连续的方式更新证据的能力,并检查它是如何在整个审判过程中积累的。由于在Project data Sphere中提供的数据不包含参与研究的时间,我们假设所有参与者同时开始研究,从而简化了我们的设置。我们重新估计了贝叶斯模型平均检验的模型集合(表上半部分)1),并评估是否存在特定治疗效果的证据(生存/审查次数超过当前时间范围的观察结果在当前评估时间被审查)。

图的左面板。4在假设没有影响的情况下,可视化证据随时间流向模型的流动。我们发现,反对正治疗效应替代假设的证据积累得相当快。在试验开始后6个月,治疗效果存在的贝叶斯因子低于贝叶斯强证据阈值。此外,贝叶斯因子跨越频率特性的校准顺序阈值(BF01= 44)试验开始后3个月。

图4
图4

左:序列分析中存在处理效应的贝叶斯因子轨迹。水平虚线显示了根据10%假阴性证据(BF01= 44在试验开始后3个月跨越),水平虚线可视化支持零假设边界(BF01=试验开始后6个月有10个交叉)。右:各个参数族的后验模型概率轨迹

图的右面板。4将证据随时间流向竞争参数族的流动可视化为给定参数族的后验概率。我们可以看到模型平均的优点,特别是在数据收集的早期,当最有可能的参数族有很多不确定性时。

我们可以将结果与原始研究的分析计划进行比较,该分析计划使用O’brien - fleming停止边界,在达到515个事件计划数量的25%、50%和75%后指定中期分析[43],截断在±3.5处,因此每一步的边界分别为±3.5、±2.996、±2.361和±2.015 [101].使用我们的试验简化版本,注册分析计划将导致13.3个月后在第二次中期分析(50%的预期观察事件)时提前停止。这比在校准顺序阈值处停止要晚10.3个月,比在达到有力证据时停止要晚7.3个月。使用完整的数据集和贝叶斯模型平均估计,我们发现实验组的平均无进展生存期为19.1年,比较组为23.1年。提前10.3个月结束试验,将患者从试验组切换到比较组,将使他们的平均无进展生存时间增加12.5个月。脚注11在1251名试验组患者中,差异总共使1299个无进展生存年。

模拟研究

我们设计了一个基于示例数据集的模拟研究,以在现实生活中类似的设置中评估所描述的方法,同时控制特定于示例数据集的潜在混杂和未知因素。模拟代码可在https://osf.io/ybw9v/

我们评估了贝叶斯模型平均的估计和测试性能,并将其与flexsurv R包中实现了贝叶斯因子或AIC/BIC的参数族的模型选择进行了比较。脚注12对于贝叶斯方法,我们使用历史数据来指定先验分布(如示例中的c.f.,表1).脚注13我们在固定n设计和顺序设计中评估了这些方法的性能。为了在现实条件下评估性能,即当真实数据生成过程未知且可能不匹配任何参数族时,我们省略了模型选择/模型平均分析中使用的模型集中用于模拟数据的参数族。例如,如果从指数参数族中模拟数据,则计算所有方法的结果时都不考虑指数参数族模型(参见补充材料更多细节和类似的结果时,包括所有的参数族)。

我们将模拟研究的数据生成过程基于Alberts和同事的示例数据集[111].我们考虑了固定n设计的五个参数族(指数、威布尔、对数正态、对数逻辑和伽马)和顺序设计的一个参数族(威布尔)作为生存时间的真实数据生成机制。我们使用了参数样条模型[114]作为审查时代真正的数据生成机制。这使我们能够比较不同的、可控的、数据生成过程中方法的性能,同时保持审查过程的灵活性。我们审查了所有大于5年的存活时间。在顺序设计中,我们首先对所有参与者进行审查,并随着试验的进行揭示他们的真实或审查时间(如示例所示)。通过将相应的极大似然参数模型拟合到Alberts和同事的数据集,我们估计了模拟生存和审查时间的参数[111].此外,我们操纵了真实加速因子(log(AF) = -0.2, 0, 0.2, 0.4),并考虑了不同的样本量(N = 50,200,1000对于固定N设计,N = 2070对于顺序设计)。在固定n设计中,5(数据生成机制)× 4 (AF) 3(样本容量)= 60个仿真条件;在顺序设计中,1(数据生成机制)× 4 (AF) × 1(样本容量)= 4个仿真条件。在两种设计中,我们将每种模拟条件重复500次。重复的次数受到估计贝叶斯模型平均方法所需计算资源的限制。

结果:fixed-n设计

我们根据偏差(真实值与估计值之间的差)、均方根误差(RMSE,真实值与估计值之间的均方根差的平方根)和对数(AF)估计值的置信区间覆盖率来评估方法的性能。理想情况下,我们希望观察到RMSE越低越好,表明估计的精度较高,没有或样本量的偏差减小,表明我们的估计收敛于真实值,以及名义置信区间覆盖,表明适当校准的置信区间。在决定是否存在治疗效果时,我们评估了错误率和力量α= 005,片面的,对于频率率方法,和贝叶斯因子阈值校准对应的频率率属性与历史数据,如“示例”部分)。脚注14理想情况下,我们希望观察标称的错误率α液位,表示正确校准p-值和贝叶斯因子,以及尽可能高的幂,表明测试效率高。我们还评估了20年平均预测生存期的偏倚和RMSE。我们使用了Morris和同事提供的公式[115,计算偏差、置信区间覆盖率、错误率和功率的MCMC误差(SE)。我们使用了重叠方差估计[116,计算RMSE的标准误差。

在不同的数据生成机制中,估计平均日志(AF)的RMSE、偏差和置信区间覆盖率以及功率和错误率具有可比性。因此,我们提出了跨越不同数据生成机制的聚合结果(每个参数族的详细结果表在补充材料).

图的左面板。5可视化的均方根误差(RMSE)的平均对数(AF)估计聚合在真对数(AF),所有这些导致可比的均方根误差。我们发现,贝叶斯模型平均和贝叶斯因子的贝叶斯模型选择在小到中等样本量下都优于AIC/BIC频率模型选择。这种好处是先验分布的正则化特性的结果,它减少了对数(AF)估计在小样本量下的巨大可变性。偏倚结果显示出与RMSE相似的模式(见附加文件)1:附录B),然而,频率率方法导致在小样本量下对数(AF)的过高估计(即对数(AF)估计的更极端估计,无论方向如何),贝叶斯方法导致对数(AF)的低估估计(即,由于先验分布引入的收缩,无论方向如何,更保守的估计)。不管RMSE和偏差的差异,不同方法的置信区间覆盖似乎没有差异——所有方法都实现了适当的置信区间覆盖(见附加文件)1附录B)。

图5
图5

左:均方根误差(RMSE,y设在;不同样本量的平均对数加速因子估计的95%置信区间没有显示,因为它们比符号短)(x-axis)和方法(颜色/形状)在所有模拟条件下的平均值。在n = 50个估计值下,AIC和BIC模型选择的RMSE超出作图范围(AIC = 1.78, BIC = 1.91)。右:均方根误差和95%置信区间(RMSE,y-轴)的不同样本量估计的20年预测平均存活(x-axis)和方法(颜色/形状)在所有模拟条件下的平均值。方法:贝叶斯模型平均(BMA,深紫色圆圈)和模型选择的参数族:贝叶斯因子(BF =浅绿色三角形),AIC(浅绿色圆圈)和BIC(深紫色正方形)

图6
图6

第一行:错误率和95%置信区间(y设在;在小于符号的情况下,95%置信区间未显示),用于不同样本量(x-axis)、方法(颜色/形状)和真实加速度因子(列)在所有模拟条件下的平均值。第二行:正加速因子检验的幂值和95%置信区间(y-轴)对不同样本量(x-axis)、方法(颜色/形状)和真实加速度因子(列)在具有不同参数族的条件下的平均值。方法:贝叶斯模型平均(BMA,深紫色圆圈)和模型选择的参数族:贝叶斯因子(BF =深紫色三角形),AIC(浅绿色圆圈)和BIC(浅绿色正方形)。注意不同的缩放y-轴为错误率(第一行)和功率(第二行)

图的右面板。5将预测存活20年的RMSE可视化。我们发现,贝叶斯模型平均和AIC/BIC模型选择在除最大样本量外的所有样本中都优于带有贝叶斯因子的贝叶斯模型选择,在这些样本中,所有模型都趋同于相似的结果。结果偏向于AIC/BIC模型选择优于贝叶斯方法。预测存活20年的偏倚结果显示出与RMSE相似的模式(见附加文件)1:附录B)。

数字6可视化错误率(第一行)和功率(第二行)分别为负或零和正对数(AF)的测试。我们看到,在负对数(AF)(左上)的情况下,所有的方法都显示出相似的错误率,但是,贝叶斯模型平均和贝叶斯因子模型选择在的情况下显示出膨胀的错误率n=没有治疗效果的200名参与者(右上)。升高的错误率与积极处理效果下的功率增加相平衡(左下log(AF) = 0.2,右下log(AF) = 0.4)。脚注15

结果:序贯设计

我们根据对治疗效果是否存在的决策时的错误率和决策时间来评价方法的性能。对于贝叶斯模型平均和贝叶斯因子模型选择,我们使用贝叶斯因子阈值校准对应的频率属性与历史数据,如“示例”部分。脚注16理想情况下,我们希望观察标称的错误率α液位,表示正确校准p-值和贝叶斯因子,功率越高,说明测试效率越高,决策时间越短,说明顺序测试过程的效率越高。与示例类似,我们每个月重新估计模型以监视证据。对于频率主义者的方法,我们使用了不同数量的步骤(k= 2,4,5,10,20),以评估不同程度的顺序效率,对于绑定非对称边界的顺序分析,huang - shih - decani花费函数[98117),而α= 005为单侧试验。wong - shih - decani消费函数允许停止效用和无效,同时导致最佳样本量[118].我们使用了Morris和同事提供的公式[115]计算错误率的MCMC误差(SE)、功率和到达决策所需时间的常规标准误差。

数字7在序列分析中,通过不同面板中描述的不同真对数(AF)(参见附录B中的表A1,获得决策的时间和概率的数值摘要),可视化地显示了达到正确决策(深紫色)、不正确决策(浅绿色)或根本没有达到决策(灰色)的时间分布。不同的行比较不同的方法(AIC/BIC对应最优的顺序分析)k= 20个步骤;每个步骤数量的详细结果见补充材料表15)。我们发现,无论真对数(AF)是多少,贝叶斯模型平均和贝叶斯因子的贝叶斯模型选择在达到正确或错误决策的时间方面都优于AIC/BIC的频率模型选择。表格A1在附录B中显示,达到正确或不正确决策的时间几乎是贝叶斯方法的一半,与频率论者的备选方案相比。在负对数或无对数(AF)条件下,所有方法的错误率都较低或约等于设定的显著性阈值,而在正对数(AF)条件下,所有方法的幂数基本相同。然而,与贝叶斯方法(BMA = 0.136, BF = 0.152)相比,在log(AF) = 0.2条件下,频率方法的未确定试验比例(AIC= 0.212, BIC = 0.208)更高,相反,贝叶斯方法的错误决策比例(BMA = 0.184, BF = 0.164)高于频率方法(AIC= 0.112, BIC = 0.116)。

图7
图7

时间,直到得出结论的顺序分析不同的真加速度因子(面板)。每个直方图的上半部分显示得出正确结论之前的时间分布(深紫色),直方图的下半部分显示得出错误结论之前的时间分布(浅绿色),末尾的双面条显示试验结束时未确定序列分析的比例(灰色)。方法:贝叶斯模型平均(每月监测,第一行)和参数族模型选择:贝叶斯因子(每月监测,第二行),AIC(有20个中期分析,第三行)和BIC(有20个中期分析,第四行)

讨论

我们描述了贝叶斯框架的优点,包括估计、假设检验和模型平均,当应用于生存分析时。具体来说,我们强调了如何:(1)将历史数据包含到分析中,(2)指定并测试已知的假设,以及(3)将关于真实数据生成过程的不确定性纳入到分析中。此外,我们讨论了频率和贝叶斯框架对证据的区别,展示了如何用贝叶斯因子设计分析校准频率特征的贝叶斯分析(如果需要),并在一个例子和一个模拟研究中证明了贝叶斯框架的效率。在这项模拟研究中,我们发现贝叶斯方法(1)在顺序设计中所需的时间更短,(2)在固定n设计中统计能力和假阳性率略高,(3)在中小样本量下更准确地估计处理效果。

在当前的研究中包含历史数据可以大大提高分析的效率,特别是当包含更多的参与者成本很高时。正如其他研究人员反复强调的那样:有大量的历史数据,不利用它们是浪费资源[2122232425] -可用于为当前患者提供更好治疗和开发新疗法的资源[434445].根据治疗效率的预期指定假设,即执行知情的贝叶斯假设检验,进一步建立在这一想法之上。知情贝叶斯假设检验允许研究人员评估支持或反对特定主张的证据——充分利用数据并允许更丰富的推断[3495119].最后,结合真实数据生成机制的不确定性,无需承诺假设单一参数族,使分析对模型错误规范更加稳健。

贝叶斯分析需要对所有参数的先验进行充分说明。虽然研究人员可能对治疗效果的先验有很好的直觉,但辅助参数可能更难以推理——特别是在缺乏辅助参数的历史数据时。在这种情况下,可以通过引出专家知识来构建适当的先验分布[120121122123].然而,关于生存期的近似平均值、中位数或四分位范围的预测通常是计划和登记临床试验的重要组成部分,可用于校准辅助参数的先验分布。

重要的是,贝叶斯假设检验是由感兴趣参数(通常是治疗效果)的先验分布定义的。指定治疗效果参数的不同先验分布对应于定义关于治疗的不同假设。不同的问题必然导致不同的答案,相似的问题必然导致相似的答案。这个概念与频率论假说检验也没有太大的不同。例如,对于临床相关性的最小效应量,双面频率检验可能给出与单侧检验不同的答案,而单侧检验又可能给出与频率检验不同的答案。

贝叶斯因子设计分析还强调了一个重要的事实:常规使用的第I型错误率为5%,对应于支持/反对信息替代假设的微弱证据。随着样本量的增加,这一点尤其明显,可能会导致杰弗里斯-林德利悖论(见[124为一个很好的概述)。类似的发现在其他地方也有描述,作者主张采用更严格的显著性水平[125]或随着样本量的增加而增加显著性水平(例如,[126127128129])。或者,研究人员可以指定一个效用函数,并基于后验参数分布和后验模型概率进行完整的决策分析[96].

尽管如此,所有这些优势都是有代价的。毫无疑问,建立和执行概述的分析比标准的频率分析方法要求更高。它需要更多的计算资源和更多的研究人员的时间来执行分析。然而,维持现状也会带来巨大的有形成本。在我们的例子中,我们展示了使用贝叶斯假设检验的顺序分析可以将试验持续时间缩短一年以上,也就是说,在整整一年的时间里,有一半的患者可以接受副作用不那么严重的治疗,从而获得更长的无进展生存期[70].

我们在一项模拟研究中验证了这一结果,表明在更普遍的情况下,贝叶斯序列分析在临床试验中导致更快的决策。虽然模型错配下的假阴性比例较高(即处理效率低于预期),但它与频率序列分析保持了相同的幂函数和适当的假阳性率。固定n的设计显示,在小到中等样本量下,偏差和均方根误差显著降低,错误率和功率略有升高。此外,我们观察到,在消极处理效果的情况下,接受零假设的能力下降。令人惊讶的是,在我们的模拟中,我们观察到贝叶斯模型平均比贝叶斯模型选择具有贝叶斯因子的贝叶斯模型几乎没有或没有好处。然而,这一发现可能局限于从单一数据集得出的特定设置,对其他疾病或治疗可能不具有代表性。

对于上述方法的进一步发展,有多种途径。例如,可以通过对比例风险模型执行模型平均或平滑样条来合并关于数据生成机制的不同假设[13130131].模型中还可以加入缺陷、左截和区间截尾,并与纵向模型相结合。此外,当评估更复杂的假设时,贝叶斯检验的性能,例如,非劣性可以评估。

最后,贝叶斯框架只是概率定律的一致应用[23.474]和似然原理[3541这使得研究人员可以得出更丰富、更具体的推论。这些想法经过了几个世纪的稳步发展,但直到最近计算能力的蓬勃发展和计算工具的改进,才使它们能够应用于复杂的问题。我们相信,现在是研究人员利用技术进步,进一步开发易于使用的统计软件,并充分利用贝叶斯统计的产品的时候了。

结论

在本文中,我们概述了理论框架,并展示了知情贝叶斯估计、检验和模型平均方法在参数生存分析中的应用。我们对该方法与目前使用的技术进行了评估,发现持续监测证据,采用更具体的假设,结合历史数据,基于多个模型的推断可导致:(1)序列设计所需的时间更短,(2)固定n设计的统计能力和假阳性率略高,(3)在中小样本量下更精确地估计治疗效果。在我们的模拟中,我们没有发现在预测生存方面有明显的优势,也没有发现使用贝叶斯因子的贝叶斯模型选择相对于贝叶斯模型平均的优势。

数据和材料的可用性

该方法在RoBSA R包中实现,可访问https://CRAN.R-project.org/package=RoBSA.分析和模拟脚本可在https://osf.io/ybw9v/.示例数据集可从www.projectdatasphere.org在一个简单的注册。补充材料可在https://osf.io/8skf7/

笔记

  1. 本文中提出的许多论点也适用于非参数和半参数生存模型(见[50102132133])和其中的非参数和半参数生存模型的贝叶斯版本的来源)。

  2. 尽管一些经验贝叶斯文献对“伪”BMA使用贝叶斯信息标准[例如,6566,我们基于边际似然执行适当的BMA,这允许我们适当地合并先验信息并测试知情假设。

  3. 该框架易于推广到多协变量、左截和区间截尾以及缺陷。此外,PH模型也可以纳入到框架中,它们可以用于(a)联合评估处理的AFT或PH效应的证据,也可以(b)检验哪个假设更合理。

  4. 尽管贝叶斯因子是对证据的真正连续测量,但一些研究人员提出了一般的经验法则,以提供关于证据强度的直觉。例如,1和3之间的贝叶斯因子(1和1/3)被视为轶事证据,贝叶斯因子介于3和10之间(介于1/ 3,1/10)为中等证据,贝叶斯因子大于10(小于1)被认为是支持(反对)一种假设的有力证据。75),附件我;[112], p . 105)。

  5. 这些设置简化了概述的方法,使所有先验参数分布减少到一个点,即,所有概率质量集中到一个点。这些简化的参数先验结果是一个标准似然比检验,这是贝叶斯因子的一个特例。在概率参数下,贝叶斯因子可以计算为给定数据(10次试验中8次成功)的二项分布的比率θ对应于θ由备择假设和零假设指定。

  6. 如果治疗是有害的并导致负加速因子,那么假设没有治疗效果的模型将更好地预测结果。因此,试验将很快终止(见图左上角)。5).

  7. 在我们无法访问历史信息或参与者级别数据的情况下,我们仍然可以利用更容易获得的信息,如预期中位数和四分位间存活时间。生存的期望信息可以用来求解先验分布的均值αd而且γd参数,因此他们产生的生存时间分布与适当的汇总统计。然后,我们以一种产生适当灵活性的方式设置先验分布的标准差。

  8. 理想情况下,通常的治疗效果及其异质性的更知情的先验分布将可用于不同的医学子领域,如bartoovic和同事开发的那些[19].这些建议将为在初步研究较少的情况下获得元分析预测先验分布提供更好的起点。

  9. 我们使用威布尔参数族来模拟截尾时间,因为(1)截尾过程本身不是由生存模型模拟的,(2)估计一个灵活参数样条模型的元分析预测先验分布不是一个简单的任务,(3)根据所有3个历史数据集的AIC和BIC,它是截尾时间的最佳拟合分布。

  10. 我们观察到假阳性证据的轻微减少的事实是由于数据的抽样方差可以导致更早地正确接受原假设,消除了跨越错误边界的机会,以及由于贝叶斯因子设计分析本身的方差。

  11. 假设在实验比较国中度过3个月和13.3个月将“占用”平均无进展生存时间的1.3和5.8%,其余无进展生存时间将基于在比较国中的平均无进展生存时间。

  12. 当使用单位信息先验时,BIC模型选择对应于贝叶斯因子模型选择(例如,[134])。

  13. 每个贝叶斯模型都使用两条链进行估计,每个链进行1000次燃烧和5000次抽样迭代。

  14. 于是就有了BF10= 1.9, 2.3, 2.2和1.9,2.4,2.2和BF01= 1.6, 2.2, 2.6和1.6,2.2,2.6 forN贝叶斯模型平均和贝叶斯因子模型选择分别为= 50、200、1000。

  15. log(AF) = 0.2时,不同方法的幂;BMA =。09,.22,.48而且BF = .09, .21, .49, vs. AIC = .08, .17, .48 and BIC = .07, .16, .48, and log(AF) = 0.4, BMA = .15, .46, .92 and BF = .15, .44, .92 vs. AIC = .12, .38, .91 and BIC = .12, .37, .91, for 50, 200, and 1000 observations respectively.

  16. 于是就有了BF10= 4.4和4.7,BF01贝叶斯模型平均和贝叶斯因子模型选择分别为6.9和7.1。

参考文献

  1. van de Schoot R, Depaoli S, King R, Kramer B, Märtens K, Tadesse MG,等。贝叶斯统计和建模。Nat Rev Methods引物。2021;1(1):1 - 26。https://doi.org/10.1038/s43586-020-00001-2

    中科院文章谷歌学者

  2. 一篇关于解决机会理论中一个问题的文章。由已故牧师贝叶斯先生,F. R. S.普莱斯先生,在一封写给John Canton, a . M. F. R. S. 1763年的信中传达。1997; 53:370-418。

  3. 用概率论处理的一些显著性检验。《剑桥哲学学会学报》1935;31:23 3 - 222。可以从:https://doi.org/10.1017/S030500410001330X

  4. 论科学探究的某些基本原则。哲学杂志。1921;42:369 - 90。https://doi.org/10.1080/14786442108633773

  5. 使用吉布斯抽样分析贝叶斯图形模型的程序。见:第三届分布式统计计算国际研讨会论文集。卷》124。奥地利维也纳;2003.1 - 10页。

  6. Carpenter B, Gelman A, Hoffman MD, Lee D, Goodrich B, betancourm,等。斯坦:一种概率编程语言。JStat Softwe。2017;76(1):学会年会。https://doi.org/10.18637/jss.v076.i01

  7. 格罗诺QF,辛格曼H, Wagenmakers EJ。bridgesampling:一个R包,用于估计归一化常数。统计软件。2020;92(10):1-29。https://doi.org/10.18637/jss.v092.i10

  8. Gronau QF, Sarafoglou A, Matzke D, Ly A, Boehm U, Marsman M,等。关于桥式采样的教程。数学心理杂志。2017;81:80-97。https://doi.org/10.1016/j.jmp.2017.09.005

    文章PubMed公共医学中心谷歌学者

  9. 孟XL, Wong WH。用简单恒等式模拟归一化常数的比值:一个理论探索。Statistica学报。1996;6:831-60。可以从:https://www.jstor.org/stable/24306045

  10. 介绍生存和事件历史分析。伦敦:圣人;2010.

  11. Klein RA, Vianello M, Hasselman F, Adams BG, Adams RB Jr, Alper S,等。许多实验室2:研究不同样本和设置的可复制性的变化。《实用心理科学》2018;1(4):443-90。https://doi.org/10.1177/515245918810225

    文章谷歌学者

  12. 回归模型和生命表。皇家统计社会学B系列(方法论)。1972年,34(2):187 - 220。https://doi.org/10.1111/j.2517-6161.1972.tb00899.x

    文章谷歌学者

  13. Bogaerts K, Komárek A, Lesaffre E.使用间隔删减数据的生存分析:R、SAS和BUGS中的实例的实用方法。博卡拉顿:查普曼和霍尔/CRC;2017.

  14. 临床试验的经济评价生存分析-患者水平数据的外推:不一致、局限性和实用指南。中华医学杂志。2013;33(6):743-54。https://doi.org/10.1177/0272989x12472398

  15. ‘不。对Cox博士论文讨论的贡献。英国皇家统计学会,1972;34:216-7。

    谷歌学者

  16. 格罗诺QF, Ly A, Wagenmakers EJ。告知贝叶斯t测试。Stat。2020;74:137-43。https://doi.org/10.1080/00031305.2018.1562983

    文章谷歌学者

  17. Rhodes KM, Turner RM, Higgins JP。对连续结果数据meta分析的异质性程度进行了预测分布。中华临床流行病学杂志2015;68(1):52-60。https://doi.org/10.1016/%2Fj.jclinepi.2014.08.012

    文章PubMed公共医学中心谷歌学者

  18. 斯蒂芬AM,埃文斯NJ, Wagenmakers EJ。实践的挑战和方法的灵活性在事先的启发。Psychol方法。2020;可以从:https://doi.org/10.1037/met0000354

  19. 巴托斯科F,格罗诺QF, Timmers B, Otte WM, Ly A, Wagenmakers EJ。医学中的贝叶斯模型平均元分析。统计地中海。2021;40(30):6743 - 61。https://doi.org/10.1002/sim.9170

    文章PubMed公共医学中心谷歌学者

  20. Parmar MKB, Sydes MR, Morris TP。如何为更小的人群设计随机试验?一个框架。BMC医学。2016;14(1):183。https://doi.org/10.1186/s12916-016-0722-3

    文章PubMed公共医学中心谷歌学者

  21. 可以排除SJ。临床试验中随机对照和历史对照的结合。中华慢性病杂志1976;29(3):175-88。https://doi.org/10.1016/0021 - 9681 (76) 90044 - 8

  22. 贝瑞哒。贝叶斯的临床试验。《自然评论》药物发现2006;5(1):27-36。https://doi.org/10.1038/nrd1927

    中科院文章PubMed谷歌学者

  23. 霍布斯BP,卡林BP。药物和器械临床试验的实用贝叶斯设计和分析。生物危害杂志2008;18(1):54-80。https://doi.org/10.1080/10543400701668266

  24. 张杰,张志刚,张志刚,张志刚,张志刚。整合专家意见和临床试验数据来推断长期生存:CAR-T治疗复发或难治性急性淋巴细胞白血病的儿童和年轻人的案例研究。中华医学杂志2019;19(1):1 - 11。https://doi.org/10.1186/s12874-019-0823-8

    文章谷歌学者

  25. Thirard R, Ascione R, Blazeby JM, Rogers CA.整合专家意见与临床试验数据分析低功率亚组分析:判决试验的贝叶斯分析。医学委员会医疗资源方法。2020;20(1):1 - 10。https://doi.org/10.1186/s12874-020-01178-6

    文章谷歌学者

  26. Brard C, Hampson LV, Gaspar N, Le Deley MC, Le Teuff G.将个人历史对照和综合治疗效果估计纳入贝叶斯生存试验:一项模拟研究。医学与医学方法学2019;19(1):85。https://doi.org/10.1186/s12874-019-0714-z

    文章PubMed公共医学中心谷歌学者

  27. Hampson LV, Whitehead J, Eleftheriou D, Brogan P.用于非常罕见疾病临床试验设计和解释的贝叶斯方法。统计医学。2014;33(24):4186 - 201。https://doi.org/10.1002/sim.6225

    文章PubMed公共医学中心谷歌学者

  28. 可靠性和生存分析的参数化和贝叶斯模型。2011年研究生毕业论文。https://scholarcommons.usf.edu/etd/3252

  29. Omurlu IK, Ture M, Ozdamar K.参数生存模型的贝叶斯分析:基于信息先验的计算机仿真研究。统计管理系统。2015;18(5):405-23。https://doi.org/10.1080/09720510.2014.961763

    文章谷歌学者

  30. van Rosmalen J, Dejardin D, van Norden Y, Löwenberg B, Lesaffre E.在临床试验分析中纳入历史数据:值得付出努力吗?统计方法医学杂志2018;27(10):3167-82。https://doi.org/10.1177/0962280217694506

    文章PubMed谷歌学者

  31. Viele K, Berry S, Neuenschwander B, Amzal B, Chen F, Enas N,等。在临床试验中使用历史对照数据评估治疗效果。医药统计。2014;13(1):41-54。https://doi.org/10.1002/%2Fpst.1589

    文章PubMed谷歌学者

  32. Cuffe RL。纳入历史对照数据可能会降低验证性研究的效力。医学统计。2011;30(12):1329-38。https://doi.org/10.1002/sim.4212PMID: 21432893。

    文章PubMed谷歌学者

  33. Neuenschwander B, Capkun-Niggli G, Branson M, Spiegelhalter DJ。总结临床试验对照的历史信息。临床试验(伦敦,英国)。2010年,7(1):5日至18日期间召开。可以从:https://doi.org/10.1177/1740774509356002

  34. 约翰逊VE,库克JD。连续监测的单臂II期临床试验的贝叶斯设计。试验。2009;6(3):217 - 26所示。https://doi.org/10.1177/1740774509105221

    文章PubMed谷歌学者

  35. Berger JO, Wolpert RL。可能性原则。2版。数理统计研究所;1988.

  36. 劳德约。可选停止:对于贝叶斯没有问题。心理学报2014;21(2):301-8。https://doi.org/10.3758/s13423-014-0595-4

    文章谷歌学者

  37. Wagenmakers EJ, Wetzels R, Borsboom D, van der Maas HLJ, Kievit RA。纯粹验证性研究的议程。心理科学展望2012;7(6):632-8。https://doi.org/10.1177/1745691612463078

    文章PubMed谷歌学者

  38. 古德曼SN。贝叶斯方法介绍I:测量证据的强度。Sage Publications: Sage CA: Thousand Oaks, CA;2005.https://doi.org/10.1191/1740774505cn098oa

  39. 罗宾斯H.实验顺序设计的一些方面。数学学报1952;58(5):527-35。https://doi.org/10.1007/978-1-4612-5110-1_13

    文章谷歌学者

  40. 安斯科姆FJ。连续观测的固定样本量分析。生物识别技术,1954;10(1):89 - 100。https://doi.org/10.2307/3001665

    文章谷歌学者

  41. 序贯试验、序贯分析与似然原理。Stat。1966;20(2):18 - 23。https://doi.org/10.1080/00031305.1966.10479786

    文章谷歌学者

  42. Lan GKK, DeMets DL。临床试验的离散顺序边界。生物统计学。1983;70(3):659 - 63。https://doi.org/10.1093/biomet/70.3.659

    文章谷歌学者

  43. 临床试验的多重测试程序。生物识别技术,1979;p。549 - 556。https://doi.org/10.2307/2530245

  44. 可以排除SJ。分组序贯法在临床试验设计和分析中的应用。生物统计学。1977;64(2):191 - 199。出版社:[牛津大学出版社,生物计量信托]。https://doi.org/10.1093/biomet/64.2.191

  45. Burnett T, Mozgunov P, Pallmann P, Villar SS, Wheeler GM, Jaki T增加临床试验设计的灵活性:一个基于实例的适应性设计的实际使用指南。BMC医学。2020;18(1):21。https://doi.org/10.1186/s12916-020-01808-2

    文章谷歌学者

  46. 用最小代价控制决策错误:顺序概率比t测试。Psychol方法。2020;25(2):206。https://doi.org/10.1037/met0000234

    文章PubMed谷歌学者

  47. Schönbrodt FD, Wagenmakers EJ, Zehetleitner M, Perugini M.序贯假设检验与贝叶斯因子:有效检验均值差异。Psychol方法。2017;22(2):322。https://doi.org/10.1037/met0000061

    文章PubMed谷歌学者

  48. 统计假设的顺序检验。数理统计。1945;16(2):117-86。https://doi.org/10.1007/978-1-4612-0919-5_18

    文章谷歌学者

  49. 贝瑞哒。临床试验中的中期分析:经典与贝叶斯方法。统计地中海。1985;4(4):521 - 6。https://doi.org/10.1002/sim.4780040412

    中科院文章PubMed谷歌学者

  50. 易卜拉欣JG,陈mh,辛哈D.贝叶斯生存分析。施普林格统计系列。纽约:斯普林格出版社;2001.可以从:https://doi.org/10.1007/978-1-4757-3447-8

  51. Hinne M, Gronau QF, van den Bergh D, Wagenmakers EJ。贝叶斯模型平均的概念介绍。实用心理科学。2020;3(2):200-15。https://doi.org/10.1177/2515245919898657

    文章谷歌学者

  52. Hoeting JA, Madigan D, Raftery AE, Volinsky CT。贝叶斯模型平均:教程。统计科学。1999;14(4):382 - 401。https://doi.org/10.1214/SS \ % 2 f1009212519

    文章谷歌学者

  53. 利默尔EE。规范搜索:使用非实验数据的特殊推理,第53卷。纽约:威利;1978.

    谷歌学者

  54. 生存分析:自学文本,第三版。第三版,生物和健康统计。纽约:斯普林格出版社;2012.https://doi.org/10.1007/978-1-4419-6646-9

  55. Latimer NR. NICE DSU技术支持文件14:临床试验经济评价的生存分析-患者水平数据的外推。决策支持小组的报告,2011;可从:https://www.ncbi.nlm.nih.gov/books/NBK395885/pdf/Bookshelf_NBK395885.pdf

  56. Buckland ST, Burnham KP, Augustin NH。模型选择:推理的一个组成部分。生物识别技术。1997;53(2):603 - 618。出版社:[Wiley,国际生物特征学会]。https://doi.org/10.2307/2533961

  57. 高频模型平均估计器。中华统计杂志,2003;38(4):369 - 371。https://doi.org/10.1198/016214503000000828

    文章谷歌学者

  58. Wagenmakers EJ, Farrell S. AIC模型的Akaike权重选择。心理规律通报与修订版2004;11(1):192-6。https://doi.org/10.3758/BF03206482

    文章谷歌学者

  59. 贝尔·戈罗德H,卡恩斯B,史蒂文斯J,托卡拉P,拉比特A,拉蒂默N,等。癌症治疗NICE技术评估中使用的生存分析方法综述:一致性、局限性和有待改进的领域。2019;39(8): 899-909。https://doi.org/10.1177/0272989x19881967

    文章PubMed谷歌学者

  60. Kearns B, Stevens J, Ren S, Brennan A.生存外推有多不确定?研究不同参数生存模型对危险函数、寿命平均生存期和成本效益外推不确定性的影响。经济学杂志》2020;38(2):193 - 204。https://doi.org/10.1007/s40273-019-00853-x

    文章谷歌学者

  61. Ishak KJ, Kreif N, Benedict A, Muszbek N.健康经济应用的参数生存分析综述。药物经济学。2013; 31(8): 663 - 75。https://doi.org/10.1007/s40273-013-0064-3

    文章PubMed谷歌学者

  62. 布拉德C,勒Teuff G,勒Deley MC,汉普森LV。临床试验中的贝叶斯生存分析:在实践中使用什么方法?试验。2017;14(1):78 - 87。https://doi.org/10.1177/1740774516673362

    文章PubMed谷歌学者

  63. Wadsworth I, Hampson LV, Jaki T.支持儿童新药开发的有效性外推和其他数据:方法的系统回顾。统计方法医学杂志2018;27(2):398-413。https://doi.org/10.1177/0962280216631359

    文章谷歌学者

  64. Stallard N, Todd S, Ryan EG, Gates S.贝叶斯和频率组序贯临床试验设计的比较。2020;20(1):1 - 14。https://doi.org/10.1186/s12874-019-0892-8

    文章谷歌学者

  65. Negrín MA, Nam J, Briggs AH。生存外推中处理不确定性的贝叶斯解。中华医学杂志2017;37(4):367-76。https://doi.org/10.1177/0272989x16650669

    文章PubMed谷歌学者

  66. Thamrin SA, McGree JM, Mengersen KL.对生存数据建模以解释模型不确定性:单一模型还是模型平均?SpringerPlus。2013; 2(1): 665。https://doi.org/10.1186/2193-1801-2-665

    文章PubMed公共医学中心谷歌学者

  67. Gallacher D, Auguste P, connck M.制药公司如何模拟癌症患者的生存?2017年NICE单项技术评价综述。《国际医学杂志》2019;35(2):160-7。https://doi.org/10.1017/s0266462319000175

    文章PubMed谷歌学者

  68. 科学、主观性和软件(对Berger和Goldstein文章的评论)。贝叶斯分析。2006;1(3):445 - 50。https://doi.org/10.1214/06-BA116G

    文章谷歌学者

  69. 适应性临床试验的贝叶斯设计。国际环境研究与公共卫生。2021;18(2):1-15。https://doi.org/10.3390/IJERPH18020530

    文章谷歌学者

  70. albert SR, Sargent DJ, Nair S, Mahoney MR, Mooney M, Thibodeau SN等。奥沙利铂、氟尿嘧啶和叶酸联合或不联合西妥昔单抗对切除的III期结肠癌患者生存率的影响:一项随机试验《美国医学协会杂志》上。2012; 307(13): 1383 - 93。https://doi.org/10.1001/jama.2012.385

    中科院文章PubMed公共医学中心谷歌学者

  71. bartoovic F. RoBSA:鲁棒贝叶斯生存分析的R包2022.凹口。可以从:https://CRAN.R-project.org/package=RoBSA

  72. Fragoso TM, Bertoli W, Louzada F.贝叶斯模型平均:系统回顾和概念分类。2018;86(1):1 - 28。https://doi.org/10.1111/insr.12243

    文章谷歌学者

  73. Jefferys WH, Berger JO。奥卡姆剃刀和贝叶斯分析。美国科学家。1992;80:64 - 72。可以从:http://www.jstor.org/stable/29774559

  74. 科学推论。剑桥:剑桥大学出版社;1931.

    谷歌学者

  75. 杰弗里斯·H.概率论。英国牛津:牛津大学出版社第一版;1939.

    谷歌学者

  76. Etz A, Wagenmakers EJ。JBS霍尔丹对贝叶斯因子假设检验的贡献。统计科学。2017;32:313-29。https://doi.org/10.1214/16-STS599

    文章谷歌学者

  77. 卡斯RE,拉夫蒂AE。贝叶斯因子。中国科学(d辑:自然科学版)。https://doi.org/10.1080/01621459.1995.10476572

    文章谷歌学者

  78. 教授贝叶斯定理:证据的强度作为预测精度。Stat。2019;73(2):186 - 90。https://doi.org/10.1080/00031305.2017.1341334

    文章谷歌学者

  79. Wagenmakers EJ, Morey RD, Lee MD.实用主义研究者的贝叶斯好处。中华心理科学杂志2016;25(3):169-76。https://doi.org/10.1177/0963721416643289

    文章谷歌学者

  80. 通用电气盒。科学和统计数据。中华统计杂志1976;71(356):791-9。https://doi.org/10.1080/01621459.1976.10480949

    文章谷歌学者

  81. 格罗诺QF,赫克DW,伯克霍特SW, Haaf JM, Wagenmakers EJ。贝叶斯模型平均元分析入门。心理科学的方法与实践进展。2021;4(3)。可以从:https://doi.org/10.1177/%2F25152459211031256

  82. Spiegelhalter DJ, Abrams KR, Myles JP。临床试验和保健评估的贝叶斯方法。奇切斯特:约翰·威利父子;2004.

  83. 古德曼SN。走向循证医学统计2:贝叶斯因子。安实习医学1999;130(12):1005-13。https://doi.org/10.7326/0003-4819-130-12-199906150-00019

    中科院文章PubMed谷歌学者

  84. 古德曼SN。的p-值和贝叶斯:一个谦虚的建议。论文。2001;12(3):295 - 7。https://doi.org/10.1097/00001648-200105000-00006

  85. 内曼J,皮尔逊ES。对检验统计假设理论的贡献。统计研究回忆录。1936(1):1 - 37。

  86. Spiegelhalter DJ, Freedman LS, Parmar MK.随机试验的贝叶斯方法。《社会统计》A辑(社会统计)。1994, 157(3): 357 - 87。https://doi.org/10.2307/2983527

    文章谷歌学者

  87. 指向退后JK。贝叶斯估计取代了t检验。精神病学杂志2013;42(2):573。https://doi.org/10.1037/a0029146

    文章PubMed谷歌学者

  88. 爱德华W,林德曼H,萨维奇LJ。心理学研究的贝叶斯统计推理。Psychol启1963;70(3):193 - 242。https://doi.org/10.1037/h0044139

    文章谷歌学者

  89. 从理论到模型到预测:贝叶斯模型比较方法。Commun Monogr。2018;85(1):41-56。https://doi.org/10.1080/03637751.2017.1394581

    文章谷歌学者

  90. 罗亚尔·R.关于观察到误导性统计证据的概率。中国科学(d辑:自然科学版)2000;https://doi.org/10.1080/01621459.2000.10474264

    文章谷歌学者

  91. 奥特曼DG。医学杂志上的统计数据。统计地中海。1982;1(1):59 - 71。https://doi.org/10.1002/sim.4780010109

    中科院文章PubMed谷歌学者

  92. 奥特曼DG。医学期刊上的统计:1980年代的发展。统计地中海。1991;10(12):1897 - 913。https://doi.org/10.1002/sim.4780101206

    中科院文章PubMed谷歌学者

  93. 奥特曼DG。医学杂志上的统计:一些最近的趋势。统计地中海。2000;19(23):3275 - 89。https://doi.org/10.1002/1097 - 0258 (20001215) 19:23 \ % 3 c3275:: aid-sim626 \ % 3 e3.0.co; 2米

    中科院文章PubMed谷歌学者

  94. Schönbrodt FD, Wagenmakers EJ。贝叶斯因子设计分析:为令人信服的证据制定计划。Psychon Bull rev 2018;25(1): 128-42。https://doi.org/10.3758/s13423-017-1230-y

    文章PubMed谷歌学者

  95. Stefan AM, Gronau QF, Schönbrodt FD, Wagenmakers EJ。使用知情先验的贝叶斯因子设计分析教程。2019;51(3): 1042-58。https://doi.org/10.3758/s13428-018-01189-8

    文章PubMed公共医学中心谷歌学者

  96. 伯杰乔。统计决策理论与贝叶斯分析。纽约:施普林格科学与商业媒体;2013.

  97. 李志强,李志强,李志强。哈罗德·杰弗里斯的默认贝叶斯因子假设检验:解释、扩展和心理学中的应用。数学心理杂志。2016;72:19-32。https://doi.org/10.1016/j.jmp.2015.06.004

    文章谷歌学者

  98. 詹尼森C,特恩布尔BW。分组序贯法及其在临床试验中的应用。博卡拉顿:CRC出版社;1999.

  99. Org R.项目数据领域;2019.出版商:re3data.org -研究数据仓库登记处。可以从:https://www.re3data.org/repository/r3d100013015

  100. 肿瘤学临床试验联盟。奥沙利铂(OXAL) + 5-氟尿嘧啶(5-FU)/叶酸(CF)联合西妥昔单抗(C225)治疗III期结肠癌根治性切除术患者的随机III期临床研究2012.https://doi.org/10.34949/zywx-9253

  101. Alberts SR, Sinicrope FA, Grothey a . N0147: III期结肠癌根治性切除术后奥沙利铂+ 5-氟尿嘧啶/叶酸联合西妥昔单抗或不联合西妥昔单抗的随机III期试验。临床结直肠癌。2005;5(3):211-3。https://doi.org/10.3816/ccc.2005.n.033

    文章PubMed谷歌学者

  102. Raftery AE, Madigan D, Volinsky CT。在生存分析中考虑模型的不确定性可以提高预测性能。在贝叶斯统计5。大学出版社;1995.p . 323 - 349。

  103. 对林德利统计悖论的评述。生物统计学。1957;44(34):533 - 533。https://doi.org/10.1093/biomet/44.3-4.533

    文章谷歌学者

  104. Madigan D, Raftery AE, York JC, Bradshaw JM, Almond RG。图形模型选择策略。统计学课堂讲稿。纽约:施普林格;1994.p . 91 - 100。

  105. 格罗诺QF,范Erp S,赫克DW,塞萨尔里奥J,乔纳斯KJ, Wagenmakers EJ。权力姿势效应的贝叶斯模型平均元分析:以感觉权力为例。社会心理杂志,2017;2(1):123-38。https://doi.org/10.1080/23743603.2017.1326760

    文章谷歌学者

  106. 梅耶,巴托斯科,瓦格纳。稳健贝叶斯元分析:用模型平均解决发表偏倚。心理方法。2022。https://doi.org/10.1037/met0000405

  107. 巴托斯科F,迈尔M, Wagenmakers EJ, Doucouliagos H,斯坦利TD。稳健贝叶斯元分析:互补发表偏倚调整方法的模型平均。研究合成方法;在出版社。https://doi.org/10.31234/osf.io/kvsp7

  108. 使用回归和多级/层次模型的数据分析。纽约:剑桥大学出版社;2006.

  109. 肿瘤学临床试验联盟。III期随机研究:II状态(改良的Astler-Coller B2)结肠腺癌切除后,单克隆抗体17-1A辅助免疫治疗与无辅助治疗的对比(比较臂);2003.https://doi.org/10.34949/y9s0-nz36

  110. 赛诺菲。奥沙利铂/ 5FU-LV辅助治疗结肠癌的多中心国际研究2003.https://doi.org/10.34949/fm7n-cw30

  111. 肿瘤学临床试验联盟。III期随机研究:II状态(改良的Astler-Coller B2)结肠腺癌切除后用单克隆抗体17-1A辅助免疫治疗与无辅助治疗的比较(实验臂);2003.https://doi.org/10.34949/57rt-nr42

  112. 李md, Wagenmakers EJ。贝叶斯认知建模:一门实践课程。纽约:剑桥大学出版社;2013.

  113. Denwood乔丹。runjags:一个R包,为JAGS中的MCMC模型提供接口实用程序、模型模板、并行计算方法和附加分布。统计软件学报。2016;71(9):1-25。可以从:https://doi.org/10.18637/jss.v071.i09

  114. Royston P, Parmar MK.截短生存数据的灵活参数比例-危险和比例-优势模型,应用于预后建模和治疗效果估计。统计医学。2002;21(15):2175 - 97。https://doi.org/10.1002/sim.1203

    文章PubMed谷歌学者

  115. 莫里斯TP,怀特IR,克劳瑟MJ。利用模拟研究评估统计方法。统计地中海。2019;38(11):2074 - 102。https://doi.org/10.1002/sim.8086

    文章PubMed公共医学中心谷歌学者

  116. Efron B, Stein C.方差折刀估计。安Stat。1981;9(3):586 - 96。https://doi.org/10.1214/aos/1176345462

  117. 黄益,史文杰,De Cani JS。使用I型错误概率花费函数族的分组顺序设计。统计地中海。1990;9(12):1439 - 45。https://doi.org/10.1002/sim.4780091207

    中科院文章PubMed谷歌学者

  118. 安德森公里。非对称群体序列设计的最优消费函数。生物科学学报。2007;29(3):369 - 371。https://doi.org/10.1002/bimj.200510205

    文章谷歌学者

  119. Rouder JN, Morey RD, Verhagen J, Province JM, Wagenmakers EJ。推论中有免费的午餐吗?中华认知科学杂志2016;8(3):520-47。https://doi.org/10.1111/tops.12214

    文章PubMed谷歌学者

  120. Johnson SR, Tomlinson GA, Hawker GA, Granton JT, Feldman BM。引出贝叶斯先验信念的方法:系统回顾。临床流行病学杂志2010;63(4):355-69。https://doi.org/10.1016/j.jclinepi.2009.06.003

    文章PubMed谷歌学者

  121. 先验分布的推导。贝叶斯生物统计的案例研究。1996;141 - 156。

  122. O 'Hagan A, Buck CE, Daneshkhah A, Eiser JR, Garthwaite PH, Jenkinson DJ,等。不确定的判断:引出专家的可能性。奇切斯特:威利;2006.

  123. Mikkola P, Martin OA, Chandramouli S, Hartmann M, Pla OA, Thomas O,等。先验知识的启发:过去、现在和未来;2021.可以从:https://arxiv.org/abs/2112.01380

  124. 林德利悖论的历史与本质;2021.可以从:https://arxiv.org/abs/2111.10191

  125. Benjamin DJ, Berger JO, Johannesson M, Nosek BA, Wagenmakers EJ, Berk R,等。重新定义统计学意义。中国生物学报,2018;2(1):6-10。https://doi.org/10.1038/s41562-017-0189-z

    文章PubMed谷歌学者

  126. Maier M, Lakens D.为你的alpha辩护:两种实用方法的入门;2021.可以从:https://doi.org/10.31234/osf.io/ts4r6

  127. Wagenmakers EJ。近似目标贝叶斯因子p-值和样本量pn规则;2022.可以从:https://doi.org/10.31234/osf.io/egydq

  128. 很好,第一,尾部区域的标准化概率。中国计算机科学(d辑:自然科学版)。https://doi.org/10.1080/00949658208810607

    文章谷歌学者

  129. 林德利DV。统计推断。J R统计社会学:B系列(方法论)。1953; 15(1): 30 - 65。https://doi.org/10.1111/j.2517-6161.1953.tb00123.x

    文章谷歌学者

  130. 拉姆齐乔。单调回归样条的作用。统计科学。1988;3(4):425 - 41。https://doi.org/10.1214/ss/1177012761

    文章谷歌学者

  131. Brilleman SL, Elci EM, Novik JB, Wolfe R.使用rstanarm R包的贝叶斯生存分析。arXiv: 200209633(统计)。2020 2; ArXiv: 2002.09633。可以从:http://arxiv.org/abs/2002.09633

  132. King AJ, Weiss RE.一般半参数贝叶斯离散时间循环事件模型。生物统计学。2019;(kxz029)。可以从:https://doi.org/10.1093/biostatistics/kxz029

  133. Sinha D, Dey DK。生存数据的半参数贝叶斯分析。中华统计杂志,1997;32(4):359 - 361。https://doi.org/10.1080/01621459.1997.10474077

    文章谷歌学者

  134. hold L, Sabanés Bové D.应用统计推断。纽约:施普林格;2014.

下载参考

确认

本出版物是基于研究使用的信息从www.projectdatasphere.org,由项目数据领域维护。项目数据领域和本网站任何信息的所有者均未对本出版物的内容作出贡献、批准或以任何方式对其负责。

计算资源由大型研究、开发和创新基础设施项目“e-Infrastruktura CZ”(e-INFRA LM2018140)提供。我们感谢

Eric-Jan Wagenmakers感谢许多有用的评论和支持。

资金

F.B.和J.M.H.得到了NWO给Eric-Jan Wagenmakers (016. vic .170.083)的Vici赠款的支持。

F A得到了ERC给Eric-Jan Wagenmakers (743086 unite)的一笔高级赠款的支持。j.m.h得到了来自NWO的Veni赠款(VI.Veni.201G.019)的支持。

作者信息

作者和联系

作者

贡献

F A设计了模拟研究并实施了方法。J.M.H.和联邦航空局监督了这项研究。联邦调查局分析了这些数据。所有的作者都解释了结果,阅读并批准了最终的手稿。

相应的作者

对应到弗兰提šek Bartoš

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

不适用。

额外的信息

出版商的注意

188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。

补充信息

权利和权限

开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献放弃书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

J.M.巴托斯科,阿斯特,F.和哈夫,告知贝叶斯生存分析。BMC医学治疗方法22238(2022)。https://doi.org/10.1186/s12874-022-01676-9

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12874-022-01676-9

关键字

  • 贝叶斯
  • 生存分析
  • Model-averaging
  • 贝叶斯因子
  • 历史数据