跳转至主要内容

实用试验中的组序贯设计:使用来自许多近期外科随机对照试验的数据的可行性和效用评估

摘要

背景

评估在实用rct中测试的许多外科干预的长期效果可能需要延长参与者随访时间,以评估有效性并使用患者报告的结果,这需要大样本量。因此,rct通常被认为是昂贵和耗时的,特别是在结果显示试验干预无效的情况下。适应性设计,特别是组序贯设计,在提高新的和现有手术干预试验的效率和成本方面具有巨大潜力。作为评估组序贯设计潜在效用的一种手段,我们重新分析了来自近期一些备受瞩目的随机对照试验的数据,并评估了使用这种设计是否会导致试验提前停止。

方法

许多实用的rct在随访期间(如术后6个月、12个月和24个月)对参与者进行了多次监测,作为评估恢复情况的一种手段,也使参与者参与试验过程。传统上,由于临床原因,其中一个结果被选为主要(最终)结果,其他结果被指定为早期或晚期结果。在这种情况下,新颖的组序列设计不仅使用了最终结果的数据,而且还使用了中期分析的早期结果的数据,可以用来为停止决策提供信息。我们描述了来自7个最近的外科随机试验(WAT, drawfft, wolf, FASHION, CSAW, FIXDT, TOPKAT)的数据,并概述了可能在设计阶段就提出的可能的组顺序设计。然后,我们通过使用观察到的数据和日期来复制信息是如何积累的,以及如何为每个RCT做出决策,模拟了这些群组顺序设计是如何进行的。

结果

模拟组序列设计的结果表明,其中两个rct极有可能在中期分析时因无效而停止,这可能节省大量时间(15个月和23个月)和成本,并避免患者暴露于无效或并不优于标准护理的干预措施中。为了使用我们所描述的方法,我们讨论了rct的重要特征,特别是早期结果的价值和机会之窗何时可以做出早期停止的决定,以及这与招聘期和后续工作的长度有什么关系。

结论

测试的五项rct的结果表明,使用早期结果数据的分组顺序设计是可行的,很可能提供的设计至少与原始固定样本量设计一样高效,甚至可能更高效。总的来说,由于与初步结果的相关性强,早期结果提供的信息量大得惊人。这表明,这里描述的方法可能在手术试验范围内更普遍地提供益处,在试验设计、结果和随访模式结构化并表现相似的其他应用领域也更广泛地提供益处。

同行评审报告

背景

在日常(例行实践)环境中测试干预措施的实用主义临床试验通常具有一些重要的区别性特征,这些特征在很大程度上决定了它们的设计和实施[1,2]。其中最主要的是,为了评估有效性,它们需要大样本量(由于研究人群和干预措施的异质性)和长随访期。实用试验最重要的应用领域之一是外科干预措施的评估[3.,4];即在一项研究的一个或多个分支中涉及外科干预或立即术后干预(如伤口管理)的试验。历史上,此类干预措施的引入仅仅基于外科医生认为可能对患者有益的东西;在外科试验中,人们意识到缺乏严谨性和效率低下,这促使了许多新过程和方法的发展[5,6,7],以及在过去十年中大型随机对照试验(rct)数量的稳步增加。许多试验外科干预的晚期临床试验都在创伤和骨科(T&O)。这些试验规模很大,通常是因为它们使用了患者报告的结果(PROMs) [2,8],由于随访时间长,可能需要许多年(例如5年以上)才能完成,因此费用昂贵。为了提高测试新的和现有手术干预的效率和成本,适应性的,特别是组序贯的设计可能有巨大的潜力,并为未来的研究提供了令人兴奋的机会。

2022年START: react临床试验(肩峰下间隔器用于影响肩袖肌腱的撕裂:一项随机、有效、适应性的外科临床试验)[9],早期停止并使用一种新颖的分组顺序设计,最初由帕森斯等人提出。[10]作为以更灵活和有效的方式进行临床试验的手段,同时保持试验的完整性。Parsons等人在论文中提出的方法利用了这样一个事实:在外科试验中,在收集最终(最终)研究结果之前,在许多固定场合例行监测参与者(通常是远程监测)是非常常见的(例如,早期结果可能在3个月和6个月收集,在主要的12个月时间点之前)。在这种情况下,如果中期分析只使用来自那些具有最终结果数据的参与者的信息,那么早期停止的机会很可能仅仅受到时间限制,因为试验招募通常在足够的最终结果数据可用以作出停止决定之前就已经完成。然而,如果早期结果与最终结果相关,则组序贯分析[11],它使用从早期和最终结果中获得的全部信息来估计最终研究终点的治疗效果,这可能使适应性设计变得可行,并导致统计力量的增加[12,13,14]。

从历史上看,在外科试验中,如果使用过的话,分组顺序设计也很少使用;2015年的一项研究[15]报道称,在同行评审期刊中,只有1%的组序随机对照试验使用了手术干预(60%使用了药物,其中大多数rct在肿瘤学)。这在一定程度上反映了外科试验在进行的严格研究数量和采用的研究方法的复杂性方面一直落后于其他应用领域的事实。然而,近年来情况发生了很大的变化,在英国(我们的总部所在地)和世界各地,许多更活跃的研究小组在高影响力的医学杂志上报道了大型(多中心)随机对照试验的结果。

在采用适应性设计方法方面存在着一些普遍的障碍,这些障碍存在于所有医学专业中,特别是研究团队缺乏知识、培训和统计专业知识,以及更普遍的对早期停止的影响的焦虑[16,17,18,我们在此不再赘述。如果我们能够克服这些更普遍的吸收障碍,以及关于适当使用的方法和如何实施的具体关注和问题,适应性设计将可能成为外科随机对照试验中重要和广泛使用的方法。Parsons等人的群体序贯设计方法[10,在一项比较两个治疗组和两个早期结果测量的研究(START: react)中进行了描述。英国国家卫生研究所(NIHR)资助的研究团队(有效性和机制评价(EME)计划,项目参考文献16.61.18)进行了START: react研究,也调查了START: react研究中使用的组序设计方法可能如何实施,以及它们是否会导致最近在T&O中进行的一些备受瞩目的常规(固定设计)手术试验中试验长度和决策的改变。这项工作的主要目的主要是探索START: react中使用的方法学方法的普遍性,并利用这些固定设计试验中患者招募数据的原始时间序列,评估该方法是否会导致早期停止。本研究使用了7个T&O随机对照试验的匿名患者报告结果数据,这些数据由华威临床试验单元(WCTU,华威医学院;https://warwick.ac.uk/fac/sci/med/research/ctu/)和NDORMS,纳菲尔德骨科、风湿病和肌肉骨骼科学系(牛津大学;https://www.ndorms.ox.ac.uk/).

这里使用了一种频率主义者的方法来进行分组顺序设计,通过使用预定义的信息水平在每次观察中花费的误差来定义[11,19,20.]。贝叶斯方法也广泛用于自适应群顺序设计[21],并曾被建议用于T&O和急诊医学的试验,尽管与这里介绍的应用非常不同[22,23]。T&O的主要试验使用患者报告的结果测量(PROMs)作为主要结果,为了分析的目的,通常假设其近似正态分布。这也是本文采用的方法,因为所有选定的rct都使用了PROMs;我们不讨论其他(例如二元)结果度量。然而,我们相信所讨论的方法可以很容易地适用于其他结果和更普遍的结果,尽管这里的重点是外科(和T&O),但适用于设置(例如结果、随访模式和招募)相似的其他应用领域的试验。

方法

数据

来自7个rct的试验数据(见表1)被选为近期许多外科试验的典型,就样本量、招募和参与者随访时间、主要结果测量和早期结果测量之间的资源分配而言,并出于务实的原因,研究的主要研究人员能够快速和积极地响应数据共享请求,所有研究都可获得公布的方案。对治疗效果和其他关键特征的未经调整的估计现在被描述为每个RCT;更详细的描述见附加文件[见附加文件]1]。出于简单和易于解释的原因,我们选择使用来自试验的数据不变,样本量相同,而不是像传统方法那样增加样本量以保持研究力量。在实践中,我们通常会增加样本量,这取决于计划的中期分析的数量和停止概率(见边界和信息监控),减少少量,以考虑到可能的适应性。通常情况下,这只会对研究样本量产生微小或中等程度的变化;例如,在2022年的START: react临床试验中[9],样本从170增加到188(在考虑缺失数据之前),以保持在90%的功率。

表1所选随机对照试验的简要细节

沃里克关节成形术试验(WAT)是在英国进行的一个两臂、平行组的随机对照试验[24,25),招聘\ \ (N = 126)2007年5月至2010年2月间适合髋关节置换的患者。患者按1:1的比例被随机分配接受全髋关节置换术(THA)或关节表面置换术(RSA)。主要结局是髋关节功能,通过患者报告的牛津髋关节评分(OHS;评分0到48,48代表术后12个月(12m)无疼痛和功能完美,6周(6w)、3个月(3m)和6个月(6m)评估早期结果。本研究的主要结果是,12个月时各组间OHS无统计学差异;RSA组的平均得分为40.4 (\ (N1_ {12 m} = 57 \))和THA组38.2 (\ (N0_ {12 m} = 63 \)),差异为2.2 (95%CI;\ \ (-0.5)12.6)。

DRAFFT

桡骨远端急性骨折固定试验(DRAFFT)比较克氏针固定(wire)和掌侧锁定钢板固定(plate)\ \ (N = 461)2010年7月至2012年7月招募的桡骨远端背侧移位骨折患者按1:1随机分组[26,27]。试验采用了患者腕部评价(PRWE;Scale 0 - 100,其中100分为最差分)在术后12个月(12m)时评分对参与者进行评估,在3个月和6个月时进行早期评估。本研究的主要结果是,12个月时各组间PRWE评分无统计学差异;Wire组的平均分为15.3 (\ (N0_ {12 m} = 211 \))和in the Plate group 13.9 (\ (N1_ {12 m} = 204 \)),差异为1.4 (95%CI;\ \ (-1.8)4.5)。

WOLLF

开放性下肢骨折的伤口管理(wolf)试验是在英国重大创伤网络进行的多中心随机试验,招募\ \ (N = 460)2012年7月至2015年12月发生严重下肢开放性骨折的患者[28,29]。参与者按1:1的比例随机接受负压创面治疗(NPWT)或标准创面管理(standard)。该研究的主要结果是12个月(12m)时的残疾评级指数(DRI)评分(范围,0 =无残疾到100 =完全残疾),在3、6和9个月时测量早期结果。该研究的主要结果是,12个月时组间DRI评分无统计学差异;NPWT组的平均得分为45.5 (\ (N1_ {12 m} = 179 \)),标准穿衣组42.4 (\ (N0_ {12 m} = 195 \)),差异为\ \ (-3.1)(95%可信区间;\ \ (-8.5)2.2)。

时尚

髋关节撞击的关节镜手术与最佳保守治疗试验(FASHION)的全英国随机对照试验是一项务实的、多中心的随机对照试验招募\ \ (N = 348)2012年7月至2016年7月间,患有股骨髋臼撞击综合征的成年患者,按1:1的比例随机分配接受髋关节镜手术(surgery)或个体化髋关节治疗(PHT),并于6个月和12个月随访[30.,31,32]。主要结局是患者报告的国际髋关节结局工具(iHOT-33;在随机化后12个月,评分0到100,100代表无疼痛和功能完美),在6个月评估早期结果。该研究的主要结果是,12个月时组间iHOT-33评分有统计学上的显著差异;手术组的平均分为58.8 (\ (N1_ {12 m} = 158 \)), PHT组49.7 (\ (N0_ {12 m} = 163 \)),差异为9.1 (95%CI;3.3到14.9)。

CSAW

Can肩关节镜工作(CSAW)试验是一个三臂试验,但我们在这里只讨论主要的治疗比较。CSAW随机对照试验(RCT)\ \ (N = 210)2012年9月至2015年6月,对受试者(1:1)进行关节镜肩峰下减压(ASAD)或专家再评估主动监测(AMSR;不进行手术治疗),并使用牛津肩部评分(OSS;在随机化后6个月使用0到48分,0分为最差分)来评估结果[33,34]。在随机化后12个月也对OSS进行了评估,但在6个月主要终点之前没有对OSS进行早期评估。该研究的主要结果是,6个月时组间OSS在统计学(或临床)上没有显著差异;ASAD组的平均得分为32.7 (\ (N1_{6米}= 90 \)), AMSR组29.4 (\ (N0_{6米}= 90 \)),差异为3.3 (95%CI;\ \ (-0.2)6.8)。

FIXDT

胫骨远端骨折固定(FIXDT)试验招募\ \ (N = 321)2013年4月至2016年4月期间的患者,并比较了胫骨远端移位骨折成人患者的髓内钉固定(nail)和锁定钢板固定(plate) [35,36]使用残疾评定指数(DRI;范围0到100,其中100为完全残疾)在6个月(6m)时,在3个月(3m)时测量早期结果,在12个月时评估长期结果。本研究的主要结果是,在6个月时,组间DRI评分无统计学差异;Nail组的平均得分为29.8 (\ (N1_{6米}= 142 \))和Plate组33.8 (\ (N0_{6米}= 140 \)),差异为\ \ (-4.0)(95%可信区间;\ \ (-9.6)1.6)。

TOPKAT

全膝关节置换或部分膝关节置换试验(TOPKAT)随机化\ \ (N = 528)2010年1月至2013年9月的受试者(以1:1为基础),并使用牛津膝关节评分(OKS;随机化后5年(5y)评分0到48,0分为最差分),2个月(2m)评估早期结果,1年、2年、3年和4年每年评估一次[37,38]。本研究的主要结果是,5岁时各组间OKS无统计学差异;TKR组的平均分为37.0 (\ (N0_ {5 y} = 231 \))和PKR组38.0 (\ (N1_ {5 y} = 233 \)),差异为1.0 (95%CI;\ \ (-0.4)2.5)。

自适应组序贯设计

概述

本研究评估了这里描述的rct,这些rct最初是使用传统的固定样本量设计来实现的,如果使用了适应性(组序贯)试验设计,是否会提前停止。为了本研究的目的,所有选定的rct都有两个治疗组(其中一个名义上指定为对照或标准治疗),将参与者按1:1的比例随机分配到治疗组,并报告单一的主要结果,并对试验结果指标进行一个或多个评估(例如3和6个月或1、2、3、4和5年的结果)。为了评估试验是否会提前停止,数据积累的时间序列被复制在完全在最初的试验中使用的日期(可从最初的试验数据库中获得),当每个结果测量。使用原始试验数据,以及计划的中期分析数量和停止边界的选定选项,我们将使用Parsons等人描述的自适应双臂临床试验的方法方法,模拟每项研究可能如何进展,该自适应双臂临床试验使用早期终点为决策提供信息;该方法在附加文件中有详细描述[参见附加文件]2]。本文采用的方法,利用来自近期试验的可用数据,对备选(适应性)设计的效用进行回顾性评估,在精神上与其他一些研究相似;参见例如[39)(第7章)。

为了模拟自适应试验的单个实例,实施了以下程序:(i)我们决定了我们希望进行的临时分析的数量、停止概率和触发临时分析所需的信息级别;(ii)使用预先指定的alpha-spend函数,使用这些设置来确定测试统计数据的上下限停止边界;(iii)使用从原始试验中观察到的数据积累顺序,使用来自原始试验的数据用于模拟新的自适应设计中的信息积累;(iv)当达到一个信息阈值时,使用从最终(主要)端点和所有早期端点的所有可用信息计算一个检验统计量;(v)将测试统计量与边界进行比较,并从这一过程中做出停止的决定;(vi)如果决定继续,则累积更多信息,并执行任何额外的中期分析,直到最终计划的中期分析。

治疗效果评估

这里讨论的所有rct的主要目的是估计试验治疗对最终(最终)终点时间的研究结果的影响t(主要研究终点),我们以后称之为\(β_ {t} \ \)。在最简单的情况下,主要结果是按时间来衡量的t只有和这些数据单独告知治疗效果的估计\(β_ {t} \ \)。然而,如果早期结果(有时之前t)是可用的,那么它们可以提供关于最终结果的信息,因为每个参与者的早期结果和最终结果之间的相关性。强相关性(ρ\ (\ \))之间,例如,3个月和6个月的结果表明,3个月的好(或差)结果将指示6个月的好(或差)结果。因此,将纵向模型与数据的时间过程拟合,使人们能够利用这些早期信息,通过提高估计的精度,改善对治疗效果的估计\(β_ {t} \ \);在之前讨论过的自适应设计背景下的决策策略[10,12,13,14]。需要明确的是,在这个模型中,治疗效果对于早期结果本身不为最终试验结果提供治疗效果的信息\(β_ {t} \ \)。此处用于估计效应量的符号(\(β_ {t} \ \))反映了这样一个事实,即从拟合纵向线性模型到结果数据的总体进行估计。估算的方法\(β_ {t} \ \)\ \(文本{var}(\β_ {t}) \)和R中的示例代码,使用随访(FU)期间任何时间点的所有可用数据,在附加文件中提供[参见附加文件]2]。测试数据\(Z =\beta _{t}/\mathrm {sd}(\beta _{t})\)用于在中期分析中使用协方差参数(即结果之间的相关性ρ\ (\ \)以及结果的标准差σ\ (\ \)).中期分析在预先设定的(预期的)信息阈值处触发,在招聘和跟踪过程中观察到的信息由文本\ (I = 1 / \ {var}(\β_ {t}) \)。此外,作为一种评估早期结果数据在修改估计中的重要性的手段\(Z = \beta _{t}/\mathrm {sd}(\beta _{t})\),进行了一项强制所有相关性为零的分析;即,只使用最终结果数据的分析。我们将这些参数指定为,它们显示了仅使用最终结果数据的治疗效果证据\ \(β0 _ {t} \){var} \(\文本(\β0 _ {t}) \),\(Z0=\beta 0_{t}/\mathrm {sd}(\beta 0_{t})\)文本\ (I0 = 1 / \ {var}(\β0 _ {t}) \)

估计\(β_ {t} \ \)可以在每一个分析中获得。在试验结束时的最终分析中,如果所有参与者都能获得完整的后续数据,那么\ \(β0 _ {t} \){var} \(\文本(\β0 _ {t}) \)将等于\(β_ {t} \ \)\ \(文本{var}(\β_ {t}) \)。然而,本研究中的所有rct都有一些缺失的数据,比如有一些参与者没有提供最终结果,但有一个或多个早期结果。如果这些早期结果与最终结果相关,那么它们将提供一些关于最终结果的信息,并导致对治疗效果的估计\(β_ {t} \ \)与…有些不同\ \(β0 _ {t} \),也导致前者的方差小于后者。如果我们报告的是一项传统的前瞻性计划和实施的组序贯试验,而不是模拟这里报告了回顾性试验,那么我们通常需要调整由于中期分析而产生的潜在偏差的影响估计;例如,使用Todd的方法[40]。然而,在这里,我们纯粹关注未经调整的效果估计和停止决策,主要是为了说明的简单性,因为它排除了对每个试验的边界的每个不同设置进行调整的需要。

临时的分析

每个随机试验的可行中期分析的数量在很大程度上是由预期每个随机对照试验的招募模式和数据积累。中期分析需要在机会之窗开始的时候有足够的数据以便进行合理的分析,结束的时候有足够的数据以便完成招聘。在后一个时间点之后,停止研究没有任何好处,因为按照惯例,所有被招募到试验中的参与者都应该完成随访。在为适应性设计模拟数据积累之前,通过考虑可能的机会窗口宽度来确定每个RCT可能的中期分析的数量,而机会窗口的宽度本身是由可能的招募和随访模式决定的。在可能的情况下,我们努力只使用试验设计人员在最初阶段所能获得的信息,当时需要对可能的分析数量做出决定。我们就这些问题咨询了所有选定试验的首席统计学家,并从他们和所有试验公布的方案中获得的知识被用于为每个随机对照试验的设计提供信息。每个RCT的原始样本固定设计尺寸计算的细节可以在附加文件中找到[见附加文件]2]。显然,如果所选rct被前瞻性地规划为适应性设计,那么就会对样本量进行一些调整,以将功率维持在所需的水平。在本研究中,我们没有试图增加样本量以维持功率,而是只关注中期分析时的停止决策。

边界和信息监控

考虑到需要在机会窗口期进行中期分析所带来的实际限制,除了最终分析外,我们将本研究限制在任何试验中最多三次中期分析。本研究的主要重点是评估群体顺序设计是否以及在何种情况下可能导致所选试验提前停止。与制药行业不同的是,在实用的公共资助试验中测试的许多复杂干预措施(如手术或物理疗法)是获得使用许可的,无需提供在实践中使用所需的关于疗效的信息[41]。在工业上经常应用的自适应设计方法,在大多数情况下没有在公共资助的试验中使用[42,这一事实在很大程度上为选择这里所描述的试验提供了动机。它们都是由政府资助的复杂干预措施试验,通常在困难的环境中纳入卫生经济分析,许多人认为存在后勤和实际问题,使适应性试验变得困难或几乎不可能。我们不同意这一观点,而是认为,对于所有选定的试验来说,使用对新出现数据的早期观察来评估停止的研究设计是完全可能的,也是很好的选择。在公共资助的试验中,早期的无用性评估有可能提高效率、拯救患者和降低成本,许多试验学家和统计学家建议,在可能的情况下,研究人员应致力于在此类试验的设计中包括无用性分析[41]。基于这些原因,以及获得更有启发性的结果的可能性,我们选择在工作中主要关注徒劳的停止。如果我们选择了一种非常不同类型的试验(即测试简单干预),那么我们可能会把更多的注意力放在有效停止上。我们选择采用之前建议的一系列无效边界[10];我们标记为(a-d)。这些是通过在多达三个中期分析的设置下的停止概率来定义的,这些分析代表了四个日益激进的选项序列,从为徒劳而停止的低概率(标记为(a))到高概率(标记为(d), (b)和(c)中间为(a)和(c)。表格2显示停止和拒绝零假设(H0)的概率,支持备选(\ \(α^{*}_{你}\);功效),停止而不排斥H0的概率(\ \(α^ {*}_ {l} \);无效),对于一个、两个和三个临时分析的四个设置(a-d),在零假设下,两个治疗组之间没有差异。来自表的停止概率2用于为每个试验的每个计划中期分析的标准化测试统计数据构建适当的边界。这要求我们基于我们认为试验团队在开始招募之前可能想到的东西,对(i)可能的中期分析的数量,(ii)预期的标准差(\ \(σ^ {*}_ {t} \))和相关性(\ \(ρ^ {*}_ {s t} \))早期和最终终点之间的数据,以及(iii)在每个中期分析中可能已经可用的数据点的数量;我们使用\ \ (*)以后用来区分期望值与观测值的符号。值\ \(σ^ {*}\)取自已发表的试验方案中报告的原始(固定设计)样本量计算。而\ \(ρ^ {*}_ {s t} \),它们通常是未知的,被任意设置为所有结果对为\ \(ρ^ {*}_ {s, s ^ {\ '}} = 0.5 \),以反映中等到强关联的预期。在现实中,如果试验是预先计划的使用组序贯设计,更现实的估计\ \(ρ^ {*}_ {s t} \)本应用于(例如,从历史或试点数据)确定停止边界。协方差参数的期望值用于计算触发每个中期分析所需的预期信息(\ (^ {*} \)),单独加上Table的设置2,允许我们为最多三个临时分析的设置(a-d)定义观察到的测试统计数据的停止边界;进一步的细节可以在附加文件中找到[参见附加文件]2]。

表2无效和有效性停止的4个测试设置(a-d),在原假设下,累积概率,\ \(α^ {*}_ {l} \)\ \(α^{*}_{你}\)用于一、二、三次中期分析

实现

对于每一个选定的rct,使用观察到的招募来模拟数据,这样它们就代表了数据实时积累的顺序(即数据在原始试验中积累的顺序)。在获得足够的数据来估计累积的信息之后,开始进行信息监测,并定期(每两周)继续进行,以反映如果实施了适应性设计,在试验中可能会发生什么。一旦达到触发中期分析所需的信息水平,就计算测试统计量,并与停止边界进行比较。关于是否模拟通过将每个中期分析的估计测试统计数据与四种情景(a)到(d)的停止边界进行比较,得出了可能因有效性或无效而停止的组序试验。作为比较,对于停止的试验,在中期分析时,在该点之前招募的所有研究参与者的数据被用于估计超越分析中的模型参数[43,44];这个分析包含了所有的数据(完全随访),这些数据最终会积累在那些已经招募的参与者身上。这个数据收集和决策的过程将继续进行,用于后续的中期分析或直到数据积累完成。这种模拟的数据监测和分析过程与最近报道的START: react研究中所进行的过程完全相同[9],这被证明对研究统计学家(负责监督日常信息监测)和试验团队工作良好且有效。

结果

招聘累积曲线、停止的机会窗口(阴影部分)、计划的数量和临时分析的场合都以示意图的形式显示出来模拟图中的群序贯试验。1。对每项结果的详细描述。模拟group-sequential trial在附加文件中提供[参见附加文件。1];对于七个选定的rct中的每一个,本文件显示了停止上限和下限边界的计算和论证,提供早期和最终结果数据的参与者数量,治疗组均值和治疗效果的估计,检验统计数据,在超越时的每个中期分析的相关性和方差。研究的进展模拟图中总结了组序贯试验。2其中显示了所有设置的停止边界(a-d),以及每个RCT的测试统计数据,表明了跨越边界的位置。来自模型拟合的最重要的结果也列在这里的表中3.,45;这些分别显示了对每个试验的每个中期分析的治疗效果和测试统计、相关性和标准差以及参与者数量和进展(以月为单位)的估计。每个试验的结果依次总结如下。

表3对治疗效果的估计(\(β_ {t} \ \)\ \(β0 _ {t} \))的主要结果t,测试统计数据(ZZ0)和信息积累(),在每个中期分析和研究结束时,对于每个RCT;在哪里\(Z=\beta _{t}/\mathrm {sd}(\beta _{t})\),\(Z0=\beta 0_{t}/\mathrm {sd}(\beta 0_{t})\)文本\ (I = 1 / \ {var}(\β_ {t}) \)文本\ (I0 = 1 / \ {var}(\β0 _ {t}) \)。主要结局时间点t和预期信息\ (^ {*} \),以触发每个中期分析,为每个RCT显示
表4对早期和初级结果之间相关性的估计(\ \(ρ_ {s t} \))和标准差(σ\ (\ \)),在每个中期分析和研究结束时,对于每个RCT;预期的相关性为\ \(ρ^ {*}_ {s, s ^ {\ '}} = 0.5 \)所有rct的所有对结果和主要结果时间点t期望标准差(\ \(σ^ {*}_ {t} \))显示了每个随机对照试验
表5参与人数(N)和试验招募的进展(参与者总数和招募月数),在每次中期分析和研究结束时,针对每个随机对照试验;主要结果时间点t以及每个随机对照试验的随访时间点(FU)
图1
图1

每项随机试验的招募和随访进展。该示意图显示了2007年至2019年期间的水平时间序列,显示了招募应计曲线、总招募人数、主要终点和所有终点的彩色编码随访应计曲线、停止的机会窗口(阴影部分)和每个随机对照试验的中期分析计划时间。每个RCT的垂直位置仅用于表示目的,并不表示对试验进行有任何重要意义的特征

图2
图2

每个RCT的停止边界和检验统计。对于四个选定的设置(a-d),每个都显示了停止边界,以及测试统计信息(ZZ0)在每个RCT的每个中期分析和试验结束时

一个单一的中期分析计划模拟group-sequential窟审判。对于所测试的所有四个边界设置,WAT研究不会止步于中期分析,当数据可从\ (N_ {12 m} = 10 \)1200万结果的参与者,\ (N_{6米}= 29 \)6米的结果,43 \ \ (N_ {3 m} =)300万成果w \ (N_ {6} = 49 \)6 w的结果。在这个中期分析中\ \ (N = 75)参与者已经被招募到研究中,随访将在17个月后完成;相比之下,\ \ (N = 126)最初的研究持续了48个月。主要结果的预期标准差(\ \(σ^ {*}_ {12 m} = 9 \)),用于原始样本量计算,并用于构建组序贯设计,远大于中期分析时的观测值(\ \(σ_ {12 m} = 5.6 \)).这导致中期分析的时间比计划的要早得多(也就是说,1200万结果的参与者比预期的要少;\ (N_ {12 m} = 10 \)而不是预期的\ (N ^ {*} _ {12 m} = 40 \)).然而,考虑到在最初的研究中观察到的小但不具有临床意义的结果,任何合理的停止规则似乎都不太可能导致WAT研究提前停止。

DRAFFT

一个单一的中期分析计划模拟group-sequential DRAFFT审判。对于所测试的所有四种边界设置,当数据可获得时,DRAFFT研究不会止步于中期分析\ (N_ {12 m} = 26 \)1200万结果的参与者,以及\ (N_{6米}= 135 \)6m个结果和\ (N_ {3 m} = 205 \)与3 m公司的结果。在这个中期分析中\ \ (N = 294)参与者已经被招募到研究中,随访将在15个月内完成;相比之下,\ \ (N = 461)原始研究为34个月。主要结果的预期标准差(\ \(σ^ {*}_ {12 m} = 20 \)),在原始样本量计算中使用,并用于构建组序贯设计,大于观测值(\ (\ sigma_ {12 m} = 13.5 \)).再加上高于预期的相关性(\ \(ρ_ {3 m, 12 m} = 0.78 \)\ \(ρ_{6米、12米}= 0.72 \);出口的。\ \(ρ^ {*}_ {s t} = 0.5 \)),导致中期分析发生的时间比计划的要早得多(即参与者比预期的少,结果为1200万;\ (N_ {12 m} = 26 \)而不是计划中的\ (N ^ {*} _ {12 m} = 100 \)).最初的DRAFFT研究招募的速度比预期的要快得多,样本量从\ \ (N = 390)\ \ (N = 461)。这使得对治疗效果的估计更加精确,这对于推论,特别是卫生经济学分析非常重要[45]。

WOLLF

计划了三个中期分析模拟group-sequential WOLLF审判。对于测试的四个边界设置中的三个(a-d), wolf研究将会因为无效而停止,这一结果与最初的研究一致,在第二次中期分析时,数据可从\ (N_ {12 m} = 74 \)1200万结果的参与者,\ (N_{9米}= 85 \)9米,\ (N_{6米}= 136 \)6米和\ (N_ {3 m} = 188 \)与3 m公司的结果。在这个中期分析中\ \ (N = 293)参与者被招募到研究中,后续研究将在27个月内完成;相比之下,\ \ (N = 460)原研究50个月。估计的治疗效果(\ \(β_ {12 m} \)第二次中期分析的12m DRI结果为-2.8 (95%CI;-11.4到5.9)有利于对照处理(和-3.5对于超越分析);在原始(固定设计)研究中,试验结束时对治疗效果的估计为-3.1 (95%CI;-8.5到2.2)。在研究本应停止的第二次中期分析中,来自模型的估计治疗效果为-2.8(有利于对照组),而仅使用1200万数据的组间原始差异(\ \(β0 _ {12 m} \)的概率为4.1(支持NPWT)。DRI的早期预后(3m, 6m和9m)和主要预后(12m)之间具有极强的相关性(\ \(ρ_ {3 m, 12 m} = 0.58 \),\ \(ρ_{6米、12米}= 0.78 \)\ \(ρ_{9米、12米}= 0.89 \);出口的。\ \(ρ^ {*}_ {s t} = 0.5 \)),这意味着在使用所有数据的基于建模方法的中期分析推断中,对试验治疗效果的真实终点的估计要比主要结果(1200万)group均值的简单差异好得多。强于预期的相关性也意味着中期分析通常比预期发生得更早。也就是说,在每次中期分析中,观察到的提供300万、600万、900万和1200万结果数据的参与者数量少于预期数量。

时尚

计划进行两项中期分析模拟group-sequential时尚审判。FASHION的招募和后续档案是不寻常的(见图。1),反映了分阶段进行研究的方法,即在少数地点进行初步可行性/试验阶段,然后随着更多地点的开放而加快招募。这导致中期分析中从早期结果中获得的益处相对较少;例如,在第一次中期分析中,可获得1200万数据\ (N_ {12 m} = 62 \)参与者和600万数据来自\ (N_{6米}= 86 \)参与者。在测试的四种边界设置中,FASHION试验不会止步于无效或有效性的临时分析。尽管在第二次中期分析中,从估计的治疗效果来看,出现了新的证据,表明手术治疗可能有利。然而,这一分析发生在招募接近尾声时,因此这么晚停止的好处会很小。第二次中期分析较晚的原因是12m结果的标准差大于预期值;\ \(σ_ {12 m} \大约27 \)而不是\ \(σ^ {*}_ {12 m} = 20 \)

CSAW

计划进行两项中期分析模拟group-sequential CSAW审判。对于测试的所有四个边界设置,CSAW研究不会止步于中期分析,当数据可从\ (N_{6米}= 79 \)\ (N_{6米}= 137 \)6m成果的参与者;没有CSAW的早期结果。在这些中期分析中\ \ (N = 142)\ \ (N = 195)参与者被招募到研究中,随访将分别在21个月和28个月完成;相比之下,\ \ (N = 210)和最初研究的39个月。主要结果的预期标准差(\ \(σ^{*}_{6米}= 9 \)),在原始样本量计算中使用,并用于构建群序贯设计,小于观测值(\ \(σ_{6米}= 12 \))在中期分析。这导致中期分析发生的时间远远晚于计划(也就是说,参与者的数量比预期的多,结果达到600万;\ (N_{6米}= 79 \)\ (N_{6米}= 137 \)而不是预期的\ (N ^{*} _{6米}= 40 \)\ (N ^{*} _{6米}= 80 \)).考虑到在最初的研究中观察到的小但不具有临床意义的结果,似乎不太可能有任何合理的停止规则会导致CSAW研究因疗效而提前停止,除非可能有一些早期结果数据(例如3m)可用。

FIXDT

计划进行两项中期分析模拟group-sequential FIXDT审判。对于测试的四种边界设置中的三种,在第二次中期分析时,当数据可获得时,FIXDT研究将因无效而停止,这一结果与原始研究一致\ (N_{6米}= 146 \)600万结果的参与者,和\ (N_ {3 m} = 178 \)与3 m公司的结果。在这个中期分析中\ \ (N = 243)参与者被招募到研究中,后续研究将在27个月内完成;相比之下,\ \ (N = 321)原始研究历时42个月。估计的治疗效果(\ \(β_{6米}\)),第二次中期分析的6m DRI结果为-2.8 (95%CI;-10.1至4.4)有利于对照处理(超越分析为-6.2);在原始(固定设计)研究中,对治疗效果的估计为-4.0 (95%CI;-9.6到1.6)。在研究停止后的第二次中期分析中,估计的治疗效果为-2.8(倾向于Nail),组间的原始差异为-0.5(倾向于Nail)。DRI的早期结局(3m)和主要结局(6m)之间有很强的相关性(\ \(ρ_{3米、6米}= 0.65 \)).主要结果的预期标准差(\ \(σ^{*}_{6米}= 20 \))用于原始样本量计算,并用于构建群体顺序设计,明显低估了真实值(\ \(σ_{6米}= 24 \)).这导致研究的动力不足,中期分析的时间比计划的晚(即参与者比预期的多)。

TOPKAT

数字1显示了TOPKAT在2个月、1年、2年、3年、4年和5年期间招募和随访的观察到的参与者数量。TOPKAT的招募工作于2013年6月完成,直到2015年3月才获得第一个5年(主要)结果数据。因此,在一些5年的最终结果数据可用和招募完成之间的机会窗口是不存在的,因此我们在这里调查的方法,即基于招募完成之前使用最终结果数据来评估试验可能提前停止的方法,不能被使用。

讨论

概述

对于这里讨论的5个选定的外科试验(wolf, FIXDT, drawfft, FASHION和WAT), Parsons等人的方法[10],该方法使用早期结果数据和最终结果数据,在中期分析时通知停止决策,被证明是可行的。这五项研究描述的所有假定的组序列设计仅使用了在研究设计和规划阶段已知(或认为已知)或可以合理推测的信息(例如患者数据的数量和模式)。这里描述的设计没有有意使用来自观察到的试验出版物或数据的任何信息。因此,我们认为模拟组序序试验的结果(使用了观测数据和每次试验收集数据时的已知日期)是对设计是否可能、试验是否会提前停止以及如果是的话,其结果是否会与从原始(固定)设计中获得的结果一致的真正测试。CSAW和TOPKAT研究与这里讨论的其他试验在两个关键方面有所不同,这两个关键方面使得此处讨论的类型的适应性设计不可能实现,CSAW缺乏早期结果数据,TOPKAT缺乏机会窗口。基于这些原因,这两个试验在其他五个研究之后进行讨论。

wolf, FIXDT, DRAFFT, FASHION和WAT

依次观察这五个试验,wolf研究在第二次中期分析时就已经提前停止了四种测试边界设置中的三种,当时已经招募了293名参与者加入研究(原始试验中为460名),随访将在27个月后完成(原始研究中为50个月)。停止的研究的推论将与原始研究非常相似;分析给出的治疗效果的估计值等于\ \ (-2.8)(95%可信区间;\ \ (-11.4)到5.9)(有利于对照组),而在原始(固定设计)研究中,治疗效果估计为\ \ (-3.1)(95%可信区间;\ \ (-8.5)2.2)。此外,wolf中特别值得注意的是,DRI的早期结果(3m、6m和9m)与主要结果(12m)之间存在极强的相关性。这种强相关性之所以重要,有两个原因。首先,他们允许使用所有数据的建模方法,对试验治疗效果的真实终点给出更好(更精确)的估计,而不是简单的1200万结果的组间平均差异。其次,比预期更强的相关性也意味着,信息积累迅速,导致中期分析发生的时间比仅根据1200万结果的参与者数量可能预期的要早。在研究停止时的第二次中期分析中,根据模型估计的治疗效果为\ \ (-2.8)(有利于控制)。与之形成鲜明对比的是,仅使用1200万数据的组之间的原始差异为4.1(相反,支持NPWT)。正如我们上面所指出的,强相关性意味着模型估计比1200万结果的组间简单差异更好地估计了真正的治疗效果。然而,值得考虑的是,如果这是真实试验中的情况,这可能会如何发挥作用。试验数据监测和安全委员会(DSMC)是否对模型估计有信心,在仅1200万份数据的均值差异就强烈倾向于NPWT的情况下,因无效而停止研究?FIXDT试验的总体设计与wolf试验相似,因为它与wolf试验同时进行,并由同一个研究团队设计。对于wolf,对于测试的四个边界设置中的三个,FIXDT研究将在第二次中期分析时停止,当时招募了243名参与者(原始研究中的c.f. 321),随访将在27个月后完成(原始研究中的c.f. 42个月)。因此,对于wolf,如果采用了适应性设计,将会在时间和成本上有相当大的节省。停止研究中FIXDT的治疗估计为\ \ (-2.8)(95%可信区间;\ \ (-10.1)至4.4)倾向于对照(Nail)治疗,在原始(固定设计)研究中对治疗效果的估计是\ \ (-4.0)(95%可信区间;\ \ (-9.6)1.6)。主要结果标准差的期望值(\ \(σ^{*}_{6米}= 20 \))用于原始样本量计算,并用于构建组-顺序设计,因为FIXDT明显低估了真实值(\ \(σ^{*}_{6米}= 24 \)).这导致最初的研究动力不足,中期分析的时间也比计划的晚。也就是说,当参与者比预期的多(146对100)时,结果数据为600万。wolf和FIXDT都在最初的研究中报告了有利于对照治疗的结果;FIXDT的髓内钉固定和wolf的标准敷料。我们设计的边界反映出,如果缺乏新的证据支持比较试验治疗(分别为锁定钢板固定和NPWT)的更好结果,我们希望停止徒劳。在已报道的健康经济分析中,与髓内钉固定和标准敷料相比,锁定钢板固定和NPWT都不太可能具有成本效益[46,47]。与wolf和FIXDT相比,draft试验在整个研究过程中提供的治疗效果倾向于略微倾向于试验(锁定钢板)治疗而不是对照(钢丝固定)治疗。因此,考虑到边界的不对称性,对于模拟研究中测试的四种边界设置中的任何一种,DRAFFT试验不会在中期分析时停止,这也许并不令人惊讶。DRAFFT主要结果标准差的估计(\ \(σ_ {12 m} \)),用于原始样本量计算和构建组序贯设计,它比预期的要小得多(13.5对20)。这导致中期分析比计划的要早得多,因为参与者的数量比预期的少得多,结果为1200万;26个而不是预期的100个。比预期更强的相关性也在一定程度上促成了早期中期分析,此外,由于冬季恶劣天气导致的招募人数激增,导致跌倒导致桡骨远端骨折的人数激增,这也导致了drfft的迅速招募。然而,考虑到钢板干预的持续积极治疗效果,对协方差参数或边界变化(在合理范围内)的更好估计似乎不太可能导致研究因无效而提前停止。FASHION研究的招募情况与其他试验截然不同,这是因为采用的是分阶段方法,即在少量站点进行初步可行性/试点阶段,然后随着站点的开放进行更快速的招募。这导致除了最终的1200万结果所提供的收益外,早期结果(600万)的收益相对较少。在测试的四种边界设置中,FASHION研究不会止步于无效或有效性的中期分析。这两个中期分析都提供了有利于手术干预的证据,但测试统计数据的量级不足以导致试验停止。虽然,在完成第二次中期分析(超越分析)的随访后,估计的治疗效果与原始研究的结果一致,原始研究报告了有利于手术干预的阳性结果。 The lack of stopping (for efficacy) for FASHION is in large part due to the asymmetric selection of boundaries that made it relatively hard to stop for efficacy. The boundaries used here reflect the view, that we suspect is widespread amongst T&O trialists, that much stronger evidence is required to cause a trial to stop for efficacy than futility. Many T&O clinicians believe that if there is emerging evidence for efficacy then a trial should complete recruitment to target in order to provide a precise estimate of the treatment effect and capture as much safety information as possible (e.g. adverse events). Given the relatively small sample size and the small (clinically unimportant) result observed in the original WAT trial, it seems unlikely that any sensible stopping rule would have caused the study to stop early. For all four boundary settings tested, the WAT study would not have stopped at the interim analysis.

CSAW和TOPKAT

对于CSAW和TOPKAT试验,不可能使用Parsons等人的方法。[10]直接而言,对于前一项研究,没有可用的早期结果数据,而对于后一项研究,在招募完成之前没有可用的最终结果数据。因此,对于TOPKAT,我们没有继续基于治疗效果对最终结果的早期评估来模拟适应性研究。对于CSAW,尽管没有获得早期结果数据,但我们确实模拟了研究如何通过仅基于最终结果数据的分组顺序设计进行。对于这里检查的其他试验,这将相当于使用测试统计数据Z0,而不是Z,以作出停止的决定。使用这种方法,模拟研究中没有证据表明适应性设计会导致CSAW提前停止。

结论

这里报道的五项研究(wolf, FIXDT, draft, FASHION和WAT)的结果表明,使用早期结果数据的适应性设计是可行的,很可能提供的设计至少与原来的固定样本量设计一样高效,甚至可能更高效。对于wolf和FIXDT,模拟结果显示,这些研究极有可能(正确地)因无效而提前停止,从而节省潜在的相当大的努力和资源。wolf特别展示了早期结果数据尤其可以发挥的重要作用,因为单纯基于最终结果数据的分析将意味着不太可能停止(任何原因)。这里选择的边界倾向于为徒劳而停止,代价是不太可能为疗效而停止,除非有非常有力的证据可用。出于这个原因,在支持试验治疗的中期分析(WAT和DRAFFT)中显示中等效果估计的两项研究并没有早期停止。这与这些研究的最终结果是一致的。FASHION试验在最终分析中显示了有利于试验手术干预的良好证据,但未能止步于中期分析。在这项研究中,有可能选择不同的,但合理的边界,从而导致早期停止疗效。对于所有的研究,使用帕森斯等人提出的方法的可行性和实用性是很清楚的。[10]在很大程度上取决于(i)停止的机会窗口的宽度,(ii)早期结果数据的可用性及其与最终结果的相关性,(iii)招聘和结果数据随访(FU)应计数据概况,以及(iv)设计规划阶段可用的协方差参数估计的准确性。我们在此强调的三个问题中的第一个在所有试验中都是显而易见的。如果在中期分析中,最终结果数据很少或没有,早期结果数据很少或没有,或与最终结果不相关,那么早期停药的决策是完全不可能的。数据积累和随访的模式是所使用方法可行性的重要决定因素。然而,还需要做更多的工作来充分理解不同的招聘和FU方法对方法的广泛适用性的影响。例如,在试验的某些阶段限制或增加征聘(例如推迟或提前启动新的征聘中心)似乎可能在某些情况下是有益的。还有一点很清楚,在一些试验中,进行中期分析的时间比预期的要早得多或晚得多。这在很大程度上是由于在初始规划中使用的协方差估计的估计与观测值明显不同。例如,如果结果之间的相关性比预期的更强,方差更小,那么中期分析就会比预期的更早进行。这本身并不一定是有问题的,因为我们是基于信息而不是纯粹的样本量考虑故意激励停止的。 However, in instances where interim analyses occurred particularly early (e.g. in the DRAFFT study an interim analysis occurred when there were final outcome data from 26 participants rather than the expected 100), it is likely that in practice it would have been difficult for the DSMC, trial management group and trial steering committees (TMG & TSC) to make and confirm stopping decisions and justify these to the funding body based on so few data. In practice, either minimum sample sizes might have to be pre-specified or interim analyses plans be modified as the study proceeds (e,g, by using blinded re-estimation of the covariance parameters as data accumulates to update the trial plans). In many of the trials, correlations between outcomes were much stronger than expected (e.g.\ \ (> 0.7)).如果早期和最终结果之间存在如此强的相关性,那么也可能是治疗效果估计之间存在很强的相关性(例如,6个月时早期结果的治疗效果与12个月时主要结果的治疗效果大致相同)。如果是这样的话,那么可以说我们可能想要考虑使用6个月的结果作为主要结果。如果是这种情况,那么这将是一个更简单的策略,以缩短试验和节省成本。显然,对于许多试验的标准差期望值(\ \(σ^ {*}_ {t} \))与观测值有很大不同,这导致中期分析发生的时间比计划的稍早或稍晚。在实践中,为了实现这里描述的方法,理想情况下,我们希望对\(σ_ {t} \ \)在策划阶段。然而,我们并不认为这是分组顺序设计所特有的问题\(σ_ {t} \ \)会对传统的(固定的)设计产生同样有害的影响(例如,功率计算的样本量)。由于我们描述的方法是基于使用alpha花费函数方法来控制第I类错误率[11,20.],中期分析的时间是有灵活性的,尽管在我们的研究中我们没有利用这个选项。偏离计划的中期分析时间将对试验功率产生影响。在更传统的设置(只有单一的主要结果)中,alpha花费函数方法是如此,但尚未在此设置中进行评估。我们计划在未来的模拟工作中探索这一点以及围绕中期分析和后续工作的时间安排的其他一些问题。超期分析的结果使用了试验中招募的所有参与者的完整随访数据,在推论(即定性)方面,与仅使用中期分析中可用数据的分析的结果一般没有太大差异。在一些研究中,完成随访的额外时间可能长达一年(如wolf、draffft、FASHION、WAT)。虽然超量分析提高了治疗效果估计的准确性,但这应与以及时和合乎伦理的方式报告结果(以阻止患者接受可能有害或无效的治疗)的需要相平衡。因此,尽管我们承认需要完成对所有纳入研究的参与者的随访,但是否立即使用试验停止时可用的数据报告分析还是等待完成随访的决定将取决于试验,并应在开始前由所有利益攸关方达成一致。此外,当然,不仅要考虑潜在的好处,还要考虑提前停止试验的缺陷,这一点总是很重要的。例如,因为无效而提前停止一项研究,原则上会减少资源的使用和成本。 However, this benefit may be negligible (i.e. unimportant) in trial settings where recruitment sites remain open and patients remain on study treatments after the trial stops [48]。这里所描述的工作的重点主要是徒劳停止(例如选择四个备用徒劳边界)。这是由于所选例子的性质(反映了我们自己的利益),这些例子都是实用的公共资助的试验,测试获得许可的干预措施,但其他方面未经测试,其中由于缺乏有效性证据而导致的早期停止是主要利益所在。然而,如果做出了不同的例子试验选择,那么我们就可以很容易地提出类似的论点,使用相同的一般方法尽早停止疗效。

这项研究有许多局限性。在规划适应性设计时,我们尽可能地避免使用只有在试验数据可用后才知道的信息。例如,通过对公布的方案的差异进行估计,并在可能的情况下,使用试验团队的招募和后续策略的细节。然而,可能是所选试验的结果或知识无意识地影响了适应性设计(例如,中期分析的时间和数量)。我们使用“收集”结果数据的日期作为可以做出停止决定的时间的代理。然而,在实际试验中,将数据输入研究数据库并提取数据通常需要一些时间(例如,冻结和检查数据以备分析)。然后,这些数据需要被发送给试验统计员进行分析,分发给DSMC上的同事,以开会讨论结果,并向TMG/TSC提出建议,以最终做出决定。这通常需要一些时间——至少几周。我们在模拟研究中没有考虑到这些延迟,所以我们对自适应设计可能带来的节省(在时间和成本方面)的评估可能有些乐观。虽然,在现实中,如果使用自适应设计,这些任务中的许多都可以在一定程度上得到更好的规划、简化和自动化。

数据和材料的可用性

作为本研究一部分而编写的数据摘要和代码,可在合理要求下从通讯作者处获得。

缩写

电磁辐射:

(UK)疗效和机制评价方案

MRC:

(英国)医学研究理事会

NIHR:

(英国)国家健康研究所

开始:反应:

肩峰下间隔剂治疗肩袖肌腱撕裂:一项随机、有效、适应性的外科临床试验

窟:

沃里克关节成形术的审判

DRAFFT:

桡骨远端急性骨折固定试验

WOLLF:

开放性下肢骨折的伤口处理研究

时尚:

髋关节撞击关节镜手术与最佳保守治疗研究的全英国RCT

CSAW:

肩关节镜可以进行临床试验吗

FIXDT:

胫骨远端骨折固定试验

TOPKAT:

全膝关节或部分膝关节置换术试验

DRI:

残疾等级指数

PRWE:

患者腕部评估

oh:

牛津髋关节评分

操作系统:

牛津的肩膀得分

书:

牛津膝盖得分

iHOT-33:

国际髋关节结局工具

出发:

数据安全与监控委员会

TSC:

审判指导委员会

TMG:

审判管理集团

置信区间:

置信区间

傅:

后续

舞会:

Patient-reported结果

MCID:

最小临床重要差异

个随机对照试验:

随机对照试验

要:

创伤和整形外科

参考文献

  1. Ford I, Norrie J. Pragmatic Trials。N Engl J Med. 2016;375(5): 454-63。https://doi.org/10.1056/NEJMra1510059

    文章PubMed谷歌学者

  2. Patsopoulos NA。实用主义审判的实用主义观点。对话临床神经科学。2011;13(2):217-24。https://doi.org/10.31887/DCNS.2011.13.2/npatsopoulos

    文章PubMed公共医学中心谷歌学者

  3. blencwe NS, Brown JM, Cook JA, Metcalfe C, Morton DG, Nicholl J,等。外科随机对照试验的干预——试验设计时要考虑的问题。试验。2015;16:392。

    文章谷歌学者

  4. McCulloch P, Taylor I, Sasako M, Lovett B, Griffin D.手术中的随机试验:问题和可能的解决方案。BMJ。2002, 324(7351): 1448 - 51。https://doi.org/10.1136/bmj.324.7351.1448

    文章PubMed公共医学中心谷歌学者

  5. McCulloch P, Cook JA, Altman DG, Heneghan C, Diener MK.外科创新的理想框架1:想法和发展阶段。BMJ。2013; 346: f3012。https://doi.org/10.1136/bmj.f3012

    文章PubMed公共医学中心谷歌学者

  6. Ergina PL, Barkun JS, McCulloch P, Cook JA, Altman DG。外科创新的理想框架2:探索和评估阶段的观察性研究。BMJ。2013; 346: f3011。https://doi.org/10.1136/bmj.f3011

    文章PubMed公共医学中心谷歌学者

  7. Cook JA, McCulloch P, Blazeby JM, Beard DJ, Marinac-Dabic D, Sedrakyan A.外科创新的理想框架3:评估阶段的随机对照试验和长期研究阶段的评估。BMJ。2013; 346: f2820。https://doi.org/10.1136/bmj.f2820

    文章PubMed公共医学中心谷歌学者

  8. Vanderhout S, Fergusson DA, Cook JA, Taljaard M. ClinicalTrials.gov中实用随机试验中患者报告的结果和目标效应大小:横截面分析。《公共科学图书馆·医学。2022;(2):19 -。https://doi.org/10.1371/journal.pmed.1003896

    文章谷歌学者

  9. Metcalfe A, Parsons H, Parsons N, Brown J, Fox J, gtemple Mannion E等。肩峰下球囊间隔器治疗肩袖不可修复撕裂(START: react):一项组序贯、双盲、多中心随机对照试验。柳叶刀》。2022;399(10339):1954 - 63。https://doi.org/10.1016/s0140 - 6736 (22) 00652 - 3

    中科院文章PubMed谷歌学者

  10. Parsons N, Stallard N, Parsons H, Wells P, Underwood M, Mason J,等。利用早期终点为决策提供信息的自适应双臂临床试验:肩峰下间隔器修复肩袖肌腱撕裂的研究设计。试验。2019;20(1):694。https://doi.org/10.1186/s13063-019-3708-6

    文章PubMed公共医学中心谷歌学者

  11. 简尼森C, Turnbull BW。应用于临床试验的组序贯方法。博卡拉顿:查普曼和霍尔;2000.

    谷歌学者

  12. Galbraith S, Marschner IC.纵向结果的临床试验中连续长期终点的中期分析。统计地中海。2003;22(11):1787 - 805。

    文章谷歌学者

  13. Stallard N.一项纳入短期终点信息的验证性无缝II/III期临床试验设计。统计医学。2010;29:959 - 71。https://doi.org/10.1002/sim.3863

    文章PubMed谷歌学者

  14. Engel B, Walstra P.通过使用伴随变量的信息来增加回归实验的精度或减少费用。生物识别技术。1991;47(1):13-20。https://doi.org/10.2307/2532491

    文章谷歌学者

  15. steve A, Dimairo M, Todd S, Julious SA, Nicholl J, Hind D,等人。对CONSORT 2010声明中群体序贯随机对照试验报告缺陷的调查:一项方法学系统综述。PLoS ONE。2015; 10(11): 1。https://doi.org/10.1371/journal.pone.0141104

    中科院文章谷歌学者

  16. Dimairo M, Boote J, Julious SA, Nicholl JP, Todd S.楼梯中缺失的台阶:一项关于在验证性试验中使用适应性设计的关键利益相关者视角的定性研究。试验。2015;16:430。https://doi.org/10.1186/s13063-015-0958-9

    文章PubMed公共医学中心谷歌学者

  17. Barthel FS, Parmar MKB, Royston P.多阶段、多臂试验与传统的两臂平行组设计如何比较——4个试验的再分析。试验。2009;10(1):21。

    文章谷歌学者

  18. Mukherjee A, Grayling MJ, Wason JMS。适应性设计:神经外科试验的益处和注意事项。世界Neurosurg。2022;161:316-22。

    文章谷歌学者

  19. Slud E, Wei LJ。基于修正Wilcoxon统计量的双样本重复显著性检验。J Am Stat Assoc. 1982;77(380): 862-8。https://doi.org/10.2307/2287319

    文章谷歌学者

  20. Lan KKG, DeMets DL。临床试验的离散序贯边界。生物统计学。1983;70(3):659 - 63。https://doi.org/10.2307/2336502

    文章谷歌学者

  21. Stallard N, Todd S, Ryan EG, Gates S.贝叶斯和频率组序贯临床试验设计的比较。BMC Med Res Methodol. 2020;20(1):4。https://doi.org/10.1186/s12874-019-0892-8

    文章PubMed公共医学中心谷歌学者

  22. Ryan EG, Lamb SE, Williamson E, Gates S.多臂试验的贝叶斯自适应设计:矫形学案例研究。试验。2020;21(1):83。https://doi.org/10.1186/s13063-019-4021-0

    文章PubMed公共医学中心谷歌学者

  23. Ryan EG, Stallard N, Lall R, Ji C, Perkins GD, Gates S. III期急诊医学试验的贝叶斯群顺序设计:使用PARAMEDIC2试验的案例研究。试验。2020;21(1):84。https://doi.org/10.1186/s13063-019-4024-x

    文章PubMed公共医学中心谷歌学者

  24. Achten J, Parsons NR, Edlin RP, Griffin DR, Costa ML.全髋关节置换术与关节表面置换治疗年轻髋关节关节炎患者的随机对照试验。BMC Musculoskelet Dis. 2010;11:8。https://doi.org/10.1186/1471-2474-11-8

    文章谷歌学者

  25. Costa ML, Achten J, Parsons NR, Edlin RP, Foguet P, Prakash U,等。全髋关节置换术与关节表面置换术治疗髋关节关节炎患者:单中心、平行组、评估者盲法、随机对照试验。BMJ。2012; 344: e2147。https://doi.org/10.1136/bmj.e2147

    文章PubMed公共医学中心谷歌学者

  26. Costa ML, Achten J, Parsons NR, Rangan A, Edlin RP, Brown J,等。UK DRAFFT:经皮克氏针固定与掌侧锁定钢板固定治疗桡骨远端背侧移位骨折成人患者的随机对照试验。BMC Musculoskelet Dis. 2011;12:201。https://doi.org/10.1186/1471-2474-12-201

    文章谷歌学者

  27. Costa ML, Achten J, Parsons NR, Rangan A, Griffin D, Tubeuf S,等。成人桡骨远端背侧移位骨折经皮克氏针固定与掌侧锁定钢板固定:随机对照试验。BMJ。2014; 349: g4807。https://doi.org/10.1136/bmj.g4807

    文章PubMed公共医学中心谷歌学者

  28. Achten J, Parsons NR, Bruce J, Petrou S, Tutton E, Willett K,等。标准伤口处理与负压伤口治疗治疗下肢开放性骨折成人患者的随机对照试验方案:英国下肢骨折伤口处理(UK wolf)。BMJ开放。2015;5 (9):e009087。https://doi.org/10.1136/bmjopen-2015-009087

    文章PubMed公共医学中心谷歌学者

  29. Costa ML, Achten J, Bruce J, Tutton E, Petrou S, Lamb SE,等。负压创面治疗vs标准创面管理对成人重度下肢开放性骨折12个月致残的影响:wolf随机临床试验。《美国医学协会杂志》上。2018; 319(22): 2280 - 8。https://doi.org/10.1001/jama.2018.6452

    文章PubMed公共医学中心谷歌学者

  30. Griffin DR, Dickenson EJ, Wall PD, Donovan JL, Foster NE, Hutchinson CE,等。股骨髋臼撞击综合征(FASHION)多中心、平行臂、12个月的随机对照试验方案。BMJ开放。2016;6 (8):e012453。https://doi.org/10.1136/bmjopen-2016-012453

    中科院文章PubMed公共医学中心谷歌学者

  31. Griffin DR, Dickenson EJ, Wall PDH, Achana F, Donovan JL, Griffin J,等。髋关节镜与最佳保守治疗股骨髋臼撞击综合征(UK FASHION):一项多中心随机对照试验。柳叶刀》。2018;391(10136):2225 - 35。https://doi.org/10.1016/s0140 - 6736 (18) 31202 - 9

    文章PubMed公共医学中心谷歌学者

  32. Griffin DR, Dickenson EJ, Wall PDH, Realpe A, Adams A, Parsons N,等。开展一项随机对照试验,比较关节镜髋关节手术与股骨髋臼撞击综合征患者保守治疗的可行性:FASHION可行性研究。J Hip Preserv Surg. 2016;3(4): 304-11。https://doi.org/10.1093/jhps/hnw026

    中科院文章PubMed公共医学中心谷歌学者

  33. Beard D, Rees J, Rombach I, Cooper C, Cook J, Merritt N,等。CSAW研究(肩关节镜能起作用吗?)——一项安慰剂对照外科干预试验,评估关节镜肩峰下减压术治疗肩痛的临床和成本效益:随机对照试验的研究方案。试验。2015;16:210。https://doi.org/10.1186/s13063-015-0725-y

    文章PubMed公共医学中心谷歌学者

  34. Beard DJ、Rees JL、Cook JA、Rombach I、Cooper C、Merritt N等人。关节镜肩峰下减压治疗肩峰下肩痛(CSAW):一项多中心、实用主义、平行组、安慰剂对照、三组、随机手术试验。柳叶刀》。2018;391(10118):329 - 38。https://doi.org/10.1016/s0140 - 6736 (17) 32457 - 1

    文章PubMed公共医学中心谷歌学者

  35. Achten J, Parsons NR, McGuinness KR, Petrou S, Lamb SE, Costa ML. UK胫骨远端骨折固定(UK FIXDT):“锁定”钢板固定与髓内钉固定治疗成人胫骨远端移位骨折的随机对照试验方案。BMJ开放。2015;5 (9):e009162。https://doi.org/10.1136/bmjopen-2015-009162

    文章PubMed公共医学中心谷歌学者

  36. Costa ML, Achten J, Griffin J, Petrou S, Pallister I, Lamb SE,等。锁定钢板与髓内钉固定对成人胫骨远端移位性骨折6个月致残的影响:英国FIXDT随机临床试验。《美国医学协会杂志》上。2017; 318(18): 1767 - 76。https://doi.org/10.1001/jama.2017.16429

    文章PubMed公共医学中心谷歌学者

  37. Beard D, Price A, Cook J, Fitzpatrick R, Carr A, Campbell M,等。全膝关节或部分膝关节置换术试验- TOPKAT:随机对照试验的研究方案。试验。2013;14:292。https://doi.org/10.1186/1745-6215-14-292

    文章PubMed公共医学中心谷歌学者

  38. Beard DJ, Davies LJ, Cook JA, MacLennan G, Price A, Kent S,等。内侧筋膜间室骨关节炎(TOPKAT)患者全膝关节置换术与部分膝关节置换术的临床和成本效益:一项随机对照试验的5年结果。柳叶刀》。2019;394(10200):746 - 56。https://doi.org/10.1016/s0140 - 6736 (19) 31281 - 4

    文章PubMed公共医学中心谷歌学者

  39. Dimairo M.公共资助的验证性试验中的适应性设计的效用。谢菲尔德大学博士论文;2016.

  40. Todd S, Whitehead J, Facey KM。序贯临床试验后的点和区间估计。生物统计学。1996;83(2):453 - 61。https://doi.org/10.1093/biomet/83.2.453

    文章谷歌学者

  41. Sully BGO, Julious SA, Nicholl J.公共资助试验中无效分析影响的调查。试验。2014;15(1):61。

    文章谷歌学者

  42. Jaki T.在英国公共部门的早期临床研究中采用新的统计方法。中国新药试验。2013;10(2):344 - 6。

    文章谷歌学者

  43. Whitehead J.序贯临床试验的超越和不足。对照临床试验。1992;13(2):106-21。

    中科院文章谷歌学者

  44. Baldi I, Azzolina D, Soriani N, Barbetta B, Vaghi P, Giacovelli G,等。Overrunning in clinical trials:来自方法学综述的一些思考。试验。2020;21(1):668。https://doi.org/10.1186/s13063-020-04526-5

    文章PubMed公共医学中心谷歌学者

  45. Tubeuf S, Yu G, Achten J, Parsons NR, Rangan A, Lamb SE,等。经皮克氏针与掌侧锁定钢板治疗桡骨远端背侧移位骨折成人患者的成本效益:来自draft试验的分析。Bone Joint J. 2015;97-B(8): 1082-9。https://doi.org/10.1302/0301-620X.97B8.35234

    中科院文章PubMed谷歌学者

  46. Petrou S, Parker B, Masters J, Achten J, Bruce J, Lamb SE,等。成人下肢严重开放性骨折负压伤口治疗的成本-效果:来自wolf随机对照试验的证据。Bone Joint J. 2019;101-B(11): 1392-401。https://doi.org/10.1302/0301-620X.101B11.BJJ-2018-1228.R2

    中科院文章PubMed谷歌学者

  47. Maredza M, Petrou S, Dritsaki M, Achten J, Griffin J, Lamb SE,等。髓内钉固定与锁定钢板固定治疗成人胫骨远端关节外骨折的成本-效果比较:基于FIXDT试验的经济评价。骨关节J. 2018;100-B(5): 624-33。https://doi.org/10.1302/0301-620X.100B5.BJJ-2017-1329.R2

    中科院文章PubMed谷歌学者

  48. Lesaffre E, Edelman MJ, Hanna NH, Park K, Thatcher N, Willemsen S,等。临床研究中的统计学争议:肿瘤学中的无用分析——来自随机对照试验的潜在陷阱的教训。安杂志。2017;28(7):1419 - 26所示。

    中科院文章谷歌学者

下载参考

确认

不适用。

资金

这里报告的工作由药效和机制评估(EME)项目资助,该项目是MRC和NIHR的伙伴关系。该资助机构在本文报告的工作中没有发挥其他作用,也没有参与撰写手稿。在本出版物中表达的观点只是作者的观点,不一定代表资助机构或MRC、NIHR或英国卫生和社会福利部的观点。

作者信息

作者和联系

作者

贡献

NP和NS开发了方法,NP进行了模拟和示范应用,是撰写手稿的主要贡献者。DG、JG、MC、DB、JC、LD和JH提供了所需格式的试验数据。AM、HP、AH、IK、JM和MU对该方法进行了批判性的审查、讨论和调整。所有作者阅读并认可了最终的手稿。

相应的作者

对应到尼克·r·帕森斯

道德声明

伦理审批并同意参与

WAT (ISRCTN33354155)于2007年5月9日获得了考文垂研究伦理委员会(编号:07/Q2802/26)的伦理批准。DRAFFT (ISRCTN31379280)于2010年2月1日获得了考文垂研究伦理委员会的伦理批准(参考文献:10/H1210/10)。wolf (ISRCTN33756652)于2012年2月6日获得西米德兰-考文垂和沃里克郡国家研究伦理委员会(NRES)的伦理批准(参考文献:12/WM/0001)。FASHION (ISRCTN64081839)于2012年2月12日(参考文献:11/WM0389)和2014年5月1日(参考文献:14/WM/0124)获得Edgbaston研究伦理委员会的伦理批准。CSAW (ISRCTN33864128)于2012年2月2日获得了NRES中南部-牛津B研究伦理委员会的伦理批准(参考:12/SC/0028)。FIXDT (ISRCTN99771224)于2012年11月6日获得NRES委员会West-Midlands的伦理批准(参考文献:12/WM/0340)。TOPKAT (ISRCTN03013488)于2009年9月获得了牛津郡NRES REC C的伦理批准(参考:09/H0606/88)。所有方法都按照相关指南和法规进行,所有实验方案都得到了指定的机构委员会的批准。获得所有参与者和/或其法定监护人的知情同意。

同意出版

不适用。

相互竞争的利益

所有作者此前都曾收到或目前正在接受英国国家卫生研究所(NIHR)的资助。

额外的信息

出版商的注意

188博金宝app网自然对出版的地图和机构附属的管辖权要求保持中立。

补充信息

额外的文件1:

7项近期外科随机对照试验:采用组序贯设计的回顾性分析的描述和结果。

额外的文件2:

纵向结果的分组顺序设计。

权利和权限

开放获取本文采用创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)授权,该协议允许以任何媒介或格式使用、分享、改编、分发和复制,只要你对原作者和来源给予适当的署名,提供创作共用许可协议的链接,并注明是否有更改。本文中的图片或其他第三方材料均包含在文章的创作共用许可中,除非在材料的信用额度中另有注明。如果材料未包含在文章的创作共用许可中,且您的预期用途未被法律法规允许或超出许可使用范围,您将需要直接从版权方获得许可。欲查看本许可的副本,请访问http://creativecommons.org/licenses/by/4.0/。创作共用公共域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

n.r.帕森斯,N. Stallard, H.帕森斯。et al。实用试验中的分组顺序设计:使用来自近期一些外科rct的数据进行可行性和效用评估。BMC Med Res Methodol22256(2022)。https://doi.org/10.1186/s12874-022-01734-2

下载引用

  • 收到了:

  • 接受:

  • 发表:

  • DOI:https://doi.org/10.1186/s12874-022-01734-2

关键字

  • 自适应设计
  • 临时的分析
  • 早期的结果
  • 随机对照试验
  • 手术