摘要
简介
所有研究都需要样本量证明,并应给出为实现研究的主要目标所招募的最小受试者数量。本综述的目的是描述具有连续或分类终点的一致性研究的样本量,以及评估一致性的不同方法,并确定是否提供了样本量理由。
方法
数据是从PubMed存储库中收集的,时间间隔为28th2018年9月至28日th2020年9月。该搜索返回5257项研究,其中82项研究在排除重复研究和不合格研究后符合最终评估条件。
结果
我们观察到的样本量范围很广。46项研究(56%)采用连续性结果测量,28项(34%)采用分类结果测量,8项(10%)同时采用两种方法。连续终点的中位数样本量为50 (IQR为25 ~ 100),分类终点的中位数样本量为119 (IQR为50 ~ 271)。Bland-Altman一致性极限(中位数样本量65;IQR 35到124)是对连续变量和分类变量的统计分析最常用的方法(中位数样本量71;IQR 50到233)。在评估的82项研究中,只有27项(33%)为其样本量提供了理由。
结论
尽管样本量论证很重要,但我们发现三分之二的一致性研究都没有提供样本量论证。我们建议所有的协议研究即使不包括正式的样本量计算,也要为其样本量提供理论依据。
背景
一致性定义为测量或评级彼此相同的程度。评分者之间的一致性是不同仪器或评分者对同一受试者的测量结果的相似性,评分者内部的一致性是同一仪器或评分者对同一受试者的重复测量结果的一致性[1].医学研究中的一致性研究包括方法比较或测试-再测试研究,以评价临床评价中使用的技术。它们的应用范围包括医学、外科及放射学等研究领域[2].
一致性研究对于促进新的临床评估方法的发展,确保它们与当前的“金标准”方法一致,或确保评估者之间和内部诊断的一致性非常重要。通常使用统计方法如Bland-Altman一致性极限(LoA)、类内相关(ICC)和Kappa系数来检验一致性。然而,也经常使用不适合评估协议的方法[2].
为研究研究量化一个适当的样本量是重要的,以防止招募的样本过小或过大。小样本量可能导致不确定的结果,有很大的置信度限制,而过大的样本量可能昂贵和耗时,研究参与者可能面临不必要的负担,而且可能被认为是不道德的,因为在研究问题得到回答后,患者仍继续登记[3.].
确定目标样本量在任何研究设计中都是一个重要的步骤,应该事先考虑和证明。然而,在协议研究的设计中,样本量的确定往往没有得到与协议评估方法选择同等程度的重视[4,5].
在本研究中,我们回顾了医学文献中一致研究中使用的样本量,并评估了作者是否证明样本量的合理性,并进行了正式的样本量估计。
研究目标为:
- 1.
描述在分类终点(二进制或序数)或连续终点的临床一致性研究中使用或报告的样本量;
- 2.
描述一致性研究中使用不同统计方法评估一致性时的样本量;
- 3.
描述正式样本量估计和计算在协议研究中的应用。
方法
PubMed存储库(https://pubmed.ncbi.nlm.nih.gov访问29th(2020年9月)用于确定调查使用相同计量单位的不同临床仪器之间的评分者内部或评分者之间的一致性或方法比较的医学研究研究。搜索结果的时间范围为28年之间的两年th2018年9月和28日th2020年9月。29日进行了网上搜索th2020年9月使用以下搜索词:“协议研究”或“测试可重复性”或“方法比较”。研究报告一致的范畴(二元或序数)或连续变量被考虑。选择仅限于与人类参与者相关的临床研究,并提供英文全文。
搜索结果被识别并导出到Microsoft Excel中,在那里重复的内容被删除。我们排除了比较使用不同测量单位的技术的研究和不涉及人类受试者的研究。研究的选择由两位研究人员(OH和HT)独立进行。如果有异议,就请第三位研究人员进行评估;但是,在初选阶段,两位研究员没有出现任何分歧。分析数据的最初提取是由这两位研究人员完成的。
在OH和HT的初始提取后,每项研究的数据由另外两名研究人员(来自EL, SJ, LS, SW, JL和RJ)审查,并根据原始来源进行验证。如果对最终提取的SJ和LS数据有任何分歧,则以OH和HT裁决。OH和HT分析了从论文中提取的数据。
研究分为四个领域:医学、外科、放射学和相关的健康。根据用于评估一致性的主要统计方法,研究也被分为五组:
- 1.
Bland-Altman贷款
- 2.
国际刑事法庭
- 3.
Kappa系数
- 4.
测试的意义
- 5.
其他方法(例如百分比一致性、皮尔逊/斯皮尔曼相关性)
进一步的分类被分成端点的类型:分类和/或连续。
确定了有关计划样本量、样本量估计和实际样本量的数据。如果没有给出计划样本量,则报告实际样本量。为了描述样本大小的分布,计算了平均值、中位数、四分位间差和极差。
我们评估了是否提供了样本量的理由。论证可以通过正式的样本量计算或叙述性地解释样本量的基本原理。
结果
PubMed资源库搜索返回5257篇研究。在删除了副本之后,筛选了4,473个标题。根据标题相关性,有235个标题有资格进一步审查。有三份研究报告没有全文;联系了他们各自的作者,但没有收到答复,研究被排除在外。在排除另外150项没有报告一致性分析的不合格研究后,82项研究被纳入本分析。研究选择过程如图所示。1.
符合审查纳入标准的82项研究的特征摘要载于表中1.
每项研究都报告了所使用的样本量。然而,82项研究中只有27项(33%)为一致性分析的样本量提供了理由。在27项对样本量有正式论证的研究中,22项(82%)显示了样本量计算已经进行的证据,包括参数估计和/或参考所用的公式或软件包。在这27项研究中,除了一项外,所有研究都至少提供了一些参数估计,尽管并非所有研究都提供了精确复制的足够信息。在提供理论基础但没有正式计算的五项研究中,样本量是由嵌套在另一个端点上的研究决定的(n= 3),按日历时间固定(数据来自一年期间;n= 1),或根据类似研究的样本量选择(n= 1)。
图中显示了82个合格研究的样本量分布的直方图。2.中位数样本量为62.5 (IQR: 35,159;范围:10,4469)。
根据临床研究区域、统计方法和终点类型的样本量见表2.按终结点类型分列的研究领域和方法的进一步细目载于补充表ST1和圣2.
医学分类的研究往往有较大的样本量,中位数样本量为80 (IQR为45至108)。其次是联合健康、外科和放射学,中位数样本量为50 (IQR为27至143)。
在评估的82项研究中,30项研究(37%)使用了一种统计方法来评估一致性,52项研究(63%)使用了两种或两种以上的统计方法。Bland-Altman LoA是测量连续终点的研究中使用最多的统计方法(41项研究;50%)和Kappa系数在测量分类终点的研究中使用最多(35项研究;43%)。
使用Kappa方法评估一致性的研究中,中位数样本量最大,为71 (IQR值为50 ~ 233),而使用ICC作为主要方法的研究中,中位数样本量最小,为42 (IQR值为27 ~ 65)。对于显著性检验,最常见的方法是配对t-test在七项研究中使用。最常见的“其他”统计方法是相关系数,在七项研究中使用。
总体而言,与主要关注连续终点的研究相比,主要测量分类终点的研究中位数样本量为119 (IQR为50 ~ 271),中位数为50 (IQR为25 ~ 100)。所有中位数样本量均小于平均样本量,表明样本量分布正偏。
讨论
我们对PubMed知识库的回顾发现了2018年至2020年期间发表在医学文献中的82项合格的协议研究。这些研究涵盖了各种疾病领域。根据临床领域、统计方法和终点类型的不同,我们观察到了广泛的样本量范围和典型样本量的可变性。
连续终点更为常见,其中Bland-Altman LoA是最常用的统计方法,中位数样本量为89 (IQR为35至124)。发现Bland-Altman LoA是最常见的方法,这与Zaki等人的评论一致。[2].与他们的评审一致的另一个发现是,我们观察到相关系数的持续使用,尽管它被认为不适合评估一致性[6].然而,我们确实观察到使用频率较低。
我们发现Kappa统计是分类变量最常用的方法,中位数样本量为71 (IQR为50至233)。Kappa通常用于使用二进制和序数量表评估协议[7].分类变量研究的样本量往往比主要关注连续变量的研究的样本量大。与连续结果相比,分类结果的样本量更大,这一发现与试点研究背景下的研究一致[8和确定的结果试验,这是从Rothwell等人报告的目标标准化效应大小中推断出来的[9].
我们发现,所有纳入的研究都报告了样本量,但只有三分之一的研究为其样本量提供了理由,而在这些研究中,并不是所有的研究都报告了使用统计样本量公式。Kottner等人[1]建议在协议研究中明确说明样本量的理由,以确保透明度和可信度。尽管如此,法尔津等人。10]发现,在诊断影像学期刊上进行的280项一致性研究中,只有9项(3%)给出了样本量的理由,这明显低于我们在本综述中观察到的数据。
样本量报告质量的变化已经在临床试验的背景下进行了检验,Charles等人审查了95%发表在高影响期刊上的试验。[11报告了样本量计算,但只有53%报告了复制所需的所有参数。科普西等人[12]报告的描述样本量计算的试验比例较低,为67%,只有21%报告了计算的所有组成部分。图尔卡等人[13]报告说,只有42%的试验证明了他们的样本量是合理的,只有21%描述了完整的样本量计算。自1996年发表第一份CONSORT指南以来,临床试验中的样本量报告的质量有望提高[14].试验综述显示,与一致性研究相比,报告样本量估计细节的研究比例更高,但报告不充分的情况仍然普遍存在。Charles等人报道的提供样本量细节的研究比例较高。[11可能是因为他们的评论只包括了最具影响力的医学期刊。
一些作者提出了协议研究样本量的一般经验法则,例如廖[4]和McAlinden等人推荐的最小样本量为32。[15对于测量连续变量的一致性研究,最低样本量为100。在可能的情况下,首选的方法是使用考虑到研究问题的具体计算和适当的统计分析方法。不同的统计方法都有确定最小样本量要求的公式,例如Bland-Altman LoA [16,17], ICC [18, Kappa系数[19),在别人。
一些一致性研究可能会受到可用样本量的限制,例如,当嵌入到以不同结果为动力的研究中时,或者由于财务、时间或其他原因,可能无法实现预先确定的目标样本。尽管如此,使用的目标和实际样本仍然应该被描述和证明。可通过遵循报告可靠性和协议研究指南(GRAAS)的建议来提高协议研究的质量[1],需要解释所选样本的大小,明确报告评分者、受试者/对象的数量和重复观察结果。
这篇综述的优势在于,它首次调查了近期医疗协议研究的典型样本量如何因领域、终点类型和统计方法而不同。一个统计学家小组参与了研究的评估,从而提高了数据审查和提取的准确性,减少了偏见。限制包括只使用一个电子存储库;没有出现在PubMed注册表中的研究研究将不会被捕获。使用的搜索词相对较少,这意味着一些相关的研究可能被遗漏了。搜索仅限于英语语言,这意味着其他语言的研究也不包括在内。
结论
我们回顾了临床协议研究,并注意到典型样本量根据研究领域、统计方法和终点类型的不同而不同。我们发现,对于连续和分类终点,一致性分析的中位数样本量分别为50 (IQR 25 ~ 100)和119 (IQR 50 ~ 271)。
即使无法进行正式的样本量计算,也应在所有研究中提供样本量论证。然而,尽管样本量论证很重要,我们发现只有三分之一的报告协议研究的论文提供了样本量论证。通过遵循GRAAS核对表内的准则,可提高协议研究报告的质量[1],因为这其中包括一个需要解释如何选择样本大小的项目。
数据和材料的可用性
本研究期间分析的数据集包含在补充文件中2.
参考文献
Kottner J, Audigé L, Brorson S, Donner A, Gajewski BJ, Hrobjartsson A,等。提出了报告可靠性和协议研究(GRRAS)指南。临床流行病学杂志,2011;64(1):96-106。
Zaki R, Bulgiba A, Ismail R, Ismail NA。用于检验在方法比较研究中测量连续变量的医疗器械一致性的统计方法:一项系统综述。PLoS ONE。2012; 7 (5): e37908。
奥特曼DG。医学研究中的统计学和伦理学:III样本有多大?BMJ。1980, 281(6251): 1336 - 8。
廖JJ。协议研究的样本量计算。制药Stat。2010;9(2):125 - 32。
尹k, Choudhary PK, Varghese D, Goodman SR.方法比较研究中样本容量确定的贝叶斯方法。统计医学。2007;27(13):2273 - 89。
Bland M, Altman A.评估两种临床测量方法一致性的统计方法。柳叶刀》。1986;1(8476):307 - 10。
沈杰,赖特。可靠性研究中的Kappa统计量:使用、解释和样本量要求。phy其他领域。2005;85(3):257 - 68。
比林汉姆·萨姆,怀特黑德·阿尔,朱利叶斯·萨。在联合王国临床研究网络数据库中注册的正在联合王国进行的试点和可行性试验样本量审计。中华医学杂志。2013;13:104。
Rothwell JC, Julious SA, Cooper CL。发表在《卫生技术评估》杂志上的一项随机对照试验中目标效应大小的研究。试验。2018;19:544。
Farzin B, Gentric J, Pham M, Tremblay-Paquet S, Brosseau L, Roy C,等。放射学研究中的协议研究。诊断与介入性影像学。2016;98(3):227-33。
Charles P, Giraudeau B, Baron G.随机对照试验中样本量计算的报告:一项综述。BMJ。2009; 338: b1732。
Copsey B, Thompson JY, Vadher K, Ali U, Dutton SJ, Fitzpatrick R,等。髋关节和膝关节骨关节炎随机试验中样本量计算的方法学和报告的当前实践:一项系统综述。骨关节炎软骨。2018;26:S273。
Tulka S, Knippschild S, Funck S, Goetjes I, Uluk Y, Baulig C.年龄相关性黄斑变性、青光眼和白内障试验发表的统计样本量计算报告。PLoS ONE。2021; 16: e0252640。
Begg C, Cho M, Eastwood S, Horton R, Moher D, Olkin I,等。提高随机对照试验报告的质量:CONSORT声明。《美国医学协会杂志》上。1996年,276(8):637 - 9。
McAlinden C, Khadka J, Pesudovs K.验光和眼科学中进行一致性(临床试验比较)和精确度(重复性或再现性)研究的统计方法。眼科物理Opt. 2011; 31:330-8。
陆敏,钟伟,刘勇,苗红,李勇,季敏。Bland-Altman法评价两种测量方法一致性的样本量。国际生物化学杂志,2016;12(2):307。
布兰-奥尔特曼一致性范围:精确区间程序和样本量的确定。2018; 100:247-52。
Bonett DG。以所需精度估计类内相关性的样本量要求。统计医学。2002;21:1331-5。
Donner A, Rotondi MA。二元结果和多个评分者的观察者间一致性研究的Kappa统计量区间估计的样本量要求。中华生物医学杂志2010;6(1):31。
确认
NA
资金
NA
作者信息
作者和联系
贡献
OH和HT确定了这些研究,提取了数据并进行了分析。SJ、LS、RJ、EL、JL和SW对研究进行了综述并提取了数据。所有作者都对稿件的起草和批准做出了贡献。
相应的作者
道德声明
伦理批准和同意参与
本研究是对已发表文献的综述,不需要伦理批准或知情同意即可参与。
同意出版
NA
相互竞争的利益
作者没有BMC定义的竞争利益,也没有其他可能被认为影响本文报告的结果和/或讨论的利益。
额外的信息
出版商的注意
188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。
补充信息
补充文件1:补充表1。
研究领域和终点类型的样本量分布。补充表2。统计方法和端点类型的样本大小分布。
权利和权限
开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献放弃书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。
关于这篇文章
引用这篇文章
韩欧、谭慧玮、朱立思、陈志明、陈志明。et al。在PubMed知识库中发表的协议研究中使用的样本大小的描述性研究。BMC医学治疗方法22242(2022)。https://doi.org/10.1186/s12874-022-01723-5
收到了:
接受:
发表:
DOI:https://doi.org/10.1186/s12874-022-01723-5
关键字
- 协议
- 设计
- 方法比较
- 样本大小
- 两次试验法的