跳到主要内容

一种基于现实大数据挖掘的创新方法,用于计算变换参数和非参数方法建立的参考区间的样本容量

摘要

背景

目前,直接法是确定参考区间的主要方法。然而,只有少数研究描述了样本量对RI的建立和样本量估计的影响。我们描述了一种用变换后的参数和非参数方法建立RIs时估计样本容量的新方法。

方法

共有3697名健康受试者参与了这项研究。我们以甲状腺相关激素为例,采用两层嵌套循环样本量估计方法确定样本量对RI的影响。当RI上下限置信区间(CI)宽度均稳定< 0.2倍RI宽度时,选取样本量作为计算结果。然后,我们计算了通过转换参数和非参数方法建立甲状腺相关激素RIs的样本量。

结果

参数化和非参数化方法建立RIs所需的促甲状腺激素(TSH)样本量分别为239和850。游离三碘甲状腺原氨酸(FT3)、游离甲状腺素(FT4)、总三碘甲状腺原氨酸(TT3)、总甲状腺素(TT4)的转化参数法所需样本量均小于120,而非参数法所需样本量大于120。

结论

我们描述了一种用于建立RI的估计样本容量的新方法。已经开发了相应的开源代码,可供应用程序使用。所建立的方法适用于大多数分析物,基于甲状腺相关激素的证据表明,对于具有不同变异的分析物,使用不同的方法建立RIs需要不同的样本量。

同行评审报告

简介

参考区间(RI)在临床实践中发挥着重要作用,主要是在疾病诊断过程中对患者病情的评估。建立RI时的样本量选择对确保其稳定性非常重要[12].有限的研究描述了建立RI测定的样本量的影响和方法。2010年,EP-28A3c [3.]建议建立RI的样本量不应小于120,尽管这主要基于一种简单的非参数方法,该方法需要至少120个样本才能计算参考限值的90%置信区间(CI)。虽然这些建议是方便和可行的,但120个样品远远不足以建立RI,特别是对于一些变化较大的分析物[1].已有研究报道样本量对建立RIs的影响[145],而其他人则表明,应根据其ci评估参考限值,该限值应小于RIs宽度的0.2倍[67].

生物学参数因分析物的不同而波动,因此,建立RI的样本量应因不同的临床实验室试验而异。已报道样本量对建立RIs的重要性[89101112].然而,为建立RIs而开发的估计样本量的方法很少[913].基于Henny等人的报告[6,我们旨在开发一种估计建立RIs的样本量的方法。此外,我们为该方法开发了一个代码,并使用该代码计算基于参数和非参数方法建立甲状腺相关激素RIs所需的样本量。该方法可用于不同临床实验室直接法建立RIs时的样本量计算和评价。

材料和方法

研究对象和选择标准

2014年1月1日至2018年12月29日期间,共有3697名健康受试者在北京协和医院接受常规检查。参与者的病史信息,包括他们的症状和过去的历史等,通过电子病历的审查得到确认。入选标准为:(i)无急性或慢性疾病史,包括呼吸系统、循环系统、消化系统、泌尿系统和自身免疫系统疾病,以及急性和慢性感染、代谢和营养疾病、血液系统疾病、内分泌疾病和癌症;(ii) 18.5 kg/m2≤BMI < 24 kg/m2;(iii)收缩压< 140、舒张压< 90 mmHg;(iv)抗甲状腺球蛋白抗体(TG-Ab)和抗甲状腺过氧化物酶自身抗体(TPO-Ab)阴性;(v)甲状腺超声正常者;(vi)年龄≥18岁;(vii)常规生化水平,如谷丙转氨酶、铬和谷氨酸,在国际标准范围内或低于医疗决定水平。

根据医院体检信息系统,孕妇被排除在本研究之外。此外,研究对象的性别比例调整为1:1。

分析物的分析性能

使用该系统制造商提供的试剂和校准器,在ADVIA Centaur XP化学发光免疫分析分析仪(Siemens Healthineers, Erlangen, Germany)上测量甲状腺相关激素(甲状腺刺激激素(TSH)、游离三碘甲状腺原氨酸(FT3)、游离甲状腺素(FT4)、总甲状腺素(TT4)和三碘甲状腺原氨酸(TT3)的水平。使用Roche试剂盒(Cobas e601;罗氏诊断),按照制造商的指示。用于分析的方法、单位和样品类型的摘要载于补充表1

数据收集

样本的收集及处理程序如上文所述[114].简单地说,从实验室信息系统和医院体检信息系统下载每个参与者的信息,包括人口统计数据、临床实验室数据和临床相关信息。为了验证我们的方法,我们从GTEx数据库下载了健康个体的肾上腺数据集(https://gtexportal.org/home/).我们选择了4个基因(NAP1L4, OTUD5, UBE2I和DEDD),并使用我们研究中建立的方法计算样本量。

质量控制

我们建立了一个内部QC数据集,对研究期间收集的所有内部QC数据进行评审,以确保准确性和可靠性。此外,我们的实验室通过了ISO15189和美国病理学家学院(CAP)的认证,使用的仪器按要求定期维护。在数据覆盖的时间段内,分析物的分析平台没有改变。我们反复检查每个统计分析软件或程序的结果,以确保准确性。此外,我们邀请专业人士对研究中采用的设计、方法和代码进行审核和验证,以确认研究方案和分析方法的正确性。

统计分析

所有数据均记录在Excel 2016 (Microsoft, Redmond, WA, USA)中,并使用R语言(4.0.5版本)实现的软件包、SPSS 25.0软件(IBM Inc., Armonk, NY, USA)和Medcalc统计软件18.116.6 (Mariakerke, Belgium)进行分析。数据分布采用频率分布直方图表示。采用kolmogorov-Smirnova检验来确定数据的正态性。倾斜的连续变量被描述为中位数(25、75个百分位)。分别采用变换后的参数法和非参数法计算95% RI。由于鲁棒方法适用于小样本的RI建立,我们没有计算方法的样本量。Tukey’s方法用于识别异常值。如果数据不是正态分布,则使用Box-Cox算法来改善正态性。由于我们的目的是比较参数化方法和非参数化方法,为了客观地比较两种方法,我们使用bootstrap方法而不是计算公式来计算90% CI。

样本量计算方法

样本量计算方法采用两层嵌套循环方法,具体步骤如下(图5)。1):

图1
图1

样本量计算方法流程图

  1. (1)

    第一层循环将样本量从40改变到2000(预实验结果表明,5种甲状腺相关激素在2000年之前均达到收敛),样本量迭代步骤固定为1。

  2. (2)

    循环的第二层是带有替换的采样。在第一层设置的样本量下,进行1000次采样。然后,分别根据变换后的参数法和非参数法计算RI的上下限。完成1000次返回采样后,计算相应的上、下RI的90% CI。

  3. (3)

    计算了1000个RI及其五分位数的宽度。

  4. (4)

    在第一层循环的样本量固定的情况下,90% CI的上下限宽度分别除以1000 RI宽度的五分位数。得到R1和R2的两个比值。

  5. (5)

    如果R1和R2都小于0.2,则标记样本量为1;否则,它被标记为0。在这一步中得到了样本量的标签变量。

  6. (6)

    以10为移动窗宽,用移动求和法对样本标签变量进行求和,得到求和变量。

  7. (7)

    以10为移动窗宽,采用移动中位数法计算求和变量的移动中位数,得到移动中位数变量。

  8. (8)

    当移动中位数为10时,第一次,相应的样本量是建立分析物的RI所需的估计最小样本量。

注意:

步骤6,7,8的目的是减小随着样本量增加,参考区间宽度和置信区间宽度的波动对样本量计算结果的影响。即选择标志稳定等于1的样本量。

这些计算是用R语言编写的代码进行的(在补充材料中提供)。

结果

入选受试者的基线信息

本研究中男女比例为1:1。他们的中位年龄为33岁,最小和最大年龄分别为18岁和84岁。TPO-Ab和TG-Ab的分布分别为11.31(10.00、14.20)IU/L和11.06(8.54、14.10)IU/L。甲状腺相关激素分布如图所示。2.本研究中TSH呈右偏态分布,FT3、FT4、TT3、TT4呈近似正态分布。

图2
图2

研究中甲状腺相关激素的分布。绿色代表男性频率分布,红色代表女性频率分布,整个等高线代表整体分布

样本量对甲状腺相关激素参考区间的影响

TSH、FT3、FT4、TT3、TT4的RI上下限随样本量的关系如图所示。3..RIs的极限CI随样本量的增加有收缩的趋势,且变换参数法的收缩趋势快于非参数法。可见,在相同样本量的情况下,非参数化方法的CI略大于变换参数化方法的CI。对于五种甲状腺相关激素,RI的上限变化大于下限。

图3
图3

甲状腺激素参考区间与样本量的关系。简单地说,橙色和青色散点表示在不同的样本大小下,每1000个随机样本中有一个的结果。即不同样本量下甲状腺相关激素RIs的上下限。灰色带和黑色虚线所包围的区域为不同样品量甲状腺相关激素RIs上下限的90% CI。置信带中心的黑色虚线表示相同样本量下1000个样本的RIs上下限的平均值。建立RIs的方法分别为左图和右图中的变换参数法和非参数法

建立甲状腺相关激素RIs的样本量

我们使用我们提出的方法来计算建立RIs的样本量(表1).转化参数法建立RI所需的样本量,对于五种甲状腺相关激素,比非参数法所需的样本量要小。这与图所示的规律是一致的。3.,其中非参数法RI边值的90% CI比变换后的参数法宽。对于TSH,变换后的参数和非参数方法建立RIs所需的样本量均大于120。相反,变换参数法对FT3、FT4、TT3和TT4所需的样本量均小于120,而非参数法所需的样本量大于120。

表1甲状腺相关激素RIs建立样本量

对GTEx数据集的研究结果见补充表2和无花果。1.我们的方法计算的4个基因TPMs的转化参数法建立RIs的样本量均小于120,而非参数法的样本量超过120。

讨论

我们开发了一种用于建立RIs的估计样本量的创新方法。我们通过计算间接RIs及其使用不同样本量的ci,评估了作为直接方法的各种统计方法的ci。我们的样本量计算方法采用两层嵌套循环,第一层循环样本量,第二层循环在第一层循环设定的样本量下,计算重复抽样后的RI极限值的CI。根据Henny等人的观点设置环路停止条件。[6].此外,我们没有首先选择满足周期停止条件的样本量作为计算结果,这是由于样本量的变化会引起RI的CI宽度的波动。我们采用移动和和中值的方法,窗宽为10,来选择由循环停止条件首先稳定达到的样本量。

基于以上方法,我们选择甲状腺相关激素,分析样本量对RI的影响。接下来,我们使用转换参数和非参数方法计算甲状腺相关激素RIs的样本量。与非参数方法相比,变换后的参数方法可以更快地缩小RI参考极限CI的宽度,这与我们之前的研究结果一致[1].此外,我们的研究结果表明,使用非参数参数建立甲状腺相关激素RI所需的样本量均大于120。使用转换参数法建立TSH的RI所需的样本量大于120,尽管使用相同方法建立FT3、FT4、TT3和TT4的RI的样本量小于120。之前,基于视觉分布,我们发现TSH分布的稳定样本量在1500左右[1].但是,我们没有确定具体的样本量,由于样本量组间距较大,因此我们得出的建立TSH的RI应使用大于120的样本量的结论仅基于目视观察。对于TSH等右偏数据,数据尾部右侧CI宽度大于左侧CI宽度。这可能解释了为什么难以估计具有右偏态分布的分析物的RI上限。来自GTEx数据库的结果显示出相同的模式,即与非参数方法相比,转换参数方法导致RI参考极限CI宽度的缩小更快。

本研究的结果,基于所建立的方法,给出了更准确的估计。对于TSH,这些结果表明,无论使用哪种方法(转换参数或非参数),都应选择大于120的样本量。采用120个样本的非参数法得到的TSH RI的上下限变化较大。对于其他四种甲状腺相关激素,我们认为如果使用变换参数法,样本量小于120就足够了。此外,早在10多年前,EP28-A3c的非参数方法中就提出了至少需要120个样本来建立RI的想法[3.].当时,指南建议使用非参数方法,因为它易于操作,对数据分布没有要求。此外,由于非参数计算需要至少120个样本才能计算90% CI,因此RI需要至少120个样本是一个广泛的共识。然而,这些指导方针已经发表了十多年,在其间的几年里,计算能力和信息技术的迅速进步产生了更复杂的统计方法。因此,我们假设小样本量足以建立一些变化小的分析物的RI,特别是当使用变换参数法时。在本研究中,我们发现,对于TSH等变化较大的指标,无论采用变换参数法还是非参数法,样本量都应大于120。

人们已经开发了各种计算样本大小以建立RIs的方法,这些方法涉及许多程序[1011].这些方法使用一些公式来计算样本容量。与这些方法相比,我们提供了一种更容易理解的方法,一种个性化的方法,使用现实世界的大数据进行评估。

这项基于现实大数据的研究有几个优势。首先,本文提出的样本量估计方法基于分析物间的变化,利用真实数据估计建立RI的样本量,成本低,实用性强。其次,我们为所建立的方法开发了相应的开源代码,方便其他学者计算不同分析物的RIs样本量。最后,由于分析物在特殊群体(如老年人)中的分布和变化可能与非老年人的分布和变化不同,因此计算建立老年人RI所需的样本量是重要的。本文提出的方法可以用于这种情况。

这项研究有一定的局限性。首先,在计算新分析的样本量时,没有可用的历史数据集。其次,只有经过验证并可以利用大数据建立参考区间的分析物才能使用该方法进行估计。这是因为,如果通过现实世界的大数据(如正在体检的人口)获得的数据分布与真实的表面健康的个体不同,那么估计结果必然会有偏差。然而,由于之前的一些研究已经证明了使用大数据建立RIs的可行性[1415161718],其他人肯定了这些方法的可行性[1920.2122,该方法适用于大多数分析物。然而,本研究与使用Hoffmann、Bhattacharya和DKGL统计方法的数据挖掘方法的样本量要求无关。研究的目的应该是计算常见分析物的样本量,并阐明分析物的变化与建立RIs所需的样本量之间的关系。最后,我们的目标是建立一个模型,可以用来计算基于分析物变化的样本大小。最后但并非最不重要的是,本研究中的新方法通过计算间接参考区间及其在不同样本量下的ci,检验了通常用于直接方法的统计方法的ci。这是基于以下事实:用间接方法建立参考区间所使用的人群(例如到医院进行例行检查的健康人)患病的概率非常低,而用稳健方法消除了异常值。因此,如果根据本研究的方法使用患者数据或混杂数据来估计样本量,可能会得到错误的结果。

结论

本研究为建立RI提供了一种创新的方法和一种估计样本容量的开源代码。所提出的方法适用于大多数分析物,以甲状腺相关激素的证据(为例)表明,不同的方法需要不同的样本量来建立具有变异的分析物的RIs。

数据可用性

在当前研究中分析的一个数据集可在GTEx存储库中获得,[https://gtexportal.org/home/目前研究中使用和分析的另一个数据集,在得到医院批准后,可以从相应作者的合理要求获得。

参考文献

  1. 马晨,王鑫,夏琳,程旭,邱琳。样本容量与传统参数、非参数和鲁棒方法对参考区间建立的影响:来自真实数据的证据。中国。2021;92:67 - 70。

    文章中科院谷歌学者

  2. Ichihara K, Boyd JC。用于推导参考区间的统计程序的评价。临床化学检验医学2010;48(11):1537-51。

    文章中科院谷歌学者

  3. 临床实验室CLSI的确定、参考区间的建立与验证批准Guideline-Third版。CLSI文件EP28-A3c,临床和实验室标准协会,Wayne, PA, 2008。

  4. 戴利CH,希金斯V,阿德利K,格雷VL,哈米德JS。参考区间估计:使用大量模拟和经验数据的方法比较。中国。2017;50(18):1145 - 58。

    文章谷歌学者

  5. Haeckel R, wosnik W, Arzideh F, Zierk J, Gurr E, Streichert T.对最近EFLM关于参考区间审查的建议的批评意见。临床化学检验医学2017;55(3):341-7。

    文章中科院谷歌学者

  6. Henny J, Vassault A, Boursier G, Vukasovic I, Mesko Brguljan P, Lohmander M, Ghita I, Andreu FA, Kroupis C, Sprongl L,等。审查医学实验室生物参考区间的建议。临床化学检验医学2016;54(12):1893-900。

    文章中科院谷歌学者

  7. Higgins V, Asgari S, Adeli K.选择参考区间估计的最佳统计方法。中国。2019;71:14-6。

    文章中科院谷歌学者

  8. Adeli K, Higgins V, Trajcevski K, white - al Habeeb N.加拿大实验室对儿童参考区间的倡议:CALIPER白皮书。危重临床实验室科学2017;54(6):358-413。

    文章谷歌学者

  9. 小样本量参考区间估计:使用计算机模拟研究的方法学比较。兽医临床病原学2019;48(2):335-46。

    文章谷歌学者

  10. 基于回归的参考限值的精确置信区间:方法比较和样本量要求。中国生物医学杂志2017;91:191-7。

    文章谷歌学者

  11. 韦勒克S, Lackner KJ, jenen - steinmetz C, Reinhard I, Hoffmann I, Blettner M.参考限的确定:样本容量计算的统计概念和工具。临床化学检验医学,2014;52(12):1685-94。

    文章中科院谷歌学者

  12. 邢东,刘东,李锐,周强,徐娟。影响健康成人甲状腺激素参考区间的因素:一项系统综述和荟萃分析。中国性(Oxf)。2021, 95(3): 378 - 89。

    文章谷歌学者

  13. Coisnon C, Mitchell MA, Rannou B, Le Boedec K.频率分布直方图的主观评估及其对小样本量参考区间准确性的影响:一项计算机模拟研究。兽医临床病理学。2021;50(3):427-41。

    文章谷歌学者

  14. 马晨,程曦,薛峰,李曦,尹莹,吴娟,夏琳,郭曦,胡莹,邱玲,等。基于数据挖掘,仅使用来自临床实验室的患者大数据建立甲状腺激素参考区间的方法验证。中国。2020;80:25-30。

    文章中科院谷歌学者

  15. Katayev A, Balciza C, Seccombe DW。建立临床实验室检测结果参考区间:是否有更好的方法?中华临床病理学杂志2010;133(2):180-6。

    文章中科院谷歌学者

  16. Katayev A, Fleming JK, Luo D, Fisher AH, Sharp TM。参考区间数据挖掘:不再是概率论文方法。中华临床病理学杂志2015;143(1):134-42。

    文章谷歌学者

  17. 冯勇,边伟,穆超,徐勇,王芳,乔伟,黄勇。通过分析实验室存储的数据,用优化统计方法建立并验证TSH参考区间。内分泌科学杂志。2014;37(3):277-84。

    文章中科院谷歌学者

  18. 霍尔姆斯DT,布尔KA。霍夫曼方法的普遍错误实现,正确方法和现代替代方案。中华临床病理学杂志2019;151(3):328-36。

    文章中科院谷歌学者

  19. Jones GRD, Haeckel R, Loh TP, Sikaris K, Streichert T, Katayev A, Barth JH, Ozarda Y.参考区间的间接确定方法综述和建议。临床化学检验医学2018;57(1):20-9。

    文章谷歌学者

  20. 参考区间:现状、最近的发展和未来的考虑。地中海(萨格勒布)。26(1): 5-16。2016;

    文章谷歌学者

  21. 马晨,王鑫,吴娟,程晓,夏琳,薛峰,邱琳。检验医学大数据研究现状、应用及未来展望。中国。2020;84:21-30。

    文章中科院谷歌学者

  22. 王东,于思,马超,李辉,邱林,程晓,郭晓,尹燕,李东,王铮,等。中国老年人促甲状腺激素、游离甲状腺素和游离三碘甲状腺原氨酸参考区间。临床化学检验医学2019;57(7):1044-52。

    文章中科院谷歌学者

下载参考

确认

不适用。

作者信息

作者和联系

作者

贡献

研究由马朝超和邱玲设计;马朝超分析了数据;马朝超、侯立安、邹雨桐起草了这份手稿。侯丽安、胡莹莹、宋爱玲对甲状腺相关激素进行检测。程新奇、马晓丽、王丹晨对手稿进行了修改。所有作者都审阅了手稿。

相应的作者

对应到凌邱

道德声明

伦理批准和同意参与

本研究是《实验室医学大数据挖掘现实研究》(CFH-2020-4014)的一部分,根据《赫尔辛基宣言》进行。本回顾性研究经北京协和医学院、中国医学科学院北京协和医院伦理委员会批准(批准文号:S-K1192)。北京协和医学院伦理委员会、中国医学科学院北京协和医院放弃受试者知情同意。所有方法均按照相关指南和规定进行。

同意出版

所有作者都同意发表。

资金

该研究得到(1)首都健康改善和研究基金(CFH-2020-1-4014)和;(2)北京市检验医学临床重点专业(优秀工程项目);ZK201000)。

相互竞争的利益

作者声明他们没有竞争利益。

额外的信息

出版商的注意

188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。

电子辅料

下面是电子补充材料的链接。

补充材料1

权利和权限

开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

马、C、侯、L、邹、Y。et al。一种基于现实大数据挖掘的创新方法,用于计算变换参数和非参数方法建立的参考区间的样本容量。BMC医学治疗方法22275(2022)。https://doi.org/10.1186/s12874-022-01751-1

下载引用

  • 收到了

  • 修改后的

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12874-022-01751-1

关键字

  • 数据挖掘
  • 参考区间
  • 样本大小