跳到主要内容

对于多重输入数据集的变量选择,简单的池化方法优于复杂的方法

摘要

背景

对于预后模型的发展,在多重imputation后,变量选择建议应用于集合模型。本研究的目的是通过模拟研究和实际数据实例来评估四种不同的池化方法在多个估算数据集中变量选择的性能。这些方法是D1, D2, D3和最近扩展的中位数- p规则(MPR),用于逻辑回归模型中的分类,二分和连续变量。

方法

四个数据集(n= 200 andn= 500),共9个变量,各变量之间的相关性分别为0.2和0.6。这些数据集包括2个分类变量和2个连续变量,其中20%的随机数据缺失。应用多重Imputation (m = 5),并将四种方法与从完整模型中选择(没有缺失数据)进行比较。在5个多重估算真实世界数据集(NHANES)中重复进行相同的分析(m = 5,p= 0.05,N= 250/300/400/500/1000)。

结果

在模拟数据集中,池化方法之间的差异在较小的数据集中最为明显。对于选择频率,以及连续和二分变量的p值,MPR的表现与所有其他池化方法相同,然而,在多重输入数据集中,MPR在池化和选择分类变量以及所选预后模型的稳定性方面表现一致更好。nhanes数据集的分析表明,所有方法大多选择相同的模型。但比较起来,d2法的灵敏度最低,而MPR法的灵敏度最高,最简单,最容易应用。

结论

考虑到MPR是流行病学家和应用研究人员使用的最简单和容易的池化方法,我们谨慎地建议使用MPR方法与向后选择程序(BWS)结合使用多重Imputation后,池化两个以上级别的分类变量。由于MPR在连续变量和二分变量上的表现从未比其他方法差,我们也建议在这些类型的变量上使用MPR。

同行评审报告

背景

Logistic回归分析是流行病学和医学研究中用于建立预后模型的一种广泛使用的方法。尽管研究人员试图避免这种情况,但在许多研究设计中仍会出现数据缺失的情况。最推荐的处理不完整数据的方法是多重Imputation (MI) [1];这种方法现在几乎集成在所有常规的统计软件包中,因此许多研究人员都可以使用。MI生成多个输入数据集,然后对每个输入数据集进行完整的数据分析。最后,参数估计可以结合使用Rubin 's Rules (RR) [2].如果数据集包含缺失值,建议在从池化模型中排除逆向选择逻辑回归(BWS)中的变量之前应用MI [3.456].RR可用于计算合并系数和标准误差(SE’s)。这很容易应用于连续和二分变量,其中单个Wald统计量用于计算p值以确定显著性[7].对于超过两个级别的分类变量,这是复杂的。对于有分类变量的变量选择,已经开发了几种方法[17]: 1。方法D1(多变量Wald检验):该测试在输入数据集的协方差矩阵内部和之间进行。之后,对多元Wald检验的总参数协方差矩阵进行修正,以弥补缺失的数据[18].2.方法D2(卡方统计数据池):该测试使用来自多个参数Wald或似然比检验的卡方值,并将它们池化[9].3.方法D3(结合似然比统计):该测试基于合并似然比统计,需要在整个估算数据集上为数据中的每个类别变量拟合多个模型,因此可能是一个非常耗时的过程[1011].缺点是在开发预后模型时,这些方法都没有集成在常规的统计软件包中用于变量选择。此外,这些方法并不总是获得最优的p值,因此不能保证选择正确的变量[10].因此,研究人员有时会选择单一的imputation,这往往会导致变量选择的错误[12].

Van de Wiel等人引入了p值的中位数(MPR)作为比较预后模型的方法[13].Eekhout等人在模拟研究中比较了MPR与mi数据集中的池化方法D1, D2, D3。他们发现MPR对于两级以上分类变量的统计推断是一个有吸引力的规则,因为它显示出与D1-, D2-和d3 -方法具有相同的效力,但更容易应用于任何软件包[1].

因此,MPR方法可能是一种具有潜在吸引力的变量选择方法,包括具有分类变量的模型。到目前为止,还没有将这些方法进行比较,在MI后的逻辑回归模型中推导出预后模型。

因此,本研究的目的是评估四种不同的池化方法,用于在带有逆向选择(BWS)程序的逻辑回归中对分类、二分和连续变量的乘法Imputed数据集中进行变量选择。变量的选择频率,集合选择结果的p值和模型在Multiply Imputed数据集中的稳定性将与完整数据集中(没有丢失数据)的BWS-procedure结果进行比较。所有的分析都将在真实的数据集中重复。

方法

为了评估bws过程后在Multiply Imputed数据集中的四种不同池化方法的结果,我们进行了模拟研究,并在真实数据集(NHANES)中重复了这些过程。

模拟数据集

  • 1)为了生成模拟数据集,我们使用腰痛患者经验数据集变量的平均值和标准差(SD)作为输入参数[14].见表1.使用平均值和SD作为输入参数,从多元正态分布中抽取了9个变量。

  • 2)生成一组9个变量,包括分类变量、二分类变量和连续变量(正态分布)。

  • 3)在模拟数据集中,分类变量和二分类变量最初被认为是连续的,以确定它们的相关性水平,然后通过使用经验数据集的截止值进行分类(分为4类)和二分类。对于分类变量“Cat1”和“Cat2”,截止值(百分比)为:[0,0.6,0.8,0.9,1]和[0,0.3,0.6,0.8,1]。对于两个二分类变量,中位数被用作截断值。

  • 4)通过将经验数据集的系数相乘,首先计算线性预测器评分,从而获得结局测量(表4)1)。然后使用逻辑回归模型将这些分数转换为概率,并使用均匀分布将这些分数转换为二进制结果,根据的规则是,当概率低于均匀分布的值时,结果为1,否则为0。

  • 5)模拟了4个不同的数据集。两组有200个观测值,一个相关度为0.2,另一个相关度为0.6,类似的还有两组有500个观测值。

  • 6)模型中的一个回归系数的效应大小为零,以模拟变量选择过程中噪声变量的行为(“噪声”)。

表1模拟数据集的均值和方差

生成缺失数据

多重Imputation是在缺失随机(MAR)机制下表示的,这意味着缺失的数据可以被观测数据所覆盖[11].在四个模拟数据集中,在分类变量和两个连续变量(“噪声”和“Cont4”)中都创建了20%的缺失数据。为了创建这些缺失数据,使用了随机缺失(根据MAR)机制。这意味着两个分类变量和连续变量中缺失数据的概率与数据集中的其他变量有关。为此,我们将每个变量中缺失的数据作为另一个变量的函数(例如X1 = X2 * 0.4和X1 = X2 * 0.167),以创造一个真实的数据情况。我们使用了R软件包“simstudy”中的命令“defMiss”(用于用公式选项定义缺失的数据矩阵)和“genMiss”。这些公式值的选择方式是,每个变量中有20%的数据缺失,每个模拟样本中约有50%的情况缺失。

归责方法

在每个模拟数据集中进行MI,使用链式方程多元Imputation (MICE)生成5个估算数据集,包括估算模型中的结果[1516].

池的方法

使用了四种不同的池化方法:

  • 1)汇总抽样方差方法(D1),该方法包含每个输入数据集的汇总参数估计和汇总抽样方差的组合,以构造类似于多元Wald检验的检验[817].

  • 2)多参数Wald检验(D2),将来自多参数Wald或似然比检验的卡方值汇集在一起[9].

  • 3)孟和Rubin pooling method (D3), pooling似然比检验[10].

  • 4)使用中位数的中位数p规则(MPR)P-在每个估算数据集中进行的显著性检验的值。因此,这取决于P-只取值而不取值参数估计值[13].

统计及分析

对所有原始完整模拟数据集和所有多重输入数据集进行逻辑回归分析。系数,SE,P-值,并比较所有开发的预后模型。bws过程是使用不同的P-out选择值(在1.0和0.05之间),以开发包含最强预后变量的简约预测模型,以及包含强和弱预后变量的更大预测模型。

整个过程重复500次,并将结果与完整数据集(没有丢失数据)中的bws -过程的结果进行比较。所有统计程序均在R中进行。

比较池化方法

在比较变量选择的池化方法时,重点关注三点:

变量的选择频率

将每种方法的变量选择频率与完整数据集的变量选择频率进行比较,即不遗漏值,作为参考模型。频率是通过将一个变量在一个模型中被选择的次数除以该运行中模拟模型的总数来得到的。随后,评估哪种池化方法与完整数据集中的选择频率最相似。

P-所选变量的值

为了比较P值,所有P-值首先自然地进行了对数转换,以便能够在中产生最小的差异P-values图形可见。这些的中位数P的中值进行比较P-values在完整的数据集中。

所选预后模型的稳定性

通过提供模型选择频率来评估模型稳定性,以量化一组特定预后变量被选择的次数[418].对前10个独特的预后模型进行了所有池化方法和完整数据集中选择的模型的评估。例如:在一次模拟运行中,应用BWS拟合了500个初始模型,并从这500个模型中选择了完整数据集中的10个独特模型。使用方法D1, 375个模型与完整数据集中的10个唯一模型相同,因此计算出375/500 = 75%的相同唯一模型。使用D2方法,我们看到了350个独特的模型(70%)。D3显示出340(68%)和MPR 450(90%)相同的独特模型。在本例中,MPR是最稳定的池化方法。这种分析预后模型稳定性的方法适用于不同条件下的所有bws程序。

nhanes数据集中的分析

nhanes数据集被用作真实世界的数据集,以评估相同的四种池化方法(D1, D2, D3和MPR)的性能。分析了12个变量,其中6个连续变量,2个二分类变量和4个分类变量,其中一个二分类变量作为结果测度。采用链式方程多元Imputation (MICE)方法进行MI,生成5个估算数据集(m = 5),并将结果纳入估算模型[1516].bws过程是由P-out在所有池化方法中均< 0.05。选取的变量与建立的模型进行了比较。

软件

为了生成完整的模拟数据,我们使用R包“simstudy”,它也用于生成缺失的数据(函数“defMiss”和“genMiss”)。用“rms”包(函数fastbw)对完整数据进行逆向选择,用“mice”包进行impuimput,用“psfmi”包进行pooling。

结果

变量的选择频率

从图中可以确定什么。1一般来说,当P-out值变得更严格时,MPR方法比其他选择方法表现更好。与一个p-out≤0.3在41.6%的模拟样本中,MPR选择了与完整数据集中相同的变量。D1、D2和D3方法分别只占案件的7.1%、3.5%和7.1%。使用更严格的p-out (0.1) MPR方法在46.8%的情况下选择了与完整数据集中相同的变量P在53.7%的病例中,这一比例为0.05。使用不那么严格P-out值(1.0和0.5)在60.5%和51%的情况下,所有池化方法执行相似。

图1
图1

选用频率的变量使用不同P-out-values与完整数据集的比较

表格2显示了所有池化方法中,与完整数据集相比,Multiply Imputed数据集中BWS后变量的选择频率(百分比)。用mpr -方法选择的分类变量与完整数据集中的分类变量最接近。对于连续和二分变量,四种池化方法都没有显示出比完整数据集更好的选择频率。因此,MPR是选择预后变量的最佳池化方法。噪声变量对所有方法的选择频率都很低,在使用a的情况下,只有不到12%的情况下被选择P-out≤0.1和6%的模型与aP-out≤0.05。

表2在Multiply Imputed数据集中使用四种不同的池化方法和完整数据集中,变量逆向选择后的百分比选择频率

P-所选变量的值

为了比较所选变量的p值与完整数据集中的p值,使用了对数转换p值的中位数。表格3.结果表明,对于连续变量和二分变量,池化方法的结果不一致,有时p值更接近于在完整数据集中获得的p值,例如数据集中的变量' Dich1 'N= 200,相关度为0.2,p-out≤0.1,有时不,例如数据集中的变量' Dich1 'N= 200,相关度0.6,p-out≤0.05。总的来说,用mpr方法获得的分类变量的p值始终接近于在完整数据集中获得的p值,无论样本量、相关性程度或所选对象如何P两级。

表3P-经过对数变换和中位数计算后的集合变量的值

数字2显示的百分比之间的协议P-所选变量的值通过不同的池化方法和完整的数据集。结果表明,对于分类变量,mpr方法与完整数据集的一致性最高,一致性达到100%。对p-out的不同水平进行评估,很明显,对于所有p-out,分类变量中池化方法之间的差异有利于MPR方法。对于二分类变量,MPR的性能永远不会比其他池化方法差。对于连续变量,d1方法也表现得相当好,并且比MPR方法表现得更严格p两级值。

图2
图2

通过不同的池化方法选取的变量p值与完整数据集之间的百分比一致性。

所选预后模型的稳定性

表格4显示在应用不同的池化方法后,所选模型如何与完整数据集中所选模型相关联。mpr -方法提供的模型比其他池化方法更类似于完整数据集中的模型。特别是在较小的数据集中(n= 200), mpr -方法更频繁地选择相同的预后模型。分析p-out≤1.0未显示,因为它们对预测模型的开发没有附加价值。见表4和无花果。3.

表4在完整数据集中将选定的预后模型与开发的模型进行比较
图3
图3

四种池化方法中前十个独特预后模型的模型选择频率,量化这些模型与来自完整数据集的模型相比选择的可能性

nhanes数据集中预后模型中的选定变量

表格5结果表明,在所有nhanes数据集中,四种池化方法所选择的变量具有很强的相似性。大多数相同的变量被选择,具有可比的p值。这与模拟研究的结果一致。

表5四种池化方法在nhanes数据集中选取的变量

讨论

主要发现

在定义包含不同类型变量(包括类别变量)的心肌梗死后预后模型时,重要的是使用整体检验来判断类别变量是否与模型相关。在本研究中,使用乘法Imputed模拟数据集和四种选择方法(D1, D2, D3和MPR)对逻辑回归模型中的分类、二分和连续变量进行了评估。将变量的选择频率、所选变量的p值以及所选模型的稳定性与完整数据集中的结果进行比较。MPR的性能在许多不同的条件和变化中进行了测试,并被证实是一种易于应用的方法,并且在mi上下文中的分类变量中始终比其他池化方法更好(以及在选择频率方面,以及在p值方面和模型的稳定性方面)。对于连续变量和二分变量,四种池化方法没有发现一致的差异。

与文献比较

Eekhout等人得出结论,要获得正确和强大的池P- MPR用于类别变量显著性检验的值,与D1、D2和D3方法相比,该结果应从imputation模型中省略[1].如Moons等人所指出的那样,为了获得MI后RR的连续和二分变量的强大显著性检验,MI过程必须包括结果变量。[19].我们在样本量为的数据集中重复模拟研究n= 500和n= 2000,并在两种不同的情况下增加了五个类别的类别变量:一个包括归算模型中的结果变量,一个不包括结果。我们观察到所选预测变量的中位数p值或所选模型的稳定性没有差异。当结果包含在imputation模型中时,只有预测变量的选择频率略高,但这对于所有池化方法都是相同的。数据集越大,四种池化方法之间的差异越小。因此,我们得出结论,对于分类变量的整体显著性检验,结果变量可以包括在imputation模型中。

Heinze et al.和Wallisch et al.指出变量选择会影响最终模型的稳定性。这是一个经常被忽视的数据驱动变量选择问题[418].此外,Royston和Sauerbrei指出,模型的稳定性必须得到证明,因为许多不同的因素会影响所选模型的稳定性[20.21].在我们的模拟研究中,我们通过重复每个过程500次来检查所选模型在Multiply Imputed数据集中的稳定性。一个有趣的结果是,MPR池化方法比其他池化方法产生了更稳定的变量选择。这一结果也反映在nhanes -真实数据集的分析中。Austin等人和Wood等人指出,Multiply Imputed数据集中的变量选择必须使用RR从池模型中完成,这对于连续和二分变量很容易做到,但对于分类变量就不那么直接了[2223].我们区分了所有类型变量的选择,并表明mpr -方法对于连续和二分变量的表现与RR一样好,对于分类变量的表现优于D1-, D2-和d3 -方法。池化方法的可用性取决于它们在统计软件中的可用性。大多数软件包不提供这些结合变量选择的方法,因此对应用研究人员来说遥不可及。mpr规则的优点是它可以很容易地应用于任何软件包中,并且不是一个耗时的过程。

优势和局限性

我们的目的是比较四种不同的选择方法。一个优点是我们使用了两种不同的方法来汇集和选择变量:采用Rubin’s Rules (RR)对连续变量和二分变量进行池化,对分类变量采用D1、D2、D3和MPR池化方法。2.所有变量采用D1, D2, D3和MPR方法进行合并。

在这两种汇集和选择变量的方法之间没有发现差异,即MPR优于所有其他方法。另一个优点是,当所选模型包含与正常实践中发现的结果具有强或弱关系的变量时,我们使用各种p-out值来评估池化方法的行为。我们发现,在大多数情况下,MPR方法可以得到最稳定的模型。

还有一个优点是,除了White和Austin等人的研究外,我们基于经验数据进行了许多不同的模拟条件。我们评估了变量的选择频率P-所选变量的值和所选模型的模型稳定性[2223].此外,我们还添加了一个噪声变量来评估是否所有方法都能很好地处理这个变量。在大多数情况下,mpr方法并不比其他方法差。一个限制可能是模拟研究使用的协变量比实际数据集中使用的协变量少。然而,NHANES数据集包含了较弱和较强的变量,就像现实世界的数据集一样,NHANES数据集的结果证实了我们在模拟研究中看到的结果。

另一个限制可能是我们在模拟集中只使用了两个不同的相关级别(0.2和0.6)。然而,为了建立我们的模拟研究,我们最初使用了Wood, White和Royston [23]关于多重输入数据集中的变量选择方法,这最接近我们的研究目标。他们报告的相关性为0.62,并将其定义为高相关值。因此,我们在研究中使用了0.6的高相关性。我们希望将这种高相关性与低相关性进行比较,并使用了0.2的值。我们认为,通过使用这些相关值,我们能够很好地测试数据集中的方法,这些方法在医学研究中常见,其中包含具有可比低相关性和高相关性的变量。另一个限制可能是我们使用了一个快速向后选择过程来选择完整数据集中的变量[24].众所周知,这可能不是最有效的选择方法[2425].另一种选择可能是使用更先进的方法,如最小绝对收缩和选择算子(LASSO) [25].然而,LASSO是为预测因子数量远高于人数的情况而开发的。在许多医学和流行病学数据集中,情况并非如此。LASSO估计的另一个问题是它依赖于协变量的尺度。解决这一问题的方法是在LASSO软件中对单位方差进行内部标准化,然后再进行变量选择。在此基础上,将回归系数回归到原尺度。然而,目前尚不清楚“一刀切”类型的变量标准化是否是所有建模目的的最佳选择。因此,使用快速向后选择过程是比较池化选择方法与完整数据集中类似选择过程的最佳选择[4].另一个限制可能是我们认为所有连续变量都是正态分布的,而在实际中也存在非线性关系,因此需要进一步研究在多重输入数据集中对这类变量的选择。

结论

评估四种池化方法(D1, D2, D3和MPR)在多重输入数据集中对类别、二分和连续变量进行分类选择,在使用bws程序进行逻辑回归分析时,MPR池化方法在较小数据集中选择类别变量时表现始终优于其他方法(N≤500人)。变量选择频率、其p值、预后模型的选择频率及其稳定性与使用mpr方法的完整数据集中的分析更相似。对于连续的和二分的变量,这四种池化方法实际上没有一种比其他方法执行得更好。在大型数据集中,四种池化方法之间几乎没有差异。这些结果在真实数据集(NHANES)的分析中得到了证实。考虑到MPR是流行病学家和应用研究人员使用的最简单和容易的汇总方法,我们谨慎地建议使用MPR方法结合bws程序来汇总MI后两个以上级别的分类变量。由于MPR在连续变量和二分变量上的表现从未比其他方法差,我们也建议在这些类型的变量上使用MPR。

数据和材料的可用性

支持本研究结果的数据可从阿姆斯特丹大学医学中心的网络服务器获得,但这些数据的可用性受到限制,这些数据是在当前研究的许可下使用的,因此不能公开。然而,在阿姆斯特丹大学医学中心的合理要求和许可下,数据可由作者之一M.W. Heymans提供。

缩写

小姐:

多个归责

RR:

鲁宾的规则

受虐妇女综合症:

逆向选择

SE:

标准错误

MPR:

p值规则的中位数

SD:

标准偏差

老鼠:

链式方程的多元归责

参考文献

  1. 艾克胡特I,范德威尔M,海曼斯MW。多重归因后逻辑回归模型类别协变量的显著性检验方法:力和适用性分析。BMC医学Res Methodol. 2017; 17:29。

    文章谷歌学者

  2. 鲁宾DB。推理和缺失数据生物识别。1976;63:581-92。

    谷歌学者

  3. 穆恩斯,艾德曼,杰比,等。个体预后或诊断(TRIPOD)的多变量预测模型的透明报告:解释和阐述。中华外科杂志,2015;29(1):344 - 344。

    文章谷歌学者

  4. Heinze G, Wallisch C, Dunkler D.变量选择-对实践统计学家的回顾和建议。中国生物工程学报,2018;36(3):344 - 344。

    文章谷歌学者

  5. 为什么变量选择中的降序程序。技术计量学。1970;12:621-5。

    文章谷歌学者

  6. Steyerberg电子战。临床预测模型。开发、验证和更新的实用方法。莱顿:施普林格科学和商业媒体。有限责任公司2019

  7. 马歇尔A,阿尔特曼DG,霍尔德RL,等。多重imputation后的预后模型研究的联合估计:目前的实践和指南。BMC医学Res Methodol. 2009;9:57。

    文章谷歌学者

  8. 恩德斯CK。应用缺失数据分析。纽约:吉尔福德出版社;2010.

    谷歌学者

  9. 李海峰,王晓明,王晓明,等。从重复p值与乘法输入数据的显著性水平。中国科学,1991;1:65-92。

    谷歌学者

  10. 孟X-L, Rubin DB。使用乘法输入数据集执行似然比检验。Biometrica。1992;97:103-11。

    文章谷歌学者

  11. 缺失数据的灵活归因。第二版。牛津郡:CRC/Chapman & Hall;2018.

  12. eekout I, de Vet HCW, Twisk JWR,等。多项目仪器中的缺失数据最好通过项目评分水平的多重imputation来处理。中华临床流行病学杂志。2014;67:335-42。

    文章谷歌学者

  13. van de Wiel MA, Berkhof J, van Wieringen WN。测试两个预测器之间的预测误差差异。生物统计学。2009;10:550-60。

    谷歌学者

  14. Heymans MW, de Vet HC, Bongers PM,等。高强度与低强度学校在职业环境中的有效性:一项实用的随机对照试验。脊柱。2006;31(10):1075 - 82。

    文章谷歌学者

  15. 陈志强,陈志强,陈志强,等。基于链式方程的小鼠多变量归一化研究。中国生物医学工程学报(自然科学版),2009;

    谷歌学者

  16. 怀特IR,罗伊斯顿P,伍德AM。使用链式方程的多重归责:实践的问题和指导。统计医学2011;30:377-99。

    文章谷歌学者

  17. 恩德斯CK。分析缺失值的纵向数据。精神康复,2011;56:267-88。

    文章谷歌学者

  18. Wallisch C, Dunkler D, Rauch G等。多变量模型的变量选择:通过重采样量化模型稳定性的机会和限制。中华医学杂志2021;40(2):369-81。

  19. 张文杰,张志强,张志强,等。使用结果来估算缺失的预测值是首选。临床流行病学杂志2006;59:1092-101。

    文章谷歌学者

  20. 王志强,王志强。多变量模型的建立。一种实用的方法回归分析基于分数多项式建模连续变量。第八章:模型稳定性。新泽西州:John Wiley & Sons。有限公司2008。

  21. 绍尔布雷W, Perperoglou A, Schmid M,等。在多变量分析中选择变量和函数形式的艺术状态-突出问题。诊断与预后研究,2020;4:3。

    文章谷歌学者

  22. 李世昌,李世昌,高德华,等。当使用多重imputation时,变量选择策略对预后模型性能的影响。Circ心血管质量结果。2019;12:e005927。

    文章谷歌学者

  23. Wood AM, White IR, Royston P.如何用多重输入数据进行变量选择。统计医学2008;27:3227-46。

    文章谷歌学者

  24. Frank E. Harrell, JR.回归模型策略。应用于线性模型,逻辑和序数回归,和生存分析。瑞士:施普林格国际出版公司;2015.

  25. 邵LTP,盖斯库。模型选择方法的比较预测存在多重输入数据。中国生物工程学报,2019;32(2):343-56。

    文章谷歌学者

下载参考

确认

作者感谢Mark v.d. Wiel批判性地阅读了分析部分并提供了专家建议。

资金

不适用。

作者信息

作者及隶属关系

作者

贡献

M.W.海曼斯提出了研究概念和设计。点Panken和M.W. Heymans进行了数据分析,解释了结果,并撰写和起草了手稿。两位作者都同意提交手稿的最终版本。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到a.m.潘肯

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

不适用。

额外的信息

出版商的注意

188博金宝app网施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

潘肯,a.m.,海曼斯,M.W.在多重输入数据集中进行变量选择的简单池化方法优于复杂方法。BMC医学Res Methodol22, 214(2022)。https://doi.org/10.1186/s12874-022-01693-8

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12874-022-01693-8

关键字

  • 逻辑回归
  • Median-p-rule
  • 多个归责
  • 池选择方法
  • 变量的选择