跳到主要内容

在复杂的,深度表型数据集的数据植入策略的评估:欧盟- aims纵向欧洲自闭症项目的案例

摘要

越来越多的大规模多模态研究项目已经在典型的发展中人群中进行,如。Dev Cogn。Neur. 32:43-54, 2018;公共科学图书馆医学杂志,12(3):e1001779, 2015;Elam and Van Essen, Enc. Comp. Neur。,20.13.,作为well as in psychiatric cohorts, e.g. Trans. Psych. 10(1):100, 2020; Mol. Psych. 19:659–667, 2014; Mol. Aut. 8:24, 2017; Eur. Child and Adol. Psych. 24(3):265–281, 2015. Missing data is a common problem in such datasets due to the difficulty of assessing multiple measures on a large number of participants. The consequences of missing data accumulate when researchers aim to integrate relationships across multiple measures. Here we aim to evaluate different imputation strategies to fill in missing values in clinical data from a large (totalN= 764)和深度表型(即临床和认知工具的使用范围)的样本N= 453名自闭症患者N= 311名对照组,作为EU-AIMS纵向欧洲自闭症项目(LEAP)联盟的一部分。特别是,我们考虑总共160个临床措施,分为15个重叠的参与者子集。我们使用两种简单但常见的单变量策略——均值和中值推估——以及轮询回归方法,涉及四个独立的多元回归模型,包括贝叶斯岭回归,以及几个非线性模型:决策树(额外树)。,和最近邻回归。我们使用传统的均方误差对移除的可用数据进行评估,并考虑了观测分布与估算分布之间的Kullback-Leibler散度。我们表明,与典型的单变量方法相比,所有测试的多变量方法都提供了实质性的改进。此外,我们的分析显示,在所有15个测试数据子集中,额外树回归方法提供了最佳的全局结果。这不仅允许选择一个独特的模型来为LEAP项目归因缺失的数据,并提供一组固定的归因临床数据,供将来使用LEAP数据集的研究人员使用,而且为大规模流行病学研究中的数据归因提供了更一般的指导方针。

同行评审报告

简介

在临床环境中,通过问卷调查、观察方法或访谈和行为评估获得了涉及多个个体的广泛数据(\ (n \))和若干临床变量(\ (p \)).数据缺失是数据分析中普遍存在的问题[123.456]因为大多数算法不能直接处理缺失值的存在。尽管存在能够处理缺失观测的模型,但这些模型是稀缺的,是为特定分析量身定制的,因此它们的使用是有限的,不是标准程序[789].相反,研究人员在这种情况下进行的通常方法是减少样本量(\ (n \)),剔除数据变量缺失的个体,即可用案例分析[10],导致进一步分析的统计能力下降[11].当执行涉及多个变量的多模态分析时,这个问题变得尤为明显[1213],例如分类或聚类,因为任何此类分析中可用的个体数量将受到同时可用的几种临床措施的限制,从而进一步减少样本量。样本量的减少对统计能力有直接影响,导致对结果的敏感性和特异性降低,并限制了可以调查样本异质性的程度。这是有问题的,特别是在通常预期效果很小的情况下,例如在计算精神病学中。与此同时,样本量的增加也将为观察到的模式提供更多的可信度,并提高可重复性。由于一个或多个缺失值而排除参与者时的其他重要问题是相关的“经济成本”,即没有利用在研究中投入的所有(研究)资源,以及“人力成本”的伦理问题,即在数据收集过程中实验者和参与者的高时间投资。此外,当人们想要研究不同数据模式之间的关系时,数据丢失可能会对分析产生更大的影响,例如临床/行为变量和神经成像或遗传数据[1415].基本上,缺少临床测量会减少完整的成像/遗传样本,导致统计能力的显著损失,以及资助者、研究人员和研究参与者对投资的严重利用不足。在大数据联盟的情况下,这是一个特别的问题,因为大范围的昂贵数据收集正在执行[1617181920.2122232425]。处理缺失数据值的另一种方法是数据归责30.].这种方法通过应用对缺失值的统计估计来替代缺失值,从而避免减少样本大小并防止相关的损失问题。一种非常常见和简单的行为或临床数据的归因策略是用各自变量的观察样本值的平均值或中位数代替个体缺失值。尽管这种方法允许保留原始样本量,但它并不能提高后续分析的统计能力,原因是独立临床观察的数量(特定测量的“真实”自由度)保持固定。此外,当临床组中可能存在异质性时,例如当观察值的分布不是单峰时,这种简单的归因策略就不太适合。一种更先进的策略是基于多元回归模型,它规避了均值/中值imputations的这一缺点,从而能够增加独立观测的数量[31].这些用所有临床变量,以获得对每个变量的每个缺失值的期望[32].这种方法通常使用循环[Round-Robin] [3334计划回归,其中缺失值期望通过所有变量迭代更新,直到缺失值的分布达到收敛。这个过程可以在文献中找到,在不同的符号下,如通过链式方程的imputation [34],序贯回归imputation [35]或更一般地说,完全条件规范[36].在这种方法中,对于不同的参与者,给定变量的每个缺失值期望都是不同的,因为它是基于每个参与者独立的所有变量的观察和期望。因此,相对于简单的单变量imputation方法,这种方法增加了独立观测的数量。显然,Round-Robin多元回归策略的结果依赖于所选择的回归模型,事实上,这种选择是实践中使用的最常见的imputation包之间的最大区别。例如,一些常用的包使用参数回归过程[34],而另一些则采用非参数回归模型[37],所有情况都嵌入到Round-Regression调度过程中。此外,这些模型还可以通过多次随机初始化来评估,即多次imputation [38],以获得同时反映估计参数不确定性的统计数字。

在这项工作中,我们使用了来自欧洲自闭症干预多中心研究(EU-AIMS)的行为/临床数据,纵向欧洲自闭症项目(LEAP)联盟-最大的国际多中心倡议,致力于识别自闭症谱系障碍(以下简称“自闭症”)中的生物标志物。为了在神经生物学和遗传水平上研究自闭症,研究人员从自闭症诊断人群以及6-30岁之间的正常发育(TD)人群中收集了数据。样本经过一系列行为、认知和临床评估,以及广泛的定量测量,如脑电图、结构和功能磁共振成像、生化标志物和基因组学,进行了深度表型分析[17].特别是在LEAP样本中,以及在大多数大型成像联盟中,由于获得了广泛而昂贵的成像和遗传数据,行为和临床数据的缺失会产生很大的影响。因此,临床数据归因已经证明了充分利用这样一个丰富而有价值的数据集的潜力是必要的。在纵向研究设计(如LEAP)的背景下,这种需求变得更加明显,其中在一个时间点缺失的行为和临床数据对有意义的纵向分析提出了额外的挑战。本工作的目的是对不同的归算模型进行系统和广泛的评估,以便能够为EU-AIMS LEAP队列特别是提供最先进的归算程序,并提供一组独特的归算数据供所有参与LEAP的研究人员使用。因此,我们目前的工作旨在避免由于不同的研究人员使用不同的模型来为他们未来的个人分析注入临床数据而产生的偏差,例如在将大脑或遗传学数据与临床测量相关联时。由于对这种模型的评价不是微不足道的,我们开发了量化措施来评估归责的质量。

方法

数据集

EU-AIMS LEAP是迄今为止最大的关于自闭症生物标志物的多中心、多学科观察性研究,涉及764人的大样本,包括453名自闭症儿童、青少年和成人,以及311名年龄在6至30岁之间的TD个体(或无自闭症的轻度智力障碍[ID])。每个个体在多个层面上都有全面的特征,包括他们的临床特征、认知、大脑结构和功能、生物化学、环境因素和基因组学。这项研究采用了“加速纵向设计”,由年龄和能力水平定义的四个队列组成:6-11岁患有自闭症或典型发育的儿童,智商在典型范围内,12-17岁患有自闭症或TD的成年人,智商在典型范围内,18-30岁患有自闭症和TD的年轻人,智商在典型范围内,12-30岁患有/不患有自闭症的轻度智力残疾的青少年和成年人[1739].这项研究涉及深入表型的综合方法。由于年龄和能力水平的差异,根据实验设计将测量方法分为在所有参与者中评估的核心测量方法,以及在某些计划中选择性给予的测量方法,这些计划适用于认知功能较高的青少年和/或成年人,但不适用于儿童和轻度ID。这包括问卷调查方法,在所有时间表中,父母都被用作信息来源(除了正常发育的成年人,父母无法参与研究),而自我报告问卷只用于青少年和成人。我们还旨在为患有ID的儿童和年轻人减少实验测试的测试负担(例如,磁共振成像[MRI]采集次数)。完整的方案包括a)人口统计学,如照顾者的教育程度和父母的家庭收入或病史,b)自闭症特征的观察措施(例如,自闭症诊断观察表[ADOS] [40]), c)基于父母的访谈(例如,自闭症诊断访谈[ADI-R] [41]、葡萄园适应行为量表[VABS-II] [42]), d)核心自闭症表型的父母和自我报告问卷(例如,社会反应量表[SRS-2] [43];重复行为量表[RBS-R]44];短感觉剖面[SSP] [45])、相关特征(例如睡眠习惯问卷[46]、共情商[474849]、儿童健康及疾病概览[50]和通常同时发生的情况的测量(例如,注意缺陷/多动障碍[ADHD]: DSM-5 ADHD评分量表;优势及困难问卷[51];发展及福祉评估[52,焦虑:贝克焦虑量表[53,抑郁:贝克抑郁量表[54])。我们有意纳入了几份建构内容重叠的问卷,如评估自闭症的核心特征,以进行外部验证。这意味着某些指标之间的高相关性是意料之中的。该方案还包括e)认知评估,包括例如,智力功能(IQ):韦氏儿童智力量表(WISC) [55]、韦氏成人智力量表(WAIS) [55]用手习惯:爱丁堡用手习惯量表[56],社会认知,(例如,心理理论:动画形状任务[57];错误信念任务[58]);空间工作记忆[59].一些认知测试使用行为反应变量,而另一些也获得了功能性大脑反应(例如,使用功能性核磁共振成像[fMRI] Flanker任务[60]、社会及非社会奖励任务[61或脑电图[脑电图,例如,错配负性,面部处理])。临床队列和扩展特征的详细描述可在[1739].在本文中,我们总共考虑了160个临床测量值,包括2个不包含缺失值的名义二元变量(诊断和性别),42个连续值变量和116个序数值变量。分析中包含的所有措施的完整详细清单见补充表1(死神)。

本文中考虑的160个测量方法扩展了自我和父母报告的测量方法,包括为所有764名参与者获得的测量方法子集,为所有453名自闭症患者获得的测量方法子集,以及为四种不同的注册时间表(成人、青少年、儿童或智力残疾)定义的个人子集获得的几个其他测量方法子集。根据分组(自闭症vs. TD)、时间表和获取方法,总共形成了15个不同的子集。表中总结了所有这些采取措施的参与者子集1,其中定义了总共15个不同的个体和测量子集。对变量数量(p)、个体数量(n)、缺失样本百分比以及目标组(即诊断组和登记时间表)的总结,该测量应该首先在其中获得(即绿色组与未获得组=红色)。

表1从EU-AIMS LEAP联盟在第1波获得的所有临床数据汇总为15个不同的子集,如每行所示。这些列显示了每个子集中包含的变量和参与者的数量,以及缺失数据的百分比。用颜色编码的列表示每个列中所示的参与者子组的可用性(绿色)或缺乏数据(红色)

在无花果。1,我们显示了所有这些变量的相关结构,按子集分组,如水平和垂直黑线所示。我们观察到一些子集不共享参与者(白色区域),而且许多测量在子集内部和子集之间是相互相关的,这为多元imputation策略提供了主要动机。关于每个子集中包含的变量的更详细信息可以在补充表中找到1

图1
图1

160项临床测量的相关结构。白色区域对应于没有共享参与者的度量子集

有28项核心临床/行为/人口统计指标,包括所有764个人(子集1),这些指标包括年龄、性别、智商或用手习惯等。在子集2中,我们观察到包括ADOS和ADI在内的所有453名自闭症患者共有8项测量。子集3包括653名参与者,包括所有TD个体以及所有自闭症儿童和青少年;它包括30项测量,其中一些是重复行为或短感官测量。子集4也排除了子集3中的TD青少年,并涉及Vineland适应性功能量表[42].子集5包括TD和自闭症患者,但不包括ID患者;这包括总共653个个体和4个认知任务测量,包括Hariri [62]和心理理论任务[5763].子集6排除了子集5中的所有儿童,共产生478名个体和32项临床措施,例如Flanker [6064]或社会反应量表测验[65].子集7也用于TD和自闭症患者,但不包括成年人和ID超过18岁的患者,包括共458名参与者和6项测量,如儿童社会行为量表(CSBQ) [6667]及儿童健康及疾病概览[7273调查问卷。不需要进一步说明其余子集的细节,很明显,包括在这些子集中的个人,也部分包含在其他子集中,完整的图片是参与者和测量的复杂组织(基于诊断组、时间表和采集类型)。由于临床数据收集的结构如此复杂,因此不能使用所有变量来直接归因所有其他变量,因为归因某一组在第一阶段不应该获得的数据是不明智的,这会导致偏倚。例如,在TD个体中引入ADI或ADOS测量是不合适的,因为在本研究中,我们没有试图获得TD参与者的ADI和ADOS。值得注意的是,这15个临床测量子集具有非常不同的性质。首先,就观测值与变量数量的比值而言,\ (n / p \)(见表1).因此,任何回归模型在每个子集上的性能都是不同的,即使是在不丢失数据的假设情况下。为了完整起见,让我们记住一个更高的\ (n / p \)比率允许更稳健和可靠的学习[7475].其次,较高的缺失值百分比使得缺失值的估计更加困难。

在无花果。2我们将缺失数据本身的一些特征可视化,每行表示15个子集中的一个。左列将缺失的值本身表示为蓝点,x轴表示参与者,y轴表示完整数据子集中包含的变量数量。例如,我们可以观察到子集1包含一些没有缺失值的度量(没有蓝点的行),这些度量包括诊断、年龄和性别。总的来说,对于所有的子集,我们可以看到白色的垂直线表示个体获得了许多变量,而白色的水平线则是指数度量个体获得了许多变量。

图2
图2

每行显示关于15个子集中的一个的信息。第一列(左)以蓝点表示缺失数据,x轴表示个体,y轴表示临床措施数量。第二和第三列分别表示每对个体中共享的缺失变量的百分比,以及每对行为测量中缺失个体的百分比,用较深的颜色表示增加的百分比。第四和第五列是直方图,显示缺少一些变量的个体数量,以及被一些个体缺少的变量数量。第六列表示每个子集内部的相关结构,即图的对角线子平方。1

在第二和第三列中,我们分别对每对个体之间共享缺失变量的百分比和每对变量之间共享缺失个体的百分比进行了颜色编码。在这两列中,颜色较深的区域分别表示缺少许多共享值的个体对或度量。第四和第五列分别表示缺失个体和变量数量的直方图。第六列表示每个子集上变量之间的相关性,其中非对角线图像显示了这些度量上的相关结构,这促使使用多元模型来估计每个子集上的缺失值。

归责的策略

对于本文的其余部分,我们用\ (n \)个体数量,由\ (p \)变量的数量,和by\ \(米)缺失值的数目,其中\ (m = \ sum_ {j = 1} ^ {p} {m} _ {j} \)而且\ ({m} _ {j} \)的缺失观测数\ (j ^ {th} \)变量。因此,我们考虑数据矩阵的赋值问题\ (D \)大小为n乘以p\ \(米)缺少的值,我们表示为(\ D {} ^ {*} \)估算的数据矩阵。我们考虑使用六种imputation策略,包括两种简单但常见的单变量策略,均值和中位数imputation,以及四种多元回归模型,包括线性模型,贝叶斯岭回归[76],以及一些非线性模型,决策树(DT) [77]、额外树木(ET) [78]及最近邻[71].表格2提供这些模型的概述。由于该数据集中所有需要归因的离散变量都是序数变量,其中一些变量可以取大量可能的值,因此我们决定避免对序数变量使用分类模型,并在需要时使用回归模型进行归因[79].

表2所考虑的归责策略

单变量归责策略替代了每个变量上所有缺失的观测值\(j \ ε \左\{1\dots p\右\}\)通过在该变量的非缺失值上的一些相关的汇总统计,即在的可用项上的一些统计\ (j ^ {th} \)列的\ (D \).在这里我们特别考虑了均值和中值imputation策略。

从统计学和临床的角度来看,这种策略都是次优的;从统计的角度来看,他们忽略了图中数据的相关性。1而且2从临床的角度来看,因为我们知道自闭症,像许多其他神经发育和神经精神疾病一样,在临床和病因学上是异质的,这意味着我们已经先验地假设在潜在的不同亚组中,临床变量和基础机制之间存在不同的关系。

这些事实强烈地促使人们转向多元模型进行归责。在多元方法的情况下,由于每个变量缺失值的归属都需要所有变量,我们使用Round-Robin [33回归方法,将每个变量依次视为输出。这种方法需要为变量赋值定义一个顺序。为了简单起见,这里我们考虑的是一种顺序,其中变量是按照缺失值的数量升序计算的。首先,一旦根据所选变量的顺序选择了第一个要赋值的感兴趣变量,所有其他缺失数据值的变量将使用平均赋值设置为其期望值,并使用所考虑的多元回归模型获得感兴趣变量缺失值的期望。然后根据顺序选择下一个感兴趣的变量,并如上所述估计最初缺失的值。对所有变量重复该过程,以结束round - robin迭代过程的第一轮,并获得所有缺失值的估计值,这些值因此不同于分配的初始平均imputation值。循环循环根据需要重复多次,每一轮使用上一轮的估计缺失值,直到所有变量的所有估算值收敛为止。这里我们将Robin-Rounds的最大数量设置为100。所有计算均使用公开工具进行[80].

归责顺序

如表所示1,根据获取数据的人群,临床数据分解为一个非常复杂的测量组织,可以概括为15个不同的数据子集。因此,对某些个体来说,在实验设计中不打算为他们获得的测量是不明智的。然而,由于我们在图中也观察到了子集之间的相关性,因此15个子集中的每一个独立的imputation都是次优的。1.因此,需要结合子集来最大化归责能力。为此,我们进行了详尽的搜索,以找到每个子集的最优归属顺序,而对于目标子集的归属,我们使用任何先前归属的子集,只要目标群体包含在先前归属的子集中。

该过程从孤立地计算子集1开始,因为所有参与者都计划根据这28个变量进行测量。值得一提的是,我们从子集1中删除了临床测量“诊断”,以避免对诊断标签的归一化,并避免在对这些归一化数据的任何后验研究中产生偏倚效应。我们的蛮力优化表明,下一个要归属的子集应该是子集3,这是所有参与者获得的,只有自闭症成年人除外;对于子集3的imputation,我们使用了子集1的imputation值,除了子集3上的变量外,还限制在子集3中的个体。在子集4和子集2之后。在表3.我们提供了执行的排序结构,以最大限度地提高所有归属过程的能力,其中星号表示归属文件。第四列表示每个输入文件的已估算文件。

表3各子集的归责顺序最后一列显示了用于第二列中所示的每个子集的估算子集

请注意,由于这样的实验设计,当考虑我们样本中的所有160个测量值时,在某些变量的缺失值倾向与观测数据之间存在系统关系。例如,一些测量(子集10)仅针对成年人,而年龄也是一个可用的变量。因此,当把所有160个度量放在一起考虑时,某些变量的数据很可能缺失随机失踪(3月)81].虽然我们不能区分MAR和失踪不是随机的(MNAR) [81]而没有对数据集进行后续干预、现场专业知识和仔细的数据收集,这表明我们数据集的变量中缺乏MNAR结构。此外,当单独考虑每个子集的imputation时,或者按照我们介绍的不同子集的imputation顺序时,每个子集只使用相应诊断组、年龄或智商范围的受试者进行imputation,使得每个子集上的缺失数据极有可能是完全随机缺失(MCAR) [81].虽然有工具可以深入了解数据是MCAR还是MAR [2627],已证明在这两种情况下,使用迭代imputation方案均可获得无偏估计[28].

评价

由于归因选择可能会对临床-大脑/遗传学关联产生强烈的偏倚效应,因此需要对归因结果进行严格的验证。为了量化每个imputation模型的质量,我们使用了两种不同的度量方法。

  1. 1)

    我们首先计算的质量的imputation使用一个观察-排除交叉验证方法。更确切地说,对于每个imputation模型,我们执行左(nxp \ \ (\) - m \)归因问题,在每个问题上我们都在原始问题上加上一个额外的缺失值,比如说在位置上\ ((i, j) \),得到m + 1个缺失值的数据矩阵。这意味着(\ D {} _ {i, j} \)是在交叉验证循环的一个折叠中被人为移除的原始观测值,以便能够通过与在该位置获得的imputation值的比较来评估位置(i,j)的imputation误差,(\ D {} _ {i, j} ^{*} \)。为表示法清晰起见,在中表示变量下标\ (D \)作为\(j \ ε \{1,\dots,p\}\)的原始可用观测索引j-th变量\ (D \)作为\(我\ε\ {{k} _ {j, 1}, \点,{k} _ {j n - {m} _ {j}} \} \).在使用任何选定的imputation模型进行imputation后,获得一个imputation数据矩阵(\ D {} ^ {*} \)时,我们计算移除值处的总误差(\ D {} _ {ij} \)作为

    $ $ E左(i, j \右)= \ \√6{{\离开({D} _ {ij} - {D} _ {ij} ^{*} \右)}^ {2}}$ $

    为了有一个误差测量考虑到每个变量的尺度独立,我们定义了一个相对误差(RE)测量,通过在E的观测值的平均值\ (D \),每个变量j独立。这是

    $ $再保险左(i, j \右)= \ \√6{{\离开(\压裂{{D} _ {ij}}{{\μ}_ {j}} - \压裂{{D} _ {ij} ^{*}}{{\μ}_ {j}} \右)}^{2}}= \√6{\压裂{{{D} _ {ij} - {D} _ {ij} ^{*})} ^{2}}{{\μ}_ {j} ^{2}}} = \压裂{\√6 {{({D} _ {ij} - {D} _ {ij} ^{*})} ^{2}}}{|{\μ}_ {j} |} = \压裂{E (i, j)}{{| \μ}_ {j} |} $ $

    在哪里\({\μ}_ {j} = \压裂{1}{n - {m} _ {j}} \ sum_ {k \ε{O} _ {j}} {D} _ {kj} \)

    因此\ (RE (i, j) \)是简单的缩放版\ (E (i, j) \)这与相对于变量值大小的误差大小有关,并且在没有估计误差的情况下赋值为0,当误差(\ \ (E))是该变量的平均观测值的大小。这种表示法便于对上的值进行比较\ (RE \)跨变量,取不同尺度的值。最后,总结一下\ (RE \)对于每个变量,我们取其在该变量上的观测值的平均值,并表示为

    $ $绝笔(j) = \压裂{1}{n - {m} _ {j}} \ sum_ {k \ε{O} _ {j}}再保险\离开(k, j \右),所有j的\ \ε\左\{1 \点p \ \} (1) $ $
  2. 2)

    我们使用Kullback-Leibler (KL)散度[75]来衡量数据对值分布的整体影响。KL散度对相同的分布赋值为零,对彼此偏离的分布赋值为递增。我们对原始数据矩阵进行了赋值\ (D \)并在每个变量独立计算初始观测分布与缺失参与者的估计值分布之间的KL散度。更准确地说,

    $ $ KL \离开(p {} _ {j} | | {q} _ {j} \右)= \ \和限制_ {x} {p} _ {j}左(x \) \ \ mathrm{日志}\离开(\压裂{{p} _ {j} \离开(x \右)}{{q} _ {j} \离开(x \右)}\右),所有j的\ \ε\左\{1 \点p \ \} (2) $ $

在哪里\ ({p} _ {j} (x) \)观测值的分布是\ (j ^ {th} \)变量和\ ({q} _ {j} (x) \)同一变量[的估算缺失值的分布74].

值得注意的是,一个特定测量的缺失值的数量在一定程度上是由实验设计引起的。原因是测量是在确定的相关性顺序中获得的,因为预期有几个参与者可能不会完成所有的问卷。因此,通过实验设计,有更多的受试者缺少特定的变量集,这可能导致这些变量的交叉验证MRE存在偏差。这种偏差可能会发生,因为人工移除的值可能比实际缺失的值更容易估计(因为在迭代估算过程中,人们可能不依赖于其他变量的期望值,而是依赖于真实的观察结果)。因此,在交叉验证设置中,MRE可能被低估,并且不能在真正缺失值中代表真正的泛化误差。这促使引入第二个误差度量,即KL散度,它将惩罚在偏离观测分布的缺失值处提供分布的模型。

虽然这些绩效指标对每个变量都有信息,但它们不能简单地组合在一起,因为它们在不同的尺度上量化了不匹配。然而,我们可以通过考虑相对于某些参考模型的每个变量的MRE和KL值来构建一个二维误差函数。因此,为了能够同时考虑误差的MRE和KL度量,并能够将许多变量放在一起得出任何结论,我们定义了平均imputation模型作为参考模型,并为每个变量,每个模型的MRE和KL度量除以由平均imputation模型获得的MRE和KL值。这样,我们就得到了MRE和KL测量相对于平均imputation,为每个变量分配到平面点(1,1)的平均imputation性能,所有其他性能都可以放在一起,因为它们代表了相对于平均imputation的相对改进。因此,对于给定的变量和固定的imputation模型,我们考虑这种二维“误差向量”的robenious范数,即误差向量中绝对平方值之和的平方根[29],作为结合了MRE和KL的全局误差度量。

结果

按照表中所示的15个临床措施子集排序3.,我们开始对EU-AIMS LEAP临床数据集中的缺失值进行归因。如“方法:数据集”一节所述,这些数据矩阵中的每一个都对执行它们的imputation提出了不同的挑战,例如子集6比子集2更具挑战性,因为子集有更小的\ (n / p \)比例,并有更多的缺失值(见表1).因此,这15个子集可以作为一个有趣的测试平台,用于研究不同算法的鲁棒性,而不仅仅是这个数据集,因为我们可以检查比较困难问题的性能与简单问题的关系。

数字3.显示了相对于每个子集(子图)的平均imputation的MRE和KL平面,每个点表示该子集中的一个临床变量,不同的imputation模型用颜色编码,彩色方块表示该子集中给定模型值的平均值。此外,右下角的图显示了每个模型在所有15个子集的所有测量指标上的平均性能。回顾一下解释,相对于y轴较低的模型相对于KL散度表现得更好,而相对于x轴绘制得更左的模型相对于MRE测量表现得更好。从全局来看,更接近(0,0)的模型性能更好。我们首先观察到,一般来说,在MRE和KL散度方面,平均值和中值imputation的表现比所有其他模型差得多,即蓝色和黄色的点显示出最高的误差。这清楚地证明了多变量模型在此类临床测量归责方面的优越性能。对于多元模型,我们认为神经网络相对于KL表现良好,这是有道理的,因为通过观察一些最近的邻居,它可以对整个空间进行抽样,并得到一个更接近最初观察到的分布。然而,神经网络无法提供相对于MRE的鲁棒改进,并且在某些子集中甚至比平均imputation更差(图中没有出现红色方块,例如子集13)。从剩下的三个模型中,我们观察到额外树回归(紫色)和贝叶斯岭回归(绿色)优于决策树(棕色)。尽管Extra Trees和Bayesian Ridge在MRE方面都提供了令人印象深刻的改进(误差减少了~ 40%),但Extra Trees在KL散度方面提供了更大的改进(~ 75 vs ~ 55%的KL减少)。 Another interesting observation is that the imputation of all subsets provide a similar pattern of organization of the models performances, showing the robustness of the models performances across all subsets. This is an interesting finding given the huge differences in the\ (n / p \)比例,以及在每个子集上的缺失观察数(表1).这种表示证实了中值imputation提供了与平均imputation相似的性能,并且它们从考虑的模型中不太准确。它进一步表明BR总体上提供了非常高的相对MRE改善,但相对KL改善低于其他多元模型。它进一步强调了额外树回归是在预期中表现最好的模型。事实上,为了比较最好的两个模型,ET与BR模型相对KL vs MRE平面的二维误差范数之间的配对t检验显示,ET模型的误差显著降低(t = 4,01,p-value < 9 × 105).

图3
图3

在每个子集中获得的临床测量的imputation性能的可视化。每个子图以点的形式表示子集中每个临床测量的性能,以及考虑的6个imputation模型(颜色编码)。彩色方块显示了每个模型跨度量的平均值。对于每个子集,x轴表示相对于平均imputation模型的平均imputation误差(MRE), y轴表示可用(观测)数据和缺失值处的估算数据之间的kl -散度,同样相对于平均imputation模型。图例中的颜色编码:蓝色和黄色分别代表单变量模型、均值和中值imputation;绿色代表多元线性贝叶斯岭回归模型(BR)。其余颜色编码多元非线性模型,棕色编码决策树(DT),红色编码最近邻(NN),棕色和紫色额外树回归器(ET)。

讨论

我们对六种不同的归责方法进行了综合分析和评价,比较了不同方法进行临床变量归责的优缺点。为此,我们使用了来自EU-AIMS LEAP数据集的15个不同临床变量子集,这些子集在变量数量与观察数量之间的比值(n/p)以及缺失数据值的百分比方面具有相当大的差异。我们使用了标准的单变量imputation技术,即均值和中值imputation,以及几个多元回归模型,即贝叶斯岭,随机森林,额外树,决策树。对所有多元模型进行循环迭代调度,直至所有缺失值估计收敛。我们使用两种不同的误差测量方法评估了imputation,使用保留一个观测值的交叉验证方法计算了原始观测数据的误差,并且还独立地计算了每个变量上观测分布和估算值分布之间的kl -散度。为了能够比较所有模型的结果,我们根据平均imputation性能对两个误差测量进行了缩放,以获得相对于最简单的平均imputation模型的改进测量。尽管所考虑的子集具有非常不同的特征,但在两种情况下,相对于更简单的平均imputation的预期改进类似于非常相似的模式,表明模型在最简单以及最困难/最复杂的情况下以类似的方式执行。特别地,我们观察到额外树回归可能是这个数据集的最佳模型。本文首先在一组模型参数中使用网格搜索对所有模型进行独立评估,并选择每个模型参数集的最佳解。特别是,对于额外树回归模型,我们发现有10棵树的模型提供了最佳解决方案。 Note that the Round-Robin regression approach is also implemented in the R-package for imputation ‘Multiple Imputation by chained equations’ (MICE) [34]实际上,我们在这里使用的python包用于imputation [80]的灵感来自于MICE。MICE的一个特点是,它使用逻辑或多项回归对分类变量建模,而使用线性回归对连续变量建模[68].因此,MICE比提出的贝叶斯岭回归模型具有更大的灵活性,因为它是为特定的分类变量建模而量身定制的。然而,我们考虑的基于树的方法也能够从数据中捕获这种分类结构,还可以处理多模态分布或捕获所有变量之间的非线性,这些变量可能很难使用MICE建模,或者需要强大的建模和数据领域特定知识。这已在[69]中发现,虽然基于树的方法与参数化的MICE方法差异不大,但基于树的方法优于参数化模型。注意,在观察到高异质性的情况下,处理多模态分布是必要的,因此在自闭症研究中,基于临床和影像学数据的分层是最重要的。MICE附加的一个特殊之处在于,它以不同的初始化多次运行imputation问题,最终返回这些imputation的平均值作为最终值。这种方法最有趣的是,它提供了对估算值的标准偏差,作为估算可靠性的衡量标准。请注意,我们的广泛分析还执行了验证,允许获得由MRE和KL散度给出的每个变量的imputation质量的度量。事实上,所执行的MRE评估嵌入在交叉验证设置中,其中在每次折叠中使用不同的初始化。由于报告的误差是所有不同折叠的平均值,在一定程度上,它类似于多重imputation平均场景。然而,我们也考虑了我们最好的模型的多重imputation场景,额外树回归器。如建议[80]我们没有改变初始化的平均imputation,而是使用100个不同的种子来初始随机构建回归树。结果显示标准偏差为10阶−3这表明使用额外树回归器获得的估计是非常稳健的。本工作中使用的模型与常用的知名模型之间的另一个相似之处来自于嵌入在Round-Robin调度中的随机森林回归,相当于另一个常见的包,missForest [37].虽然我们在这项工作中没有包括对随机森林的全面评价,但我们在这项工作的前期准备中进行了几次分析,我们观察到它不会提高ET或BR,其收敛性不太令人满意,计算成本也大了几个数量级。我们选择的python软件[80]是由包的灵活性驱动的,可以在同一个框架内实现多个回归模型,使得不同模型之间的比较更简单,更不容易出错。我们认为,模型的选择,而不是软件的选择,对归责的质量至关重要。

循环调度程序需要定义一个变量的输入顺序,尽管在这里我们报告的结果使用了越来越多的变量输入顺序的缺失观测值,但使用了递减顺序的结果确实显示了相似的结果,无论是在平方误差方面,还是在大多数变量和大多数模型上观察到的分布和输入分布之间的KL散度方面。此外,模型的表现模式是相同的。总之,我们系统地搜索了本样本中临床变量归算的最佳实践场景,发现额外树回归(Extra Trees Regressor)预期是最佳模型。鉴于15个数据样本的不同特征,我们认为这些结果也可以外推到不同的数据集。作为这个分析的结果,我们提供了我们在开发的归责比较工具https://github.com/allera/Imputation,并向EU-AIMS LEAP联盟提供估算数据;在使用额外树回归器验证多重imputation场景中获得的估计量的可忽略的标准偏差允许提供唯一的imputation值数据集。

一个自然的问题是,我们是否可以从这样的大数据联盟中综合生成其他缺失的测量数据,例如结构大脑图像。所提出的模型对于不同类型的矢量数据都是有用的,但是,实现空间约束的模型应该更适合于插值需要明确的非各向同性空间平滑三维分布的数据。正在进行的研究集中在缺失的结构MRI图像的imputation上,使用现有的结构MRI图像和行为读数,例如年龄、性别、体重。为此,我们正在考虑扩展卷积神经网络[70例如,我们希望能够为年轻的参与者生成脑容量更小的合成T1w图像。同样,这种方法的质量可以通过一次删除一个参与者并检查恢复图像的质量来验证。更重要的是,考虑到从fMRI提取的结构特征和功能特征之间的关系[14],我们还旨在基于结构和行为读数预测预期的功能特征,也使用空间卷积模型。预期这些结果将是这项工作的后续。

数据和材料的可用性

支持本研究结果的数据可从欧洲的EU-AIMS自闭症研究中获得,但这些数据的可用性受到限制,这些数据是在当前研究的许可下使用的,因此在提交时不能公开,但可通过通信作者的合理请求获得。

缩写

EU-AIMS:

欧盟自闭症干预多中心研究

跳跃:

纵向欧洲自闭症项目

道明:

典型的开发

自闭症谱系障碍:

自闭症谱系障碍

BR:

贝叶斯岭回归

DT:

决策树

等:

额外的树

神经网络:

最近的邻居

老鼠:

链式方程的多重归责

吉隆坡:

Kullback Leibler散度

绝笔:

均方根误差

SRS:

社会反应量表

苏格兰皇家银行(RBS):

重复行为量表

SSP:

短感觉剖面

SDQ:

优势和困难问卷

节选:

自闭症诊断观察时间表

阿迪:

自闭症诊断访谈

DAWDA:

发展及福利评估

威:

韦氏儿童智力量表

功能磁共振成像:

功能磁共振成像

脑电图:

脑电图

参考文献

  1. Laird NM。“纵向研究中的缺失数据”。中华医学杂志1988;7(1-2):05-315。https://doi.org/10.1002/sim.4780070131

  2. Schlomer GL, Bauman S, Card NA。咨询心理学中缺失数据管理的最佳实践。精神疾病杂志,2010;57(1):1-10。https://doi.org/10.1037/a0018082

  3. Woodard JD, Shee A, Mude A.“在缺失数据的存在下设计和评级可扩展指数保险的空间计量经济学方法”。《风险与保险日内瓦文件-问题与实践》,2016;41:259-79。https://doi.org/10.1057/gpp.2015.31

  4. 诺盖拉BM,桑托斯TRA, Zárate LE。分类器对缺失值恢复效率的比较:在大量缺失数据的营销数据库中的应用IEEE计算智能与数据挖掘研讨会。2007年第66-72页。https://doi.org/10.1109/CIDM.2007.368854

  5. Teegavarapu RSV, Tufail M, Ormsbee L.“缺失降水数据估计的最优函数形式”。中国生物医学工程学报。2009;36(1):1 - 6。https://doi.org/10.1016/j.jhydrol.2009.06.014

  6. Durham TJ, Libbrecht MW, Howbert JJ, Bilmes J, Noble WS。基于云的张量分解的PREDICTD并行表观基因组数据Imputation。Nat Commun. 2018;9:1402。https://doi.org/10.1038/s41467-018-03635-9

  7. 小RJA。缺少X的回归:回顾。中国统计杂志。1992;37(4):427 - 427。https://doi.org/10.1080/01621459.1992.10476282

  8. Chen T, Martin E, Montague G.“具有缺失数据的鲁棒概率主成分分析和贡献分析的异常值检测”。计算统计与数据分析。2009;53(10):1,3706-3716。https://doi.org/10.1016/j.csda.2009.03.014

  9. 缺失y的回归:分析多重输入数据的改进策略。生物化学学报。2007;37(1):83-117。https://doi.org/10.1111/j.1467-9531.2007.00180.x

  10. Pigott道明。“缺失数据的方法回顾”。教育科学评价,2001;7(4):353-83。https://doi.org/10.1076/edre.7.4.353.8937

  11. 中川S,雀斑RP。“缺失的不作为:忽视缺失数据的危险”。生态学报。2008;23(11):592-6。https://doi.org/10.1016/j.tree.2008.06.014

  12. Vapnik VN。统计学习理论的本质。纽约:Springer-Verlag出版社;1995.

  13. 主教厘米。模式识别与机器学习。纽约:施普林格;2006.

  14. 李莱拉A,沃尔弗斯T,穆德斯P,贝克曼CF。“人类大脑结构和形态的个体差异与人口统计学和行为的差异有关”。eLife。2019; 8: e44443。https://doi.org/10.7554/eLife.44443

  15. Karlsson Linnér R,等人“对超过100万人的风险承受能力和风险行为进行全基因组关联分析,确定了数百个位点和共享的遗传影响”。《自然遗传学》2019;51:245-57。https://doi.org/10.1038/s41588-018-0309-3

  16. Casey BJ等,“青少年大脑认知发展(ABCD研究:21个位点的成像获取”,发展认知神经科学,2018;32:43-54。

  17. 罗斯E,等。欧盟- aims纵向欧洲自闭症项目(LEAP):设计和方法来识别和验证自闭症谱系障碍的分层生物标志物。分子自闭症。2017;8:24。https://doi.org/10.1186/s13229-017-0146-8

  18. Von Rhein D等。神经影像研究:一项前瞻性的表型、认知、遗传和核磁共振研究,用于儿童注意缺陷/多动障碍。设计和描述。欧洲儿童青少年精神病学。2015;24(3):265-81。https://doi.org/10.1007/s00787-014-0573-4

  19. Murphy D, Spooren W. EU-AIMS:促进自闭症研究。中国医药科学。2012;11(11):815-6。https://doi.org/10.1038/nrd3881

  20. 英国生物银行有什么特别之处?《柳叶刀》2012;379(9822):1173-4。https://doi.org/10.1016/s0140 - 6736 (12) 60404 - 8

  21. Van Essen DC, Smith SM, Barch DM, Behrens TEJ, Yacoub E, Ugurbil K. WU-Minn人类连接组项目:概述。科学杂志。2013;80:62 - 79。https://doi.org/10.1016/j.neuroimage.2013.05.041

  22. Sudlow C等,“英国生物库:一种用于确定广泛的中老年复杂疾病病因的开放获取资源”。公共科学图书馆。2015;12(3):e1001779。https://doi.org/10.1371/journal.pmed.1001779

  23. 埃兰JS,范埃森警局。“人类连接体计划”。入:Jaeger D, Jung R,编辑。R.(编)计算神经科学百科全书。神经科学。纽约:施普林格;2015.1408 - 11页。

  24. 汤普森总理等。谜和全球神经科学:在40多个国家对大脑健康和疾病进行了十年的大规模研究。翻译精神病学2020;10(1):100。https://doi.org/10.1038/s41398-020-0705-1

    文章PubMed公共医学中心谷歌学者

  25. Di Martino A,等。自闭症脑成像数据交换:面向自闭症内在脑结构的大规模评估。Mol精神病学,2014;19(6):659-67。https://doi.org/10.1038/mp.2013.78

    文章PubMed谷歌学者

  26. 小RJA。对有缺失值的多元数据的完全随机缺失检验。中国统计杂志,1998;8(04):198-202。https://doi.org/10.1080/01621459.1988.10478722

    文章谷歌学者

  27. 小RJA, Rubin DB。数据缺失的统计分析。威利;2019.https://doi.org/10.1002/9781119482260

    文章谷歌学者

  28. Jakobsen JC, Gluud C, Wetterslev J, Winkel P.何时以及如何使用多重imputation来处理随机临床试验中的缺失数据-一个带流程图的实用指南。中国生物医学工程杂志,2017;17(1):162。https://doi.org/10.1186/s12874-017-0442-1

    文章PubMed公共医学中心谷歌学者

  29. Golub GH, Van Loan CF.矩阵计算。1996.医学博士,美国:约翰霍普金斯大学出版社。Balt;1996.

    谷歌学者

  30. Donders ART, van der Heijden GJMG, Stijnen T, Moons KGM。复习:对缺失值的归责的简单介绍。临床流行病学杂志,2006;59(10):1087-91。https://doi.org/10.1016/j.jclinepi.2006.01.014

  31. Alexopoulos EC。多元回归分析概论。希波克拉提亚学报。2010;14(增刊1):23-8。

  32. 李志刚,李志刚,李志刚。“多重归责的兴起:医学研究中数据收集、质量和报告方法的报告和实施回顾”。BMC medical Res Methodol. 2015;15(30)。https://doi.org/10.1186/s12874-015-0022-1

  33. Kleinrock L. <分时处理器的分析>。海军研究后勤季刊。1964;11(1):59-73。https://doi.org/10.1002/nav.3800110105

  34. van Buuren S, Groothuis-Oudshoorn K.“小鼠:R中链式方程的多元imputation”。统计统计,2011;45(3):1-67。https://doi.org/10.18637/jss.v045.i03

  35. 朱军,王志刚。序贯回归多重Imputation算法的收敛性。中国统计杂志,2015;36(5):529 - 529。https://doi.org/10.1080/01621459.2014.948117

  36. 巴特利特JW, Seaman SR, White IR, Carpenter JR.全条件规范协变量的多重imputation:容纳实质性模型。中国医学杂志,2015;24(4):462-87。https://doi.org/10.1177/0962280214521348

  37. Stekhoven DJ, Bühlmann P. missforest -混合类型数据的非参数缺失值imputation。生物信息学,2012,28(1):112 - 8。https://doi.org/10.1093/bioinformatics/btr597

  38. 林恩P,鲁宾DB。“调查中不回应的多重归因”。《统计学家》,1988;37(4/5):475-6。https://doi.org/10.2307/2348774

  39. Charman T,等。EU-AIMS纵向欧洲自闭症项目(LEAP):临床特征。分子自闭症。2017;8:27。https://doi.org/10.1186/s13229-017-0145-9

  40. C勋爵等人。自闭症诊断观察表-通用:与自闭症谱系相关的社会和沟通缺陷的标准测量。中国自闭症杂志。2000;30(3):205-23。https://doi.org/10.1023/A:1005592401947

  41. Lord C, Rutter M, Le Couteur a .自闭症诊断访谈-修订:对可能患有广泛性发育障碍的个人的护理人员的诊断访谈的修订版本。中华自闭症杂志。1994;24(5):659-85。https://doi.org/10.1007/BF02172145

  42. Sparrow SS, <葡萄园适应行为量表>。《临床神经精神病学》2011。

  43. Constantino JN, Gruber CP。“社会反应量表:SRS-2”。托伦斯:西方心理服务;2012.

  44. 李志刚,李志刚。自闭症患者重复行为的多样性及其与智力障碍的比较。中华自闭症杂志。2000;30(3):237-43。https://doi.org/10.1023/A:1005596502855

  45. Paterson H, Peck K, Perry KJ, Hickson M, Thomas J.感官剖面:用户手册。圣安东尼奥;心理学公司1999年。

  46. 欧文斯J,马克西姆R, McGuinn M, Nobile C, Msall M, Alario A.“学童看电视习惯与睡眠障碍”。儿科。1999;104 (3):e27。https://doi.org/10.1542/peds.104.3.e27

  47. 欧阳B,惠莱特S,艾利森C,阿特金森M,撒玛拉维克雷马N,巴伦科恩S.儿童共情商和系统商:典型发育和自闭症谱系条件下的性别差异。自闭症与发育障碍杂志。2009;104(3):e27。https://doi.org/10.1007/s10803-009-0772-x

  48. Baron-Cohen S, Richler J, Bisarya D, Gurunathan N, Wheelwright S.系统商:一项对成年阿斯伯格综合症或高功能自闭症患者的调查,与正常性别差异。中国生物医学工程学报,2003;29(3):342 - 344。https://doi.org/10.1098/rstb.2002.1206

  49. 欧阳B,埃利森C,韦莱特S, Baron-Cohen S.报告:青少年共情与系统商的发展。中国自闭症杂志。2012;42(10):2225- 2235。https://doi.org/10.1007/s10803-012-1454-7

  50. Starfield B等。青少年儿童健康和疾病概况:基于人群的健康测量。医学杂志,1995;33(5):553-66。https://doi.org/10.1097/00005650-199505000-00008

  51. 优势与困难问卷调查:研究说明。儿童精神病学杂志,1997;38(5):581-6。https://doi.org/10.1111/j.1469-7610.1997.tb01545.x

  52. Goodman R, Ford T, Richards H, Gatward R, Meltzer H.发展和健康评估:儿童和青少年精神病理学综合评估的描述和初步验证。儿童精神病学杂志2000;41(5):645-55。https://doi.org/10.1017/S0021963099005909

  53. Beck AT, Steer RA。贝克焦虑量表手册。圣安东尼奥:Harcourt Brace and Co;1993.

  54. Beck AT, Steer RA, Brown GK。贝克抑郁量表手册- ii。圣安东尼奥:心理学公司;1996.

  55. McCrimmon AW, Smith AD。回顾韦氏智力缩写量表,第二版(WASI-II)。韦氏智力量表,第二版(WASI-II)。皮尔逊nc。圣安东尼奥:心理教育评估;2013; 31(3): 337 - 41。

  56. 奥德菲尔德RC。惯用手的评估和分析:爱丁堡量表。这项研究,1971;9(1):97 - 113。https://doi.org/10.1016/0028 - 3932 (71) 90067 - 4

  57. Castelli F, Frith C, Happé F, Frith U.自闭症,阿斯伯格综合征和大脑机制对动画形状的心理状态归因。大脑。2002;125(8):1839 - 49。https://doi.org/10.1093/brain/awf189

  58. Senju A, Southgate V, White S, Frith U.《眼盲:阿斯伯格综合症中自发性心智理论的缺失》。科学。2009;325(5942):883 - 5。https://doi.org/10.1126/science.1176170

  59. Sjöwall D, Roth L, Lindqvist S, Thorell LB.多动症的多重缺陷:执行功能障碍,延迟厌恶,反应时间可变性和情绪缺陷。《儿童精神精神病学联合期刊》,2013。https://doi.org/10.1111/jcpp.12006

  60. Blasi G,等。注意控制过程中的资源分配与冲突检测。欧洲神经科学杂志,2007。https://doi.org/10.1111/j.1460-9568.2007.05283.x

    文章PubMed谷歌学者

  61. Baumeister S等人,“自闭症谱系障碍患者对社会和金钱奖励的预期减弱”。bioRxiv。2020.07.06.186650, 2020年。https://doi.org/10.1101/2020.07.06.186650

  62. Hariri AR等,“血清素转运蛋白的遗传变异和人类杏仁核的反应”,《科学》2002;297(5580):400-3。https://doi.org/10.1126/science.1071829

  63. White SJ, Coniston D, Rogers R, Frith U.开发Frith-Happé动画:针对成年自闭症患者的心智理论的快速客观测试。自闭症决议2011;4(2):149-54。https://doi.org/10.1002/aur.174

    文章PubMed谷歌学者

  64. Sambataro F,等。认知控制期间大脑反应的改变:精神分裂症遗传责任的一个潜在指标。神经精神药理学。2013;38(5):846 - 53。https://doi.org/10.1038/npp.2012.250

    文章PubMed公共医学中心谷歌学者

  65. Constantino JN,等。验证自闭症特征的简单定量测量:社会反应量表与自闭症诊断访谈的比较-修订。中华自闭症杂志。2003;3(4):427-33。https://doi.org/10.1023/A:1025014929212

    文章PubMed谷歌学者

  66. De Bildt A, Mulder EJ, Hoekstra PJ, Van Lang NDJ, Minderaa RB, Hartman CA.智力残疾儿童社会行为问题问卷(CSBQ)的有效性:CSBQ与adir, ADOS和临床DSM-IV-TR分类的比较。中国自闭症杂志。2009;39(10):1464-70。https://doi.org/10.1007/s10803-009-0764-x

    文章PubMed公共医学中心谷歌学者

  67. Hartman CA, Luteijn E, Serra M, Minderaa R.儿童社会行为问卷(CSBQ)的改进:一种描述轻度PDD中出现的各种问题的工具。中华自闭症杂志。2006;36(3):325-42。https://doi.org/10.1007/s10803-005-0072-z

    文章PubMed谷歌学者

  68. 怀特IR,罗伊斯顿P,伍德AM。使用链式方程的多重归责:实践的问题和指导。中华医学杂志,2011;30(4):377-99。https://doi.org/10.1002/sim.4067

    文章PubMed公共医学中心谷歌学者

  69. 沙阿AD,巴特利特JW,卡朋特J,尼古拉斯O,海明威H.随机森林和参数imputation模型的比较,输入缺失数据使用小鼠:一个CALIBER研究。中华流行病学杂志,2014;19(6):764-74。https://doi.org/10.1093/aje/kwt312

    文章PubMed公共医学中心谷歌学者

  70. LeCun Y,等。反向传播在手写邮政编码识别中的应用。神经计算。1989;1:541-51。https://doi.org/10.1162/neco.1989.1.4.541

    文章谷歌学者

  71. 奥特曼NS。核和最近邻非参数回归的介绍。美国统计学家。1992;46(3):175-85。https://doi.org/10.1080/00031305.1992.10475879

  72. Mason D, McConachie H, Garland D, Petrou A, Rodgers J, Parr JR.自闭症成人生活质量的预测因子。自闭症决议2018;11(8):1138-47。https://doi.org/10.1002/aur.1965

    文章PubMed公共医学中心谷歌学者

  73. Kuhlthau K等人。ASD儿童的健康相关生活质量:与行为特征相关自闭症谱系障碍研究。2013;40(6):721-9。https://doi.org/10.1016/j.rasd.2013.04.006

    文章谷歌学者

  74. 主教厘米。模式识别与机器学习(信息科学与统计),第1版,纽约:施普林格;2007.

  75. 麦凯DJC。信息论,推理和学习算法。剑桥:剑桥大学出版社;2003.

  76. 尼尔R.“神经网络的贝叶斯学习”。统计学的课堂笔记。纽约:施普林格Verslag;1996.

    谷歌学者

  77. Gordon AD, Breiman L, Friedman JH, Olshen RA, Stone CJ。分类和回归树。生物识别技术,1984:874。https://doi.org/10.2307/2530946

  78. 葛尔茨P,恩斯特D, Wehenkel L.“极端随机树”。马赫学习,2006;63:3-42。https://doi.org/10.1007/s10994-006-6226-1

  79. Yucel RM, Zaslavsky AM。多重归责中舍入的实用建议。调查研究方法章节。2001。

    谷歌学者

  80. Pedregosa F等,“Scikit-learn: Python中的机器学习”。J Mach Learn Res. 2011;12:2825-30。

  81. 鲁宾DB。推断和缺失数据。生物统计学》1976。https://doi.org/10.1093/biomet/63.3.581

    文章谷歌学者

下载参考

确认

我们感谢所有参与者和他们的家人参与这项研究。我们也感谢欧盟- aims LEAP小组所有成员的贡献:朱曼娜·艾哈迈德、莎拉·安布罗西诺、邦妮·奥扬、莎拉·鲍迈斯特、斯文Bölte、托马斯·布热隆、卡斯滕·伯尔斯、丹尼尔·布兰代斯、克劳迪娅·布罗尼亚、伊薇特·德布鲁因、比斯马德夫·查克拉巴蒂、伊内克·科内利森、黛西·克劳利、纪隆姆·杜马斯、杰西卡·福克纳、文森特·弗劳恩、皮拉尔Garcés、大卫·戈亚德、林赛·哈姆、汉娜·海沃德、约格·希普、马克·h·约翰逊、艾米丽·J.H.琼斯、Prantik Kundu、赖孟川、泽维尔·里奥吉尔·达尔杜伊、迈克尔·v·隆巴多、大卫·j·利特戈、René曼德尔、安德烈·马昆德、Luke Mason, Maarten Mennes, Andreas mayer - lindenberg, Nico Mueller, Laurence O 'Dwyer, Marianne Oldehinkel, Bob Oranje, Gahan Pandina, Antonio M. Persico, Barbara Ruggeri, Amber Ruigrok, Jessica Sabet, Roberto Sacco, Antonia San José Cáceres, Emily Simonoff, Will Spooren, Roberto Toro, Heike Tost, Jack Waldman, Steve C.R. Williams, Caroline Wooldridge和Marcel P. Zwiers。

资金

本项目获得了创新药物倡议2联合项目的资助,资助协议编号115300 (EU-AIMS)和777394 (AIMS-2-TRIALS)。这项联合承诺得到了欧盟“地平线2020”研究和创新计划以及EFPIA和AUTISM SPEAKS, autitica, SFARI的支持。这项工作也得到了Horizon2020计划CANDY资助号847818的支持。DLF由欧盟地平线2020研究和创新计划资助,该计划由Marie skodorska - curie资助协议No . 101025785资助。这项工作也得到了荷兰科学研究组织的VICI资助(资助号17854[给CFB])。本研究已通过欧洲研究委员会在欧盟第七框架计划(FP/ 2007-2013)下的协同拨款,获得了正在开发的人类连接组项目(dHCP)的资助。319456.我们也感谢来自惠康合作奖(215573/Z/19/Z)的资助。

资助者在研究的设计中没有任何作用;分析:在数据的收集、分析或解释中;无论是手稿的撰写,还是发表结果的决定。所表达的任何观点都是作者的观点,不一定是资助者的观点。

作者信息

作者及隶属关系

作者

贡献

AL、MB、EL、JB、DLF和CFB对研究的概念有贡献。AL进行了分析,开发了评估技术并生成了图表。MZ, TM和JA优化工具箱代码以交付并编辑最新的手稿版本及其修订。DLF收集并整理所有数据。AL和DLF生成表格并起草手稿。BO提供了所有数据。BO、JT、TC、CE、FDA、TB、CM、SB-C、RJH、SD、DM、EL、JKB、CFB整理EU-AIMS LEAP数据,编辑最新手稿版本及修订本;所有作者均已阅读并批准最终稿。

相应的作者

对应到答:Llera

道德声明

伦理批准并同意参与

本研究和所有涉及的方法都是根据《赫尔辛基宣言》规定的条例和指导方针进行的。该实验方案由伦理许可委员会CMO Arnhem/Nijmegen批准,批准号为CMO2014/288。获得所有受试者和/或其法定监护人的知情同意。

发表同意书

不适用。

相互竞争的利益

JKB一直是武田/夏尔、Medice、罗氏和Servier的顾问、顾问委员会成员和发言人。他不是任何这些公司的雇员,也不是任何这些公司的股票股东。他没有其他经济或物质支持,包括专家证词、专利或版税。CFB是sbgnuro Ltd.的董事和股东。TC获得了Roche和Servier的咨询,并获得了Guildford Press和Sage的图书版税。DM一直是Roche和Servier的顾问和顾问委员会成员。他不是任何这些公司的雇员,也不是任何这些公司的股票股东。TB曾担任Lundbeck, Medice, Neurim Pharmaceuticals, Oberberg GmbH, Shire和Infectopharm的顾问或顾问角色。他获得了礼来、美第士和夏尔公司的会议支持或演讲费。他获得了霍格里夫、科尔哈默、CIP Medien、牛津大学出版社的版税; the present work is unrelated to these relationships. JT is a current full-time employee of F. Hoffmann–La Roche Ltd. The other authors report no biomedical financial interests or potential conflicts of interest.

额外的信息

出版商的注意

188博金宝app网施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

补充信息

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

莱拉,A,布拉默,M,奥克利,B。et al。在复杂的,深度表型数据集的数据植入策略的评估:欧盟- aims纵向欧洲自闭症项目的案例。BMC医学Res Methodol22, 229(2022)。https://doi.org/10.1186/s12874-022-01656-z

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12874-022-01656-z

关键字

  • 归责
  • 临床数据
  • 多元
  • 机器学习