- 研究gydF4y2Ba
- 开放获取gydF4y2Ba
- 发表:gydF4y2Ba
评估患者报告结果测量的校准对随机临床试验结果的影响:基于Rasch测量理论的模拟研究gydF4y2Ba
金宝搏网站首页体积gydF4y2Ba22gydF4y2Ba,文章号:gydF4y2Ba224gydF4y2Ba(gydF4y2Ba2022gydF4y2Ba)gydF4y2Ba
摘要gydF4y2Ba
背景gydF4y2Ba
有意义地解释来自随机临床试验的患者报告结果(PRO)结果,要求试验中获得的PRO评分在患者和以前应用PRO仪器的情况下具有相同的意义。PRO仪器的校准保证了这一特性。在Rasch测量理论(RMT)框架中,在测量每个试验个体的目标概念时,通过固定项目参数估计值来进行校准。用于此目的的项目参数估计值通常从以前的“校准”研究中获得。但是,对项目参数施加这种约束,而不是在试验的特定样本中自由地直接估计它们,可能会妨碍检测治疗效果的能力。本模拟研究的目的是探讨使用RMT开发的PRO仪器的校准对使用不同分析方法的治疗组之间的结果比较的潜在负面影响。gydF4y2Ba
方法gydF4y2Ba
PRO结果在一个多模Rasch模型下进行了模拟,用于校准和试验样本。场景包括不同的样本量,不同数量的项目和方式的工具,不同的项目参数分布。研究还探讨了两种患者样本的不同治疗效果大小和分布。采用基于随机效应Rasch模型的不同方法对治疗组进行横断面比较。根据i型误差、功率、偏倚和组间差异估计的方差对校准和非校准方法进行比较。gydF4y2Ba
结果gydF4y2Ba
校准方法对估计的i型误差、功率、偏差和离散度没有影响。在其他发现中,PRO仪器和试验样本患者之间的错误定位(关于测量概念的水平)导致较低的功率和较高的位置偏差,而不是适当的定位。gydF4y2Ba
结论gydF4y2Ba
在随机临床试验中,使用RMT范式内开发的PRO仪器,校准并不影响准确评估治疗效果的能力。因此,考虑到RMT在产生可解释结果方面的重要作用,在随机临床试验中使用以RMT为终点开发的PRO仪器时,应始终进行校准。gydF4y2Ba
背景gydF4y2Ba
患者报告的结果(PRO)定义为"直接来自患者的任何关于患者健康状况的报告" [gydF4y2Ba1gydF4y2Ba].PRO工具通常是问卷,患者对一组项目(问题)的回答导致计算分数,用于测量不可观察的变量(也称为潜在特征),如疼痛、疲劳或焦虑。在随机临床试验中,PRO评分越来越多地被用作证明新疗法疗效的关键终点[gydF4y2Ba2gydF4y2Ba]..gydF4y2Ba
PRO分数是根据评分算法或评分规则产生的。“评分”通常有一个范围,并定义了假设的度量或单位(例如,欧洲癌症研究与治疗组织生活质量问卷30项[EORTC QLQ-C30]身体功能评分范围,在转换后,从0到100,增量为6.67,基于项目数量和响应类别[gydF4y2Ba3.gydF4y2Ba])。为了解释这些评分和临床试验结果,有必要在患者和样本之间,在个人和群体水平上,评分具有相同的含义[gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba].例如,对于所有的应用程序,“50”的分数应该表示所有患者的潜在构造的相同水平。在计量学(即测量科学)中,通过不同的仪器使用而保持同一单位被称为“可追溯性”[gydF4y2Ba7gydF4y2Ba].可追溯性可通过仪器的校准获得[gydF4y2Ba7gydF4y2Ba].虽然校准主要用于物理量的测量,但它在其他人文科学中也发挥着重要作用。例如,在教育科学中,校准可以确保主要教育考试的分数,如学术能力测试(SAT),以相同的方式计算,并导致每个学生之间的可比性分数[gydF4y2Ba8gydF4y2Ba].在实践中,PRO仪器的校准可以基于PRO仪器在参考样本中的参考应用结果,无论是来自专门的校准研究还是仪器的心理测量“验证研究”。gydF4y2Ba
随着最近心理测量方法的使用越来越多,PRO仪器的校准问题变得更加关键。临床试验中使用的PRO仪器最初是在经典测试理论(CTT)范式下开发的[gydF4y2Ba9gydF4y2Ba],其中测量结果是通过原始和得分获得的。原始分数不需要从任何特定的样本中估计,所以它们是通过结构来校准的。但是,由于这种方法存在一些理论上的局限性[gydF4y2Ba10gydF4y2Ba],替代心理测量方法(“现代心理测量方法”)越来越多地被用于评估PROs。Rasch测量理论(RMT)就是这样一种方法。基于Rasch模型,它提供了一个不同的校准框架。Rasch模型分离了潜在特征测量过程中感兴趣的参数:项目参数(项目的“难度”,即它们是否根据潜在特征区分更严重或更轻的患者)和个人参数(患者潜在特征的测量)[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba].这一特性确保了样品和仪器之间的独立性(“特定客观性”),因此可以进行适当的校准(即,对独立于所获得的样品的项目参数的估计)。gydF4y2Ba
考虑到RMT框架,PRO仪器的校准首先需要对来自患者“校准”样本的数据进行RMT分析。获得的项目参数估计值然后在临床试验的正式RMT分析中设置为固定值。根据其定义,这一过程允许确保获得的PRO分数在同一单位,这对他们的解释至关重要。在RMT范式中开发的几种PRO仪器与现有的校准解决方案一起用于临床试验,如BREAST-Q [gydF4y2Ba14gydF4y2Ba]和Rasch-built综合残疾量表(R-ODS) [gydF4y2Ba15gydF4y2Ba].gydF4y2Ba
因此,根据定义,校准为PRO结果的可解释性提供了一些理想的性质。但这种主要优势也有代价:在某些情况下,它可能会对临床试验的治疗效果检测产生负面影响。特别是,如果校准样本的样本量和异质性不够充分,患者与临床试验中预期的患者在兴趣概念方面有很大差异(例如,症状更严重),则用于校准的某些项目参数值可能会被错误指定。在这种情况下,直接在试验样本上运行Rasch模型(没有初步校准步骤,即不校准)可能导致更精确的项目参数估计,这些参数专门针对所包括的患者。这反过来可能会导致更好的条件来评估治疗效果,尽管有结果难以解释的风险。在比较随机试验中,校准的影响也可能因治疗组比较所使用的方法而有所不同。一种可能是使用随机效应Rasch模型,直接包括群体效应的协变量或在进行t检验之前首先估计患者的潜在特征,[gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba]而最好的方法仍然需要确定。gydF4y2Ba
以往的模拟研究在一定程度上探讨了校准对临床试验结果的影响[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba].然而,校准并不是这些研究的主要重点,校准样本的特征及其与临床试验样本的差异的影响没有得到评估。此外,这些研究只探讨了PRO仪器只包括二分项目(只有两种可能的响应选项)的情况,这不是健康研究中PRO仪器最常见的结构。gydF4y2Ba
本研究的目的是进一步探讨校正对随机临床试验治疗组间PRO测量数据统计比较的潜在负面影响。考虑到校准本身对结果的可解释性有好处,本研究考察了在随机临床试验中,校准在多大程度上可以与非校准在证明治疗效果方面表现得一样好。研究重点是在RMT框架下开发和分析的PRO仪器的校准。为此目的,我们进行了一项模拟研究,旨在比较来自一项随机临床试验的模拟多胞胎PRO数据的校准和非校准方法的使用,在横断面终点的特定情况下。针对两种不同的横断面分析方法以及PRO仪器和校准过程中使用的患者样本的不同特征,评估了校准的影响。gydF4y2Ba
方法gydF4y2Ba
Rasch模型gydF4y2Ba
Rasch模型是一种测量概率模型,用于根据对问卷项目的观察反应来测量未观察到的潜在特征(PRO仪器)[gydF4y2Ba20.gydF4y2Ba].多分Rasch模型(部分信用模型,PCM)是原始Rasch模型对有序多分数据(即有超过2个有序响应选项的李克特尺度类型)的推广[gydF4y2Ba21gydF4y2Ba].考虑一个PRO仪器,包括J个项目,具有相同数量的响应选项M(模式,从0到M-1编码),模型可以写成如下:gydF4y2Ba
对病人的反应是什么gydF4y2Ba我gydF4y2Ba(i = 1,…,N)to itemjgydF4y2Ba(j = 1,…,J), realization of the random variableXgydF4y2BaijgydF4y2Ba(gydF4y2BakgydF4y2Ba∈gydF4y2Ba{0…gydF4y2Ba米gydF4y2Ba−1}),gydF4y2BaθgydF4y2Ba我gydF4y2Ba病人的潜在特征gydF4y2Ba我gydF4y2Ba,gydF4y2BaδgydF4y2BajgydF4y2Ba包含所有类别阈值参数的M-1维向量gydF4y2BaδgydF4y2Ba莱托gydF4y2Ba与类别关联gydF4y2BalgydF4y2Ba(gydF4y2BalgydF4y2Ba= 1,…gydF4y2Ba米gydF4y2Ba−1)项gydF4y2BajgydF4y2Ba.gydF4y2Ba
将患者的潜在特征视为假设为正态分布的随机变量的实现,结果是随机效应PCM。由于临床试验的目的是比较治疗,因此可以在模型中加入相应的治疗效果组协变量[gydF4y2Ba16gydF4y2Ba].表示gydF4y2BaγgydF4y2Ba作为治疗效果的参数(安慰剂组和治疗组之间潜在特征的平均差异),患者的潜在特征因此被分解为组效应(gydF4y2BaμgydF4y2Ba0gydF4y2Ba+gydF4y2BaggydF4y2Ba我gydF4y2BaγgydF4y2Ba)和个别效应(gydF4y2Ba\({\θ}_{再保险{年代}_i} \)gydF4y2Ba).带治疗组效应的随机效应PCM可写成:gydF4y2Ba
与gydF4y2BaggydF4y2Ba我gydF4y2Ba如果患者I属于安慰剂组,则为0gydF4y2BaggydF4y2Ba我gydF4y2Ba治疗组= 1,因此gydF4y2BaμgydF4y2Ba0gydF4y2Ba与安慰剂组的潜在特征的平均值相对应。gydF4y2Ba
PRO数据模拟gydF4y2Ba
采用蒙特卡罗模拟随机效应PCM [gydF4y2Ba21gydF4y2Ba].这假设模拟PRO仪器之前已经用RMT验证过。对于每次迭代,我们生成两个样本:gydF4y2Ba
一个用于PRO仪器的校准(或验证)研究。gydF4y2Ba
一个是两个平行组(治疗组与安慰剂组)随机临床试验,在治疗后的场合(横断面数据)。gydF4y2Ba
校准和试验样品具有相同的PRO仪器特性,在不同的场景下,这些特性会根据几个参数而变化:gydF4y2Ba
根据临床研究中常用的PRO仪器亚量表的大小,PRO仪器J项数在4 ~ 10个之间变化。gydF4y2Ba
响应类别M的数量为3或5,与PRO工具中常见的可能响应选项数量一致,项目为李克特量表类型(有序响应选项)。响应类别从0到M-1进行编码。gydF4y2Ba
阈值的分布,gydF4y2BaδgydF4y2Ba莱托gydF4y2Ba(对应于潜在特征的水平,患者有相同的概率认可两个后续有序反应类别中的一个或另一个,与gydF4y2BalgydF4y2Ba响应选项,从1到gydF4y2Ba米gydF4y2Ba−1为该项gydF4y2BajgydF4y2Ba)和相关的项目位置gydF4y2BaδgydF4y2BajgydF4y2Ba(对应于每个给定项目的类别阈值的平均值)的设计反映了实践中遇到的PRO工具的两种典型原型(见图。gydF4y2Ba1gydF4y2Ba为了说明这两种情况):gydF4y2Ba
物品所在的第一个原型gydF4y2BaδgydF4y2BajgydF4y2Ba在仪器测量的连续统上有较低的色散(gydF4y2BaδgydF4y2BajgydF4y2Ba在−0.25到0.25之间有规律的间隔),具有高度分散的类别阈值gydF4y2BaδgydF4y2Ba莱托gydF4y2Ba基于正态分布的百分位数,对一个给定项目进行有规律的间隔(如果项目有3个响应类别,则阈值设置为分布的第33和66个百分位数;如果项目有5个响应类别,则以第20、40、60和80个百分位为中心设置阈值gydF4y2BaδgydF4y2BajgydF4y2Ba标准差(SD)为2.5。这通常是用仪器来观察的,在这些仪器中,潜在特征的可变性被认为是由不同水平的反应量表捕获的。使用CTT方法开发的仪器可以观察到这种项目分布,如连续统上项目的“冗余”(类别阈值非常接近的项目)gydF4y2BaδgydF4y2Ba莱托gydF4y2Ba)使用CTT方法未发现有问题[gydF4y2Ba22gydF4y2Ba](事实上,这种模式反映了CTT范式的“平行项目集”的理论概念[gydF4y2Ba23gydF4y2Ba])。gydF4y2Ba
物品所在的第二个原型gydF4y2BaδgydF4y2BajgydF4y2Ba在仪器测量的连续介质上高度分散(gydF4y2BaδgydF4y2BajgydF4y2Ba间隔为−1到1),具有响应类别阈值gydF4y2BaδgydF4y2Ba莱托gydF4y2Ba在低分散情况下,基于正态分布中心的百分位数,对一个给定项目有规律地间隔gydF4y2BaδgydF4y2BajgydF4y2BaSD为1.5。这与PRO工具相对应,在PRO工具中,潜在特征的可变性应该由代表连续统上不同级别的项目来捕捉(“项目层次结构”)。通常用RMT开发的仪器观察到[gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba].gydF4y2Ba
项目参数的平均值设置为0(遵循项目参数的指定分布)。gydF4y2Ba
不同场景下物品分布的原型说明。图例:垂直虚线表示项目响应类别阈值(δgydF4y2Ba莱托gydF4y2Ba,每个颜色对应不同的项目),概率密度函数曲线表示该潜在性状在校准样本中的分布(方差= 1的情况下)。图的左边部分包括项目位置为δ的情况gydF4y2BajgydF4y2Ba具有低色散(范围= 0.5)和δgydF4y2Ba莱托gydF4y2Ba具有高色散(SD = 2.5)。图的右边部分包括项目位置为δ的情况gydF4y2BajgydF4y2Ba具有高色散(范围= 2)和δgydF4y2Ba莱托gydF4y2Ba分散度低(SD = 1.5)。每条线对应的是项目数量和模式数量的不同情景:A) J = 4个项目,M = 3个模式。B) J = 4个项目,M = 5种方式。C) J = 10个项目,M = 5种方式。响应类别阈值δ的完整值gydF4y2Ba莱托gydF4y2Ba在补充材料中提供(附加文件gydF4y2Ba1gydF4y2Ba)gydF4y2Ba
基于以下几个参数,校准样本在不同场景下有所不同:gydF4y2Ba
校准样品的完整样本量gydF4y2BaNgydF4y2Ba校准gydF4y2Ba在100到500之间变化。所选择的值反映在PRO仪器验证的临床研究中可能遇到的样本量范围[gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba24gydF4y2Ba].gydF4y2Ba
潜在性状分布被定义为正态分布,与使用随机效应PCM模型的假设相一致。gydF4y2Ba
在校准样本中,将潜在性状分布的均值设为0,以反映样本与PRO仪器之间的完美瞄准。gydF4y2Ba
将潜在性状分布的方差设为1或2,以探讨校准群体的不同异质性情况。gydF4y2Ba
试验样本根据以下几个参数在不同场景下有所不同:gydF4y2Ba
每个治疗组的样本量,gydF4y2BaNgydF4y2Ba试验gydF4y2Ba,在50到500之间(两组大小相等)。数值的选择反映了在临床试验中可能遇到的样本量的范围。gydF4y2Ba
治疗的效应量(治疗组之间患者潜在特征的标准化平均差异)γ在0到0.8之间变化,以探索治疗组之间从无差异到差异较大的各种情况。gydF4y2Ba
潜在特征的平均μ在0到2.5之间变化,以探索试验样本和PRO仪器显示出完美的瞄准到高错瞄准的情况。在实践中,当试验总体与用于校准的PRO仪器的验证研究的总体不同时(例如,就疾病而言,更严重或更轻的样本),通常会发生错标。在处理组内,潜在性状的平均值分别为μgydF4y2Ba0gydF4y2Ba安慰剂和μgydF4y2Ba0gydF4y2Ba治疗组为+ γ。gydF4y2Ba
各组间方差均设为1。gydF4y2Ba
每个模拟场景都对校准样本和试验样本产生一组PRO响应,并重复500次。所有仿真参数及其可能取值的详细情况见表gydF4y2Ba1gydF4y2Ba.使用STATA软件中的-simirt-模块对数据进行模拟[gydF4y2Ba25gydF4y2Ba].gydF4y2Ba
估计gydF4y2Ba
使用随机效应PCM分析来自每个样本(校准和试验)和每个场景的模拟PRO数据。治疗组协变量(固定效应)也包含在模型中,用于分析试验样本(公式2)。治疗效果参数(γ)和与每个项目的类别阈值相关的困难(gydF4y2BaδgydF4y2Ba莱托gydF4y2Ba)通过最大化边际似然(MML)来估计[gydF4y2Ba26gydF4y2Ba].在试验样本中,每个患者潜在特征的估计量也使用预期后验贝叶斯估计获得[gydF4y2Ba17gydF4y2Ba].gydF4y2Ba
校准gydF4y2Ba
每个场景都使用了校准和非校准方法。在校准方法中,项目参数是根据校准样本估计的。获得的值为gydF4y2Ba{\ \(\帽子delta_ {jl}} \)gydF4y2Ba然后假设已知无误差,并认为是固定的,用于试验样本的分析。gydF4y2Ba
在非校准方法中,不考虑校准样本,直接对试验样本进行项目参数估计。gydF4y2Ba
治疗组比较gydF4y2Ba
两种方法用于比较试验样本中的治疗组,针对每个模拟场景,以及校准和非校准方法:gydF4y2Ba
直接估计治疗组效果gydF4y2Ba\(\帽子伽马}{\ \)gydF4y2Ba,以及使用Wald检验检验参数的零值。gydF4y2Ba
比较预期的后验贝叶斯患者潜在特征参数gydF4y2Ba\ ({\ theta_i} \ \帽子)gydF4y2Ba治疗组之间使用t检验。gydF4y2Ba
比较方法的标准gydF4y2Ba
根据以下标准,对校准和非校准方法以及用于比较治疗组的方法进行了比较:gydF4y2Ba
i型错误(α风险),通过计算每个场景的500次重复中拒绝原假设的比例而获得,处理组之间没有模拟的先验差异(γ = 0)。gydF4y2Ba
幂(1-β),通过计算每个场景的500次重复中拒绝原假设的比例得到,并模拟处理组之间的先验差异(γ≠0)。gydF4y2Ba
位置偏差对治疗效果的估计,这是通过计算观察到的差异的平均值得到的gydF4y2Ba\(\帽子伽马}{\ \)gydF4y2Ba而且gydF4y2BaγgydF4y2Ba基于每个场景的500次复制。gydF4y2Ba
估计处理效果的标准差,这是通过计算得到的标准差得到的gydF4y2Ba\(\帽子伽马}{\ \)gydF4y2Ba从每个场景的500次复制中。gydF4y2Ba
分析使用STATA软件,版本14。gydF4y2Ba
结果gydF4y2Ba
表格gydF4y2Ba2gydF4y2Ba对于感兴趣的选定场景,显示模拟研究的结果:i型误差、功率、位置偏差和处理组之间差异估计的SD。所选择的情景集中于显示对这些标准中的任何一个有影响的参数,并保留功率的中等值,以更好地解释结果(以避免天花板效应,即100%的功率)。给出了以下36个场景:J = 4,7或10,M = 3或5,第二种原型对应的项目参数分布(SD = 1.5, range = 2), NgydF4y2Ba校准gydF4y2Ba250,方差为1,NgydF4y2Ba试验gydF4y2Ba200或500,μ为0,0.5或2,γ为0.2(计算i型误差为0)。其他情况的综合结果可以在补充材料中找到(附加文件gydF4y2Ba2gydF4y2Ba).总体而言,i型误差得到了很好的控制,并在所有探索的场景(即校准方法和组方法比较)中保持不变。gydF4y2Ba
校准的影响gydF4y2Ba
模拟没有显示使用校准方法对估计的i型误差、功率、位置偏差和SD有任何影响(表2)gydF4y2Ba2gydF4y2Ba).特别是,与非校准方法相比,即使在最不利的情况下校准方法也没有影响(从校准样本中估计的项目参数预计会低于从试验中估计的项目参数的情况下):高错标μ,小gydF4y2BaNgydF4y2Ba校准gydF4y2Ba和大gydF4y2BaNgydF4y2Ba试验gydF4y2Ba,校准样品方差小。因此,校正样本参数(gydF4y2BaNgydF4y2Ba校准gydF4y2Ba样本方差)在任何标准上。在图中所示的示例场景中,可以看到校准方法没有影响。gydF4y2Ba2gydF4y2Ba,因为校正和非校正方法的功率相似(曲线重叠),对于所有级别的错误瞄准。gydF4y2Ba
治疗组影响比较方法gydF4y2Ba
模拟没有显示治疗组方法的比较对功率和i型误差的任何影响(表gydF4y2Ba2gydF4y2Ba).在使用组协变量估计治疗效果时,没有位置偏倚。然而,当使用患者潜在特征估计时,发现了位置偏差,组间的差异由于J项的数量较少而定位错误较大而被低估。值得注意的是,与使用后验贝叶斯患者潜在特征估计相比,使用治疗组效应的直接估计时,估计的SD更高。gydF4y2Ba
试验样品特性的影响gydF4y2Ba
正如预期的那样,随着试验样本量的增加,功率增加(gydF4y2BaNgydF4y2Ba试验gydF4y2Ba,见表gydF4y2Ba2gydF4y2Ba)和效应量(γ,数据未显示)进行观察。结果与小的错误定位(μ = 0.5)或最佳定位(μ = 0)导致相当的功率。较大的样本错靶(μ = 2)导致较低的功率(图2)。gydF4y2Ba2gydF4y2Ba和表gydF4y2Ba2gydF4y2Ba).gydF4y2Ba
PRO仪器特性的影响gydF4y2Ba
项目数量和响应类别的增加导致了功率的增加(图。gydF4y2Ba2gydF4y2Ba和表gydF4y2Ba2gydF4y2Ba).此外,当项目数量和反应类别增加时,使用后验贝叶斯患者潜在特征估计观察到的位置偏差减少(表gydF4y2Ba2gydF4y2Ba).项目和反应类别的数量对i型误差和治疗效果估计的SD没有任何影响(表2)gydF4y2Ba2gydF4y2Ba).项目和答复类别的分布没有显示出对任何标准有任何明显的影响。gydF4y2Ba
讨论gydF4y2Ba
本模拟研究探讨了多腔PRO仪器校准对随机临床试验中治疗组比较的影响。在RMT框架内评估了这种影响,考虑了治疗组的不同比较方法和各种设置(PRO仪器的特性、校准和试验样本)。在研究中观察到的校准缺乏影响表明,校准所保证的可追溯性所带来的可解释性方面的好处,并没有以显示处理组之间真实差异的能力或在适当控制i型误差方面的能力为代价。鉴于其在结果可解释性方面的重要附加价值,因此,当在RMT框架下开发和分析的PRO仪器被用作随机临床试验的终点时,应始终进行校准。gydF4y2Ba
模拟一致地表明,校准和非校准方法的i型误差、两组比较的检验幂、偏差和治疗组之间估计差异的分散是相似的。即使在使用非校准估计的最有利情况下,即校准样本量小且方差低,以及试验样本量大且错标率高时,校准也没有任何影响。目前的结果也证实了以前的模拟研究。Blanchin等人在试图估计临床试验的威力时,探讨了在设计阶段错误规范二分项目参数的影响[gydF4y2Ba19gydF4y2Ba].他们表明,这种错误的规格对功率没有影响,这间接支持校准:用于校准的项目参数中的错误不太可能影响功率[gydF4y2Ba19gydF4y2Ba].研究结果也与Sébille等人和Hamel等人的模拟研究相一致,其中包括比较两项参数被认为是已知(即使用校准)或未知并从试验数据中估计(非校准)的情况[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba27gydF4y2Ba].gydF4y2Ba
无论校准情况如何,PRO仪器对临床试验样本的错误瞄准影响了临床试验中检测治疗效果的能力。事实上,样本的大错标导致了治疗效果估计值的低功率和高离散度。这与之前模拟研究的结果一致,其中PRO仪器(带有二分项)和样本之间的错误定位与较低的功率有关[gydF4y2Ba28gydF4y2Ba].这证实了PRO仪器应适当针对试验中纳入的患者人群的严重程度,以便能够有效地检测治疗效果。当错误定位导致地板或天花板效应时(即,当没有项目被包括以捕捉被测量概念的低或高水平时),这尤其正确,就像在这项工作中出现大错误定位的场景一样。一个小的错误定位似乎不会影响结果,但这应该谨慎解释,因为它可能受到连续统中项目和患者的确切分布的影响:当项目分布非常不均匀或与较不均匀或非正态分布的患者样本相关时,较低水平的错误定位仍然可能显示出影响。gydF4y2Ba
此外,正如多项研究已经指出的那样,更多的项目和响应类别导致更高的功率[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba27gydF4y2Ba].这种对能量的影响可以与众所周知的试验中患者数量的影响相比较。考虑到200名患者的试验案例,效应量为0.2,我们的模拟表明,从4个项目、3个响应类别转变为10个项目、5个响应类别,代表了能量从30%增加到45%。考虑到相同的案例和模拟结果,这与在试验中增加100名患者所观察到的功率影响大致相似。这证实了在小样本研究中使用包含足够项目的PRO工具的重要性。当建议使用较短的器械时,应仔细考虑这方面,通常是为了“尽量减少患者的反应负担”[gydF4y2Ba29gydF4y2Ba].此外,有趣的是,当PRO仪器包括大量的项目和反应类别时,由于高错误定位而导致的功率下降较低(注意,如上所述,这一发现可能在某种程度上依赖于我们模拟中使用的项目和患者的具体分布)。gydF4y2Ba
这项研究有一些局限性,可以强调进一步必要的发展。首先,校准过程只调查了患者在校准和试验样本之间仅因其潜在特征水平而存在差异的情况。但在现实生活中的研究中,患者可能在其他特征上有所不同,比如他们的人口统计数据等。在某些情况下,尽管具有相同水平的潜在特征,但这些特征会影响患者对项目的反应方式:项目参数值可能因这些特征而异,这被称为差异项目功能(DIF) [gydF4y2Ba30.gydF4y2Ba].如果来自校准样本和试验样本的患者基于产生DIF的特征而存在差异(例如,他们有不同的疾病亚型,或不同的国家尽管拥有相同的语言却意味着文化差异,等等),则校准样本中使用的项目参数值将不能完全适用于临床试验。一种解决方案可能是从不同的校准样本中获得不同的项目参数值集,根据试验的总体来交替使用以校准测量。例如,我们提出了不同的校准集来计算PROMIS分数[gydF4y2Ba6gydF4y2Ba].但在许多情况下,在进行临床试验时,没有完全适合感兴趣人群的可用校准集。在这种情况下,使用错误指定的参数进行校准可能会阻碍试验准确评估治疗效果的能力。先前的模拟研究表明,如果在分析中忽略DIF,可能会导致对组间差异的偏差估计[gydF4y2Ba31gydF4y2Ba,gydF4y2Ba32gydF4y2Ba].因此,应进一步探讨存在DIF时校准的影响。另一个局限性在于本研究中所探讨的治疗组的比较方法。我们的模拟只考虑随机效应PCM的结果。考虑在不同的估计环境中比较单个PRO测量值的统计方法将具有丰富的信息。通常,调查使用统计方法的含义,比较固定效应PCM的PRO估计与成对条件最大似然(如在RUMM中执行的,RUMM是目前最常用的RMT分析软件之一[gydF4y2Ba33gydF4y2Ba])可以更好地理解临床试验中RMT范式产生的PRO测量分析的各种选项,以及校准在这些不同情况下的相对影响。值得注意的是,我们的组间比较是基于治疗组在给定时间点的横断面比较。在其他纵向设计中(特别是在非随机临床试验中),它可能不是选择的方法。也可能遇到其他方法,如使用重复测量模型对患者轨迹进行时间比较。我们不知道使用这些其他方法是否会导致关于校准影响的不同结论,特别是随机化允许控制治疗组间基线水平的差异。另一个限制是在这个模拟研究中使用的分布,它是正常的,患者数据显示出与模型的最佳拟合。虽然这代表了理论上的理想情况,但与对真实观测数据的分析相比,这可能会导致随机效应PCM的性能被高估。在模拟的基础上,使用非正常PRO数据或与Rasch模型拟合不完美(但“足够好”)的进一步研究也将是有兴趣的。在实际临床试验数据上使用校准和非校准方法的说明性例子也可能对未来的研究感兴趣。最后,我们故意将这些分析的范围限制在RMT框架内,并没有在与之竞争的现代心理测量范式,项目反应理论(IRT)的背景下解决这个问题。 While a similar process as the one used here for RMT can be used for calibration based on IRT models, different findings and recommendations may be obtained. Previous research has already suggested that larger calibration sample is needed in order to obtain reliable estimates of individual patient latent traits for IRT models [34gydF4y2Ba].此外,由于模型中项目参数和人参数的分离,Rasch模型的“特定客观性”属性是校准过程的核心。应该进行进一步的研究,以探索我们的结论是否被IRT模型生成和分析的数据所证实。gydF4y2Ba
这项工作表明,在RMT框架下开发的PRO仪器中,在分析来自随机临床试验的PRO终点时,校准始终是一个合适的选择。为了使校准成为可能,PRO仪器必须之前进行过RMT分析,并在文献中提供一组项目参数(在不同试验中重复使用的一组值)。在RMT范式中开发的一些仪器提供了校准其他研究中的估计的可能性,如BREAST-Q [gydF4y2Ba14gydF4y2Ba], face-q [gydF4y2Ba35gydF4y2Ba]和来自“Q-portfolio”、R-ODS [gydF4y2Ba15gydF4y2Ba]、口腔黏膜[gydF4y2Ba36gydF4y2Ba]或88项多发性硬化痉挛量表(mssss -88) [gydF4y2Ba37gydF4y2Ba].在随机临床试验中研究了使用这些rmt校准仪器在PROs方面的新治疗方法的益处[gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba,gydF4y2Ba41gydF4y2Ba]和非比较试验[gydF4y2Ba42gydF4y2Ba,gydF4y2Ba43gydF4y2Ba].类似地,PROMIS或EORTC QLQ-C30计算机化自适应测试(CAT)也使用校准,但在IRT范式中[gydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Ba].然而,这似乎并不是系统的情况。gydF4y2Ba46gydF4y2Ba,gydF4y2Ba47gydF4y2Ba].基于我们模拟的结果,我们建议使用RMT框架的新PRO仪器的开发人员以及分析这些仪器数据的临床试验统计学家始终考虑校准。使用正式的RMT分析,可以通过在随机效应Rasch模型中包含协变量来比较治疗组。在比较两组之前(例如,使用t检验),也可以根据随机或固定效应的Rasch模型估计患者的潜在特征。另一种更简单的获取患者潜在特征的校准测量方法是使用转换表,可以将原始分数转换为来自Rasch模型的近似测量值。这种方法的缺点包括在缺失项目存在时无法评估患者测量值。虽然这些允许校准的不同方法似乎表现不同(例如,根据随机效应对患者估计的潜在特征进行t检验,如当前研究观察到的那样,Rasch模型显示有偏倚[gydF4y2Ba18gydF4y2Ba]),至于哪种方法更可取,目前尚无确切的共识。还必须仔细考虑所使用的方法,以适当利用以Rasch模型为基础的PRO测量的计量优势(即具有区间级比例尺的可能性和个人水平的测量不确定度)。gydF4y2Ba
结论gydF4y2Ba
RMT框架允许在随机临床试验中正确校准PRO仪器。在这种情况下,我们的模拟研究表明,与未校准相比,PRO仪器的校准导致试验证明治疗效果的能力相似。因此,校准应始终如一地执行,因为它保证了每个定义在相同的单位(可追溯性)中表达PRO结果,这是可解释性的重要附加值。为使校准成为可能,应为使用RMT开发的PRO仪器提供从校准样品中获得的适当项目参数值或转换表。gydF4y2Ba
数据和材料的可用性gydF4y2Ba
在当前研究中生成和分析的数据集可在OSF存储库中获得,gydF4y2Bahttps://osf.io/prbaj/?view_only=9c7493c7ba6548bf9819e4d730077b3egydF4y2Ba.占据的gydF4y2Ba©gydF4y2Ba用于分析数据集的程序可从通讯作者处获得。gydF4y2Ba
缩写gydF4y2Ba
- 猫:gydF4y2Ba
-
计算机化适应性测验gydF4y2Ba
- 结论:gydF4y2Ba
-
经典测试理论gydF4y2Ba
- DIF:gydF4y2Ba
-
差别化项目功能gydF4y2Ba
- EORTC QLQ-C30:gydF4y2Ba
-
欧洲癌症研究与治疗组织生活质量调查问卷gydF4y2Ba
- 红外热成像:gydF4y2Ba
-
项目反应理论gydF4y2Ba
- MML:gydF4y2Ba
-
边际极大似然gydF4y2Ba
- mss - 88:gydF4y2Ba
-
88项多发性硬化痉挛量表gydF4y2Ba
- PCM:gydF4y2Ba
-
部分信用模型gydF4y2Ba
- 正方观点:gydF4y2Ba
-
Patient-reported结果gydF4y2Ba
- PROMIS:gydF4y2Ba
-
测量信息系统gydF4y2Ba
- RMT:gydF4y2Ba
-
拉什测量理论gydF4y2Ba
- R-ODS:gydF4y2Ba
-
rasch建立的整体残疾量表gydF4y2Ba
- 坐:gydF4y2Ba
-
学业能力测验gydF4y2Ba
- SD:gydF4y2Ba
-
标准偏差gydF4y2Ba
参考文献gydF4y2Ba
健康、U.D.o.和H.服务,行业-患者报告的结果测量指南:用于医疗产品开发以支持标签声明。gydF4y2Bahttps://www.fda.gov/media/77832/downloadgydF4y2Ba, 2009年。gydF4y2Ba
Mercieca-Bebber R,等。临床试验中患者报告结果的重要性和未来优化策略。与患者相关的结果测量。2018; 9:353。gydF4y2Ba
Fayers P,等。EORTC QLQ-C30评分手册(第3版)。布鲁塞尔,比利时。2001。EORTC出版物。gydF4y2Ba
Phillips SD,等。仔细考虑校准概念。J Res国家研究院标准技术,2001;106(2):371。gydF4y2Ba
Fisher Jr WPJM。人力、社会和自然资本度量的不变性和可追溯性。理论应用2009;42(9):1278-87。gydF4y2Ba
Reeve BB等人。健康相关生活质量项目库的心理测量评估和校准:患者报告结果测量信息系统(PROMIS)的计划。医疗护理。2007:S22-31。gydF4y2Ba
De Bièvre PJA,保证Q. 2012国际计量词汇:“VIM”。2012年,17(2):231 - 2。gydF4y2Ba
安X,容y - f。项目反应理论:它是什么,如何使用IRT程序来应用它。SAS Institute Inc SAS364-2014。2014; 10(4)。gydF4y2Ba
Nunnally Jr, j.c.,《心理测量导论》1970。gydF4y2Ba
Wright BD, Linacre JM。观察总是有序的;然而,测量必须是间隔的。中华医学杂志。1989;30(12):857-60。gydF4y2Ba
拉希GJ。C.D.I.f.E.R,一些智力和成就测试的概率模型,第56卷;1960.gydF4y2Ba
Andrich D. Rasch模型用于测量。1988年,68年圣人。gydF4y2Ba
霍巴特J, Cano S.提高多发性硬化症治疗干预的评价:新的心理测量方法的作用:印前项目;2009.gydF4y2Ba
Pusic AL,等。开发一种新的由患者报告的乳房手术结果测量方法:breast - q。中华整形外科杂志,2009;29(2):344 - 344。gydF4y2Ba
van Nes SI,等。免疫介导的周围神经病变的Rasch-built总体残疾量表(R-ODS)。神经学。2011;76(4):337 - 45。gydF4y2Ba
Christensen KB,等。对数线性Rasch模型的潜在回归。通信统计理论与方法。2004;33(6):1295-313。gydF4y2Ba
刘志刚,刘志刚,刘志刚。基于二分类Rasch模型的人参数估计。In: Rasch Models:施普林格;1995.53 - 68页。gydF4y2Ba
Hamel J-F,等。主观健康测量的群体比较的偏差和力量。2012; 7 (10): e44695。gydF4y2Ba
Blanchin M,等。使用Rasch模型对患者报告的结果进行组比较的功率和样本量的确定:参数错误规范的影响。中国生物医学工程学报。2015;15(1):21。gydF4y2Ba
数学心理学研究:I.一些智力和成就测试的概率模型。1960.gydF4y2Ba
Andrich自民党。对有序响应类别的评级公式。1978年,43(4):561 - 73。gydF4y2Ba
McGuigan C, Hutchinson M.确认多发性硬化症行走量表12 (MSWS-12)的有效性和响应性神经学。2004;62(11):2103 - 5。gydF4y2Ba
项目反应理论在实际测试问题中的应用。2012:劳特利奇。gydF4y2Ba
安东尼·E,等。用于验证量表的样本量:对新开发的患者报告结果测量的出版物的回顾。健康质量生活结果。2014;12(1):1 - 10。gydF4y2Ba
Hardouin jb,。SIMIRT: Stata模块,用于处理IRT模型生成的数据;2013.gydF4y2Ba
Molenaar信息战。项目参数估计。In: Rasch模型:施普林格;1995.39-51页。gydF4y2Ba
Sébille V,等。关于经典测试理论(CTT)和基于项目反应理论(IRT)的方法的方法学问题,用于比较两组患者报告的结果——一项模拟研究。中国生物医学工程杂志,2010;10(1):1 - 10。gydF4y2Ba
Blanchin M,等。患者报告的结果与rasch家庭模型的组比较的功率和样本量的确定。公共科学学报,2013;8(2):e57279。gydF4y2Ba
在评估医疗器械效果时,患者报告结果(PROs)的管理、价值和使用。2018.gydF4y2Ba
孙文杰,王志强,王志强。基于项目反应模型参数的项目功能差异检测;1993.gydF4y2Ba
Rouquette A, Hardouin J-B, Coste J.差异项目功能(DIF)和随后的偏差组比较使用复合测量量表:一个模拟研究。应用科学学报。2016;17(3):312 - 334。gydF4y2Ba
Rouquette A,等。复合健康测量量表中的差异项目功能(DIF):在Rasch模型框架内描述具有有意义后果的DIF的建议。PLoS One. 2019;14(4):e0215073。gydF4y2Ba
罗国强,刘志强,刘志强。rm2030:基于Rasch模型的一维测量方法。西澳大利亚州珀斯:RUMM实验室;2009.gydF4y2Ba
Tsutakawa RK, Johnson JC。项目参数估计的不确定性对能力估计的影响。心理测量学。1990;55(2):371 - 90。gydF4y2Ba
Pusic AL,等。容貌量表FACE-Q满意度的开发和心理测量评估:一种新的面部美容患者的患者报告结果工具。中华外科杂志,2013;40(2):249-60。gydF4y2Ba
Prieto L, Thorsen H, Juul K.结肠造口或回肠造口患者生活质量问卷的开发和验证。健康质量生活结果,2005;3(1):1 - 10。gydF4y2Ba
霍巴特J,等。获得多发性硬化症痉挛的测量方法:多发性硬化症痉挛量表(mss -88)。大脑。2006;129(1):224 - 34。gydF4y2Ba
van Schaik IN,等。皮下免疫球蛋白维持治疗慢性炎症性脱髓鞘多发性神经病(PATH研究):一项随机对照试验的研究方案。试验。2016;17(1):1 - 15。gydF4y2Ba
van Schaik IN,等。皮下免疫球蛋白维持治疗慢性炎症性脱髓鞘多发性神经病(PATH):一项随机、双盲、安慰剂对照的3期试验中国神经医学杂志,2018;17(1):35-46。gydF4y2Ba
Overschmidt B等人。三维图像模拟的前瞻性评价:初次隆胸患者报告的结果和乳房测量学。中国整形外科杂志,2018;29(2):344 - 344。gydF4y2Ba
钟涛,等。加拿大多中心脱细胞真皮基质试验(MCCAT):研究基于植入物的乳房重建的随机对照试验方案。试验。2013;14(1):1 - 12。gydF4y2Ba
温克尔SH,等。综合、微创、多模式美容治疗对面部外观满意度的影响:HARMONY研究中华外科杂志,2018;38(5):540-56。gydF4y2Ba
Thill M,等。患者报告钛化聚丙烯网(TiLOOP®胸罩)植入乳房重建后的结果和美容评估:269例患者的前瞻性临床研究。中华外科杂志,2020;26(8):1484-90。gydF4y2Ba
DeWalt DA,等人。候选项目评估:PROMIS定性项目评审。医学护理。2007;45(5增刊1):S12。gydF4y2Ba
彼得森马,等。开发EORTC QLQ-C30尺寸的计算机化自适应测试(CAT) -物理功能的一般方法和初始结果。中华癌症杂志,2010;46(8):1352-8。gydF4y2Ba
Belvedere SL, de Morton NA。Rasch分析在医疗保健中的应用正在增加,并因各种原因应用于移动仪器。临床流行病学杂志,2010;63(12):1287-97。gydF4y2Ba
de Bock E, Williams P, Tugaut B.四十年来患者报告结果仪器验证的Rasch分析:一项系统的文献综述。价值健康。2016;19(7):A362。gydF4y2Ba
确认gydF4y2Ba
作者要感谢斯特凡·卡诺(Stefan Cano)对这篇手稿以前版本的见解。gydF4y2Ba
资金gydF4y2Ba
这项工作得到了法国“国家研究和技术协会”(ANRT)在CIFRE博士项目下对AL的资助。gydF4y2Ba
作者信息gydF4y2Ba
作者及隶属关系gydF4y2Ba
贡献gydF4y2Ba
AL, AR, VS和JBH构思了这项研究,解释了结果,并起草了手稿。AL进行了模拟研究。所有作者都阅读并批准了最终的手稿。gydF4y2Ba
相应的作者gydF4y2Ba
道德声明gydF4y2Ba
伦理批准并同意参与gydF4y2Ba
不适用gydF4y2Ba
发表同意书gydF4y2Ba
不适用gydF4y2Ba
相互竞争的利益gydF4y2Ba
作者宣称他们没有竞争利益。gydF4y2Ba
额外的信息gydF4y2Ba
出版商的注意gydF4y2Ba
188博金宝app网施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。gydF4y2Ba
补充信息gydF4y2Ba
附加文件1。gydF4y2Ba
图1所示场景的响应类别阈值。gydF4y2Ba
附加文件2。gydF4y2Ba
i型误差、功率、位置偏差和处理组间差异估计的SD(模拟的完整结果)。gydF4y2Ba
权利和权限gydF4y2Ba
开放获取gydF4y2Ba本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.创作共用公共领域奉献弃权书(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本条所提供的资料,除非在资料的信用额度中另有说明。gydF4y2Ba
关于本文gydF4y2Ba
引用本文gydF4y2Ba
卢伯特,A.,勒诺,A., Sébille, V.;gydF4y2Baet al。gydF4y2Ba评估患者报告结果测量的校准对随机临床试验结果的影响:基于Rasch测量理论的模拟研究gydF4y2BaBMC医学Res MethodolgydF4y2Ba22gydF4y2Ba224(2022)。https://doi.org/10.1186/s12874-022-01680-zgydF4y2Ba
收到了gydF4y2Ba:gydF4y2Ba
接受gydF4y2Ba:gydF4y2Ba
发表gydF4y2Ba:gydF4y2Ba
DOIgydF4y2Ba:gydF4y2Bahttps://doi.org/10.1186/s12874-022-01680-zgydF4y2Ba
关键字gydF4y2Ba
- 临床试验gydF4y2Ba
- Patient-reported结果gydF4y2Ba
- 拉什测量理论gydF4y2Ba
- 校准gydF4y2Ba