摘要
背景
评分者之间的可靠性,又称编码者之间的可靠性,定义为评分者(又称编码者)之间的真实一致,没有偶然的一致。它被用于包括医疗和健康研究在内的许多学科,以衡量评级、编码、诊断或其他观察和判断的质量。虽然有许多评估者之间可靠性的指标,但专家们在哪些指标是合理的或更合适的问题上存在分歧。
几乎所有人都同意这一说法o)是最古老、最简单的指标,但也是缺陷最大的指标,因为它无法估计和消除由评分者随机评分产生的机会一致性。然而,专家们对哪种概率估计方法是合理的或更好的存在分歧。此外,专家们还对评价类别、分布倾斜或任务难度这三个因素中,一个指标应该依赖哪一个因素来估计机会一致性,以及已知指标实际上依赖哪些因素存在分歧。
根据数理统计功能主义的观点,最流行的概率调整指数假设所有评分者都进行有意和最大随机评分,而典型的评分者进行非自愿和不情愿的随机评分。假设和实际打分者行为之间的不匹配导致指标依赖错误的因素来估计机会一致性,导致先前研究发现的指标存在大量的悖论、异常和其他不当行为。
方法
我们采用4 × 8 × 3受试者间对照实验,每个细胞4名受试者。每个被试为1次评分,由2名评分员评分100对,共计384次作为实验被试。实验测试了七个最著名的指标之间的信度与观察的信度和机会协议。考察了评价类别、分布倾斜度和任务难度三个因素对指标的影响。
结果
最受批评的指数是百分比一致性(ao),显示为最准确的可靠性预测,报告方向性r2=点。它也是第三好的近似,平均高估了观察到的可靠性13个百分点。最受欢迎和最受欢迎的三个指数,斯科特π,科恩κ和克里本多夫α,表现低于所有其他指数,报告方向性r2=。312而且underestimated reliability by 31.4 ~ 31.8 points. The newest index, Gwet’s AC1,是第二好的预测因素,也是最准确的逼近因素。Bennett等人的S排在AC之后1佩罗和利的Ir预测和近似都排在第四位。对类别和倾斜的依赖和对难度的失败解释了为什么六个机会调整指数经常表现不佳o他们被创造出来就是为了跑赢这些市场。证据证实了机会调整指数假设有意和最大随机评级,而评分者表现为非自愿和不情愿的随机评级的概念。
结论
作者呼吁进行更多的实证研究,特别是更多的对照实验来证伪或限定这项研究。如果主要的发现得到了重复和基础理论的支持,那么可能需要新的思维和新的指标。指数设计者可能需要避免假设有意的和最大的随机评级,而是假设非自愿的和不情愿的随机评级。因此,新的指标可能需要依赖任务难度,而不是分布倾斜或评级类别,以估计机会一致性。
背景
在许多学科中,包括卫生和医学研究,互码器或互码器可靠性用于衡量测量质量[1,2,3.,4,5,6,7,8,9,10].对包括谷歌Scholar、Scopus和Web of Science在内的数据库的搜索发现,学术文献中有几十个术语,如diagnostics(诊断医生之间的可靠性)和patient(患者之间的可靠性),显示了这个概念的广泛适用范围——
注释者、仲裁者、评估者、审核者、诊断医师、医生、编辑、评估者、审核者、评分者、译员、面试者、法官、监测者、观察者、操作者、病人、药剂师、医生、读者、裁判、记者、研究者、答辩者、评分者、筛选者、学生、督导者、外科医生、教师、测试者、治疗师、转录者、翻译者、用户、投票人。
可能最早的指数是百分比一致性,表示为ao[9,11].几乎所有的可靠性专家都同意o夸大可靠性,因为它不能消除机会协议(ac)[2,3.,4,5,12,13,14].许多指标已经被提出来估计和消除c.贝内特和同事的S,佩罗特和利的Ir估计c作为(C)类的职能[7,15].Scott的π, Cohen的κ和Krippendorff的α估计ac作为分布倾斜的函数k)[2,16,17,18,19].Gwet的交流1使一个c类别和偏度的函数。尽管还有许多其他指数,新的指数也在不断出现,但综合评论显示,只有这七个指数是经常使用的,并继续被推荐或提倡[14,20.,21,22,23,24,25,26].
统计学家使用推导或模拟的方法讨论和辩论三个问题:1)在估计信度或概率一致性时,哪些指标是有效的或更准确的?2)影响指标的因素是什么?3)哪些因素会影响指标?问题2和问题3的答案解释了问题1的答案[14,27].争论的基础是五种观点,第一种观点得到了几乎所有专家的广泛认同,而其他观点则引发了激烈的争论。这五个观点导致了五组猜想,我们将它们列在下面,并将细节留给附加文件1,部分I.2。
- 1.
协议(百分比o)忽略偶然的一致(ac),因此是膨胀的。
- 2.
评级类别(C)膨胀S, Ir,交流1通过压缩指数的ac估计。
- 3.
分布倾斜的k) π, κ和α通过膨胀指数a而缩小c估计。
- 4.
主要指标忽略了任务难度,这是影响工作效率的主要因素c;因此,他们错误估计了可靠性。
- 5.
机会调整指数,S, π, κ, α, Ir,交流1包括,假设所有评分者有意和最大概率评分;在这种假设下,机会调整指数共享相同的机会修正公式Eq。1,一个o是否观察到%-agreement, ac是估计机会一致,而r我估计真一致性,即可靠性指标。
有意随机假设,又名最大随机假设,据说是许多已知的悖论、异常和指数的其他不当行为的根源,因为评级者被认为是诚实和真实的。随机评分(如果有的话)应该是非自愿的,而不是有意的;依赖于任务,而不是一成不变地最大化。14,21,22,23,24,26,28,29,30.].
机会一致是评分者行为的产物,而争论最终是关于评分者行为的[14,31:指数的估计假设了什么行为?到底发生了什么行为?假设是否与行为相匹配?辩论者依靠理论论证、数学推导、虚构的例子、自然主义比较和蒙特卡罗模拟。有必要对评分者行为进行系统的观察,以便为关于评分者行为的争论提供信息。
本文报道了一个控制实验,操纵类别,倾斜和难度,并观察评分者的行为反应。根据观察到的行为对这七个指标进行了测试。研究结果也适用于a的两个等价物o, 6个S的等价物,2个π的等价物,1个κ的等价物,共覆盖18个指标,这些指标均由Zhao, Liu和Deng进行了数学分析[14].
方法
黄金标准重构实验
真实数据重构实验(REORD)
我们采用4 × 8 × 3受试者间对照实验,每个细胞4名受试者。这里的术语“受试者”指的是一项研究的分析单位,如参与一项新药有效性实验的患者。然而,在这项研究中,一个“被试”是由两名评分者进行的100对评分会议。由于4 × 8 × 3 × 4 = 384次,本研究基于384次评分,即受试者。3个操纵因素包括4个级别的类别(C = 2,4,6,8), 8个级别的难度(df范围为0 ~ 1,最小值为0,最难值为1)和三个倾斜级别(sk50-50分布= 0.5,75-25或25-75分布= 0.75,99-1或1-99分布= 0.99),如表所示1.
来自53个亚洲、欧洲和北美城市的300多名评分者,注册了383个网站名称,对作为实验刺激的条的长度进行了在线判断。共有22,290件物品被评分,其中19,900件物品成功配对,共产生9950对评分。借鉴bootstrap的技术[32,33),重叠34]和蒙特卡洛模拟[35],我们从9950对样本中采样和重采样,以重建384个评级会话[36].
因此,评分者和评分是真实的,而评分环节是重构的,使其成为真实数据的重构实验(REORD)。额外的文件1在这手稿的最后(第二节)提供了进一步的细节和基本原理。
观察到的真实可靠性(o国际扶轮)和真机会协定(o交流)作为黄金标准
评分者被要求判断棒子的长度。研究人员通过编程确定杆的长度,因此可以确定哪个评级决策是正确的或错误的。由于格条的长度被设定为只会在最长的格条和第二长的格条之间发生随机猜测,因此真正的概率一致性(o交流)是两次错误的协议(公式3,附加文件1)和真正的可靠性(o国际扶轮)被遵守协议o-阿交流(附加文件的公式51).因此,阿国际扶轮作为黄金标准,即观察估计,以七个指标进行评估,和o交流作为七个机会估计量的黄金标准[37].额外的文件1(II.3)解释了我们使用“黄金标准”一词而不是“黄金标准”。
5个自变量和16个因变量
因此,这个record实验有三个被操纵的自变量,第一类,偏态(s)k)和困难(df)和16个主因变量,即7个指标的信度和机会估计加上观测到的真信度(o国际扶轮)和真机会协定(oca).作为两个主要的估计,o国际扶轮和oca在评估它们对指数估计的影响时,有时也作为自变量。表1而且2和附加文件1提供变量计算的更多细节和原理。
统计指标-方向R方博士(2)和误差平均值(me)
可靠性指标有两个作用。一是评估测量仪器之间的相互关系,一个指标需要准确预测真正的可靠性,这意味着积极和高度相关。我们使用方向r平方(dr2= r•|r|)来衡量七个指标及其机会估计量的预测精度(表2和附加文件的公式101).我们的首选r2/ r,因为r2有一个更清晰和更实际的解释,百分比的DV方差解释的IV;r2也是比较保守的r2≤| |。我们首选的博士2在r2因为博士2表示关系的方向,而r2没有。
指数的第二个功能是根据一些可靠性权威机构推荐的固定基准(如0.67和0.80)来评估测量工具[19,30.,44,45].对于这个函数,一个索引需要接近真实的可靠性。我们用误差均值me,它是在384个评级会话中,指标与观察到的真实信度平均值的偏差,以衡量七个指标的近似准确性,记为me(右我)表2和附加文件的公式81.同理,我们也用me为了评估和比较指标的机会估计量,记为me(一个c)表2和附加文件的公式91.
我们采用了博士2>。8一个s the primary benchmark and me<。02作为评价七大指标的次要基准。附加文件第五节1详细说明基准的计算和基准背后的原理。
的功能P值和统计前检验
这项研究遵循了报告的传统p< α,其中α =。05、.01或.001。然而,我们也采取功能主义的观点p价值观,努力遵循最佳统计实践[46,47,48,49,50]:
- 1)
避免使用包含“显著性”的术语,例如“统计显著性”p<α;
- 2)
考虑p< α作为预筛选阈值,通过该阈值,我们就可以评估、解释和比较百分比尺度上的效应大小指标,例如r2博士2和me,有些自信;
- 3)
使用“统计前检验”和“统计公认”等术语,而我们传统上会使用“显著性检验”和“统计显著性”;
- 4)
将包含“显著”和“显著性”的术语保留给具有实质重要性的效应量。
结果
根据观察到的可靠性进行测试的可靠性估计
调查结果摘要载于表中3.,4,5而且6和无花果。1并分三节进行讨论。本节将报告七个指标在预测和近似观察到的可靠性时的性能。下一节分析这四个因素对指数表现的影响。下一节将讨论偏移机制,以便更好地理解指标的复杂行为。
总的来说,2.86%的评分者的决定落在短条上(1.11,1.93和5.53%分别为4、6和8个类别)。正如预期的那样,关于短条的协议更少,平均为0.45%(0.04、0.12和1.18%)。这些协议对被调查的主要关系没有明显的影响。操纵变量之间的相关性几乎为零,证实了正交性,这表明最小的混杂或多重共线性。
预测的可靠性
百分比的协议,o这个最古老也是最受批评的评分者间可靠性指标,在预测真正的可靠性方面做得很好2= .841(3行表3.).在测试的七个指标中,ao是不是只有一个人达到了主要基准Dr2>。8(Ineq. 11),超过了排名第二的AC1(博士2= .721),第三名S (dr2虽然后两者都达到了Dr2>正。
π、κ和α是最不准确的预测因子2=。312,f一个我ling the tentative benchmark by margins. They also underperformed the next worst, Ir(dr2= .599)。
考虑到这些指数的全部任务是优于a,它们的不佳表现,尤其是流行的π、κ和α,令人失望o.低r2意味着有很大的预测误差,表明这三个指数往往给更可靠的工具分配较低的分数,而给不太可靠的评级分配较高的分数。他们未能准确而持续地区分可靠的仪器和不可靠的仪器。
数字2将性能可视化,并根据它们的Dr2分数。我们再次注意到,k和α是最低的,而一致性百分比(ao)排名最高。数字2预测机会一致性的准确性与预测者间信度的准确性(dr2= .9768,p< .001),支持本研究的一个设计特征,即分析指标的概率估计,以理解指标。
评级机构间可靠性指标的准确性。注:1。实心的红色条是dr2估计的概率与观察到的概率一致。2.虚线蓝色条表示dr2估计的评分信度和观察的评分信度之间。3.主要指标:博士2> 0.8。4.数据来源:第3行和第8行,表3.
近似的可靠性
平均可靠性为。555国际扶轮) (A3,表5).7个指标的信度估计范围为。237 (π) ~。726 (I)r),表示近似误差较大。正如专家们所预测的,同意率(ao)高估了可靠性,报告e米= 13。(B6,表5)和me= 13。(A3,表4).然而,该误差低于二级基准测试m所允许的误差e< 2(附加文件的Ineq. 13)1).所以一个o是唯一一个同时满足一级和二级基准的指数。
其他三个指标也符合me< 2benchmark, of which two, AC1(me= .093)和S (me= .096)。也比o(第3行表4).
π、κ和α这三个组合的表现再次低于其他所有组合,报告了me.323 ~ .327(第8行,表5).误差是0 ~ 1的三分之一,是a的两倍多o(me= .130)。我r高估了可靠性,就像一个o(D6,表5),而κ、π和α整体低估——估计为23.7% ~ 24.1%,观察值为55.5%(表3)5).
交流1S低估了一些会话,而高估了其他会话(表6行5).的交流1和S,下限估计和过高估计相互抵消,得到e的大小(绝对值)米比m小得多e.在其他五个指标中,e米和me大小差不多(第6行,Table5vs第三行,表格4).
部分是因为这些补偿,AC1S产生接近零或非常小的e米(错误。分别为. 001和.044),比其他五个指数都要小得多。相比之下,κ、π和α再次产生了最大的误差米范围为- .318 ~ -。314,米uch worse than the next worst, Ir(e米=。171,Line 6, Table5).
Pi-kappa-alpha同步
如上所示,π, κ和α表现得像一个指数,尽管关于它们中哪一个是最好的存在激烈的争论[10,12,54,55,56,57].π-κ-α的同步模式贯穿整个数据。
四个因素的影响
前面回顾的五个观点讨论了可靠性和/或可靠性估计背后的四个因素。现在我们已经观察到评分者的行为,我们检查这四个因素的真正影响。
猜想组1:机会一致膨胀ao
如前所述,13%的可能性协议(o交流)和55.5%的信度(o国际扶轮),而一致性百分比(ao)假设0%的概率一致,报告了68.5%的可靠性,这意味着13点的高估(表4而且5).猜想1和几百年的信念得到了支持。
- (1)
协议存在的机会。
- (2)
完全忽略偶然的约定,一个o夸大估计的可靠性。
然而,这个实验的数据增加了第三点:
- (3)
这种偶然达成的协议可能不像之前想象的那么大。
在这个实验中,ao保持在.2阈值以下,这是允许预测准确性的主要因素(r2)o保持在。8的阈值以上。作为一个o跑赢主要基准指数的全部六个指数(r2),在二级基准指数的6只成分股中,有4只的表现要好e),可以提出一个论点,高估和错误估计机会一致可能会适得其反,就像忽视机会一致一样。
猜想组2,类别膨胀S, Ir与交流1
作为S的批评者,我r和交流1(C)类对概率估计有很大的负面影响交流、红外交流和交流交流博士,2范围−。863 ~−。661, (p<。001, 9号线,桌子3.).表格6(K4 ~ K7)显示更多细节,如S交流C = 2时为50%,C = 8时骤降至12.5%。与平均13点相比,这一下降幅度似乎很大交流.
对机会估计的负面影响有助于对可靠性估计的积极影响,如dr2范围。599 ~。721(p<。001, 3号线,桌子3.).S从C = 2时的40.2%上升到C = 8时的64.1% (C4 ~ C7,表6).23.9分与平均55.5分相比,差距很大国际扶轮.相比之下,类别效应对估计目标的影响较小国际扶轮和o交流小。系数博士2分别为.003 (p≥。05)和−。019(p< .01) (A4和A9,表3.,见表6,第4 ~ 7行,了解更多细节)。
这些结果支持了经典理论,即当类别超过两个时,S和等价物低估了机会一致性,即使额外的类别基本为空。
表格还显示我r和交流1和S一样依赖类别,也有同样的缺陷。类别效应对S, Ir或交流1估计和类别效应对观测信度的影响均通过了检验p<。001年进行预测。与此同时,类别的影响最小2≈。001, p≥.05)对π, κ和α的影响,如作者预期的那样(第4行,表3.).
猜想组3:斜度压低κ、π、α
正如κ、π和α的批评者所预测的那样,斜度对机会估计器κ有实质性和积极的影响交流,π交流&α交流博士,2范围。434 ~。437(p<。001, 10号线,桌子3.).表格6(第8 ~ 10行)显示了更多的细节,例如,κ交流当分配为50&50时为50%,但当分配变为1&99时上升到67.6%。
对概率估计的积极影响导致了对可靠性估计的消极影响。3个指标的偏态效应均为负2−。293 ~。292(p<。001, 5号线,桌子3.).当分布从完全均匀到极度倾斜时,三人的概率一致性估计从约0.5增加到约0.68,同时他们的可靠性估计从约0.37下降到约0.04,下降超过89%(表8 ~ 10行6).虽然之前的研究的数学分析预测了下降[14,26,58],这项研究的实证证据显示了下降的剧烈幅度。
与对指数估计量的较大影响相比,偏倚对观测估计量的影响最小国际扶轮和o交流(p≥。两位博士均为052, A5和A10,表3.),支持机会估计和可靠性指数不应依赖于倾斜的论点。π、κ或α估计上的歪斜效应与观察估计上的范畴效应之间的每一个差异都通过p<。001年进行预测。
在另一个对比中,倾斜对S, I几乎没有影响r或他们的概率估计,对交流有小的负面影响交流(博士2=−.039,p<。001,第5行和第10行,表3.).所以我r如作者预期的那样避免了倾斜效应,而AC1正如它的作者所期望的那样逆转了效果,尽管这种逆转效果很小。我们从经验上证实了一个长期怀疑的规律——κ、π和α依赖于斜度,而S、I和α依赖于斜度r与交流1取决于类别。
猜想组4:指标忽略了任务难度
难度对学习成绩有显著的积极影响交流(博士2= .585,p<。001年,A11、表3.),对o有较大的负面影响国际扶轮(博士2=−.774,p<。001年,A6)。从极其容易到极其困难的变化降低了o国际扶轮提高了68个百分点以上交流下降了近36个点(表中A列和I列6).与平均13分相比,这些影响显得很大交流平均55.5分国际扶轮,这表明概率估计和可靠性指标应该依赖于难度。
相比之下,难度对S的影响最小交流、红外交流和交流交流(博士2= .000 ~ .009,p≥。5、表3.)和对κ的负面影响交流,π交流&α交流(博士2=−。123.or − .125,p<。001年,表3.;c.f表第I列和N ~ P列第11 ~ 18行6),这意味着这些指标要么没有依赖难度,要么依赖难度的反面——易度,来估计机会的一致性。概率估计上的难度效应与观测到的概率一致性上的难度效应之间的每一个差异都在统计上被承认p<措施。
难度对六个机会调整指数的影响较弱2=−.566 ~−。389,Line 6, Table3.)比对估计目标o国际扶轮(博士2=−.774)。可靠性估计的难度效应和观测的可靠性的难度效应之间的每一个差异在统计上被承认p<措施。
相比之下,o,显示出较强的负相关(dr2=−。778,B6, Table3.)与困难。这种相关性和o国际扶轮和困难(博士2=−.774,A6), suggesting the negative correlations between the chance-adjusted indices and difficulty (dr2= - .566 ~ - .389)很可能是由于o嵌入到索引中。
通过推导和模拟,Gwet得出了在AC之前的指标1没有妥善处理好难度,而AC1处理得更好,至少比κ38,59,60].上述研究结果支持两种观点。AC之间几乎为零的相关性交流和困难(博士2=。009, p≥。05、E11表3.),然而,表明AC1仍然不能正确处理难度。
猜想组:指标假定有意和最大随机评级
统计指标背后的行为假设的最直接证据应该来自数学分析。2013年的一项研究提供了评分者行为的详细场景,这些场景是由分析的22个指标中的每一个假设的。14].读者被邀请从行为场景中推导出数学公式。如果读者派生的公式与对应索引的公式匹配,那么读者应该得出这样的结论:对应索引确实假设了场景中描述的行为模式。例如,如果从Kappa情形推导出的公式与Cohen κ的公式相匹配2],就可以证实κ确实假设了Kappa情景中描述的评分者行为。例如,这样的课堂练习向我们的学生表明,主要的机会调整指数都假设评分者定期进行有意的和最大的随机评分。
本研究提供了确证的实证证据。这些指标的概率估计与其估计的相关性很差,观察到的概率一致性(表3.所观察到的机会一致(o交流)解释了每个基于类别的指数的概率估计中不足8%的方差,S交流我(2.1%)rac(2.1%)和AC交流(7.5%)。尽管基于倾斜的指数的概率估计的相关性更强,π交流(−15.1%),κ交流(−15.2%)、α交流(−15.1%)2系数均为负值,表明当真实概率一致值较低时,三个指标的估计值较高;当真实概率一致值较高时,三个指标的估计值较低。显然,指数估计的随机评级和观察到的评级者的随机评级是完全不同的实体。这一发现支持了这样一种观点,即机会调整指数假设有意的和最大的随机评分,而典型的评分者进行非自愿的和任务依赖的随机评分。假设和观察结果之间的不匹配解释了估计和估计之间可以忽略的或负相关。
对于最大随机假设的更多确证证据来自于6个机会调整指数对机会一致性的严重高估,如表的第12行所示5和桌子的右半部分6,在第19行中总结。
行为假设的更详细和情景证据来自四个因素的影响以及指标的抵消和加重行为,下文将对此进行讨论。
总结四个因素的影响
每一个评分者之间的可靠性指标都暗示了一个或多个关于机会一致性的错误假设。一个o忽视了协议的机会。年代,我r和交流1不恰当地依赖类别。π, κ和α不恰当地依赖于斜度。虽然难度对机会一致性有很强的正向影响,但所有的机会调整指数都不依赖于难度。π、κ和α甚至依赖于它的反义词easy。错误假设,包括遗漏的、错误的和相反的假设,阻碍了估计。π、κ和α的情况更糟,部分原因是它们包含越来越多的毁灭性的错误假设,其中一些错误假设被误认为是久经考验的证据。
回想一下,机会调整指数的主要任务是消除机会一致,以提高百分比一致。当他们对影响概率一致性的因素处理不当时,就会错误估计概率一致性,从而错误估计信度。对这四个因素的错误假设是理解这些指数表现不佳的关键。
为了更详细的理解,我们在下面讨论抵消机制,它与指标的假设和错误假设相互作用,以定义指标的行为。
可靠性估计中的偏移量
如果仔细阅读表格,可能会产生困惑3.,4,5而且6,下文将讨论其中的五个。
难题1
每个机会调整指数依赖一个错误的因素,倾斜或类别,来估计机会一致性;它们都不依赖于正确的因素——难度。为什么一些近似的机会协议比其他协议要好得多(表的第12行5和表的第7行4)?
谜题2
概率估计者几乎没有测量到所观察到的概率一致性交流;Somer甚至测量了反o交流(表的C8 ~ H83.).鉴于概率估计的糟糕表现,为什么可靠性估计都与观察到的可靠性(C3 ~ H3)是正相关的,有时是实质性的相关?
问题3
假设概率一致度和信度之间存在负相关关系,人们可能会认为,对概率一致度的过度估计会导致对信度的过估计。S怎么高估了100%的机会(o交流= 13。0 compared to S交流=。260, Line 9, Table5),同时几乎完美地近似可靠性(S =。556,而o国际扶轮=。555,Line 3, Table5)?
谜题4
继续谜题3,为什么AC1过高估计的机会协议米=。044, 12行,桌子5),同时也高估了可靠性(例如米=。044, 6行,表格5)?
更一般地说,为什么对偶然性一致性的全面高估没有转化为对可靠性的全面低估(表中第12行vs第6行)5)?
谜题5
继续从谜题3和4,我怎么r高估了机会协议而不是交流1(红外交流= 13。1vs AC交流=。044, 12行,桌子5),同时也比AC高估了可靠性1(Ir =;171年与交流1=。044, 6行,表格5)?
这些难题可以部分地用偏移量来解释,包括部分偏移量、过偏移量和反偏移量,即加重,嵌入在可靠性公式中,其中一些公式将在下面讨论。
类别偏移、倾斜加重和倾斜偏移
要理解难题1,首先回顾一下,在有意和最大随机假设下,机会调整指数倾向于高估机会一致性[9,14,29,44,45,61,62,63].在这个实验中,高估的AC从4.4个百分点不等1到斯科特π的44.5分,这些都是统计上公认的(p<。001, 12线,桌子5).
为了解释难题1,我们注意到,基于类别的指数假设类别数量越多,机会一致性越低(C9 ~ E9,表3.),这抵消了普遍的高估。基于偏斜度的指标假设偏斜度越高,概率一致性(F10 ~ H10)越高,加剧了总体高估。交流1假设两者,即类别和倾斜都减少了机会一致性(E10),因此它比其他两个基于类别的指标更能抵消高估。
为了说明这一点,我们遵循教科书上的传统,从原点开始,它的特点是两个评分者,两个类别,和50%对50%的分布。在这里,也只有在这里,所有主要指数给出了大致相同的估计,ac≈0.5 (K2 ~ P2,表6).在有意和最大随机假设下,两个评分者从弹珠中抽取,一半是一种颜色,一半是另一种颜色;如果颜色匹配,他们会随机打分,如果不匹配,他们会随机打分。9,14,29,44,45].任务难度并不是评价者行为的一个因素。
然而,在实际评级中,ac= 0.5只有在任务极其困难的情况下才会发生。在我们的实验中,即使是最困难的(df1像素差= 1)条件没有达到理论最大值,报告o交流= 38(I18,表6).难度较低的会话报告的o值明显较低交流在所有难度级别上的平均值为0.13。这意味着在“归零地”,每个机会调整指数(e米= .5-.13 = .37)。
当类别从归零地增加时,S交流、红外交流和交流交流在类别假设下迅速下降(表第4 ~ 7行K ~ M列)6).考虑到o的变化很小,这种假设是不合理的交流(I4 ~ I7),减小部分抵消了37点的高估,使S交流、红外交流和交流交流减少不准确的。相比之下,κ交流,π交流&α交流拒绝类别假设保持不变(列N ~ P),因此没有受益于部分偏移。因此,年代交流、红外交流与交流交流小于κ的精确度交流,π交流&α交流.
现在回到原点,然后增加倾斜。在斜度假设下,k交流,π交流&α交流(列N ~ P,第8 ~ 10行,表6).考虑到o的变化很小,这种假设是不合理的交流(I8 ~ I10)的增大进一步加剧了37点的高估,形成了κ交流,π交流&α交流更不准确。相比之下,年代交流和红外交流拒绝倾斜假设保持不变(K ~ L, 8 ~ 10),因此没有遭受恶化。因此,κ交流,π交流&α交流变得比S更不准确交流与红外交流.
而不是接受或拒绝倾斜假设,AC交流反过来,假设斜移减少了ac(M8 ~ M10)。虽然假设也与观测到的倾斜效应(I8 ~ I10)不匹配,但这一降低进一步降低了一度37点的高估。在这里,两种不合理的假设,类别和反向倾斜,联合起来部分抵消另一种不合理的假设,有意和最大随机。因此,交流交流变得比S更不准确交流与红外交流因此,这是六种方法中最不准确的。由于有意和最大随机假设的效应比其他两种效应加起来更强,一个净效应是即使是ACac也过高估计了机会一致性。
还有其他的不足补偿、过度补偿和反补偿,即加重,其中一些在下面讨论。在各种抵消的背后是对评分者行为的各种假设,这些假设相互争斗或联合,或保持中立,从而产生各种各样的结果。两个错误有时等于一个正确,有时等于一半正确,通常是三个、四个或更多错误。
Chance-removal抵消
要理解谜题2,回想一下,假设有意的和最大随机评级,指数设计者想要从所有考虑中去除最大数量的机会一致,这需要删除一个c不仅从百分之一致(a)o),但也来自考虑的领域[9,14,23,24,29,44,45].因此,一个c在Eq中减去两次。1,首先从o分子是1,分母是1,这代表了100%的考虑范围。结果产生了两个偏移量。首先,一个c补偿一个o在分子上。第二,c在分母上抵消了在分子上的影响。当自补偿减弱时c的影响,o在情商。1,各指标对信度的估计。这就解释了难题2:弱的或负的ac- o交流相关性的影响要弱于强而正的ao- o国际扶轮相关性。
较弱的影响仍有阻碍。机会估计器不仅未能完成提高百分比一致性的规定任务,而且估计器与任务背道而驰。因此,在预测观察到的真实机会一致性时,所有六个指标都低于百分比一致性。讽刺的是,这是所谓的“最原始的”和“有缺陷的”百分比协议(ao)在指数内部运作,以防止它们表现更糟([2] p38, [12] p80)。
这些偏移也有助于解释谜题3。而S则高估了13.1分的机会一致性(表12行)5),去除机会偏移有助于将可靠性估计的标量误差降低到9.6点(表3行)4).这种跨会话错误包含了对单个会话的高估和低估,它们在平均过程中相互抵消,将矢量错误减少到接近零(e米=。001, 6号线,桌子5.参见前面关于聚合偏差的讨论)。
通过设置估计的可靠性(r我在情商。1)等于观测信度(o国际扶轮在附加文件的公式5中1), r我= o国际扶轮,我们得到一个阈值(th)c,即Eq。2:
对于任何评级会话,当ac= th,低估当一个c> th,高估了c< th.因此,当阿交流<一个c< th,该指数高估了概率一致性和可靠性,解释了谜题4。在384次试验中,平均th如果代入o会是。292吗交流(13)和o国际扶轮(.555)为情商。2.如表5结果表明,在6个经机会调整的指标中,3个(κ, π, α)报告了ac> .292(9号线)也低估了可靠性(6号线),而三个(S, Ir、交流1)报告c< 292一个lso overestimated reliability. At the same time, all six overestimated chance agreement (Line 12). Due to the chance-removal offset, it is possible and possibly common for some category-based indices to overestimate both chance agreement and reliability.
这个分析中出现了一个以前没有记录的悖论。1而且2).一个指标可以准确地估计可靠性(r我= o国际扶轮),只有当它高估了机会协议(ac>阿交流),一个准确估计机会一致性的指标(ac= o交流)不可避免地低估了可靠性(r我< o国际扶轮),除非在极端和不切实际的情况下,当r我= o国际扶轮= 0。这个悖论适用于所有已知的机会调整指数,其根源在于Eq施加的机会消除偏移。1,这可以追溯到有意和最大随机假设[14,23,24,26].
成在抵消
要理解谜题5,回想一下佩罗特和利的Ir采用S, Ir的机会估计量交流=年代交流,取S的平方根作为信度估计[7].≤我r,就像我r=年代½对于1≥S≥0和Ir−1≥S < 0时= 0。当机会一致性被高估时,平方根运算构成额外的偏移量[14].由于S的基于类别的过偏移,Ir高估机会约定比高估交流1;同时,由于I的平方根过偏移r,我r对可靠性的高估超过了AC1.这两个偏移解释了谜题5。
这个实验中的评分环节模拟了一项研究。在实践中,误差不会在不同的研究之间相互抵消,例如,一项研究对疾病A的高估并不能抵消另一项研究对疾病b的低估。我们不应过分强调e中所示的S的接近零的合计误差米或忽略S在m中显示的相当大的个别误差e.
讨论
主要发现
在这七个指标中,一致性百分比(ao)是最准确的可靠性预测器(dr2= .841,表格3.)和第三个最精确的近似器(me= 13。0, Table4).交流1这是最新的也是最不为人知的一种预测方法2= .721)和最佳近似(me= .093)。S排在AC之后1对于两个函数(dr2=。691,米e= .096)。
π、κ和α这三个最受推崇、最常用、最常用的指标在两个函数中都排在最后(dr2=。312,米e= .323 ~ .327)。
这些指标表现不佳的原因可能是假设和观察到的打分者行为之间的不匹配,以及错误假设之间的各种抵消和加剧。百分比一致性假设随机评级为零,导致可靠性高估13点。其他六个指标假设有意的和最大的随机评级,导致对评级者之间的可靠性在“零点”的机会一致性的初始高估37点(表3行)6).
远离归零地,S, Ir和交流1而π、κ和α假设串形分布的概率一致程度较高,加剧了高估。适当的偏移和严峻的恶化解释了基于类别的指数比基于倾斜的指数更小的近似误差。与假设相反,无论是评级类别还是分布倾斜都没有对观察到的真实机会一致性显示出有意义的影响。
困难对机会同意(dr2= .585,p<。001年,表3.),而S, Ir,交流1不靠难度估计机会一致(dr2= .000 ~ .009,p≥0。)。不依赖难度进一步解释了这三个指数在预测方面的不佳表现。而且,π、κ和α依赖于相反的难易度来估计概率一致性(dr2=−.125 ~−.123,p< .001),这进一步解释了π, κ和α的性能比s, Ir,交流1.
这些指数说明了什么?
索引表示一个特定的概念。这七个指标说明了什么?他们是否暗示了他们想要暗示的东西?
协议一个百分比o唯一符合主要基准的指数(dr2> .8),因此也满足竞争性基准。通过忽视偶然的约定,ao将可靠性高估了13个百分点(e米= me= 13。0, Tables4而且5).误差在二级基准测试(me< 2)。过高估计出现在各个方面,如表的A列和B列(第4行到第18行)所示6,这意味着研究人员和审查员可能会处理一个o通过打一定的折扣,例如15分,治疗维生素a缺乏o-0.15作为可靠性的粗略估计。总的来说,在这个实验中,百分比一致性表现为一个很好的预测器和一个13点的评分者之间的可靠性过近似值。
其他六个指数的表现优于ao通过去除估计机会协议ac.不幸的是,他们的c估计不能准确估计真正的机会一致交流.年代交流、红外交流,交流交流受到o交流(博士2= .021 ~ .075,p<。01或p<。001年,表3.).相反,他们受到类别的强烈而消极的影响2=−.863 ~−.661,p< .001),这表明它们表示的类别少多于表示的机会一致。另外三个概率估计量,π交流,κ交流&α交流的预测要准确得多。它们大多是倾斜的(dr2= .434 ~ .437),与观测到的概率一致相反交流,和easy(第8-10行,F-H列,表3.).
当情商。1被用来移除c,一个o抵消一些影响c,这也会自我抵消一些。偏移量减少了类别和倾斜效应,并保持了索引国际扶轮相关性为正(表3-5行3.).但是,一个c、各指标的唯一核心,都阻碍了可靠性的估计。年代交流、红外交流和交流交流阻碍小于π交流,κ交流,α交流,允许S, Ir和交流1对可靠性的预测优于π、κ和α(表3)3.).但是减少的障碍仍然是障碍。因此,没有一个机会调整指数有很大的机会跑赢ao当预测的可靠性。两个指标,交流1(me= .093)和S (me= .096)o(me= .13),这更多是由于错误假设之间的适当偏移,而较少是由于消除了偶然一致(表第3行)4).
因此,没有一个机会调整指数通过主要基准dr2> 0.8。2、交流1(.721)和S(.691),超过阈值dr2> 0.67暂定验收(表3.).作为最好的逼近者,AC1(me= .093)是符合竞争基准的一个。交流1和S也是满足二级基准m的四个指数中的两个e< 2(3行表3.).
类别对交流有一定影响1(博士2= .123)和S (dr2= .175)。幸运的是,这两个指标的类别效应远远小于o国际扶轮(博士2=。721&.691).当C = 2时,这两个指标低估了信度,当C≥4时,这两个指标高估了信度(表中第4 ~ 7行,A列,C列和E列)6).总的来说,交流1和S是可接受的评级间可靠性预测因子,当类别分别低于或高于3时,是低于或过逼近因子。
我r(博士2=。599,米e= .18)未能达到预测的初步基准,但满足接近性的二级基准。它高估了整个系统的可靠性。总的来说,我r是一个糟糕的预测和18点的评分者之间的可靠性的过近似值。我r当类别数量增加时,人的高估更严重。
π、κ和α属于另一类性质。三人组的估计-估计和相关性(dr2= .312),远低于博士的主要基准2>。8orthe tentative benchmark of dr2>正;它们的近似误差(me= .323 ~ .327)远高于二级基准me<。2。此外,均匀性(1-斜)对三人组的影响几乎一样大2= .292 ~。293.,Line 5) as their estimand o国际扶轮(博士2= .312),表明这三个指标表明分布的均匀性几乎与它们表明打分者之间的可靠性一样多。更均匀的分布几乎和更高的可靠性一样有效地提高π、κ和α,即使倾斜或均匀对观测的可靠性或偶然一致性没有影响。
总体而言,π、κ和α是可靠性和均匀性的粗预测因子,是31点的可靠性下近似因子。它们是粗糙的,因为它们在预测可靠性时显示了很大的误差2= .312)或均匀性(dr2= .292 ~ .293)。
而博士2(.292 ~ .293)太低,不能作为π、κ和α的均匀性或歪斜性的精确指标;如果考虑到它对知识创造和传播的影响,这种关联可能会更加令人不安。审稿人和研究人员使用这三种方法来筛选测量结果和手稿,而这三种方法系统地倾向于更均匀的分布,使世界看起来更平坦。这将是保守偏见或均匀性偏见的集体版本,只不过这种偏见渗透在科学知识中[64,65].相比之下,o没有表现出任何这种贬低性的缺陷(dr2=组织)。
结论
与大多数对照实验一样,该研究的外部效度有限。评分者做的是视觉判断,这并不能代表所有的任务。类别止于8项。短条类的设计基本上是空的。每次会议只有两名评分员。这样的例子还有很多。为了避免不必要的泛化,我们使用过去时来描述指标的行为及其影响。
然而,我们的发现是通过理论分析、数学推导和蒙特卡罗模拟来推测或预测的[14,29,59,60,61,62,63,66,67,68,69,70].这些研究没有使用实际的测量方法、特定任务、人工评分或其他可能限制外部效度的细节。本研究提供了其他研究在内部效度方面所缺乏的东西。通过添加基于观察评分者行为的实证研究,我们集体知识的有效性得到了显著加强。
这些索引被宣传为“标准”和“通用”的“全球”索引[12,14,42,71].既然一些主导指数在一组观察到的行为上没有像宣传的那样表现,就有足够的证据表明这些指数不是一般的、全局的或标准的。质疑者的责任不是证明所谓的综合指数总是失败,而是辩护者的责任是拿出有力的证据,证明这些指数普遍表现良好。
尽管缺乏支持这些主导指数的经验证据,但捍卫它们的惯性螺旋可能还会持续一段时间。26,58].在这种情况下,对π、κ和α的解释可能需要更加谨慎o和交流1可能值得更多的信任。
未来的研究
复制的研究
需要进行更多的对照实验,以证伪或限定本实验及其背后理论的发现,并根据其估计测试其他可靠性指标[71,72,73].
新指数
可能需要新的索引。指数设计者可能对评级者进行有意和最大概率评级的假设更加谨慎,或者他们的概率评级是由倾斜或类别决定的。更多地考虑评分者进行非自愿和任务依赖的随机评分的可能性,更多地考虑任务难度的权重。鼓励指数设计者根据行为数据评估和调整他们的想法和指数,包括本次实验的数据,这些数据将在本文发表时公开。
记录和基于行为的统计方法
数理统计使用一系列公理和定理来构建分析行为数据的工具。record(真实数据重构实验)方法反转了这个逻辑,使用观察到的行为为统计方法提供信息。应用程序可能不限于评级者之间的可靠性。例如,record可能为敏感性和特异性测量的研究开辟新的前沿,这是医学和卫生研究中经常使用的两种实用工具。record还可以帮助研究可靠性和有效性之间的经验关系,这是科学研究中两个最基本的概念。
评分者对患病率或倾斜度的预期
在这个record实验中,研究人员没有告诉评分者长条和短条的流行程度或倾斜度。由于患病率和倾斜度在试验和评分阶段之间随机变化,研究人员自己在数据分析之前并不知道患病率和倾斜度,评分者不可能准确猜测。之所以选择这个设计特征,是因为它类似于一种研究条件,在这种条件下,评分者不知道会发生什么,因此他们不会进行预期。
然而,对于某些任务,由于他们之前有过相同任务的经验或他们之前接触过二手信息,评分者确实预期会有普遍性和倾斜度。后续研究可能会调查这种预期对评分者评分或可靠性、敏感性和特异性指标的影响。
人工vs机器评分
关于分布、流行和倾斜的预期可以编程到人工智能(AI)中,以帮助机器自动诊断、判断、评分、评估、评级和其他决策。不像人类的决策和期望往往是模糊和变化的,机器的决策和期望可以被编程成超级清晰和超级一致的[74,75].对于使用record的研究来说,人机可靠性、机器间可靠性和人与人之间可靠性的主题可能是富有成果和迷人的,使用人和/或机器评分者的敏感性、特异性和有效性的主题也可能是如此。
数据和材料的可用性
本研究中使用和/或分析的数据集可根据合理要求从通讯作者处获得。
参考文献
注释者间协议。在:Ide N,编辑。语言注释手册:施普林格荷兰语;2017.p . 297 - 313。可以从:https://link.springer.com/chapter/10.1007/978-94-024-0881-2_11.引用2022年1月15日。
名义量表的一致系数。《心理教育》1960;20(1):37-46http://psycnet.apa.org/index.cfm?fa=search.displayRecord&uid=1960-06759-001.引用2022年1月15日。
冯GC。估计互码器可靠性:一种结构方程建模方法。质量定量。2014;48(4):2355-69http://link.springer.com/10.1007/s11135-014-0034-7.引用2022年1月15日。
冯GC。编码器可靠性指标:废弃、误用和滥用。qal Quant. 2014;48(3): 1803-15http://link.springer.com/article/10.1007/s11135-013-9956-8.引用2022年1月15日。
冯GC。使用编码器可靠性指标时的错误和如何避免错误。2015;11(1): 13-22http://econtent.hogrefe.com/doi/full/10.1027/1614-2241/a000086.引用2022年1月15日。
格雷森·K,拉斯特·r。消费心理杂志。2001;10(1/2):71-3。http://www.ncbi.nlm.nih.gov/pubmed/22114173%5Cnhttp://linkinghub.elsevier.com/retrieve/pii/S1057740801702471.引用2022年1月15日。
佩罗特·沃德,利·勒。基于定性判断的名义数据可靠性。马克学报1989;26(2):135-48。
对名义数据的一致指数。In: Saris WE, Gallhofer In,编辑。社会计量学研究:第一卷,数据收集和缩放。纽约:圣马丁学院/施普林格;1988.p . 90 - 105。可以从:http://link.springer.com/chapter/10.1007/978-1-349-19051-5_6.引用2022年1月15日。
Riffe D, Lacy S, Fico FG。媒体信息分析:在研究中运用定量内容分析。Mahwah and London: Lawrence Erlbaum Associates, Publishers;2005.可以从:https://books.google.com.hk/books?hl=en&lr=&id=enCRAgAAQBAJ&oi=fnd&pg=PP1&ots=B00EbKHtj7&sig=e_EdXbsENFS9VfNJR62OrQ00_MM&redir_esc=y#v=onepage&q&f=false.引用2022年1月15日
兹威克R.再看一下评级者之间的协议。《精神牛》1988;103(3):374-8http://www.scopus.com/inward/record.url?eid=2-s2.0-0024005773&partnerID=tZOtx3y1.
Benini R.恶魔原则:manali Barbera di science Giuridiche Sociali e Politiche (no.;29)[人口学原理(巴贝拉法理学和社会政策手册)]。佛罗伦萨:g·巴贝拉;1901.
Hayes AF, Krippendorff KH。响应对编码数据的标准可靠性度量的要求。通用方法Meas. 2007;1(1): 77-89http://www.tandfonline.com/doi/abs/10.1080/19312450709336664.引用2022年1月15日。
Hughes MA, Garrett DE.市场营销中的互码器可靠性估计方法:定量数据的概化理论框架。J Mark Res. 1990;27(2): 185-95http://search.ebscohost.com/login.aspx?direct=true&db=buh&AN=9602260627&site=ehost-live.引用2022年1月15日。
赵旭,刘建军,邓凯。编码器可靠性指标背后的假设。Ann Int communsoc . 2013;36(1): 419-80http://www.tandfonline.com/doi/abs/10.1080/23808985.2013.11679142?journalCode=rica20.
Bennett EM, Alpert R, Goldstein AC.通过有限回答提问进行沟通。公共意见Q. 1954; 18:303-8可从:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2189948.引用2022年1月15日。
斯科特佤邦。内容分析的可靠性:名义编码的例子。公众意见Q. 1955;19(3): 321-5http://www.jstor.org/stable/2746450.引用2022年1月15日。
Krippendorff KH。估计区间数据的可靠性、系统误差和随机误差。Educ Psychol Meas. 1970; 30:61-70可从:http://epm.sagepub.com/content/30/1/61.short.引用2022年1月15日。
Krippendorff KH。论传播学研究中的数据生成。J Commun。1970;20:241 - 69。https://doi.org/10.1111/j.1460-2466.1970.tb00883.x引用2022年1月15日。
Krippendorff KH。内容分析:介绍其方法。千橡市:圣人;1980.
Button CM, Snook B, Grant MJ。心理学研究中评价者之间的一致性、数据可靠性与信任危机。《心理定量方法》2020;16(5):467-71。
Checco A, Roitero A, Maddalena E, Mizzaro S, Demartini G.让我们求同异:为众包修改协议措施。Proc第五AAAI Conf Hum Comput众包。2017;(Hcomp): 11-20www.aaai.org.引用2022年1月15日。
Hove D, Jorgensen TD, van der Ark LA。关于评分者间信度系数的有用性。编辑:Wiberg M, Culpepper S, Janssen R, Gonzalez J, Molenaar D。量化心理学:心理测量学会第82届年会,瑞士苏黎世,2017年。可汗:施普林格;2018.p . 67 - 75。
赵欣:什么时候用科恩κ ?见:在国际通信协会第61届年会上发表的论文。波士顿;2011.https://repository.hkbu.edu.hk/coms_conf/2/.可以从:https://repository.um.edu.mo/handle/10692/102423.引用2022年1月15日。
赵十。什么时候用斯科特π或克里本多夫α ?见:在新闻与大众传播教育协会年会上发表的论文。圣路易斯;2011.https://repository.hkbu.edu.hk/coms_conf/3/.可以从:https://repository.um.edu.mo/handle/10692/102434.引用2022年1月15日。
赵旭,邓凯,冯国春,朱亮,陈伟坤。编码间可靠性指标的自由-保守层次结构。见:在国际通信协会第62届年会上发表的论文。凤凰城;2012.可以从:https://repository.um.edu.mo/handle/10692/102423.引用2022年1月15日。
赵X,冯GC,刘建军,邓凯。我们同意测量一致性——重新定义可靠性使Krippendorff的alpha方法不合理。中央广播电视杂志2018;14(2):1https://repository.um.edu.mo/handle/10692/25978.引用2022年1月15日。
康吉AJ。Kappa和评分者准确性:范式和参数。Educ Psychol Meas. 2016:0013164416663277可从:http://epm.sagepub.com/content/early/2016/08/18/0013164416663277.abstract%255Cnhttp://epm.sagepub.com/content/early/2016/08/18/0013164416663277%255Cnhttp://epm.sagepub.com/content/early/2016/08/18/0013164416663277.full.pdf.引用2022年1月15日。
Delgado R, Tibau XA。为什么Cohen 's Kappa应该避免作为分类中的绩效衡量标准。《公共科学图书馆•综合》。2019;14(9):1-26。https://doi.org/10.1371/journal.pone.0222916引用2022年1月15日。
Grove WM, Andreasen NC, McDonald-Scott P, Keller MB, Shapiro RW。精神病学诊断的信度研究:理论与实践。Arch Gen Psychiatry. 1981;38(4): 408-13。
李晓燕,李晓燕,李晓燕。媒体信息分析:定量内容分析在研究中的应用。第四版。纽约:劳特利奇;2019.可以从:https://www.taylorfrancis.com/books/9780429464287.引用2022年1月15日
赵兴。选择螺旋——一个巨大的、元的、预测的和推定的传播理论。中华医学杂志。2018;40(2):140-53http://cjjc.ruc.edu.cn/EN/Y2018/V40/I2/140.引用2022年1月15日。
Efron B. Bootstrap方法:对重叠刀的另一种看法。Ann Stat. 1979;7(1):1 - 26http://projecteuclid.org/euclid.aos/1176344552%5Cnhttps://projecteuclid.org/euclid.aos/1176344552.引用2022年1月15日。
埃夫隆,Tibshirani RJ。引导的介绍。纽约和伦敦:Chapman & Hall;1993.p。257。可以从:http://books.google.com/books?id=gLlpIUxRntoC&pgis=1.引用2022年1月15日
邵杰,涂德。叠刀和bootstrap。施普林格系列的统计。纽约:施普林格科学与商业媒体;1995.p。516。可以从:http://www.loc.gov/catdir/enhancements/fy0815/95015074-d.html.引用2022年1月15日
刘JS。科学计算中的蒙特卡洛策略。纽约:施普林格;2001.
蒙哥马利。实验设计与分析。霍博肯:威利;2009.
Claassen JAHR。黄金标准:不是黄金标准。BMJ。2005, 330(7500): 1121可以从:bmj.com.引用2022年1月15日。
Gwet KL.评分者之间的可靠性手册:衡量评分者之间的一致程度的权威指南。第二版。盖瑟斯堡:STATAXIS出版公司;2010.p。197。
评分者之间的信度:依赖性状流行率和边际同质性。盖瑟斯堡;2002.可以从:http://hbanaszak.mjr.uw.edu.pl/TempTxt/smirra2.pdf.引用2022年1月15日
Gwet KL.在高度一致的情况下计算打分者之间的信度及其方差。数学与心理学报。2008;61(1):29-48http://onlinelibrary.wiley.com/doi/10.1348/000711006X126600/full.引用2022年1月15日。
Gwet KL.评分者之间的可靠性手册:衡量多个评分者之间的一致程度的权威指南。Gaithersburg: Advanced Analytics, LLC;2012.p。197。可以从:https://books.google.com/books?hl=en&lr=&id=fac9BQAAQBAJ&oi=fnd&pg=PP1&dq=Gwet+K+L&ots=UUdriDAp0a&sig=mKjbb_IW1eNG474Cb0Omp3n5BMk.引用2022年1月15日
Krippendorff KH。估计区间数据的可靠性、系统误差和随机误差。《心理教育》1970;30(1):61-70http://epm.sagepub.com/cgi/doi/10.1177/001316447003000105.引用2022年1月15日。
Krippendorff KH。数据可靠性的二元一致性系数。《社会方法论》1970;2:39 - 50http://www.jstor.org/stable/270787.引用2022年1月15日。
Riffe D, Lacy S, Fico FG。媒体信息分析:在研究中运用定量内容分析。Mahwah: Lawrence Erlbaum Associates;1998.
Riffe D, Lacy S, Fico FG。媒体信息分析:在研究中运用定量内容分析。第三版。纽约:劳特利奇;2014.
沃瑟斯坦RL,拉扎尔NA。ASA关于p -Values的陈述:上下文、过程和目的。Am Stat. 2016;70(2): 129-33https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108.引用2022年1月15日。
Amrhein V, Greenland S, McShane B,等。退休的统计学意义。大自然。2019;567:305-7。
Wasserstein RL, Schirm AL, Lazar NA。进入一个超越p < 0.05的世界。Stat。2019;73 (sup1): -。
威尔金森,美国心理协会特别小组。心理学期刊中的统计方法:指南和解释(美国心理学协会科学事务委员会统计推断特别工作组的报告)。Am Psychol. 1999;54(8): 594-604http://psycnet.apa.org/journals/amp/54/8/594/.引用2022年1月15日。
统计学家说,是时候告别“统计上的显著性”,拥抱不确定性了:撤回观察;2019.可以从:https://retractionwatch.com/2019/03/21/time-to-say-goodbye-to-statistically-significant-and-embrace-uncertainty-say-statisticians/.引用2022年1月15日
刘春林,赵旭,万斌。新冠肺炎信息暴露与疫苗犹豫:政府信任与疫苗信心的影响。心理治疗医学2021;00(00):1-10。https://doi.org/10.1080/13548506.2021.2014910引用2022年1月15日。
赵晓。统计显著性检验的四个功能。发表于:12月25日北京师范大学统计学院与数据科学中心演讲;2016.可以从:https://repository.um.edu.mo/handle/10692/95184.引用2022年1月15日。
赵旭,叶静,孙松,甄宇,张卓,肖强,等。最佳标题长度的在线发帖最高的阅读和接力。J Commun Rev. 2022;75(3): 5-20可从:https://repository.um.edu.mo/handle/10692/95320.引用2022年7月21日。
Hsu LM, Field R.评分者之间的协议度量:对kapan, Cohen的Kappa, Scott的π和Aickin的α的评论。能听懂Stat。2003;2(3):205 - 19所示。
Krippendorff KH。内容分析中的可靠性:一些常见的误解和建议。Hum commres . 2004;30(3): 411-33。
Krippendorff KH。关于所谓的可靠性系数悖论的不同观点。Ann Int communsoc . 2013;36(1): 481-99http://www.tandfonline.com/doi/pdf/10.1080/23808985.2013.11679143.引用2022年1月15日。
王晓燕,王晓燕。基于网络的网络编码可靠性评估与报告。Hum commres . 2002;28(4): 587-604http://onlinelibrary.wiley.com/doi/10.1111/j.1468-2958.2002.tb00826.x/abstract.引用2022年1月15日。
冯gc,赵旭。不要强迫同意——对Krippendorff的回应。method Eur J Res Methods行为社会科学。2016;12(4):145-8https://repository.um.edu.mo/handle/10692/26008.引用2022年1月15日。
Gwet KL.在高度一致的情况下计算打分者之间的信度及其方差。数学与心理学报。2008;61(1):29-48http://doi.wiley.com/10.1348/000711006X126600.引用2022年1月15日。
随机选择评分者时名义尺度评分者间信度的方差估计。心理测量学。2008;73(3):407-30http://link.springer.com/article/10.1007/s11336-007-9054-8.2016年2月7日。
冯GC。索引与建模之间的编码可靠性。香港:香港浸会大学;2013.
冯GC。影响互码器可靠性的因素:蒙特卡洛实验。Qual Quant. 2013;47(5): 2959-82http://link.springer.com/article/10.1007/s11135-012-9745-9.引用2022年1月15日。
冯GC。推动编码人员达成一致的基本决定因素。定性定量。2013;(5):2983 - 97。
心理概率作为经验频率的函数。中华精神病学杂志1953;46(2):81-6。
费希霍夫,斯洛维奇,利希滕斯坦,确信地知道:极端自信的适当性。心理学杂志。1977;3(4):552-64http://content.apa.org/journals/xhp/3/4/552.引用2022年1月15日。
Lantz CA, Nebenzahl E. kappa统计量的行为和解释:两个悖论的解决。中华临床流行病学杂志1996;49(4):431-4。
斯皮茨纳格尔,海尔泽尔。对kappa统计中基本率问题的一种建议解决方案。Arch Gen Psychiatry. 1985;42(7): 725-8http://www.ncbi.nlm.nih.gov/pubmed/4015315.引用2022年1月15日。
Brennan RL, Prediger DJ。kappa系数:一些使用、误用和替代方案。《心理教育》1981;41(3):687-99http://journals.sagepub.com/doi/10.1177/001316448104100307.引用2022年1月15日。
范斯坦AR,奇凯蒂DV。一致性高但kappa低:2。解决矛盾。临床流行病学杂志1990;43(6):551-8。
范斯坦AR,奇凯蒂DV。一致性高但kappa低:一、两个悖论的问题。临床流行病学杂志1990;43(6):543-9。
全球评级者间协议的无偏估计。Educ Psychol Meas. 2016:0013164416654740可从:http://journals.sagepub.com/doi/abs/10.1177/0013164416654740.引用2022年1月15日。
couineau D, Laurencelle L.一个高特异性的评分者间一致性比率检验。2015;75(6): 979-1001http://epm.sagepub.com/content/75/6/979.abstract?&location1=all&location2=all&row_operator2=and&term1a=simulation&term_operator1=and&term_operator2=and&ct.引用2022年1月15日。
一对多分类中的编码器间协议:模糊kappa。PLoS One. 2016;11(3):e0149787http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0149787.引用2022年1月15日。
米尔体育。临床与统计预测:理论分析和证据回顾。明尼阿波利斯:明尼苏达大学出版社;1954.
道斯RM,浮士德D,米尔PE。临床和精算的判断。科学(80 -)。1989, 243(4899): 1668 - 74。
确认
作者感谢Huang Hui和Chi Yang对重建实验的执行所做的贡献。
资金
本研究得到澳门大学的部分资助,包括:CRG2021-00002-ICI, ci - rto -0010-2021, CPG2021-00028-FSS和SRG2018-00143-FSS, ZXS PI;澳门高等教育基金,HSS-UMAC-2020-02, ZXS PI;江西师范大学新闻与传播学院江西2 K行动,2018-08-10,赵皮;国家社会科学基金项目(18BXW082);
作者信息
作者和联系
贡献
XZ设计了研究,监督了实验场地的建设,组织了数据收集,进行了数据分析,并起草了手稿。GCF为研究设计提供反馈,协助数据分析,并提供意见。SHA和LPL为稿件的撰写提供了输入。所有作者阅读并批准了最终稿件。
相应的作者
道德声明
伦理批准和同意参与
根据澳门大学研究伦理委员会的伦理程序(参考SSHRE22-APP016-FSS),调查研究获得了伦理批准。调查也取得了书面同意。
所有的方法都是按照相关的指导方针和规定进行的。获得所有受试者/参与者和/或其法定监护人的知情同意。
同意出版
不适用。
相互竞争的利益
作者声明他们没有竞争利益。
额外的信息
出版商的注意
188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。
补充信息
权利和权限
开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献放弃书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。
关于这篇文章
引用这篇文章
赵晓霞,冯国昌,敖世辉,赵晓霞et al。评估者之间的可靠度评估对真实评估者之间的可靠度进行测试。BMC医学治疗方法22232(2022)。https://doi.org/10.1186/s12874-022-01707-5
收到了:
接受:
发表:
DOI:https://doi.org/10.1186/s12874-022-01707-5
关键字
- Intercoder可靠性
- 评分者间信度
- 重建的实验
- 科恩kappa
- Krippendorff的α