跳到主要内容gydF4y2Ba

从贝叶斯角度分析零膨胀二变量:在职业健康中的应用gydF4y2Ba

一个gydF4y2Ba修正gydF4y2Ba本文发表于2022年8月4日gydF4y2Ba

本文已被转载gydF4y2Ba更新gydF4y2Ba

摘要gydF4y2Ba

背景gydF4y2Ba

零膨胀模型通常旨在解决由两个不同的源产生分布中观察到的零值所引起的问题。在实践中,这是由于所研究的总体实际上由两个亚总体组成:一个是默认值为零(结构零),另一个是环境值(样本零)。gydF4y2Ba

方法gydF4y2Ba

这项工作提出了一种新的方法,从贝叶斯方法拟合零膨胀伯努利数据,能够区分两种潜在的零来源(结构和非结构)。gydF4y2Ba

结果gydF4y2Ba

通过全面的模拟研究,已经对提出的方法性能进行了评估,并将其编译为一个R包,供社区免费使用。通过职业健康领域的一个真实例子来说明它的用法,例如生病出勤现象,在这种情况下,有理由认为一些人永远不会有患病的风险,因为他们在研究期间没有生病(结构零)。如果不将结构性零和非结构性零分开,人们将联合研究一般健康状况和出勤本身,因此得到可能存在偏见的估计,因为将这一现象稀释为一般健康状况而暗中低估了这一现象。gydF4y2Ba

结论gydF4y2Ba

所提出的方法能够在贝叶斯框架中从具有或不具有协变量的二分类数据中区分两种不同的零来源(结构和非结构),并已提供给任何感兴趣的研究人员gydF4y2BabayesZIBgydF4y2BaR包(gydF4y2Bahttps://cran.r-project.org/package=bayesZIBgydF4y2Ba).gydF4y2Ba

同行评审报告gydF4y2Ba

背景gydF4y2Ba

一般来说,零膨胀模型旨在解决由两个不同的源产生分布中观察到的零值所引起的问题。在实践中,这是由于所研究的总体实际上由两个亚总体组成:一个是默认值为零(结构零),另一个是环境值(样本零)。一个例子可以是对带病出勤(SP)的研究,即带病上班[gydF4y2Ba1gydF4y2Ba].如果没有预先的限制,那么人口的组成就包括:由于从未生病而为零的工人(结构零)和因生病而未上班的工人(样本零)。请注意,两者之间的差别很重要:大致说来,第一个零只告诉我们健康状况,第二个零只告诉我们病假权利的行使。gydF4y2Ba

最常用的零膨胀模型是那些与计数变量相关的模型,其中假设零值有一个二分类来源,它决定了主体是否有遭受感兴趣事件的风险,而另一个来源,仅对有风险的个体而言,对应于每个有风险的个体所经历的事件的数量(计数)。在这种情况下,最常见的可用模型是众所周知的零膨胀泊松(ZIP)和负二项式(ZINB)。有关这些模型的数学性质的详细介绍见[gydF4y2Ba2gydF4y2Ba],并已应用于许多领域,如质量控制([gydF4y2Ba3.gydF4y2Ba([]),流行病学gydF4y2Ba4gydF4y2Ba)或药物([gydF4y2Ba5gydF4y2Ba)等等。最近发表了一些关于如何处理可能过度分散或零膨胀的计数结果的指导方针([gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba]),基于经典程序,如Vuong的测试([gydF4y2Ba8gydF4y2Ba])检查是否过度分散([gydF4y2Ba9gydF4y2Ba]和零通货膨胀([gydF4y2Ba10gydF4y2Ba]),尽管由于结果的二分性,这些指南不能应用于这里所研究的案例。一般来说,零膨胀模型可以表示为gydF4y2Ba

$ $ {\ displaystyle \ P{数组}{c}开始\离开(Y = 0 \右)= g +左(1 g \) \ \ cdot f (0) \ \ P{} \离开(Y = j \右)= \左(右1 g \) \ cdot f (j), j > \ mathrm{0} \结束{数组}}$ $gydF4y2Ba
(1)gydF4y2Ba

在哪里gydF4y2BaggydF4y2Ba结构是零概率和吗gydF4y2BafgydF4y2Ba(0)是适当分布(泊松分布、负二项分布或伯努利分布)的零概率。gydF4y2Ba

在实践中,两个二分来源(两个伯努利随机变量的混合物,一个具有成功概率)的零膨胀模型gydF4y2BaωgydF4y2Ba另一个是成功的概率gydF4y2BapgydF4y2Ba)却很少受到关注。这在很大程度上是由于结果分布再次是一个具有概率的伯努利分布。gydF4y2Ba

成功的gydF4y2BaωgydF4y2Ba·gydF4y2BapgydF4y2Ba,使结构零的比例(1−gydF4y2BaωgydF4y2Ba)和采样零(1−gydF4y2BapgydF4y2Ba)从频率统计的角度看是无法区分的。然而,从贝叶斯的角度和使用已知的关于这些比例的合理信息,有可能区分零的两个来源和估计gydF4y2BaωgydF4y2Ba而且gydF4y2BapgydF4y2Ba.gydF4y2Ba

最近,一些作者建议在其他领域,如图像的分类或识别,使用基于期望最大化(EM)等数值算法的伯努利混合模型来估计参数[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba],考虑到所涉及的似然函数的复杂性。然而,在这些情况下,包含协变量或调整变量实际上是不可能的。在其他领域也有一些类似的最新发展,例如[gydF4y2Ba13gydF4y2Ba].gydF4y2Ba

在本文中,我们通过SP的真实数据集说明了零膨胀伯努利(ZIB)模型的使用,并将得到的结果与对总人口或仅对高危个体进行调整的logistic回归的结果进行比较。在文献中,SP登记处以自我报告的方式进行,询问去年和之后的发作,以二分类的方式记录(无SP: 0发作;是的SP: 1集或更多)。这种二分法的正当性基本基于两个方面:一是可能存在的记忆偏差;第二,员工的过度影响,他们报告的事件非常多。gydF4y2Ba

方法gydF4y2Ba

让gydF4y2BaYgydF4y2Ba成为表明所研究现象发生的变量。该模型的概率函数定义为gydF4y2Ba

$ $ P \;左(Y = 0 \右)= \ \离开(1 - \ω\右)+ \ω\ cdot \离开(1 - P \右)P \;左(Y = 1 \右)= \ \ω\ cdot P $ $gydF4y2Ba
(2)gydF4y2Ba

在哪里gydF4y2BaωgydF4y2Ba暴露的概率和gydF4y2BapgydF4y2Ba为暴露个体发生感兴趣现象的概率,如图所示。gydF4y2Ba1gydF4y2Ba.根据该方案,结构零的比例为1−gydF4y2BaωgydF4y2Ba非结构零的比例是gydF4y2BaωgydF4y2Ba·(1−gydF4y2BapgydF4y2Ba).gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

模型模式。只观察到变量YgydF4y2Ba

为了克服无协变量模型无法区分结构零和非结构零的问题,本文提出了一个贝叶斯框架下的模型。在此背景下,我们将第一伯努利参数的先验分布称为先验分布gydF4y2BaωgydF4y2Ba在0和0.5之间是一致的,而成功概率的先验分布在第二个伯努利gydF4y2BapgydF4y2Ba在0.5和1之间一致。通过这种方式,所提出的模型将能够区分零的两个来源。显然,这些假设可以根据支配所研究现象的参数的先验知识进行修改,只需对式中定义的后验分布进行简单更改即可。gydF4y2Ba6gydF4y2Ba),并重新计算公式(gydF4y2Ba5gydF4y2Ba).如果协变量包含在模型中,这种区分就没有必要了,因为协变量允许区分零的原点。为确保估计保持在适当的参数空间内,使用gydF4y2Ba分对数gydF4y2Ba使用了逻辑回归中常用的Link。gydF4y2Ba

数组$ $ {\ displaystyle \开始{}{c} {\ log} \左(\ω\右)= \ log \离开(\压裂{\ω}{1 -ω\}\右)={\θ}_0 +{\θ}_1 \ {X} _1 +点+{\θ}_k {X} _k \ \ {} {\ log}它(p) = \ log \ \压裂{p} {1 - p} \(右)={\β}_0 +{\β}_1 {Z}{\β}_m _1 + \点{Z} _ {m} \结束{数组}}$ $gydF4y2Ba
(3)gydF4y2Ba

在哪里gydF4y2BaXgydF4y2Ba1gydF4y2Ba,gydF4y2Ba.gydF4y2Ba.., XgydF4y2BakgydF4y2Ba协变量是否对零膨胀部分有假设影响gydF4y2BaZgydF4y2Ba1gydF4y2Ba,, . .,ZgydF4y2Ba米gydF4y2Ba是可能对非零膨胀部分有影响的协变量。的参数gydF4y2BaθgydF4y2Ba我gydF4y2Ba,gydF4y2Ba我gydF4y2Ba= 0gydF4y2Ba,, . .kgydF4y2Ba而且gydF4y2BaβgydF4y2BajgydF4y2Ba,gydF4y2BajgydF4y2Ba= 0gydF4y2Ba,, . .,米gydF4y2Ba假设服从均值0和方差的正态分布gydF4y2BaσgydF4y2Ba2gydF4y2Ba而且gydF4y2Ba\({\σ}_{\θ}^ 2 \)gydF4y2Ba而且gydF4y2Ba\({\σ}_{\β}^ 2 \)gydF4y2Ba分别建模为超参数。gydF4y2Ba

提出的用于分析下一节和模拟研究中描述的数据的模型是用编程语言编写的gydF4y2Ba斯坦gydF4y2Ba内,gydF4y2BaRgydF4y2Ba环境(gydF4y2Ba14gydF4y2Ba,并可从作者那里免费获得,作为一个名为gydF4y2BabayesZIBgydF4y2Ba[gydF4y2Ba15gydF4y2Ba].据我们所知,这是R中唯一能够适合零膨胀伯努利回归模型的包。包的使用非常类似于实现零膨胀模型的其他包,例如gydF4y2BapsclgydF4y2Ba[gydF4y2Ba16gydF4y2Ba],以方便对结果的解释,而较高级的使用者则可方便地根据他们的特定需求改编程式码。如有必要,为参数取适当的先验gydF4y2BaωgydF4y2Ba而且gydF4y2BapgydF4y2Ba可以在函数bayesZIB中使用参数先验进行定义(到目前为止,包中只实现了具有不同参数的统一)。gydF4y2Ba

没有共gydF4y2Ba

在特殊情况下,利益是估计的比例结构(1-gydF4y2BaωgydF4y2Ba)和样本(1-gydF4y2BapgydF4y2Ba)零,而不考虑任何协变量的影响gydF4y2Ba后gydF4y2Ba分布的gydF4y2BaωgydF4y2Ba而且gydF4y2BapgydF4y2Ba可以通过假设对它们的分布有一定的先验知识进行分析得到。如前所述,可以设置gydF4y2BaωgydF4y2Ba均匀分布在[0gydF4y2Ba,gydF4y2Ba0gydF4y2Ba.gydF4y2Ba5)和gydF4y2BapgydF4y2Ba均匀分布在[0gydF4y2Ba.gydF4y2Ba5gydF4y2Ba,gydF4y2Ba1]。因为观察结果是伯努利(gydF4y2BapgydF4y2Ba·gydF4y2BaωgydF4y2Ba)分布时,似然函数可表示为gydF4y2Ba

左(p $ $ L \ sim {\ \ cdot \ω\右)}^ m \ cdot{\离开(1 - p \ cdot \ω\右)}^ {n - m}, $ $gydF4y2Ba
(4)gydF4y2Ba

在哪里gydF4y2Ba米gydF4y2Ba现象的发生频率是否与兴趣有关gydF4y2BangydF4y2Ba是观察的总数。从这里,关节gydF4y2Ba后gydF4y2Ba可以通过以下方式获得gydF4y2Ba

数组$ $ {\ displaystyle \开始{}{1}f \离开(p,ω\ \)\ sim{\离开(p \ cdot \ varpi \右)}^ m \ cdot{\离开(1 - p \ cdot \ω\右)}^ {n - m} \ cdot \ \{}{你}_{左\[0,1/2 \]}\离开ω(\ \)\ cdot {\ mathrm{你}}_{左\ [1/2,1 \]}(p) \{数组}}$ $gydF4y2Ba
(5)gydF4y2Ba

从这里的gydF4y2Ba后gydF4y2Ba两个参数的边际分布可以得到为gydF4y2Ba

数组$ $ {\ displaystyle \开始{}{1}f \离开ω(\ \)\ sim{\ω}^ m {\ int} _ {5} {p} ^ ^ 1 m \ cdot{\离开(1 - p \ cdot \ω\右)}^ {n - m} d p \ sim \ \ {} \ kern2.28em \压裂{1}{ω\}\ cdot {\ int} _{\ω/ 2}^{\ω}{t} ^ m \ cdot{\左(右1 - t \)} ^ {n - m} d t \ sim \ \ {} \ kern2.4em \压裂{f \离开(\ω,m + 1, n - m + 1 \右)- f \离开(\压裂{\ω}{2},m + 1, n - m + 1 \右)}{ω\}\ \ {}f m (p) \ sim {p} ^ {\ int} _o ^{5}{\ω}^ m \ cdot{\离开(1 - p \ cdot \ω\右)}^ {n - m} d \ω\ sim \ \ {} \ kern2.28em \压裂{1}{p} \ cdot {\ int} _o ^ {p / 2} {t} ^ m \ cdot{\左(右1 - t \)} ^ {n - m} d t \ sim \ \ {} \ kern2.4em \压裂{f \离开(\压裂{p} {2}, m + 1, n - m + 1 \右)}{p} \{数组}}$ $gydF4y2Ba
(6)gydF4y2Ba

在哪里gydF4y2BaFgydF4y2Ba是有参数的分布函数吗gydF4y2Ba米gydF4y2Ba+ 1,gydF4y2BangydF4y2Ba−gydF4y2Ba米gydF4y2Ba+ 1,实现在gydF4y2BaRgydF4y2Ba函数gydF4y2BapbetagydF4y2Ba.gydF4y2Ba

以下各节用于分析真实数据示例的方法,均符合有关准则和条例,特别是国际劳工组织的标准,该标准也用于在欧洲工作条件调查中确定目标人口[gydF4y2Ba17gydF4y2Ba]或欧盟劳动力调查[gydF4y2Ba18gydF4y2Ba].该研究的参与是自愿和保密的,并获得了所有受试者的知情同意。这些数据是匿名分析的,所有程序都得到了巴塞罗那自治大学动物和人类实验伦理委员会(CEEAH/3445)的批准。gydF4y2Ba

结果gydF4y2Ba

本节介绍了在真实数据集上使用所提议的方法的分析结果,并将其与最常见的替代方法进行比较。通过综合仿真研究,研究了该方法的性能,有协变量和无协变量。gydF4y2Ba

真实的数据gydF4y2Ba

在数据库中用来举例说明所提出的方法的使用情况,我们总共有gydF4y2BangydF4y2Ba= 1564工人。据了解,其中946人(约61%)没有出现出勤的风险,因为他们在研究期间的任何一天都没有生病。这些观察结果对应于结构零的概念(1−gydF4y2BaωgydF4y2Ba= 0gydF4y2Ba.gydF4y2Ba61),即使考虑到回归模型中用作解释的变量的值,也可以使用零膨胀模型来估计它们的比例。暴露者中出现者的比例是gydF4y2BapgydF4y2Ba= 0gydF4y2Ba.gydF4y2Ba70.在全球范围内,共有gydF4y2Ba米gydF4y2Ba= 430名工人经历了感兴趣的事件。在下面的小节中,CI被用作频率分析的置信区间的缩写,而CrI被用于引用所提出的贝叶斯模型的可信区间。gydF4y2Ba

包括全体人口gydF4y2Ba

考虑到所有人口(gydF4y2BangydF4y2Ba= 1564),即包括有风险和没有风险的个体(在研究期间没有风险的个体),我们拟合一个贝叶斯零膨胀伯努利模型,其中结构零的比例为1−gydF4y2BaωgydF4y2Ba大于0.5(先前的一致为gydF4y2BaωgydF4y2Ba在[0gydF4y2Ba,gydF4y2Ba0gydF4y2Ba.gydF4y2Ba5])和样本零的比例1−gydF4y2BapgydF4y2Ba小于0.5(先前的制服为gydF4y2BapgydF4y2Ba在[0gydF4y2Ba.gydF4y2Ba5gydF4y2Ba,gydF4y2Ba1])。此信息提取自[gydF4y2Ba19gydF4y2Ba].在这种情况下,不使用协变量,模型允许估计的值gydF4y2BaωgydF4y2Baˆ= 0gydF4y2Ba.gydF4y2Ba37 (95% CrI: 0.27-0.49)和gydF4y2BapgydF4y2Baˆ= 0gydF4y2Ba.gydF4y2Ba74 (95% CrI: 0.55-0.99)。在这里gydF4y2BaωgydF4y2Baˆ和gydF4y2BapgydF4y2Ba的后缘的中位数gydF4y2BaωgydF4y2Ba而且gydF4y2BapgydF4y2Ba分别。这两个参数的先验和后验边际分布如图所示。gydF4y2Ba2gydF4y2Ba.边缘先验和后验之间的不同形状表明模型从数据中学习。gydF4y2Ba

图2gydF4y2Ba
图2gydF4y2Ba

的先验(左列)和后验(右列)分布gydF4y2BaωgydF4y2Ba而且gydF4y2BapgydF4y2Ba

另一方面,分析这些数据,传统的文献中,使用逻辑回归模型没有考虑到那些没有风险,从presentists比例为0.27(95%置信区间:0.25—-0.30),一个有争议的解释,因为它的价值明显低估了主持人的比例,如果那些尚未存在的风险被排除在外,因为它是最终的估计gydF4y2BaωgydF4y2Baˆ·gydF4y2BapgydF4y2Ba,即无法识别这两个参数。gydF4y2Ba

此外,提出的模型允许在两个过程中纳入协变量。为了说明它是如何起作用的,我们将在这里考虑自我感知的一般健康状况(分为好或坏)和被替代的感觉,这是就业危险程度量表的脆弱性维度中包括的一个项目[gydF4y2Ba20.gydF4y2Ba,分类为“总是”、“有时”和“从不”。假设健康的一般状态将与存在的风险相关(模型中的零膨胀部分),而被取代的感觉将与一旦工人暴露的现象相关(模型中的非零膨胀部分),因此模型在每个部分中包含一个协变量(gydF4y2BakgydF4y2Ba=gydF4y2Ba米gydF4y2Ba= 1)。模型拟合使用5条马尔可夫链,每条链5000次迭代(一半用于热身,一半用于推断),目标平均接受概率为0.999,最大允许树深度为25。请注意,这些技术值可能需要根据所分析的数据进行更改。在下一节中可以看到,模型的结果如表所示gydF4y2Ba1gydF4y2Ba与表中报告的标准逻辑分析基本一致gydF4y2Ba2gydF4y2Ba特别是联想的方向和影响。所有gydF4y2BaRgydF4y2Ba本文中使用的代码可通过gydF4y2Ba补充材料gydF4y2Ba.gydF4y2Ba

表1总体贝叶斯分析。CrI代表可信区间gydF4y2Ba
表2所有人群和仅暴露个体的Logistic回归。CI表示置信区间gydF4y2Ba

与其他回归模型类似,与总是有这种感觉的员工相比,永远没有被替代感的影响比生病时上班的风险更大,可以用以下方法量化gydF4y2BaegydF4y2Ba−gydF4y2Ba1gydF4y2Ba.gydF4y2Ba04gydF4y2Ba= 0gydF4y2Ba.gydF4y2Ba35.gydF4y2Ba

不包括健康人群gydF4y2Ba

如果有关于哪些受试者实际接触到感兴趣的现象的信息(这是一个理想的但在实践中不常见的情况),就可以排除未接触的受试者,并对接触的个体调整逻辑回归模型。使用上一节中描述的相同解释变量,对应的系数及其95%置信区间如表所示gydF4y2Ba2gydF4y2Ba.gydF4y2Ba

模拟研究gydF4y2Ba

为了检验所提方法的性能,每个考虑样本量产生100个随机样本(gydF4y2BangydF4y2Ba= 500gydF4y2Ba,gydF4y2Ba1500),以及参数组合。零膨胀部分建立在逻辑回归模型的基础上gydF4y2Ba分对数gydF4y2Ba(gydF4y2BaPgydF4y2Ba(gydF4y2BaXgydF4y2Ba) = = 1)gydF4y2BaθgydF4y2Ba0gydF4y2Ba+gydF4y2BaθgydF4y2Ba1gydF4y2Ba·gydF4y2BaxgydF4y2Ba1gydF4y2Ba+gydF4y2BaθgydF4y2Ba2gydF4y2Ba·gydF4y2BaxgydF4y2Ba2gydF4y2Ba,在那里gydF4y2BaxgydF4y2Ba1gydF4y2Ba而且gydF4y2BaxgydF4y2Ba2gydF4y2Ba是两个独立的协变量,每个都遵循标准正态分布。非零膨胀部分建立在逻辑回归模型之上gydF4y2Ba分对数gydF4y2Ba(gydF4y2BaPgydF4y2Ba(gydF4y2BaYgydF4y2Ba= 1 |gydF4y2BaXgydF4y2Ba) = = 1)gydF4y2BaβgydF4y2Ba0gydF4y2Ba+gydF4y2BaβgydF4y2Ba1gydF4y2Ba·gydF4y2BaxgydF4y2Ba3.gydF4y2Ba+gydF4y2BaβgydF4y2Ba2gydF4y2Ba·gydF4y2BaxgydF4y2Ba4gydF4y2Ba,在那里gydF4y2BaxgydF4y2Ba3.gydF4y2Ba而且gydF4y2BaxgydF4y2Ba4gydF4y2Ba是两个独立的协变量,每个都具有标准正态分布。为了涵盖不同的影响量,我们考虑了每个参数的以下值:gydF4y2Ba

  • βgydF4y2Ba0gydF4y2Ba= 0gydF4y2Ba.gydF4y2Ba5gydF4y2Ba,gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba

  • βgydF4y2Ba1gydF4y2Ba= 2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba

  • βgydF4y2Ba2gydF4y2Ba= 3gydF4y2Ba

  • θgydF4y2Ba0gydF4y2Ba=−0gydF4y2Ba.gydF4y2Ba5gydF4y2Ba,gydF4y2Ba−1gydF4y2Ba,gydF4y2Ba−2gydF4y2Ba

  • θgydF4y2Ba1gydF4y2Ba=−2gydF4y2Ba,gydF4y2Ba−3gydF4y2Ba,gydF4y2Ba−4gydF4y2Ba

  • θgydF4y2Ba2gydF4y2Ba=−3gydF4y2Ba

需要注意的是,这是一种极端情况,在这种情况下,我们认为参数分布的所有质量概率都集中在一点上,即参数的“真”值。gydF4y2Ba

对于每个随机样本,gydF4y2Ba后gydF4y2Ba参数的边际分布以中位数和百分位数2.5和97.5%总结。gydF4y2Ba

表gydF4y2Ba3.gydF4y2Ba而且gydF4y2Ba4gydF4y2Ba显示,对于每个参数组合,平均估计和95%可信区间的上下限。由于没有观察到样本大小的相关差异,表gydF4y2Ba3.gydF4y2Ba而且gydF4y2Ba4gydF4y2Ba只显示对应的结果gydF4y2BangydF4y2Ba= 1500。结果对应于gydF4y2BangydF4y2Ba= 500个可用gydF4y2Ba补充材料gydF4y2Ba.可以看出,在所有情况下,用于生成模拟的原始参数都可以被拟合模型正确地恢复。gydF4y2Ba

表3包括协变量在内的模拟研究结果(I)gydF4y2Ba
表4含协变量的模拟研究结果(II)gydF4y2Ba

的gydF4y2BaRgydF4y2Ba用于模拟的代码可作为gydF4y2Ba补充材料gydF4y2Ba.在不涉及协变量的情况下,进行了一个额外的模拟来评估所提议的方法的性能,该模拟的细节和结果也可以在补充材料(附录A,表)中找到gydF4y2BaS2gydF4y2Ba).gydF4y2Ba

讨论gydF4y2Ba

该方法通过假设具有不同结构和非结构零位比例参数的先验,能够在贝叶斯框架下从二分类数据中区分出两种不同的零位来源(结构化和非结构化)。此外,由于它是免费的作为一个gydF4y2BaRgydF4y2Ba包,对于需要调整这类数据的任何研究人员都很容易使用它,对于需要调整模型以适应其上下文的更高级用户也很容易修改它,例如使用不同的gydF4y2Ba之前gydF4y2Ba分布的gydF4y2BaωgydF4y2Ba而且gydF4y2BapgydF4y2Ba.gydF4y2Ba

分析SP的方法是一个重要课题。一些研究包括所有工作人口来估计SP,而另一些研究排除了“健康”工人。因此,在患病率和相关因素方面得到了不同的结论[gydF4y2Ba21gydF4y2Ba].SP是健康状况和行使权利这两种现象混合产生的结果。健康状况对受到接触的事实有影响;在受影响的工人中,缺乏行使病假权利决定了SP。使用拟议的ZIB方法,人们可以在一次分析中描述这两种现象:首先,哪些因素与接触出勤有关(“生病”,与健康状况有关的因素),然后,哪些因素增加了受影响工人出勤的可能性。gydF4y2Ba

仿真研究表明,即使在相对较小的样本量下,该模型也能够对零膨胀和非零膨胀过程所涉及的参数产生合理的估计。正如预期的那样,可信度区间的长度随着样本量的增加而减小,而它们的覆盖率却在增加。gydF4y2Ba

结论gydF4y2Ba

仿真研究表明,该方法是分析零膨胀二选结果的可靠替代方法,在存在两个潜在且不可区分的零源的情况下非常有用。如果模型中需要包含协变量,该方法可以利用协变量来识别风险子种群,而贝叶斯策略通过对每个伯努利变量的成功概率利用不同的先验,保证了即使不存在协变量,也可以检测到两个零源。所提出的模型已编译成gydF4y2BabayesZIBgydF4y2BaR包(gydF4y2Ba15gydF4y2Ba],因此它对任何面临这个问题的研究人员都是公开的。gydF4y2Ba

数据和材料的可用性gydF4y2Ba

当前研究中分析的数据集可在GitHub存储库中获得,gydF4y2Bahttps://github.com/dmorinya/BayesZIBgydF4y2Ba.用于分析真实数据和生成模拟研究中使用的数据的R代码可作为补充材料。gydF4y2Ba

改变历史gydF4y2Ba

缩写gydF4y2Ba

置信区间:gydF4y2Ba

置信区间gydF4y2Ba

中国国际广播电台:gydF4y2Ba

可信区间gydF4y2Ba

新兴市场:gydF4y2Ba

采用gydF4y2Ba

SP:gydF4y2Ba

病的现象gydF4y2Ba

ZIB:gydF4y2Ba

零膨胀的伯努利gydF4y2Ba

ZINB:gydF4y2Ba

零膨胀负二项式gydF4y2Ba

邮政编码:gydF4y2Ba

零膨胀泊松gydF4y2Ba

参考文献gydF4y2Ba

  1. 《工作场所的出勤:审查和研究议程》。中华器官行为学杂志2010;31(4):519-42。gydF4y2Bahttps://doi.org/10.1002/job.630gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  2. Cameron AC, Trivedi PK.计数数据的回归分析。纽约:剑桥大学出版社;1998.gydF4y2Bahttps://doi.org/10.1017/CBO9780511814365gydF4y2Ba.gydF4y2Ba

    书gydF4y2Ba谷歌学者gydF4y2Ba

  3. 零膨胀泊松回归,及其在制造缺陷中的应用。技术计量学。1992;34(1):1。gydF4y2Bahttps://doi.org/10.2307/1269547gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  4. Abiodun G, Makinde O, Adeola A, Njabo K, Witbooi P, djidjouo - demasse R,等。南非林波波省疟疾发病率的动态和零膨胀负二项回归模型。国际环境与公共卫生杂志,2019;16(11)。gydF4y2Bahttps://doi.org/10.3390/IJERPH16112000gydF4y2Ba.gydF4y2Ba

  5. 赵辉,潘燕,王超,郭燕,姚宁,王辉,等。采用零膨胀负二项回归模型研究金属暴露对Charlson共病指数的影响:NHANES 2011-2016。生物微量元素鉴定。2021;199(6):2104-11。gydF4y2Bahttps://doi.org/10.1007/S12011-020-02331-4gydF4y2Ba.gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学者gydF4y2Ba

  6. 佩鲁米恩-钱尼SE,摩根C,麦克道尔D,阿班I.零膨胀和过度分散:一个人该怎么办?中国科学d辑,2013;38(6):669 - 672。gydF4y2Bahttps://doi.org/10.1080/00949655.2012.668550gydF4y2Bahttp://dx.doi.org.sire.ub.edu/10.1080/00949655.2012.668550gydF4y2Ba.gydF4y2Ba

  7. Paulo Favero L, de Freitas Souza R, Belfiore P, Luiz Corrêa H, Haddad MF, Paulo L,等。计数数据回归分析:概念,过分散检测,零膨胀识别,以及R. Pract evaluate Res Eval. 2021的应用;gydF4y2Bahttps://doi.org/10.7275/44nn-cj68gydF4y2Ba.gydF4y2Ba

  8. Vuong心不在焉。模型选择和非嵌套假设的似然比检验。费雪。1989;57(2):307。gydF4y2Bahttps://doi.org/10.2307/1912557gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  9. 基于回归的泊松模型过分散性检验。J经济。1990;46(3):347 - 64。gydF4y2Bahttps://doi.org/10.1016/0304 - 4076 (90) 90014 - kgydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  10. Desmarais BA,哈登JJ。计数模型中零膨胀的检验:Vuong检验的偏差修正。占据j . 2013; 13(4): 810 - 35。gydF4y2Bahttps://doi.org/10.1177/1536867X1301300408gydF4y2Bahttps://doi-org.sire.ub.edu/10.1177/1536867X1301300408gydF4y2Ba.gydF4y2Ba

  11. Barbu A,吴婷,吴茵。用保证性能的两轮EM学习伯努利模板的混合。电子杂志2015;8:3004-30。gydF4y2Bahttps://doi.org/10.1214/14-EJS981.1305.0319v6gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  12. Diop A, Diop A, Dupuy JF。零膨胀伯努利回归模型的模拟推理。通用统计:Simul Comput. 2016;45(10): 3597-614。gydF4y2Bahttps://doi.org/10.1080/03610918.2014.950743gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  13. 孙铮,Rosen O, Sampson AR.多元Bernoulli混合模型在精神分裂症死后组织研究中的应用。生物识别技术。2007;63(3):901 - 9。gydF4y2Bahttps://doi.org/10.1111/j.1541-0420.2007.00762.xgydF4y2Ba.gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学者gydF4y2Ba

  14. R核心团队:R:统计计算语言和环境。R统计计算基金会,维也纳,奥地利(2021年)。R统计计算基础。gydF4y2Bahttps://www.R-project.org/gydF4y2Ba.gydF4y2Ba

    谷歌学者gydF4y2Ba

  15. Moriña Soler D, Puig P, Navarro A. bayesZIB:贝叶斯零膨胀伯努利回归模型。在:R包版本0.0.2;2021.gydF4y2Ba

    谷歌学者gydF4y2Ba

  16. 王晓燕,王晓燕。统计数据的回归模型及其应用。中国科学(d辑:自然科学版)2008;gydF4y2Ba

  17. Eurofound。EWCS 2015 -方法论[互联网]。gydF4y2Bahttps://www.eurofound.europa.eu/surveys/european-working-conditions-surveys/sixth-european-working-conditions-survey-2015/ewcs-2015-methodologygydF4y2Ba.2021年9月10日访问。gydF4y2Ba

  18. 欧盟统计局。欧盟劳动力调查-方法[互联网]。gydF4y2Bahttp://ec.europa.eu/eurostat/statistics-explained/index.php/EU_labour_force_survey_-_methodologygydF4y2Ba.2021年9月10日访问。gydF4y2Ba

  19. 纳瓦罗A, Salas-Nicás S, Moncada S, Llorens C, Molinero-Ruiz E.疾病出勤的患病率、相关因素和原因:2016年西班牙受薪工人的横切面全国代表性研究。BMJ开放。2018;8(7):021212。gydF4y2Bahttps://doi.org/10.1136/bmjopen-2017-021212gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  20. Vives A, Amable M, Ferrer M, Moncada S, Llorens C, Muntaner C,等。就业不稳定和心理健康不良:来自西班牙的关于健康的一个新的社会决定因素的证据。环境与公共卫生杂志,2013;2013:978656。gydF4y2Bahttps://doi.org/10.1155/2013/978656gydF4y2Ba.gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学者gydF4y2Ba

  21. 纳瓦罗A,萨拉斯‐Nicás S,洛伦斯C,蒙卡达S,莫利纳罗‐Ruíz E, Moriña D.疾病出勤:我们确定我们在研究什么吗?基于文献综述和实证说明的研究。中华医学杂志2019;62(7)。gydF4y2Bahttps://doi.org/10.1002/ajim.22982gydF4y2Ba.gydF4y2Ba

下载参考gydF4y2Ba

确认gydF4y2Ba

不适用。gydF4y2Ba

资金gydF4y2Ba

这项工作部分由西班牙科学和创新部和西班牙国家研究机构通过Severo Ochoa和María de Maeztu研发卓越中心和单位项目(CEX2020-001084-M) RTI2018-096072-B-I00拨款支持。资金来源在数据收集、分析或解释结果方面没有任何作用。gydF4y2Ba

作者信息gydF4y2Ba

作者和联系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

DM、PP和AN建立了统计模型。DM和PP对所描述的性质进行推导,DM在R软件中实现模型并进行分析。AN提供了职业健康和疾病出勤的情况。所有作者均已阅读并认可该手稿。gydF4y2Ba

相应的作者gydF4y2Ba

对应到gydF4y2Ba大卫MorinagydF4y2Ba.gydF4y2Ba

道德声明gydF4y2Ba

伦理批准和同意参与gydF4y2Ba

所有程序都得到了巴塞罗那自治大学动物和人体实验伦理委员会(CEEAH/3445)的批准。本研究的参与是自愿的,并获得所有受试者的知情同意。gydF4y2Ba

同意出版gydF4y2Ba

不适用。gydF4y2Ba

相互竞争的利益gydF4y2Ba

作者声明没有竞争利益。gydF4y2Ba

额外的信息gydF4y2Ba

出版商的注意gydF4y2Ba

188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。gydF4y2Ba

这篇文章最初的在线版本进行了修改:作者注意到不正确的归属“巴塞罗那大学Autònoma (UAB),塞丹约拉(Cerdanyola del) Vallès,西班牙。”这篇文章的在线版本。应更正为“社会心理风险研究小组,工作和健康组织(POWAH),巴塞罗那大学Autònoma,塞丹约拉·德尔Vallès,西班牙”。gydF4y2Ba

补充信息gydF4y2Ba

额外的文件1。gydF4y2Ba

额外的表和代码。从模拟研究中获得的附加表和R代码来再现分析。gydF4y2Ba

权利和权限gydF4y2Ba

开放获取gydF4y2Ba本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.创作共用公共领域奉献放弃书(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文提供的数据,除非在数据的信用额度中另有说明。gydF4y2Ba

再版和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过CrossMark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

Moriña, D. Puig, P. & Navarro .从贝叶斯角度分析零膨胀二变量:在职业健康中的应用。gydF4y2BaBMC医学治疗方法gydF4y2Ba21gydF4y2Ba277(2021)。https://doi.org/10.1186/s12874-021-01427-2gydF4y2Ba

下载引用gydF4y2Ba

  • 收到了gydF4y2Ba:gydF4y2Ba

  • 接受gydF4y2Ba:gydF4y2Ba

  • 发表gydF4y2Ba:gydF4y2Ba

  • DOIgydF4y2Ba:gydF4y2Bahttps://doi.org/10.1186/s12874-021-01427-2gydF4y2Ba

关键字gydF4y2Ba

  • 的现象gydF4y2Ba
  • 贝叶斯方法gydF4y2Ba
  • 零通胀gydF4y2Ba
  • 模拟研究gydF4y2Ba
  • 伯努利混合模型gydF4y2Ba