- 研究gydF4y2Ba
- 开放获取gydF4y2Ba
- 发表:gydF4y2Ba
统计方法建模计数数据与住院时间应用的比较gydF4y2Ba
金宝搏网站首页体积gydF4y2Ba22gydF4y2Ba文章编号:gydF4y2Ba211gydF4y2Ba(gydF4y2Ba2022gydF4y2Ba)gydF4y2Ba
摘要gydF4y2Ba
背景gydF4y2Ba
住院时间(LOS)是医院护理管理效率、护理成本和医院规划的一个关键指标。医院LOS常被用作医疗后程序结果的衡量标准,作为一项治疗获益的指南,或作为不良事件的一个重要风险因素。因此,了解医院LOS的可变性一直是一个重要的医疗保健焦点。医院LOS数据可以视为计数数据,具有离散的非负值,通常右偏,经常显示过多的零。在本研究中,我们比较了泊松、负二项(NB)、零膨胀泊松(ZIP)和零膨胀负二项(ZINB)回归模型的性能,使用模拟数据和经验数据。gydF4y2Ba
方法gydF4y2Ba
数据是在不同的模拟场景下生成的,具有不同的样本量、零的比例和过分散的水平。利用重症监护医疗信息集市数据库的实证数据对医院LOS进行分析。gydF4y2Ba
结果gydF4y2Ba
结果表明,Poisson和ZIP模型在过分散的数据中表现不佳。当过度分散仅由零通货膨胀引起时,ZIP的表现优于其他回归模型。NB和ZINB回归模型在不正确地用于等分散数据建模时面临着实质性的收敛问题。NB模型在过分散数据下提供了最佳拟合,在许多零膨胀和过分散组合的模拟场景中,无论样本量大小,NB模型都优于ZINB模型。在实证数据分析中,我们证明了将不正确的模型拟合到过度分散的数据中会导致不正确的回归系数估计和夸大一些预测因子的显著性。gydF4y2Ba
结论gydF4y2Ba
基于本研究,我们建议研究人员考虑仅零膨胀计数数据的ZIP模型,考虑过分散数据或零膨胀和过分散组合数据的NB模型。如果研究人员认为有两种不同的数据产生机制产生零,那么在建模零膨胀和过分散时,ZINB回归模型可能提供更大的灵活性。gydF4y2Ba
背景gydF4y2Ba
在医疗保健领域,住院时间是一项主要指标,用以评估医院护理管理效率、护理成本、质量控制、医院服务和资源的适当使用,以及医院规划[gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba].最近2019冠状病毒/COVID-19大流行的发生证明了高效医院管理的必要性。这类卫生危机表明,患者、医院和公共卫生的最大利益在于有效管理住院时间,同时确保有足够的病床容量,并为患有其他疾病的患者提供临床医生时间[gydF4y2Ba7gydF4y2Ba].减少LOS可通过降低患者的护理成本和将医院获得性疾病的风险降至最低,从而改善财务、操作和临床结果[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba].在一些医院,管理人员受益于使用预测模型来协助分娩规划和资源分配[gydF4y2Ba9gydF4y2Ba].诊所通过实施分析应用程序优化临床环境,从而在减少医院LOS的同时实现及时和准确的决策[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba].医院LOS常被用作医疗后程序结果的衡量标准,作为感兴趣的治疗获益的指南,和/或作为不良事件、再入院和死亡率的重要风险因素[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba].因此,了解医院LOS在不同患者的临床和社会人口特征以及医院的特征(如地理区域和医院规模)之间的差异,始终是一个重要的公共卫生焦点[gydF4y2Ba9gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba,gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba].gydF4y2Ba
住院住院天数是指住院天数,由入院日起计算至出院日止[gydF4y2Ba23gydF4y2Ba].这种类型的数据可以被视为计数数据,计数数据值通常是非负的,具有典型的右偏分布,经常显示过多的零和过度分散[gydF4y2Ba17gydF4y2Ba,gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba].对医院LOS的建模采用了不同的分析策略。然而,对LOS和其他右偏数据的最佳建模方法在文献中一直存在争议。文献综述显示,非转换或对数转换计数结果变量常采用线性回归建模[gydF4y2Ba26gydF4y2Ba,gydF4y2Ba27gydF4y2Ba,gydF4y2Ba28gydF4y2Ba].线性回归通常用于连续的、正态分布的或近似正态分布的结果。LOS数据很少符合这些假设。为比较对数转换计数结果变量的分析而进行的研究报告了这种转换可能产生的几个问题,包括未考虑的零值、预测的结果变量无意义的负值、不可解释和有偏见的参数估计以及对重要政策参数的不一致推断[gydF4y2Ba29gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba].加德纳等人。[gydF4y2Ba31gydF4y2Ba]表明,当计数结果变量的平均值很小时,线性回归产生有偏的标准误差,因此有偏的显著性检验。通过模拟研究,O 'Hara [gydF4y2Ba32gydF4y2Ba]发现,通常用于满足参数检验假设的计数数据的对数变换性能很差,除非色散很小,且平均计数很大。当平均计数非常小且0是数据集中最常见的值时,使用对数变换的归一化将不起作用,模式将始终处于最小值[gydF4y2Ba33gydF4y2Ba].布莱克等人[gydF4y2Ba34gydF4y2Ba)指出,在一些重要的情况下,线性和正态性的假设是不现实的,任何变换都不能使它们成为现实。另一种解决LOS结果变量非正态性的方法是对LOS进行二分类,并使用逻辑回归预测LOS [gydF4y2Ba35gydF4y2Ba].二分计数结果变量导致信息丢失。基于模拟和实证数据分析,Sroka [gydF4y2Ba36gydF4y2Ba]得出结论,使用对数-比值链接函数的计数回归模型可以获得更精确的比值比估计。总之,使用带有或不带有计数结果变量的对数变换的线性回归模型,或使用二分类计数结果变量的逻辑回归模型在建模这类数据时存在不足,因此受到批评。这可能导致有偏见的参数估计;无意义负值的预测;以及推论的准确性和有关基础计数的重要信息的丧失。gydF4y2Ba
常用的计数数据分析统计方法有泊松、负二项(NB)、零膨胀泊松(ZIP)和零膨胀负二项(ZINB)回归[gydF4y2Ba24gydF4y2Ba,gydF4y2Ba37gydF4y2Ba,gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba].现有研究对计数数据回归模型性能的评价结果在选择哪种模型的问题上存在冲突。Lambert(1992)在一项关于印刷电路板焊接缺陷的实验研究中比较了ZIP和NB回归模型,其中81%的电路板区域为0缺陷。他发现ZIP模型在预测精度方面优于NB模型[gydF4y2Ba37gydF4y2Ba].Greene(1994)比较了Poisson、NB、ZIP和ZINB模型对具有过度分散和零通货膨胀特征的消费贷款行为经验数据的影响。在分析中,笔者发现NB模型优于ZIP模型,ZIP模型优于泊松模型[gydF4y2Ba41gydF4y2Ba].斯莱门等人(2006)使用结果变量中82%为零的数据,比较了泊松、过分散泊松、NB、ZIP和ZINB回归模型在评估拉丁美洲妇女激烈体育活动的预测因子方面的作用。他们报告了ZIP和ZINB模型的拟合度略有不同,但总体而言,ZIP模型拟合度最好[gydF4y2Ba42gydF4y2Ba].Lee et al.(2012)在过度分散和零膨胀的涉及人乳头瘤病毒感染的事件数量数据中,发现ZIP、NB和ZINB具有最小的赤池信息标准(AIC);ZIP模型在0处的协变量与NB模型的结果相同。05显著性水平。此外,ZINB模型并不总是收敛[gydF4y2Ba43gydF4y2Ba].Tuzen et al.(2018)考察了Poisson、NB、ZIP、ZINB、Poisson跨栏和NB跨栏模型在模拟数据的各种离群值和零通胀情景下的拟合性能,发现ZINB和NB跨栏优于Poisson、NB和ZIP模型。他们还报告说,在某些情况下,NB模型在出现异常值和/或多余零的情况下优于所有模型[gydF4y2Ba44gydF4y2Ba].Tlhaloganyang等人。[gydF4y2Ba45gydF4y2Ba]使用具有过分散和零膨胀特征的不同真实数据集将NB与ZIP和zb模型进行了比较。作者发现NB在所有数据集中都提供了优越的拟合[gydF4y2Ba45gydF4y2Ba].gydF4y2Ba
基于回顾的文献,模型拟合方面的不同结果是否可能源于这些研究中使用的数据集的不同比例、过分散和样本量的不同,这个问题仍然是开放的。在这项研究中,我们有两个目标。第一个目标是比较Poisson、NB、ZIP和ZINB回归模型在仿真研究中的性能。第二个目标是比较Poisson、NB、ZIP和ZINB回归模型在评估年龄、性别、健康保险状况和住院类型对医院LOS的影响方面的实际医院数据的表现。本研究补充了之前的研究,包括额外的实验场景,如不同的样本量,较大的分散水平,结果变量的不同比例的零,以及使用泊松分布和ZIP分布以及NB和ZINB分布生成的数据。gydF4y2Ba
方法gydF4y2Ba
计数数据回归模型概述gydF4y2Ba
泊松模型gydF4y2Ba
明确考虑计数结果变量的非负整数值方面的使用最广泛、最基本的模型是泊松回归模型[gydF4y2Ba46gydF4y2Ba].让gydF4y2Ba\ ({Y} _{我},我= 1,\点,n \)gydF4y2Ba,为感兴趣的事件及其实现的出现次数的随机变量gydF4y2Ba\ ({y} _{我}= 0,1,2 \ \点)gydF4y2Ba.让gydF4y2Ba\ ({{\ varvec {X}}} _ {{\ varvec{我}}}^ {\ boldsymbol{^{\ '}}} = \离开({X} _{1}, \点,{X} _ {ki} \) \)gydF4y2Ba预测器的k维随机向量及其实现gydF4y2Ba\ ({{\ varvec {x}}} _ {{\ varvec{我}}}^ {\ boldsymbol{^{\ '}}} = \离开({x} _{1}, \点,{x} _ {ki} \右),i = 1, \点,n \)gydF4y2Ba.泊松回归假设因变量gydF4y2BaYgydF4y2Ba我gydF4y2Ba,鉴于gydF4y2Ba\ ({{\ varvec {X}}} _ {{\ varvec{我}}}= {{\ varvec {X}}} _ {{\ varvec{我}}}\)gydF4y2Bai = 1,…,n独立泊松分布,有:gydF4y2Ba
平均参数(即每一时期事件的平均数量)由:gydF4y2Ba
在哪里gydF4y2Baβ\ (\ \)gydF4y2Ba是参数的列向量。gydF4y2Ba
泊松回归模型的条件均值和条件方差gydF4y2BaYgydF4y2Ba我gydF4y2Ba是相等的(equidispersion):gydF4y2Ba
泊松回归模型又称对数-线性模型,因为条件均值的对数在参数中是线性的:gydF4y2Ba
预测变量的边际效应gydF4y2Ba\ ({X} _ {j} \)gydF4y2Ba是由:gydF4y2Ba
这个效应的解释是j的一个单位变化gydF4y2BathgydF4y2Ba预测器会导致gydF4y2Ba\({\β}_ {j} \)gydF4y2Ba条件均值的变化gydF4y2Ba\ \ (E左({{Y} _{我}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _{我}\)\)gydF4y2Ba
真实的计数数据通常表现出两个(相关的)特征:过度分散和零膨胀。过分散指的是数据的可变性超出了(即方差超过了均值),而零通胀指的是零超出了[gydF4y2Ba39gydF4y2Ba,gydF4y2Ba47gydF4y2Ba].在过分散存在的情况下,泊松回归模型是不充分的,可能导致有偏差的参数估计和不可靠的标准误差估计[gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba].解释过分散最常用的模型是负二项模型。gydF4y2Ba
负二项模型gydF4y2Ba
泊松回归模型可以通过引入一个未观察到的异质性项来进行推广gydF4y2Ba我gydF4y2Ba.受试者被假设以一种没有被观察到的协变量完全解释的方式随机地不同。这方面的表述如下:gydF4y2Ba
未观察到的异质性项在哪里gydF4y2Ba\({\τ}_{我}= {e} ^ {{\ varepsilon} _{我}}\)gydF4y2Ba是否与预测变量向量无关gydF4y2BaxgydF4y2Ba我gydF4y2Ba.的条件分布gydF4y2BaYgydF4y2Ba我gydF4y2Ba在gydF4y2Ba\ ({{\ varvec {X}}} _ {{\ varvec{我}}}= {{\ varvec {X}}} _ {{\ varvec{我}}}\)gydF4y2Ba是否具有条件均值和条件方差的泊松gydF4y2Ba\({\μ}_{我}{\τ}_{我}\)gydF4y2Ba:gydF4y2Ba
负二项分布由泊松随机变量的混合得到[gydF4y2Ba39gydF4y2Ba,gydF4y2Ba48gydF4y2Ba,gydF4y2Ba49gydF4y2Ba,gydF4y2Ba50gydF4y2Ba].通过让gydF4y2Ba\ (g \离开({\τ}_{我}\)\)gydF4y2Ba的概率密度函数gydF4y2Ba我\({\τ}_ {}\)gydF4y2Ba分布gydF4y2Ba\ (f \离开({{Y} _{我}= Y} _{我}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {{\ varvec {X}}} _ {{\ varvec{我}}}\)\)gydF4y2Ba通过积分得到gydF4y2Ba\ (f \离开({{Y} _{我}= Y} _{我}| {{{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _ {{\ varvec{我}}},{\τ}_{我}\)\)gydF4y2Ba关于gydF4y2Ba我\({\τ}_{}\)。gydF4y2Ba积分的解析解存在gydF4y2Ba我\({\τ}_ {}\)gydF4y2Ba是分布,这个解是NB分布。具体来说,有必要假设gydF4y2Ba\ \ (E左({\τ}_{我}\右)= 1,\)gydF4y2Ba然后gydF4y2Ba我\({\τ}_ {}\)gydF4y2Ba遵循γgydF4y2Ba(θ,θ)gydF4y2Ba分布与gydF4y2Ba\ \ (E左({\τ}_{我}\右)= 1 \)gydF4y2Ba而且gydF4y2Ba\ (V \离开({\τ}_{我}\右)= \压裂{1}{\θ}\)。gydF4y2Ba可以看出,NB分布可表示为:gydF4y2Ba
在哪里gydF4y2Ba\({\α}^{1}=θ\ \)gydF4y2Ba而且gydF4y2Ba\θ> 0 (\ \)gydF4y2Ba是伽马刻度参数。gydF4y2Ba
结果变量的条件均值和条件方差gydF4y2Ba\ ({y} _{我}\)gydF4y2Ba是由:gydF4y2Ba
的参数gydF4y2Ba\α(\ \)gydF4y2Ba定义为色散参数。作为gydF4y2Ba\α(\ \)gydF4y2Ba接近零(即伽马刻度参数gydF4y2Ba\θ(\ \)gydF4y2Ba趋于无穷时),gydF4y2Ba\ (V \离开({{Y} _{我}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _{我}\)\)gydF4y2Ba减少到gydF4y2Ba我\({\μ}_ {}\)gydF4y2Ba=gydF4y2Ba\ \ (E左({{Y} _{我}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _{我}\右),\)gydF4y2BaNB分布接近泊松分布。因此,泊松回归模型嵌套在NB回归模型中。gydF4y2Ba
Zero-inflated计数模型gydF4y2Ba
零膨胀计数模型提供了一种既能模拟过量零又能模拟过色散的方法(He et al. 2014) [gydF4y2Ba51gydF4y2Ba].特别是,对于所关注的事件的出现次数,有两种可能的数据生成过程gydF4y2Ba\ ({y} _{我}\)gydF4y2Ba对于每个观察i = 1,…,n和伯努利试验的结果被用来决定使用两者中的哪一个。为观察gydF4y2Ba我gydF4y2Ba,过程1按概率选择gydF4y2Ba我\ ({\ varphi} _ {} \)gydF4y2Ba和过程2的概率gydF4y2Ba\ (1 - {\ varphi} _{我}\)gydF4y2Ba.进程1只生成零计数(“结构性”零)。过程2从泊松模型[gydF4y2Ba37gydF4y2Ba或NB模型[gydF4y2Ba41gydF4y2Ba].gydF4y2Ba\ (P \离开({Y} _{我}= {Y} _{我}| {{{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _ {{\ varvec{我}}}\)\)gydF4y2Ba具体情况如下:gydF4y2Ba
在哪里gydF4y2Ba\ (\ mathrm {g} ({y} _{我})\)gydF4y2Ba分别遵循(1)和(8)中定义的泊松分布或NB分布,因此零膨胀计数模型分别称为零膨胀泊松(ZIP)或零膨胀负二项(ZINB)回归模型。gydF4y2Ba
此外,如果gydF4y2Ba我\ ({\ varphi} _ {} \)gydF4y2Ba这取决于观察的特点gydF4y2Ba我gydF4y2Ba,然后gydF4y2Ba\ ({\ varphi} _{我}= {F} _{我}= F ({z} _{我}^{^{\ '}}\γ)\)gydF4y2Ba,在那里gydF4y2Ba我z \ ({} _ {} \)gydF4y2Ba一个(q + 1)维的零膨胀协变量向量和gydF4y2Ba\γ(\ \)gydF4y2Ba是一个(q + 1)维的零膨胀回归系数的估计向量。这个函数gydF4y2BaFgydF4y2Ba称为零膨胀链接函数。gydF4y2Ba
在ZIP回归模型中,结果变量的条件期望和条件方差gydF4y2Ba\ ({Y} _{我}\)gydF4y2Ba是由:gydF4y2Ba
自gydF4y2Ba\ (V \离开({{Y} _{我}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _ {{\ varvec{我}}},{z} _{我}\右)> E \离开({{Y} _{我}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _ {{\ varvec{我}}},{z} _{我}\)\)gydF4y2Ba, ZIP模型也表现出过度分散。gydF4y2Ba
在ZINB回归模型中,结果变量的条件期望和条件方差gydF4y2Ba\ ({Y} _{我}\)gydF4y2Ba是由:gydF4y2Ba
自gydF4y2Ba\ (V \离开({{{\ varvec {Y}}} _ {{\ varvec{我}}}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _ {{\ varvec{我}}},{z} _{我}\右)> E \离开({{{\ varvec {Y}}} _ {{\ varvec{我}}}| {{\ varvec {X}}} _ {{\ varvec{我}}}= {\ varvec {X}}} _ {{\ varvec{我}}},{z} _{我}\)\)gydF4y2Ba, ZINB模型与ZIP模型一样存在过分散现象。正如NB分布收敛于泊松分布gydF4y2Ba\α(\ \)gydF4y2Ba接近零时,ZINB分布收敛于ZIP分布gydF4y2Ba\α(\ \)gydF4y2Ba接近零。gydF4y2Ba
广义线性模型gydF4y2Ba
Poisson、NB、ZIP和ZINB都是广义线性模型(GLMs)的一部分。术语GLM指的是Nelder和Wedderburn首先引入的一大类模型[gydF4y2Ba52gydF4y2Ba并由McCullagh和Nelder进一步发展和解释[gydF4y2Ba53gydF4y2Ba].GLMs扩展了标准线性回归模型,以包含非正态响应分布和可能的非线性均值函数[gydF4y2Ba40gydF4y2Ba].普通线性回归模型使用线性来描述响应变量的均值与一组解释变量之间的关系,推理假设响应分布为正态[gydF4y2Ba40gydF4y2Ba].glm有三个组成部分:1)一个随机组成部分,它指定了响应变量gydF4y2BaYgydF4y2Ba我,gydF4y2Ba为gydF4y2Ba我gydF4y2BathgydF4y2Ba观测及其概率分布。2)线性分量,gydF4y2Ba\({\埃塔}_{我}= {{\ varvec {X}}} _{我}^{^{\ '}}\β\)gydF4y2Ba,在那里gydF4y2Baβ\ (\ \)gydF4y2Ba是参数和的列向量gydF4y2Ba\ ({{\ varvec {X}}} _{我}\)gydF4y2Ba是预测器的列向量吗gydF4y2Ba我gydF4y2Ba观察。3)一个单调可微连杆函数gydF4y2Bag(。)gydF4y2Ba描述变量的期望值如何gydF4y2BaYgydF4y2Ba我gydF4y2Ba和线性预测器有关吗gydF4y2Ba我\({\埃塔}_ {}\)gydF4y2Ba,gydF4y2Ba\ ({g \离开[E \左右(Yi \) \] = g({\μ}_{我})= {\ varvec {X}}} _{我}^{^{\ '}}\β\)gydF4y2Ba, (gydF4y2Ba40gydF4y2Ba].响应变量gydF4y2BaYgydF4y2Ba我gydF4y2Ba是独立的gydF4y2Ba我gydF4y2Ba= 1,2,得到指数族的概率分布。这意味着响应变量的方差gydF4y2BaYgydF4y2Ba我gydF4y2Ba取决于均值gydF4y2Ba我\({\μ}_ {}\)gydF4y2Ba通过方差函数gydF4y2BaV:gydF4y2Ba\ (var \离开({Y} _{我}\右)= \压裂{\φV \离开({\μ}_{我}\右)}{{\ω}_{我}},\)gydF4y2Ba在哪里gydF4y2Baφ\ (\ \)gydF4y2Ba是一个常数,称为色散参数,和gydF4y2Ba我\({\ω}_ {}\)gydF4y2Ba是每个观测值的已知权重。链接功能gydF4y2BaggydF4y2Ba对于Poisson, NB, ZIP和ZINB回归模型为log (gydF4y2Ba\({\埃塔}_{我}= \ mathrm{日志}({\μ}_{我})\)gydF4y2Ba).二进制链接函数gydF4y2BahgydF4y2Ba为ZIP和ZINB回归模型中零计数概率的模型gydF4y2Ba,gydF4y2Ba是logit、probit或补充log-log中的一个。gydF4y2Ba
模拟研究gydF4y2Ba
数据集生成gydF4y2Ba
带有一个因变量的多个数据集gydF4y2BaygydF4y2Ba还有两个预测变量gydF4y2BaxgydF4y2Ba1gydF4y2Ba而且gydF4y2BaxgydF4y2Ba2gydF4y2Ba由以下四个分布生成:Poisson、NB、ZIP和ZINB。变量gydF4y2BaxgydF4y2Ba1gydF4y2Ba是连续的,是由均值的正态分布产生的gydF4y2BaµgydF4y2Ba=gydF4y2Ba57.3gydF4y2Ba和方差gydF4y2BaσgydF4y2Ba2gydF4y2Ba=gydF4y2Ba306.25gydF4y2Ba表示在重症监护医疗信息集市(MIMIC-III)数据集中观察到的哮喘诊断患者的可变年龄分布[gydF4y2Ba54gydF4y2Ba,gydF4y2Ba55gydF4y2Ba,gydF4y2Ba56gydF4y2Ba].二元变量gydF4y2BaxgydF4y2Ba2gydF4y2Ba是由成功概率的伯努利分布产生的gydF4y2BapgydF4y2Ba=gydF4y2Ba0.43gydF4y2Ba,代表哮喘诊断患者在MIMIC-III数据集中可变性别的分布。总体回归系数的值gydF4y2BaβgydF4y2Ba0gydF4y2Ba,βgydF4y2Ba1gydF4y2Ba,gydF4y2BaβgydF4y2Ba2gydF4y2Ba在相同的MIMIC-III数据集中,通过拟合NB回归模型对结局变量医院LOS进行预先指定并获得。对于Poisson、NB、ZIP和ZINB分布下的每个模拟数据,考虑了四种不同的样本量情景(50、200、600和1000)。在NB分布或ZINB分布产生的计数数据的情况下,在每个样本量模拟场景下考虑了不同的分散水平(0.01,1,5和10)。对于ZIP分布或ZINB分布生成的计数数据,在每个样本量模拟场景和ZINB分布生成的数据的每个分散水平模拟场景下,考虑了不同比例的结构零(0.1、0.3、0.5和0.7)。为了尽量减少模拟误差的影响,每个场景重复1000次。研究中考虑的模拟场景总结见表gydF4y2Ba1gydF4y2Ba.gydF4y2Ba
模型评价gydF4y2Ba
带因变量的Poisson, NB, ZIP,和ZINB回归模型gydF4y2BaygydF4y2Ba和独立变量gydF4y2BaxgydF4y2Ba1gydF4y2Ba而且gydF4y2BaxgydF4y2Ba2gydF4y2Ba使用最大似然估计(MLE)方法对每个模拟场景和复制下生成的数据进行拟合[gydF4y2Ba57gydF4y2Ba].采用拟牛顿优化技术对似然函数进行最大化,得到回归模型的估计值。为了评估四种不同模型在每个仿真场景下的性能,我们首先计算了模型的收敛速度。当MLE过程收敛时,这意味着它为每个参数找到了一组唯一的值,这些值的组合返回所有检查的参数值中最高的似然值[gydF4y2Ba58gydF4y2Ba].对于收敛模型,我们提取了广泛使用的赤池明介信息准则(AIC),这是赤池明介提出的模型选择准则[gydF4y2Ba59gydF4y2Ba].我们还使用了由吉迪恩·施瓦茨(Gideon Schwarz)首先提出的贝叶斯信息准则(BIC)(也称为Schwarz准则,SBC, SBIC) [gydF4y2Ba60gydF4y2Ba].这些标准的值越小,说明模型拟合越好。除了AIC和BIC统计之外,我们还计算了平均绝对误差(MAE)gydF4y2BaE (y)gydF4y2Ba我gydF4y2Ba| xgydF4y2Ba我gydF4y2Ba),gydF4y2Ba定义为gydF4y2Ba美= \ \(压裂{{\总和}_ {i = 1} ^ {n} | E \离开({y} _{我}| {x} _{我}\右)- E ({\ widehat {y}} _{我}| {x} _{我})|}{n} \)gydF4y2Ba在哪里gydF4y2BangydF4y2Ba是样本容量。AIC、BIC和MAE在每个模拟场景的1000次重复中取平均值。所有的模拟和统计分析均使用统计分析系统(SAS) 9.4 (SAS Institute, Inc., 2015)进行。gydF4y2Ba
实证研究gydF4y2Ba
数据描述gydF4y2Ba
在实证研究中,我们使用了来自重症监护医疗信息库(MIMIC-III)的数据[gydF4y2Ba54gydF4y2Ba,gydF4y2Ba55gydF4y2Ba,gydF4y2Ba56gydF4y2Ba].MIMIC-III是一个大型的单中心数据库,包含在马萨诸塞州波士顿的Beth Israel Deaconess医疗中心住院的患者的相关信息。已达成数据使用协议。为了我们的研究目的,我们提取了与哮喘诊断相关的国际疾病分类第九修订版(ICD-9)代码49390的患者。结果数据集包含2195个住院病人入院记录。gydF4y2Ba
在我们的研究中,感兴趣的结果变量是医院LOS,计算为入院日和出院日之间的天数差。回归分析中考虑的预测变量为年龄、性别、患者健康保险和住院类型。年龄以年为单位。性别是一个有两个等级的分类变量:男性和女性。患者健康保险是一个分类变量,有5个级别:政府、医疗补助、医疗保险、私人和自付。入院类型是一个分类变量,有3个级别:择期、紧急和紧急。gydF4y2Ba
统计分析gydF4y2Ba
首先,我们进行描述性统计分析,对研究数据进行总结和描述。频率和百分比用于描述分类变量和均值,标准差用于描述连续变量。用直方图直观检查计数结果变量LOS的分布。此外,我们计算了结果变量LOS的方差和均值,以突出数据中潜在的泊松分布违反和过度分散。对预测变量年龄、性别、健康保险和住院类型的LOS拟合Poisson、NB、ZIP和ZINB回归模型。皮尔逊离散统计量是用模型的皮尔逊卡方统计量除以相应的自由度计算得到的,用来作为评价模型的错误规范或过度分散的响应变量的标准。当结果值大于1时,认为模型是过分散的。采用AIC和BIC对模型进行比较。此外,模型估计了系数、标准误差及其显著性,特别注意了模型之间的结果和结论的差异。所有回归模型均使用SAS 9.4 (SAS Institute, 2015)中的PROC COUNTREG和PROC GENMOD进行拟合。 Statistical testing was two-sided and performed at a significance (α) level of 0.05.
结果gydF4y2Ba
模拟研究gydF4y2Ba
泊松回归模型生成的数据gydF4y2Ba
表格gydF4y2Ba2gydF4y2Ba为4种不同样本量情景下模拟数据的Poisson、NB、ZIP和ZINB回归模型的收敛速度(gydF4y2BangydF4y2Ba= 50, 200, 600, 1000)。NB回归收敛率在53.5% ~ 58.7%之间,其中在规模为1000的模拟样本中收敛率最大gydF4y2Ba2gydF4y2Ba).随着样本量从50增加到1000,ZINB的收敛率从90.4%增加到94.2%。Poisson和ZIP回归模型在所有模拟场景下的收敛率均为100%。gydF4y2Ba
表格gydF4y2Ba3.gydF4y2Ba显示了在四种样本量模拟情景下,所有复制的Poisson, NB, ZIP和ZINB回归模型的平均AIC和BIC统计数据。平均AIC和BIC值最小的是泊松回归模型(真模型),其次是NB回归模型。拟合的Poisson模型与拟合的NB和ZINB回归模型的平均AIC和平均BIC值的差异随着样本量的增加而增大。gydF4y2Ba
表格gydF4y2Ba4gydF4y2Ba显示了在四种样本量模拟情景下,拟合的Poisson、NB、ZIP和ZINB回归模型在所有复制中的预测计数的MAE值。Poisson回归模型(真模型)的MAE最低,其次是ZIP、ZINB和NB回归模型。gydF4y2Ba
NB回归模型生成的数据gydF4y2Ba
在本节中,我们描述了用NB回归模型在16个不同的模拟场景中产生的数据的分析,这些场景具有不同的样本量(gydF4y2BangydF4y2Ba= 50, 200, 600, 1000)和色散大小(0.01,1,5,10)。表格gydF4y2Ba5gydF4y2Ba表示Poisson, NB, ZIP,和ZINB回归模型的收敛速度。在极低的过分散水平(0.01)下,NB回归模型(真模型)的收敛率在最小样本量情景下的64.8%到最大样本量情景下的94%之间。同样,在低水平的过分散情况下,ZINB回归模型也没有达到100%的收敛率。总体而言,随着样本量的增加,ZINB回归模型的收敛速度略优于NB模型,在91% ~ 99.6%之间。Poisson和ZIP回归模型在所有模拟场景中均达到100%收敛。在其余离散水平(1、5和10)和所有样本大小(gydF4y2BangydF4y2Ba= 50,200,600和1000),所有模型均达到100%的收敛率。gydF4y2Ba
表格gydF4y2Ba6gydF4y2Ba显示了Poisson、NB、ZIP和ZINB回归模型在不同离散度和样本量的NB回归模型生成的数据上的平均AIC和BIC模型拟合统计量。在几乎不存在过分散水平(0.01)的模拟场景中,无论样本量大小,泊松回归模型的AIC和BIC值都是最低的。在其他所有模拟场景中,NB回归模型(真模型)的AIC和BIC值最低。NB和ZINB模型的拟合度随分散度的增加而提高;相反,Poisson和ZIP回归模式的模型拟合随着离散水平的增加而降低。gydF4y2Ba
对不同离散程度和样本量NB回归模型生成的数据拟合Poisson、NB、ZIP和ZINB回归模型预测计数的MAE值如表所示gydF4y2Ba7gydF4y2Ba.在样本量最小的模拟场景中(gydF4y2BangydF4y2Ba= 50),无论离散水平如何,泊松回归模型的MAE最小。当样本量增加到(时gydF4y2BangydF4y2Ba= 200),在过分散水平非常低的情况下(0.01),Poisson和ZIP回归模型的MAE最小,其次是NB回归模型。当分散水平为10,样品检出量大于200时,NB模型的MAE最低,其次是ZIP回归模型。在样本量大于200的情况下,真实模型(即NB回归模型)产生的MAE最小,无论离散程度如何。gydF4y2Ba
用ZIP回归模型生成的数据gydF4y2Ba
表格gydF4y2Ba8gydF4y2Ba显示了在不同结构零水平和样本量的模拟场景中,用ZIP分布生成的数据拟合的Poisson、NB、ZIP和ZINB回归模型的收敛速度。Poisson和ZIP回归模型在所有模拟场景中均达到100%的收敛率。NB回归模型在结构零占比和样本量为10%的模拟数据中,收敛率分别为98.4%和99.9%gydF4y2BangydF4y2Ba= 50,gydF4y2BangydF4y2Ba= 200,在样本量和结构零占比大于30%的所有情景组合下,均达到100%的收敛率。在所有模拟场景中,ZINB回归模型的收敛速度在94.4%到99.4%之间变化。gydF4y2Ba
表格gydF4y2Ba9gydF4y2Ba显示了用ZIP回归模型生成的数据对拟合的Poisson、NB、ZIP和ZINB回归模型的AIC和BIC拟合统计值。当结构零占比为10%时,ZINB回归模型的AIC和BIC值最小,而真正的ZIP回归模型的AIC和BIC值最小。在数据中结构零比例较高(30%、50%、70%)的模拟场景中,真ZIP回归模型AIC和BIC值最小,ZINB回归模型次之。此外,泊松回归模型在所有情景中产生了最大的AIC和BIC值。泊松模型拟合程度随结构零占比从10增加到50%而变差,当结构零占比达到70%时略有改善;与其他模型相反,随着结构零比例的增加,拟合度大大提高。gydF4y2Ba
根据ZIP回归模型生成的数据拟合的Poisson、NB、ZIP和ZINB回归模型在不同模拟场景下预测计数的MAE值如表所示gydF4y2Ba10gydF4y2Ba.在样本量最小的情况下,ZIP模型的MAE最低(gydF4y2BangydF4y2Ba= 50)和结构零的比例为10%和30%。在样本量最小的情况下,ZIP和ZINB的me均最低(gydF4y2BangydF4y2Ba= 50)和结构零的50%比例。ZINB在样本容量为200和1000、结构零占比为70%的情况下具有最低的MAE。在样本容量为200和1000且结构零占比为10%的情况下,ZIP模型产生的me最低。当样本量为600,结构零比例为30%时,ZINB的MAE最高,Poisson、NB和ZIP的MAE相同。在所有其他情况下,NB产生最低的MAE。gydF4y2Ba
用ZINB回归模型生成的数据gydF4y2Ba
在本节中,我们展示了用ZINB回归模型在64个不同的模拟场景中产生的数据的分析结果,这些场景具有不同的零比例、离散程度和样本量。表gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba14gydF4y2Ba给出了拟合的Poisson、NB、ZIP和ZINB回归模型在不同模拟场景下的收敛速度。在用最小样本量模拟数据的场景中(gydF4y2BangydF4y2Ba= 50)时,无论色散大小或结构零比大小,泊松模型均达到100%的收敛率(表5)gydF4y2Ba11gydF4y2Ba).其他模型的收敛速度在模拟场景中不稳定,在94.6%到100%之间变化。例如,无论结构零的比例如何,在弥散水平0.01、1和5时,ZIP模型的收敛率为100%;在过度分散最大的情况下(分散= 10),其变化范围在98.9%到99.9%之间。当样本量为50时,随着零比例的增加,ZINB的收敛速度略有降低。仅在弥散水平为1和5,结构零占比为(10%、30%和50%)的情况下,zib模型达到100%的收敛率。但是,在样本量为50的情况下,随着样本量的增大,ZINB的收敛速度的趋势发生了变化(tablegydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba14gydF4y2Ba).随着样本量的增加,除NB和ZINB回归模型外,其余模型在所有模拟情景下均达到100%的收敛率,在离散程度最小(离散= 0.01)的模拟情景下,模型的收敛率略低于100%。gydF4y2Ba
Poisson、NB、ZIP和ZINB回归模型对ZINB回归模型生成的数据拟合的AIC和BIC拟合统计量在不同离散量、零比和样本量下显示在表中gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba,gydF4y2Ba18gydF4y2Ba.在弥散水平最小为0.01和10%结构零的模拟场景中,无论样本量如何,ZINB模型的AIC和BIC拟合统计值都是最低的,除了样本量最小的情况外,NB模型的AIC值是最低的。然而,ZINB在所有场景中具有最低的BIC值。当结构零的比例大于10%时,无论样本量大小如何,ZIP模型在所有模拟场景中均产生最低的AIC和BIC统计量,离散水平均为0.01。当离散度水平达到1时,除了样本量为50的情况外,几乎所有不同样本量和结构零占比的情况下,NB模型的AIC值最低,在结构零占比达到50%的情况下,其余的回归模型AIC值均为ZINB模型。在结构零比例大于50%、色散等于1的模拟场景中,ZINB产生的AIC最低。同样,在弥散水平为1时,在结构零比例和小样本量为50的所有模拟场景中,产生最低BIC的模型是NB模型。当样本量从50增加到1000时,NB回归模型在结构零比例低于50%的模拟场景中产生的BIC统计量最低。在结构零比例超过50%的情况下,ZINB回归模型产生的BIC拟合统计值最低。综上所述,基于AIC和BIC统计量的NB回归模型在离散度水平大于1的所有模拟场景中,无论结构零的比例和样本量如何,均能得到最佳拟合。gydF4y2Ba
基于Poisson、NB、ZIP和ZINB回归模型对ZINB回归模型生成的数据进行拟合,并具有不同的离散程度、零比例和样本量的预测计数的mae值显示在表中gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba.在小样本量为50、分散水平为0.01和1的场景中,除了结构零占比为70%、分散水平为0.01的场景外,ZIP模型在几乎所有结构零占比的模拟场景中均提供了最小的mae。另一个例外是结构零比例为10%、离散度水平为1的情形,其中ZINB和Poisson回归模型的me最小。在50个小样本量的其他模拟场景中,泊松模型提供了最低的me(表5)gydF4y2Ba19gydF4y2Ba).随着样本量从200增加到1000,泊松回归模型不再得到最小的mae。在样本量为200、600和1000,分散度为0.01的模拟场景中,NB在几乎所有结构零比例的场景中都产生了最低的mae,除了结构零比例为10%时的例外,其中ZINB在(gydF4y2BangydF4y2Ba= 200), ZIP in (gydF4y2BangydF4y2Ba= 600)或NB或ZIP in (gydF4y2BangydF4y2Ba= 1000)回归模型的me最低。另一个发现是,在大样本量的模拟场景中(gydF4y2BangydF4y2Ba= 1000),弥散水平为1时,无论结构零的比例如何,NB模型均产生最低的mae。在大样本量的模拟场景中(gydF4y2BangydF4y2Ba= 1000)且色散水平大于1时,当结构零比例不超过30%时,ZIP模式产生的me最低;当结构零的比例大于30%时,ZINB产生的me最低。gydF4y2Ba
实证研究gydF4y2Ba
研究人群的描述gydF4y2Ba
实证研究人群包括2167例住院诊断为哮喘的患者,从使用ICD-9代码49390的MIMIC数据集中选取。表格gydF4y2Ba23gydF4y2Ba介绍了研究人口的主要人口特征。60%的住院病人是女性。平均年龄62.3岁(SD = 40.66)。需要注意的是,在MIMIC数据中,89岁以下的患者合并到同一年龄组。80.66%的研究人群因急诊入院,17.44%为选择性入院,仅有1.89%的患者为急诊入院。大多数患者要么有医疗保险(44.35%),要么有私人健康保险(36.41%)gydF4y2Ba23gydF4y2Ba).变量医院LOS分布呈正偏态,取值范围为0 ~ 40天(图1)。gydF4y2Ba1gydF4y2Ba).平均LOS为8.0天,远低于43.10的方差。与样本均值相比,样本方差较大,表明偏离泊松回归模型的方差和均值相等的假设[gydF4y2Ba61gydF4y2Ba].gydF4y2Ba
拟合的poisson、NB、ZIP和ZINB回归模型的比较gydF4y2Ba
表格gydF4y2Ba24gydF4y2Ba给出了患者水平预测变量年龄、性别、住院类型和健康保险状况的结局变量LOS的拟合Poisson、NB、ZIP和ZINB回归模型的结果。在零膨胀模型中,相同的预测因子被用来拟合计数模型和逻辑(零)模型。根据表中的结果gydF4y2Ba24gydF4y2Ba, NB回归模型对数据拟合最好,AIC和BIC值最小。第二好的模型是ZINB,其次是ZIP模型。根据AIC和BIC值,泊松回归模型与数据拟合最差。泊松回归模型的Pearson离散统计量为5.3016,大于1,提示过离散。拟合NB回归模型离散统计量最小,为1.1815。回归系数估计值及其各自的标准误差在各模型之间存在差异(表gydF4y2Ba24gydF4y2Ba).这在Table中非常明显gydF4y2Ba24gydF4y2BaPoisson和ZIP回归模型比NB和ZINB回归模型产生更小的回归系数估计标准误差的趋势。过度分散可能导致回归系数估计的标准误差被低估,从而导致模型之间的显著回归系数结果存在差异[gydF4y2Ba39gydF4y2Ba,gydF4y2Ba43gydF4y2Ba].例如,在5%显著性水平下,仅基于拟合的Poisson和ZIP回归模型,年龄和log LOS之间存在显著相关性,控制了模型中包括的性别、医疗保险类型和住院类型变量的影响(表gydF4y2Ba24gydF4y2Ba).相对于逻辑部分(零模型),ZIP和ZINB回归模型中的变量对LOS的结构性零生成过程均无显著贡献。gydF4y2Ba
讨论gydF4y2Ba
通过仿真和实证研究比较了Poisson、NB、ZIP和ZINB回归模型在收敛速度和模型拟合方面的性能。本研究补充了之前的研究,包括额外的实验场景,如不同的样本量,较大的分散水平,结果变量的不同比例的零,以及使用泊松分布和ZIP分布以及NB和ZINB分布生成的数据。我们的激励现实生活的例子是统计结果变量住院时间的分析。gydF4y2Ba
在模拟研究的基础上,当使用泊松回归模型生成数据(即数据中不存在过分散或零膨胀)时,结果表明,无论模拟数据的样本量大小,泊松和ZIP回归模型都不存在收敛问题。NB和ZINB模型在所有样本量模拟场景中均未达到100%收敛。与NB、ZIP和ZINB回归模型相比,泊松回归模型(真模型)的AIC、BIC和MAE最小。我们的研究结果与Nekesa等人(2019)的研究结果略有不同,Nekesa等人在固定样本量为500、无零膨胀且过分散水平非常低的模拟数据中,拟合NB模型具有最低的AIC。然而,在Nekesa的研究中,响应变量是由负二项分布产生的[gydF4y2Ba62gydF4y2Ba].通过允许数据中的方差大于平均值,我们用NB回归模型生成了过度分散的数据,该模型改变了分散水平和样本量。我们发现,当数据过离散度很低时,泊松回归模型提供最小的AIC和BIC统计值,无论样本大小,拟合NB或ZINB模型可能会遇到收敛问题,特别是在数据过离散度很低的情况下。这是意料之中的,因为当色散参数趋于零时,NB分布趋于泊松分布[gydF4y2Ba63gydF4y2Ba].当离散度大于1时,无论样本量大小如何,NB模型(真模型)在AIC和BIC方面都具有最佳拟合。这些结果与Gardner [gydF4y2Ba31gydF4y2Ba和萨法里[gydF4y2Ba64gydF4y2Ba],他表明当数据中存在过分散时应使用NB回归。在大样本量(200、600或1000)的情况下,无论数据中存在何种分散水平,NB模型产生的MAE最小。有趣的是,当样本量为50时,泊松回归模型产生的MAE最小。其原因可能是样本量小影响了估计的准确性[gydF4y2Ba65gydF4y2Ba].在对ZIP回归模型生成的数据的样本量和结构零占比进行处理时,我们发现无论样本量和数据中结构零占比如何,ZINB的收敛率都小于100%。但NB模型的收敛速度优于ZINB回归模型的收敛速度,在大部分模拟场景中NB均达到100%。值得注意的是,ZINB回归模型比NB更复杂,这可能会影响用于MLE估计的准牛顿算法的性能[gydF4y2Ba66gydF4y2Ba].其他研究人员在拟合ZINB回归模型时也报告了类似的收敛问题。Lee等人(2012)报道称,模型并不总是收敛,或者模型诊断表明估计的模型不可靠。另一个发现是,在零比例为30%或更高的情况下,ZIP回归模型(真模型)具有最佳拟合性,因为无论样本量大小,它都具有最小的AIC和BIC统计值。这与Nekesa等人(2019)的研究结果一致,在过色散非常小、零比例等于或大于20%的模拟条件下,ZIP模型的AIC小于Poisson、NB和ZINB回归模型[gydF4y2Ba62gydF4y2Ba].我们的研究有一个有趣的发现,在结构零占比为10%的模拟场景下,无论在AIC和BIC上,还是在样本量大小上,ZINB回归模型都具有最好的拟合。在MAE方面,模型的性能非常相似。此外,我们的研究结果表明,在样本量最小的情况下,ZIP回归模型在大多数零比例的情况(10%,30%,50%)中具有最小的MAE。然而,当样本量增加到1000时,在大多数零比例(30%,50%,70%)的情况下,NB的MAE最小。当改变ZINB回归模型生成的数据的样本量、结构零的比例和离散程度时,ZINB模型在样本量小的情况下存在收敛问题。我们发现,在极低的分散水平(0.01)下,无论样本量或结构零的比例如何,在AIC和BIC方面产生最佳拟合的模型是ZIP回归模型。这并不奇怪,因为正如NB分布在色散参数趋于零时收敛于泊松分布一样,ZINB分布在色散参数趋于零时也会收敛于ZIP分布[gydF4y2Ba63gydF4y2Ba].在样本量大于50且色散水平固定为1的模拟场景中,AIC认为无论数据中结构零的比例如何,最佳模型都是ZINB(真模型)。基于使用AIC和BIC进行模型选择的仿真研究的研究表明,在数据异质性较大的情况下,BIC由于提供更强的惩罚,在模型选择方面表现更好[gydF4y2Ba67gydF4y2Ba].在我们的研究中,根据最小BIC, NB回归模型在许多情况下比ZINB更适合数据,这取决于数据中结构零的比例和过分散的程度。例如,当结构零的比例超过50%,样本量大于50,且过分散程度较大时,BIC和AIC都表明NB回归更适合数据。Tlhaloganyang等人最近进行的一项研究也发现了类似的结果。[gydF4y2Ba45gydF4y2Ba这表明零膨胀模型并不总是必要的,即使数据具有过度分散和零膨胀的特征。Tlhaloganyang等人。[gydF4y2Ba45gydF4y2Ba]报告说,在过度分散和零膨胀的数据中,与ZIP和ZINB模型相比,NB模型在所有数据集中都提供了合理的拟合。类似地,Nekesa等人(2019)报告了暴露婴儿诊断的模拟研究和真实数据分析的结果,显示在各种设置下用结构化和非结构化零拟合数据时,负二项式成为表现最好的模型。Tüzen等人(2018)报告了仿真场景,在存在异常值和/或多余零的情况下,NB模型优于其他计数模型。Allison(2012)指出,在一些应用程序中,可以使用零膨胀模型,并建议在建模零膨胀计数数据时使用ZINB而不是ZIP。他指出,零膨胀负二项模型有时可能比传统的负二项模型更适合,但在许多应用中并不如此[gydF4y2Ba68gydF4y2Ba].他建议,在这些情况下,测试差异的显著性很重要。gydF4y2Ba68gydF4y2Ba].最后,Hilbe(2014)建议,在其他考虑条件相同的情况下,应优先考虑具有较低信息检验统计量的模型。在模型与统计数据之间只有轻微差异的情况下,选择哪个模型的决定应该基于上下文和如何解释模型[gydF4y2Ba39gydF4y2Ba].gydF4y2Ba
实证数据分析的结果与模拟研究的结果一致。根据皮尔逊离散度统计,实证数据并非零膨胀,数据存在过离散。拟合的NB回归模型AIC和BIC值最小,ZINB回归模型次之。这与我们的模拟研究结果一致,NB是处理过分散数据时的最佳模型。泊松和ZIP模型低估了标准误差,夸大了一些协变量的意义。gydF4y2Ba
由于本研究的重点是计数数据的回归分析方法,在本文中我们没有完全讨论来自MIMIC-III数据分析的结果。但对实证数据进行NB回归分析的结果表明,医疗保险类型和住院类型与log转换后的医院LOS显著相关。择期住院患者的预期住院天数低于紧急住院患者;在控制了年龄和性别的影响后,有医疗补助、医疗保险或私人健康保险的患者比自费患者预期住院天数更长。基于NB回归分析,Soyiri等[gydF4y2Ba69gydF4y2Ba]报告了伦敦医院中性别、年龄、入院类型、种族、入院天数与哮喘LOS的显著相关性。基于2001 - 2010年收集的全国哮喘住院患者样本(NIS)的调查线性回归分析,Arora等人[gydF4y2Ba70gydF4y2Ba的研究报告称,白人种族和私人保险分别与LOS更长和更短显著相关。然而,由于变量的定义、回归模型中所包含的协变量、回归方法的类型或医院管理的潜在差异,这些研究的结果并没有完全可比性。gydF4y2Ba
不同的优化过程会产生不同的结果和不同的收敛速度。对于所有数据集,没有一个完美的优化过程可以在最合理的时间内找到最佳解决方案(SAS Institute, 2000)。对于SAS编程语言,计数回归模型通常使用PROC COUNTREG、PROC GENMOD或PROC NLMIXED进行分析。这里默认的优化过程通常是准牛顿或牛顿-拉弗森。在本研究中,我们使用了准牛顿方法,它使用迭代逼近,不需要计算二阶导数。因此,它具有快速找到解决方案的优势。然而,该方法没有考虑零膨胀数据中存在的边界约束。其他经常用于拟合零膨胀数据的优化方法(如在R软件的情况下)是ZIP回归模型的Nelder-Mead Simplex optimization。在不同软件包的回归模型中使用不同的优化方法可以解释为评估回归方法而进行的研究之间的一些差异。gydF4y2Ba
用AIC和BIC来确定最适合数据的模型。在比较模型时,要注意最好的模型不一定是最适合的模型。相反,它将导致正确的推论、解释和决定。尽管人们可能不总是知道精确的模型规范,从而得到增强的统计结论,但仍然有可能保持一个核心原则,即理想的模型应该是简单和简约的[gydF4y2Ba71gydF4y2Ba].gydF4y2Ba
模型的性能指标是基于整个样本进行评估的,而不是基于模型的内部和/或外部验证。我们研究的目的不是为医院LOS推导预测建模函数。本研究的目的是说明计数数据回归模型的选择,该模型基于过分散幅度、零数比例和样本量的不同组合gydF4y2Ba.gydF4y2Ba在本研究中,我们没有探索其他计数数据回归模型,如泊松和零膨胀泊松逆高斯、两部分跨栏模型、零截断模型、二项式和离散化γ / β分布的混合分析等。跨栏模型是一种改进的计数模型,其中产生零和正数的两个过程不受限制为相同的。其基本思想是二项概率支配计数变量是零还是正的二元结果。如果实现是正面的,则“跨越障碍”,正面的条件分布由零计数截断数据模型控制[gydF4y2Ba38gydF4y2Ba].例如,如果数据包括未住院的患者(即住院天数为零)和住院的患者,则栏模型可能适用于分析住院时间。在这种情况下,使用logistic回归模型预测住院概率,使用零截断Poisson或NB回归模型预测预期LOS。医院LOS数据很少是零膨胀的。然而,研究报告称,儿科患者零日住院(即住院时间小于24小时)和URTI/病毒感染、肠胃炎、髋关节、毛细支气管炎、哮喘、扁桃体炎、非特异性腹痛、便秘、发热性惊厥和皮疹诊断的住院人数有所上升[gydF4y2Ba69gydF4y2Ba,gydF4y2Ba72gydF4y2Ba,gydF4y2Ba73gydF4y2Ba].这可能反映了多种因素的综合作用,包括可获得更迅速的急性症状评估和有效治疗,以及医院专业知识和资源的减少[gydF4y2Ba72gydF4y2Ba].对于住院医院LOS中不同数据生成机制的场景应进行进一步研究。此外,在这项研究中,我们没有探讨欠色散。尽管在现实生活的数据集中不常见到未充分分散的数据,但在建模这种分布时评估计数回归模型的性能将是有趣的。LOS可以使用生存分析方法作为右截尾时间到事件数据进行分析,其中感兴趣的事件是到医院出院的时间,或到临床稳定的时间,或到死亡的时间[gydF4y2Ba74gydF4y2Ba,gydF4y2Ba75gydF4y2Ba].如果感兴趣的是估计患者达到临床稳定或在某一天出院的概率,Brock等人(2011)主张对在事件发生之前死亡的个人的数据进行权利审查或忽略。分析具有多个事件的LOS时间到事件数据的另一种方法是将事件视为竞争风险[gydF4y2Ba75gydF4y2Ba,gydF4y2Ba76gydF4y2Ba].竞争风险分析将生存分析方法扩展到具有多个可能事件的情况,其中一个事件的发生排除了其他事件,或大大改变了其他事件的概率[gydF4y2Ba75gydF4y2Ba,gydF4y2Ba76gydF4y2Ba].如果获得额外的措施,如在住院期间监测患者的生命体征或入院第一天后可能的目的地,则可以利用马尔可夫模型来捕获事件的时间序列[gydF4y2Ba77gydF4y2Ba,gydF4y2Ba78gydF4y2Ba,gydF4y2Ba79gydF4y2Ba].在本研究中,我们没有评估glm类的扩展,以分析从对个体的多次观察中收集的计数相关数据,或由于聚类调查数据、家族研究或嵌套实验设计而聚类的计数数据。广义估计方程[gydF4y2Ba80gydF4y2Ba]和广义线性混合模型(glmm) [gydF4y2Ba81gydF4y2Ba],也被称为随机效应模型、多级或分层模型,用于处理此类聚类数据并产生精确的回归系数和标准误差估计。多层次建模技术结合了特定于集群的随机效应,通过将总数据方差划分为集群之间和集群内部的方差,来解释这种集群内依赖性[gydF4y2Ba82gydF4y2Ba].例如,如果LOS数据是从各参与医院收集的,并具有可用的医院级别变量,且在医院之间存在患者预后的系统性差异,那么多级建模将是合适的;在多个时间点收集相同受试者的LOS数据,患者结果在不同受试者之间存在系统性差异。是否需要多级模型可以从类内相关系数(ICC)和/或零模型中聚类变量的随机效应方差分量的显著性来推断。GEE方法通过结合预定义的“工作”相关结构来描述集群内依赖的性质,从而解释相关性[gydF4y2Ba80gydF4y2Ba].gydF4y2Ba
脑震荡gydF4y2Ba
泊松和ZIP回归模型在过度分散的数据中表现不佳。在零通胀且数据中没有过分散的情况下,ZIP模型的表现优于Poisson、NB和ZINB回归模型。NB模型在过分散数据下具有最佳拟合效果,在零膨胀和过分散情况下均优于ZINB模型。NB模型的拟合统计量与更复杂的ZINB模型拟合和解释之间只有微小的差异。研究人员应该决定是否零膨胀回归模型更适合于建模数据。如果研究者认为有两种不同的数据生成机制产生零,那么NB回归模型可能无法捕捉到产生零的两组的不同特征,在这种情况下,ZINB回归模型在建模零时可以提供更大的灵活性。此外,NB和ZINB回归模型在不正确地用于对等分散数据建模时面临着实质性的收敛问题。检查过度分散是很重要的。对过度分散的数据拟合不正确的模型导致了不正确的回归系数估计和夸大了一些预测因子的显著性。gydF4y2Ba
虽然这里提出的工作是基于医院LOS的分析,但模拟研究的结果可推广到其他计数结果变量。我们的研究结果可以指导从研究的广义线性模型中选择用于医院和公共卫生分析应用的计算风险调整的LOS。gydF4y2Ba
数据和材料的可用性gydF4y2Ba
在当前研究中使用和/或分析的数据集可从通信作者的合理要求。gydF4y2Ba
缩写gydF4y2Ba
- 另类投资会议:gydF4y2Ba
-
Akaike信息标准gydF4y2Ba
- BIC:gydF4y2Ba
-
贝叶斯信息准则gydF4y2Ba
- COVID-19:gydF4y2Ba
-
2019年冠状病毒病gydF4y2Ba
- 哎呀:gydF4y2Ba
-
广义估计方程gydF4y2Ba
- 全球语言监测机构:gydF4y2Ba
-
广义线性模型gydF4y2Ba
- GLMM:gydF4y2Ba
-
广义线性混合模型gydF4y2Ba
- 国际刑事法庭:gydF4y2Ba
-
组内相关系数gydF4y2Ba
- ICD-9:gydF4y2Ba
-
《国际疾病分类》第九版gydF4y2Ba
- 洛杉矶:gydF4y2Ba
-
滞留时间gydF4y2Ba
- 梅:gydF4y2Ba
-
平均绝对误差gydF4y2Ba
- 模拟:gydF4y2Ba
-
重症监护医疗信息中心gydF4y2Ba
- 大中型企业:gydF4y2Ba
-
最大似然估计gydF4y2Ba
- 注:gydF4y2Ba
-
负二项gydF4y2Ba
- NIS:gydF4y2Ba
-
全国住院病人样本gydF4y2Ba
- 情景应用程序:gydF4y2Ba
-
统计分析系统gydF4y2Ba
- ZINB:gydF4y2Ba
-
Zero-inflated负二项gydF4y2Ba
- 邮政编码:gydF4y2Ba
-
Zero-inflated泊松gydF4y2Ba
参考文献gydF4y2Ba
Thomas JW, Guire KE, Horvat GG.患者住院时间与护理质量有关吗?美国。1997;42:489 - 507。gydF4y2Ba
Taheri PA, Butz DA, Greenfield LJ。住院时间对住院费用的影响最小。美国。2000;191:123-30。gydF4y2Ba
科索夫斯基议员,萨拉辛FP,肖邦P,路易斯-西蒙内M,西高德P,佩内杰电视,等。充血性心力衰竭患者住院时间与护理质量的关系。英格兰。2002;11:219-23。gydF4y2Ba
提高出院率以缩短住院时间:提高医院效率的实用方法。荷兰。2017;238:157-60。gydF4y2Ba
白慧,赵敏,金s,黄慧,宋敏,柳珊。利用电子健康档案分析住院时间:一种统计和数据挖掘方法。《公共科学图书馆•综合》。2018;13 (4):e0195901。可以从:gydF4y2Bahttps://doi.org/10.1371/journal.pone.0195901gydF4y2Ba.gydF4y2Ba
吉拉尔迪G,蒙特萨诺M,桑多菲F,亚奇尼M,奥尔西GB。医疗获得性感染导致的住院时间过长:方法评估。意大利。2019;31:507-16。gydF4y2Ba
Rees EM, Nightingale ES, Jafari Y, Waterlow NR, Clifford S, Pearson CAB,等。COVID-19住院时间:系统综述和数据合成。BMC医学。2020;18:270。可以从:gydF4y2Bahttps://doi.org/10.1186/s12916-020-01726-3gydF4y2Ba.gydF4y2Ba
系统的、数据驱动的方法缩短住院时间,改善护理协调[互联网]。2018.可以从:gydF4y2Bahttps://www.healthcatalyst.com/success_stories/reducing-length-of-stay-memorial-hospital-at-gulfportgydF4y2Ba.2022年2月16日访问。gydF4y2Ba
Freeman WJ, Weiss AJ, Heslin KC.《2016年美国住院时间概况:各地理区域的变化》,2018。见:医疗保健成本和利用项目(HCUP)统计简报[互联网]。罗克维尔:卫生保健研究和质量局(美国);2006.统计短暂的# 246。gydF4y2Ba
Pickering BW, Dong Y, Ahmed A, Giri J, Kilickaya O, Gupta A,等。临床医师设计的、以人为中心的重症监护病房电子病历查看器的实施:一项先导式阶梯楔群随机试验。国际医学杂志。2015;84:299-307爱尔兰:爱思唯尔爱尔兰有限公司。gydF4y2Ba
Lingsma HF, Bottle A, Middleton S, Kievit J, Steyerberg EW, Marang-van de Mheen PJ。医院结果的评价:在一个大型国际管理数据库中住院时间、再入院和死亡率之间的关系。BMC Health service Res. 2018;18(1):116。可以从:gydF4y2Bahttps://doi.org/10.1186/s12913-018-2916-1gydF4y2Ba.gydF4y2Ba
Betancourt-Garcia MM, Vatcheva K, Gupta PK, Martinez RD, McCormick JB, Fisher-Hoch SP,等。西班牙裔对手术结果的影响:NSQIP数据库的分析。美国:Elsevier Inc.;gydF4y2Ba
王晓燕,王晓燕。成人心脏手术后ICU住院时间的影响因素分析。BMC Health Serv Res. 2016;16:318。可以从:gydF4y2Bahttps://doi.org/10.1186/s12913-016-1591-3gydF4y2Ba.gydF4y2Ba
Rosenthal MJ, Fajardo M, Gilmore S, Morley JE, Naliboff BD.老年人糖尿病住院与死亡率:一项3年前瞻性研究。糖尿病护理。1998;21:231-5。可以从:gydF4y2Bahttps://doi.org/10.2337/diacare.21.2.231gydF4y2Ba.gydF4y2Ba
Aro S, Kangas T, Reunanen A, Salinto M, Koivisto V.在糖尿病患者和一般人群中的医院使用。美国。1994;17:1320-9。gydF4y2Ba
波S, Ciccone G, Grassi G, Gancia R, Rosato R, Merletti F,等。2型糖尿病患者的住院率高于一般人群。美国。2004;57:1196 - 201。gydF4y2Ba
Carter EM, Potts HW。从电子病人记录系统预测住院时间:一个初级全膝关节置换术的例子。BMC Med Inform Decis Mak. 2014;14:26。可以从:gydF4y2Bahttps://doi.org/10.1186/1472-6947-14-26gydF4y2Ba.gydF4y2Ba
Comino EJ, Harris MF, Islam MD, Tran DT, Jalaludin B, Jorm L, Flack J, Haas M.糖尿病对45岁及以上普通人群住院和住院时间的影响:一项有记录的关联研究。BMC Health Serv Res. 2015;可以从:gydF4y2Bahttps://doi.org/10.1186/s12913-014-0666-2gydF4y2Ba.gydF4y2Ba
冯春霞,李林。缺血性心脏病患者住院时间的零膨胀和过弥散模型。收录:陈德光、陈杰、陆晓、易元元、余华,编辑。新加坡:新加坡施普林格;2016.35-53页。可以从:gydF4y2Bahttps://doi.org/10.1007/978-981-10-2594-5_3gydF4y2Ba.gydF4y2Ba
程思文,王春春,高颖。糖尿病相关并发症住院费用与住院时间。J Diabetes Res. 2019;2019:2363292。可以从:gydF4y2Bahttps://doi.org/10.1155/2019/2363292gydF4y2Ba.gydF4y2Ba
Donnan PT, Leese GP, Morris AD。Tayside SMUC的糖尿病审计与研究。1型和2型糖尿病患者与苏格兰泰赛德非糖尿病人群的住院率比较:一项资源使用的回顾性队列研究糖尿病护理,2000;23:1774-9美国。gydF4y2Ba
Priyadi A, Permana H, Muhtadi A, Sumiwi SA, Sinuraya RK, Suwantika AA。印度尼西亚2型糖尿病(T2DM)治疗肾病和周围血管疾病并发症患者的成本-效果分析医疗保健(巴塞尔)。2021; 9(2): 211。可以从:gydF4y2Bahttps://doi.org/10.3390/healthcare9020211gydF4y2Ba.gydF4y2Ba
字典SM。的长度。(无日期)(互联网)。2011.可以从:gydF4y2Bahttps://www.who.int/data/gho/indicatormetadata-registry/imr-details/2541gydF4y2Ba.2022年2月16日访问。gydF4y2Ba
Shaaban AN, Peleteiro B, Martins MRO。用于分析计数数据的统计模型:使用多级模型预测葡萄牙艾滋病毒患者的住院时间。BMC Health Serv Res. 2021;21:372。可以从:gydF4y2Bahttps://doi.org/10.1186/s12913-021-06389-1gydF4y2Ba.gydF4y2Ba
世界卫生组织。全球卫生观测站。探索健康数据的世界。住院短期治疗天数,天[互联网]。可以从:gydF4y2Bahttps://www.who.int/data/gho/indicator-metadata-registry/imr-details/2541gydF4y2Ba.2022年2月16日访问。gydF4y2Ba
Bert F, Kakaa O, Corradi A, Mascaro A, Roggero S, Corsi D, Scarmozzino A, Siliquini R.预测手术患者的住院时间和出院目的地:一项队列研究。《国际环境研究与公共卫生》,2020;17(24):9490。可以从:gydF4y2Bahttps://doi.org/10.3390/ijerph17249490gydF4y2Ba.gydF4y2Ba
Garrison SR, Schneider KE, Singh M, Pogodzinski J.术前物理治疗可缩短全膝关节置换术后的住院时间和出院处置:一项回顾性研究。康复医学临床通讯。2019;2:1000017。可以从:gydF4y2Bahttps://doi.org/10.2340/20030711-1000017gydF4y2Ba.gydF4y2Ba
Lim ATP。分析泰国南部死亡住院病人住院时间的方法。世界卫生杂志2009;1(1):27。可以从:gydF4y2Bahttps://doi.org/10.5539/gjhs.v1n1p27gydF4y2Ba.gydF4y2Ba
关于两个问题:重新考虑改革和卫生计量经济学中的两部分模型。荷兰。1998;17:247 - 81。gydF4y2Ba
曼宁工作组。对数因变量,异方差,和重变换问题。荷兰。1998;17:283 - 95。gydF4y2Ba
Gardner W, Mulvey EP, Shaw EC。计数和率的回归分析:泊松、过分散泊松和负二项模型。美国:美国心理学会。1995;118:392-404。gydF4y2Ba
O 'Hara RB, Kotze DJ。不要对计数数据进行对数转换。方法中华生物学报2010;可以从:gydF4y2Bahttps://doi.org/10.1111/j.2041-210X.2010.00021.xgydF4y2Ba.gydF4y2Ba
Martín-Fernández JA, Hron K, Templ M, Filzmoser P, Palarea-Albaladejo J.基于模型的成分数据舍入零替换:经典和鲁棒方法。计算统计与数据分析。2012;56:2688-704。可以从:gydF4y2Bahttps://www.sciencedirect.com/science/article/pii/S0167947312000941gydF4y2Ba.gydF4y2Ba
Bryk AS, Raudenbush SW, condon RT. HLM:用HLM2L和HLM3L程序进行分层线性和非线性建模。芝加哥:科学软件国际公司;1996.gydF4y2Ba
黄建清,Hooper PM, marry TJ。与疑似社区获得性肺炎住院时间相关的因素埃及。2006;13:317-24。gydF4y2Ba
Sroka CJ, Nagaraja HN。来自逻辑、几何、泊松和负二项回归模型的比值比。2018; 18:12 12。可以从:gydF4y2Bahttps://doi.org/10.1186/s12874-018-0568-9gydF4y2Ba.gydF4y2Ba
零膨胀泊松回归在制造缺陷中的应用。技术计量学。1992;34:1-14。可以从:gydF4y2Bahttps://www.tandfonline.com/doi/abs/10.1080/00401706.1992.10485228gydF4y2Ba.gydF4y2Ba
王晓燕,王晓燕,王晓燕。统计数据的回归分析,2013年第2版。计量学会专刊第53期。剑桥大学出版社;1998.gydF4y2Ba
Hilbe JM。建模计数数据[互联网]。剑桥:剑桥大学出版社;2014.可以从:gydF4y2Bahttps://www.cambridge.org/core/books/modeling-count-data/BFEB3985905CA70523D9F98DA8E64D08gydF4y2Ba.gydF4y2Ba
线性和广义线性模型的基础。威利;2015.gydF4y2Ba
格林W.泊松和负二项回归模型中多余零的占比和样本选择[互联网]。位于:伦纳德·n·斯特恩商学院,经济系。纽约大学;1994.gydF4y2Ba
斯莱门DJ, Ayala GX, Arredondo EM, Elder JP。一个模拟计数数据的演示与一个应用到身体活动。流行病学展望。2006;3:3。可以从:gydF4y2Bahttps://doi.org/10.1186/1742-5573-3-3gydF4y2Ba.gydF4y2Ba
李志华,韩刚,傅伟杰,朱利亚诺。超分散计数数据分析在男性人乳头瘤病毒感染(HIM)研究中的应用。论文感染。2012;140(6):1087 - 94。可以从:gydF4y2Bahttps://doi.org/10.1017/S095026881100166XgydF4y2Ba.gydF4y2Ba
Tüzen F, erbas, olmuh .不同程度异常值和零下计数数据模型的模拟研究。通讯统计-模拟与计算。2020;49:1078-88。可以从:gydF4y2Bahttps://doi.org/10.1080/03610918.2018.1498886gydF4y2Ba.gydF4y2Ba
Tlhaloganyang BP TK。在零通货膨胀的情况下,零膨胀的分配是强制性的吗?国际创新科学与技术。2020;5:1274-7。gydF4y2Ba
泊松SD。关于la的研究probabilité des judge en matière criminal elle et en matière civil, précédées des règles générales du calculator des probabilités。imprimeur - library pour les Mathématiques,巴黎:学士;1837.gydF4y2Ba
杨铮,哈丁JW,艾迪CL。过分散计数数据中零膨胀的分数检验。通讯统计理论与方法2010;39:2008-30。可以从:gydF4y2Bahttps://doi.org/10.1080/03610920902948228gydF4y2Ba.gydF4y2Ba
彼尔加·F·皮埃尔·德和阿波罗尼乌斯。杂文集歌剧数学。约翰内姆·佩赫。1679年。可以从:gydF4y2Bahttps://doi.org/10.5479/sil.128299.39088002705879gydF4y2Ba.gydF4y2Ba
Greenwood OR, Yule GU。多重事件的频率分布的性质探讨,特别是关于多重疾病发作或重复事故的发生。中华统计杂志1920;83:255-79。可以从:gydF4y2Bahttps://doi.org/10.1111/j.2397-2335.1920.tb00606.xgydF4y2Ba约翰威利父子有限公司gydF4y2Ba
Eggenberger F, Pólya G. über die统计verketteter Vorgange。zangew数学机械1923;3:279-89。gydF4y2Bahttps://doi.org/10.1002/zamm.19230030407gydF4y2Ba.gydF4y2Ba
何宏,唐伟,王伟。结构零与零膨胀模型。上海Arch精神病学。2014;26:236-42。gydF4y2Ba
Nelder JA, Wedderburn RWM。广义线性模型。中国科学(d辑:自然科学版)。可以从:gydF4y2Bahttps://doi.org/10.2307/2344614gydF4y2Ba.gydF4y2Ba
McCullagh PNJ。《广义线性模型》第二版。伦敦:查普曼和霍尔;1989.gydF4y2Ba
Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M,等。MIMIC-III,一个免费获取的重症监护数据库。英格兰。2016;3:160035。gydF4y2Ba
Johnson A, Pollard T, Mark R. MIMIC-III临床数据库演示(1.4版本)。2019.可以从:gydF4y2Bahttps://doi.org/10.13026/C2HM2QgydF4y2Ba.gydF4y2Ba
Goldberger AL, Amaral LAN, Glass L, Hausdorff JM, Ivanov PC, Mark RG,等。PhysioBank, PhysioToolkit和PhysioNet。美国心脏协会。2000;101:e215-20。可以从:gydF4y2Bahttps://doi.org/10.1161/01.CIR.101.23.e215gydF4y2Ba.gydF4y2Ba
恩德斯CK。最大似然估计。行为科学的统计百科全书。美国癌症协会;2005.gydF4y2Bahttps://doi.org/10.1002/0470013192.bsa200gydF4y2Ba.gydF4y2Ba
Beaujean AA, Grant MB.使用R.统计结果的回归模型教程,实用评估、研究和评价,第21卷,第2条。2016.可以从:gydF4y2Bahttps://doi.org/10.7275/pj8c-h254gydF4y2Ba.gydF4y2Ba
统计模型辨识的新认识。编辑:Parzen E, Tanabe K, Kitagawa G。赤井裕久论文选集。《统计学系列》1974。可以从:gydF4y2Bahttps://doi.org/10.1007/978-1-4612-1694-0_16gydF4y2Ba.gydF4y2Ba
估算模型的尺寸。安集权。1978;6(2):461 - 4。可以从:gydF4y2Bahttps://doi.org/10.1214/aos/1176344136gydF4y2Ba.gydF4y2Ba
张晓燕,李晓燕,李晓燕。统计数据回归模型的研究与应用。中国统计学报。2008;27(8):1-25。可以从:gydF4y2Bahttps://doi.org/10.18637/jss.v027.i08gydF4y2Ba.gydF4y2Ba
Nekesa F, Odhiambo C, Chaba L.零膨胀模型与HIV暴露婴儿数据的比较评估。开放J统计2019;9:664-85。可以从:gydF4y2Bahttps://doi.org/10.4236/ojs.2019.96043gydF4y2Ba.gydF4y2Ba
Minami M, Lennert-Cody CE,高W, Román-Verdesoto M.鲨鱼副捕获物建模:带平滑的零膨胀负二项回归模型。Fish Res. 2007; 84:210-21可从:(gydF4y2Bahttps://www.sciencedirect.com/science/article/pii/S0165783606003821gydF4y2Ba).gydF4y2Ba
萨法里SE,阿德南R,格林。泊松回归模型截断处理计数数据的过分散。计算机科学与计算数学学报,2011;1(1)。可以从:gydF4y2Bahttps://doi.org/10.20967/jcscm.2011.01.001gydF4y2Ba.gydF4y2Ba
样本容量与多元回归方程预测的准确性。Am Educ Res J. 1982; 7:91-104。可以从:gydF4y2Bahttps://doi.org/10.3102/10769986007002091gydF4y2Ba.gydF4y2Ba
唐伟,吕宁,陈涛,王伟,Gunzler DD,韩勇,等。零膨胀和过分散计数响应的参数模型和无分布模型的性能研究。英国:John Wiley & Sons, Ltd.gydF4y2Ba
Brewer MJ, Butler A, Cooksley SL. AIC、AICC和BIC在未观察到异质性下的相对表现。方法中国生物医学学报2016;可以从:gydF4y2Bahttps://doi.org/10.1111/2041-210X.12541gydF4y2Ba.gydF4y2Ba
Allison PD。《使用SAS®的逻辑回归:理论与应用》第二版,Cary, NC: SAS Institute Inc.;2012.gydF4y2Ba
2001-2006年伦敦哮喘住院时间:人口学、诊断和时间因素《公共科学图书馆•综合》。2011;6 (11):e27184。可以从:gydF4y2Bahttps://doi.org/10.1371/journal.pone.0027184gydF4y2Ba.gydF4y2Ba
Arora S, Kaur P, Panaich SS, Sagar H, Levine D.哮喘加重、住院时间和住院费用:来自全国住院患者样本的见解。过敏临床免疫杂志2015;135(2):AB241。gydF4y2Ba
Blumer A, Ehrenfeucht A, Haussler D, Warmuth MK.奥卡姆剃刀。Inf Process et 1987; 24:377-80。可以从:gydF4y2Bahttps://www.sciencedirect.com/science/article/pii/0020019087901141gydF4y2Ba.gydF4y2Ba
Al-Mahtot M, Barwise-Munro R, Wilson P, Turner S.住院入院特征的变化而不是入院儿童的变化——一项2000 - 2013年的全人口研究。中华儿科杂志2018;177(3):381-8。可以从:gydF4y2Bahttps://doi.org/10.1007/s00431-017-3064-zgydF4y2Ba.gydF4y2Ba
Turner S, Raja EA。开设短期儿科评估单元与短期住院入院趋势之间的关系。BMC运行状况服务Res. 2021;21(1):523。可以从:gydF4y2Bahttps://doi.org/10.1186/s12913-021-06541-xgydF4y2Ba.gydF4y2Ba
特鲁文格达姆,拉克什米,拉马鲁贾姆。利用cox -比例风险模型研究南印度三级医院COVID-19患者住院时间的影响因素。《普里姆护理社区卫生》,2021年。可以从:gydF4y2Bahttps://doi.org/10.1177/21501327211000231gydF4y2Ba.gydF4y2Ba
Brock GN, Barnes C, Ramirez JA, Myers J.在调查住院时间和达到临床稳定的时间时如何处理死亡率。中华医学杂志。2011;11:144。可以从:gydF4y2Bahttps://doi.org/10.1186/1471-2288-11-144gydF4y2Ba.gydF4y2Ba
Taylor SL, Sen S, Greenhalgh DG, Lawless M, Curri T, Palmieri TL。烧伤患者住院时间的竞争性风险分析。JAMA Surg. 2015; 150(5): 450 - 6。可以从:gydF4y2Bahttps://doi.org/10.1001/jamasurg.2014.3490gydF4y2Ba.gydF4y2Ba
陈伟,陈志强。用第一步分析预测重症监护住院时间。《卫生服务结果研究方法》,2006;6(3-4):127-38。可以从:gydF4y2Bahttps://doi.org/10.1007/s10742-006-0009-9gydF4y2Ba.gydF4y2Ba
Sotoodeh M, Ho JC。利用隐马尔可夫模型改进住院时间预测。AMIA Jt峰会2019;2019:425 - 34可从以下地点获得:(gydF4y2Bahttps://pubmed.ncbi.nlm.nih.gov/31258996gydF4y2Ba).gydF4y2Ba
谢辉,Chaussalet TJ, Millard PH.机构长期护理中老年人住院时间的连续时间马尔可夫模型。J R统计SocA。2005年,168(1):51 - 61。可以从:gydF4y2Bahttps://doi.org/10.1111/j.1467-985X.2004.00335.xgydF4y2Ba.gydF4y2Ba
齐格尔,梁凯。离散和连续结果的纵向数据分析。生物识别技术。1986;42(1):121 - 30。gydF4y2Ba
广义线性混合模型的伪似然方法。中华统计杂志1993;48:233-43。可以从:gydF4y2Bahttps://doi.org/10.1080/00949659308811554gydF4y2Ba.gydF4y2Ba
王晓燕,王晓燕。多水平模型的分区变化。能听懂Stat。2002;1:223-32。可以从:gydF4y2Bahttps://doi.org/10.1207/S15328031US0104_02gydF4y2Ba.gydF4y2Ba
确认gydF4y2Ba
不适用。gydF4y2Ba
资金gydF4y2Ba
一个也没有。gydF4y2Ba
作者信息gydF4y2Ba
作者和联系gydF4y2Ba
贡献gydF4y2Ba
研究思路与研究设计:KPV、GAF;统计分析GAF、KPV;解释:GAF千伏峰值;撰写手稿:GAF, KPV;审查/编辑稿件:千伏峰值。每位作者:提供智力内容;对稿件的准备和/或修改有重大贡献;并批准了手稿的最终版本。GAF对数据的完整性和数据分析的准确性负责。作者们阅读并批准了最终稿。gydF4y2Ba
相应的作者gydF4y2Ba
道德声明gydF4y2Ba
伦理批准和同意参与gydF4y2Ba
不适用。gydF4y2Ba
同意出版gydF4y2Ba
不适用。gydF4y2Ba
相互竞争的利益gydF4y2Ba
一个也没有。gydF4y2Ba
额外的信息gydF4y2Ba
出版商的注意gydF4y2Ba
188博金宝app网施普林格自然对出版的地图和机构附属的管辖权要求保持中立。gydF4y2Ba
权利和权限gydF4y2Ba
开放获取gydF4y2Ba本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.创作共用公共领域奉献放弃书(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文提供的数据,除非在数据的信用额度中另有说明。gydF4y2Ba
关于这篇文章gydF4y2Ba
引用这篇文章gydF4y2Ba
Fernandez, G.A, Vatcheva, k.p。统计方法建模计数数据与住院时间应用的比较。gydF4y2BaBMC医学治疗方法gydF4y2Ba22gydF4y2Ba211(2022)。https://doi.org/10.1186/s12874-022-01685-8gydF4y2Ba
收到了gydF4y2Ba:gydF4y2Ba
接受gydF4y2Ba:gydF4y2Ba
发表gydF4y2Ba:gydF4y2Ba
DOIgydF4y2Ba:gydF4y2Bahttps://doi.org/10.1186/s12874-022-01685-8gydF4y2Ba
关键字gydF4y2Ba
- 计数数据gydF4y2Ba
- 泊松回归gydF4y2Ba
- 负二项回归gydF4y2Ba
- Zero-inflated泊松回归gydF4y2Ba
- 零膨胀负二项回归gydF4y2Ba
- 模拟研究gydF4y2Ba