復旦大學公共衛生學院流行病學教研室(200032) 吳學福 劉振球 吳明山 方綺雯 袁黃波 張鐵軍
【提 要】 目的 探討處理零膨脹計數資料的幾種模型之間的比較及其應用。方法 在R語言中,分別用Poisson回歸、負二項回歸、零膨脹模型和hurdle模型來擬合66歲以上老年人醫療保健需求的數據,并通過似然比檢驗、Vuong檢驗和AIC、BIC的比較,對模型進行評估。結果 零膨脹負二項模型和負二項hurdle回歸模型對數據的擬合效果優于其他回歸模型,負二項hurdle模型的擬合結果與數據更接近,其擬合結果顯示老年人住院天數越長、患有慢性病數量越多、受教育年數越久、參加私人保險,其訪問醫療診所的次數越多,而自評健康狀況良好、男性的老年人醫療診所訪問的次數較少,即醫療保健需求的次數較少。結論 零膨脹負二項回歸模型和負二項hurdle模型處理零過多、過離散數據的效果優于一般的計數模型;而在零觀測值相對較少的情況下,用負二項hurdle模型可能更合適。
醫學研究中經常會遇到某事件發生次數的資料中含有大量的零,即許多觀察個體在單位時間、單位體積內未觀察到相應事件的發生[1]。這些資料零觀測值出現的概率遠遠超出相同條件下標準計數模型(如Poisson回歸和負二項回歸模型)能夠預期的范圍,使模型的方差遠大于期望,這種現象稱為零膨脹(zero-inflated)現象。零膨脹現象一直受到國內外學者的廣泛關注和研究,當計數資料中存在零膨脹現象時,如果繼續使用Poisson回歸或負二項回歸模型來擬合數據,所得結果可能失真。近年來,hurdle回歸模型和零膨脹回歸模型不斷發展,在醫學、金融、農業和社會科學等研究領域中得到廣泛應用,逐漸成為分析零膨脹數據的主流模型。
1.零膨脹回歸模型(zero-inflated model,ZIM)
零膨脹模型認為計數數據中的零觀測值來源于兩部分:一部分是來源于數據中存在某些特殊結構而產生的結構零;另一部分是來源于Poisson分布或負二項分布產生的抽樣零[2-3]。零膨脹模型可以看作是Bernoulli分布和離散型分布組成的混合分布,其概率密度函數的一般形式為:
(1)
其中πi(0≤πi<1)為零膨脹參數,表示結構零的概率,f(yi)服從某個離散型分布,如Poisson分布或負二項分布等。
(1)零膨脹泊松回歸模型(zero-inflated Poisson model,ZIP)
若(1)式中的f(yi)服從參數為μ的Poisson分布時, ZIP的公式為:
(2)
其中γ,β為待估計的模型回歸系數;x,z為協變量,二者可以相同也可以不同。
(2)零膨脹負二項回歸模型(zero-inflated negative binomial model,ZINB)
若(1)式中的f(yi)服從參數為μ和α的負二項分布時,ZINB的公式為:
(3)
其中γ,β為待估計的模型回歸系數;x,z為協變量,二者可以相同也可以不同。零膨脹模型中πi常用的連接函數為logit、probit函數。
2.hurdle回歸模型
hurdle模型認為數據中的零觀測值均來自于結構零,非零數據則是來自于不同的過程:第一個過程決定零事件發生還是非零事件發生的可能,發生取1,不發生取0,這個過程服從(0,1)分布,當第一個過程取0時則進入第二個過程,即事件至少發生一次的過程,該過程的非零數據服從零截斷Poisson或零截斷負二項分布等零截斷離散分布模型[4]。
根據以上原理hurdle模型的一般形式為:
i=1,2,…,N
(4)
式(4)中πi為事件數取0的概率;f′(Zi)表示零截斷離散型分布。
(1)Poisson-hurdle回歸模型(Poisson hurdle model,PH)
當(4)式中的f′(Zi)選擇零截斷Poisson分布時[5],PH的公式為:
i=1,2,…,N
(5)
(2)負二項hurdle回歸模型(negative binomial hurdle,NBH)
當(2)式中的f′(Zi)選擇零截斷負二項分布時[6],NBH的公式為:
i=1,2,…,N
(6)
hurdle模型中πi選擇不同連接函數(logit、probit、clog函數等)可得到不同的二分類回歸模型。
3.模型的評價指標
(1)似然比檢驗(LRT) 似然比檢驗是用來比較兩個嵌套關系模型(模型1嵌套于模型2)的擬合優度。在R語言中,可以通過lrtest()函數來實現。似然比檢驗統計量為:
LR=-2[LL2-LL1]
(7)


(8)

(3)AIC和BIC準則 當似然比檢驗和Vuong檢驗難以判斷模型優劣時,可以通過比較AIC和BIC統計量的相對大小來對模型優劣進行排名,信息準則值越小則模型越優[9]。
本研究數據來源于1987-1988年美國國家醫療費用調查(national medical expenditure survey,NMES)關于老年人(66歲以上)醫療費用支出的調查資料。該研究共納入了4406名醫保覆蓋的老年人,本文對其住院天數、健康狀況自評、慢性病數量、性別、受教育年數和是否參加私人健康保險進行分析,以醫療診所訪問次數作為老年人醫療保健需求的測量指標,探討老年人醫療保健需求的影響因素。
醫療診所訪問次數的取值分布如圖1所示。

圖1 醫療診所訪問次數的取值分布
圖1中,醫療診所訪問次數取值為0的比例為15.5%,運用R中的dispersiontest()函數對訪問次數資料進行過離散檢驗,檢驗統計量為11.509(P<0.05),提示數據存在零過多和過離散的現象,使用零膨脹或hurdle回歸模型處理數據優于Poisson回歸模型。
對零膨脹和hurdle回歸模型的兩個部分(零部分和非零部分)均選取住院天數、健康狀況自評、慢性病數量、性別、受教育年數和是否參加私人健康保險作為其協變量。分別用Poisson、負二項回歸(negative binomial,NB)、ZIP、ZINB、PH和NBH模型對老年人醫療健康需求數據進行擬合,并對嵌套關系模型進行似然比檢驗、非嵌套模型進行Vuong檢驗,檢驗結果如表1所示。

表1 各模型的似然比檢驗和Vuong檢驗結果
*:P<0.05;**:P<0.001
似然比檢驗和Vuong檢驗結果顯示,NB的擬合效果優于Poisson回歸;ZIP的擬合效果優于Poisson,但比NB差,以此類推。NBH雖然優于其他模型,但與ZINB比較的檢驗統計量V值小于1.96,不能區分二者的優劣程度。各回歸模型的參數估計結果及擬合指標AIC、BIC如表2所示。

表2 老年人醫療保健需求回歸模型參數估計結果
a:零膨脹的logit部分(零過程);*:P<0.05;**:P<0.001
表2中AIC、BIC的結果驗證了表2中ZINB和NBH優于Poisson、負二項回歸模型、ZIP和PH,并補充說明了NBH對本研究數據的擬合效果最好。
對于具有零膨脹現象的數據,使用Poisson和負二項回歸得到的結論可能過于樂觀。本研究數據在使用標準計數模型時發現住院天數、健康狀況自評、患慢性病的數量、性別、受教育年數、是否參加私人保險均與老年人訪問醫療診所次數的多少有關,而NBH模型卻發現自評健康狀況差和醫療診所的次數并無明顯聯系,實際上,醫療診所的訪問次數是需要根據醫生的建議來決定的。因此,NBH模型更加貼合實際情況。
零膨脹回歸模型和hurdle回歸模型均是處理零過多、過離散數據常用的兩個模型,但二者的主要區別在于對數據中零觀測值的處理:零膨脹回歸模型假設零數據來自兩個不同的總體(或兩種不同的分布),一部分是那些不可能發生某事件的個體,源于數據的特殊性,假定服從二項分布;另一部分就是那些有可能發生某事件的個體,但由于抽樣的存在而沒有觀察到事件的發生,這部分一般假定服從離散型分布。hurdle回歸模型是假設數據中的零部分和非零部分是完全分開的,零數據均服從二項分布,其余的非零計數數據則是服從零截斷的Poisson分布或負二項分布。零膨脹模型和hurdle模型在公共衛生、臨床和社會經濟等調查研究中都受到廣泛重視。有學者在對交通事故傷亡的影響因素研究中發現,零數據的比例為59.07%時,用PH回歸模型比NBH模型優[7]。而本研究中NBH回歸模型對數據的擬合效果更好的原因可能在于:數據中零觀測值相對較少,為15.5%,這對零觀測值只有一個來源并與非零計數截然分開的hurdle回歸模型更合適。
本文只討論了零膨脹和Hurdle模型在老年人醫療保健次數影響因素研究中的應用并進行比較,實際的調查研究中還存在許多零膨脹計數資料。在應用回歸模型進行數據擬合時,不僅要考慮數據的性質和分布,還要綜合考慮實際情況和專業性,從而選擇最優模型。