曾 平 趙晉芳 劉桂芬
Poisson回歸中過度離散的檢驗方法*
曾 平1△趙晉芳2劉桂芬2
在數理統計中,Poisson分布有著悠久的歷史,最早可追溯到1838年。對當時廣泛研究的二項分布,在事件的發生概率p很小、試驗次數n很大的情況下,法國數學家Poisson〔1〕推導出了二項分布的極限分布,為了紀念他而稱為Poisson分布。其早期一個著名的應用例子是Bortkiewicz(1898)觀察到普魯士的騎兵部隊中每年被馬踢死的士兵數服從Poisson分布〔2〕。Poisson回歸也被Ernst(1863)用來計算血紅細胞的數目〔3〕,此后Poisson回歸在農業、生物醫學和人口學等方面得到廣泛應用,已經成為計數資料的基本統計模型。Poisson回歸在應用中需要滿足一個十分重要的假設:事件的條件均值等于條件方差,稱為等離散(equal-dispersion)。然而計數資料常表現為事件的方差大于均值,從而使得計數數據存現出比Poisson分布下名義方差更大的變異。事件的條件方差超過條件均數稱為過度離散(over-dispersion)。對過度離散的計數資料,Poisson回歸常常低估參數估計值的標準誤,導致出現較大的統計量,從而增大Ⅰ類錯誤,夸大解釋變量效應。因此對計數資料過度離散的識別和檢驗就具有重要的意義,這是正確應用Poisson回歸的前提之一。
過度離散檢驗(overdispersion test)有基于殘差和樣本均數方差等多種不同的檢驗方法,本文主要介紹其中幾種方法。
O檢驗由B?ning提出,O統計量的計算為〔4〕:

式中n為總觀察單位數,s2、ˉ分別為事件數的方差和均數,在均數和方差相等的條件下統計量O近似服從正態分布。
在滿足Poisson回歸條件方差和均數相等的前提下,Cameron和Trivedi構造如下的回歸方程〔5〕:
*江蘇省教育廳高校哲學社會科學研究基金資助(2010SJB790037)1.徐州醫學院流行病與衛生統計教研室(221002)
2.山西醫科大學公共衛生學院(030001)
△通訊作者:曾平,E-mail:zengpingsanxing@163.com

或者,Cameron和Trivedi建議構造另外一個回歸方程〔6〕,如下:

即以((yi-)2-)為應變量,為自變量建立不包含常數項的最小二乘回歸方程,在均數和方差相等的條件下,對λ=0的檢驗等價于過度離散檢驗。
在Poisson回歸條件方差和均數相等的前提下,Dean 和 Lawless提出如下的得分檢驗〔7〕(score test),統計量T為

在均數和方差相等的條件下T統計量服從標準正態分布。
Greene(2002)介紹了一種基于負二項模型的過度離散檢驗方法,稱為拉格朗日乘數檢驗(lagrange multiplier test,LM)〔8〕。由于 Poisson 回歸可以通過約束負二項模型的參數而得到,所以能夠建立拉格朗日乘數檢驗。統計量為:

此處的權重wi取決于所假定的另一種分布,在負二項分布中,wi=1,因此當假定Poisson回歸通過約束負二項模型的參數而得到時,拉格朗日乘數檢驗統計量又可以表示為:

為研究影響重癥患者住院期間呼吸機使用次數的因素,收集了某醫科大學附屬醫院重癥監護室2006年1~6月間140例病例在10天內呼吸機使用次數的資料,使用呼吸機患者的一般情況和臨床指標(見表1和表 2)。呼吸機平均使用次數為 5.44,方差為33.80,遠遠大于平均使用次數,這暗示重癥患者住院期間呼吸機使用次數的變異較大。

表1 呼吸機使用次數數據連續指標統計描述

表2 呼吸機使用次數數據分類指標統計描述

表3 呼吸機使用次數的過度離散檢驗
經過度離散檢驗,都拒絕呼吸機使用次數數據不存在過度離散的零假設,表明呼吸機使用次數確實存在較大的變異,此時對于Poisson回歸的應用要慎重。對本資料的詳細統計分析我們將另文給出。
針對計數資料中Poisson回歸遇到的過度離散問題,文中介紹了一系列的檢驗方法,它們都充分利用了Poisson分布均數和方差相等的性質。對幾種方法的對比分析,我們認為O檢驗只涉及到樣本均數、方差和例數,從公式可見即使方差和均數相差甚微,只要例數足夠大,也有可能得到一個較大的O值,得到有統計學意義的結果,可見其只利用了數據的若干概況性統計量,然而應該檢驗的是事件數的條件分布,而非簡單的對事件數直接進行檢驗。所以基于以上的原因,在實際應用中我們不推薦使用O檢驗。基于Poisson回歸的參差檢驗、得分檢驗和拉格朗日乘數檢驗利用了整個數據,顯然比O檢驗更多地利用了信息,這幾個檢驗方法需要首先進行Poisson回歸,預測事件數,但無需建立更為復雜的計數統計模型。LM檢驗則需要模擬負二項回歸。當計數資料存在過度離散時,應用者可以選擇的策略包括對Poisson回歸本身進行適當的校正或者選擇其他能夠容納更大變異的計數模型,如負二項回歸〔1〕。本文對患者呼吸機使用天數的幾種過度離散檢驗結果一致,然而當不同過度離散檢驗結果并不一致時又該如何選擇模型呢?我們建議首先將Poisson回歸作為一種探索性的分析方法,結合上述的幾種過度離散假設檢驗法和Poisson回歸的Deviance和Pearsonχ2統計量,以及負二項回歸中離散參數的似然比檢驗等確定最終分析方案。
計數資料的過度離散來源可能是多方面的,如模型中尚有沒能包含的重要解釋變量,或個體事件的發生存在相關性或聚集性,或存在異常影響點,或模型本身指定有誤,或者來源于數據中存在的過多零計數等等。但對橫斷面資料幾乎不可能明確知道過度離散的來源。再則,過度離散作為一種現象只是相對具體的分布而言,相對Poisson分布過度離散的資料并不表示在負二項分布中也一定存在過度離散。因此對計數資料需要仔細觀察和考慮數據可能存在的各種特殊結構,以選擇合適的模型。
1.Cameron AC,Trivedi P.Regression Analysis of Count Data.Oxford University Press,1998.
2.Lussenhop J.Victor Hensen and the development of sampling methods in ecology.Journal of the History of Biology,1974,7:319-337.
3.Winkelmann R.Econometric analysis of Count date.fifth edition.Berlin:Springer-Verlag,2008.
4.B?ning D.A note on test for Poisson overd is persion.Biometrika,81:418-419.
5.Cameron AC,Pravin KT.Econometric models based on countdata:Comparisons and applicationsof some estimators and tests.Journal of Applied Econometrics,1986,1:29-53.
6.Colin CA,Trivedi PK.Regression-based tests for overdispersion in poisson models.Journal of The American Statistical Association,1990,46:347-264.
7.Dean C,Law less JF.Tests for detecting overdispersion in Poisson regression models.Journal of the American Statistical Association,1989,84:467-472.
8.Greene W.Econometric Analysis.Prentice Hall,2002.