張登峰,張志明
(1.陜西咸陽彩虹學(xué)校,陜西 咸陽 712046;
2.云南師范大學(xué)數(shù)學(xué)學(xué)院,云南 昆明 650500)
Poisson回歸模型的影響分析*
張登峰1,張志明2
(1.陜西咸陽彩虹學(xué)校,陜西咸陽712046;
2.云南師范大學(xué)數(shù)學(xué)學(xué)院,云南昆明650500)
文章對經(jīng)典的Poisson回歸模型,進(jìn)行了參數(shù)估計和參數(shù)檢驗,并對模型進(jìn)行了統(tǒng)計診斷,做出診斷圖,判斷出強(qiáng)影響點,并利用帽子矩陣分解原理及數(shù)理統(tǒng)計原理,探索挖掘出新的診斷圖來判斷強(qiáng)影響點,最后通過實證分析表明所研究的是有用和有效的.
Poisson回歸模型;強(qiáng)影響點;帽子矩陣;診斷圖
近年來,國內(nèi)外對Poisson回歸模型的研究趨勢一直在上升,對該模型的統(tǒng)計診斷的研究也有了一定的成熟理論.Poisson回歸模型的統(tǒng)計診斷主要是在線性模型的診斷基礎(chǔ)上發(fā)展和提出的.Cook(1977)[1]提出了一系列的線性回歸模型的診斷方法,其中最為著名的是Cook(1979)[2]統(tǒng)計量.此后,許多學(xué)者直接將Cook的診斷思想移入非線性模型中,并取得良好效果.Cook和Weisberg(1980)[3]提出一種泛型的經(jīng)驗影響函數(shù),這個函數(shù)至少理論上能達(dá)到尋找強(qiáng)影響點目的,但很難實施,運(yùn)算量過大,且效果不太好.Pregibon(1981)[4]在線性模型的基礎(chǔ)上,利用擾動原理探究強(qiáng)影響點,對Logistic做了系統(tǒng)的統(tǒng)計診斷;不僅如此,Landwehr和Pregibon等(1984)[5]還提出了一系列有價值的診斷統(tǒng)計圖,如指標(biāo)圖、杠桿值對Pearson殘差圖,刪除數(shù)據(jù)的系數(shù)影響圖等,使強(qiáng)影響點達(dá)到可視化的效果.Cook(1986)[6]提出通過給模型增加擾動來研究局部影響的方法,Thomas和Cook(1989)[7]研究了廣義線性模型的局部影響分析方法.韋博成,林金官等人(2009)[8]討論了廣義線性模型的回歸診斷.謝書培,韓俊林(2011)[9]對Logistic回歸模型進(jìn)行了局部影響分析.近年來,對Poisson回歸模型的診斷研究相對較少.施紅星(2009)[10]通過局部影響分析對Poisson回歸模型進(jìn)行了診斷與分析.Zakariya Y.Algamal(2012)[11]對Poisson回歸模型進(jìn)行了統(tǒng)計診斷,給出一種尋找強(qiáng)影響點的方法.筆者利用診斷統(tǒng)計量,做出診斷圖,判斷出強(qiáng)影響點,并利用帽子矩陣分解原理及數(shù)理方法給出尋找強(qiáng)影響點的又一種方法.
先考慮Poisson回歸模型:

其中(yi,χTi)表示第i組數(shù)據(jù)點,XTi=(1,χi1,χi2,…,χip),β=(β0,β1,…,βp)T為待估參數(shù),稱式(1)為Poisson回歸模型.
則對數(shù)似然函數(shù)為

對式(2)關(guān)于βl(l=0,1,2,…,p)求導(dǎo),得

(3)、(4)式用矩陣表示為

由高斯-牛頓迭代理論,綜合(5)、(6)式得到高斯-牛頓迭代式為:

選取適當(dāng)?shù)某踔担?jīng)過一定次的迭代,直至迭代收斂,則有

2.1殘差統(tǒng)計量
在Poisson回歸模型中,如果第k個數(shù)據(jù)點被刪除,為了說明參數(shù)估計值的變化量,這里給出兩個診斷統(tǒng)計量:Pearsonχ2統(tǒng)計量和Deviance殘差[11].
利用上文的記號,有統(tǒng)計量:

其服從χ2分布,自由度為n-p-1,于是稱式(9)為該模型的Pearsonχ2統(tǒng)計量,

Poisson回歸模型擬合好壞用偏差統(tǒng)計量(deviance)表示,它是飽和模型(saturated model)和擬合模型對數(shù)似然值差的兩倍,其在Poisson分布條件下的計算公式為:


2.2模型的帽子矩陣及分解定理性模型的帽子矩陣,從而式(11)具有線性模型帽子矩陣的所有性質(zhì),其中H的主對角線上的元素hjj,j=1,2,…,n為Poisson回歸模型的杠桿值.
引理 設(shè)H=X(XTX)-1XT是線性回歸模型的帽子矩陣,若已知設(shè)計陣X可以按列分解為X=(X1;X2),則H(X)=H(X1)+H(M(X1)X2),其中M(X1)=I-H(X1).
證明參見文獻(xiàn)[12].

2.3Poisson回歸模型的影響分析
這里考慮當(dāng)數(shù)據(jù)點發(fā)生擾動時,模型參數(shù)估計會發(fā)生什么變化.先定義

這里,0≤w≤1,i=1,2,…,n,式(16)中的w稱為第j個數(shù)據(jù)點對模型的擾動系數(shù).設(shè)I(w)=diag(1,…,w,…,1),當(dāng)w=1時,I(w)是單位陣.
由此,Poisson回歸模型的正則方程修正為:XTI(w)Z=0,由高斯-牛頓迭代理論得,當(dāng)?shù)趈個數(shù)據(jù)點發(fā)生擾動時,該模型參數(shù)估計為:

當(dāng)數(shù)據(jù)點沒有發(fā)生任何擾動時,模型的參數(shù)估計是

于是,

式(14)的證明參見文獻(xiàn)[4].式(13)、(14)均可以求出當(dāng)?shù)趈個數(shù)據(jù)點發(fā)生擾動時模型的參數(shù)估計,特別

由此得到Cook統(tǒng)計量

稱(16)式為Poisson回歸模型的Cook統(tǒng)計量.同時還得到數(shù)據(jù)刪除后對擬合值影響的兩個統(tǒng)計量:

式(16)、(17)、(18)為Poisson回歸模型的三個主要統(tǒng)計量.在實際應(yīng)用中通常是將這三個統(tǒng)計量作診斷圖,從圖中判斷第j個數(shù)據(jù)點對模型的影響大小,然后建立比較分析表,從而找出Poisson回歸模型的強(qiáng)影響點.
2.4診斷強(qiáng)影響點的系統(tǒng)方法
2.4.1Poisson回歸模型的診斷圖


2.4.2Poisson回歸模型的強(qiáng)影響點診斷步驟
1)通過R軟件對數(shù)據(jù)擬合Poisson回歸模型;


4)將初步判定的強(qiáng)影響點刪除,對模型進(jìn)行新的估計,建立比較分析表,最終判定模型的強(qiáng)影響點.
下列數(shù)據(jù)為某醫(yī)院在非氣質(zhì)性心臟病并且僅有胸悶癥狀的就診者中隨機(jī)收集30個患者在24小時中的早搏數(shù)y,研究早搏與吸煙χ1、喝咖啡χ2和性別χ3的關(guān)系.其中y表示24小時內(nèi)的早搏數(shù),χ1=1表示吸煙,χ1=0表示從不吸煙;χ2=1表示喜歡喝咖啡,χ2=0表示不喜歡喝咖啡;χ3=1表示男性,χ3=0表示女性.對Poisson回歸模型進(jìn)行參數(shù)估計得表1:

表1 模型的參數(shù)估計Tab.1 Parameter estimation of the model


圖1 △的指標(biāo)圖Fig.1 The index chart of△?

圖2 △χ2的指標(biāo)圖Fig.2 The index chart of△χ2

圖3 △D的指標(biāo)圖Fig.3 The index chart of△D

圖4 △對的散點圖Fig.4 Scatter plot between△and

圖5 △χ2對的散點圖Fig.5 Scatter plot between△χ2and

圖6 △D對的散點圖Fig.6 Scatter plot between△D and

圖7 △對hjj的散點圖Fig.7 Scatter plot between△and hjj

圖8 △χ2對hjj的散點圖Fig.8 Scatter plot between△χ2and hjj

圖9 △D對hjj的散點圖Fig.9 Scatter plot between△D and hjj

圖10 γ2j/χ2對hjj的散點圖Fig.10 Scatter plot betweenγ2j/χ2/χ2 and hjj

表2 Poisson回歸模型的影響分析表Tab.2 Impact analysis table for Poisson Regression Mode
[1]Cook R D.Detection of influential observation in linear regression [J].Technometrics,1977,19:15-18.
[2]Cook R D.Influential observation in linear regression[J].Journal of the American Statistical Association,1979,74:169-174.
[3]Cook R D,Weisberg S.Characterizations of an empirical influence function for detecting influential cases in regression[J].Technometrics,1980,22:495-508.
[4]Pregibon D.Logistic regression diagnostic[J].The Annals of Statistics,1981,9(4):705-724.
[5]Landwehr J M,Pregibon D,Shoemaker A C.Graphical methods for assessing logistic regression models[J].Journal of the American Statistical Association,1984,79(385):61-71.
[6]Cook R D.Assessment of local influence[J].Journal of the American Statistical Association,1986,48:133-169.
[7]Thomas W,Cook R D.Assessing influence regression coefficients in generalized linear models.Biometrika,1989,76:741-749.
[8]韋博成,林金官,解鋒昌.統(tǒng)計診斷[M].北京:高等教育出版社,2009:169-194.
[9]謝書培,韓俊林.Logistic回歸模型的統(tǒng)計診斷與實例分析[J].聊城大學(xué)學(xué)報,2011,24(1):27-31.
[10]施紅星.Poisson回歸模型的統(tǒng)計診斷與影響分析[J].云南師范大學(xué)學(xué)報:自然科學(xué)版,2009,29(5):34-39.
[11]Zakariya Y.Algama.Diagnostic in Poisson regression models [J].Electronic Journal of Applied Statistical Analysis,2012,5(2):178-186.
[12]Rao C R,Toutenburg H.Linear Model and Generalizations[M]. Berlin:Springer,2008(19):322-324.
[13]茆詩松.統(tǒng)計手冊[M].北京:科學(xué)出版社,2003:521-541.
[14]譚宏衛(wèi),曾捷.Logistic回歸模型的影響分析[J].數(shù)理統(tǒng)計與管理,2013,32(3):476-485.
[15]肖枝洪,朱強(qiáng).統(tǒng)計模擬及其R實現(xiàn)[M].武漢:武漢大學(xué)出版社,2010:80-98.
[責(zé)任編輯 蘇 琴]
[責(zé)任校對 方麗菁]
Explore Strong Influential Points and Example Analysis for Poisson Regression Model
ZHANG Deng-feng1,ZHANG Zhi-ming2
(1.Shanχi Xianyang Rainbow School,Xianyang712046,China;
2.Yunnan Normal University,College of Mathematics,Kunming650500,China)
In this paper,based on introductions of the definition,parameter estimation of the classical Poisson regression model,this paper mainly researches on the Statistical diagnosis models by constructing the diagnosis statistics,and diagnosis index figure to look for strong influential points,and using the hat matrix decomposition principle and mathematical statistics principle to explore new effective diagnostic indicator diagram to determine strong influential points.At last,through the empirical analysis shows that the study is useful and effective.
the Poisson regression model,strong influential points,the hat matrix,diagnosis figure
O212.1
A
1673-8462(2015)01-0056-06
2014-04-27.
春暉計劃(Z2009-1-65002).
張登峰(1989-),男,山西運(yùn)城人,碩士研究生,陜西咸陽彩虹學(xué)校教師,研究方向:數(shù)理統(tǒng)計.