方梓涵,張煥明,朱家明
(安徽財經大學統計與應用數學學院,安徽 蚌埠 233000)
*通訊作者:張煥明(1973— ),男,湖北蘄春人,安徽財經大學統計與應用數學學院教授,博士.研究方向:宏觀經濟數量分析
回歸分析可用于評估預測變量對響應變量的預期效果.而Logistic回歸模型是根據單個或多個連續性或離散型變量來分析和預測離散型變量的多元分析方法.通過對Logistic回歸模型的預測、參數估計、回歸系數的統計推斷、模型的評價使我們對Logistic回歸模型有了更加深入的了解.同時,我們也看到了logistic在生物學、化學、物理學等多種交叉學科方面有廣闊的應用前景[1].
本文的所用數據集較大,表1僅是部分數據,具體的部分數據來源于網站http://archive.ics.uci.edu/ml/datasets/.

表1 數據來源
本文要建立癌癥預測的模型.表1的數據集是橫截面數據,而且其因變量(診斷結果)是二分類變量,自變量誘發癌癥的各種因素為連續變量.自變量和因變量之間存在較強的線性關系.鑒于logistic回歸分析的基本原理,在此嘗試運用該數據集建立logistic回歸模型對因變量進行預測.
以癌癥發病情況為例,通過logistic回歸分析,可以得到自變量的權重,從而可以大致了解哪些因素是乳腺癌的危險因素.首先,我們利用SPSS對數據集中的各種因素進行相關系數分析,其結果如表2所示:

表2 相關系數表
以result為因變量,以其他變量為自變量,采取依據似然比——向前引入變量法,建立Logistic回歸模型,得到的結果如表3所示:

表3 模型摘要
a. 估計在疊代號 8 處終止,因為參數估計的變更小于 .001.
由模型的擬合優度檢驗表中的數據分析(表3)可以看出,模型的Nagelkerke R Square 值在0.9以上,Cox Snell R Square 值也將近0.7,說明模型的擬合優度有良好的效果.

表4 分類表a
a. 分割值為 .500
利用以上模型對原數據集進行診斷預測,由表4可以看出,其正確率為97.1%,預測效果良好.

表5 方程式中的變數
a. 步驟 6 上輸入的變數:[%1:, 6:
最終的模型結果如表6所示,模型為:

0.338*adhesion+0.379*baren+0.471*chromatin+0.243*norn

為了更好地研究各種因素對癌癥的影響.當模型滿足假設條件時,先由SPSS的回歸結果選取主成分作為解釋變量進行Logistic回歸預測分析.其次利用Wald檢驗計算出Wald統計量判斷自變量是否會對結果產生影響[2].
用最大似然估計法進行參數估計:
在本數據集中,由SPSS的回歸結果可知,shape,clt, adhesion,chromatin,norn, baren對result影響較大,故選取這6個變量作為解釋變量,將它們分別命名為X1,X2,X3,X4,X5,X6,用y表示result,則反應結果可以用有條件的均值E(yX)來表示:
E(y|X)=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6
π(X)=
則:

對于y=π(X)+ε,當y=0時,ε=π(X);當y=1時,ε=1-π(X).ε分布的平均值為π(X)1-π(X).對于觀測值(Xi,yi),得到一組觀測值的概率:
P(yi)=π(Xi)yi1-π(Xi))1-yi
記β=(β0,β1,β2,β3,β4,β5,β6)其似然函數為:


表6 方程式中的變數
a. 步驟 6 上輸入的變數:[%1:, 6:
其對數似然函數為:

稱為對數似然函數,為了顧及能使lnL(θ)最大的總體參數β0,β1,β2,β3,β4,β5和β6值,先分別對它們求偏導數,然后令其等于0.
從而得出表6擬合結果:

當模型滿足假設條件時,我們可以由樣本的結果對總體參數進行統計推斷,我們將其定義為假設檢驗和參數估計.我們主要討論在Logistic回歸模型中自變量Xk對Logistic作用的顯著性檢驗.模型估計完成后,需要評價模型是否有效地描述反應變量及模型匹配觀測數據的程度.擬合優度(Goodness of Fit)是指回歸直線對觀測值的擬合程度,度量擬合優度的統計量是可決系數(亦稱確定系數)R2,通過R2的值來判斷模型擬合程度的優劣[3].
假設原假設H0為:βk=0表示自變量Xk對時間發生可能性無影響作用.我們需要選擇一個顯著性水平?,一般情況下常取0.05.如果原假設被拒絕,說明事件發生的可能性依賴于Xk的變化.對于規模很大的樣本,檢驗其總體系數是否為0可以采用Z統計量:



在原假設條件下,如果每一個回歸系數都等于0,那么這個單變量Wald統計量為自由度為1的χ2分布.在自由度為1的條件下,?=0.05的χ2臨界值為3.841,所以當Wald在?=0.05的χ2值大于3.841于是就拒絕原假設H0:βk=0
Wald統計量的一般形式為:
Qβ=r
定義本題的Wald統計量為:
其中,W為χ2分布其自由度為約束的數目(即Q中的行數).
我們得到Wald檢驗統計量:

W=4.547>3.841,同理算出βk對應的W值,均是大于3.841,這樣拒絕原假設,說明自變量對結果有影響,即回歸系數對模型是顯著的[4].
皮爾遜χ2是用來通過比較模型預測和觀測的事件發生和不發生的頻數檢驗模型成立的假設.通過表7我們可以看出改善后的χ2統計量為5.422,p值為0.02,拒絕原假設,即模型的回歸系數是顯著的,自變量對結果有影響.

表7 逐步摘要a,b
a. 無法在現行模型中刪除或新增任何更多變數。
b. 結束區塊:1
從表6和表7的數據可以得出χ2統計量是大于臨界值3.841的,故該Logistic預測模型是合理有效的.
本文巧妙地利用SPSS簡單對該699個數據集建立模型,并對參數做了最大似然估計,發現與建立的模型基本一致;之后對模型做了回歸系數的顯著性檢驗,結果是拒絕不顯著的原假設,即回歸系數對模型是有顯著影響的[5].最后給出皮爾遜χ2統計量來驗證模型的擬合優度,結果表明模型是合理的.
參考文獻:
[1]賈俊平,郝靜.統計學案例與分析[M].北京:中國人民大學出版社,2010.
[2]尹建杰.Logistic回歸模型分析綜述及應用研究[D].哈爾濱:黑龍江大學碩士學位論文,2011.
[3]張婷婷. Logistic回歸及其相關方法在個人信用評分中的應用[D].太原:太原理工大學碩士學位論文,2017.
[4]許汝福.Logistic回歸變量篩選及回歸方法選擇實例分析[J].中國循證醫學雜志,2016,(11):1360-1364.
[5]胡桂華,武潔.人口普查質量評估中Logistic回歸模型的應用[J].數量經濟技術經濟研究,2015,(4):106-122.