姜阿麗
(云南財經大學 云南 昆明 650000)
Logistic回歸模型原理介紹及實例分析
姜阿麗
(云南財經大學 云南 昆明 650000)
我們知道,在日常處理的回歸模型中,大多數都屬于線性回歸模型,然而有一些研究的問題中,其因變量是二分類變量,此時我們則需要用到logistic模型,本篇文章我們主要來介紹Logistic模型的原理以及其優缺點,并研究其適用的范圍,然后我們利用高校就業去向的例子來加深對模型的理解,并根據模型的結果進行分析。
logistic模型;實例分析
(一)Logistic回歸模型原理
在我們的日常處理的回歸模型中,大多數都屬于線性回歸模型,他們可以用線性表達式進行表達,y=βTx+b,但是,有些時候,我們接觸的問題,它們的因變量為二分類變量,即因變量是非連續變量,這個時候我們就需要對模型進行一些簡單的調整與變換,此時就要引出另一個概念:logistic回歸模型。
logistic回歸是通過函數Ln將因變量y來對應一個概率p,然后將其結果間接轉化成一個連續變量。比如我們研究一些現象,其發生的概率為p,很明顯它為概率值,有[0,1]的取值范圍,我們就會很難去用線性模型描述概率p與自變量的關系,因此我們需要利用Logit變換來進行處理,我們通常的把出現某種結果的概率與不出現的概率之比作為比值,然后再把取值進行取對數處理,變換如下:
其中當p從0→1時,Logit(p)從-∞→+∞,另外從函數的變形可得如下等價的公式:

此時我們稱滿足上面條件的回歸方程為Logistic線性回歸。
(二)Logistic模型優缺點
對于logistic模型,我們也說到它可以解決一些普通線性回歸模型解決不了的問題,存在一定的優點,例如:模型不需要樣本數據作嚴格的假設條件并且可以對每個變量進行顯著性檢驗,另外,logistic模型對于用來判別二分類變量問題有良好的效果,且使用該模型還可以顯著降低犯第一類錯誤的概率。但是
Logistic模型也有一定的缺點,例如:它在采用極大似然法進行參數估計時要求樣本的數量要足夠,并且對中間區域判別敏感性較強,導致判別結果不穩定。而且當概率接近1或者0的時候還會出現低估的現象,因此我們仍然需要繼續研究新的方法來對模型進行改進。
我們對本科畢業生的去向做了一個調查,調查了40個學生,分析影響畢業去向的相關因素,我們自變量主要四個,分別為x1為專業課成績,x2為英語成績,x3為性別,x4為月生活費(單位:元),其中性別取值“1”=男生,“0”=女生。因變量為畢業去向,取值分別為0和1,“1”=工作,“0”=繼續深造,
對于這種因變量為二分類變量的情況,我們選擇用logistic回歸來進行擬合,分析影響畢業去向的因素。
我們利用R3.3.3軟件來建立logistic模型,因為我們的被解釋變量為二分類變量,因此我們需要首先將其轉化為因子,然后模型1中我們加入所有的解釋變量來檢驗各解釋變量的顯著性,回歸系數的顯著性檢驗我們選用的統計量為Z統計量,結果顯示:變量x1、x2、x3、x4檢驗的p值分別為0.01105、0.10839、0.95211、0.04368,因此可以看出在顯著性水平α=0.05的水平下,解釋變量x2、x3檢驗的結果是不顯著的,因此我們選擇將其剔除,重新對模型進行擬合,擬合結果如下表所示:

表1 回歸系數
我們從表1可以看出,刪除解釋變量x2、x3之后,解釋變量x1、x4檢驗的p值分別為0.01062、0.12592,在顯著性水平α=0.05的條件下,勉強通過檢驗,我們又計算了比較全模型與剔除變量x2、x3后的模型的AIC值,分別為48.444、46.448,發現,剔除變量之后的模型較優,下面我們根據擬合結果寫出模型表達式:
所謂模型過散布,它是指觀測到的響應變量的方差大于期望的二項分布的方差。過散布將會導致奇異的標準誤檢驗以及不精準的顯著性檢驗,檢驗過散布的一種方法是比較二項分布模型的殘差偏差與殘差自由度,即:
我們擬合出的模型進行過散布檢驗,發現在指定參數為family和binomial時,我們可以看到默認的散布系數φ為1,檢驗結果看出其φ的估計值明顯小于1,因此我們能判定該模型沒有出現過散布的情況。
因此對于被解釋變量為二分類變量,我們不能用到傳統的回歸模型解決時,我們可以選擇logistic回歸模型進行擬合,并且使用logistic模型預測還能夠降低犯第一類錯誤的概率。我們利用logistic模型進行實例分析結果可以看出,影響畢業去向的主要因素為專業課成績以及每月生活費的數量,且一個人專業課成績每增加一分,則就業與繼續深造的比值變為原來的exp(-0.106222)倍,約為0.899倍,說明了專業課成績越好的人就業的可能性越小,繼續深造的可能性越大。另外一個人每月的生活費每增加一分,則就業與繼續深造的比值變為原來的exp(-0.003988)倍,約為0.996倍,說明了每月生活費越多的人就業的可能性越小,繼續深造的可能性越大。
[1]劉小秦,林元,楊冬華,晁麗麗,李娟生.兩水平logistic回歸模型在高血壓患病影響因素分析中的應用[J].中國衛生統計,2013,673-675.
[2]賈鵬芳.高職會計專業就業影響因素分析——基于Logistic回歸的研究[J].價值工程,2015,228-230.
姜阿麗(1996-),女,漢族,安徽阜陽人,碩士研究生,云南財經大學,統計與數學學院學院,應用統計專業。