金澳



【摘要】本文由線性回歸的局限性出發,引出Logistic回歸模型,介紹其重要意義。再通過與線性回歸模型的比對,研究了Logistic模型的理論推導過程,介紹了模型中的連接函數和發生比。最后簡單介紹了Logistic回歸模型在實際生活中的具體應用和廣闊的應用前景。
【關鍵詞】Logistic回歸;廣義線性回歸;發生比
一、引言
在回歸模型的實際應用中,因變量在常規的選為連續變量情況以外,也可以選為分類變量,比如:日常生活中顧客對于某種商品是否選擇購買;病人在服用某種藥物后是否有效果;個人在使用信用卡后是否按時還款。此時我們可以選擇分類變量來代替數值型變量,但同時目前應用最廣泛的統計方法——線性回歸模型也已不再適用。
在處理分類變量形式的因變量時需要對線性模型有所改變,通常使用對數線性模型。分類型因變量為特殊的二分類,并且選取特定的連接函數時,此時即為Logistic回歸模型。
在線性回歸模型中,對于自變量的變量類型和其值域是沒有限制的。但是線性回歸模型中的因變量必須為連續的。而在實際研究中,線性回歸的因變量為連續測量的假設往往不能接受,特別的當因變量為分類值時會與假設發生矛盾。Logistic回歸模型就是完善線性回歸對于因變量類型限制的不足。
二、線性回歸模型的局限
1.Gauss一Markov假設
在應用線性回歸模型y=α+βX+ε進行理論推導和實際數據擬合時是有前提和假設的——其稱為Gauss-Markov假設,具體定義如下:
(1)自變量對因變量有顯著的線性影響;
(2)誤差項作為隨機變量,其期望值為0;
(3)方差齊性即所有隨扒誤差項具有相同的、為常數的方差;
(4)不同的隨機誤差之間彼此不相關;
(5)自變量與誤差項之間相互獨立;
(6)自變量之間不存在(完全的)線性關系。
上述假設在線性回歸模型的參數估計、檢驗,模型的擬合優度評價等方面的理論推導發揮了重要作用。
2.線性回歸模型的局限
由于回歸方程中對自變量值域沒有限制,因此作為自變量x1,x2,…,xn的函數,因變量y的值域也為(-∞,+∞)。然而,現實生活中,y的取值通常是有限制的,比如觀察對象的死亡年齡只能在一個有限區間取值,又如觀察對象死亡與否只能取死亡(記為1)或者存活(記為0)這兩個值。當因變量為分類型而不是數值型時就無法滿足上述的Gauss-Markov假設。同時,由線性模型yi=α+βxi進行估計或預算時,祒xi取值很大時可能超出[0,1]區間,這與y的值域矛盾。
當因變量為分類變量時,自變量與因變量之間的關系為非線性關系,線性模型y=α+βx+ε不能擬合這種關系。
三,Logistic回歸模型
1.Logistic回歸定義
我們假設因變量服從二元分布為f(y|π)=πy(1-π)(1-y),并且引入連結函數θ,這里θ的定義為:。我們再假設θ服從線性回歸,即θ=α+βx。
由上述代數運算可以得到事件其中一個結果的發生概率π的表達式,這是一個非線性函數。且這個非線性函數可以通過線性函數轉化而來。Logistic函數的形狀如下圖所示呈S型。
由圖形所示,Logistic函數的值域為[0,1]區間,這保證了由Logistic模型估計的概率值域的合理性。Logistic函數的S型曲線表明某個事件發生的概率受x變化的影響,當x從-∞開始增加時,事件發生的概率為0且保持基本不變,但增加到中間階段時,概率突然增加很塊,再增加到某一程度后,概率又開始保持基本不變的水平,逐步接近于1。
這里特別需要指出兩點。首先是,本文在這里將連接函數選擇為。但在處理相同的問題時連接函數可以有其他不同的選擇。Logistic回歸是特指因變量僅有兩個分類并且連接函數選為時的情形。其次是,Logistic回歸對于因變量服從伯努利分布有假設。而伯努利分布屬于指數分布族,因此Logistic回歸可以整合入廣義線性回歸的框架中。
2.Logistic回歸的發生比
我們將發生比(odds)定義為事件不發生的條件概率與發生概率之比,即:
由0≤π≤1則odds>0.若x增加,則當β為正時eβx>1,發生比odds增加;當β為負數時eβx<1,odds減小;當β=0,eβx=1是發生比不受自變量變化的影響。
由可知,當x增加一個單位時有
兩式相除后可午。因此eβ可以表示當x增加一個單位而導致的發生比的變動。
四、應用場景
Logistic回歸模型的應用范圍十分廣泛,如利用上市公司的財務指標數據來估計其信貨違約概率;利用糖尿病和糖耐量的人群的身體指標等相關信息篩選出對糖尿病發生的危險因素以及估算患病率;顧客在商品購物中又不滿意結果的情形中,其抱怨行為:直接抱怨、私下抱怨和第三方抱怨和該顧客重新購買的意愿行為進行分析。
在現實生活中,在連續性變量以外,我們也會遇到非線性的、是與非的問題,因此在理論上和應用上對Logistic回歸模型的理解是必要的。在實際應用中,該模型的評價、枯計等各個階段都已經有了充分的理論保證,因此有著廣闊的應用前景。
【參考文獻】
[1]吳曉剛.廣義線性模型[M].格致出版社,上海人民出版社,2011
[2]于立勇,詹捷輝.基于Logistic回歸分析的違約概率預測研究[J].財經研究,2004.1001-9952
[3]馬林茂,向紅丁.2型糖尿病危險因素的Logistic回歸分析[J].中國糖尿病雜志,1999
[4]莊貴軍,朱美艷.顧客抱怨行為與重購意愿的logistic回歸分析[J].商業經濟與管理,2009.1000-2154