董小剛, 劉新蕊
(長春工業大學 數學與統計學院, 吉林 長春 130012)
在日常生活及科學研究中,經常會遇到將問題的結果用類別表示的情況。在研究此分類問題時,最常用的方法是線性判別分析與Logistic回歸。這兩種方法簡單實用,易于計算,應用廣泛。兩種方法理論基礎的差異使得它們各有優勢,Logistic回歸在給出具體分類的同時,還能描述影響分類結果的因素,而判別分析則僅對樣本進行分類。線性判別分析對數據進行了特殊假設,它假設響應變量類間相互獨立,同類樣本服從多元正態分布,且具有相同的類內協方差陣。
這兩種方法都具有很高的實用價值,如張曉東等[1]通過判別分析探討了肺癌細胞核的有關體視學參數在肺癌診斷分型方面的意義;易尚輝等[2]對因大腸癌而住院的病歷按治愈和未愈分兩組進行了非條件多因素Logistic回歸分析;王浩等[3]基于Logistic回歸探討了進展期胃癌淋巴結的轉移規律;張立軍等[4]以我國滬市 A 股上市公司為研究對象,利用判別分析研究上市公司財務危機預警;張成虎等[5]基于個人消費信貸數據,建立了個人信用評分的線性判別模型;朱燕波等[6]對 18 805例中國成年人建立Logistic回歸,分析了中醫體質類型與超重和肥胖的關系;李洪等[7]基于Logistic回歸構建了北京市水庫濕地演變的驅動因子指標體系;楊秀瑋等[8]探討了Bayes判別分析應用于輸卵管妊娠早期診斷中的臨床效果。因此,對兩種方法的擬合效果進行比較是有意義的。
將研究對象分為兩類,稱為二分類問題。鑒于二分類問題的代表性和廣泛性,文中主要討論二分類問題,此方法也可以推廣到多分類的情況。
線性判別分析(LDA)也稱Fisher線性判別,是統計學上一種經典的分析方法,在醫學中的患者疾病分級、經濟學的市場定位等領域有廣泛的應用。
假設R0和R1分別表示兩個類別,p維樣本數據集X={xi|i=1,2,3,…,n}中屬于R0的樣本個數為n0,屬于R1的樣本個數為n1,n0+n1=n。Ω=R0∩R1表示兩個總體的并集,包含所有的研究對象。w為一向量,那么x到w上的投影為y=wTx,表示投影到w上的點到原點的距離。
類別i(i=0,1)的類內樣本均值

(1)
類別i在投影后的類內均值

(2)
由式(1)和式(2),投影后的均值即樣本中心點的投影,使投影后的兩類樣本中心點盡量分離的直線定量表示為

(3)
j(w)越大,分類直線的效果較好,但是兩個類別的投影之間很容易有重疊,因此,還需要考慮樣本類內點之間的距離夠小。投影后,類內點之間的分離程度,即類內方差為

(4)
由式(4)可以看出,該值越大效果越好。因此最終的度量公式為
找到使得J(w)最大的w即可,這就是Fisher在1936年提出的線性判別分析。只有每一類都服從多元正態分布且類間協方差矩陣相同時,才能夠得到線性的分界線。
為了得到最優分類,引入后驗概率πk,它表示類k(k=0,1)的先驗概率,且π0+π1=1。線性判別函數
k=0,1,
是判定規則的等價描述。
Logistic回歸模型是廣義線性模型的一個特例,是對定性變量建立回歸模型時的一種常用方法。與線性判別分析不同,Logistic回歸對于數據的分布不做任何假設,并且得到的模型形式也不是線性的。
回歸通過x的線性函數對K個類別建立模型,而同時確保它們的和為1,并且都在[0,1]中。該模型具有如下形式
i=1,2,…,K-1。
當K=2時,就是我們要研究的模型,此時的模型形式簡單,只要一個線性函數,因此被廣泛應用于二分類響應變量下的分類問題。
將Logistic回歸模型與線性判別分析的模型進行對比,它們的模型形式較為相似,僅參數估計方法有差異,但線性判別分析要求樣本來自多元正態總體,且不同類的協方差陣相同,而Logistic回歸對于數據沒有任何要求。
為了直觀地比較兩種方法,文中選取了4個比較指標,分別為回判錯誤率、指標B、C、Q。它們從不同方面如預測精度、組間分離程度,展示了兩種方法的表現。
回判錯誤率(CE)是指模型或者判別準則建立后,對原有樣本進行分類,在分類結果中判斷錯誤的對象所占百分比,即
式中:n----所有觀測個數;
nr----回判錯誤觀測個數。
這是一個簡單直觀,易于理解的比較指標,然而在實際應用中,它卻往往并不敏感,我們能從中得到的信息非常少,因此僅僅利用回判錯誤率來衡量這兩種方法的好壞是不夠嚴謹的[9]。Harrel和Lee[10]提出了三種不同的比較這兩種方法判別能力的指標,分別為B、C和Q。這三個指標能夠更好、更高效的對兩種方法進行對比,提供更多的信息。
指標B以估計值與實際值之差平方的均值來衡量預測結果準確性,計算式為
式中:Pi----觀測i的預測分組情況(0或1);
Yi----實際分組情況(0或1);
n----總樣本容量。
指標B的取值在區間[0,1],當預測結果越準確時,指標B的值越接近于1。
指標C用來判別模型的組間分離能力,計算式為
式中:Pk----線性判別分析和Logistic回歸的后驗概率Pr(1|Xk)的估計值;
I----示性函數;
n0----判別為0組的觀測個數;
n1----判別為1組的觀測個數。
指標C的值不受實際分組情況的影響,因此它只是一個表示組間分離情況的指標,并不能衡量預測精度。當組間的分離程度越大時,指標C的值越大,接近于1,當C為0.5時,為一個隨機預測模型。
指標Q與B類似,用來衡量預測精度,Q的計算式為
式中:Pi----線性判別分析和Logistic回歸的后驗概率Pr(1|Xk)的估計值;
Yi----實際分組情況(0或1);
n----總樣本容量。
當預測精度越大時,指標Q的值越接近于1;當指標Q的值為0時,表示模型是隨機預測。
為了明確兩種方法的適用范圍,分別在不同的類內均值間距離、解釋變量個數、解釋變量間相關性、樣本容量、類間樣本差值、協方差陣下對兩種方法進行比較。

模擬2:G1~N(μ1,Σ1),G2~N(μ2,Σ2),樣本容量n1=n2=50,固定μ1為各分量均為0的p維向量,μ2為各分量均為1.5的p維向量,Σ1和Σ2對角線元素為1,其余元素為0.5的p維方陣,分別取p=2,3,4,5。




類內均值間距離大小(υ)、解釋變量(p)個數、解釋變量間相關性(σ)、類樣本容量(n)、類樣本容量間差距(Δ)及非正態的影響分別見表1~表6。

表1 類內均值間距離大小(υ)的影響

表2 解釋變量(p)個數的影響

表3 解釋變量間相關性(σ)的影響

表4 類樣本容量(n)的影響

表5 類樣本容量間差距(Δ)的影響

表6 非正態的影響
根據表1~表6,當數據符合正態假設時,類內均值間距離對兩種方法都有影響,當距離較小時,兩種方法都近乎失效,當距離增大后,線性判別分析的四種指標顯示其效果更好;解釋變量個數的變化幾乎對模型沒有任何影響,優于數據滿足正態性假設,線性判別分析優于Logistic回歸;變量間相關性增大時,兩種方法的效果都變差,線性判別分析的四個指標仍普遍優于Logistic回歸;隨著樣本量增大,Logistic回歸和線性判別分析表現越來越相近,在類樣本容量達到 1 000時,Logistic回歸的C指標優于線性判別分析;當兩類樣本容量不同時,Logistic回歸的預測精度明顯優于線性判別分析。而當數據不再滿足正態性假設時,明顯Logistic回歸的四個指標優于線性判別分析,此時Logistic回歸效果更好。
針對二分類響應變量下的線性判別分析和Logistic回歸進行了比較,目的在于給出不同情況下如何對兩種方法進行選擇。
為了方便比較三種方法,選定了四種指標值,分別是回判錯誤率CE和指標B、C、Q。模擬結果顯示,大部分情況下,回判錯誤率不夠靈敏,指標C的值變換幅度也不大,所以更關注指標B和Q的值。
首先在符合線性判別分析假設下,對兩種方法進行比較,這時線性判別分析的效果普遍較好。但是隨著樣本量的增大,判別分析和Logistic回歸的效果越來越相近,而當樣本總量足夠大時,Logistic回歸的效果較好。另外,當兩個類別的樣本量不相等時,它們之間的差距越大,Logistic回歸的效果越好。在不符合線性判別分析假設的情況下,Logistic回歸大部分優于線性判別分析。
綜上,當數據不符合正態性假設時,一般選擇Logistic回歸。當數據符合正態性假設時,如果樣本量很大,或者兩類樣本量差距較大,此時Logistic為更優選擇,其余情況下,線性判別分析效果更好。