(云南財經(jīng)大學 云南 昆明 650000)
回歸分析及其模型選擇
金紀亮
(云南財經(jīng)大學云南昆明650000)
在數(shù)據(jù)分析中,經(jīng)常會看到數(shù)據(jù)和數(shù)據(jù)之間存在一定的線性關系.回歸分析是線性中常見的一種模型,他主要刻畫變量與變量之間的依賴關系,主要包括一元線性回歸,多元線性回歸等.本篇文章首先介紹回歸分析及模型選擇原理;其次利用交叉驗證方法進行模型選擇并介紹其在機器學習中的應用;最后進行方法總結.
回歸分析;交叉驗證;模型選擇;機器學習
近年來隨著社會的發(fā)展,數(shù)據(jù)分析的理論及實踐都有了巨大的發(fā)展,特別是在經(jīng)濟學,數(shù)據(jù)挖掘和機器學習等方向進步巨大且應用廣泛.在數(shù)據(jù)分析中,經(jīng)常會看到數(shù)據(jù)和數(shù)據(jù)之間存在一定的線性關系,在處理線性關系的數(shù)據(jù)中回歸分析是一種常見且簡單的分析方法,許多非線性的模型轉換為線性回歸就會變得很簡單,所以研究回歸分析還是很有必要的.其次對數(shù)據(jù)建模時我們經(jīng)常要考慮多個模型和多種參數(shù)估計方法,然后考慮哪種模型和方法是最為合適,這就需要我們對模型進和方法行比較分析和選擇,而交叉驗證法是模型選擇應用最廣泛的方法.
關于回歸分析和交叉驗證法的研究,已經(jīng)有了許多成果并被廣泛應用,關于線性模型及回歸分析的文獻有很多,王松桂,史建紅等在文獻[1]中進行了詳細的介紹與論證,包括模型分類,參數(shù)估計,方差分析及檢驗等.對β的估計上,給出了最小二乘估計,約束最小二乘估計及廣義最小二乘估計,并討論了估計的穩(wěn)健性等.常用的參數(shù)估計方法是最小二乘法和最大似然估計.本篇文章所采用的參數(shù)估計方法為最小二乘法,除此之外本篇文章還引用了另一種分析方法嶺回歸法(λ的取值方法具體見文獻2).

該數(shù)據(jù)源自一組乙炔的反應數(shù)據(jù),總共有16個觀測值,其中,響應變量向量y是正庚烷(n-heptane)轉化為乙炔(acetylene)的轉化百分比,自變量x1是反應釜的溫度(攝氏),x2是氫氣-乙炔轉化百分比,x3是接觸時間(單位是秒).

表1 乙炔反應數(shù)據(jù)表
經(jīng)過簡單作圖我們可以看出y與x1,x2,x3之間的關系均是線性的,所以我們建立以下線性模型:
y=β0+β1x1+ε1(1)y=β0+β1x2+ε2
(2)
y=β0+β1x3+ε3(3)y=β0+β1x1+β2x2+ε4
(4)
y=β0+β1x1+β3x3+ε5(5)y=β0+β2x2+β3x3+ε6
(6)
y=β0+β1x1+β2x2+β3x3+ε7(7)
記上述七個公式為模型1-7,對模型中的參數(shù)β的估計我們采用最小二乘法,用留一交叉驗證法求出模型的均方誤差記為CVi,i=1,2…7,用嶺估計的方法對參數(shù)β進行估計計算出來的偏差,記作CVi′,i=1,2…7,結果為:

表2 參數(shù)估計均方誤差
由上表可以看出,在嶺回歸法下求出的偏差CVi′與在最小二乘法下求出的偏差CVi相差不大,都是模型1最理想,模型2最不理想.在嶺回歸下求得的CVi′,i=1,2,3,4,6要比在最小二乘法下求得的CVi,i=1,2,3,4,6大一些,而CV6′,CV7′要比CV6,CV7小一些.然而事實上,正庚烷(n-heptane)轉化為乙炔(acetylene)的轉化百分比不僅僅只與反應釜的溫度有關,所以我們不能說模型1在實際中就是最好的,且通過作圖知響應變量y與自變量x1,x2,x3都有一定的線性關系,個人認為模型7也是可以接受的,綜合考慮了所有因素,顯然此時嶺回歸法要比最小二乘法效果好一些.
以上7個模型都只是考慮了響應變量與單一自變量之間的線性關系,沒有考慮自變量之間的相互關系,所以建立模型8,在模型8中加入自變量之間的交互項.
y=β0+β1x1+β2x2+β3x3+β4x1x2+β5x1x3+β6x2x3+ε7
(8)
經(jīng)過以上分析后,我們知道模型8是所得的最好的回歸模型,除了經(jīng)典回歸外,我們用機器學習方法來對模型進行分析,看結果是否一致.此處采用機器學習中的mboost,bagging,隨機森林(RF),支持向量機等方法(SVM),采用五折交叉驗證法,具體結果如下:

表3 模型8五折交叉驗證結果表
由上交叉驗證結果表可以看出此時,模型8線性回歸結果非常好,結果遠遠小于1.線性回歸和支持向量機回歸結果相對其三個方法來說是好的,而mboost和隨機森林,bagging回歸方法是最不好的.綜合幾種方法比較做出的結果,還是模型8比較好,精確,方法也是線性回歸的方法要精確的多,與前邊的結果一致.由以上分析,我們可以認為模型8,是最好的模型,所以乙炔反應的回歸模型為:
y=-262.6+0.24x1+13.97x2+1446x3-0.01x1x2-1.30x1x3-7.37x2x3
回歸模型是一種常用的模型,分析方法簡單,參數(shù)估計簡便,生活中好多數(shù)據(jù)都可用回歸分析來解決,非線性問題也可轉化為回歸問題來分析.交叉驗證的目的是為了得到可靠穩(wěn)定的模型,它有兩個明顯的優(yōu)點,首先在對模型選擇中,每一回合中幾乎所有樣本數(shù)據(jù)都用于訓練模型,剩下的小部分用于測試模型,所有回合結束時,所有數(shù)據(jù)都進行了訓練模型和測試模型,沒有數(shù)據(jù)信息的損失,因此最接近樣本的真實分布,這樣選擇的結果比較可靠.其次實驗過程當數(shù)據(jù)較少時,通過對數(shù)據(jù)的重復利用可以很好的訓練模型,且在實驗過程中沒有隨機因素影響數(shù)據(jù),實驗結果可復制.回歸分析和交叉驗證還有很多的研究方向,特別是在機器學習和數(shù)據(jù)挖掘方面都有很大的研究空間,這為我們今后的學習和研究指明了一個方向.
[1]王松桂,史建紅,尹素菊,吳密霞.線性模型引論[M].北京:科學出版社2003.
[2]Arthur,Robert.1994.Ridge Regression:Biased Estimation for Nonorthogonal Problems University of Delaware and E.I.du Pont de Nemours amp; Co.84-86.
[3]Stone,M.Cross validatiory choice and assessment of statistical prediction.J.Roy.Statist.Soc.Ser.B,1974,36:111-147.
[4]Geisser,S.A predictive approch to the random effect moodel.Biometrika,1974,61(1):101-107.
[5]Shao,J.(1993).Linear model selection by cross-validation.Journal of the American statistical Association 88,486-494.
金紀亮(1992-),男,漢族,河南舞鋼人,學生,理學碩士,云南財經(jīng)大學統(tǒng)數(shù)學院統(tǒng)計學(理學)專業(yè),研究方向醫(yī)學統(tǒng)計。