易志杰

【摘要】簡單線性回歸是研究兩個可測變量之間線性關系的方法,可被用于預測和控制,是統計學中最基本也是最重要的方法之一,被廣泛應用于各個研究領域。本文系統的研究并總結了簡單線性回歸的步驟,包括用最小二乘法進行參數估計,以及F檢驗和測定系數R2兩種優度檢驗,并研究了如何用統計軟件R語言實現簡單線性回歸。
【關鍵詞】簡單線性回歸 ?最小二乘法 ?F檢驗 ?R2 ?R語言
【中圖分類號】G42 【文獻標識碼】A 【文章編號】2095-3089(2018)40-0217-02
回歸分析是研究變量與變量之間關系的方法,起源于19世紀50年代,由生物學家、統計學家高爾頓在研究父母和孩子身高關系時最早提出[1]。回歸分析對科學研究方面幫助極大,很多關系式都是先進行試驗得出數據,再通過回歸分析得出的。回歸分析的作用是可以進行預測與控制,可以利用擬合得出的關系式,對變量進行預測,對想要的因變量值進行反解得出需要控制的自變量的值。回歸分析有多種具體方法,分別為線性回歸,對數回歸,多元回歸等。本文重點以線性回歸為研究對象進行研究。
1.線性回歸模型步驟
1.1模型的建立
我們根據實際試驗并測量,得到n對觀測案例數據(xi,yi)。假設x與y是變量,x是自變量,y是因變量,他們之間有某種函數關系f,即y=f(x)。通過對f進行形式上的假設,然后用類似于解方程的方法去求得f中參數的值,從而得出f的具體表達式。
簡單線性回歸是最基本的回歸方式,它假設f是一元線性方程,即y=ax+b,圖形上畫出來是一條直線。簡單線性回歸可以說是回歸分析的基礎,因為大量其他函數表達式的形式都是線性函數的變種,例如y=ax2+b與y=lnx可看作為簡單線性回歸的變種或疊加,即y=a*g(x)+b。
殘差,也可稱作統計誤差,即因為人為因素或工具精度問題導致的測得的實際數據與通過模型推導出的擬合值之間產生的誤差。殘差用e表示,第i組的殘差用ei表示。簡單線性回歸通常假設ei服從正態分布,且均值為0(即殘差的固定成分是可以忽略不計的)。
由此簡單線性回歸模型可描述為[2]:
yi=β0+β1xi+ei ? ?i=1,2,……n
其中E(ei)=0,cov(ei, ej)=0
1.2參數的估計——最小二乘法
要推導該函數關系中的β0與β1,通常使用最小二乘法。最小二乘法,即以使得殘差的平方和(設為RSS)最小為準則求得參數β0、β1的方法。
即:求出使得RSS=■[yi-(β0+β1xi)]2最小時的β0、β1[3]。
求解的方法是讓RSS分別對β0、β1求導并讓導數為0[2],即
■=■=-2■[yi-(β0+β1xi)]=0
■=■=-2■[yi-(β0+β1xi)]xi=0
整理上述兩式,得出:
β0n+β1■xi=■yi
β0■xi+β1■xi2=■xiyi
為方便表示,記x=■, y=■, SXX=■(xi-x)2,SXY=■(xi-x)(yi-y),
則可解出:
■1=■,■0=y-■1x
最小二乘法的優點:僅依賴數據,計算方便。
最小二乘法的缺點:
(1)任何兩個相同的數據集都會有相同的回歸擬合。
(2)y其實跟x并沒有關系,也可以通過最小二乘法得出一個線性關系式,但實際上此關系式并非真實,因此需要判定擬合效果是否真實。
1.3擬合效果檢驗
由前述最小二乘估計的缺點可知,需要對得出的簡單線性回歸公式進行檢驗。檢驗方法通常有兩種。
1.3.1 F檢驗
F檢驗是用來檢驗x是否跟y存在線性關系的方法,它檢驗的是β1是否顯著的不為0。如果顯著不為0,則說明確實存在線性關系,若并不顯著的不為0,即x對y的影響并不顯著,那么線性關系就不顯著,模型的擬合效果就不好。
若β1=0,則模型為:yi=β0+ej
此時,同樣可以用最小二乘法算出,最佳的估計■0=y,此時,模型的殘差平方和RSS=■(yi-y)2 =SYY (1)
而若β1不等于0,可以將■1=■,■0=y-■1x
帶入
RSS=■[yi-(β0+β1xi)]2
得出RSS=SYY-■ (2)
可知(1)-(2)=SYY-(SYY-■)= ■
代表原簡單模型加入變量x之后殘差平方和減少的量,把它記為SSreg,稱為回歸平方和,SSreg越大則說明加入x對模型的改進越大,則說明x跟y之間的線性關系越強[2]。
統計上構造變量F=SSreg/RSS來進行上述問題的判斷,可以證明SYY=SSreg+RSS 所以,F=■,因此F跟SSreg是正相關關系。SSreg大則F大,F大則SSreg大,x跟y就具有更顯著相關關系。而在ei服從均值為0且相互獨立的前提假設下,統計上容易證明,如果β1=0,那么F將服從f分布:F~F(1,n-2),其中n為樣本點個數[4],可以通過查表查到F將在99%概率下不會超過多少,記為F(0.01;1,n),若通過觀測值帶入得出的F比該值還要大,則說明“幾乎不可能的事情”(1%概率)發生了,也就是說β1=0這個假設是錯的,由此簡單線性模型擬合程度較高。
通過F檢驗驗證回歸模型是否合理,就是通過對比實際算出的F值和查表得出的F(0.01;1,n)值,若F> F(0.01;1,n),那我們說在p值為0.01的情況下模型顯著,反之則不顯著。
P值是在β1=0為真的情況下,F值比觀察值更大的條件概率。一般以0.1、0.01、0.05作為評判標準,若p值小于這些值,則說明相應的系數顯著不為0。
1.3.2 測定系數:R2
測定系數R2定義為R2=■
通過公式可以推算出SYY=SSreg+RSS,統計上一般用一個變量的方差來代表這個變量本身所承載的信息量,上式中SYY就是Y的方差,由關系式可知它由RSS和SSreg兩部分組成,如前所述SSreg代表加入x的線性項之后模型殘差的減少量,可以理解為Y的信息中可由x的線性關系解釋的部分,而RSS則是除去這部分之后的非線性以及統計誤差的部分。
因此,測定系數R2越大,則說明回歸所承載的y的信息量就越大,也越能表示回歸模型的真實性。
2.簡單線性回歸的R語言應用
R語言是一種有強大統計計算和繪圖功能的數據分析軟件,由一個強大的專門的研究型社區維護,R語言中有很多開源的數據包可供直接調用。R語言中通常用lm()函數回歸進行線性回歸[5],用法為:lm(formula,data),其中formula要擬合的模型,用“~”連接,對于簡單線性回歸來說,假設x、y分別為自變量、因變量,則formula為y~x,data為用于擬合的數據。
輸出結果示例如下:
在Estimate下的兩個值即分別β0與β1,而后面的“?鄢”則表示與之對應的回歸系數顯著不為0的p值所代表的顯著性,“?鄢”越多則越顯著,得出的系數就越有效。Multiple R-squared即測定系數R2,F-statistic即F檢驗,后面的p-value即對應的p值,可將之與0.01或0.05等進行比較,若更小,則說明擬合較優。示例圖中表示,F檢驗下,擬合程度很好,但R2并不高,應對模型進行適當改進再進行擬合。
參考文獻:
[1]于忠義.高爾頓發現相關與回歸的歷史回顧與反思[J].統計與信息論壇,2009,24:17-25
[2]邵鴻翔.線性回歸方法在數據挖掘中的應用和改進[J].統計與決策,2012,14:76-80
[3]田生昌.最小二乘法的統計學原理及在農業試驗分析中的應用[J].數學的實踐與認識,2015,45:124-133
[4]S.Weisberg.應用線性回歸[M].北京:中國統計出版社,1998:15-20
[5]Robert I.Kabacoff.R語言實戰[M].北京:人民郵電出版社,2013:161-163