李玉毛,何 濤,劉 冬
(赤峰學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,內(nèi)蒙古 赤峰 024000)
數(shù)理研究
一元線性回歸方法的理論及其應(yīng)用
李玉毛,何 濤,劉 冬
(赤峰學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,內(nèi)蒙古 赤峰 024000)
一元線性回歸主要研究兩個變量之間的線性相關(guān)關(guān)系,本文主要論述了一元線性回歸分析的基本理論,借助統(tǒng)計軟件SPSS對一個簡單的實例進行了分析,包括對實例的相關(guān)性分析、建模、對模型的顯著性檢驗以及殘差的分析,通過實例更進一步了解一元線性回歸在具體問題中的應(yīng)用.
一元線性回歸;最小二乘法;SPSS;顯著性檢驗
一元線性回歸是回歸模型中比較簡單的回歸模型,它用來描述一個數(shù)值變量的變化對另一個數(shù)值變量的影響程度,一元線性回歸模型用數(shù)學(xué)形式表示出來就是

其中(β0+β1x)表示解釋變量x對被解釋變量y的影響,也就是自變量對因變量的影響,β0和β1為未知參數(shù),ε表示不確定的隨機因素對因變量y的影響.一般情況下隨機因素ε是不可預(yù)測的,通常假定ε是期望為0、方差為σ2的正態(tài)分布.
回歸分析在實際問題中的作用就是通過樣本觀測值(xi, yi)對未知參數(shù)即β0,β1進行估計,估計值表示為0,1,通常采用普通最小二乘法來取得理想估計值為

國內(nèi)生產(chǎn)總值(GDP)是衡量一個國家或地區(qū)總體經(jīng)濟狀況的重要指標(biāo),是指一個國家或者地區(qū)所有常駐單位在一定時期內(nèi)生產(chǎn)的所有最終產(chǎn)品和勞務(wù)的市場價值,因此直觀認(rèn)為一個國家或者地區(qū)的常住人口與其GDP應(yīng)該是有正相關(guān)關(guān)系.本文搜集了全國12個省市2013年末的常住人口和2014的GDP(表1)進行統(tǒng)計分析[3].

表1 全國12個省市2013年末的常住人口和2014的GDP統(tǒng)計數(shù)據(jù)
2.1 常住人口和GDP的相關(guān)性分析
為考察常住人口(x)和GDP(y)的關(guān)系,用統(tǒng)計軟件SPSS繪制散點圖[2],如圖1所示:

圖1 散點圖
從散點圖可以看出隨著常住人口的增加,GDP有明顯的增加趨勢,也就是說初步判斷二者之間是線性正相關(guān),為了進一步了解二者之間的關(guān)系,利用SPSS軟件計算二者之間的Pearson相關(guān)系數(shù),結(jié)果如表2所示.

表2 相關(guān)系數(shù)
從表 2可以看出二者之間的 Pearson相關(guān)系數(shù)為0.960,顯著性檢驗顯示的P值為0,因此常住人口與GDP是高度正相關(guān),我們利用一元線性回歸來給出二者之間的具體線性關(guān)系.
2.2 建立一元線性回歸模型
利用SPSS建立回歸方程:

表3 回歸系數(shù)
從表3可以看出回歸系數(shù)分別是3231.749和6.278,因此2013年末的常住人口(x)與2014年的GDP(y)的線性回歸方程為y=321.749+6.278x,對其回歸系數(shù)的進一步檢驗,p值小于0.05,因此回歸系數(shù)顯著.
2.3 模型檢驗
一元線性回歸方程的顯著性檢驗通常用方差分析方法F檢驗[3],其原理是利用總的平方和可以分解為回歸平方和和殘差平方和,即

F統(tǒng)計量為

Fα(1,n-2)為臨界值,當(dāng)F>Fα?xí)r,回歸方程顯著.
對回歸方程y=3231.749+6.278x進行顯著性檢驗,得到表4:

表4 方差分析
由表得到SSR=4.206×109,SSE=3.569×108,F=117.824, P=0<0.05,因此回歸方程顯著,其實對于一元線性回歸來說,回歸方程的顯著和回歸系數(shù)的檢驗是等價的.
2.4 回歸方程擬合優(yōu)度的檢驗
為了說明回歸直線的擬合效果,進一步計算回歸方程的擬合優(yōu)度,如表5所示,得到相關(guān)系數(shù)R=0.960,判定系數(shù)R2=0.922,調(diào)整后的判定系數(shù)為0.914,也就是說各地區(qū)GDP的不同有91.4%是由于常住人口引起的,可見二者有較強的線性關(guān)系.

表5 擬合優(yōu)度檢驗
2.5 殘差分析
上述一元線性回歸模型的建立是基于假定誤差項ε服從均值為0,方差為σ2的正態(tài)分布[4],如果假定成立,則實際值和預(yù)測值的殘差εi=yi-i應(yīng)該與自變量的變化沒有關(guān)系,也就是說以自變量為橫軸,以殘差為縱軸做散點圖的點應(yīng)該落在兩條水平帶中間.如果這樣的假定不成立,則該模型以及由此模型進行的預(yù)測的準(zhǔn)確度將是不可信的.為進一步研究上述建立的回歸模型的假定是否成立,我們用做殘差圖如圖2所示:

圖2 殘差圖
從圖中可以看出各殘差基本上落在了水平帶x=-20000和x=20000之間,說明我們的假設(shè)是成立的,模型也是可靠的.
本文通過一個實例,闡述了一元線性回歸在實際問題中的具體應(yīng)用,并運用統(tǒng)計軟件SPSS對實例進行了相關(guān)性分析、建模和各種統(tǒng)計檢驗,給出了2013末地區(qū)常住人口和2014年GDP的具體線性回歸方程,具有一定的現(xiàn)實意義.
〔1〕賈俊平,何曉群.統(tǒng)計學(xué)[M].北京:中國人民大學(xué)出版社,2011.
〔2〕張文彤,閆潔.SPSS統(tǒng)計分析基礎(chǔ)教程[M].北京:高等教育出版社,2010.
〔3〕張敏靜.一元線性回歸方程有關(guān)檢驗問題的研究[J].價值工程,2012(2):1-3.
〔4〕林天水,陳佩樹.一元線性回歸中異方差的處理[J].統(tǒng)計與決策,2015(3):86-88.
O212
A
1673-260X(2017)08-0001-02
2017-04-22