周文楠 朱睿宇
【摘 要】在如今快速發展的背景下,我國正以非常快的速度追趕發達國家,本文建立二元回歸方程,通過分析具有代表性的北京市能源使用變化,來具體分析我國各產業所占比重的變化、煤炭使用情況的變化以及發展的狀況。應用線性回歸的知識,利用R語言軟件進行二元回歸方程的建模及相應指標的檢驗,得出二元回歸方程,并對相關參數、復共線性等進行檢驗,并觀測模型的擬合系數,以得到最終模型。
【關鍵詞】R語言;多元回歸方程;殘差分析;復共線性
一、問題的提出
如今我國正處在“四個全面”的關鍵發展階段中,可持續發展仍然十分重要。國家統計局1985年對三次產業的劃分作了專門的規定,即:(1)第一產業是農業;(2)第二產業是工業和建筑業;(3)第三產業是除上述各業以外的其他產業。北京市作為我國的首都,其能源消費具有一定的代表性。
一方面,在我國,煤炭的用途十分廣泛,主要用于發電、建材、工業鍋爐、生活等第一、二產業。另一方面,在發達國家中,第三產業經濟在經濟總量中所占的比重都很大,如美國2013年的第三產業經濟所占比重約為78.0%,我國則約為46.1%。可見第三產業是否發達在一定程度可反映出國家的發達水平。
由于在各產業上消耗能源的多少與產生的經濟效益有直接關系,所以根據2013年北京市統計年鑒,我就1980-2012年能源消費總量與第三產業能源消費量、萬元地區生產總值能耗(噸標準煤)三者的關系展開了分析。
二、基本假設
1、用于建模的數據真實可靠;2、用2010-2012年的數據進行模型預測功能的檢驗;3、假設誤差項服從高斯馬爾科夫假設。
三、符號說明
:為能源消費總量的列向量,,其中為從1980年開始的第i年的能源消費總量。
:為第三產業的列向量,,其中為從1980年開始的第i年的第三產業能源消費量。
:為第三產業的列向量,,其中為從1980年開始的第i年的萬元地區生產總值能耗(噸標準煤)。
:二元回歸方程中的常數項。
:二元回歸方程中的回歸參數項。
:二元回歸方程中的回歸參數項。
e:二元回歸方程中的誤差列向量,,其中為從1980年開始的第i年的誤差。
四、模型的建立與求解
(一)模型的建立
通過應用線性回歸的知識,針對數據建立了如下的二元回歸方程:
其中各符號的含義見上符號說明。
(二)模型的求解
本文采用了R語言中的回歸分析方法(取),求解過程如下:、、的檢驗p值分別為<2e-16、<2e-16、6.11e-14,均使假設成立();且估計值分別為,,;且相關系數,修正后的相關系數,可知回歸方程擬合程度非常高。接下來對誤差e進行檢驗。
若殘差是來自正態分布的總體,則殘差應都在一條直線上。而殘差幾乎都在所示虛線周圍,存在異常點1、11、17。對于近似服從正態分布的標準化殘差,應該有95%的樣本點落在[-2,2]的區間內,這也是判斷異常點的直觀方法。雖然1、11、17均被標為異常點,但都在[-2,2]區間內,所以不剔除。雖然cook統計量值越大的點越可能是異常值,但具體閥值是多少較難判別,最大的cook統計量為0.3,較小,所以不需要剔除1、29、30三點。
可以看出,的特征向量為,而條件數,,可認為復共線性的程度很小。
通過以上步驟的求解,可以得出二元回歸方程:
為了檢驗模型的預測功能,只用了數據中的前30組,剩下的三組用于檢驗。結果如下:,分別為真實值、擬合值與誤差。
本文也將真實值與擬合值進行了比較。可以看出,真實值與擬合值所成直線的斜率大致為1,且相關系數,修正后的相關系數,十分接近1,即真實值與擬合值相差不大,此二元回歸方程擬合效果好。
五、模型分析
(一)模型優點:
1、模型的待估參數的檢驗p值非常小;2、模型的誤差服從正態分布;3、模型的擬合值與實際值差距不大,方程擬合效果好。
(二)模型缺點:
模型的預測功能稍有欠缺,差距不小。
六、模型的意義
通過本文的分析,得出以下實際結論:
(一)我國的第三產業所占比重正在逐步增大,這是很重要的一項指標,表明我國正在一步步邁向發達國家;
(二)第三產業所占比重增大也表明我國人民的生活質量提高,服務業等占的比重越來越大,人們日常生活多了更多的時間去享受生活;
(三)萬元地區生產總值能耗(噸標準煤)的下降說明了我國對煤炭這種不可再生資源的使用量降低了,并且更加環保,符合可持續發展觀;表示我國的工業等產業的生產方式也發生了一定的改變,不再依賴煤礦的燃燒。。
(四)萬元地區生產總值能耗(噸標準煤)的下降也說明了我國在發展過程中使用了更多別的能源,如水力等可再生能源,越來越注重環保大局,也可以一定程度上緩解霧霾的危機。
參考文獻:
[1]王松桂 陳敏 陳立萍,《線性統計模型——線性回歸與方差分析》,高等教育出版社,1999年9月第一版。
[2]何曉群等,《應用回歸分析》,中國人民大學出版社,2001年第三版。
[3]孫榮恒,《應用數理統計》,北京科學出版社,1998年。