郭本初,沈陸明
基于二元線性回歸的杭州市空氣質量指數研究
郭本初,沈陸明
通過對杭州市2015年5月至2016年4月的空氣質量指數、PM2.5濃度和PM10濃度進行相關性分析,分析了三者之間的關系。運用最小二乘法的思想,構造以空氣質量指數為因變量,PM2.5濃度和PM10濃度為自變量的二元線性回歸模型,并對改模型進行顯著性檢驗,結果表示此模型非常有效可靠,然后利用得到的二元線性回歸方程對杭州市2016年5月的空氣質量指數進行預測,空氣質量指數預測值和實際值的相對誤差非常小,可為空氣質量的相關研究提供參考。
空氣質量指數;二元線性回歸;顯著性檢驗;預測
為了保護空氣質量,讓廣大居民更安心健康的生活,對空氣質量、細顆粒物進行更深入的研究迫在眉睫。本文就2015年5 月1日~2016年4月30日杭州市的空氣質量指數、PM2.5、PM10濃度數據進行了相關研究,為空氣質量的有關研究部門提供借鑒,也為我國的環境保護事業盡一份力。
本文中杭州市2015年5月~2016年4月的空氣質量指數、PM2.5濃度和 PM10濃度均來自于天氣后報(http://www. tianqihoubao.com/)。
為了更直觀地分析空氣質量指數分別與 PM2.5濃度(μg/m3)、PM10濃度(μg/m3)之間的關系,選擇空氣質量指數作為因變量,PM2.5濃度、PM10濃度分別作為其自變量,分別做出散點圖,并觀察它們之間是否有相關性,散點圖如下:

圖1 空氣質量指數分別與PM2.5濃度、PM10濃度的相關性
觀察圖1,發現散點圖上的點大致在一條直線上,即具有較高的相關性,而且,計算得出空氣質量指數與PM2.5濃度的相關系數為0.9834,空氣質量指數與PM10濃度的相關系數為0.9659。因此可得出結論:空氣質量指數與PM2.5濃度、PM10濃度均呈正相關關系,且正相關程度極高。
由以上相關性分析得知,空氣質量指數與PM2.5濃度、PM10濃度均有極高的正相關關系,不妨設因變量y與自變量x1、x2的關系式為線性關系,即

其中,y表示空氣質量指數,x1、x2分別表示PM2.5濃度、PM10濃度,β0,β1,β2表示固定的未知系數 (回歸系數),ε表示隨機誤差。
已知,搜集得到的n組數據為(yi,xi1,xi2),i=1,2,…,n,根據最小二乘法的思想,只需使得隨機誤差平方和


整理得出

其中

若XTX為可逆矩陣時,(4)式的解可表示為


由(1)、(5)式可得到如下關系式:
根據x1、x2的值,可以近似計算出y的估計值
在matlab上編寫代碼,計算得到以下結果:

表1 參數估計
由表1可知,空氣質量指數y與PM2.5濃度x1、PM10濃度x2的二元線性回歸方程為:

(一)方差分析
不妨記yi是已知空氣質量指數的數據是由回歸方程計算得到的空氣質量指數的數據,y是已知空氣質量指數的數據的平均值。在matlab上編寫程序,計算得到如下方差分析表:

表2 方差分析
(二)回歸方程檢驗
為了判斷空氣質量指數與PM2.5濃度和PM10濃度之間是否具有線性關系,因此需要進行線性關系檢驗。不妨設自變量個數為k,樣本容量為n,此處k=2,n=366,并進行如下假設性檢驗:
H0:β1=β2=0H1:β1,β2至少有一個不等于
根據表2計算得到檢驗統計量F=6094.5288,給定顯著性水平α=0.05,分子自由度、分母自由度分別為k=2,n-k-1=363,查F分布表得到Fα=3.02,由于F>Fα,則拒絕原假設H0,即所得回歸方程在顯著性水平α=0.05下是線性的,這意味著空氣質量指數與PM2.5濃度和PM10濃度之間具有顯著的線性關系。
(三)回歸系數檢驗
經過回歸方程以后,并不能說明PM2.5濃度和PM10濃度對空氣質量指數的影響都是顯著的,因此需要對每個回歸系數進行檢驗,假設檢驗如下:

根據表2及數據計算得到t1=84.0028,t2=27.1089,不妨設顯著性水平為α=0.05,根據自由度n-k-1=363查t分布表得到tα/2=t0.025=1.9665。由于t1>tα/2,t2>tα/2,則拒絕原假設H0,即說明在顯著性水平α=0.05下,PM2.5濃度和PM10濃度對空氣質量指數的影響都是顯著的。
根據已經求得的空氣質量指數y與PM2.5濃度x1、PM10濃度x2的二元線性回歸方程y=15.1388+0.8906x1+0.1965x2,若已知PM2.5濃度和PM10濃度,可近似的預測出對應的空氣質量指數。不妨以杭州市2016年5月份的PM2.5濃度、PM10濃度和空氣質量指數為例進行分析,得出結果如下:

表3 AQI預測分析
由表3可知,預測得到的空氣質量指數與實際的空氣質量指數的相對誤差大部分都比較小,因此得到的空氣質量指數與PM2.5濃度、PM10濃度的二元線性回歸方程是可靠有效的。
根據杭州市2015年5月~2016年4月的空氣質量指數、PM2.5濃度和PM10濃度數據構建了二元線性回歸方程,經過顯著性檢驗分析,此模型可靠有效,可根據PM2.5濃度和PM10濃度對空氣質量指數進行預測,并對空氣質量評價具有參考價值。
[1]李柏年,吳禮斌.MATLAB數據分析方法[M].北京:機械工業出版社,2012.
[2]賈俊平,何曉群,金勇進.統計學[M].北京:中國人民大學出版社,2012. [3]張慶良.基于二元線性回歸的發動機比功率選擇研究[J].現代制造工程,2012,(09):34-35.
郭本初,男,河南焦作人,湖南農業大學理學院學生,研究方向:統計;
沈陸明,男,湖南岳陽人,湖南農業大學理學院副教授,研究方向:分形幾何及其應用。
X32
A
1008-4428(2016)09-86-02
,沈陸明。