翟維
(西安航空學院,電子工程學院,陜西,西安 710077)
近年大氣環境污染嚴重,大氣環境污染會直接導致人們生活環境質量下降,影響人體健康,同時會造成巨大的經濟損失[1-3]。目前的大氣環境監測數據主要是通過歷史監測數據,對未來大氣環境質量的變化趨勢進行預判,以便更有針對性地對人們生活生產活動進行指導[4-5],同時為政府相關決策和管理部門在相關制度制定過程中提供科學依據[6-8]。目前對大氣環境質量預測的方法主要包括數值預測以及統計預測,統計預測以歷史數據統計分析為主,結合未來發展規劃。數值預測,主要是指利用數學模型進行計算或仿真。根據經典的劃分方法,數學方法可以分為以下3類:第一類是“梯度輸運理論”,它假定湍流通量與平均梯度成正比;第二種是以泰勒統計理論為基礎的“湍流統計理論”;第三種是以量綱分析為基礎的“相似理論”。然而數值預測的模型精度低于統計預測[4],且適用范圍有一定的限制[9-10]。因此,本文采用數據易獲取且預測精度高的統計預測-多元線性回歸方程進行大氣環境預測分析。
當2個或以上自變量和因變量存在線性關系時,即為多元線性回歸。其數學模型[11-12]如式(1):
y=a1+a2x1+a3x2+…+am+1xm+ε
(1)
其中,a1,a2,a3,…,am+1為回歸系數,ε為隨機誤差。
回歸系數估計值采用式(2),
(2)
待多元線性回歸方程求出之后,需要對其進行檢驗以確定其精確度。常用的檢驗方法包括相關系數檢驗、F檢驗和t檢驗[13]。
(1)相關系數檢驗
相關系數是用來衡量線性模型擬合程度的指標,數學表達式是回歸平方和占總平方和的比值,如式(3):
(3)
(2)F檢驗
F檢驗用來檢驗線性模型中自變量和因變量之間的關系是否顯著,如式(4):

(4)
(3)t檢驗
通過t檢驗可以決定作為某一變量是否作為自變量保留在模型中,如式(5):
(5)

式(3)~式(5)中,SST表示因變量觀測值和均值的差異的偏差平方和,SSR是由自變量引起的偏差,即回歸平方和,SSE是實驗誤差等引起的剩余平方和,其關系如式(6):

=SSR+SSE
(6)
根據GB 3095—2012標準對大氣環境質量進行評價。對PM2.5、PM10、CO、SO2、O3以及NO2共6項污染物指標進行監控。例如在監測現場,共有23 000個PM10質量濃度數據,其中20 000個用作訓練數據,3 000個用作測試數據。此外,溫度、濕度、風速、風向、氣壓等氣象條件會通過影響污染物在大氣環境中的擴散而影響大氣環境質量,如高濕度會加劇空氣污染程度。因此,本文收集6個空氣污染物指標和5個相應的氣象指標。

(7)
將預處理過的數據構造出多元線性回歸模型,并進行相關系數檢驗、F檢驗和t檢驗。之后將預測結果和測試數據進行對比。
因變量是PM10,自變量是溫度、氣壓等5項氣象數據,建模方法是全部輸入。
(1)相關系數檢驗結果如表1所示,R2代表擬合效果,其值越大,說明擬合效果就越好。

表1 相關系數的檢驗
(2)F檢驗結果如表2所示。從表2可以看出,F檢驗結果小于0.01。因此5項氣象指標對PM10質量濃度具有顯著的影響。

表2 顯著性檢驗
(3)t檢驗結果如表3所示。非標準化系數用于列出回歸方程。標準化系數用來表示自變量對因變量的影響程度;偏回歸系數用來判斷某一自變量對因變量的影響是否有統計意義,當其小于0.05時,具有顯著的統計意義;當小于0.01時,統計學意義非常顯著。

表3 t檢驗結果
(4)預測模型線性回歸方程為:
y=-3.796×1-1.296×2+2.223×3-55.059×4-0.207×5+398.212
真實值和預測數據對比如圖1所示。

圖1 傳統多元線性回歸模型預測值與真實值的比較
考慮到污染物質之間存在物理化學反應,同時季節因素對污染物也有重要的影響。因此,將其他污染物和季節因素一并納入多元方程進行優化。季節變量取值為:春季108.1 μg/m3,權重0.25;夏季97.8 μg/m3,權重0.2;秋季112.3 μg/m3,權重0.25;冬季121.9 μg/m3,權重0.3。
通過將自變量逐個引入回歸模型,進行顯著性檢驗,直至所有顯著自變量均被引入回歸模型。逐步回歸模型結果如表4所示。

表4 逐步回歸模型
從表4可以看出,PM2.5對PM10的影響最大,而大氣污染物SO2、NO2、CO以及氣象因素風向對PM10的影響可忽略,因此將這幾項指標刪除后,得表5。

表5 相關系數的檢驗
得回歸方程:
y=30.304×1+19.729×2-0.359×3+8.541×4+0.897×5+5.184×6+10.280×7-90.087
采用該模型,所得真實值與預測值如圖2所示。

圖2 最優多元線性回歸模型預測值與真實值的比較
從圖2可以看出,優化后的模型,擬合度達到0.828,比原始模型明顯提高,說明采用逐步線性回歸方式,將氣象因素以及其他污染物質一并考慮之后,對PM10的預測將更加準確。此外,從圖2也可以看出,短期的預測誤差最小。同時,PM2.5、風速、氣壓、濕度和季節對PM10質量濃度有增強作用。PM2.5對PM10的影響最大,O3和溫度對PM10的影響有所減弱。2種預測模型效果對比如表6所示。

表6 2種模型預測結果的比較
本文分別采用原始多元線性回歸模型以及優化后的模型,分別對大氣環境質量進行預測,得出如下結論。
(1)傳統多元線性回歸模型只能相對粗略地預測大氣環境質量變化趨勢,而其改進模型能夠相對準確地對未來大氣污染物質量濃度進行預測。
(2)采用逐步線性回歸方式將氣象因素以及其他污染物質一并考慮能夠更加準確地對PM10進行預測,且對短期內的預測誤差最小。