郭雪白 任朝棟 田力
摘 要:利用鄭州市2015—2016年24小時的大氣污染監測數據和氣象數據,分析鄭州市空氣質量隨季節變化的分布特性。利用線型相關系數分析,尋找顯著相關因素,通過徑向基神經網絡構建大氣污染預測模型,對鄭州市2017年的PM2.5、PM10、SO2、NO2污染物7*24小時的濃度進行預測,并與各污染物實際監測值進行對比分析。實驗結果證明,利用線型相關系數進行相關因素的分析能夠很好地提高預測準確度;利用RBF神經網絡的預測結果比傳統的BP神經網絡預測的結果更加準確。
關鍵詞:BP人工神經網絡;徑向基神經網絡(RBF);線性相關系數
中圖分類號:X831 文獻標識碼:A 文章編號:1671-0037(2018)2-33-4
Abstract: Use the air pollution data and meteorological data monitored in 24 hours of Zhengzhou city from 2015 to 2016, the distribution characteristics of Zhengzhou city's air quality with the seasons change were analyzed. Linear correlation coefficient analysis was used to find significant correlation factors, air pollution prediction model was constructed by Radial basis neural network, the concentration of PM2.5 and PM10, SO2, NO2 pollutants was predicted in 7*24 hours in 2017 in Zhengzhou city, and they were compared and analyzed with the real monitoring values of various pollutants. The experimental results show that using linear correlation coefficient for correlation factor analysis can improve the prediction accuracy very well. The prediction results of RBF neural network were more accurate than those of BP neural network.
Key words: BP artificial neural network; RBF; linear correlation coefficient
目前我國的空氣質量預報模型主要還是回歸統計模型[1],由于該模型具有較強的局限性,因此它的預測精度不高。人工神經網絡可有效地解決不確定、多輸入等復雜的非線性問題,故在人工智能、自動控制和模式識別等多種領域取得顯著的成果[2-3]。在空氣質量預測的研究也有些進展,現有的研究多基于反向傳播(Back Propagation,BP)算法的人工神經網絡建立空氣污染物的預測模型[4]。
根據鄭州市氣象數據及空氣質量監測數據,應用BP和RBF神經網絡分別建立SO2、NO2、PM2.5和PM10[5]這4種污染物濃度的預測模型。應用線型相關系數法分析選出關聯度較高的因素作為神經網絡的輸入節點,然后應用神經網絡對各污染物濃度進行預測。對兩種網絡模型的預測精度進行對比,為人工神經網絡在城市空氣質量預報的有效應用探索新途徑。
1 相關算法介紹
1.1 BP神經網絡
BP神經網絡發展比較成熟、應用比較廣泛。常用的3層BP神經網絡由輸入層、隱含層和輸出層組成,其網絡結構如圖1所示。BP神經網絡的學習過程包括信號正向傳播和誤差反向傳播2個階段。信號正向傳播用于網絡計算,由輸入求出其輸出;誤差反向傳播用于計算實際輸出與期望輸出之間的誤差,將誤差值沿網絡反向傳播并修正連接權值。通過對網絡權值與閾值的修正,使誤差沿負梯度方向下降至低于預設值,從而使網絡預測輸出不斷逼近期望輸出,最終實現從輸入到輸出的任意非線性映射。
BP神經網絡具有良好的非線性逼近能力,在預測領域中應用廣泛。BP神經網絡訓練樣本的選取對于神經網絡的泛化能力具有較大的影響。BP神經網絡建模過程是將所有資料作為一個樣本集進行。而在實際應用中,樣本數據的產生與多種因素有關,有其內在的特征和規律性。缺乏對樣本數據的內在規律和特征的認識,而僅是通過樣本數量的累加和網絡的反復訓練,不僅耗費大量的時間,而且網絡的預測精度得不到實質性的提高。另外,BP神經網絡的神經元個數和學習速率都是固定的,因此,訓練速度和精度都比較差。
1.2 RBF神經網絡
徑向基函數(Radial Basis Function,RBF)神經網絡是一種性能良好的前向網絡,具有最佳逼近、訓練簡潔、學習收斂速度快以及克服局部最小值問題的性能。RBF神經網絡的基本思想是用徑向基函數(RBF)作為隱單元,的“基”,構成隱含層的空間,隱含層對輸入矢量進行變換,將低維的模式輸入數據轉換到高維空間內,使得在低維空間內的線性不可分問題在高維空間內線性可分。
RBF神經網絡結構與多層前向網絡類似,它一般由輸入層、隱含層和輸出層構成。第一層為輸入層:由信號源節點組成,傳遞信號到隱層。第二層為隱含層:隱含層節點的變換函數是對中心點徑向對稱且衰減的非負非線性函數。第三層為輸出層:一般是簡單的線性函數,對輸入模式做出響應。
RBF神經網絡是一種性能優良的前饋型神經網絡,RBF網絡可以任意精度逼近任意的非線性函數,且具有全局逼近能力,從根本上解決了BP網絡的局部最優問題,而且拓撲結構緊湊,結構參數可實現分離學習,收斂速度快。
2 樣本分析及處理
2.1 數據來源及選擇
研究采用的數據資料為2015—2016年鄭州市24小時的空氣質量數據和氣象數據。SO2、NO2、PM2.5和PM10這4種污染物濃度由位于鄭州市的某環境監測點測得,包括每小時的CO、NO2、SO2、O3、PM2.5和PM106種污染物。氣象數據來自于鄭州市氣象局,包括每小時的氣溫、氣壓、相對濕度、降水量、風速5個氣象要素。將四季的氣象數據和空氣質量數據繪制成曲線圖,如圖2和圖3所示,從圖中可以看出,每個季節的溫度變化相對穩定,降雨量整體較少。
2.2 數據預處理
從圖2和圖3可見,各項氣象數據及空氣污染數據的量綱不等,且數值大小差異明顯,如氣壓的數值高達103,而風速和降水量的數值只有101。為了避免不同因子之間量綱和數值大小的差異而產生模型訓練誤差,必須對氣象數據和空氣質量數據進行標準化處理,使處理后的數據分布在[0,1]之間,標準化公式如下:
2.3 各因素相關性分析
利用線型相關系數分析篩選和確定影響空氣污染物濃度的因子,根據篩選出的輸入因子訓練和建立污染物預測模型。線型相關系數分析公式如下:
分析了2015—2016年每日24小時的氣象數據以及同期的空氣質量監測數據,利用MATLAB對SO2、NO2、PM2.5和PM10 4項污染物因子與每日各氣象因子及昨日空氣質量因子之間的相關性進行分析,確定影響預測4項污染物的因子。通過分析,共有11項因子對模型預測相關,各因子如表1所示:
以春季為例,借助MATLAB對數據進行線型相關性分析,可得到SO2、NO2、PM2.5和PM10 4項污染物因子與各影響因子之間的相關系數矩陣,最終確定四個季節每種空氣污染物輸入因子如表2所示:
3 預測結果及分析
以春季訓練結果為例,根據線型相關系數的分析,將SO2、NO2、PM2.5和PM10各項相關因子作為輸入,分別利用BP和RBF神經網絡進行訓練,并利用訓練的網絡對2017年3月的24小時數據進行預測,各項空氣污染物的實際檢測值和BP、RBF預測的濃度進行比較,結果如圖4-7所示。
3.1 SO2兩種網絡模型預測結果
3.2 NO2兩種網絡模型預測結果
3.3 PM2.5兩種網絡模型預測結果
3.4 PM10兩種網絡模型預測結果
從圖中可以看出,兩種算法都較好地預測了空氣污染物的濃度。但是,BP神經網絡預測誤差有高頻出現,也就是有部分值存在較大的差別,而RBF神經網絡則相對集中,誤差控制在一定范圍內,因此,RBF神經網絡不僅減少了局部最優解的出現,而且也使預測準確率得到了提升。
4 結論
在四季模型中,以春季模型為例,通過對BP和RBF神經網絡的訓練對比發現,RBF對于4種污染物預報精度都高于傳統的BP神經網絡。由于RBF網絡可以任意精度逼近任意的非線性函數,具有全局逼近能力,可以很好地克服BP神經網絡局部最優解的缺點,同時通過RBF網絡的學習速率是不斷變化的,因此訓練速度要比BP神經網絡速度快。
雖然RBF具有比較高的預測精度,但是還是沒有達到理想的效果,后續我們將會對算法進行優化,或者尋求更好的算法來實現預測精度的提高。
參考文獻:
[1] 趙宏,劉愛霞,王愷,等.環境空氣SO2和NO2濃度的GA_ANN預測模型研究.計算機工程與應用,2010(8):199-201.
[2] Cobaner M, Citakoglu H,Kisi O, et al. Estimation of mean monthly air temperatures in Turkey[J].Computers and Electronics in Agricluture,2014(109):71-79.
[3] Westerlund J, Urbain J P, Bonilla J. Application of air quality combination forecasting to Bogota[J].Atmospheric Environment,2014(89):22-28.
[4] 楊曉帆,陳廷槐.人工神經網絡固有的優點和缺點[J].計算機科學,1994(2):23-26.
[5] 石靈芝,鄧啟紅,路嬋,等.基于BP人工神經網絡的大氣顆粒物PM10質量濃度預測[J].中南大學學報(自然科學版),2012(5):1969-1974.