

摘要:基于大量數據,采用Pearson相關系數與模糊隸屬度分析自建點與國控點的細顆粒物(PM2.5)濃度數據相關性。其間通過建立反向傳播(Back Propagation,BP)神經網絡模型進行訓練,并采用遍歷試錯法確定神經網絡的最優算法與相關參數。經反復調試,校準結果相對于國控點數據的均方誤差下降到0.005,均等系數為0.95,系統顯示出優異的校準性能。研究結果表明,結合模糊隸屬度預處理原始數據后,訓練算法選用適宜、結構設定合理的BP神經網絡能很好地校準自建點PM2.5濃度數據,提高自建點數據精度。
關鍵詞:PM2.5濃度;BP神經網絡;模糊隸屬度;校準
中圖分類號:TP391 文獻標識碼:A 文章編號:1008-9500(2024)04-00-03
DOI:10.3969/j.issn.1008-9500.2024.04.016
PM2.5 concentration calibration based on BP neural network and fuzzy membership degree
ZHOU Yun
(Xinyang Aviation Vocational College, Xinyang 464000, China)
Abstract: Based on a large amount of data, this paper uses Pearson correlation coefficient and fuzzy membership degree to analyze the correlation between fine particulate matter (PM2.5) concentration data of self built points and national control points. During this process, a Back Propagation (BP) neural network model is established for training, and the optimal algorithm and related parameters of the neural network are determined by using the ergodic trial and error method. After repeated debugging, the mean square error of the calibration results relative to the national control point data decreases to 0.005, and the equalization coefficient is 0.95, and the system shows excellent calibration performance. The research results indicate that after combining fuzzy membership degree preprocessing with raw data, selecting a suitable and structurally structured BP neural network for training can effectively calibrate the PM2.5 concentration data of self built points and improve the accuracy of self built point data.
Keywords: PM2.5 concentration; Back Propagation(BP) neural network; fuzzy membership degree; calibration
在大氣環境監測中,部分自建點安裝的微型空氣質量監測儀,同一時間測得的數據與國控點的數據有所不同,需要利用國控點數據對附近自建點數據進行校準。目前,國內外廣泛利用神經網絡模型預測細顆粒物(PM2.5)的濃度[1-3],但采用神經網絡模型校準PM2.5數據的研究極少。本文以自建點和國控點數據為原始樣本,結合Pearson相關系數與模糊隸屬度函數,建立反向傳播(Back Propagation,BP)神經網絡模型對PM2.5數據樣本進行模擬訓練。經驗證,校準后的自建點PM2.5預測值與國控點PM2.5真實值非常接近。
1 原理及數據
1.1 建模原理
PM2.5濃度和可吸入顆粒物(PM10)、SO2、NO2、CO和O3等主要污染物有關[4],同時氣壓、溫度、濕度、風速和降水等氣象因素也較大程度地影響PM2.5擴散及遷移轉化。因此,本研究以自建點的PM2.5等濃度值和溫度等因素作為輸入集,以國控點PM2.5濃度值作為輸出集,構建BP神經網絡模型進行校準。
1.2 數據來源
自建點數據包括11個監測指標,即PM2.5、PM10、CO、NO2、SO2、O3、溫度、濕度、風速、氣壓和降水。相同時間范圍內,國控點PM2.5濃度小時監測數據來源于中國環境監測總站,氣象數據來源于中國氣象數據網。
1.3 數據處理
國控點和自建點數據統一進行異常值處理。首先對標國控點每小時的時間點,篩選出自建點的相同小時數;其次,采用相鄰值平均法,將缺失值補全;最后,采用三倍標準差法濾除異常數據[5],并歸一化處理所有數據。
2 數據校準
BP神經網絡模型具有較好的泛化能力,能較好地模擬污染物濃度變化的非線性過程,在PM2.5濃度預測等領域被廣泛應用。首先,計算各因素對PM2.5的Pearson相關系數和模糊隸屬度;其次,確定BP神經網絡最佳結構和訓練迭代次數,利用部分數據開展訓練,其余數據作為對比;最后,對校準結果進行分析。
2.1 相關性分析
2.1.1 Pearson相關系數
采用Pearson相關系數,對自建點數據與國控點數據進行相關性分析。PM2.5與11個影響因子的Pearson相關系數如表1所示。結果表明,自建點的11個參數均與國控點PM2.5具有相關性,但相關性有強有弱。
2.1.2 模糊隸屬度
在Pearson相關系數研究的基礎上,進一步構造隸屬度函數,分別生成11個影響因子的隸屬度權重,并對訓練集輸入數據、測試集輸入數據進行加權。一般來說,影響因子相關性越強,賦予的權重越大。經反復測試,結合Pearson相關系數分析結果,確定隸屬度函數為Pearson相關系數的平方,如式(1)所示。相應地,對訓練集數據進行加權,清晰地刻畫自建點各數據與國控點PM2.5濃度數據的關系。
fi=ri2(1)
式中:fi為第i個影響因子的隸屬度函數;ri為第i個影響因子的Pearson相關系數。
2.2 BP神經網絡的構建
輸入層為11個神經元,輸出層為1個神經元。如式(2)所示,輸入數據矩陣P為訓練集,采用自建點模糊隸屬度處理后隨機重排的3 308條數據。如式(3)所示,輸出數據矩陣T為訓練集里與自建點隨機重排的3 308條數據對應的國控點PM2.5濃度數據。
T=(y1,y2,…,y3 308)(3)
式中:xi, j為自建點所測的第i個監測指標的第j條原始數據;yj為國控點的第j條PM2.5濃度數據。
當隱含層神經元數目足夠多時,三層BP神經網絡可以以任意精度逼近一個具有有限間斷點的非線性函數[6],因此本文采用隱含層數為1的三層神經網絡模型。采用均方誤差和秩相關系數作為BP神經網絡的性能評價指標。以國控點數據作為真實值,對BP神經網絡預測數據和自建點原始數據求均方誤差,均方誤差越小,說明BP神經網絡的預測越準確。隱含層單元數的選擇直接影響BP神經網絡預測的準確率。節點數可以采用式(4)進行確定。
式中:l為節點數;m、n分別為輸入層、輸出層的單元數;t為[0,10]的常數。
采用遍歷試錯法確定最優單元數,單元數從4開始,步長為1,增加至14,并依據均方誤差及秩相關系數評價優劣。訓練采用LM算法、梯度下降法、動量和學習率自適應法、彈性反向傳播法和成比例共軛梯度法等。結果表明,LM算法所得結果精度更好。迭代次數從1開始,步長為1,增加至400,并依據均方誤差及秩相關系數評價優劣。
2.3 BP神經網絡的實現
利用4 136條數據,以8∶2的比例隨機生成訓練集和測試集。經模糊隸屬度處理,訓練集含3 308條
數據,測試集含828條數據。將訓練好的BP神經網絡在測試集上進行測試,得出校準試驗結果;將校準結果與國控點數據進行比較,二者數值越接近,說明擬合效果越好。經分析,BP神經網絡結構確定為11-8-1(輸入層個數-隱含層個數-輸出層個數),迭代次數取40。
2.4 校準結果分析
根據試驗對PM2.5測試數據進行校準,如圖1所示。結果顯示,BP神經網絡修正后的自建點PM2.5濃度預測值與國控點PM2.5原始值的相關程度要遠優于自建點原始值與國控點原始值,后者均方誤差為0.061 8,校準結果僅為0.005 0。對于大部分樣本而言,預測值相當接近國控點真實值,且預測值變化趨勢很好地體現真實值變化,尤其是PM2.5突發性峰值都有體現,說明模型很成功,可以很好地對自建點數據進行校準。
3 結論
BP神經網絡模型能夠有效提升自建點數據的校準能力,自建點與國控點數據的均方誤差由校準前的0.061 8下降到校準后的0.005 0。未來研究可以BP神經網絡為基礎,采用不同的隱含層數和學習率,開展更密集的數據訓練,進一步改進算法,從而獲得更好的校準值。
參考文獻
1 李燚航,翟衛欣,顏寒祺,等.基于U-Net神經網絡模型的PM2.5逐小時濃度值預測模型[J].北京大學學報(自然科學版),2015(5):
796-804.
2 KOW P Y,WANG Y S,ZHOU Y,et al.Seamless integration of convolutional and back-propagation neural networks for regional multi-step-ahead PM2.5 forecasting[J].Journal of Cleaner Production,2020(7):261-285.
3 Chen G,Li S,Knibbs L D,et al.A machine learning method to estimate PM2.5 concentrations across China with remote sensing,meteorological and land use information[J].Science of the Total Environment,2018(9):52-60.
4 趙文怡,夏麗莎,高廣闊,等.基于加權KNN-BP神經網絡的PM2.5濃度預測模型研究[J].環境工程技術學報,2019(1):14-18.
5 胡 俊,楊輝軍,程 晨.基于改進人工蜂群BP神經網絡的PM2.5濃度預測模型[J].山東交通學院學報,2020(4):19-26.
6 Hornik K,Stinchcombe M,White H.Multilayer feedforward networks are universal approximators[J].Neural Networks,1989(5):359-366.