王嘉 周昱 顧杰



摘 要:目前國家用于空氣質量監測的空氣質量監測中心站建設成本過高,導致無法進行密集部署,實現環境監測設備的網格化部署,需要降低環境監測硬件成本,利用廣泛布點取得海量數據,提出了利用光散射法顆粒物傳感器采集到的監測數據,采用基于改進BP神經網絡方法進行訓練,建立傳感器實際測量值、天氣等影響因素與監測站標準值的映射關系,實現空氣顆粒物校校準模型;通過理論分析及實驗對比結果表明,基于BP神經網絡算法構建的模型在空氣顆粒物指數的評價上具有較好的精度和泛化能力,為科學、準確的精細化城市空氣顆粒物指數評價和管控提供了可能。
關鍵詞:bp神經網絡算法;空氣顆粒物;光散射法
中圖分類號:TP212.9 文獻標識碼:A 文章編號:1671-2064(2019)09-0036-05
日益復雜的大氣污染狀況正在對傳統的大氣污染源監測方式提出挑戰,國控點的成本及后期運營費用較高,很難進行大面積、精密化布點,并且“說不清污染來源”的問題仍然存在。近年來,作為人工智能領域興起的研究熱點,人工神經網絡的研究工作不斷深入,已經取得了很大的進展。神經網絡由于其學習和適應、自組織、函數逼近和大規模并行處理等能力,因而具有用于智能系統的潛力。其在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題。本文提出了基于bp神經網絡算法通過使用低成本的光散射法傳感器采集的空氣顆粒物數值及其他大氣相關特征值進行訓練學習,從而建立特征值與國控點空氣顆粒物指數的模型映射,再用此模型將特征值轉換成標準的空氣顆粒物指數,為實現空氣監測設備的高密度網格化部署提供一種思路。
1 環境空氣國控點監測原理
當前實施的環境空氣國控點監測系統監測點位采用的是振蕩天平法和β射線法。
1.1 振蕩天平法
振蕩天平法是在質量傳感器內使用一個振蕩空心錐形管,在空心錐形管振蕩端上安放可更換的濾膜,振蕩頻率取決于錐形管特性和他的質量。當采樣氣流通過濾膜,其中的顆粒物沉積在濾膜上,濾膜質量變化導致振蕩頻率變化,通過測量振蕩頻率的變化計算出沉積在濾膜上顆粒物的重量,再根據采樣流量、采樣現場環境溫度和氣壓計算出該時間的顆粒物標態質量濃度。該方法對空氣濕度變化較為敏感,為降低濕度影響,對振蕩天平室一般進行50℃加熱,這樣會損失一部分不穩定的半揮發性物質。
1.2 β射線法
利用β射線衰減量測試采樣期間增加的顆粒物重量。樣氣由采樣泵吸入采樣管,經過濾膜過濾后排出。顆粒物沉淀在采樣濾膜上,當β射線通過沉積著顆粒物的濾膜時β射線能量衰減,通過對衰減量的測定計算出顆粒物的濃度。β射線吸收法是國際上使用較為廣泛的標準方法。
采用上述兩種方法的監測點位數量有限、成本高昂,以點代面的方法導致時效性不足,無法適應空氣顆粒物指數日報與預報的技術要求,達不到精細化管控的目標,且無法實現對監測體系中時空動態趨勢分析、污染減排評估、污染來源追蹤、環境預警預報等能力的深度挖掘。
2 基于光散射法和改進BP神經網絡算法的監測方式
利用光散射法的在空氣懸浮顆粒物監測的優點并結合BP神經網絡算法彌補光散射法存在的缺點,就可以實現高密度網格化布局的低成本、多參數集成的緊湊型微型環境空氣監測系統,網格化的監測體系可在區域內全覆蓋,實現高時空分辨率的大氣污染監測,結合信息化大數據的應用實現污染來源追蹤、預警預報等功能,為環境污染防控提供更為及時有效的決策支持。
2.1 光散射法
光散射等效方法原理光散射法測量質量濃度的原理是建立在微粒的Mie散射理論基礎上的。當光照射在空氣中懸浮的顆粒物上時,產生散射光。在顆粒物性質一定的條件下,顆粒物的散射光強度與顆粒物的粒徑成正比。通過測量散射光強度,就可以對不同粒徑的顆粒物進行計數,然后應用轉換系數,求得顆粒物質量濃度。
光散射法以其速度快、穩定性好、體積小的優點被人們廣泛的應用在實時監測中。光散射法與顆粒物的折射率、粒子的形態以及它的成分有關。而大氣中的濕度有可能是影響這幾個方面的主要因素,如果在一定的濕度環境中測量大氣中顆粒物的質量濃度,得到的測量結果應該不理想,會產生一定程度的誤差。如果要得到理想的測量結果,就需要消除濕度對質量濃度的影響。
2.2 BP神經網絡算法
BP神經網絡是一種通過BP算法實現的人工神經網絡。人工神經網絡是受自然神經元靜息和動作電位的產生機制啟發而建立的一個運算模型。神經元通過位于細胞膜或樹突上的突觸接受信號。當接受到的信號足夠大時(超過某個門限值),神經元被激活然后通過軸突發射信號,發射的信號也許被另一個突觸接受,并且可能激活別的神經元,神經元生理結構如圖1所示。
人工神經元模型已經把自然神經元的復雜性進行了高度抽象的符號性概括。神經元模型基本上包括多個輸入(類似突觸),這些輸入分別被不同的權值相乘(收到的信號強度不同),然后被一個數學函數用來計算決定是否激發神經元,該函數被稱作激活函數,如圖2所示。人工神經網絡把這些人工神經元融合一起用于處理信息。
權值越大表示輸入的信號對神經元影響越大。權值可以為負值,意味著輸入信號收到了抑制。權值不同那么神經元的計算也不同。通過調整權值可以得到固定輸入下需要的輸出值。調整權重的過程稱為“學習”或者“訓練”。
以最簡單的一維線性函數y=wx+b為例,通過調整w和b兩個參數可以使該函數左右上下移動,在引入激活函數σ(wx+b)后,線性函數即可變成更復雜的非線性函數,如圖3所示。
所謂激活函數,就是在神經網絡的神經元上運行的函數,負責將神經元的輸入映射到輸出端。常見的激活函數包括Sigmoid、TanHyperbolic(tanh)、ReLu、softplus以及softmax函數。這些函數有一個共同的特點那就是他們都是非線性的函數。引入非線性函數作為激勵函數,神經網絡就可以逼近任意函數。如圖4,5所示。
更復雜的神經網絡模型及對應的函數:
基于神經網絡算法可以構造出任意復雜的函數的理論依據,我們可以建立一個特定的神經網絡模型,使用光散射法采集的傳感數據作為特征值,對應的國控點或省控點數據作為特征標簽進行訓練不斷調整網絡模型的權重,擬合出一個對應的函數,然后使用該函數來做校準。同時考慮到環境濕度對光散射法的影響,訓練數據還需要增加溫度和濕度兩個特征值,這樣訓練得到的模型會更加精確。
BP算法是目前用來訓練人工神經網絡的最常用且最有效的算法。基于BP算法的神經網絡能學習和存儲大量的輸入一輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,其實質就是求解誤差函數最小值問題。
2.3 Bp神經網絡算法的改進
在訓練數據之前,需要先將數據進行標準化,然后利用標準化過后的數據去進行訓練。不同的特征值量綱與量綱單位也是不同的,這便會影響到訓練的過程乃至結果,數據的標準化處理可以消除指標之間的量綱影響,用以此來解決特征值的可比性。
本文使用的BP神經網絡訓練數據包括pm2.5,pm10,濕度,溫度四個維度,每個維度之間的數量級差別較大,直接訓練會導致每一維的梯度下降不同,使用同一個學習率也就很難迭代到代價函數最低點。經過歸一化處理后,代價函數變得“更圓”,也就很容易進行梯度下降,提高訓練速度。常用歸一化方法有最大-最小標準化,Z-score標準化,函數轉化等。這里使用最大-最小標準化是對原始數據進行線性變換,設minA和maxA分別是A的最小值和最大值,將A的一個原始值x通過最大-最小標準化映射到區間[0,1]的值x'。公式如下:
3 空氣顆粒物校準模型的實現
本次對空氣顆粒物pm2.5和pm10的神經網絡模型構建、訓練、測試通過R語言的Neuralnet神經網絡包實現。使用安裝在余姚龍山公園國控點附近的空氣檢測設備的光散射法傳感器采集的pm2.5和pm10原始數據以及溫濕度四個指標作為特征值,對應余姚國控點發布的pm2.5和pm10指數作為特征標簽進行模型訓練,pm2.5和pm10的模型構建說明詳如表1和表2所示。
Pm10模型訓練部分R語言代碼片段:
# 讀取訓練數據
input <- read.csv("pm10_training.csv",header = TRUE,sep = ",")
# 設置訓練參數
dataCol <- "PM10"
labelCol <- "PM10_LABEL"
inputCols <-c(dataCol,"HUMIDITY","TEMPERATURE","PM25")
# 設置訓練數據樣本比率
trainingSetRatio <-0.9
# 歸一化
Maxs <- apply(input,2,max)
Mins <- apply(input,2,min)
# 訓練神經網絡模型
net<-Training(input,trainingSetRatio,dataCol, labelCol,inputCols, 0.0111)
# 讀取驗證數據
ca_input <- read.csv("pm10_calibrated.csv",header = TRUE,sep = ",")
# 使用訓練好的模型驗證數據
predict<-Calibrate(net,ca_input,inputCols,Maxs,Mins,labelCol)
# 計算性能指標
label<-as.data.frame(ca_input[labelCol])
r2<-RSquare(predict,label)
mse<-Mse(predict,label)
經過訓練后的用于預測PM10及PM2.5的兩個神經網絡模型分別如圖6,8所示。
采用訓練后的神經網絡模型進行測試測試數據:2018.8.6至2018.8.12(該時間段內有余姚環保局提供的余姚龍山公園國控點數據做參照),PM10及PM2.5與國控點測試對比結果分別如圖7,9所示。
4 結語
(1)由于訓練數據其值域有較大的差別,訓練時間增大,引起無法收斂。本次實驗編程利用BP神經網絡算法的時候對數據進行歸一化處理,經過歸一化處理之后,訓練時間大大縮短并達到了收斂,可見對于神經網絡來說,對數據進行歸一化處理顯得尤為重要,同時通過遍歷隱含層的層數以及單層的節點數來尋找最優的神經網絡模型,利用模型校準的數據與國控點數據生成的兩條曲線的趨勢和吻合度都比較良好,達到了預期的效果。
(2)通過實驗驗證了所構建的基于光散射法和改進bp神經網絡算法的空氣顆粒物校準模型具有一定的實用性和有效性,這種以軟件做校準的空氣顆粒物監測方式為低成本大規模的網格化部署,明確空氣污染的趨勢和擴散規律,以此來確定污染物源頭和縮小污染物范圍,實現監管轄區內熱點范圍全覆蓋、科學分析、高效管理提供了可行性依據。
參考文獻
[1] 石靈芝,鄧啟紅,路嬋,劉蔚巍.基于BP人工神經網絡的大氣顆粒物PM10質量濃度預測[J].中南大學學報:自然科學版,2012,43(5):1964-1974.
[2] 吉祝美.環境空氣質量標準新標準解讀[J].污染防治技術,2012,25(6):67-69.
[3] 劉鋒,李春燕,譚祥勇,王鵬飛.基于機器學習在空氣質量指數中的應用[J].重慶工商大學學報:自然科學版,2017,34(3):83-86.
[4] 韓力群.人工神經網絡理論、設計及應用[M].北京:化學工業出版社,2002(11):55.