牛玉霞
(南通科技職業學院,江蘇 南通 226007)
基于遺傳算法和BP神經網絡的空氣質量預測模型研究
牛玉霞
(南通科技職業學院,江蘇 南通 226007)
隨著霧霾天氣頻發,大氣污染和環境管理引起了人們越來越多的關注。能夠精確監測化工園區廠企排放污染物,并能根據周邊環境變化對空氣質量做出相應預測,對廣大民眾健康甚至生命安全而言,具有重要的現實意義。本文利用遺傳算法優化BP神經網絡的權重和闕值,根據天氣預報的相關變量,構建了空氣質量預測模型,使預測模型的網絡收斂速度、預測精度、擬合度以及泛化能力都有所w提高。
BP神經網絡;遺傳算法;VOCs;空氣質量預測
《中華人民共和國環境保護法》明確提出:“生態環境是人類生存和發展的基本條件,是經濟、社會發展的基礎。保護和建設好生態環境,實現可持續發展,是我國現代化建設中必須始終堅持的一項基本國策。”然而,我國正處于工業化發展前期,長期沿用高物耗、高能耗、高污染的粗放型經濟模式,對環境造成了很大破壞。盡管環境管理部門可以通過信息化手段監測污染源排放情況,但是污染一旦發生,無法補救。通過分析歷史數據、環境參數變化,預測污染源排放數據變化情況,在污染發生之前,給予相應預警,可以有效保護環境。
VOCs是揮發性有機化合物(volatile organic compounds)的英文縮寫,有毒性,是造成霧霾的主要成因,分析并預測 VOCs的變化趨勢,對空氣質量的變化預測有重要意義。改進的神經網絡運用改進的算法訓練神經網絡,繼承了神經網絡自學習和自適應的優點,同時避免了神經網絡可能收斂到局部最優的缺點。本文選取江蘇南通化工企業VOCs的現場監測小時數據,對BP神經網絡模型的個體編碼方式、適應度函數和種群交叉率、變異率進行優化,以實現對空氣質量變化趨勢的預測。

圖1 BP神經網路模型Fig.1 BP neural network model
當學習模式供給網絡后,神經元激活值從輸出層傳播,在輸出層各神經元輸出對應的值,然后按照減少與期望輸出與實際輸出的準則,從輸出層回到隱含層,再回到輸入層修正各個網絡系數。由于BP網絡有處于中間的隱含層,并有相應的學習規則可循,可以訓練這種網絡,使其具有對非線性模式的識別能力。因此,本文采用三層 BP神經網絡對空氣質量預測展開研究。
BP神經網絡通過修正輸出層和隱含層的權值,
神經網絡模仿腦細胞的結構和功能,模擬了人的思維模式和信息處理機制。由一些簡單單元連接組成,每一個單元都有一個輸出值,傳遞給下一連接單元,作為下個連接單元的輸入值。具有非線性的特點,運用訓練樣本進行自學習、自適應,從而實現對全部數據的預測。
BP(back propagation)神經網絡是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入——輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。BP神經網絡模型拓撲結構包括輸入層(input)、隱含層(hide layer)和輸出層(output layer)。每一層由一定數量的神經元構成,其拓撲結構如圖1所示。反復訓練學習,使誤差不斷減小,從而得到滿意的結果。假定網絡訓練樣本集合為其中第t層網絡的神經元有個頂點,假設第k個神經元頂點的連接權值向量為,闕值為θk,那么第k個神經元對輸入樣本數據xt的實際輸出為:

具體學習過程如下:
(1)初始化訓練樣本和闕值,確定J的終止值ε。
(2)計算各層神經元的實際輸出如式(1)所示。
(3)對每個訓練樣本zp,按照式(2)計算誤差。

(4)如果滿足誤差要求,即J<ε,則結束算法;如果不滿足,則執行第(5)步。
(5)反向計算每個訓練樣本的網絡連接權值和神經元闕值的修正量,調整隱含層的權值 Win和隱含層的權值Wim。
(6)繼續執行第(2)步,直到滿足J<ε為止。
BP神經網絡的學習訓練算法流程圖如圖2所示。

圖2 BP神經網絡學習訓練算法流程圖Fig.2 BP neural network learning and training algorithm flow chart
遺傳算法(Genetic Algorithm)模擬生物進化過程和遺傳學機理,自然選擇,優勝劣汰,從而得到最優解。遺傳算法的整體搜索策略和優化搜索方法在計算時不依賴于梯度信息或其它輔助知識,而只需要影響搜索方向的目標函數和相應的適應度函數,所以遺傳算法提供了一種求解復雜系統問題的通用框架,它不依賴于問題的具體領域,對問題的種類有很強的魯棒性,被廣泛應用于許多科學領域。遺傳算法包括選擇、交叉和變異三個算子。
(1)選擇算子
從群體中選擇優勝的個體,直接遺傳到下一代,或者通過交叉產生新的個體再遺傳到下一代。最常用的方法是輪盤賭選擇法,假設種群中個體 i的適應度函數是fi,種群中的個體數量是n,那么是群里適應度的和,產生后代的能力如式(3)所示,其中k=1,2…。

(2)交叉算子
把兩個不同的父代染色體基因進行交換,產生新的個體。由于父代是經過選擇策略產生的優勝個體,所以遺傳給后代的也是優良基因,如此進行多次循環迭代,最后出現的集多數優良基因于一體的個體便是最優解。常用的交叉有單點交叉、兩點交叉、多點交叉、均勻交叉等。
(3)變異算子
以一定概率改變個體染色體中的部分基因,從而形成新個體。對由0和1編碼的個體來說,就是將位值反轉。遺傳算法中的變異操作是為了保持種群的多樣性,防止基因丟失。
遺傳算法的基本步驟如圖3所示。
(1)給種群個體進行編碼。
(2)初始化種群。染色體是組成種群的基本單元,一個個體即一個染色體,在編碼的基礎上,給每個個體一個初始解。
(3)設計適應度函數,確定個體的環境適應能力,適應度值越高,適應能力越強,存活的幾率就越大。
(4)基于適應度函數,從父代種群中選擇優勝個體。
(5)根據交叉率執行交叉操作。
(6)根據變異率執行變異操作。
(7)判斷是否達到終止條件,如果達到了,轉向(8),否則,轉向(3)。
(8)完成進化,選出適應度函數值最大的個體作為問題的最優解。

圖3 遺傳算法基本步驟Fig.3 Basic steps of genetic algorithm
由于 BP神經網絡的學習函數比較復雜,在梯度下降中可能會陷入局部極值,使得訓練結果不如人意或直接失敗。而遺傳算法有全局搜索的優勢,可以彌補BP神經網絡的不足,利用遺傳算法對BP神經網絡進行優化,大大提升了預測結果的穩定性和精確性。
優化的 BP神經網絡空氣質量預測模型的算法大致分為三部分。
(1)確定BP神經網絡的結構
依據VOCs預測需求,以天氣預報和空氣質量數據為基礎,構建 BP神經網絡的結構,即設計輸入層、輸出層變量,確定隱含層的節點數和層數。
(2)優化BP神經網絡
設計適應度函數,計算每個個體的適應度值,通過遺傳算法中的選擇、交叉、變異等相關操作,確定優勝個體,優化 BP神經網絡中每一層的權重和闕值。
(3)形成預測模型
利用優化的 BP神經網絡進行種群初始化,學習訓練,輸出預測結果。
空氣質量預測模型的算法流程如圖4所示。

圖4 優化的BP神經空氣質量預測模型流程圖Fig.4 Optimized BP neural air quality prediction model flow chart
3.2.1 設計BP神經網絡結構
(1)設計輸入、輸出層
輸入層神經元節點的數量對 BP神經網絡而言非常重要,節點過多或過少都會影響預測結果。根據實際應用情況,本文選取對短期VOCs預測結果產生影響的主要因素:VOCs歷史監測數據、天氣情況、風向、風力、天氣溫度等作為空氣質量預測模型的輸入變量。因此,輸入層的神經元節點確定為6,輸出層的神經元節點數為1,即VOCs污染預測值。如表1所示。

表1 空氣質量預測模型輸入、輸出層神經元節點Tab.1 Air quality prediction model input and output layer neuron node
(2)設計隱含層
采用試湊法確定隱含層的節點數,公式如式(4)所示。

n是輸入層的神經元節點數量,q是輸出層的神經元節點數,α是一個整數,取值范圍為[1,10]。根據經驗,結合公式(4),初步確定隱含層的神經元節點數為4-14,用同一組樣本進行訓練,對隱含層節點數的最佳取值進行實驗,取相對誤差最小,精確度最高的一組數據,最終確定隱含層的節點數為6。
(3)設計傳遞函數
本文的 BP神經網絡模型輸出層神經元使用purelin線性函數傳遞參數,隱含層使用tansig函數傳遞參數,其數學模型如圖5所示。

圖5 預測模型輸出層和隱含層傳遞函數Fig.5 Prediction model output layer and hidden layer transfer function
(4)設計學習函數
采用L-M(Leveberg-Marquardt)算法為預測模型的學習函數,該算法與高斯牛頓法非常相似,具有同樣的網絡收斂和學習速度。L-M有效提升了迭代計算效率,總體性能也大大提高。具體實現步驟如下:
①設λ為衰變因子,初始值取 0.1,設θ為倍數常量,取值為10,λ最大取值為 h = e25。
②設W是當前的權值向量,利用反向傳播算法,計算誤差函數在連接權上的分梯度以及海森矩陣H。
③調整海森矩陣,求得H′= H + λ I。
⑤計算W′對應的誤差J′。
⑥比較J′與終止值 ,若J′<ε,則跳轉至⑧。
⑦λ=λ* θ,若λ>h,則λ=h,跳轉至③,否則進入下一步。3.2.2 利用遺傳算法優化預測模型的權重與闕值

BP神經網絡的初始值和闕值都是隨機生成的,會導致輸出結果不穩定。利用遺傳算法的優勢,通過全局搜索,給 BP神經網絡的初始值和闕值進行最優選擇,二者結合,使得預測模型更加科學、高效。下面詳細闡述遺傳算法優化BP神經網絡的過程。
(1)初始化種群
將 BP神經網絡每層的權重和闕值進行編碼,用隨機法初始化種群。
(2)計算適應度值
利用式(5)計算適應度值。

其中,n為BP神經網絡中輸出節點數,k為相關系數,iy為第 i個節點輸出的期望值,io第 i個節點輸出的預測值。
(3)選擇操作
采用輪盤賭法進行選擇操作,利用本文中的公式(3)計算個體產生后代的能力。
(4)交叉操作
采用實數交叉的方法,第m個染色體αm和第n個染色體αi在j位的交叉操作如式(6)所示。

其中x為[0,1]的一個隨機數。
(5)變異操作
對第m個個體第n個基因αmn進行變異操作,如式(7)所示。

其中,αmin和αmax分別為基因αmn的下界和上界,r是[0,1]之間的一個隨機數。
本文構建的 GA-BP空氣質量預測模型,以MATLAB為編程環境,選取江蘇省南通市化工企業實時監測的VOCs小時數據為樣本,結合天氣預報氣象數據(天氣、溫度、風向、風力等),對模型進行了模擬實驗,并與 BP模型進行了對比,得出以下結論。
(1)BP網絡模型經過15次迭代誤差值收斂到最小,GA優化的BP神經網絡迭代次數是6,說明優化的BP神經網絡收斂速度更快。
(2)利用 BP神經網絡模型得到的污染物預測結果平均相對誤差在 20%-60%之間,GA優化的預測模型得到的平均相對誤差在20%-40%之間,說明優化的預測模型更接近污染物真實值變化趨勢,擬合度更高。
(3)優化的 BP神經網絡預測模型對空氣質量指數的預測誤差明顯小于 BP網絡預測模型,說明GA-BP預測模型預測精度更高。
(4)通過對兩種模型的輸出結果與期望輸出進行分析,發現GA-BP模型的相關系數更高,說明優化的預測模型有更強的泛化能力。
本文構建了 BP神經網絡空氣質量預測模型,并利用遺傳算法對模型進行了優化,使得網絡收斂速度、預測精度、擬合度以及泛化能力都有所加強。具體實驗過程、樣本選擇、樣本數據處理、預測結果數據等將在其他文獻中詳細闡述。遺傳算法雖然在一定程度改善了 BP神經網絡在學習過程中容易陷入局部極小值的情況,但并沒有全選消除。在模型泛化性和函數擬合度之間找到一個良好的平衡點,是本研究進一步要探索的地方。
在工業化進程日益加快的今天,我們更應該重視保護寶貴的空氣資源,利用信息化手段,對污染物的排放進行實時監測和有效預測,可以使人們的日常活動有一定的前瞻性和針對性,從而有效保護環境,維護人類健康。
[1] 趙李明. 基于遺傳算法和BP神經網絡的廣州市空氣質量預測與時空分布研究[D]. 江西理工大學, 2016.
[2] 鮑慧. 基于BP-GA神經網絡的六安市空氣質量預測研究[D]. 安徽大學, 2015.
[3] 祝翠玲, 蔣志方, 王 強. 基于B-P神經網絡的環境空氣質量預測模型[J]. 計算機工程與應用, 2007, 43(22): 223-227.
[4] 張齊, 羅國亮, 李 佳, 趙坤榮. 優化進化神經網絡的空氣質量預測研究[J]. 計算機工程與應用, 2009, 45(28): 211-214.
[5] Jeong Gu-Young, Yu Kee - Ho. Morphological classification of ST segment using reference STs set[C]//29th Annual International Conference of the IEEE EMBS, 2007: 636-639.
[6] Paoli C, Notton G, Nivet M L, et al. A Neural Network Model Forecasting for Prediction of Hourly Ozone Concentration in Corsica: Environment and Electrical Engineering(EEEIC), 2011 10th International Conference on, 2011[C].
[7] 徐玲, 楊丹, 王時龍, 聶建林. 基于進化神經網絡的刀具壽命預測[J]. 計算機集成制造系統, 2008, 14(1): 167-171.
[8] 楊家榮, 許偉, 談宏志. 基于人工神經網絡的車間產能預測[J]. 軟件, 2014, 35(8): 22-25.
[9] 李政義. 基于GIS的城市空氣污染預警及顯示研究[D]. 西安科技大學, 2014.
[10] 陳曉梅, 楊成祥. 遺傳進化算法在時間序列建模中的應用[J]. 計算機工程與應用, 2005, 41(5): 215-217.
Research on Air Quality Prediction Model Based on Genetic Algorithm and BP Neural Network
NIU Yu-xia
(Nantong science and technology Academy, Nantong, Jiangsu 226007)
With the frequent haze and haze, more and more attention has been paid to the air pollution and environmental management. It can accurately monitor pollutants emitted by factories and enterprises in chemical industrial parks, and predict air quality according to the changes of surrounding environment, which is of great practical significance for the health and even life safety of the masses. In this paper, we use genetic algorithm to optimize the weights and threshold values of BP neural network. According to the relevant variables of weather forecast, we build the prediction model of air quality, so that the prediction speed, prediction accuracy, fitting degree and generalization ability of the prediction model are all improved.
BP neural network; Genetic algorithm; VOCs; Air quality prediction
TP391.8
A
10.3969/j.issn.1003-6970.2017.12.009
本文著錄格式:牛玉霞. 基于遺傳算法和BP神經網絡的空氣質量預測模型研究[J]. 軟件,2017,38(12):49-53
南通市科技局科技計劃項目“基于物聯網的化工園區VOCs在線監控系統研究”(MS12016028)
牛玉霞(1981-),女,講師,主要研究方向:計算機軟件技術、物聯網技術。