王 雪
(河北省唐山市水文水資源勘測局,河北,唐山,063000)
隨著國內經濟的迅速發展和居民生活水平的提高,更多的工業廢水和生活污水形成,由于治理措施落后和管理機制不健全,污水未經允許私自排放的現象十分嚴重,導致水體污染嚴重,河流水質急劇下降[1]。傳統的水質監測方法均通過現場取樣的方法進行水質指標的測定,其結果雖然較精確,但操作成本高、周期長、步驟復雜,無法實時、精確、穩定代表水域水質,且在某些條件落后地區難以實現[2]。因此,找出合理、便捷和精確的水質監測模型一直是近年研究的熱點,找出合理的水質監測模型對水生態措施的制定有著十分重要的指導意義。
截止到目前,貝葉斯原理、機器學習模型、模糊評價算法等先進算法先后被應用到水質監測模型開發當中。郭小青和項新建[3]基于神經網絡模型建立了水質監測及評價系統,指出了人工神經網絡較強的學習、聯想和容錯功能,并通過實例,驗證了模型的精確性;楊咪等[4]基于貝葉斯原理,在寧夏地區建立了當地水質評價模型,選取DO、CODMN等5項指標為評價因子,對模型進行了驗證,模型模擬結果指出河流水質從上游到下游逐漸變差;曹宇峰等[5]將模糊數學算法引入水質評價模型中,得出的結論與實際基本一致。
然而,現如今的水質監測模型基本均集中在研究水體水質評價等級中,對某一項指標的水質監測及預測的模型研究相對較少。同時研究表明,傳統的BP神經網絡模型具有收斂速度較慢且易陷入極值問題導致計算錯誤等缺點[6]。本文將遺傳算法引入BP神經網絡當中,用于得出新型的水質監測模型,針對具體水質指標,選取總氮(TN)、總磷(TP)、高錳酸鹽指數(CODMN)、和氨氮(NH3-N)4項指標,研究不同指標的水質監測與預測模型,并與傳統BP神經網絡模型預測結果對比,進一步驗證該模型的優越性,得出的結論可為水資源保護政策的制定提供科學依據。
遺傳算法指的是通過模擬達爾文生物進化論的自然選擇和生物進化過程的計算模型,其優點是避免局部最優解[7]。將遺傳算法原理應用到BP神經網絡模型中,可有效彌補BP神經網絡的缺點,具體運算工程主要分為3個步驟:
首先確定神經網絡計算結構,確定模型計算長度。本次水質監測模型中,神經網絡計算結構指的是模型針對4種水質指標的實測數據,確定的實測數據回歸變化趨勢,系統自動形成回歸模型結構。而模型的計算長度則為4項水質指標實測數據的個數,本文選擇2008~2016年的實測數據為基礎,共522組數據,選擇2008~2011年的數據訓練模型,即為模型計算長度;
其次每個個體通過自適應函數計算個體適應度值,找出最優解。基于遺傳算法中的交叉、變異處理,優化BP神經網絡的權重賦值計算,由于本文研究水質監測模型,因此每個個體指的是4項水質指標的逐次實測值模型,通過模型計算權重,與輸入樣本的個體適應度相乘,得出輸出結果,通過公式(1)計算每個樣本的個體適應度,

式中,Y代表樣本的個體適應度值;a為系數;Ei和Fi分別為第i個節點的期望輸出和預測輸出,n為樣本數量。
通過交叉、變異等處理,選擇合適的個體適應度,其中每個個體的選擇概率Pi可用下式計算,最終得出輸出層結果:

交叉操作采用實數交叉法進行,變異操作采用變異迭代法進行,其具體計算步驟見文獻[8]中的描述。
最后是神經網絡預測模型的建立,通過計算每個指標樣本的個體適應度,選出最優解,通過模型自動計算每個樣本與實測值的誤差,驗證預測值是否滿足要求,若滿足則輸出最終結果。通過上述步驟,對模擬水質變化情況,對不同水質指標進行監測,具體原理步驟見圖1。本文用遺傳算法優化BP神經網絡(GABP)模型,預測不同水質指標變化情況,以監測水質變化。

圖1 神經網絡計算原理圖
Nash-Sutcliffe系數(CD)、逐日相對均方根誤差(RMSE)和Kendall一致性系數(K)可以較好地反映長時間預測序列與實測值的誤差和一致性,是系統性較好的數據評價指標體系。其中,CD與K的值越大、RMSE的值越小,模型算法與實測值的一致性越好、計算精度越高,具體公式如下:

式中:n為樣本數量;A′為模型算法模擬值;Am為實測值;Am為實測值的均值;C為待檢驗方法與實測結果中擁有一致性元素的對數;D為待檢驗方法與實測結果中不具有一致性元素的對數。
圖2為GABP模型與BP模型關于3種水質指標的模擬值與實測值的精度對比。圖2顯示,GABP模型對3種水質指標的模擬精度要明顯高于BP模型。GABP模型模擬高錳酸鹽指數(CODMN)時,與實測值的擬合方程斜率為1.060,與1十分接近,這表明模擬值與實測值的誤差較小,同時其決定系數R2為0.727,且相關性達到了極顯著水平(P<0.01),而BP神經網絡模型模擬值斜率為1.77,決定系數R2僅為0.298,表明模擬值的誤差較大,且BP神經網絡模型普遍高估了CODMN的值;GABP模型模擬總氮(TN)時,與實測值的擬合方程斜率為0.950,與1十分接近,這表明模擬值與實測值的誤差較小,同時其決定系數R2為0.864,且相關性達到了極顯著水平(P<0.01),而BP神經網絡模型模擬值斜率為1.59,決定系數R2僅為0.498,表明模擬值的誤差較大,且BP神經網絡模型普遍高估了TN的值;在模擬總磷(TP)時,其結論基本一致。這表明GABP模型在水質模擬中的計算精度普遍較高。

圖2 不同模型不同水質指標模擬精度對比
表1為不同模型計算結果與實測值的計算精度指標分析。表1顯示,不同指標GABP模型模擬結果的計算誤差均較低,且結果與實測值的一致性均較高。在計算CODMN時,GABP模型計算結果的RMSE僅為0.301,CD和K值分別達到了0.874和0.921,且相關性均達到了極顯著水平(P<0.01),而BP模型RMSE達到了0.654,CD和K值分別僅為0.301和0.432,且相關性均未達顯著水平(P>0.05);在計算TN時,GABP模型計算結果的 RMSE僅為 0.257,CD和 K值分別達到了 0.864和0.798,且相關性均達到了極顯著水平(P<0.01),而BP模型RMSE達到了0.723,CD和K值分別僅為0.412和0.298,且相關性均未達顯著水平(P>0.05);在計算TP時,結論與其余2個指標基本一致。綜上所述,GABP模型模擬值與實測值相比,計算誤差較小,計算結果一致性較高,模型模擬精度較高。

表1 不同模型不同水質指標模擬精度指標體系計算結果對比
本文用遺傳算法優化BP神經網絡模型,以3種水質指標實測值為基礎,以期模擬水質指標,得出用于水質監測的模型,將得出的結果與BP神經網絡模型做了對比,指出GABP模型在模擬3種水質指標時,與實測值的擬合方程斜率均接近于1,決定系數R2均在0.70以上,CD和K值也均超過了0.85,且相關性達到了極顯著水平,表明該模型用于模擬水質指標的精度較高,但由于本研究僅選取了3種水質指標進行驗證,對其余指標的驗證應在今后的研究中進一步討論。
[1]劉國東,黃川友,丁晶.水質綜合評價的人工神經網絡模型[J].中國環境科學,1998,18(6):514—517.
[2]張春桂,曾銀東,馬治國.基于模糊評價的福建沿海水質衛星遙感監測模型[J].應用氣象學報,2016,27(1):112—122.
[3]郭小青,項新建.基于神經網絡模型的水質監測與評價系統[J].重慶環境科學,2003,25(5):8—10+25.
[4]楊咪,屈文崗,錢會.基于熵權的貝葉斯模型及其在水質評價中的應用[J].灌溉排水學報,2018,37(1):1—7.
[5]曹宇峰,林春梅,孫霞.模糊數學法在海洋水質評價中的應用[J].海洋技術,2011,30(2):118—122.
[6]李松,羅勇,張銘銳.遺傳算法優化BP神經網絡的混沌時間序列預測[J].計算機工程與應用,2011,49(29):52—55.
[7]劉振華,趙英時.基于遺傳算法的不同光照條件下植被和土壤組分溫度反演[J].農業工程學報,2012,28(1):161—166.
[8]仲云飛,梅一韜,吳邦彬,等.遺傳算法優化BP神經網絡在大壩揚壓力預測中的應用[J].水電能源科學,2012,30(6):98—101.