劉世存,楊 薇,田 凱,王歡歡,趙彥偉*,朱曉磊
(1.水環境模擬國家重點實驗室,北京師范大學環境學院,北京 100875;2.中國雄安集團生態建設投資有限公司,河北 保定071700)
白洋淀是華北平原最大的天然湖泊濕地,被譽為“華北明珠”,具有緩洪滯瀝、調節氣候、蓄水興利、漁葦生產等多種功能[1],在維持華北地區生態平衡和生物多樣性方面發揮生態安全屏障作用[2]。20世紀70年代至今,隨著流域及淀區人口數量的增長和經濟的發展,白洋淀入淀水量減少,水質呈下降趨勢[3],淀區內的南劉莊、端村站水質下降到Ⅴ類,總氮(TN)、總磷(TP)和化學需氧量(COD)超標較為嚴重。同時,白洋淀又處于雄安新區腹心位置,是雄安新區的重要生態依托,其水質狀況直接關系到雄安新區未來的整體環保形象,因此,對其進行水質預測,可為白洋淀綜合治理提供依據,對于推進雄安新區的水生態環境建設也具有重要意義。
由于影響水質的因素較多,各因素對水質的作用呈現復雜的非線性關系,傳統的數據處理方法不能很好地解決這一問題[4]。20世紀80年代迅速發展起來的人工神經網絡(ANN)為這種非線性復雜系統過程的模擬和評判提供了一條有效途徑[5]。ANN是一種非線性數據建模工具,常用來對輸入與輸出間復雜的關系進行建模,具有獨特的分布并行處理、非線性映射和自適應學習能力等特征[6],在水環境模擬與預測中被廣泛應用[7-9]。但傳統神經網絡方法只包括一個輸入層、一個輸出層和一個隱藏層,存在學習速度慢、擬合精度不高、易陷入局部極小值等問題[10],使應用受限。而基于深度學習(DL)算法實現的全連接神經網絡(FCN)包含5~6個隱藏層,可實現無監督學習,從而以更少的模型參數、更快的收斂速度和更高的擬合精度來逼近現實[11],在大氣污染預測[12]、能源消費量預測[13]、河流流量預測[14]、降雨預測[15]、水方案監測系統設計[16]和廢水污染去除效率評價[17-18]等領域得到較多應用,但其在水環境質量預測領域的研究較少。
本文利用1996—2015年白洋淀內南劉莊、圈頭和燒車淀監測點位的水質數據,建立全連接神經網絡水質預測模型,對白洋淀水質進行預測,為白洋淀水質管理與雄安新區水環境保護提供決策依據。
白洋淀位于海河流域大清河水系中游,地理位置為115°38′~116°09′E,38°43′~39°01′N(圖1)。淀區由保定市、滄州市交界143個相互聯系的大小淀泊和3 700多條溝壕組成,總面積366 km2,四周以堤壩為界。白洋淀多年平均氣溫7.3~12.7℃,年平均降水量563.9 mm,年平均蒸發量1 369.0 mm[19]。目前,白洋淀各水質監測站點全年平均水質類別為Ⅳ類至Ⅴ類,主要污染物為COD、TN、TP等。
本研究在模型的訓練、率定和校驗時,分別利用了白洋淀南劉莊、圈頭和燒車淀監測點1996—2015年、2016年和2017—2018年水質監測數據。其中,2013年和2018年數據是通過現場采樣監測獲取,2016—2017年數據來自安新縣環保局,2009—2012年和2014—2015年數據來自相關文獻[20-22],1996—2008年數據來源于保定市環境質量公報。

圖1 白洋淀地理位置Figure 1 Location of Baiyangdian
2.1.1 數據預處理
為使神經網絡有更高的訓練效率和預測精度,提高訓練靈敏性,需要對原始數據進行歸一化預處理。為方便結果的對比,還需對模型預測值進行反預處理。本研究選擇較為常用的最大值最小值處理法,但由于傳統的方法會出現0值,極易對結果產生較大影響,因此參考郭慶春等[23]改進的最大值最小值歸一化方法,對水質原始數據進行預處理,對模型預測值進行反預處理。數據預處理方法的計算公式為:

反預處理方法的計算公式為:

式中:x是水質原始數據;y是預處理后的數據;xmin和xmax分別是原始數據的最小值和最大值。
2.1.2 模型邊界設定
本研究以白洋淀四周的堤壩邊界為模型空間邊界,以1996—2022年為模型的時間邊界。其中,1996—2015年為歷史統計數據年,2020—2022年為模型預測年,為減少時間步長帶來的誤差,確定模型模擬的時間間隔為1個月。
由于實訓項目的開展貼近行業實踐,校企合作剛好為學生提供了參與企業實際項目的機會,并受到來自企業技術人員的專業指導,增強了課程內容的專業化水平。另一方面,企業也可以從學生參與項目的過程中,考量和挖掘人才。在實踐教學的有力助推下,生命科學學院獲批教育部“產教融合、協同育人”項目1項,填補了學院在該類項目上的空白,也為校企合作的縱深發展奠定了良好基礎。
2.1.3 模型變量和參數設置
(1)輸入變量與輸出變量確定
將1996—2015年南劉莊、圈頭和燒車淀監測點位的生化需氧量(BOD)、COD、TN和TP等4項水質指標數據用作模型的訓練,2016年數據用作模型率定,2017—2018年數據用作模型校驗。模型的輸入變量是BOD、COD、TN和TP的監測值,模型的輸出變量是BOD、COD、TN和TP的預測值。
(2)網絡層數和隱藏層確定
神經網絡模型的主要結構包括輸入層、隱藏層和輸出層。相比于傳統神經網絡模型,全連接神經網絡更強調模型的深度,通常有5層或6層甚至更多的隱藏層。本研究構建了含一個輸入層和一個輸出層的神經網絡,由于選定的水質指標是4項,因此輸入層和輸出層的神經元個數均是4。根據Komogorov定理和Hecht-Nielsen理論,采用試錯法確定隱藏層層數和隱藏層的節點數量,最終確定的隱藏層層數為6,節點個數分別為32、64、128、64、32、8,神經網絡拓撲結構最終確定為 4∶32∶64∶128∶64∶32∶8∶4(圖2)。
(3)模型主要參數設置

圖2 白洋淀多層全連接神經網絡水質預測模型結構Figure 2 Multi-layer fully connected neural network water quality prediction model structure of Baiyangdian
選擇2016年燒車淀監測站點的BOD、COD 2項指標,對模型參數進行率定。將神經網絡學習步長由10 000調增為15 000,再調增為20 000,將每次送入網絡中訓練的數據個數由55調增為65,再調增為88。模型參數率定前后水質指標的擬合效果對比見圖3(a、c為率定前效果,b、d為率定后效果)。由圖可見,模型參數率定后,擬合優度判斷系數R2均在0.99以上,說明擬合效果較好。
同時利用平均絕對誤差(MAE)檢驗率定結果。MAE是模型運行生成的損失函數,計算公式為:

式中:yi為實際值,mg·L-1;為模型的預測值,mg·L-1;n為數據的個數。經過參數率定,隨著訓練步數的增加,模型模擬的MAE值大幅度減小。由表1可見,訓練結束時,MAE平均值由參數率定前的2.45下降到0.05,誤差在可接受范圍內。
利用2017年和2018年白洋淀燒車淀、南劉莊、圈頭3點位及其平均水質數據,對率定后的模型進行校驗。各項水質指標實際值和預測值的擬合情況如圖4~圖7,模型校驗誤差見表2。
由圖可見,各項水質指標的模型擬合優度判斷系數R2均在0.85以上,模型整體擬合效果較好。其中,燒車淀的BOD、COD、TN、TP,南劉莊的BOD、COD,圈頭的BOD、COD、TN、TP和淀區BOD、COD、TP平均值的擬合優度判斷系數R2均超過0.90,模型對各項水質指標擬合的MAE在0.011~0.214之間(表2)。構建的模型校驗結果理想,模型可用。

表1 模型參數率定前后誤差對比Table 1 Error comparison before and after model parameter calibration

圖3 模型參數率定前后擬合效果對比Figure 3 Comparison of fitting effect before and after model parameter calibration
采用本研究構建的全連接神經網絡模型,對白洋淀2020年3月—2022年11月南劉莊、圈頭、燒車淀及3點位的平均水質進行預測,結果見圖8。由圖可見,各點位BOD、COD、TN和TP濃度均呈下降趨勢。其中,燒車淀水質改善最為明顯,各項水質指標均達到地表水Ⅳ類標準;圈頭水質改善情況一般,TN沒有達標;南劉莊水質改善最少,TN和TP沒有達標;3點位預測平均值TN沒有達標。各項指標中:BOD濃度依次為圈頭>南劉莊>3點平均>燒車淀;COD濃度依次為圈頭>3點平均>燒車淀>南劉莊;TN濃度依次為南劉莊>3點平均>圈頭>燒車淀;TP濃度依次為南劉莊>3點平均>圈頭>燒車淀。整體來說,未來3 a白洋淀燒車淀的水質相對較好,南劉莊的水質相對較差,圈頭的水質一般。總體上,未來3 a各點位水質均有所改善,但仍面臨部分點位TN、TP富營養化指標不達標的問題。

表2 模型校驗誤差Table 2 Model validation error
為進一步評估預測結果的可靠性,采用灰色模型GM(1,1)和曲線估計方法對未來3 a白洋淀平均水質進行預測。采用灰色模型GM(1,1)時,分別用最小二乘法計算得到不同水質指標數據對應的參數估計值,建立模型對應的白化方程及時間響應式,得到未來水質指標預測值。采用曲線估計方法時,以水質指標數據作因變量,時間作變量,選擇擬合效果最好的方程作為曲線估計方程進行預測。3種方法預測結果的對比見圖9。由圖可見,3種模型預測的水質指標變化趨勢基本一致,BOD、COD、TN和TP濃度均有所降低。相比于本文構建的全連接神經網絡模型,灰色GM(1,1)模型預測結果數值偏低,曲線估計方法預測結果數值偏高,但預測結果均沒有較大差異。可見,經過多次訓練,本文構建的全連接神經網絡模型預測結果和其他模型結果差異較小,預測結果可靠。

圖4 燒車淀各項水質指標模型擬合結果Figure 4 Model fitting results of various water quality indexes in Shaochediana

圖5 南劉莊各項水質指標模型擬合結果Figure 5 Model fitting results of variouswater quality indexes in Nanliuzhuang

圖6 圈頭各項水質指標模型擬合結果Figure 6 Model fitting results of various water quality indexes in Quantou

圖7 平均水質各項指標模型擬合結果Figure 7 Model fitting results of variouswater quality indexes in average water quality

圖9 3種模型預測結果對比Figure 9 Comparation of the prediction results of three models
由預測結果可見,未來3 a白洋淀仍面臨部分水質指標不達標的問題,尤其是南劉莊的TN和TP等富營養化指標超標。這可能是因為南劉莊位于府河入淀口附近,接受大量府河入淀的市政污水,污染負荷巨大。圈頭的TN預測結果也略有超標,這可能是由附近淀中村和純水村的生活污水排放所致。同時,湖泊底泥和沉積物營養物釋放與圍堤圍埝眾多導致的水系連通性變差,可能也是富營養化指標預測結果超標的一個原因。未來的治理中,應堅持“控源、補水、連通”相結合的治理思路,協調保定市加強市政污水的治理,加強水村和淀中村的生態移民與生活污染治理,并結合雄安新區的發展,科學實施城鎮地表徑流與種植業化肥過施導致的非點源污染控制;還要結合“南水北調”和“引黃濟淀”的工程,多路徑實施生態補水,抬高生態水位,提升環境容量;同時,應實施淀區水動力條件的模擬與分析,在不影響底泥污染釋放的前提下,拆除圍堤圍埝等阻水建筑,實現白洋淀溝渠水系連通,改善水動力條件,促進污染擴散與降解。
相比于傳統的單隱藏層BP神經網絡,本文構建的全連接神經網絡含6個隱藏層,網絡訓練時的計算量增加,模型模擬的 MAE 值為 0.011~0.214,R2在0.856~0.999之間,模型率定與校驗結果比較理想。鄒志紅等[24]計算了BP神經網絡在河流水質預測中的誤差,模型MAE值為0.178~0.628。陳鵬飛等[25]構建了BP神經網絡用于清河水庫水質的預測,模型MAE值為0.438~1.568。相比之下,本文構建的全連接神經網絡模型預測精度有一定提高,但該模型也存在網絡訓練時間相對較長、模型輔助參數較多等不足,以后可通過優化實現程序等方式改進。
本文利用1996—2015年白洋淀南劉莊、圈頭和燒車淀3個監測站點的水質數據,通過模型率定與校驗,構建了白洋淀全連接神經網絡水質預測模型,對白洋淀水質變化趨勢進行預測。結果表明,未來3 a白洋淀水質呈現好轉趨勢,BOD、COD、TN和TP濃度均有所下降,但仍有部分點位TN和TP超標,應加強入淀河流與淀中村污染控制,強化生態補水與水系連通,進一步改善白洋淀水環境質量。