基于機器學習方法的洪澤湖入湖水質評價及預測研究

2021-12-30 06:16:46石晴宜董增川王天宇

中國農村水利水電 2021年12期

石晴宜，董增川，羅赟，姚敏，崔璨，王天宇

（1.河海大學水文水資源學院，南京 210098；2.江蘇省水文水資源勘測局，南京 210029；3.長江勘測規劃設計研究有限責任公司，武漢 430010）

0 引言

水是人類和其他生命體所依賴的不可缺少的資源，建立水質模型預測水質狀況具有重要的社會經濟和生態環保價值。目前水質預測模型可按其內理性質分為機理性水質預測模型和非機理性水質預測模型兩大類［1］。機理性模型本質上是依據水環境系統的基本物理、生物、化學特性，利用系統結構數據推導出的模型，如S-P、QUAL、WASP等模型［2-4］。機理性模型預測結果較為理想，但由于其模型搭建需要大量基礎資料與長期的監測數據，而水質數據通常較為缺乏，因此在實際運用上存在一定的困難。非機理性水質預測模型是一種黑箱方法，直接對帶有時間序列的水質監測數據進行預測研究，不探究水質變化內在原理。諸多學者基于數理統計方法與計算機技術，開展了大量非機理性水質預測模型的研究：鄧聚龍提出的灰色模型對序列中樣本數量和分布沒有特殊要求，在水質預測建模中得到了較多的應用［5］。翟偉等提出了將人工神經網絡結合灰色預測法，實現了對水質的動態預測［6］。張秀菊等運用支持向量回歸機的理論與方法，構造水質預測模型，較好地反映了通州區新江海河站點NH3N及TP兩項指標的變化趨勢［7］。

為提高水質模型預測精度，提出耦合多種黑箱式模型進行綜合水質預測。小波分析是一種多分辨率分析方法，可以對信號逐步進行多尺度劃分，具有良好的局部檢測功能，常用于表征數據變換的瞬態和奇異點特征［8］。目前小波分析已被廣泛運用于水文序列多時間尺度變化特性分析［9］、水文序列消噪［10］、中長期水文預報［11］等領域。循環神經網絡（RNN）是一類具有短期記憶能力的神經網絡，其每個神經元在某時刻的輸出可以作為輸入再次輸入到神經元［12］，因此對時間序列的處理具有一定優勢。Hochreiter 等提出的長短記憶網絡［13］改進了傳統的RNN存在的循環多次后出現梯度消失甚至梯度爆炸的問題［14］，已用于藍藻水華預測［15］、養殖水質分類預測［16］和地表水多因子預測［17］。水質評價是反映水體污染狀況的重要方式，目前常用的評價方法有：單因子評價法、內梅羅指數法、模糊綜合評價法、主成分分析法等［18］。其中，模糊綜合評價法基于模糊理論，綜合考慮了水環境污染因素的模糊性和不確定性［19］，近年來模糊綜合評價法及其改進算法被廣泛應用于河流、湖泊、水庫等水質評價中［20，22］。模糊神經網絡是模糊理論與神經網絡相結合的產物，它兼具兩者的優點，既可以表示模糊和定性的知識，又具有較好的學習能力［23］，而其中基于T-S 的模糊神經網絡在模式識別分類方面具有優勢，被證明在水質評價中切實可行［24，25］。將小波分析、長短記憶神經網絡與模糊神經網絡耦合進行水質預測可以結合三種模型的優勢：針對水質序列波動大的特征，可利用小波分析細化水質數據，優化LSTM 預測模型輸入；針對單因子水質預測難以展現水體整體狀況的問題，可通過模糊神經網絡預測水質變化綜合趨勢。

本文提出基于小波分析和長短期記憶神經網絡的水質單因子預測方法，在此基礎上使用模糊神經網絡的方法對未來水質進行綜合評價。洪澤湖是中國第四大淡水湖，位于江蘇省西部淮河下游，是國家南水北調東線工程的重要調蓄湖泊和江蘇省北部地區重要水源。因此，洪澤湖水質的好壞將直接影響“南水北調”水體的質量以及蘇北地區乃至淮海平原的用水質量與安全［26］。本文采用洪澤湖主要入湖河道淮河（盱眙化肥廠站）的水質數據，通過WA-LSTM 模型進行水質單因子預測，利用T-S模糊神經網絡評價整體水質狀況，并在計算過程中，與傳統LSTM模型進行對比，驗證本方法的有效性和科學性。

1 方法及原理

1.1 小波變換

小波變換是用于分析和處理非平穩時間序列的有用且強大的數學工具［27，28］。小波變換通過伸縮平移運算對信號進行細化，提取時頻特征。小波變換分為連續小波變換（CWT）和離散小波變換（DWT）。連續小波變換表示如式（1）：

式中：f(t)為原始信號；Wf(a，b)為小波變換系數；a為伸縮因子；b為平移因子；Ψ(t)為一連續函數，被稱為母小波；*表示復共軛。

由于離散小波變換的計算速度較快且開發過程更簡單，實際應用中離散小波變換比連續小波變換更常用［29］。用Mallat塔式算法計算離散小波變換，計算方法見式（2）和式（3）：

式中：n為樣本數；j為分解級別；cAj為近似系數；cDj為細節系數；h為低通濾波器；g為高通濾波器。

Mallat重構算法進行重構，計算方法見式（4）：

Mallat塔式算法離散小波分解與重構流程示意圖見圖1。

小波分解后得到的重構數據序列在時域和頻域都有表征信號局部特征的能力，與原數據序列相比，更易檢測信號的瞬態或奇異點，對于分析和處理如水質數據一類的非平穩時間序列具有明顯優勢。

1.2 長短記憶神經網絡

長短記憶神經網絡作為RNN的一種變體，同樣具有重復模塊的鏈狀結構。但不同的是，LSTM 的重復模塊更為復雜，且將RNN 中隱含層的神經元替換為記憶體［30］，實現序列信息的保留和長期記憶。

圖2為LSTM 記憶體結構，LSTM 的關鍵是細胞狀態C，LSTM 通過3 種類型的“門控”實現細胞狀態中信息的刪除與添加：遺忘門（f）、輸入門（i）、輸出門（o）。

遺忘門確定丟棄的信息，即對于上一時刻細胞狀態Ct-1的保留程度。計算方法如式（5）。

式中：σ為sigmoid 函數；Wf為輸入權重；ht-1為上一時刻的隱藏層狀態；xt為當前時刻節點的輸入值；bf為偏置項。

輸入門確定存儲的信息，與遺忘門結合，更新當前時刻細胞狀態Ct。計算方法如式（6）～（8）。

式中：為新信息；Wi、WC為輸入權重；bi、bC為偏置項。

輸出門確定輸出值，由細胞狀態與Sigmoid 門的輸出共同確定輸出信息。計算方法如下式（9）和式（10）。

式中：Wo為輸入權重；bo為偏置項；ht為輸出的當前時刻隱藏層狀態。

1.3 基于小波分解的長短記憶神經網絡（WALSTM）單因子預測模型

構建基于小波分析的LSTM 時間序列預測模型，結構如圖3所示，算法步驟如下：①數據收集與預處理：收集實測水質數據，識別并刪除異常數據，填補缺失值，確保模型輸入的準確性和完整性；②小波分解：選取基小波，確定分解層數n，對原始信號數據進行n層小波分解，由高通濾波器產生與子波函數相關的n組細節系數，低通濾波器產生與尺度函數相關的近似系數，并進行系數重構，由小波長度轉換為時域長度；③樣本數據劃分：將小波分解后的各組數據統一劃分為訓練數據和測試數據。訓練數據用于訓練LSTM 模型，模擬時間序列演變規律；測試數據用于分析預測精度，驗證模型性能；④訓練模型：將訓練數據作為樣本輸入訓練LSTM 時間序列預測模型，不斷調整參數，直至滿足精度要求；⑤信號預測：將測試數據輸入訓練好的LSTM 時間序列模型，分別對低頻信號和高頻信號進行預測；⑥重構信號：對LSTM 模型輸出結果進行小波重構，獲得水質單因子預測結果，并對比分析LSTM、WA-LSTM預測準確度。

1.4 T-S模糊神經網絡模型

模糊神經網絡是模糊系統與神經網絡的結合，模糊系統按常見的形式可分為：純模糊邏輯系統、T-S（Takagi-Sugneo）模糊邏輯系統和廣義模糊邏輯系統等。其中基于T-S模糊系統的神經網絡是一種非線性模糊推理模型，具有表達模糊推理規則、計算簡單、利于數學分析的優點［31］。T-S 模糊系統采用“ifthen”規則形式來定義，輸入向量為X=[x1，x2，…xk]，規則為Ri的模糊推理如下：

式中：i為模糊子集數；k為輸入參數總個數；A為模糊系統的模糊集；p為模糊參數；y為根據模糊規則得到的輸出。該模糊推理表示輸出為輸入的線性組合［32］。

T-S 模糊神經網絡具有輸入層、模糊化層、模糊計算層、輸出層四層結構。輸入層節點數與輸入向量的維數一致；模糊化層對輸入值進行模糊化，各輸入變量xj的隸屬度μAij為：

式中：j為輸入參數數；cij為隸屬度函數的中心；bij為隸屬度函數的寬度。

模糊計算層對各隸屬度進行模糊計算，見式（13）：

輸出層根據模糊計算結果計算模糊神經網絡的輸出，見式（14）：

其中，模糊參數、隸屬度函數的中心和寬度依據實際輸出與期望輸出的誤差進行修正。

2 算例分析

2.1 研究區概況

洪澤湖是中國第四大淡水湖，位于江蘇省西部淮河下游，蘇北平原中部西側，地處淮安、宿遷兩市境內，地理位置在北緯33°06′～33°40′，東經118°10′～118°52′之間。目前洪澤湖現狀水體存在富營養化問題，TN、TP 污染較為嚴重。若TN、TP 不參評，湖區水質可維持在III～IV類；若參評，湖區水質屬于V類。

洪澤湖接納的污水以外來污染源為主，洪澤湖主要入湖河道有：淮河、新汴河、老濉河、新濉河、徐洪河、懷洪新河。選取氨氮（NH3N）、總磷（TP）、總氮（TN）、高錳酸鹽指數（CODMn）四項指標濃度，根據2003-2018年洪澤湖各入湖河道的水量及水質數據，計算通過各河道進入洪澤湖的多年平均污染物通量，可得淮河入湖污染物所占比重最大，其中NH3N 占入湖總量的79.13%，TP 占入湖總量的83.38%，TN 占入湖總量的87.67%，CODMn占入湖總量的81.10%。淮河干流在1992、1994、1995、2004年等年份相繼發生污染團下泄事件，對洪澤湖的水體造成嚴重污染，破壞了其生態系統［33］。由此可見，淮河作為洪澤湖主要污染來源，準確并及時地對其進行水質預測與評價對于改善洪澤湖水環境有重要意義。

2.2 數據來源與預處理

本文選取NH3N、TP、TN、CODMn四項指標，從江蘇省水土保持生態環境監測總站收集2003-2018年盱眙化肥廠水質測站（代表淮河干流）逐月各項指標濃度共192 組數據，取前173 組作為訓練數據，后19組作為測試數據。

TP 與TN 指標在2003年1月-2004年4月存在缺失，采用均值平滑法進行填補，用缺失數據前后的平均值替代缺失值。

2.3 單因子預測

為判斷預測結果優劣，選取均方根誤差（RMSE）和決定系數（R2）作為評價指標。其中RMSE表征模型擬合偏差，RMSE值越小，預測值相對于真實值的偏差越小；R2表征擬合優度，R2值越接近1，模型擬合能力越好。計算公式如下。

式中：n為樣本數；xi為實測值；xi′為預測值為實測數據平均值。

2.3.1 小波分解

利用Matlab 對預處理后的四組數據進行小波分解，選擇“db5”作為基小波，確定分解層數為3層，并進行系數重構，將原始信號分解為表征細節的高頻信號D1、D2、D3和表征逼近的低頻信號A3，分解結果如圖5。

將經過小波分解后的各個頻段信號相加還原，計算四項指標重構后與原始信號的最大絕對誤差。NH3N、TP、TN、CODMn四項指標重構信號與原始信號的最大絕對誤差分別為1.02×10-11、4.45×10-13、1.60×10-11、6.19×10-12，可見重構信號與原信號誤差很小，可忽略不計，表明離散小波分解具有重現原始數據的能力。

2.3.2 預測結果對比分析

使用基于小波分析的LSTM 模型對前173 組數據進行訓練，對后19組做出預測。設置求解器為Adam，隱藏層節點數為128，每次預測進行300 輪訓練，不斷調整batch_size（批量大小）及learning_rate（學習率），使模型不僅具有較高的預測精度，還能達到快速收斂的效果。為避免實驗中偶然因素，每組實驗進行5 次預測。經多次實驗確定最優模型參數如表1所示。將各個頻段的預測結果融合，實現小波重構，獲得單因子預測水質濃度。再將原始信號輸入傳統的LSTM 模型，前173 個數據訓練模型，預測后19個時間點的各項水質指標濃度。盱眙化肥廠水質監測站LSTM 及WA-LSTM 單因子預測結果如圖6所示，預測結果精度如表2所示。

表1 LSTM及WA-LSTM 網絡設置參數Tab.1 Parameters of LSTM and WA-LSTM network

由圖6可以看出，傳統LSTM 模型雖能預測出水質變化趨勢，但存在較大誤差，對于變化細節以及突變點預測精度不足：NH3N 指標未能預測兩次（編號6-9）突變現象，且在后期（編號16-19）預測誤差顯著增大；TP 指標未能預測出濃度的陡落（編號5-6）及陡升（編號16-17）；TN 指標在極大值（編號2、10、14）處的預測精度較低；CODMn預測值普遍低于實際值。而基于小波變換的LSTM 模型預測誤差明顯小于傳統LSTM 模型，不僅能準確預測變化趨勢，而且預測值與實測值十分接近。根據表2對模型進行性能分析：WA-LSTM模型的預測結果RMSE均小于LSTM，說明WA-LSTM 模型單因子預測值與實測值誤差較小；WA-LSTM 模型決定系數R2均接近1.0 且遠大于LSTM，表明WA-LSTM 模型性能較好，預測結果較為準確。其中TN 的預測結果精度較高，CODMn指標精度較低，但均在誤差允許范圍內。單因子預測結果是后續模糊神經網絡綜合水質預測的基礎，因此為確保綜合水質預測的有效性，選用WA-LSTM 單因子預測結果作為綜合水質預測的輸入。

表2 單因子預測精度Tab.2 Accuracy of single factor prediction

2.4 綜合水質預測與評價

由于水質評價真實數據較少，采用等隔均勻分布方式內插水質指標標準數據生成訓練樣本和測試樣本，采用的水質指標標準數據見表3。

表3 地表水環境質量標準mg/LTab.3 Surface Water Environmental Quality Standard

考慮盱眙化肥廠站TN 指標超標較為嚴重，因此區分包含TN和不包含TN進行綜合水質預測。根據訓練樣本的維度確定輸入層節點數，結合經驗公式及試錯法確定模糊層節點數，最終確定含TN 的綜合水質預測模糊神經網絡結構為4-8-1，不含TN 的綜合水質預測模糊神經網絡結構為3-6-1；根據水質指標評價標準，生成350 組訓練樣本，50 組測試樣本，對單因子預測的19組結果進行綜合水質預測，預測結果如表4所示。

由表4可知，將WA-LSTM 單因子預測作為水質綜合預測模型輸入，計算結果與實測數據綜合評價結果基本相同。在TN參評情況下，預測結果與真實值完全一致，在預測時間段內盱眙化肥廠站水質始終處于V 類水平，水質較差。在TN 不參評時，預測值與真實值稍有偏差，預測準確率為78.9%，盱眙化肥廠站通常處于III～IV 類標準且在預測時間內有好轉趨勢，將III類標準作為洪澤湖目標水質標準，若TN 參評，則達標次數為0，若TN 不參評，實際達標次數為5 次，預測達標次數為3 次，可見預測水質情況稍劣于實際情況。該評價結果與洪澤湖湖區水質狀況相似，進一步驗證了將淮河作為洪澤湖主要污染來源進行分析的可靠性。從評價結果來看，淮河入洪澤湖水質情況雖有好轉，但TN 仍為超標的主要污染物，需嚴格把控淮河入洪澤湖河口的水質，加大檢測力度，采取改善水質的干預措施，以此改善洪澤湖湖區的水生態環境。

表4 T-S模糊神經網絡綜合水質預測結果Tab.4 Results of T-S fuzzy neural network comprehensive water quality prediction

3 結論

本研究利用WA-LSTM 模型與模糊神經網絡結合建立了水質綜合預測模型，將其運用于洪澤湖入湖水質的綜合預測與評價，主要得到以下兩個結論。

（1）由于單項水質指標經過小波分解后再利用長短記憶神經網絡模型進行時間序列預測更能準確地反映整體趨勢，把握變化細節，因此與傳統LSTM 模型相比，WA-LSTM 水質預測誤差更小且模型性能更好。

（2）基于T-S的模糊神經網絡綜合水質預測模型，可以有效解決單因子預測不能解釋水質整體情況的問題，其與WALSTM 模型的耦合使用不僅能夠較好地處理水質這種高噪聲數據，還可以保持較好的泛化性。□