徐勝強
(河北省邯鄲水文勘測研究中心,河北 邯鄲 056001)
水質是水資源管理和保護的重要指標之一,對于保障人類健康和生態環境的可持續發展具有重要意義。邯鄲岳城水庫位于磁縣與安陽縣兩縣相交界處,是該地區重要的水源地和水利工程,水質的評價和預測對于水庫管理和保護至關重要。傳統的水質評價和預測方法主要依賴于統計分析和經驗模型,對于復雜的非線性關系和時空變化規律的揭示存在一定的局限性。因此,本研究基于BP 神經網絡技術,旨在提供一種新的、準確的水質評價和預測方法,通過對水質監測數據的分析和處理,可以建立起水質與相關因素之間的復雜非線性關系,實現對水質的準確評價和未來趨勢的預測。
BP 神經網絡,即反向傳播神經網絡,是一種常用的人工神經網絡模型,用于解決分類和回歸等問題[1]。它基于誤差反向傳播算法,通過不斷調整網絡參數,使得網絡的輸出與期望值盡可能接近。
第一,神經元模型:BP 神經網絡由多個神經元(或稱為節點)組成。每個神經元接收來自上一層神經元的輸入,通過激活函數處理后產生輸出。
第二,前向傳播:BP 神經網絡采用前向傳播的方式,將輸入信號通過網絡的各層傳遞,直到輸出層產生最終的輸出。
第三,權重調整:BP 神經網絡通過誤差反向傳播算法進行訓練。首先,根據輸入樣本的真實輸出和網絡當前輸出之間的誤差,計算輸出層神經元的誤差[2]。然后,將誤差通過網絡的連接權重反向傳播到隱藏層和輸入層的神經元,根據誤差大小調整權重。這樣,網絡逐漸調整權重,使得輸出逼近期望值。
第四,激活函數:在BP 神經網絡中的神經元中,所用的激活函數一般使用Sigmoid 函數,對神經元的輸入進行輸出轉換。Sigmoid 函數具有連續、可導的特性,適合用于誤差反向傳播算法。
BP 神經網絡的模型結構分為三層。其中,輸入層用于接收外部輸入的特征向量或樣本數據,每個輸入節點對應一個特征或屬性,輸入層節點的數量取決于輸入數據的維度;隱藏層是位于輸入層和輸出層之間的一層或多層神經元組成的層,隱藏層的節點數量和層數可以根據問題的復雜程度和需求進行設置,隱藏層的主要功能是進行特征提取和數據轉換,通過非線性激活函數將輸入信號轉化為更高級的特征表示;輸出層是神經網絡的最后一層,將隱藏層的輸出轉化為最終的輸出結果,輸出層的節點數量通常根據問題的要求來決定,例如分類問題中,輸出節點的數量可以對應不同的類別。
BP 神經網絡的優點是可以解決非線性問題,具有較強的逼近能力和泛化能力。它可以通過訓練過程自動學習數據的特征和規律,并進行模式識別和預測。需要注意的是,BP 神經網絡存在訓練速度慢等問題,為此,相關研究人員對算法和結構進行了一定的改進,如改進的激活函數、正則化技術、卷積神經網絡等。總之,BP 神經網絡是以誤差反向傳播算法為基礎的網絡模型,通過調整網絡參數來實現輸入與期望輸出的接近,適用于各種分類和回歸問題。
收集與水庫水質相關的監測數據,包括水溫、pH 值、溶解氧、濁度、總磷、總氮等指標,數據可以通過水質監測站、傳感器等設備獲取,也可以通過歷史記錄、實地采樣等方式獲取[3]。對收集到的數據進行篩選,將其中的異常或者缺失的數值去除,減少干擾。異常值可以通過統計方法或專業知識進行識別和處理,缺失值可以通過插值或刪除等方法進行處理。
第一,特征提取:從原始的水質監測數據中提取與水庫水質評價和檢測相關的特征。特征提取的目標是從原始數據中提取出最能反映水質狀態和變化的信息。常用的特征提取方法包括統計、頻域、時域等特征的提取等。統計特征提取是計算監測數據的均值、方差、最大值、最小值等統計指標,這些統計特征可以反映水質數據的分布和變化情況。頻域特征提取是通過對水質數據進行傅里葉變換或小波變換,提取頻域信息,如頻譜能量、頻帶特征等,這些頻域特征可以反映水質數據的周期性和頻率特征。時域特征提取是利用時序信息提取水質數據的動態特征,如趨勢分析、自相關系數等,這些時域特征可以反映水質數據的變化趨勢和關聯性。
第二,特征選擇:從提取的特征中選擇對水質評價和檢測具有重要意義的特征。特征選擇的目標是減少特征維度,提高模型的訓練效果和泛化能力。常用的特征選擇方法包括相關性分析、信息增益、主成分分析等。相關性分析是計算特征與水質指標之間的相關系數或相關性指標,篩選出與目標水質指標相關性較高的特征[4]。信息增益是通過信息熵和條件熵的計算,評估特征對目標水質指標的信息增益,選擇具有較高信息增益的特征。主成分分析是將原始特征通過線性變換,得到一組新的主成分,選擇對目標水質指標解釋能力較強的主成分作為特征。
對選擇的特征使用最大-最小歸一化進行歸一化處理,將各特征之間的量綱差別進行消除。將標準化后的數據集進行劃分,劃分為訓練集、驗證集和測試集三個數據集,通常用于各集的數據分別占總數據的70%、20%和10%的比例。劃分數據集的目的是為了評估模型的泛化能力和預測效果,并避免過擬合和欠擬合的問題。
根據問題的定義和研究目標,確定BP 神經網絡的輸入變量和輸出變量。輸入變量通常為水質監測指標,輸出變量可以是水質的分類結果、預測值等。將輸入和輸出變量進行編碼,使其適合于BP 神經網絡的輸入和輸出格式。常用的編碼方法包括二進制編碼、獨熱編碼等。對數據集進行平衡處理,以保證訓練集、驗證集和測試集中各類別數據的數量大致相等。對于不平衡數據集,可以采用欠采樣、過采樣等方法進行處理。
對BP 神經網絡的輸入層、輸出層以及隱藏層的結點數量以及各自權重進行明確,隱藏層的節點數和層數的確定需要根據問題的復雜度和數據集的大小進行選擇和調整。對網絡的連接權重和偏置進行初始化,通常可以使用隨機數進行初始化。通過BP 神經網絡,對訓練集的輸入數據進行前向傳播,得到輸出數據,并將其和實際輸出數據相對比,計算兩者之間的誤差。根據誤差,使用反向傳播算法更新網絡的連接權重和偏置,以減小誤差,使網絡的輸出更接近實際值。
對前向和反向傳播的過程進行循環進行,直到達到預設的訓練終止條件,如達到最大迭代次數或誤差降低到一定閾值。使用驗證集,評估已經訓練好的模型對訓練好的模型,并對模型的準確率、精確率、召回率等指標進行計算,以評估模型的性能和泛化能力。根據評估結果和實際需求,對模型進行調優,包括調整網絡結構、學習率、正則化等超參數的選擇和調整。
使用測試集對訓練好的模型進行測試,預測水質的分類結果或預測值,對模型在測試集上的準確率等指標進行計算,從而進行模型預測能力和穩定性能的評估。通過對模型在驗證集和測試集上的表現,評估模型的性能和泛化能力,可以比較不同模型的評估指標,選擇表現最佳的模型作為最終模型。對模型的預測結果進行分析和解釋,根據模型的輸出結果提供水質評價和檢測的相關建議和解釋。
根據水質評價分級標準和國家生活用水質量標準,將水庫的水質劃分為三級。構建BP 網絡模型,輸入層和輸出層的結點數分別為6 和3,輸出向量的含義以及對應的關系見表1。
隱含層結點數按照式(1)選取:
式中:Q、M、N分別表示隱含、輸入以及輸出各層的結點數量;C為整數,取值自1 到10。進行多次試驗,選取Q為5,學習效率取值0.4,網絡結構為(6,5,3)。進行網絡訓練達到12000次后達到精度0.005 的要求。
BP 神經網絡的輸出范圍為0~1,因此需要對原始樣本進行歸一化處理,結果見表2。

表2 歸一化處理后的訓練樣本
BP神經網絡訓練完成以后,使用待測樣本對其進行檢驗,結果見表3。

表3 樣本檢驗結果
通過樣本檢驗結果,樣本二和四屬于一級水質,樣本五屬于二級水質,樣本一屬于三級水質,樣本三界于二級水質和三級水質之間,但樣本三中Cr 的含量超過二級水質標準,而且其三級水質的隸屬度達到0.587,因此該樣本為三級水質。對BP 神經網絡的輸出結果和水質分級標準相比較,可以看出兩者之間較為吻合,可以用來進行水質的評價與預測。
本研究基于BP 神經網絡模型,對邯鄲岳城水庫的水質進行評價和預測。通過收集水質監測數據,并利用BP 神經網絡模型建立水質與各指標之間的映射關系,我們得到了準確的水質評價和未來趨勢的預測結果。本研究的結果對于深入了解岳城水庫的水質狀況具有重要意義。通過對水質數據的分析和預測,可以及時發現水質異常和趨勢變化,為水資源管理和環境保護提供科學依據。同時,基于BP 神經網絡的水質預測模型可以為未來水質變化的預測提供參考,幫助決策者采取相應的措施,保障水源地的安全和可持續利用。總之,本研究基于BP 神經網絡模型,對邯鄲岳城水庫的水質進行了評價和預測,為水資源管理和環境保護提供了重要的科學依據。進一步的研究可以進一步改進模型的性能,并結合其他技術手段,提高水質評價和預測的準確性和可靠性。