劉亞平,魯言波,李彤,李曉芳
(廣東省生態(tài)環(huán)境監(jiān)測(cè)中心,廣東 廣州 510308)
水華是水體中藻類在一定條件下大量繁殖使水體達(dá)到富營養(yǎng)化狀態(tài)的現(xiàn)象,是水體中物理、化學(xué)和生物過程等多種因素共同作用的結(jié)果。治理水華通常采用化學(xué)處理方法,如通過銅綠原溶液、高錳酸鉀、聚合氯化鋁、硫酸亞鐵等化學(xué)藥劑進(jìn)行處理。但經(jīng)常性、長(zhǎng)期性使用這些化學(xué)藥劑,會(huì)引起化學(xué)物質(zhì)的積累,容易引起水體中毒,造成水體二次污染。加強(qiáng)葉綠素a(Chl-a)濃度預(yù)測(cè),能有效減少藍(lán)藻水華治理中化學(xué)溶液的使用,最大程度降低對(duì)水環(huán)境的影響。近年來,不少學(xué)者在水華和藻類生長(zhǎng)預(yù)測(cè)研究方面取得了一些進(jìn)展,如CHEN Q 等[1]應(yīng)用決策樹和分段非線性統(tǒng)計(jì)回歸方法預(yù)測(cè)了荷蘭海岸帶水華Chl-a 濃度的變化趨勢(shì);劉載文等[2]研究了基于改進(jìn)后支持向量機(jī)的LSSVM 水華中長(zhǎng)期預(yù)測(cè)模型和RBFNN 水華短期預(yù)測(cè)模型,并進(jìn)行了分析和比較;李大剛等[3]通過采用過程神經(jīng)網(wǎng)絡(luò)對(duì)水華進(jìn)行建模預(yù)測(cè),為水華的預(yù)測(cè)提供了一種新的途徑;吳羽溪[4]、徐文欣[5]基于圖像視覺技術(shù)對(duì)河湖藍(lán)藻水華進(jìn)行了研究,將深度學(xué)習(xí)方法應(yīng)用至多光譜藍(lán)藻水華檢測(cè)中,為圖像視覺技術(shù)在藍(lán)藻水華的識(shí)別預(yù)警應(yīng)用提供借鑒。BP 神經(jīng)網(wǎng)絡(luò)對(duì)于藍(lán)藻水華的預(yù)測(cè)也曾有學(xué)者[6~8]提出,但大多是采取臨時(shí)性布點(diǎn)的手工采樣,通過線性插值獲得數(shù)據(jù),難以滿足準(zhǔn)確性和連續(xù)性要求。本文采用的BP 神經(jīng)網(wǎng)絡(luò)模型是在水質(zhì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)場(chǎng)景下應(yīng)用,是當(dāng)前以自動(dòng)監(jiān)測(cè)為主要監(jiān)測(cè)模式下預(yù)測(cè)Chl-a 濃度的新方法,具有較強(qiáng)的推廣性。
BP 神經(jīng)網(wǎng)絡(luò)(Back-Propagation Network),也叫誤差反向傳播神經(jīng)網(wǎng)絡(luò),是一種采用Sigmoid 功能函數(shù)的多層前饋式神經(jīng)網(wǎng)絡(luò)[9][10],其通過自適應(yīng)學(xué)習(xí)訓(xùn)練來調(diào)整神經(jīng)元之間的連接權(quán)值,具有非常高的非線性映射能力。BP神經(jīng)網(wǎng)絡(luò)算法的核心思路是找到誤差下降最快的方向,按照該方向修正網(wǎng)絡(luò)的連接權(quán)值和神經(jīng)元的閾值,先通過輸出層的實(shí)際輸出與期望輸出來調(diào)整輸出層與隱層之間的權(quán)值,再調(diào)整隱層與輸入層之間的權(quán)值,也就是說,網(wǎng)絡(luò)是雙向進(jìn)行的,信號(hào)是從前向后,而誤差調(diào)整權(quán)值是從后向前,即為反向傳播,BP 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1 所示。

圖1 BP 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
本研究采用廣東省韶關(guān)市南水水庫2021年6 月10 日至8 月31 日共401 條有效水質(zhì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)。湖庫水華的生消伴隨著各種物理、化學(xué)和生物過程,是內(nèi)因和外因共同作用的結(jié)果[11],影響湖庫水華形成的特征因素既包括水溫(T)、pH、溶解氧(DO)、高錳酸鹽指數(shù)(CODMn)、氨氮(NH3-N)總磷(TP)、總氮(TN)9 個(gè)指標(biāo),又包括藻密度及水生物毒素等表征因素指標(biāo)。Chl-a 是表征水體富營養(yǎng)化現(xiàn)象及程度的重要指標(biāo)之一,也是水體理化和生物指標(biāo)的綜合表現(xiàn),故而以Chl-a 濃度作為網(wǎng)絡(luò)模型輸出變量,各指標(biāo)統(tǒng)計(jì)量見表1。

表1 監(jiān)測(cè)數(shù)據(jù)各因子統(tǒng)計(jì)量指標(biāo)
3.1.1 數(shù)據(jù)標(biāo)準(zhǔn)化
由于監(jiān)測(cè)數(shù)據(jù)中各變量的量綱和數(shù)量級(jí)不同,變量的單位也各異,因此為了數(shù)據(jù)在分析過程中具有統(tǒng)計(jì)學(xué)意義,模型訓(xùn)練前需對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以提高數(shù)據(jù)的可比性,本文采用數(shù)據(jù)Z-Score 標(biāo)準(zhǔn)化處理,見式(1)。
原始數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后,符合標(biāo)準(zhǔn)正態(tài)分布。
3.1.2 確定模型參數(shù)
為減少變量間共線性問題,加快模型算法收斂,首先對(duì)多維變量進(jìn)行降維處理,盡可能在保留原有信息的基礎(chǔ)上將高維空間樣本映射到低維空間。通過變量在主成分上的載荷因子,找出原始變量的線性表達(dá),9 個(gè)指標(biāo)參數(shù)降維處理后的主成分分析結(jié)果見表2。

表2 主成分分析結(jié)果
從各主成分貢獻(xiàn)結(jié)果看,第一主成分Z1貢獻(xiàn)率是34.24%,其中以T、W_cond 和Turb的主成分系數(shù)較大,表示Chl-a 的信息主要通過T、W_cond 和Turb 來表達(dá);第二主成分Z2貢獻(xiàn)率是18.01%,其中以pH、DO 和TP 的主成分系數(shù)較大;第三主成分Z3貢獻(xiàn)率是12.28%,其中以CODMn和NH3-N 的主成分系數(shù)較大;前5 個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)83.59%。
由于不同輸入變量會(huì)對(duì)Chl-a 濃度預(yù)測(cè)結(jié)果產(chǎn)生不同的影響,且最優(yōu)的網(wǎng)絡(luò)算法在很大程度上是不確定的,因此在BP 網(wǎng)絡(luò)比較復(fù)雜的情況下,訓(xùn)練的誤差往往會(huì)收斂于局部最小值,即使BP 網(wǎng)絡(luò)在訓(xùn)練過程中表現(xiàn)出很好的泛化性能,也不一定總能找到最優(yōu)解,這就需要進(jìn)行反復(fù)訓(xùn)練。由于pH、DO、TP 對(duì)Chl-a濃度影響最大,又有一些研究表明T 的變化和藍(lán)藻的生長(zhǎng)有著密切關(guān)系[12],因此最初以T、pH、DO、TP 這4 個(gè)主要因子為輸入變量建立多種模型,然后再逐一改變輸入變量建立網(wǎng)絡(luò)模型,直到剩2 個(gè)輸入變量為止,共11 種方案。不同的模型均反復(fù)訓(xùn)練2000 次,誤差閾值0.01時(shí)停止訓(xùn)練,結(jié)果見表3。

表3 不同變量的網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果
從結(jié)果看,方案4 中當(dāng)輸入變量為pH、DO、TP 時(shí)均方根誤差收斂于局部最優(yōu)值,說明 Chl-a 建立以pH、DO、TP 為輸入變量的預(yù)測(cè)效果最好。
根據(jù)以上方法,以pH、DO、TP 這3 個(gè)輸入變量建立模型來預(yù)測(cè)Chl-a 的濃度,通過R 軟件自帶的neuralnet 包來訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò)模型[13],用80%的樣本數(shù)據(jù)做訓(xùn)練,20%的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),結(jié)果如圖2 所示。

圖2 葉綠素a(Chl-a)預(yù)測(cè)值與實(shí)測(cè)值
由圖2 可知,基于pH、DO、TP 這3 個(gè)輸入變量建立的BP 神經(jīng)網(wǎng)絡(luò)對(duì)Chl-a 的預(yù)測(cè)值和實(shí)測(cè)值之間擬合程度較好,預(yù)測(cè)值和實(shí)測(cè)值相關(guān)系數(shù)R2達(dá)到0.972,具有高度相關(guān)性,表明模型對(duì)樣本數(shù)據(jù)有很好的預(yù)測(cè)效果。
為進(jìn)一步比較性地研究BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)于Chl-a 的預(yù)測(cè)效果,在圖2a 的基礎(chǔ)上加入經(jīng)典廣義線性回歸預(yù)測(cè)模型對(duì)Chl-a 濃度的預(yù)測(cè)曲線,結(jié)果如圖3 所示。
綜上可知,BP 網(wǎng)絡(luò)模型對(duì)Chl-a 的預(yù)測(cè)效果遠(yuǎn)高于線性回歸模型的預(yù)測(cè)效果,特別是在Chl-a 濃度變化較大時(shí),BP 網(wǎng)絡(luò)模型的優(yōu)勢(shì)更加明顯。
湖庫生態(tài)系統(tǒng)是一個(gè)多因素耦合的復(fù)雜系統(tǒng),浮游植物變化源于各生態(tài)要素間復(fù)雜的相互作用,表現(xiàn)出極大的隨機(jī)性、不確定性和非線性。本文引入BP 神經(jīng)網(wǎng)絡(luò)模型中的誤差反向傳播算法,建立以水溫(T)、pH、溶解氧(DO)等9 個(gè)因子為輸入變量,以葉綠素a(Chl-a)為輸出變量的BP 神經(jīng)網(wǎng)絡(luò)模型,通過主成分分析法對(duì)因子變量進(jìn)行降維處理,得出pH、DO、TP 是影響Chl-a 濃度的3 個(gè)主要因子,且前5 個(gè)主成分的貢獻(xiàn)達(dá)83.59%。結(jié)果表明,BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果很好,預(yù)測(cè)值和實(shí)測(cè)值相關(guān)系數(shù)R2為0.972,具有高度相關(guān)性。Chl-a 為水體中浮游植物生物量的一項(xiàng)重要指標(biāo),而當(dāng)前國內(nèi)沒有Chl-a 自動(dòng)監(jiān)測(cè)標(biāo)準(zhǔn)和質(zhì)量控制標(biāo)準(zhǔn),監(jiān)測(cè)Chl-a 濃度的難度較大。通過建立pH、DO、TP 為輸入變量的BP 神經(jīng)網(wǎng)絡(luò)模型可以作為葉綠素a 濃度預(yù)測(cè)的一種有效方法,該模型的數(shù)據(jù)依托已在全國廣泛建立的水質(zhì)自動(dòng)監(jiān)測(cè)站,不需要額外增加投入成本,能夠有效控制氮、磷等營養(yǎng)物質(zhì)的排放,為水環(huán)境治理、水環(huán)境保護(hù)及水生態(tài)安全提供了一種節(jié)能、安全、環(huán)保的技術(shù)方法,能極大地降低水華治理過程中對(duì)生態(tài)環(huán)境造成的二次污染,避免對(duì)生態(tài)環(huán)境造成不可逆轉(zhuǎn)的傷害。