豆荊輝, 夏 瑞, 張 凱, 鄒 磊, 宋進喜, 塔 拉
1.西北大學城市與環境學院, 陜西省地表系統與環境承載力重點實驗室, 陜西 西安 710127 2.中國環境科學研究院水生態保護修復研究室, 北京 100012 3.中國科學院地理科學與資源研究所, 陸地水循環及地表過程院重點實驗室, 北京 100101
水體富營養化已成為世界范圍內水環境保護的主要問題之一[1-4]. 近年來,盡管我國地表水環境質量總體有所改善,但水生態退化形勢仍十分嚴峻,《2019年中國環境狀況公報》[5]指出,進行監測的107個重要湖泊(水庫)近1/3為富營養狀態. 太湖、巢湖和滇池藻華頻發現象仍未根本改善,大型通江湖泊——鄱陽湖部分湖區藻華暴發有顯著增加趨勢[6],作為我國典型河流藻華案例,長江最大支流——漢江每年春冬季藻華暴發時有發生,具有持續時間延長且提前的趨勢[7],我國河湖數量眾多,分布廣泛,富營養化已成為嚴重威脅區域用水安全與水生態安全的關鍵,精準識別河湖富營養化問題成因與演變規律是新時期國家水生態環境管理的重要科技需求.
水生態模擬涉及多學科交叉與復雜系統問題,隨著氣候環境變化與人類活動影響的不斷加劇,河湖水質、水生生物量與水生態系統營養結構也不斷發生變化[8],變化環境下河湖水生態退化過程和演變機制不清[9-10],傳統生態機理模型結構相對固定,生態數據的強非線性以及變量間的高階相互作用使其參數確定受限. 河湖環境特征參數的區域異質性也制約著機理模型的普適性. 隨著計算機技術的快速發展,非參數模型以其直接依托數據構建模型的優勢,規避了機理模型的局限性[11],廣泛應用于水生態問題的診斷、識別與模擬預測. 目前,針對河湖富營養化診斷和預測的非參數模型方法尚缺乏系統的梳理和分類,使得不同方法存在較大不確定性和適用性等問題,導致河湖富營養化診斷(特征識別與成因分析)和預測預警(未來變化趨勢)存在誤差,在實際應用中缺乏科學的選擇.
鑒于此,該研究面向國家“十四五”期間“美麗河湖”建設重大需求,全面分析總結國內外近20年來富營養化非參數模型方法的研究進展,通過Citespace開展基于WoS核心庫與CNKI數據庫的相關文獻關鍵詞共現分析,闡明不同模型在富營養化問題診斷和預測領域的特異性和適用性,并對今后一段時期內水生態模擬預測的發展趨勢提出展望,旨在為國家全面推進水生態質量管控提供科學參考和借鑒.
基于Web of Science(WoS)數據庫和CNKI數據庫以“eutrophication and non-parametric model”(富營養化與非參數模型)為主題,搜索與篩選出2000—2020年7月相關英文文獻1 108篇、中文文獻1 367篇. 由圖1可見,非參數模型在水體富營養化研究應用中呈指數增長趨勢,是近年來水生態學科研究的熱點.
圖1 基于WoS核心庫搜索“Eutrophication and Non-parametric Model”為主題的文獻出版數量分布Fig.1 Publications for each individual year based on WoS core collection base search on term ‘Eutrophication and Non-parametric Model’
基于篩選數據,通過文獻分析可視化軟件Citespace對各非參數模型與數據分析方法在水體富營養化研究中的應用進行關鍵詞共現分析并篩選相關關鍵詞,繪制關鍵詞共現關系時區圖(見圖2)可以發現,基于最大頻次共現詞“富營養化”(eutrophication)的相關研究指標關鍵詞由“葉綠素a”(chlorophyll a)、“浮游植物”(phytoplankton)、“氮”(nitrogen)、“磷”(phosphorus)等單一指標向“營養狀態指數”(trophic state index)等綜合性指標過渡;研究內容關鍵詞有“影響因子”(impact)、“響應關系”(response)、“預測預報”(prediction)、“群落結構”(community structure)、“生態系統”(ecosystem)等. 基于WoS數據庫的相關文獻對氣候變化與水體富營養化方面的研究自2011年開始成為一大研究熱點;河湖富營養化研究中最常用及普遍的是“人工神經網絡”(artificial neural network)、“BP神經網絡”、“支持向量機”(SVM)等成熟的數據分析方法,隨著時間的推移,“結構方程模型”(structural equation model, SEM)、“貝葉斯網絡”(Bayesian network)、“隨機森林”(random forest)等“機器學習”(machine learning)方法、“時間序列分析”(time series analysis)、“不確定性”(uncertainty)分析也逐漸被引進水生態研究領域.
圖2 非參數模型在水體富營養領域關鍵詞共線圖譜Fig.2 Keywords co-occurring spectral feature of the non-parametric models in the water eutrophication
非參數模型不對模型結構做出假設、不依賴變量分布[12],在建模過程中可估計變量間不斷變化且機理尚不明確的關系,具有極強的靈活性,大幅提高了在有限數據中挖掘信息的效率,非常適用于復雜的水生態研究中. 通過開展系統調研,重點闡述河湖富營養化診斷與預測研究中經典與前沿的非參數模型的基本原理與應用進展,主要包括結構方程模型、貝葉斯網絡、隨機森林、梯度推進機、支持向量機、人工神經網絡、廣義相加模型及差分自回歸移動平均模型.
結構方程模型(structural equation model, SEM)是一種綜合因子分析與路徑分析于一體的多元統計方法,模型假定一組潛變量間存在因果關系,潛變量(無法直接觀測變量)為某幾個顯變量(可直接觀測)的線性表達. 通過構建協方差矩陣檢驗模型中包含的顯變量、潛變量、干擾或誤差變量間的關系,進而獲得自變量對因變量影響的直接效果、間接效果或總效果,同時從統計上證實或證偽模型假設潛變量間結構關系的合理性. 詳細結構方程與建模流程參考文獻[13-15]. SEM既可分析單一變量對整體結構的貢獻,也能分析變量之間的作用關系. 憑借強大的多因子分析能力與因果關系的解釋能力,SEM在水體富營養化診斷研究應用中取得了重要進展,除物理因子、營養物、浮游植物等常見水體富營養化影響因素外[15-16],還有學者引入了水體與沉積物間的吸收吸附行為[17]、浮游動物[18]、沉水植物[19]以及充分考慮地理位置及區域異質性[20-21]來定量分析河湖生態環境中各驅動因子與富營養指標之間的響應關系與影響程度,進一步為河湖富營養化的精準預測提供參考. SEM允許自變量和因變量存在測量誤差,為水生態過程(如垂直混合、低水位營養鹽的侵入、食草動物)對富營養化指標的作用評估提供了一種簡便方法[22].
貝葉斯網絡(Bayesian network, BN)以概率統計為基礎,可明確地表示變量間的因果假設[23]. BN的結構為一個有向無環圖(見圖3[24]),其中每個節點代表一個隨機變量,結構上排列方向由父節點指向子節點(因指向果),每個節點對應一個概率表,各變量發生概率由其父節點決定,即P〔A|parents(A)〕,沒有父節點的變量由邊際概率分布描述,BN可通過學習網絡結構與參數進行祖先節點的推理與后代節點的預測功能,即可實現富營養化的診斷與預測[25].
圖3 基于節點A的貝葉斯網絡節點關系示意[24]Fig.3 Node relation diagram of Bayesian network based on node A[24]
該模型允許各節點變量在時空尺度上具有不一致性,其靈活多樣的模型形式非常適合分析復雜的生態系統[26],被廣泛應用于河口[24,27-28]、沿海湖泊[29]及內陸河湖[30]生態建模,用來評估土地利用與氣候變化[31-34]、水情要素[35]、外源營養負荷[30]、營養梯度變化[36]等不同環境因素與生物指標(如浮游植物[10]、浮游動物[19])之間的關系,以及建立綜合生態、社會與經濟價值的水生態綜合評估模型[37];
此外,BN還可同時考慮時間上的季節性差異與空間上的地區差異進行水生態建模[38],從而準確進行河湖富營養化風險預測[39]. BN以其出色的整合專家知識的能力、關系結構自動學習功能以及在數據值存在缺失情況下的精準預測能力,成為一種處理大規模異構數據、推斷因果關系以及捕捉變量之間非線性、組合、隨機關系的強大工具. 然而,由于BN是一種概率圖模型,需要將各輸入變量離散化,同時也無法輸出連續的預測變量.
人工神經網絡(artificial neural network, ANN)是水體富營養化預測研究中使用頻率非常高的模型,其以仿照人體大腦神經元運行為建模原理(見圖4),即在輸入層導入相關環境變量,各變量在隱層中完成強非線性關系映射,并通過自選擇或自適應得到最優結果并實現預測功能[40],在輸出層導出預測值. 這種高度靈活的函數擬合能力可以表征構成生態系統特征的各變量間的非線性關系[41],使ANN能較好地完成藻類水華過程的建模[42].
圖4 典型人工神經網絡示意Fig.4 Schematic diagram of typical artificial neural network
自1980s開始,人工神經網絡發展為多種形式. 不同類型的神經網絡主要區別在于網絡結構和用于確定輸入神經網絡(訓練)權重和功能的方法[43],其中由誤差反向傳播算法訓練的一種多層前饋神經網絡(BP神經網絡)[44]最為常用,BP神經網絡已被廣泛應用于淺水湖泊[45]、高原湖泊[46]、河流[47]水華暴發時間與藻類密度預測研究中. 但由于河湖生態系統的水動力條件、水文氣象及藻型生態系統的復雜性,傳統的神經網絡可能會出現預測精度不高的問題[45]. 各種優化算法與神經網絡耦合模型被應用于河湖富營養化預測研究中. 例如:與遺傳算法耦合(GA-ANN)可優化初始權值和閾值,克服優化過程受初始點選擇的弊端[48],確定網絡結構中的有效節點數和最優激活函數[49],預測更高效快速[50];耦合小波分析的神經網絡模型(WA-ANN)可對數據進行預處理,降低噪聲管理非平穩數據[51];廣義回歸神經網絡(GRNN)[52]可提高收斂速度與預測精度,不易陷入局部最小值;非線性自回歸神經網絡(NARX)[53]可在對葉綠素a濃度預測的同時考慮時間的相關性,非常適合預測時間序列,并具有比其他動態網絡更快的訓練速度;將小波域閾值去噪、小波均值融合和長短期記憶相結合建立的長期預測模型[54]可降低誤差,提升泛化能力;貝葉斯正則化反向傳播神經網絡模型(BRBPNN)[55]通過自動正則化參數選擇獲得后驗分布的最優網絡結構,同時具有更好的泛化能力與避免過擬合能力.
支持向量機(support vector machines, SVM)是一種基于統計學習理論的機器學習方法,在處理小樣本數據和非線性問題中展現出了獨有優勢. 支持向量機回歸是用于解決回歸問題的支持向量機,通過引入不敏感損失函數,將數據投影到高維特征空間中并形成優化的超平面來表示自變量(如環境因子)和因變量(如藻類密度)之間的非線性關系[56],對于輸入樣本集(x1,x2,…,xn),支持向量回歸函數如下:
(1)
式中:K(xi,x)為核函數,使βi*-βi≠0對應的樣本為SVR的支持向量,b為偏置項. 支持向量機已成為一種富營養化預測的經典方法,被廣泛應用于葉綠素a[57-59]、浮游植物水平[60]及微囊藻毒素[61]等的水體富營養化指標預測研究中. 由于SVM存在預測精度與泛化能力受限于核函數的選擇、不適合訓練大數據量樣本等不足,各學者致力于將不同優化算法與支持向量機的耦合模型應用于水體富營養預測. 例如:Su等[62]利用遺傳算法與支持向量機建立耦合模型(GA-SVM)預測生態指標,可達到簡化模型的效果并提升穩健性與預測能力;Garcia-Nieto等[63]提出了一種基于小波核支持向量(WA-SVM)的優化方法,并將其與差分演化方法相結合對水體富營養化進行預測;粒子群優化技術可迅速優化超參數至最優解[64],桑文璐等[65]將基于粒子群算法的最小二乘支持向量機(PSO-LSSVM)用于預測香溪河葉綠素a濃度,與WA-ANN比較,預測精度更高且速度快,對高維數據能夠高效進行全局性優化. 此外,網絡搜索法以其能夠快速找到最佳回歸參數的優勢被用于SVR預測優化過程中[66].
隨機森林(random forest, RF)是一種由多組平行決策樹組成的集成算法,在不增加樣本數量的情況下通過隨機節點分裂進行運算,實現特征重要性評估并具有預測功能[67],其最終預測結果為各決策樹回歸結果的算術平均值. 在觀測變量數量較少的情況下,RF仍可出色完成多變量預測,成為生態研究領域參數統計分析的強大代替方法[68]. 作為高維數據有效的特征選擇工具,RF通過bagging方法[69]所獲得的OOB數據使其具有識別、量化特征變量重要性的功能,可應用于河湖富營養化診斷分析中,篩選TN、TP、水溫、氣象因子等環境因子[70-71]及魚類等高營養級水生生物[72]對藻類生長影響的主導因素,以及湖泊反硝化率與富營養環境因素之間的關系[73],其回歸功能也被應用于水華預測預警研究中[74]. RF訓練速度快、泛化能力強,能夠在數據缺失情況下保持較高的準確率,可以給出變量重要性估計,具有對復雜交互作用的預測變量及高維數據的建模能力并靈活執行多種統計數據分析[71],但其在噪音較大時可能發生過擬合,超參數調優可提高RF的計算精度,常見的超參數優化方法有網絡搜索、隨機搜索及貝葉斯優化等.
梯度推進機(gradient boosting machines, GBM)屬于機器學習中決策樹集成模型的一種. GBM有很多算法,常見的梯度推進機有GDBT (gradient boosting decision tree)[75]、XGboost[76]、LightGBM[77],其實現方法不同,但理論類似,即在梯度增強過程中連續地擬合成為新的模型,每棵決策樹通過擬合前一棵決策樹的殘差來實現減小誤差(見圖5),以提供對響應變量更準確的估計[13].
圖5 GBM算法示意Fig.5 Diagram of GBM algorithm
GBM強大的處理缺失數據與擬合復雜非線性關系的能力可被用于藻華診斷與預測研究中. Wang等[78]采用GBM解釋了湖泊生態指標與非生物因子之間的非線性關系;Xia等[79]通過構建基于GBM的河流水華模型發現,漢江和長江前旬水位比當旬水環境要素更能有效模擬預測藻華的暴發,揭示了我國大型河流水華發生的關鍵驅動因子及其時滯影響效應;Nieto等[80]等運用GBM的回歸功能預測水體氰毒素濃度,結果表明,GBM在高度非線性問題中表現出了良好的預測能力;Romeiko等[81]通過比較5種監督學習方法,探究農業對水體富營養化與氣候的影響,其中梯度推進回歸樹模型的預測精度最高;Hu等[82]運用GBM實現了對月尺度數據進行富營養化的精準預測. GBM模型能夠保持較高的預測精度與運算速度,但在抗干擾方面有所欠缺,盡管能夠控制迭代次數,仍有過擬合風險,需要開展大量前期數據分析和優化.
廣義相加模型(generalized additive models, GAM)是廣義線性模型的擴展,通過建立非參數模型分析變量間的結構關系,同時從復雜的響應機制中總結規律,其結構表示為一組解釋變量的光滑函數相加,計算公式:
(2)
式中:g(μ)為聯系函數;b0為常數截距項;fi(xi)為用來描述g(μ)的第i個解釋變量關系的非參數函數,可通過局部加權回歸平滑或樣條平滑得到. GAM可以同時分析某一變量與多個影響因子間的非線性響應關系[83],因而更適用于生態學研究,特別是對監測數據進行分析. 此外,GAM提供回歸線的置信區間可用于生態指標閾值劃定[71],在甄別關鍵影響因子的同時能夠直觀地檢查響應關系的重要性[84]. 近年來,GAM在河湖富營養化因子分析及預測研究中已經展開應用,如分析氣象要素[85-86]、營養鹽[87-88]、水溫梯度變化[89]、不同時間尺度[90]積累負荷與外部負荷[91]等環境因子,水利工程建設[92]及人類活動因素[93]對浮游植物生長的影響,葉綠素a是常用的表征指標[94];此外,還有應用于細菌豐度[95-96]、微囊藻生物量[97-98]與環境因子間非線性響應關系的研究,以及沉水植物[99-100]、魚類群落[101]等重要水生生物對水體富營養變化的響應等.
差分自回歸移動平均模型(auto regressive integrated moving average model, ARIMA)屬于時間序列預測方法中最常用的一種經典模型,該模型認為待預測的時間序列為隨機序列,并通過自回歸過程與移動平均過程根據待預測時間序列的歷史數據來預測未來值,ARIMA以其簡便、快捷以及與事物發展規律緊密聯系的優勢成為河湖富營養化預測方法的重要組成部分,被應用于不同環境因素的變化趨勢分析[102]、氮磷濃度預測[103]與河湖葉綠素a[104]、懸浮物濃度[105]、藻密度[106]、富營養指數[107]等水生態指標預測中. 此外,在富營養化診斷研究中,ARIMA還被用來判別非生物環境變量與生物變量是否具有自相關性[108]. 針對其預測時間越長精度越低的缺點,Elhag等[109]通過季節性擴展ARIMA模型(S-ARIMA)預測葉綠素a濃度等水質參數并維持了前3個月的穩健預測. Wang等[107]引入了霍爾特-溫斯特模型(Holt-Winters seasonal model)與自校正,使預測精度高達97.5%. ARIMA模型還可以與BPNN耦合[110]進行預測,這種混合方法利用前者的線性捕捉能力與神經網絡預測變量的非線性和隨機變化規律優勢,可對ARIMA預測誤差進行修正并得到最終預測結果,為河湖富營養化預測提供了新思路.
不同模型對數據的要求及其適用性與局限性各不相同,通過對上述非參數模型特點及其在河湖富營養化主要應用進行梳理總結,并根據其建模原理與特征將具有相似之處的模型進行歸納并展開對比分析,結果見表1.
表1 非參數模型適用性比較
SEM和BN都是系統分析變量間因果關系的模型,而不是簡單地分析其相關性(如回歸分析法、相關分析法、主成分分析法等傳統統計學分析方法),SEM最大的優勢在于可在間接測量潛變量的同時,估計因子間的響應結構與關系. 在水生態建模過程中,一些無法直接測量的指標(如人類活動、氣候變化等),則可通過結構方程模型構建潛變量來定量分析這些影響因子對富營養化的作用,但無法實現預測,且只能分析線性關系. BN通過對各變量進行結構學習與參數學習從而實現因果關系的推理,不僅可以對富營養化水體進行診斷,同時具備預測功能. 此外,由于BN是一種基于概率論的網絡模型,需要對數據進行離散化,這使得BN對于非線性與復雜性的問題非常有效,而對變量間的線性關系失去統計學意義,因此數據離散化的方式成為保證模型準確性的關鍵[111]. SEM與BN常被結合使用來分析河湖富營養化問題[30],前者可對網絡結構進行進一步確定,后者可進行預測分析.
ANN和SVM都是反映河湖生態指標和環境因素之間非線性關系的有效方法. ANN強大的映射非線性函數的性能被廣泛應用于預測藻華,其局限性在于,只考慮了訓練誤差的經驗風險最小化,從而容易陷入局部最小值及過擬合現象,導致泛化能力弱. ANN更適合應用于大樣本分析,恰當地結合先驗知識,即可得到較好的預測結果;然而,不具備解釋性限制了其在富營養化診斷研究中的應用. SVM結構風險最小化的特點,在回歸過程中無論輸入維數如何,都能保持穩定的性能,進而正確地確定全局最優值并保持較強的泛化能力. 不同于ANN基于傳統統計學樣本無窮大的假設,SVM嚴格根據數學理論分析,基于有限樣本確定最優解,選擇合適的核函數,即可在小樣本數據的處理和預測中顯現出極大的優勢,在藻華預測研究中二者常被用來做比較,SVM往往預測精度更優[65,112-113].
RF與GBM都是以決策樹為基礎的集成非參數模型,RF可減少模型的方差,GBM則會減少模型的偏差. 二者的根本區別在于:RF運行bagging算法,通常只需要設置一個超參數即可,并可以產生OOB數據進行特征重要性估計,RF的最終預測結果是并行構建多個決策樹的平均值,這使其具有更強的抗干擾性,不容易出現過擬合現象;GBM則運行boosting算法,順次進行對前一棵決策樹的殘差擬合,結果為所有決策樹的加權和,需要設置的參數較RF更多,設置不當可能出現過擬合現象,但恰當地調整參數則會得到比RF精度更高的預測結果. 在某種意義上講,RF是一棵比GBM更加靈活的集成樹,但GBM對異常值更敏感,在一般情況下,經過良好訓練的梯度推進機性能優于隨機森林. 在GBM的實現算法中,相對于傳統GDBT,XGboost增添了正則項來控制模型過于復雜,可以防止過擬合. LightGBM則采用leaf-wise生長策略,這雖然會比大部分GDBT使用的level-wise更容易過擬合,但通過深度限制可以避免這一劣勢;此外,LightGBM采用了直方圖算法尋找最優的分割點,數據分割的復雜度更低,極大地提高了運算速度.
AIRIMA模型與GAM分別是在富營養化預測研究應用中時間序列預測方法與回歸預測方法的經典模型,其中GAM應用更為廣泛,它克服了logistic回歸因容易引發維度災難而無法同時處理更多解釋變量的短板,在眾多非線性回歸預測方法中展露出了良好的性能,同時,它不需要假設分布并具有可解釋性. GAM的局限性在于,它不可以像貝葉斯網絡、結構方程模型一樣定量分析解釋變量之間的關系,因此在運用GAM進行富營養化預測時,應注意各解釋變量間相互獨立,較多研究采用主成分分析法提取獨立變量;另外,該模型不能系統分析多解釋變量與多響應變量間的復雜網絡. ARIMA相較于其他預測模型的最大優點在于,它不需要借助任何外生變量即可進行自回歸預測,當數據種類單一時,仍然可以運行出預測結果,但是當數據序列不平穩時,則會影響其預測精度,且只能捕捉線性關系. 生態數據往往是非平穩的,因此在使用ARIMA模型時,需要對數據序列進行差分處理轉化為平穩序列進行預測. ARIMA模型在較短預測時間內可保持較高的預測精度,隨著預測時間的延長,模型的方差逐漸增大將導致預測精度降低,因而多用于短期預測.
a) 進入21世紀以來,非參數模型在河湖富營養化研究中的應用呈指數增長趨勢,除ANN、SVM等較為成熟的方法在研究中大量應用外,BN、RF、GBM和GAM等模型也在河湖富營養化診斷和預測方面表現出了較好的適用能力,非參數模型已經成為開展水生態大數據分析診斷和預測管控的關鍵技術手段.
b) SEM、BN、RF、GBM和GAM模型適用于河湖富營養化問題的診斷和驅動要素識別,BN、ANN、SVM、RF、GBM、GAM和ARIMA可實現水生態環境因子非線性擬合與預測功能,上述模型有待今后進一步在我國不同區域開展水生態模擬預測研究的應用.
c) 從研究內容來看,非參數模型對河湖富營養化過程建模逐步開始探究空間上的土地利用與氣候變化、環境外部負荷、底泥吸收吸附等環境因子的影響效應及不同尺度的時間變化,以及關注強人類活動干擾下的河流水生態退化風險,進一步揭示河湖生態演變機理.
d) 建議建立實時水生態數據監測技術與共享平臺. 重點圍繞“監測評價—模擬調控—修復示范”為主線,突破河流eDNA監測、本土化指標構建、水生態數值模擬預警、水系統調控、生態修復等關鍵技術,充分發揮非參數模型挖掘數據信息的能力,提高水生態數據維度與質量.
e) 國家亟需前瞻性、系統性的數值模型關鍵技術支撐. 結合機理知識,開展生態模型與非參數模型的耦合求解與優化算法研究,引入深度學習等更前沿的數據分析方法用于水生態領域中,重點實現對河湖水生態健康的科學調控和修復. 精準識別導致河湖富營養化和水生態健康退化的環境壓力閾值,克服藻類生長暴發的時滯問題、開展變化環境下的水生態退化風險預測預警,全面推進新時期我國河湖水生態健康治理現代化.