宋鵬超
(遼寧省葫蘆島水文局,遼寧 葫蘆島 125000)
近幾年,隨著經濟的發展,人們對于生活環境的要求變得越來越高,特別是在追求生態、自然生態方面上。因此,必須牢固梳理“安全、景觀、資源、環境”的理念建設生態型河道,從而實現兼顧生態、景觀與環境的功能性河道,將水資源利用、濱河景觀、防洪安全與河道整治相結合,建設以“清、疏、建、拆、綠、管”為主要內容的綜合型河道。
六股河發源于葫蘆島市建昌縣玲瓏塔鄉北婁子山,源頭海拔高程1092m,全長153km,于寬邦鎮大河西村入綏中縣,成為興城市和綏中縣的界河,其河長64km,于小莊子鄉大漁場流入渤海。六股河水系整體呈南北寬,東西窄,形似牽牛花,該水系地勢西北高,東南低,平均海拔高程200m,沿岸土壤以黃色為主,流域內多種植果樹,大田,河床組成以卵石,粗沙為主,河網由若干小溪構成,中上游有馬道子中型水庫一座,中下游有龍屯大型水庫一座,小(1)、小(2)型水庫六座均分布于中下游。各種引水設施及用水工程沿岸分布,以灌溉及生活供水為主。六股河水資源對葫蘆島市經濟發展和城市建設起著重要支撐作用,水生態健康狀況直接關系著城市未來發展。因此,研究評估六股河水生態健康狀況,對河流水生態保護和水資源管理提供參考依據。
隨機森林算法(RF)是一種具有較強數據挖掘、泛化以及非線性模擬能力的智能算法,該算法由多個決策樹組成森林,通過分類預測投票獲取最終的評價結果及分類,其特點是利用有放回的隨機抽樣方式對每個決策樹產生訓練集,同時每個節點劃分時利用當前一定個數的屬性進行決策,可以更好地保證問題的客觀性[1]。
對于每個節點劃分的待優選屬性集Di(i=1,2,…,n),可以隨機選擇當前可利用的F個屬性,最佳分類屬性可以按照信息增益率進行確定,如果樣本i占集合D的比例為P,其信息熵Entropy(D)可以表示為:

(1)
樣本集合T在特征A作用下被轉變成k個部分,該條件下的信息熵Entropy(DA)、信息增益Gain(D,A)、信息值SplitEntropy(D,A)和信息增益率GainRation(D,A)的計算式為[2]:
(2)

(3)
(4)
(5)
采用隨機森林算法在評價水生態健康時可能會存在數據不平衡和屬性特征重要性不足的問題。因此,研究提出一種改進的隨機森林算法(IRF),通過將節點屬性隨機選擇與信息值相結合來保證優化方案的合理性。根據信息值計算屬性特征的重要度,按照信息值將屬性空間劃分成強、弱相關部分,在此基礎上選擇節點屬性。其中,目標類別屬性Y與屬性X之間的相關性一般利用信息值(IV)描述,其表達式為:

(6)
式中:Pi為目標類別Y=y在屬性X=xi時的概率,Pi′為目標類別Y≠y在X=xi時的概率;n為類別數量。
為了防止出現信息重復冗余的情況,選取的參評指標數量不宜過多,并且要最大程度地反映多個維度[6]。文章充分考慮各層面影響因素,將各影響因素劃分為四大類,并進一步篩選出各類影響指標,從而更好地分析河流水生態健康狀況如表1所示。

表1 六股河水生態健康評價體系
根據葫蘆島市生態水系規劃報告和健康河流診斷指數相關研究,將河流水生態健康劃分成病態、微病態、亞健康、微健康、健康5個等級,對應的指數依次為1、2、3、4、5,各指標等級標準如表1所示。
對六股河2018—2020年水生態健康狀況考慮利用改進的IRF算法進行評價,按照以下流程進行計算分析:
1)選擇檢驗和訓練樣本。為了評價水生態健康狀況,利用健康指數調控模型輸出,并生成300組樣本[7]。將評價標準分成5個等級,每個評價標準生成60組樣本,其輸出模式及樣本組數如表2所示。

表2 設計樣本組與期望輸出
2)數據預處理。為消除各指標數量級或量綱不同而帶來的不可通透性,必須先歸一化處理各指標初始數據。對于正向(越大越優型)、負向(越小越優型)指標的預處理公式如下:

(7)
式中:x、x′為初始數據和歸一化值;xmax、xmin為指標閾值的上限與下限值。
3)建立IRF模型。采用自帶的工具集合和Matlab軟件構建RF模型,對隨機選擇節點屬性時利用信息值優化模型。模型輸入為訓練樣本經預處理后的數值,輸入項18個,輸出為目標輸出健康指數,輸出項1個,從而建立18-1映射關系的模型,改進隨機森林算法的關鍵就是有效處理該映射過程。研究以相同的方式建立傳統算法(RF)和神經網絡模型(ANN-RBF),通過比較運算效率判定IRF算法的效率和適用性[8]。
4)訓練檢驗。本研究通過訓練、檢驗樣本對IRF、RF和ANN-RBF模型利進行運算,采用運行時間(RT)、最大(MREA)和平均(AREA)相對誤差絕對值評價模型的運算效果及性能。對比分析模型運行100次的各性能指標,并以運算100次時CPU消耗的時間作為運行時間。為了達到最優的運算性能,采用網格搜索法來測試每個模型的主要影響參數(決策樹、分裂特征數、期望誤差和徑向基函數),并對比分析各模型性能參數如表3所示。

表3 不同模型性能評價
5)模型性能評價。從運行時間、最大、平均相對誤差絕對值上比較各模型的優缺點,結果表明IRF模型具有較強的泛化能力和高計算精度,并且運算速度更快,有助于節省運算的資源和時間。因此,對六股河水生態健康評估改進的IEF模型具有較好適用性與可靠性。
6)實例分析。統計收集2018—2020年六股河相關指標數據如表4所示,將歸一化處理后的數據輸入已訓練好的IRF模型,應用Matlab軟件計算評價2018—2020年六股河水生態健康狀況如表4所示。

表4 2018—2020年六股河水生態健康狀況
結果表明,2018—2020年六股河水生態健康總體呈現出好轉趨勢,健康指數從2018年的2.25不斷增大到4.42健康狀況從微病態轉變成微健康水平。葫蘆島市政府及環保、水利等部門按照“一年初見成效、三年大變樣、五年基本完成”的總體目標,針對六股河實施了一系列生態治理措施,恢復了河道自然行洪能力,維護與恢復河流生態、美化環境、改善水質及遏制沙塵。對河道沿岸重點保護地段進行堤岸工程治理,達到生態宜居城鎮標準;實施沿河整修工程,按現代化城鎮規劃標準維修、加固、改造破損嚴重的沿河、跨河建筑物;實施河道兩岸綠化工程,全面提升河流水質和沿岸景觀,實現河道景觀、功能與生態的統一,將六股河打造成“水清、岸綠、景美”的城鄉水環境,經調查分析治理成效顯著[9-12]。因此,文章評價結果準確反映了六股河近幾年水生態實際變化情況,改進的隨機森林算法對河流水生態健康狀況評價具有較強適用性與可靠性。
文章針對傳統算法可能存在的數據不平衡和屬性特征重要性不足的問題,提出一種改進的隨機森林算法評價2018—2020年六股河水生態健康狀況。結果表明,2018—2020年六股河水生態健康總體呈好轉趨勢,從最初的微病態逐漸轉變成微健康水平,這主要與近幾年葫蘆島市針對六股河實施一系列的生態治理措施有關。評價結果可以準確反映了六股河水生態實際變化情況,改進的隨機森林算法對河流水生態健康狀況評價具有較強適用性與可靠性,可以為河流水生態保護和水資源管理提供指導參考。