999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機森林理論及其在水文地質領域的研究進展

2022-09-20 06:33:42杜尚海古成科張文靜
中國環境科學 2022年9期
關鍵詞:模型

杜尚海,古成科,張文靜

隨機森林理論及其在水文地質領域的研究進展

杜尚海1,2,3,古成科1,張文靜2,3*

(1.吉林大學建設工程學院,吉林 長春 130021;2.吉林大學地下水資源與環境教育部重點實驗室,吉林 長春 130021;3.吉林大學新能源與環境學院,吉林長春 130021)

隨機森林理論是近年來快速發展的一種人工智能集成學習算法,由于其對數據系列中異常值的容忍度較高,且預測結果準確度顯著高于其他常用算法,在以水文地質領域為代表的自然科學研究中的應用越來越廣泛.本文在介紹隨機森林算法理論和應用方法的基礎上,結合國外內已有研究成果,分析其在地下水潛力評估、地表水-地下水轉化、地下水水質評價和地下水污染預測等水文地質領域的應用效果,對隨機森林理論在水文地質領域的應用前景和進一步發展的方向進行了討論.結果表明,隨機森林理論可以有效解決水文地質領域研究中的參數和過程不確定性問題,在水文地質結構精確刻畫、水文地質參數準確反演、水文地質過程的描述均具有廣闊的應用前景.

人工智能;隨機森林;地下水;地表水-地下水轉化;地下水水質評價;地下水污染預測

隨機森林是一種功能強大的機器學習數據驅動方法,不僅處理數據快、抗噪性強,與其他機器模型相比在預測精度也更有優勢.與物理模型相比其在處理大數據上具有優勢,其建模速度快,準確率也能達到相當不錯的程度.隨機森林在水文地質學領域應用越來越廣泛,例如將其用于地下水水量和水質的預測建模[1].本文系統總結隨機森林在水文地質領域的應用,重點介紹隨機森林在地下水潛力評估、地表水-地下水轉化、地下水水質評價、地下水污染預測等科學研究中的應用,并對進一步拓展其在水文地質領域應用范圍和提高其性能進行展望.

1 隨機森林理論

隨機森林(RF)是一種基于統計學習理論的組合分類智能算法,由Breiman在2001年提出[2],其原理是利用Bootstrap重抽樣方法從原始數據中抽取多個樣本,構建所有Bootstrap樣本的決策樹,并對所有決策樹的預測結果進行組合,并投票選出最終結果.

1.1 Bootstrap重抽樣方法

隨機森林屬于機器學習的一個重要分支-集成學習[3],所使用的Bootstrap重抽樣方法也是集成學習眾多抽樣方法之一.Bagging名稱來源于Bootstrap aggregating,即為引導聚集算法又稱裝袋算法,最初由Leo Breiman在1996年提出[4].Bagging是一種用于訓練數據的創建技術,是在原始數據集上通過重復隨機有放回抽樣,選擇出個數據集并分別訓練個分類器,其訓練數據中允許存在重復數據,但個數據集都是具有相同分布的獨立隨機向量.因此,某些數據可能會在模型訓練中多次使用,而其他數據可能永遠不會被使用.這些沒有被抽取的數據,約占三分之一,被稱為袋外數據(OOB),由于其沒有參與訓練集模型的擬合,因此常常被用來檢測模型泛化能力.

1.2 決策樹

隨機森林算法以決策樹作為基礎學習器,基于許多決策樹的生成及其組合以產生最終輸出,其輸出類別由個別樹輸出類別的眾數決定.決策樹是一種基本的分類與回歸辦法,基于樹結構來決策.當決策樹用于分類時被稱為分類樹,用于回歸時被稱為回歸樹.決策樹由節點和有向邊組成,類似于枝杈和樹枝.節點有兩種類型,內部節點(枝杈)和葉節點(枝梢),其中內部節點表示一個特征,葉節點表示一個類(即決策結果).每個內部節點包含一部分樣本集合,會從這些樣本集合中隨機選擇出的特征進行特征測試并根據測試結果將樣本劃分到子節點中,最終一步步被劃分到葉節點中.根節點包含樣本全集,從根節點到每個葉節點的路徑對應了每一個判定測試序列.其結構像樹一樣,因此被稱為決策樹,其學習本質是從訓練集中歸納出一組分類規則.

1.3 隨機森林算法

隨機森林中“森林”就是決策樹的集成,而“隨機”是指數據采樣的隨機和從所有特征中選擇部分特征來建立模型的隨機.隨機森林算法過程有幾個階段:首先,從給定的原始訓練集中隨機選擇樣本,為每個樣本創建一個決策樹,并得到每個決策樹的分類結果.接下來對每個分類結果進行投票表決決定最終結果(圖1)[5].隨機森林集合了多個決策樹,比單個決策樹有更好的選擇結果,它通過對結果求平均值來降低過擬合,因此不宜出現過擬合現象,且預測準確度較高.

總的來說,它具有以下優點[6-7]:

(1)通過反復二分數據進行分類或回歸,因此同等精度下計算量比其他機器學習方法(如神經網絡或支持向量機)要低很多.

(2)可以處理數千個輸入變量,且無需刪除變量.

(3)具有估計缺失數據的有效方法,并在大量數據缺失時保持準確性.

(4)對噪聲、異常值和過度訓練不敏感,預測精度高誤差小.

(5)運行時會生成泛化誤差的內部無偏估計,并給出了分類中每個變量的重要性估計值.

(6)可以學習復雜的模式,同時考慮到解釋變量和因變量之間的任何非線性復雜關系,并給出有關變量與分類之間的關系信息.

(7)可以保存建立的模型,以便將來用于其他數據.

圖1 隨機森林算法概念圖

2 水文地質領域的應用方向

地下水是水資源的重要組成部分,由于水量穩定,與地表水相比更不容易受到污染,因此在許多國家的國民經濟中被廣泛使用,例如飲用水和工業供水,灌溉和礦泉水.而氣候變化,人口增長和經濟發展帶來的用水需求,以及人類各種各樣的活動,都對地下水的資源貯存量、水質和水文地球化學作用產生影響.因此對與地下水潛力評估、地表水-地下水轉化、地下水水質評價、地下水污染預測等類似的數據分析,都是隨機森林在水文地質領域研究的重點.

本文在介紹隨機森林在水文地質領域應用方向的每個小節時都附有相應流程圖(圖2~5),這些流程圖是對各個方向工作流程的綜合歸納概括.實際使用隨機森林時,會在某個平臺(python軟件、R語言等)上運行隨機森林代碼,將輸入的自變量和要模擬的因變量數據集按一定比例(常用的是七三分)分為訓練集和測試集,用訓練集進行建模運算并用測試集進行驗證,輸出結果中包括模型結果、評價模型性能的參數和衡量各變量重要性的指數,其他模型建模時流程與隨機森林類似.因變量即是要預測模擬的對象,如地下水潛力分布情況、地下水補給和排泄情況、地下水水質評價標準和地下水中污染物濃度及分布情況.自變量為可能影響因變量的眾多水文變量,如氣候、水文、地質、離子濃度等,其大致分類在圖2~5展示,常用的水文地質變量和解釋見表1. 由于4個方向不同,其選取的水文變量種類也不同,但由于隨機森林工作流程固定,故圖2~5的結構類似.若結果表現形式中含有地圖圖件如地下水潛力圖,需要使用Arcgis軟件把自變量和因變量的數據源圖件(如地質圖、水系地圖)等轉成表格類文件作為數據輸入的實際形式,經模擬生成表格形式的結果后再導入Arcgis軟件即可得到成果圖.若結果表現形式不需要地圖圖件,比如某些地下水水質評價,就只需將自變量和因變量數據以表格形式輸入,建立模型即可得出地下水水質預測情況.

表1 常用的水文地質變量和解釋

2.1 地下水潛力評估

地下水潛力研究即是評價地下水可開采資源量的一種方法,旨在確定地下水開發的最佳區域,在最近幾年被大量關注[8-9].地下水潛力繪圖已被定義為水資源系統開發和規劃的一種工具,其成果-地下水潛力圖被定義為基于一系列間接指標對地形的物理容量進行空間分布估計,以產生足夠地下水供特定用途使用.目前地下水潛力分區有兩種主要方法:專家決策系統和機器學習方法[10].專家決策系統直接基于人類判斷,包括簡單加法權重、多影響因子技術、分析層次結構過程等.機器學習方法包含多種方法,包括人工神經網絡擬合、邏輯回歸、回歸樹、隨機森林和統計樹算法等.一般來說,機器學習不太容易出現程序錯誤和感知偏差,而專家方法具有依靠豐富經驗來辨別可能逃脫自動檢測特征的優勢,但也意味著必然在某種程度上依賴于專家判斷,會產生一定程度主觀性,且這種方法制出的潛力圖分辨率也不高,只適用于大范圍或尺度.

使用隨機森林進行地下水區域潛力預測,繪制地下水潛力圖,充分發揮了機器學習發現大型數據集中的隱藏關聯、根據現有信息來源(各種制圖、衛星圖像、數字高程模型、鉆孔數據等)確定哪些變量與地下水密切相關的優勢,也是當下隨機森林在地下水領域最主要的幾個應用方向之一.

Chen等[11]基于隨機森林(RF)、支持向量機(SVM)、人工神經網絡(ANN)、多元線性回歸(MLR)等模型,使用降水量、土壤水分蒸發蒸騰損失總量、徑流、土壤濕度、雪水當量、植被冠層水分含量這6個水文變量預測河北省邯鄲市地下水總儲水量,結果表明隨機森林預測最好.同時使用這6個變量進行降尺度研究,成功將總儲水量和地下水儲量的分辨率從1°(110km)降到0.25°(約25km).

Chen等[12]使用隨機森林(RF)、核邏輯回歸(KLR)和交替決策樹(ADTree)模型為中國陜西省北部檸條塔地區繪制了地下水泉潛力圖,其中隨機森林的AUC(接受者操作特性曲線與坐標軸圍成的面積)值最高,為0.909.Naghibi等[13-15]使用隨機森林和其他機器模型繪制了伊朗3個地區的地下水潛力圖,隨機森林的正確率都很高.

除了直接使用隨機森林外,不少學者也對隨機森林進行了一定的改進.Sameen等[16]將自我學習框架(Self-Learning Framework)技術和隨機森林結合開發了一個新的自學隨機森林模型(SLRF),在預測地下水潛力分區時也得到了比改進前更高的準確率.Miraki等[17]提出一種基于隨機子空間集合的新型的分類器集合方法-隨機森林分類器(RS-RF),用于伊朗庫爾德斯坦省代赫戈蘭地區的地下水潛力繪圖,其性能比改進前要好.這表示了隨機森林不止在繪制地下水潛力圖上已然成熟,也說明其在提高性能上有著很大進步空間.

圖2 地下水潛力評估流程

2.2 地表水-地下水轉化

地表水與地下水的相互作用及轉化關系一直是水文地質等領域研究的熱點和難點,準確掌握其機理和過程是支撐流域水資源綜合利用和保護的基礎條件[18].在水文循環中,水質上天然水化學成分一定程度上記錄著水分運移和離子轉化,水量上地表水與地下水之間存在補給與排泄,水溫上地溫梯度使得地表水與地下水溫度存在縱向上的差異[19].目前對地下水與地表水的水量交換測定常用方法是用滲透流量儀對空間和時間進行點測量,直接量化滲流率,其精確度和測定范圍一直在改進中[20].

地下水的水化學場和溫度場的演變取決于滲流場的變化,也是滲流場變化的一種表現[21].各種水化學參數,如主要離子(Ca2+、Na+、CO32?、Cl?)和電導率(EC)已被很好地用作確定地表水和地下水之間關系的示蹤劑[22].水的穩定氫和氧同位素也常用作研究水文循環的天然示蹤劑,但往往只能得到半定量的結果,難以實現連續動態監測.而人工示蹤法可能造成污染,且受場地條件限制.這些直接測量(溫度、同位素、水文化學)只反映了測量時的條件,可能無法提供足夠的信息來評估未來的情景(即灌溉、土地利用變化和氣候變化)[23].

此外基于物理和概念的方法也可以模擬地表水與地下水的相互作用[24].基于物理的方法在水頭和水力連通性的基礎上模擬地表水-地下水的相互作用,通常將地表水模型和基于物理的地下水模型進行耦合[25],但這些耦合模型需要大量水文地質學數據,通常具有精細時間分辨率,有時有數值收斂問題.基于概念的方法通過不同概念存儲之間的水轉移來模擬地表水-地下水交互作用,需要的數據較少,但缺乏對“水位”的表述,且必須考慮流域間的地下水流動.

而將隨機森林模型運用于分析地表水與地下水的相互作用,可以綜合考慮地質、氣候變化、人類影響等各個因素,以高準確率、高分辨率和低成本評價當前和預測未來變化,是近幾年較為突出的一個方向.

圖3 地表水-地下水轉化流程

Stahl等[26]使用隨機森林為美國本土建立了一個淺層地下水2H和18O同位素預測模型,不僅以高于90%的準確度預測了2H和18O的分布規律,還根據地下水同位素的空間模式可以幫助確定含水層補給的來源和季節性時間,并揭示了地表水和地下水相互作用的程度和范圍(如輸入河流的基流). Yang等[27]使用隨機森林和國家尺度的地質學、水文學和土地利用數據建立了一種預測河口尺度地表水-地下水相互作用性質的模型,預測了新西蘭的地表-地下水間補給、排泄情況,并得出坡度、與上游的距離、與海岸的距離和地質是主導地表水和地下水相互作用的因素.

同時,地下水的補給和排泄發生的動態變化,會引起地下水埋深的時空演變.因此研究地下水埋深的時空變化規律和變化成因,亦是分析地表水與地下水的相互作用.Koch等[28]使用隨機森林模型以50m分辨率來模擬了丹麥日德蘭半島的淺水層的冬季最低深度,水域關系和DK模型(丹麥國家水資源模型)是最重要的兩個協變量.楊光等[29]使用隨機森林分析了中國黑河中游地下水埋深的時空演變規律及其變化成因.

除此之外,Rong等[30]使用隨機森林從晶粒尺寸分布分析了從鉆孔中采集的非固結沉積物樣品,可以預測含水層的滲透系數,為量化深層地下水流動和輸送提供關鍵信息.

2.3 地下水水質評價

地下水水質評價是地下水資源評價的重要內容,是根據地下水中主要物質成分和給定的水質標準,分析地下水水質的時空分布狀況,進而對地下水進行管理、預防或修復,以服務于長遠未來[31].

現階段的水質評價方法可分為三類:水質類別確定、水質污染指數、水質分級.最常用的方法包括:單因素評價、綜合指數法、水污染指數(WPI)、水質指數(WQI)、模糊綜合評價等.我國地下水水質的評價常采用單因素評價方法,對單個水質指標獨立進行評價,但得到的結論不能全面地反映地下水質量的狀況,會出現較大偏差;綜合指數法具有忽略水質分級界線的模糊性缺陷,評價結果反映出的水質污染狀況不夠真實[32].水污染指數易于計算,可以識別主要污染因素,并可用于水質類別和定量評估,但評估結果過于保守[33].水質指數法則會導致數據丟失,并且缺乏處理復雜環境問題的能力[34].模糊綜合評價方法解決了水質評價的局限性和不確定性,消除了單個成分的單側性與分類邊界之間的不連續性,但是在確定評價因子的權重上較為麻煩,需要與層次分析法、主成分分析、因子分析方法和灰色關聯法等賦權方法相結合.隨著計算機的發展,機器學習被廣泛運用于地下水水質評價,其中的隨機森林分類準確度高、可以處理缺失數據、且能綜合評判每個因子的貢獻率并給出重要性排序,因而被廣泛使用.

圖4 地下水水質評價流程

很多學者[35-38]都使用隨機森林模型和區域地下水水質監測數據,進行了地下水水質的綜合評價,并繪制區域地下水水質分區圖.Jeihouni等[39]使用從伊朗大不里士市附近地區80口井得到的硬度、pH值、氯化物和EC等參數,使用和比較普通決策樹(ODT)、隨機森林(RF)、隨機樹(RT)、卡方自動交互檢測器(CHAID)和迭代二分法3(ID3)5種基于決策樹的機器模型來預測和進行飲用地下水水質分區.結果表明隨機森林預測準確率高達97.10%,研究區域內地下水的質量從南到北以及從東到西都有所下降.Norouzi等[40]采用隨機森林和模糊邏輯算法,對伊朗馬哈巴德平原的含水層使用地下水質量指數(GQI)確定地下水質,預測的AUC值高達0.96.總之,近年來的研究表明,隨機森林算法已成為作為評價地下水水質的重要方法,且預測準確率非常高.

然而有些井同時揭露了多層含水層,從這些井中取得的地下水樣本有時無法確定其真實含水層來源,會影響到下一步行動.Baudron等[41]基于隨機森林(RF)的監督分類方法,根據樣本的主要離子成分來識別從西班牙卡塔赫納多層含水層系統中提取的地下水樣本所屬含水層,結果表明,隨機森林分類結果的準確率達到90%以上,這進一步表明隨機森林在地下水水質方向適用性較好.

2.4 地下水污染預測

地下水中的污染物質,是影響地下水水質、影響地下水用途劃分的因素.地下水內的污染物質中除了生物所需要的鈉鹽鉀鹽等,也可能含有會造成水體污染的“三氮”(硝酸鹽、亞硝酸鹽和氨氮)[42]和磷酸鹽等,以及對人體產生直接危害高價鐵、錳、氟化物、砷化物等[43-44].因此使用隨機森林進行地下水中污染濃度預測,對預防和修復水質,劃分飲用水、工業水分區而言非常有意義.

圖5 地下水污染預測流程

數值模型以前曾用于地下水質量建模目的.然而,這些模型的性能基本上取決于對所討論過程的水文行為的充分理解,以及地下水系統特性的詳細數據可用性,需要大量數據和相當長的時間,并且具有限制其使用的復雜結構.而在一些粗略的估計中,基于主觀評級方法(指數方法和混合方法)的地下水脆弱性指數,如DRASTIC、EPIK和SI等經常被用來預測污染物如非點源硝酸鹽污染概率,或是使用地理信息系統(GIS)中的表面插值技術預測表面值再使用地下水脆弱性指數預測污染物分布情況.

隨著人工智能(AI)技術的發展,如人工神經網絡(ANN)、支持向量機(SVM)、決策樹(DT)等機器學習方法成為傳統物理模型在各種學科中的有效替代建模工具.這些機器學習方法可以在使用相對較少的成本、精力和數據對復雜的水文過程進行建模方面表現出可靠的性能.而隨機森林模型作為其中之一,也已有不少實例使用.

有研究使用隨機森林模型預測了區域硝酸鹽濃度,生成硝酸鹽濃度預測概率圖并進行了原因分析[45-47].Nafouanti等[48]使用隨機森林(RF)、人工神經網絡(ANN)和邏輯回歸(LR)進行中國大同盆地地下水氟化物預測,并探究了各因子與氟化物之間的關系,發現TDS、Cl-、NO3-、Na+等4個因子最能影響地下水中氟化物濃度. Podgorski等[49]、付宇等[50]使用隨機森林繪制了區域砷濃度濃度概率圖.Podgorski等[51]使用隨機森林對來源于全球各國的結合現場工具測量和復雜實驗室分析得到的80項地下水中砷測量結果數據建立了全球砷風險預測模型,結果顯示風險最高的地區包括亞洲南部和中部以及南美洲地區.李沖[52]使用隨機森林預測中國貴州省一個巖溶區的酸性煤礦井水錳污染.

此外,還有不少針對隨機森林預測污染物濃度預測的改進,例如 Canion等[53]用隨機森林為美國佛羅里達州喀斯特泉域地下水硝酸鹽濃度預測建模時,使用克里金法對殘差進行插值,通過考慮空間自相關的誤差來改進隨機森林模型(回歸-克里格法),使得最終的預測準確率高于95%.Bindal等[54]采用了基于隨機森林組合算法(對每個變量進行單變量邏輯回歸,并通過值評估系數的顯著性)的混合方法,來預測印度北方邦地下水的砷污染,結果表明混合隨機森林模型的表現優于單變量(Univariate)、邏輯回歸(LR)、模糊(Fuzzy)、自適應模糊(AFR)和自適應神經模糊算法(ANFIS).

隨機森林也可以用來預測地下水中發生氧化還原的位置.Friedel等[55]通過使用基于監督學習算法(隨機森林RF、線性判別分析LDA、提升回歸樹BRT)和基于無監督學習算法(修改自組織圖MSOM)4種機器學習方法預測新西蘭主要農業區的地下水氧化還原狀態(氧化、混合和缺氧)來判斷地下水反硝化作用發生的位置,然而結果表明基于無監督學習算法(修改自組織圖)能準確預測地下水氧化還原的時空演變規律,而基于監督學習的3個算法預測結果并不理想.但由于這只是隨機森林預測地下水氧化還原反應位置的個例,未來需要更多的實例來綜合評價這一領域的適用性.

表2 隨機森林在水文地質領域應用匯總

注:“/”表示只使用了隨機森林一種模型.

如表2所示,這些研究都使用了隨機森林模型,有些研究也使用了其他模型,例如SVM、ANN、LR等. BRT(增強回歸樹)、CART(回歸決策樹)、RTF(旋轉森林)、交替決策樹(ADTree)和隨機森林(RF)這些樹模型都是由決策樹(DT)改進發展而來的,可以視為決策樹的分支.表2中所有研究使用的模型中有部分和隨機森林都屬于機器學習的分支,如決策樹(DT)、人工神經網絡(ANN)、支持向量機(SVM);有部分則是數學模型,如多元線性回歸(MLR).

3 討論

3.1 現有應用效果綜合評價

隨機森林理論對數據系列要求相對較低,幾十到一百的數據量和大數據都能預測出較好的效果,這一點對水文地質領域非常友好.這是因為水文地質觀測數據多來源于鉆孔、水井和油井等,與地表水可以直接監測不同,小尺度區域往往因為井數量不足所以地下水數據稀缺,而大尺度區域由于各國各個地區眾多監測站的長年監測產生了大量具有時間序列的地下水數據,這些大數據不僅處理起來非常復雜,如何全部被充分利用也是問題,并且還要考慮到個別數據缺失或錯誤的情況.例如Rong等[30]預測含水層的滲透系數時觀測數據只有106個; Koch等[28]模擬淺水層的冬季最低深度時使用了1998~2017年間包括15000口井的數據和1900個沿著溪流、海岸線和湖泊的額外觀測數據來訓練模型,最后都達到了不錯的預測精度.而將當地地質圖、數字高程模型(DEM)等水文變量數據在ArcGIS軟件中轉化為可以被隨機森林模型直接使用的數據格式時,數據量將數以萬計,也都可以被成功預測,并且建立模型的時間很短.

在準確率方面,隨機森林理論在地下水資源量評價、地表水-地下水交互作用、地下水水質評價和地下水中溶質運移的預測中與其他模型相比更為準確,基本都在0.85以上,其中一些預測結果如Stahl等[26]建立淺層地下水2H和18O同位素預測模型時預測準確度高達97%和93%.Naghibi等[13-15]繪制伊朗地區地下水潛力圖時,在2015年的研究中隨機森林預測的結果在眾多模型中表現最差,而在2019年和2020年的隨機森林預測及隨機森林模型改進中均獲得了非常好的預測精度.此外,其他針對隨機森林的各種改進也都能取得更高的精度.

隨機森林能在預測后給出水文變量的重要性排序,指出哪些變量對結果最有影響并分析討論這些變量影響結果的方式.例如Wu等[38]評價寧夏回族自治區鹽池縣天然鹽湖的地下水質量時,經評價最重要指標是Na、TDS(溶解性總固體)、TH(水總硬度)和F,而最不重要的指標是As.這在后續的研究中非常有意義,因為能對這些重要性高的水文變量進行改進以增加預測精度,例如采用更精確的測量手段.又或者在地下水中污染物預測中根據水文變量重要性排序對其進行治理,能最有效地降低地區污染.

隨機森林屬于機器學習的一種,和人工神經網絡(ANN)、支持向量機(SVM)等眾多機器學習模型一樣,本質上都屬于黑箱理論.盡管隨機森林構建原理已經清楚,但是并不具有對全部工作過程完全的理解能力.即無法通過簡單直接的公式對整個隨機森林的結構和每棵樹的計算方法進行說明,也無法解釋調節隨機森林各個權重參數后結果改變的原因.而在某一領域的科學研究中往往會同時應用多種機器學習模型,比較預測模擬結果并選擇最好的結果作為最終成果.前文總結的這些水文地質領域的研究表明隨機森林和隨機森林模型的改進預測模擬效果在眾多模型中具有優勢.盡管其優勢的根本原理無法解釋,但是這些成功運用的經驗表明隨機森林確實適用于水文地質領域.并且隨機森林仍在不斷發展,對其進行改進以提高模型性能非常具有意義.

3.2 針對水文地質問題的方法改進建議

隨機森林在水文地質領域預測時,要求輸入眾多的水文變量,但并沒有統一標準進行變量選擇,研究者們往往根據實際情況綜合考慮進行選擇,但有時會忽略幾個重要的水文變量,例如在繪制地下水潛力圖時的土壤,有的考慮是土壤物質組分,有的是土壤濕度,有的干脆沒有考慮,同樣情況的還有水體關系這一重要變量.同時多個研究中有些水文變量指的是同一種,但是名稱并不統一.這些在研究中或許影響細微,但若是對多個地區進行連續評價或是對某一地區連續評價時,例如代替傳統的DRASTIC方法評價多個行政區時,具有統一的標準就非常必要了.一些相關的變量應當單獨評價或是歸為一個大類,例如從DEM計算出的平面曲率和剖面曲率,有的單獨考慮而有的將其歸為一個地形大類,這無疑會對結果產生重要影響.

3.3 未來需要進一步深入挖掘的理論和應用問題

盡管隨機森林在水文地質的應用近年來不斷增多,但其尚未得到廣泛應用.在水文地質的其他方向,也有關于隨機森林的不斷嘗試,例如地下水水位預測、地下水樣本來源識別.相關研究也表明,隨機森林在地下水領域在降尺度方面有很大潛力,可以獲得高分辨率圖,而這正是地下水領域的熱門.

此外,使用隨機森林進行地下水有機污染預測的應用較少,可以將其與預測有機污染物的軟件[56]相結合應用.而將水文地質物理模型和隨機森林結合,進行地下水脆弱性評價也或許是一項很好的應用.

多項研究均表明[11,39,41,45,48,54],隨機森林比其他機器模型在性能上更具有優勢.但是仍可對隨機森林進行改進以進一步提高精度,例如隨機子空間集合的隨機森林分類器(RS-RF)、自學隨機森林模型(SLRF)、基于隨機森林組合算法(單變量邏輯回歸)和回歸-克里格法降誤差.這些是通過增強隨機森林的隨機性、篩選變量降低噪音[57]、分析誤差等手段提高其性能.

4 結論與展望

4.1 隨機森林在水文地質領域應用廣泛,目前在各個方面的應用都取得了不錯的效果,其理論在水文地質領域也不斷發展,使其建模更契合于實際.對隨機森林進行適當的改進能進一步提高其性能,例如增強隨機性、篩選變量降低噪音、誤差分析等手段提高模型精度.

4.2 隨機森林對數據要求低,無論數據多少均能取得不錯的精度,在水文地質領域有著很強的適用性,且預測準確率比其他模型普遍要好.但是在水文變量選擇上大多根據實際情況考慮,并沒有統一的名稱和選擇標準,這一點應當進行改進.此外隨機森林可以根據輸出的變量重要性排序和模型預測結果進行變量影響性分析,探究其原因進行合理解釋[58].因此可以改進隨機森林對重要性高的水文變量的測量手段,以提高預測精度,或是在預測地下水污染時根據變量重要性排序進行針對性治理.此外,一些改進的隨機森林算法,例如神經隨機森林[59]、伯努利隨機森林[60]和隨機信條隨機森林(RCRF)[61],未來也可以應用于水文地質領域.

4.3 隨機森林在地下水資源評價、地表水-地下水交互作用、地下水水質評價和地下水中污染物預測方向均有應用.但目前在污染物預測方向針對的主要是無機污染,未來可以將其用于有機污染物預測.也可以將水文地質物理模型和隨機森林結合,進行地下水脆弱性評價.

[1] Tyralis H, Papacharalampous G, Langousis A. A brief review of random forests for water scientists and practitioners and their recent history in water resources [J]. Water, 2019,11(5):910.

[2] Breiman L. Random forests [J]. Machine Learning, 2001,45(1):5-32.

[3] 王奕森,夏樹濤.集成學習之隨機森林算法綜述 [J]. 信息通信技術, 2018,12(1):7:49-55.

Wang Y S, Xia S T. A survey of random forests algorithms [J]. Information and Communications Technologies, 2018,12(1):7:49-55.

[4] Bbeiman L. Bagging predictors [J]. Machine Learning, 1996,24(2): 123-140.

[5] 呂紅燕,馮 倩.隨機森林算法研究綜述 [J]. 河北省科學院學報, 2019,36(3):37-41.

Lv H Y, Feng Q. A survey of random forests algorithm [J]. Journal of the Hebei Academy of Sciences, 2019,36(3):37-41.

[6] Robert I. Kabacoff. R語言實戰(第2版) [M]. 北京:人民郵電出版社, 2016:1011-1016.

Robert I. Kabacoff. R in action(version 2) [M]. Beijing: Posts and Telecom Press, 2016:1011-1016.

[7] 董紅瑤,王弈丹,李麗紅.隨機森林優化算法綜述 [J]. 信息與電腦, 2021,33(17):34-37.

Dong H Y, Wang Y D, Li L H. A review of random forest optimization algorithms [J]. China Computer and Communication, 2021,33(17):34- 37.

[8] 林 壢,雷曉東,楊 峰.地下水資源評價方法-水量均衡法的探討 [J]. 北京水務, 2011,(2):41-44.

Lin L, Lei X D, Yang F. Groundwater resources evaluation method- discussion on water balance method [J]. Beijing Water, 2011,(2):41- 44.

[9] 丁 楠.內蒙古察右翼前旗-集寧區地下水資源評價與開采潛力分析 [D]. 中國地質大學(北京), 2018.

Ding N. Evalution of groudwater resources and analsysis of explotiation potential in Chahar Youyiqianqi-Dining district [D]. China University of Geosciences (Beijing), 2018.

[10] Díaz-Alcaide S, Martínez-Santos P. Review: Advances in groundwater potential mapping [J]. Hydrogeol Journal, 2019,27(7): 2307-2324.

[11] Chen L, He Q, Liu K, et al. Downscaling of GRACE-derived groundwater storage based on the random forest model [J]. Remote Sensing, 2019,11(24):2979.

[12] Chen W, Li Y, Tsangaratos P, et al. Groundwater spring potential mapping using artificial intelligence approach based on kernel logistic regression, random forest, and alternating decision tree models [J]. Applied Sciences, 2020,10(2):425.

[13] Naghibi S A, Pourghasemi H R, Dixon B. GIS-based groundwater potential mapping using boosted regression tree,classification and regression tree, and random forest machine learning models in iran [J]. Environmental Monitoring and Assessment, 2016,188(1):44.

[14] Naghibi S A, Dolatkordestani M, Rezaei A. Application of rotation forest with decision trees as base classifier and a novel ensemble model in spatial modeling of groundwater potential [J]. Environmental Monitoring and Assessment Volume, 2019,191(4):248.

[15] Naghibi S A, Hashemi H, Berndtsson R, et al. Application of extreme gradient boosting and parallel random forest algorithms for assessing groundwater spring potential using DEM-derived factors [J]. Journal of Hydrology, 2020,589(1):125-197.

[16] Sameen M I, Pradhan B, Lee S. Self-learning random forests model for mapping groundwater yield in data-scarce areas [J]. Natural Resources Research, 2018,28(3):757-775.

[17] Miraki S, Zanganeh S H, Chapi K, et al. Mapping groundwater potential using a novel hybrid intelligence approach [J]. Water Resources Management, 2019,33(1):281-302.

[18] 韓 玉,盧文喜,李峰平,等.渾河流域地表水地下水水質耦合模擬 [J]. 中國環境科學, 2020,40(4):1677-1686.

Han Y, Lu W X, Li F P, et al. Water quality coupling simulation of surface water and groundwater in Hunhe river basin [J]. China Environmental Science, 2020,40(4):1677-1686.

[19] 殷禹宇,胡友彪,劉啟蒙,等.地表水與地下水相互作用研究進展 [J]. 綠色科技, 2016,(4):50-52.

Yin Y Y, Hu Y B, Liu Q M, et al. Review on research progress of interaction between surface water and groundwater [J]. Journal of Green Science and Technology, 2016,(4):50-52.

[20] Hatch C E, Fisher A T, Revenaugh J S, et al. Quantifying surface water - groundwater interactions using time series analysis of streambed thermal records: method development [J]. Water Resources Research, 2006,42(10).

[21] Zhou Z W, Zhou Z F, Xu H Y, et al. Surface water-groundwater interactions of xiluodu reservoir based on the dynamic evolution of seepage, temperature, and hydrochemistry due to impoundment [J]. Hydrological Processes, 2021,35(8).

[22] Kong F, Song J, Zhang Y, et al. Surface water-groundwater interaction in the guanzhong section of the Weihe River Basin, China [J]. Ground Water, 2018,57(4):647-660.

[23] Yang J, Mcmillan H, Zammit C. Modeling surface water-groundwater interaction in New Zealand: Model development and application [J]. Hydrological Processes, 2017,31(4):925-934.

[24] Haque A, Salama A, Lo K, et al. Surface and groundwater interactions: A review of coupling strategies in detailed domain models [J]. Hydrology, 2021,8(1):35.

[25] 朱金峰,劉悅憶,章樹安,等.地表水與地下水相互作用研究進展 [J]. 中國環境科學, 2017,37(8):3002-3010.

Zhu J F, Liu Y Y, Zhang S A, et al. Review on the research of surface water and groundwater interactions [J]. China Environmental Science, 2017,37(8):3002-3010.

[26] Stahl M O, Gehring J, Jameel Y. Isotopic variation in groundwater across the conterminous United States - Insight into hydrologic processes [J]. Hydrological Processes, 2020,34(16):3506-3523.

[27] Yang J, Griffiths J, Zammit C .National classification of surface- groundwater interaction using random forest machine learning technique [J]. River Research and Applications, 2019,35(7):932-943.

[28] Koch J, Berger H, Henriksen H J, et al. Modelling of the shallow water table at high spatial resolution using random forests [J]. Hydrology and Earth System Sciences Discussions, 2019,23(11):1-26.

[29] 楊 光,粟曉玲.基于隨機森林的黑河中游地下水埋深變化及成因 [J]. 水土保持研究, 2017,24(1):109-114.

Yang G, Su X L. Change of groundwater depth Heihe river basin and its causes in middle dtream of the based on the random forest [J]. Research of Soil and Water Conservation, 2017,24(1):109-114.

[30] Rong M, Shi J, Zhang Y, et al. Variation of hydraulic conductivity with depth in the North China plain [J]. Arabian Journal of Geosciences, 2016,9(10):1-13.

[31] 高瑞忠,秦子元,張 生,等.吉蘭泰鹽湖盆地地下水Cr6+,As,Hg健康風險評價 [J]. 中國環境科學, 2018,38(6):2353-2362.

Gao R Z, Qin Z Y, Zhang S, et al. Health risk assessment of Cr6+, As and Hg in groundwater of Jilantai salt lake basin [J]. China Environmental Science, 2018,38(6):2353-2362.

[32] 姜海濤.黑龍江省林口縣蓮花新鎮地下水資源評價 [D]. 長春:吉林大學, 2014.

Jiang H T. The evaluation of groundwater resources in Lianhuaxin Town Linkou Ctiy Heilongjiang Province [D]. Changchun: Jilin University, 2014.

[33] Zhang F C, Wu B, Gao F, et al. Hydrochemical characteristics of groundwater and evaluation of water quality in arid area of northwest China: A case study in the plain area of Kuitun River Basin [J]. Arabian Journal of Geosciences, 2021,14(20):1-19.

[34] Chai Y, Xiao C, Li M, et al. Hydrogeochemical characteristics and groundwater quality evaluation based on multivariate statistical analysis [J]. Water, 2020,12(10):2792.

[35] 吳 敏,溫小虎,馮 起,等.基于隨機森林模型的干旱綠洲區張掖盆地地下水水質評價 [J]. 中國沙漠, 2018,38(3):657-663.

Wu M, Wen X H, Feng Q, et al. Assesssment of groundwater quality based on random forest model in arid oasis area [J]. Journal of Desert Research, 2018,38(3):657-663.

[36] 王 雪.基于隨機森林算法的唐山市水質評價 [J]. 水利技術監督, 2018,(5):173-176.

Wang X. Evaluation of water quality of Tangshan city based on random forest algorithm [J]. Technical Supervision in Water Resources, 2018,(5):173-176.

[37] 閆佰忠,孫 劍,安 娜.基于隨機森林模型的地下水水質評價方法 [J]. 水電能源科學, 2019,37(11):66-69.

Yan B Z, Sun J, An N. Assessment of groundwater quality based on random forest model [J]. Water Resources and Power, 2019,37(11):66- 69.

[38] Wu C, Fang C, Wu X, et al. Health-risk assessment of arsenic and groundwater quality classification using random forest in the yanchi region of northwest China [J]. Exposure and Health, 2019,(5):761- 774.

[39] Jeihouni M, Toomanian A, Mansourian A. Decision tree-based data mining and rule induction for identifying high quality groundwater zones to water supply management: A novel hybrid use of data mining and GIS [J]. Water Resources Management, 2020,34(1):139-154.

[40] Norouzi H, Moghaddam A A. Groundwater quality assessment using random forest method based on groundwater quality indices (case study: Miandoab plain aquifer, NW of Iran [J]. Arabian Journal of Geosciences, 2020,13(18):1-13.

[41] Baudron P, Alonso-Sarria F, Garcia-Arostegui, et al. Identifying the origin of groundwater samples in a multi-layer aquifer system with random forest classification [J]. Journal of Hydrology, 2013,499:303- 315.

[42] 吳娟娟,卞建民,萬罕立,等.松嫩平原地下水氮污染健康風險評估 [J]. 中國環境科學, 2019,39(8):3493-3500.

Wu J J, Pian J M, Wan H L, et al. Health risk assessment of groundwater nitrogen pollution in Songnen Plain [J]. China Environmental Science, 2019,39(8):3493-3500.

[43] 周巾枚,蔣忠誠,徐光黎,等.鐵礦周邊地下水金屬元素分布及健康風險評價 [J]. 中國環境科學, 2019,39(5):1934-1944.

Zhou J M, Jiang Z C, Xv G L, et al. Distribution and health risk assessment of metals in groundwater around iron mine [J]. China Environmental Science, 2019,39(5):1934-1944.

[44] 鄧安琪,董兆敏,高 群,等.中國地下水砷健康風險評價 [J]. 中國環境科學, 2017,37(9):3556-3565.

Deng A Q, Dong Y M, Gao Q, et al. Health risk assessment of arsenic in groundwater across China [J]. China Environmental Science, 2017, 37(9):3556-3565.

[45] Rodriguez-Galiano V, Mendes M P, Garcia-Soldado M J, et al. Predictive modeling of groundwater nitrate pollution using random forest and multisource variables related to intrinsic and specific vulnerability: a case study in an agricultural setting (Southern Spain) [J]. Science of the Total Environment, 2014,476:189-206.

[46] Tesoriero A J, Gronberg J A, Juckem P F, et al. Predicting redox‐sensitive contaminant concentrations in groundwater using random forest classification [J]. Water Resources Research, 2017,53(8):7316- 7331.

[47] Nolan B T, Gronberg J A M, Faunt C C, et al. Modeling nitrate at domestic and public-supply well depths in the central Valley, California [J]. Environmental Science and Technology, 2014,48(10): 5643-51.

[48] Nafouanti M B, Li J X, Mustapha N A, et al.Prediction on the fluoride contamination in groundwater at the datong basin, northern china: comparison of random forest, logistic regression and artificial neural network [J]. Applied Geochemistry, 2021,132.

[49] Podgorski J E, Labhasetwar P, Saha D, et al. Prediction modeling and mapping of groundwater fluoride contamination throughout India [J]. Environmental Science Technology, 2018,52(17):9889-9898.

[50] 付 宇,曹文庚,張娟娟.基于隨機森林建模預測河套盆地高砷地下水風險分布 [J]. 巖礦測試, 2021,40(6):860-870.

Fu Y, Cao W G, Zhang J J. High Arsenic Risk Distution Prediction of Groundwater in the Hetao Basin by Random Forest Modeling [J]. Rock and Mineral Analysis, 2021,40(6):860-870.

[51] Podgorski J, Berg M. Global threat of arsenic in groundwater [J]. Science, 2020,368(6493):845-850.

[52] 李 沖.隨機森林模型預測巖溶區酸性煤礦井水錳污染 [J]. 中國煤炭地質, 2021,33(3):43-47,59.

Li C. Prediction of karst region Acidic coalmine water manganese pollution based on random forest [J]. Coal Geology of China, 2021, 33(3):43-47,59.

[53] Canion A, Mccloud L, Dobberfuhl D. Predictive modeling of elevated groundwater nitrate in a karstic spring-contributing area using random forests and regression-kriging [J]. Environmental Earth Sciences, 2019,78(9).

[54] Bindal S, Singh C K. Predicting groundwater arsenic contamination: Regions at risk in highest populated state of India [J]. Water Research, 2019,159:65-76.

[55] Friedel M J, Wilson S R, Close M E, et al. Comparison of four learning-based methods for predicting groundwater redox status [J]. Journal of Hydrolgy, 2020,580.

[56] Pietrzak D. Modeling migration of organic pollutants in groundwater - review of available software [J]. Environmental Modelling and Software, 2021,144.

[57] Speiser J L, Miller M E, Tooze J, et al. A comparison of random forest variable selection methods for classification prediction modeling [J]. Expert Systems with Application, 2019,134:93-101.

[58] Blanchet L, Vitale R, Stavropoulos G, et al. Constructing bi-plots for Random Forest: tutorial [J]. Analytica Chimica Acta, 2020,1131:146- 155.

[59] Biau G, Scornet E, Welbl, J. Neural random forests [J]. Sankhya-series A-mathematical Statistics and Probability, 2019,81(2):347-386.

[60] Wang Y A, Xia S T, Tang Q T, et al. A novel consistent random forest framework: bernoulli random forests [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017,29(8):3510-3523.

[61] Mantas C J, Castellano J G, Moral-García S, et al. A comparison of random forest based algorithms: random credal random forest versus oblique random forest [J]. Soft Computing, 2019,23(21):10739- 10754.

致謝:感謝本課題組所有成員以及為本研究提供幫助的吉林大學地下水資源與環境教育部重點實驗室.

A review on the progresses in random forests theory and its applications in hydrogeology.

DU Shang-hai1,2,3, GU Cheng-ke1, ZHANG Wen-jing2,3*

(1.College of Construction Engineering, Jilin University, Changchun 130021, China;2.Key Laboratory of Groundwater Resources and Environment, Jilin University, Changchun 130021, China;3.College of New Energy and Environment, Jilin University, Changchun 130021, China)., 2022,42(9):4285~4295

Random Forest Theory is a rapidly developing artificial intelligence integrated learning algorithm and increasingly used in the fields of hydrogeology due to its higher tolerance of outliers in data series and significantly higher accurate prediction than other commonly used algorithms do. Based on the introduction of the theory and applications of the random forest algorithm, this paper reviewed its applications in the hydrogeological fields such as groundwater potential assessment, surface water-groundwater conversion, groundwater quality assessment and groundwater contamination prediction. The results show that the random forest theory can effectively solve the problems related to parameter and process uncertainty in hydrogeological researches, and has broad application prospects in the accurate portrayal of hydrogeological structure, accurate inversion of hydrogeological parameters and description of hydrogeological processes.

artificial intelligence;random forest theory;groundwater;surface water-groundwater conversion;groundwater quality assessment;groundwater contamination prediction

X523,P641

A

1000-6923(2022)09-4285-11

2022-02-28

國家重點研發計劃項目((2019YFC1804804)

*責任作者, 教授, zhangwenjing80@hotmail.com

杜尚海(1986-),男,安徽宿州人,副教授,博士,主要從事地下水資源評價與管理研究.發表論文50余篇.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩在线欧美在线| 精品中文字幕一区在线| 一级毛片免费观看久| 亚洲婷婷六月| 一本大道视频精品人妻| 亚洲无码一区在线观看| 色悠久久综合| 亚洲综合九九| 青草午夜精品视频在线观看| 色天堂无毒不卡| yy6080理论大片一级久久| 亚洲日韩欧美在线观看| 伊人久久婷婷| 亚洲天堂网在线视频| 三区在线视频| 自拍偷拍欧美日韩| 欧美特黄一免在线观看| 高清国产在线| 国产喷水视频| 国产在线一区视频| 国产毛片网站| 女人爽到高潮免费视频大全| 亚洲码一区二区三区| av在线5g无码天天| 青草视频在线观看国产| 日本人妻一区二区三区不卡影院 | 亚洲an第二区国产精品| 国产91丝袜在线播放动漫| 亚洲va精品中文字幕| 久久午夜夜伦鲁鲁片不卡| 亚洲精品麻豆| 久久这里只有精品23| 91麻豆精品国产91久久久久| 91在线一9|永久视频在线| 激情视频综合网| 国产精品人莉莉成在线播放| 欧美国产在线精品17p| 真实国产乱子伦视频 | 国产www网站| 91精品视频网站| 国产福利一区二区在线观看| 99这里精品| 在线视频亚洲色图| 欧美日韩一区二区在线播放| 最新国产成人剧情在线播放| 免费高清a毛片| 亚洲h视频在线| 园内精品自拍视频在线播放| 91日本在线观看亚洲精品| 在线a视频免费观看| 99青青青精品视频在线| 国产区91| 小说区 亚洲 自拍 另类| 2020国产免费久久精品99| 国产美女一级毛片| 2022国产无码在线| 国产人成乱码视频免费观看| 国产成人精品男人的天堂下载| 精品人妻无码区在线视频| 黄色网页在线播放| 亚洲一道AV无码午夜福利| 无码AV日韩一二三区| 亚洲精品国产成人7777| 国产男女XX00免费观看| 视频二区欧美| 欧美一级黄色影院| 亚洲天堂网在线视频| 久久影院一区二区h| 国产精品微拍| 午夜精品影院| 伊人精品成人久久综合| 色综合天天视频在线观看| 麻豆AV网站免费进入| 毛片a级毛片免费观看免下载| 中文字幕无线码一区| 国产www网站| 福利一区三区| a色毛片免费视频| 强乱中文字幕在线播放不卡| 最新国产在线| 成人午夜精品一级毛片| 亚洲精品无码在线播放网站|