王香帥,黃 銘
(合肥工業大學 土木與水利工程學院,合肥 230009)
邊坡是一個復雜的系統,其穩定性和工程安全息息相關?;伦鳛槿蛐缘刭|災害各災種中頻率最高、損失最大的地質災害類型,在人類工程活動頻繁的山嶺地區幾乎都有發生[1]。統計顯示,我國每年有超過200億元的直接經濟損失是由崩塌、滑坡、泥石流等災害所導致的[2]。因此,加強邊坡監控、確保其安全性具有十分重要的意義。坡體滲壓是影響邊坡穩定的一個重要因素,是對邊坡進行監測分析的重要內容。如今對滲透壓力進行監測的方式已十分科學,采用的儀器設備也更加先進,大量的傳感設備以及較為先進的通信技術在此過程中得到普遍應用,已能夠實現監測設備的深度埋設、傳感數據的高頻率自動收集以及傳感數據的實時傳輸[3]。
滲壓與各影響因素之間具有明顯的非線性和不確定性關系[4],目前已有學者在滲壓預測模型中引入逐步回歸[5]、人工神經網絡[6]、支持向量機[7]等分析方法,取得比較好的效果。但是這些方法也存在一些不足,如支持向量機對數據完整性要求較高,對非線性問題求解時限制較多[8];人工神經網絡計算量大,并且需要大量參數支持[9];逐步回歸分析法計算時外部驅動因子影響被忽略,擬合短時間序列數據時效果不佳[10]。而且這些模型的實際擬合和預測精度還有提升的空間。
RF算法[11]是一種深度機器學習算法,由Breiman L于2001年提出,該算法結合Bagging[12]集成學習理論和隨機子空間[13]在算法方面優勢之處,對噪聲數據和異常值能夠更為包容,具有較高的預測精度,且不易出現過度擬合的現象[14]。RF算法以原始數據樣本為基礎,利用Bootstrap方法重新抽取多個樣本,之后對每個樣本分別進行決策樹建模,再對各個決策樹進行組合預測。近年來,該算法被廣泛應用于醫學、管理學、經濟學等[15-17]眾多領域,但在邊坡滲壓預測方面對RF還缺乏應用和研究。
本文以R語言為主要工具,以邊坡滲壓實測資料為基礎,根據邊坡滲壓影響因素,構建基于RF算法的滲壓預測模型,并與逐步回歸模型和BPNN模型進行對比,對比驗證該模型的可行性和有效性,以期為掌握滲壓的實際動態,預測其發展趨勢,保障邊坡安全提供更有力的技術支撐。
決策樹是一種樹狀分類結構模型。該模型是通過拆分相關變量值設定分類規則,并利用樹形圖分割形成概念路徑的數據分析技術,包含兩個關鍵部分:第一,選擇變量和變量值。依據為特征空間按變量對分類效果影響的大??;第二,將數據區域按照選出的變量和變量值進行劃分,并通過比較模型復雜性以及效果來選擇最為合適的劃分區間。
CART決策樹[18]由Breiman L等人于1984年提出,其基礎思想為信息熵。該算法先將不同的分割變量劃分,進而得到兩個子集,再利用二分遞歸將訓練集也劃分為兩個子集,得到兩個分支的子樹。在選取分割變量時,借助的是最小Gini指數的變量,此為CART算法的分割基礎。Gini指數主要用以描述節點的不純度。假定數據集合T{X,Y}由m個類別的樣本組成,則其Gini指數定義為:
(1)
式中:p(j|t)為類別j在節點t處的概率。假設樣本集合劃分為q個部分,則其Gini指數為:
(2)
式中:q和n分別為子節點數和母節點的樣本數目;ni為子節點i處的樣本數。
以Gini指數最小的變量作為此處節點的分割變量,并根據變量值建立相應分支。依此規則由上至下不斷分割,直至整棵決策樹生長完成。
集成學習的原理在于將多個弱分類器通過某種方式進行組合,從而得到強分類器。故此,可借助不同的分類器進行集合來共同協作,處理某一特定問題。其精度相對于單個的分類模型更為精準,且穩定性也得到了保障。但是,在確保集成學習有效可行時,必須保證每一個單獨的分類器的學習能力是符合要求的,即其精度要高于隨機選擇,且不同的分類器之間應具有不同程度的差異性。如果差異性不符合要求,則需要通過采用不同的訓練樣本或者不同的訓練方法來達到目標。

RF算法是一種集成學習算法,是由一組CART決策樹{h(x,Θi),i=1,2,…,N}構成的組合模型,其中x表示自變量,N表示CART決策樹的個數。這里的{Θi,i=1,2,…,N}表示為隨機變量序列,由以下兩個隨機化思想得出:
1) Bagging思想:以隨機抽取方式,從總訓練集D中有放回地選擇N個樣本,進而得到子樣本集{Di,i=1,2,…,N},其大小與原樣本集相同,每個子樣本集Di構造一棵對應的決策樹。
2) 在構建決策樹時,不同節點的候選變量集是以隨機方式從總的特征空間中選取的變量子集m,并在分裂時選取最佳變量。以此法能夠確保不同樹之間的獨立性和多樣性,增強RF節點分割的隨機性。RF模型的預測是否準確,主要取決于變量個數m以及決策樹的數量N。
訓練隨機森林的過程就是訓練各個決策樹的過程,鑒于不同樹之間具有相對獨立的特點,訓練不同決策樹時可以同步進行。單棵決策樹訓練過程見圖1。

圖1 RF中單個決策樹訓練過程Fig.1 Single decision tree training process in RF
隨機森林是由經過相同訓練得到的數量為N的決策樹組合而成的。在處理回歸問題時,對取得的所有預測值經過權重計算取得相應的平均值,進而獲得最終的預測結果;在處理分類問題時,由所有決策樹的輸出結果投票得到最終的預測結果。其具體算法流程圖見圖2。

圖2 RF算法流程圖Fig.2 Flow chart of RF algorithm
本文以南水北調中線某一渠道邊坡作為分析對象,依據實測資料建立基于RF算法的邊坡滲壓預測模型。本文使用R語言中的randonForest包來實現RF模型的建立,使用的主要函數有:randomForest,plot,predict等。將2014年9月至2015年7月的88組滲壓、時效、水位、降雨量的實測數據進行建模訓練。
建立邊坡滲壓RF預測模型的整體思路是:先確定模型的輸入變量,將訓練樣本投入RF算法中,然后分析OOB誤差,確定RF模型參數的最優組合,從而獲得最終模型。
根據該渠道邊坡過水運行特點,其滲壓影響因素主要包含水位、時效、降雨等因素[19]:
Pi=PH+PT+PR
(3)
式中:Pi為邊坡滲壓;PH為水位引起的滲壓分量;PT為時效分量;PR為降雨引起的滲壓分量。
滲壓與水位及水位的更高次方有一定相關性[20],建模時水位因子選用H,H2,H3。降雨對邊坡滲壓產生的影響往往不是立刻顯現的,具有延后性,在選擇降雨因子時,常選擇前期平均雨量或者前期雨量和[21]。本文RF模型中采用前期雨量和,具體為:前3天雨量和R3、前7天雨量和R7、前15天雨量和R15、前30天雨量和R30。限于對邊坡時效機制認識尚存在不足之處,參考類似工程,選取時間函數為時效因子,分別為T,lnT。
綜上分析可知,邊坡滲壓RF預測模型的輸入變量選為H,H2,H3,R3,R7,R15,R30,T,lnT。
決策樹的數量N和變量數m是影響RF模型預測能力的兩個主要參數。RF算法通常通過計算每一個決策樹的OOB誤差,之后取其均值以得到RF模型的泛化誤差[22]。Breiman利用大量實驗數據證實OOB誤差為一種無偏估計[23]。

圖3 OOB誤差隨決策樹數量N變化情況Fig.3 OOB Error changes with the number of decision trees N

圖4 OOB誤差隨變量選擇個數m變化情況Fig.4 OOB error changes with the number of variables selected m
為了驗證邊坡滲壓RF預測模型效果,基于同樣的樣本訓練集,分別基于逐步回歸和BPNN建立邊坡滲壓預測模型。其中,BPNN模型網絡結構為9-19-1,隱含層采用Sigmoid函數;逐步回歸因子集與RF模型相同,為H,H2,H3,R3,R7,R15,R30,T,lnT。將逐步回歸模型、BPNN模型結果與RF模型進行比較,本文采用平均絕對誤差(MMAE)和平均相對誤差(MMAPE)兩個指標衡量擬合和預測性能,具體計算式為:
(4)
(5)
式中:L為樣本數。
3種模型擬合效果對比見表1。
以所建的3種邊坡滲壓預測模型,分別對后期2015年8月至10月的12組實測滲壓數據進行預測,3種模型預測結果對比見表2和圖5。

表1 3種模型擬合性能比較Tab.1 Comparison of fitting performance of three models

表2 3種模型預測性能比較Tab.2 Comparison of prediction performance of three models

圖5 3種模型滲壓預測效果圖Fig.5 Effect chart of seepage pressure prediction of three models
由表1可見,3種模型訓練樣本擬合效果均較好,尤以RF模型擬合效果最佳。表2中,使用RF模型、BPNN模型、逐步回歸模型,預測結果的平均絕對誤差分別為3.61%,7.02%和11.07%。可見,RF模型的預測精度較高,且有較明顯改善,用于邊坡滲壓預測效果很好,是一種有效的邊坡滲壓預測方法。由圖5可以看出,3種模型預測值的變化趨勢與實際值大致相同,而RF算法滲壓預測模型預測值曲線更加貼近實際值曲線,有較高的預測精度,誤差值較小且變化比較均勻,穩定性好,能更好地滿足滲壓變化預測的要求。
本文將RF算法應用到邊坡滲壓預測領域,研究表明,所建立的邊坡滲壓RF預測模型能夠準確反映滲壓與影響因素之間的不確定性和非線性關系,能夠進行高精度擬合,進而實現對滲壓的準確預測,且具有較好的穩定性,為邊坡滲壓預測問題提供了有效方法。