基于隨機森林的重要性測度指標體系*

2021-04-09 08:30:30宋述芳何入洋

國防科技大學學報 2021年2期

宋述芳，何入洋

(西北工業大學航空學院，陜西西安 710072)

隨機森林(Random Forest, RF)是Breiman于2001年提出的一種統計學習理論方法[7]。首先，通過Bootstrap重采樣技術從原始樣本集中抽取多個訓練樣本集，然后再利用抽取的樣本集建立相應的決策樹，并組建隨機森林。隨機森林應用廣泛，不僅可以處理分類、回歸問題，對于降維也有很好的適用性。隨機森林對異常值與噪音也有很好的容忍度，穩健性強，不容易出現過擬合，被Iverson譽為當前最好的算法之一[8]。現有的基于隨機森林的重要測度指標主要有兩種：基于Gini指數的平均不純度減少指標(Mean Decrease Impurity, MDI)和基于袋外(Out-Of-Bag, OOB) 數據置換的平均精確率減少指標(Mean Decrease Accuracy, MDA)[9-11]。基于Gini指數的MDI指標對離散特征存在偏向性，且重要性分析結果與特征變量的選擇順序有關[12-13]。基于OOB數據置換的MDA指標則可以直接度量每個特征變量對模型精確率的影響程度，不存在偏向問題，應用廣泛。此外，基于OOB數據置換的MDA指標求解過程與基于方差的全局靈敏度分析的單層Monte Carlo模擬法相似，可由此作為切入點尋找兩者之間的關系。

本文通過比較基于方差的全局靈敏度指標和基于OOB數據置換的MDA指標的求解過程，尋找兩者之間的關系，并進一步建立基于隨機森林的重要測度指標體系，包括單變量測度指標、組變量測度指標等，可為后期復雜環境、高維小樣本數據的重要性測度分析奠定基礎。

1 基于方差的全局靈敏度指標

由Sobol′提出的基于方差的全局靈敏度指標能夠反映輸入變量在整個變化范圍內對輸出響應方差的影響程度。Sobol′指標不僅具有很強的模型通用性，而且還可對輸入變量進行分組討論以及量化輸入變量之間的交互影響，因此在工程領域得到了廣泛應用。ANOVA (analysis of variance)分解是方差靈敏度指標分析的基礎[6]。

1.1 ANOVA分解

響應函數Y=g(X)存在唯一的ANOVA分解式為

g1,…,n(X1,X2,…,Xn)

(1)

其中，常量g0為函數g(X)的期望值，gi(Xi)為單變量Xi的主效應分量。

(2)

式中，fXi(xi)為變量Xi的概率密度函數。

多個變量交互作用的分量可由下式求得

(3)

1.2 方差靈敏度指標

基于式(1)，分別對各分解項進行積分，由于各分解項正交，響應函數的方差V=VAR(Y)可以表示為各分解項的方差之和，即

(4)

其中，

(5)

用分解項的方差與響應函數的方差之比來衡量分解項的方差貢獻率，即

Si1,…,is=Vi1,…,is/V

(6)

其中，Si表示單變量Xi的靈敏度主指標。

(7)

由概率論知識可知，基于方差的全局靈敏度指標可表示為[14-16]

(8)

(9)

其中，X～i表示除Xi外的所有變量組成的向量。

1.3 求解方差靈敏度指標的Monte Carlo法

采用傳統的數字模擬法求解基于方差的全局靈敏度指標需要進行雙層抽樣，計算量大，不適用于復雜的工程問題分析[17]。單層Monte Carlo模擬法應用廣泛，其求解步驟如下。

Step1:根據輸入變量X的聯合分布，抽取兩組容量為N的樣本，分別記為矩陣A和B：

Step2:將矩陣B中的第i列用A中的第i列代替，構造矩陣Ci：

Step3:計算輸入變量Xi的方差靈敏度主指標和總指標，即

(10)

(11)

2 基于隨機森林的重要性測度分析

隨機森林是一種統計學習理論方法，利用Bootstrap重采樣方法從數據庫中抽取樣本，并運用決策樹對每組Bootstrap樣本進行建模，組合多棵決策樹，通過投票(分類)或取平均值(回歸)得出最終的預測結果[7]。隨機森林具有很高的預測精度，魯棒性好，防止過擬合，在分類、回歸、降維等問題中得到了廣泛應用。基于隨機森林的重要性測度指標有：基于Gini指數的MDI指標和基于OOB數據置換的MDA指標。基于OOB數據置換的MDA指標可直接度量每個特征變量對模型精確度的影響程度，不存在MDI指標的偏向問題，使用范圍廣泛[9]。

基于OOB數據置換的MDA指標的主要思路：保證其他特征變量不變，只打亂OOB數據中的某個特征變量的順序，破壞OOB數據的特征變量與輸出之間的對應關系。利用決策樹分別對打亂前與打亂后的OOB數據進行預測，將所有決策樹前后兩次預測的均方誤差的平均值作為此特征變量的重要性測度結果[18]。基于OOB數據置換的MDA指標的求解過程如下。

Step1:隨機森林包含M棵決策樹H={h1,h2,…,hM}。分別利用每棵決策樹hm(m=1,…,M)對相應的OOB數據(OOB數據的輸入矩陣為xOOB，輸出響應向量為Y)的輸入矩陣進行預測，預測結果為Ym，則預測值Ym與真實值Y的均方誤差εm=mean(Ym-Y)2。

(12)

3 基于隨機森林的重要性測度與方差全局靈敏度指標的關系

3.1 均方誤差與靈敏度總指標的關系

(13)

(14)

對比式(13)和式(14)可以得出

(15)

3.2 均方誤差與靈敏度主指標Si的關系

(16)

(17)

對比式(16)和式(17)可以得出

(18)

4 基于隨機森林的組變量重要性測度

(19)

在單層Monte Carlo模擬法中，矩陣B中的第i、j列被矩陣A中的第i、j列代替后可求得組變量的主指標S[i,j]，S[i,j]與單一變量的主指標Si與Sj以及兩變量交互指標Sij的關系為[1]

S[i,j]=Si+Sj+Sij

(20)

(21)

其中，上標“～i”“～j”“～ij”分別表示帶外數據中除第i列、第j列以及第i和第j列以外的數據打亂順序帶來的預測精度的影響。

5 算例與分析

算例1:線性函數

Y=X1+X2+X3

表1 線性函數的變量重要性測度分析結果Tab.1 The variable importance measures for linear function

(a) 基于單層QMC模擬的方差靈敏度分析(a) Single-loop QMC simulation for variance-based sensitivity analysis

(b) 基于隨機森林的重要測度分析(b) Random forest for importance measure analysis圖1 線性函數的方差靈敏度誤差隨樣本量的變化曲線Fig.1 Error of variance-based sensitivity indices versus sampling number for linear function

算例2:Ishigami函數[19]

其中，Xi(i=1,2,3)相互獨立，均服從[-π,π]區間的均勻分布。函數的方差VAR(Y)≈13.846 0。采用隨機森林對Ishigami函數進行重要性測度分析，以變量X2為例，基于單層QMC模擬的方差靈敏度指標、隨機森林進行重要性測度推得方差靈敏度的誤差隨樣本量的變化曲線如圖2所示。隨機森林用300個訓練樣本、700個OOB樣本進行重要性分析，可獲得誤差小于2%的測度指標，分析結果列于表2。

(a) 基于單層QMC模擬的方差靈敏度分析(a) Single-loop QMC simulation for variance-based sensitivity analysis

(b) 基于隨機森林的重要測度分析(b) Random forest for importance measure analysis圖2 Ishigami函數的方差靈敏度誤差隨樣本量的變化曲線Fig.2 Error of variance-based sensitivity indices versus sampling number for Ishigami function

表2 Ishigami函數的變量重要性測度分析結果Tab.2 Variable importance measures for Ishigami function

算例3:系統失效樹模型[20]

Y=X1X3X5+X1X3X6+X1X4X5+X1X4X6+

X2X3X4+X2X3X5+X2X4X5+X2X5X6+

X2X4X7+X2X6X7

(22)

式中，X1、X2代表事件每年發生的次數，X3～X7代表了基本事件的失效率，各變量相互獨立，均服從對數正態分布，分布參數如表3所示。將大樣本(N=9×221)下的單層QMC模擬的結果作為方差靈敏度的近似精確解，函數的方差VAR(Y)≈1.606 8×10-8，與隨機森林重要性測度分析結果對比見表4。

表3 失效樹模型的變量分布信息Tab.3 Distribution information of input variables in fault tree model

算例3的變量維數n=7，需要較多的樣本(3 000個訓練樣本，5 000個OOB數據)來保證隨機森林的精度。由表4的結果可以看出，基于隨機森林的重要性測度推得的方差靈敏度與單層QMC模擬的近似精確解基本一致，變量的重要性排序相同，X2、X6、X5為重要變量。此外，對變量的交互作用也進行了重要性分析，得到最大的兩個交互靈敏度指標為：S25≈0.021 9，S26≈0.026 3。

表4 失效樹模型的變量重要性測度分析結果對比Tab.4 Variable importance measures for fault tree model

算例4:屋架結構

某屋架結構如圖3所示，屋架的上弦桿和壓桿采用鋼筋混凝土桿，下弦桿和拉桿采用鋼桿。設屋架結構承受垂直的均布載荷q的作用，將均布載荷q化成節點載荷P，則P=ql/4，通過力學知識可得C點的垂直位移為

(23)

圖3 屋架結構的簡單示意圖Fig.3 Roof truss structure

式中，AC、AS、EC、ES分別為鋼筋混凝土桿與鋼桿的橫截面積與彈性模量，l為桿長，假設所有輸入變量相互獨立，且服從正態分布，分布參數如表5所示。

表5 屋架結構的變量分布參數Tab.5 Distribution parameters of input variables in roof truss structure

響應函數的方差VAR(ΔC)≈1.626 6×10-6。以大樣本(N=8×220)下的單層QMC模擬結果作為近似精確解。隨機森林用1 000個訓練樣本、5 000個OOB數據進行重要性測度分析。

表6 屋架結構的變量重要性測度分析結果對比Tab.6 Variable importance measures for the roof truss structure

6 結論

1)將決策樹的葉節點由原始的取平均或線性擬合變為高精度的Kriging模型，使得改進后的決策樹對原響應函數有更好的擬合精度。

2)在基于隨機森林的MDA指標的分析基礎上，提出了單變量和組變量重要性測度指標，完善了基于隨機森林的重要性測度指標體系。

3)找到了基于隨機森林的重要性測度指標與基于方差的全局靈敏度主指標、總指標之間的關系，可用隨機森林的重要性測度指標推導出方差靈敏度指標，獲得方差靈敏度指標求解的新途徑。

4)本文只研究了獨立變量對輸出響應的影響，后續將開展基于隨機森林的相關特征變量的重要性測度分析方面的研究。