999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的重要性測度指標體系*

2021-04-09 08:30:30宋述芳何入洋
國防科技大學學報 2021年2期
關鍵詞:重要性分析

宋述芳,何入洋

(西北工業大學 航空學院, 陜西 西安 710072)

隨機森林(Random Forest, RF)是Breiman于2001年提出的一種統計學習理論方法[7]。首先,通過Bootstrap重采樣技術從原始樣本集中抽取多個訓練樣本集,然后再利用抽取的樣本集建立相應的決策樹,并組建隨機森林。隨機森林應用廣泛,不僅可以處理分類、回歸問題,對于降維也有很好的適用性。隨機森林對異常值與噪音也有很好的容忍度,穩健性強,不容易出現過擬合,被Iverson譽為當前最好的算法之一[8]。現有的基于隨機森林的重要測度指標主要有兩種:基于Gini指數的平均不純度減少指標(Mean Decrease Impurity, MDI)和基于袋外(Out-Of-Bag, OOB) 數據置換的平均精確率減少指標(Mean Decrease Accuracy, MDA)[9-11]。基于Gini指數的MDI指標對離散特征存在偏向性,且重要性分析結果與特征變量的選擇順序有關[12-13]。基于OOB數據置換的MDA指標則可以直接度量每個特征變量對模型精確率的影響程度,不存在偏向問題,應用廣泛。此外,基于OOB數據置換的MDA指標求解過程與基于方差的全局靈敏度分析的單層Monte Carlo模擬法相似,可由此作為切入點尋找兩者之間的關系。

本文通過比較基于方差的全局靈敏度指標和基于OOB數據置換的MDA指標的求解過程,尋找兩者之間的關系,并進一步建立基于隨機森林的重要測度指標體系,包括單變量測度指標、組變量測度指標等,可為后期復雜環境、高維小樣本數據的重要性測度分析奠定基礎。

1 基于方差的全局靈敏度指標

由Sobol′提出的基于方差的全局靈敏度指標能夠反映輸入變量在整個變化范圍內對輸出響應方差的影響程度。Sobol′指標不僅具有很強的模型通用性,而且還可對輸入變量進行分組討論以及量化輸入變量之間的交互影響,因此在工程領域得到了廣泛應用。ANOVA (analysis of variance)分解是方差靈敏度指標分析的基礎[6]。

1.1 ANOVA分解

響應函數Y=g(X)存在唯一的ANOVA分解式為

g1,…,n(X1,X2,…,Xn)

(1)

其中,常量g0為函數g(X)的期望值,gi(Xi)為單變量Xi的主效應分量。

(2)

式中,fXi(xi)為變量Xi的概率密度函數。

多個變量交互作用的分量可由下式求得

(3)

1.2 方差靈敏度指標

基于式(1),分別對各分解項進行積分,由于各分解項正交,響應函數的方差V=VAR(Y)可以表示為各分解項的方差之和,即

(4)

其中,

(5)

用分解項的方差與響應函數的方差之比來衡量分解項的方差貢獻率,即

Si1,…,is=Vi1,…,is/V

(6)

其中,Si表示單變量Xi的靈敏度主指標。

(7)

由概率論知識可知,基于方差的全局靈敏度指標可表示為[14-16]

(8)

(9)

其中,X~i表示除Xi外的所有變量組成的向量。

1.3 求解方差靈敏度指標的Monte Carlo法

采用傳統的數字模擬法求解基于方差的全局靈敏度指標需要進行雙層抽樣,計算量大,不適用于復雜的工程問題分析[17]。單層Monte Carlo模擬法應用廣泛,其求解步驟如下。

Step1:根據輸入變量X的聯合分布,抽取兩組容量為N的樣本,分別記為矩陣A和B:

Step2:將矩陣B中的第i列用A中的第i列代替,構造矩陣Ci:

Step3:計算輸入變量Xi的方差靈敏度主指標和總指標,即

(10)

(11)

2 基于隨機森林的重要性測度分析

隨機森林是一種統計學習理論方法,利用Bootstrap重采樣方法從數據庫中抽取樣本,并運用決策樹對每組Bootstrap樣本進行建模,組合多棵決策樹,通過投票(分類)或取平均值(回歸)得出最終的預測結果[7]。隨機森林具有很高的預測精度,魯棒性好,防止過擬合,在分類、回歸、降維等問題中得到了廣泛應用。基于隨機森林的重要性測度指標有:基于Gini指數的MDI指標和基于OOB數據置換的MDA指標。基于OOB數據置換的MDA指標可直接度量每個特征變量對模型精確度的影響程度,不存在MDI指標的偏向問題,使用范圍廣泛[9]。

基于OOB數據置換的MDA指標的主要思路:保證其他特征變量不變,只打亂OOB數據中的某個特征變量的順序,破壞OOB數據的特征變量與輸出之間的對應關系。利用決策樹分別對打亂前與打亂后的OOB數據進行預測,將所有決策樹前后兩次預測的均方誤差的平均值作為此特征變量的重要性測度結果[18]。基于OOB數據置換的MDA指標的求解過程如下。

Step1:隨機森林包含M棵決策樹H={h1,h2,…,hM}。分別利用每棵決策樹hm(m=1,…,M)對相應的OOB數據(OOB數據的輸入矩陣為xOOB,輸出響應向量為Y)的輸入矩陣進行預測,預測結果為Ym,則預測值Ym與真實值Y的均方誤差εm=mean(Ym-Y)2。

(12)

3 基于隨機森林的重要性測度與方差全局靈敏度指標的關系

3.1 均方誤差與靈敏度總指標的關系

(13)

(14)

對比式(13)和式(14)可以得出

(15)

3.2 均方誤差與靈敏度主指標Si的關系

(16)

(17)

對比式(16)和式(17)可以得出

(18)

4 基于隨機森林的組變量重要性測度

(19)

在單層Monte Carlo模擬法中,矩陣B中的第i、j列被矩陣A中的第i、j列代替后可求得組變量的主指標S[i,j],S[i,j]與單一變量的主指標Si與Sj以及兩變量交互指標Sij的關系為[1]

S[i,j]=Si+Sj+Sij

(20)

(21)

其中,上標“~i”“~j”“~ij”分別表示帶外數據中除第i列、第j列以及第i和第j列以外的數據打亂順序帶來的預測精度的影響。

5 算例與分析

算例1:線性函數

Y=X1+X2+X3

表1 線性函數的變量重要性測度分析結果Tab.1 The variable importance measures for linear function

(a) 基于單層QMC模擬的方差靈敏度分析(a) Single-loop QMC simulation for variance-based sensitivity analysis

(b) 基于隨機森林的重要測度分析(b) Random forest for importance measure analysis圖1 線性函數的方差靈敏度誤差隨樣本量的變化曲線Fig.1 Error of variance-based sensitivity indices versus sampling number for linear function

算例2:Ishigami函數[19]

其中,Xi(i=1,2,3)相互獨立,均服從[-π,π]區間的均勻分布。函數的方差VAR(Y)≈13.846 0。采用隨機森林對Ishigami函數進行重要性測度分析,以變量X2為例,基于單層QMC模擬的方差靈敏度指標、隨機森林進行重要性測度推得方差靈敏度的誤差隨樣本量的變化曲線如圖2所示。隨機森林用300個訓練樣本、700個OOB樣本進行重要性分析,可獲得誤差小于2%的測度指標,分析結果列于表2。

(a) 基于單層QMC模擬的方差靈敏度分析(a) Single-loop QMC simulation for variance-based sensitivity analysis

(b) 基于隨機森林的重要測度分析(b) Random forest for importance measure analysis圖2 Ishigami函數的方差靈敏度誤差隨樣本量的變化曲線Fig.2 Error of variance-based sensitivity indices versus sampling number for Ishigami function

表2 Ishigami函數的變量重要性測度分析結果Tab.2 Variable importance measures for Ishigami function

算例3:系統失效樹模型[20]

Y=X1X3X5+X1X3X6+X1X4X5+X1X4X6+

X2X3X4+X2X3X5+X2X4X5+X2X5X6+

X2X4X7+X2X6X7

(22)

式中,X1、X2代表事件每年發生的次數,X3~X7代表了基本事件的失效率,各變量相互獨立,均服從對數正態分布,分布參數如表3所示。將大樣本(N=9×221)下的單層QMC模擬的結果作為方差靈敏度的近似精確解,函數的方差VAR(Y)≈1.606 8×10-8,與隨機森林重要性測度分析結果對比見表4。

表3 失效樹模型的變量分布信息Tab.3 Distribution information of input variables in fault tree model

算例3的變量維數n=7,需要較多的樣本(3 000個訓練樣本,5 000個OOB數據)來保證隨機森林的精度。由表4的結果可以看出,基于隨機森林的重要性測度推得的方差靈敏度與單層QMC模擬的近似精確解基本一致,變量的重要性排序相同,X2、X6、X5為重要變量。此外,對變量的交互作用也進行了重要性分析,得到最大的兩個交互靈敏度指標為:S25≈0.021 9,S26≈0.026 3。

表4 失效樹模型的變量重要性測度分析結果對比Tab.4 Variable importance measures for fault tree model

算例4:屋架結構

某屋架結構如圖3所示,屋架的上弦桿和壓桿采用鋼筋混凝土桿,下弦桿和拉桿采用鋼桿。設屋架結構承受垂直的均布載荷q的作用,將均布載荷q化成節點載荷P,則P=ql/4,通過力學知識可得C點的垂直位移為

(23)

圖3 屋架結構的簡單示意圖Fig.3 Roof truss structure

式中,AC、AS、EC、ES分別為鋼筋混凝土桿與鋼桿的橫截面積與彈性模量,l為桿長,假設所有輸入變量相互獨立,且服從正態分布,分布參數如表5所示。

表5 屋架結構的變量分布參數Tab.5 Distribution parameters of input variables in roof truss structure

響應函數的方差VAR(ΔC)≈1.626 6×10-6。以大樣本(N=8×220)下的單層QMC模擬結果作為近似精確解。隨機森林用1 000個訓練樣本、5 000個OOB數據進行重要性測度分析。

表6 屋架結構的變量重要性測度分析結果對比Tab.6 Variable importance measures for the roof truss structure

6 結論

1)將決策樹的葉節點由原始的取平均或線性擬合變為高精度的Kriging模型,使得改進后的決策樹對原響應函數有更好的擬合精度。

2)在基于隨機森林的MDA指標的分析基礎上,提出了單變量和組變量重要性測度指標,完善了基于隨機森林的重要性測度指標體系。

3)找到了基于隨機森林的重要性測度指標與基于方差的全局靈敏度主指標、總指標之間的關系,可用隨機森林的重要性測度指標推導出方差靈敏度指標,獲得方差靈敏度指標求解的新途徑。

4)本文只研究了獨立變量對輸出響應的影響,后續將開展基于隨機森林的相關特征變量的重要性測度分析方面的研究。

猜你喜歡
重要性分析
土木工程中建筑節能的重要性簡述
“0”的重要性
隱蔽失效適航要求符合性驗證分析
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
論七分飽之重要性
電力系統及其自動化發展趨勢分析
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 国产国语一级毛片| 免费jjzz在在线播放国产| 日韩免费毛片| 国精品91人妻无码一区二区三区| 国产精品55夜色66夜色| 国产美女一级毛片| 国产成人精品高清在线| 大乳丰满人妻中文字幕日本| 亚欧成人无码AV在线播放| 亚洲欧美成人影院| 午夜视频www| 久久人妻xunleige无码| 日本免费新一区视频| 黄色片中文字幕| 成人亚洲天堂| 片在线无码观看| 日韩av无码精品专区| 亚洲人成影院在线观看| 亚洲中文无码h在线观看 | 国产成人一区| 国产特级毛片| 夜夜拍夜夜爽| 九色91在线视频| 一级毛片免费不卡在线| 全免费a级毛片免费看不卡| 99re热精品视频中文字幕不卡| 国产啪在线91| 欧美成人精品一区二区| 在线国产你懂的| 99视频精品在线观看| 亚洲综合第一页| 国产老女人精品免费视频| 激情無極限的亚洲一区免费 | 日韩欧美在线观看| 欧美日韩国产高清一区二区三区| 日韩区欧美区| 亚洲av综合网| 丝袜无码一区二区三区| 色综合婷婷| 国产人人乐人人爱| 99re视频在线| 亚洲网综合| 欧美日韩国产系列在线观看| 亚洲区欧美区| 亚洲视频一区在线| 欧美成人午夜视频免看| 亚洲小视频网站| jijzzizz老师出水喷水喷出| 亚洲国产日韩一区| 99伊人精品| 中文字幕一区二区视频| 国产精品任我爽爆在线播放6080| 亚洲香蕉在线| 日日拍夜夜操| 国产高清毛片| 91免费精品国偷自产在线在线| 四虎永久免费地址在线网站| 国内毛片视频| 中文字幕欧美日韩| 91精品免费高清在线| 在线视频亚洲欧美| a亚洲视频| 精品国产福利在线| 婷婷六月综合网| 天堂网亚洲系列亚洲系列| 欧美中文字幕在线播放| 国产91导航| 色老头综合网| 亚洲一区国色天香| 免费 国产 无码久久久| 人妻熟妇日韩AV在线播放| 亚洲天堂久久新| 婷婷综合色| 国产精品男人的天堂| 亚洲欧美日韩成人在线| 日韩av高清无码一区二区三区| 亚洲av日韩av制服丝袜| 一本视频精品中文字幕| 天堂成人在线| 国产三级视频网站| 精品91在线| 亚洲区视频在线观看|