趙保成, 譚志祥, 鄧喀中
(1.中國礦業大學 環境與測繪學院,江蘇 徐州 221116; 2.中國礦業大學 江蘇省資源環境信息工程重點實驗室,江蘇 徐州 221116)
?
基于隨機森林的地表下沉系數求取方法
趙保成1,2,譚志祥1,2,鄧喀中1,2
(1.中國礦業大學 環境與測繪學院,江蘇 徐州221116; 2.中國礦業大學 江蘇省資源環境信息工程重點實驗室,江蘇 徐州221116)
地表下沉系數是開采沉陷預計的重要參數。文章介紹了隨機森林回歸算法的基本原理以及基本的實現流程,討論了影響地表下沉系數的地質采礦因素,建立了一種用于計算下沉系數的隨機森林回歸預測模型。對模型的測試結果表明,預測值與實際值的最大相對誤差為3.52%,最小相對誤差僅為1.06%。利用該預測模型求取下沉系數不僅速度快,而且具有較高的精度,可以在實際工程中推廣應用,該模型為求取下沉系數提供了新的途徑。
隨機森林;地表下沉系數;開采沉陷;回歸模型
地表下沉系數是開采沉陷預計中的一個關鍵性參數[1-2],該參數傳統的求取方法是在開采工作面上方建立地表移動觀測站,然后通過實測下沉、水平移動或者兩者聯合的數據反演求得。該方法求得的地表下沉系數較為準確可靠,但是存在耗時、耗力的缺點,并且不能滿足礦山的長期發展需求[3]。目前,相關研究成果是將非線性回歸模型引入地表下沉系數的求取。文獻[4]將神經網絡應用在下沉系數的求取,文獻[5]采用了粒子群和支持向量機結合的算法,文獻[6]提出了遺傳算法與廣義神經網絡結合的方法等。多種智能優化算法的應用為地表下沉系數的求取方法提供了更多的選擇。
1.1隨機森林的基礎
RF的基礎單位是決策樹模型[11],它具有3種代表對象屬性的節點,即根部節點、中間節點、葉端節點,而經由節點的路徑表示對象可能的屬性值。從根部節點起始,轉經中間節點,最后終止于葉端節點的路徑表示某種特定的規則,該規則是唯一確定的。回歸決策樹的基本思想是通過分析以上路徑,產生一系列的回歸規則,最后利用這些規則進行數據的預測。
1.2隨機森林回歸模型的構造
RF算法最早由LeoBreiman提出,它是由若干決策樹組成的組合模型。每一棵決策樹近似地表示了某些學科(某些變量)內的“小專家”,RF則是由這些專家組成的智囊團,最終模型的預測值要經過專家組織的“聽證會”(取平均值)得出。這個智囊團被稱為RF回歸模型[12],計算公式為:
(1)
其中,H(x)為RF的輸出預測值;n為決策樹的數目;h(X,θi)(i=1,…,n)為單個決策樹模型;θi為第i棵決策樹生成的隨機向量,它決定了決策樹的生長方式;X為訓練子集,由原始數據抽取得到。RF中的每棵決策樹都必須依靠1個隨機向量和1個訓練子集。
1.3隨機森林回歸的流程
(1) 采用有放回的重采樣的技術從訓練數據集中隨機抽取k個自主樣本集,以此來構建具備k棵決策樹的RF回歸預測模型。采樣過程中沒有被抽到的樣本組成k個袋外數據(out-of-bag,OOB),作為RF的測試樣本。
在此次停工吹掃期間,嚴格把關。在流程較長和換熱器較多的管線吹掃過程中,先從后端換熱器給汽貫通趕油,可確保快速貫通和趕油,再依次從后往前趕油貫通,直至整個流程貫通,在吹掃過程中快速貫通是關鍵,一方面可有效保證管線大量油趕至塔內,主路暢通,另一方面可確保蒸汽和主線溫度,防止產生大量冷凝水。貫通趕油完畢后,關死或關小后端給汽點蒸汽,再從前往后給汽憋壓吹掃。在憋壓吹掃期間,逐臺換熱器進行憋壓吹掃。每臺換熱器憋壓至少三次,直至出口放空蒸汽無油漬,換熱器吹掃干凈后,出口重污油過汽,換熱器跨線過汽5 min,吹掃線路上每個放空均要確保暢通和見汽。
(2) 在決策樹模型中間節點處,在所有變量中隨機抽取n個變量作為備選分枝變量,個數要遠小于原始訓練集的變量個數,最后根據分枝優度準則選擇最佳分枝。
(3) 每棵決策樹從根部節點起始,到葉端節點終止,逐漸遞歸分枝,RF預測模型中可以調節葉端節點的最小尺寸參數,實現對決策樹生長以及RF生成的控制。
(4) 由以上步驟產生的k棵決策樹組成RF回歸預測模型,該模型的回歸預測效果采用OOB預測的誤差率評價。
2.1影響地表下沉系數的地質采礦因素分析
影響地表下沉系數的地質采礦因素眾多,自20世紀50年代起,我國在一些主要礦區積累了上千條觀測線的實測資料,為我國“三下”采煤研究建立了巨大的知識庫。經過幾十年的開采沉陷規律研究,我國科技工作者總結出了諸多求取沉陷預計參數的經驗公式[13]。常見的求取地表下沉系數的經驗公式有:

(2)
(3)
(4)
其中,P為上覆巖層的綜合評價性系數;E為巖體的綜合變形模量;Em為中等硬巖石的變形模量,一般認為Em=3 600MPa;ρ為上覆巖石的平均密度;qf為在重復采動情況下的下沉系數;α為巖層的活化系數;qc為初次采動情況下的下沉系數;H為開采深度;M為開采厚度。從以上的經驗公式可以看出,地表下沉系數主要與上覆巖層的性質、開采深度、開采厚度、堅硬巖層所占比例、重復采動等地質采礦因素有關。此外,有關研究還表明,地表下沉系數還與松散層厚度δ以及頂板管理方法有較大的關系[14]。
2.2訓練與測試樣本的選擇
與經典的線性回歸分析一樣,RF回歸模型通過一組自變量對某一因變量作解釋,即用地質采礦因素反映地表下沉系數。由于是否重復采動屬于定性因素,與采厚和松散層厚度等定量因素很難一起做回歸分析,因此選擇數值0代表初次采動,1代表重復采動。
為了減小其他可變因素的影響,增強模型的科學性和穩健性,此次試驗數據均選擇相同的開采方法和頂板管理方法(長壁全垮落法),從文獻[14]中挑選34組數據,1~31組數據作為訓練樣本,32~34組作為測試樣本。訓練與測試樣本見表1所列。

表1 訓練與測試樣本
2.3回歸模型參數設置和泛化性能評價
根據RF回歸的原理及實現流程,采用Matlab軟件進行編程實現。選擇將覆巖的平均堅固性系數f、開采深度H、開采厚度M、松散層厚度δ、堅硬巖層所占比例以及是否重復采動作為輸入自變量X,相應的地表下沉系數作為輸出因變量Y。
通過簡單設置RF回歸模型參數,如決策樹數目設定為500棵、終止條件即葉端節點尺寸(nodesize)設為5、中間節點處的備選分枝變量的個數設為2,然后對模型進行訓練。
泛化性能是評價所建立回歸模型預測能力的重要指標,泛化誤差越小,回歸模型學習訓練的效果越好,預測能力越強。在RF回歸模型中,存在一種相對優秀的估計泛化誤差的方式,即OOB袋外誤差估計,其計算公式為:
(5)
該回歸模型500棵決策樹的OOB誤差率如圖1所示。

圖1 OOB誤差率

以單棵決策樹為基本單位,利用未被RF選中的訓練樣本點的集合,統計該決策樹的OOB誤差率,將森林中所有樹的誤差率取平均值即可得到RF的OOB誤差率,OOB估計是泛化誤差的無偏估計,該值越小,則說明模型的泛化能力越強。從圖1可以看出,該模型穩定后的平均OOB誤差率基本控制在0.012。由此可見,該回歸模型預測誤差較小,學習訓練效果很好,預測精度高,具有較強的泛化能力。
2.4測試結果
隨機森林回歸模型的預測結果與實測結果的對比見表2所列。
由表2可以看出,下沉系數預測值與實測值的最大絕對誤差僅為0.029 2,最大相對誤差為3.52%,利用該模型預測的結果與實際值誤差小,精度高,完全能夠滿足礦山工程的實際需要,從而證明了利用隨機森林回歸模型求取地表下沉系數這一方法的可行性與有效性。

表2 下沉系數預測結果與實測結果的比較
(1) 建立了求取地表下沉系數的隨機森林回歸預測模型,利用大量的地表移動觀測站實測數據對回歸模型進行學習訓練,并且進行了性能測試,試驗證明了隨機森林回歸應用于求取地表下沉系數的可行性、準確性和科學性。
(2) 利用隨機森林回歸模型求取地表下沉系數,模型簡單,方便計算機編程實現,并且參數少,有利于模型的進一步推廣和應用。
(3) 同其他非線性預測模型不同,該模型所考慮的因素比較全面,輸出結果相對可靠,與傳統地表下沉系數求取方法相比,在不失精度的同時節省了財力、物力和時間,為求取地表下沉系數提供了新的途徑。
[1]鄒友峰.地表下沉系數計算方法研究[J].巖土工程學報,1997,199(3):109-112.
[2]呂偉才,高井祥,蔣法文,等.煤礦開采沉陷自動化監測系統及其精度分析[J].合肥工業大學學報(自然科學版),2015,38(6):846-850.
[3]張敬霞,劉超,龍仁波,等.礦區高精度GPS地表變形監測體系[J].合肥工業大學學報(自然科學版),2013,36(7):855-860.
[4]郭文兵,鄧喀中,鄒友峰.地表下沉系數計算的人工神經網絡方法研究[J].巖土工程學報,2003,25(2):212-215.
[5]于寧鋒,楊化超,鄧喀中,等.基于PSO和SVM的礦區地表下沉系數預測[J].遼寧工程技術大學學報(自然科學版),2008,27(3):365-367.
[6]王拂曉,譚志祥,鄧喀中.基于GA-GRNN的地表下沉系數預測方法研究[J].煤炭工程,2014,46(7):94-96.
[7]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調控關系研究中的應用[J].中國衛生統計,2012,29(2):158-160,163.
[8]崔東文.隨機森林回歸模型及其在污水排放量預測中的應用[J].供水技術,2014,8(1):31-36.
[9]王麗愛,馬昌,周旭東,等.基于隨機森林回歸算法的小麥葉片SPAD值遙感估算[J].農業機械學報,2015,46(1):259-265.
[10]孫雪蓮,舒清態,歐光龍,等.基于隨機森林回歸模型的思茅松人工林生物量遙感估測[J].林業資源管理,2015(1):71-76.
[11]崔東文,金波.基于隨機森林回歸算法的水生態文明的綜合評價[J].水利水電科技進展,2014,34(5):56-60,79.
[12]候艷,楊凱,李康.基于隨機森林回歸的網絡構建方法及應用[J].中國衛生統計,2015,32(4):558-561.
[13]何國清,楊倫,凌賡娣,等.礦山開采沉陷學[M].徐州:中國礦業大學出版社,1991:270.
[14]國家煤炭工業局.建筑物、水體、鐵路及主要井巷煤柱留設與壓煤開采規程[S].北京:煤炭工業出版社,2000:5.
(責任編輯張淑艷)
Calculationofsurfacesubsidencefactorbasedonrandomforest
ZHAOBaocheng1,2,TANZhixiang1,2,DENGKazhong1,2
(1.SchoolofEnvironmentScienceandSpatialInformatics,ChinaUniversityofMiningandTechnology,Xuzhou221116,China; 2.JiangsuKeyLaboratoryofResourcesandEnvironmentalInformationEngineering,ChinaUniversityofMiningandTechnology,Xuzhou221116,China)
Thesurfacesubsidencefactorisanimportantparameterofminingsubsidenceprediction.Firstly,thebasicprinciplesandtheprocessofrandomforestregressionalgorithmareintroduced.Secondly,thegeologicalandminingfactorsinfluencingthesurfacesubsidencefactorarediscussed.Finally,arandomforestregressionpredictionmodelforcalculatingthevalueofthesubsidencefactorisestablished.Thetestresultsshowthattheminimumrelativeerrorbetweenthepredictivevaluesandtheactualvaluesisonly1.06%,andthemaximumrelativeerroris3.52%.Thesubsidencefactorcanbecalculatedbythepredictionmodelquicklyandaccurately.Thismethodcanbeappliedinpracticalengineering,anditprovidesanewwaytocalculatethesubsidencefactor.
randomforest;surfacesubsidencefactor;miningsubsidence;regressionmodel
2016-03-14;
2016-04-08
國家自然科學基金資助項目(41272389);江蘇高校優勢學科建設工程資助項目(SZBF2011-6-B35)
趙保成(1990-),男,河南焦作人,中國礦業大學碩士生;
譚志祥(1969-),男,江蘇揚州人, 博士,中國礦業大學教授,博士生導師;
10.3969/j.issn.1003-5060.2016.08.023
TD325.2
A
1003-5060(2016)08-1123-04
鄧喀中(1957-),男,四川資中人, 博士,中國礦業大學教授,博士生導師.