基于隨機搜索優化XGBoost的瓦斯涌出量預測模型*

2022-06-17 02:20:18任美學

中國安全生產科學技術 2022年5期

關鍵詞：模型

馬恒，任美學，高科

(1.遼寧工程技術大學安全科學與工程學院，遼寧葫蘆島 125105；2.礦山熱動力災害與防治教育部重點實驗室，遼寧葫蘆島 125105)

0 引言

為有效降低瓦斯事故，井下新水平、新區投產時瓦斯涌出量預測必不可少。此項參數是井下通風、瓦斯日常管理不可缺少的基礎參數。傳統瓦斯涌出量預測目標是采用礦山統計法或分源預測法結合地質、采掘等多重影響因素選取參數進行預測工作。實際現場中，瓦斯動力現象的準確預測對接續安全生產至關重要。

近年來隨著智慧礦山的提出，以人工智能為導向的數字技術在煤礦飛速發展[1-2]。目前，國內外眾多學者多采用機器學習算法進行瓦斯涌出量預測。付華等[3]提出了基于CIPSO和ENN的耦合算法，通過參數實時尋優對預測模型收斂速度、預測精度和魯棒性進行提高；師超等[4]引入了一次指數平滑法進行數據優化，通過蛙跳算法優化Verhulst模型背景值參數建立SFLA-Verhulst組合預測模型；肖鵬等[5]壓縮映射遺傳算法優化BP神經網絡，并采用核主成分分析法對影響因素數據集進行降維，構建CMGANN耦合算法；Yuan[6]利用傳統的GM(1,1)模型預測瓦斯涌出量，模型能夠實現實時、動態指導。

上述學者的探索對瓦斯涌出量預測工作均有所推進。考慮瓦斯涌出量影響因素較為復雜，以優化數據特征、提高綜合模型質量為目標。基于此，以沈陽某煤礦綜采面瓦斯涌出量歷史數據為對象，搭建1種融合Lasso回歸與隨機搜索優化XGBoost的模型進行瓦斯涌出量預測，采用Lasso回歸篩選出瓦斯涌出量的重要影響因素，得到經特征選擇后的樣本數據。結合隨機搜索調參后的XGBoost模型得到預測值，引入評判指標驗證模型有效性。

1 模型構建

1.1 Lasso回歸模型

套索回歸首次提出于1996年，通過降階的思想對數據進行壓縮估計，其通過構造1個懲罰函數得到1個較為精煉的模型，對回歸系數進行壓縮并使部分回歸系數變為0，從而進行變量的篩選[7-8]。

該算法可有效地從高維變量中選取與涌出量相關的自變量，實現降維目的。該過程只進行篩選影響因素，不進行預測。

Lasso回歸系數β可以對式(1)求最小值得到：

(1)

式中：第1項為殘差平方和；n為瓦斯涌出量樣本數；p為瓦斯涌出量影響因素個數；β0是xij為0時yi的均值；βj為回歸系數；yi為因變量瓦斯涌出量值；xij為自變量第i行樣本第j個輸入值；第2項為壓縮懲罰；λ為正則化參數。

正則化參數λ控制這2項對回歸系數估計的相對影響程度，其數值確定方法為交叉驗證。

1.2 XGBoost模型

極限梯度提升XGBoost是2016年由陳天奇提出的，其在大多數回歸和分類問題上表現良好，應用在人工智能、工業等多個領域[9-11]。將其原理與瓦斯涌出量相結合如下：

設D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R)，其中n為瓦斯涌出量樣本數；m為樣本包含的特征數；xi為樣本數據；yi為樣本真實值。模型在樣本上的預測結果如式(2):

(2)

(3)

式中：l為可微凸損失函數；γ和λ為正則化參數。

(4)

對式(4)中新預測值進行二階泰勒展開，并去除常數項，其表達式如式(5)：

(5)

式中：gi和hi分別為損失函數中一階梯度和二階梯度數據。

假定Ij={i|q(xi)=j}表示第j組葉子節點，展開正則項得到式(6)：

(6)

(7)

(8)

1.3 XGBoost模型參數尋優算法

網格搜索算法，人為地分配1個特定的參數范圍，設置調整參數的步長，利用調整的參數訓練學習器，并使用交叉驗證來評估性能。擬合函數嘗試所有參數組合后，最優參數將返回給適宜的學習器，并調整為參數最佳組合。但是該尋優過程耗時較多，效率較低[12]。

隨機搜索算法，通過選擇每1個超參數的1個隨機值的特定數量隨機組合從而大大減少超參數搜索的計算量，縮短尋優時間，提升模型性能。其在空間分布中是以隨機采樣的方式進行的，對于連續變化的參數，隨機搜索算法將其作為1個分布進行采樣。

網格搜索算法與隨機搜索算法示意如圖1所示。

圖1 網格搜索與隨機搜索算法示意Fig.1 Grid search and random search algorithm schematic

2 隨機搜索+XGBoost預測模型

本文首先通過特征選擇中的Lasso回歸對數據樣本進行篩選，去除對模型訓練中沒有積極貢獻的特征，選用隨機搜索算法優化XGBoost模型參數，構建“隨機搜索+XGBoost”預測模型，具體的流程步驟如下：

1)Lasso回歸建模：通過交叉驗證確定正則化參數λ，從回歸系數中篩選出沒有積極貢獻的特征。

2)劃分樣本：Lasso回歸選出主要影響因素后，更新后的數據作為預測輸入，并將新的樣本數據進行訓練、測試樣本的劃分。

3)初始化XGBoost模型參數：使用樹的數量n_estimators，最大樹深度max_depth，學習速率learning_rate，葉子上最小樣本數min_child_weight。

4)確定最優參數：給定參數區間，設定隨機搜索的種子數，利用隨機搜索算法進行參數尋優，直到確定最優參數，判斷是否滿足預先設定要求。

5)模型對比：通過隨機搜索+XGBoost預測模型得到預測值并與傳統XGBoost模型與網格搜索+XGBoost模型進行評判指標對比分析。

3 瓦斯涌出量預測實驗與分析

3.1 影響因素的選取

本文從初始瓦斯條件、開采條件、煤層地質條件這3個方面對瓦斯涌出量影響因素進行分析。

1)初始瓦斯條件：開采層瓦斯含量是瓦斯涌出的決定性因素，開采層瓦斯含量高會導致瓦斯涌出量高。由于預抽采瓦斯會對瓦斯涌出量產生顯著影響，此處假設本煤層預抽采時間固定為2 a。當本煤層瓦斯含量不高時，由于鄰近煤層賦存瓦斯含量較高，開采時瓦斯會涌入開采層及采空區。另外，鄰近層厚度、煤層間距、層間巖性也會間接影響瓦斯涌出[13]。

2)開采條件：綜采面產量的增減與絕對瓦斯涌出量有明顯的線性關系，涌出的瓦斯主要來源于割煤機割落的煤塊，一般來說，落煤時瓦斯涌出量較高。因此，采高、推進速度以及采出率等可作為瓦斯涌出的相關因素。

3)煤層地質條件：對于我國的開采地質條件，煤層埋深越深瓦斯涌出量越大。一般來說，深部煤層透氣性較差，會造成瓦斯積聚。煤層、巖層的滲透性與構造破壞程度、采動裂隙等因素息息相關，采動裂隙又與工作面的長度、開采強度等因素有關。另外由于采掘的持續推進，煤層厚度、煤層傾角的變化，瓦斯的擴散釋放也較為明顯。

經過綜合分析，確定與瓦斯涌出量相關的影響因素見表1。

表1 各影響因素回歸系數Table 1 Regression coefficient of each influencing factor

3.2 Lasso回歸方法篩選變量

通過查閱文獻、結合前人成果，本文以沈陽某礦瓦斯涌出量影響因素數據為例，樣本數據源于文獻[14]，通過Lasso回歸進行影響因素特征選擇。

由于瓦斯影響因素眾多，直接代入XGBoost模型預測會造成模型復雜度過高。因此，本文選用特征工程中的Lasso回歸方法，通過R語言編程對影響較小的因素進行剔除。Lasso回歸通過交叉驗證確定模型的懲罰力度。交叉驗證過程如圖2所示。

通過圖2可看到λ在不同取值下各變量懲罰函數值的變化情況，經交叉驗證得到的正則化參數λ的值為0.012 56，1倍標準差值為0.061 05。由公式(1)原理，通過得到的正則化參數λ，可知各個影響因素的回歸系數。Lasso回歸系數變化軌跡如圖3所示，各影響因素回歸系數統計見表1。

圖3 Lasso回歸系數變化軌跡Fig.3 Lasso regression coefficient change trajectory graph

由表1和圖3結合可知，當正則化參數λ的值為0.012 56時，此時有5個變量的懲罰函數值收斂為0，表明這5個變量對模型訓練沒有積極貢獻，故將這5個變量剔除。

通過Lasso回歸篩選影響因素后，部分數據樣本匯總見表2。

表2 瓦斯涌出量影響因素數據集(部分數據)Table 2 Data set of influencing factors of gas emission (partial data)

3.3 搜索算法參數尋優

由于XGBoost模型參數較多，過多的參數尋優會造成尋優時間過長，本文選取如下4個主要參數通過Python進行尋優：1)使用樹的數量n_estimators；2)最大樹深度max_depth，一般用于防止過擬合；3)學習速率learning_rate，隨著權重的減少，模型魯棒性會有所提升；4)葉子上最小樣本數min_child_weight，其內涵是最小樣本的和，和最大樹深類似，局部的特殊樣本可以通過其取值進行有效避免。參數尋優范圍及結果見表3。

表3 超參數尋優范圍及結果Table 3 The optimization range and results of super parameters

3.4 隨機搜索+XGBoost模型預測結果分析

將樣本數據后10組作為測試集，利用隨機搜索+XGBoost模型對測試集進行預測，并將預測結果與傳統XGBoost模型和網格搜索+XGBoost模型進行對比，對比其他模型結果和相對誤差見表4。搜索優化模型預測結果對比如圖4所示。

表4 各模型瓦斯涌出量預測結果及相對誤差Table 4 Prediction results and relative errors of gas emission of each model

圖4 搜索優化模型預測、實際值對比Fig.4 Search optimization model prediction and actual value comparison

從整體上來說，傳統XGBoost模型和網格搜索+XGBoost模型平均相對誤差分別為3.22%，2.31%。本文的隨機搜索+XGBoost預測模型平均相對誤差為1.53%，可看出本文模型精度的提升較為明顯。

從個別數據上考慮，如編號2，3的3種模型相對誤差均小于1%，差距不大，此時均能夠滿足工程上面的需要。

對于3種模型相對誤差計算結果偏差較大的數據，如編號5～7，本文模型與其他2種模型比較，編號5相對誤差略高于其他2種模型，編號6，7相較其他2種模型提升較多。其他2種模型最大相對誤差均高于一般工程允許的最大誤差10%，本文模型最大相對誤差為7.55%，表明本文模型能夠滿足工程實際需要。

采用均方根誤差RMSE用來衡量擬合效果，均方根誤差越小，預測精度越高；希爾不等系數TheilIC，評價預測結果相對真實結果，擬合誤差指數通常在0到1之間，數值越小表明計算值與真實值的差異越小，即計算結果精度越高[15]。分別如公式(9)，(10)所示。

(9)

(10)

各模型評判指標對比如表5所示。

表5 各模型評判指標對比Table 5 Comparison of evaluation indexes of each model

由表5可知，本文模型與傳統XGBoost模型和網格搜索+XGBoost模型相比，平均相對誤差分別下降了1.69%，0.78%，精度有明顯提升。

經過計算，傳統XGBoost模型、網格搜索+XGBoost模型和隨機搜索+XGBoost模型3種模型的均方根誤差分別為0.328 9，0.214，0.140 3 m3/min，希爾不等系數分別為0.030 5，0.02，0.013 2，由此可見隨機搜索+XGBoost模型預測精度最高、泛化能力最強。

4 結論

1)從初始瓦斯條件、開采條件、煤層地質條件3個方面分析瓦斯涌出量影響因素，發現各影響因素之間多重相關；通過特征工程中Lasso回歸模型對瓦斯涌出量影響因素進行篩選，當正則化參數取0.012 56時，確定瓦斯涌出量主要影響因素，降低建模難度。

2)由于XGBoost模型參數較多，本文主要選取n_estimators，learning_rate，max_depth和min_child_weight4個主要參數通過Python在一定范圍內進行參數尋優。將網格搜索、隨機搜索與XGBoost模型結合后預測結果進行對比，本文模型選取的最優參數組合分別為522，0.054，4，3。

3)傳統XGBoost模型、網格搜索+XGBoost模型和隨機搜索+XGBoost模型3種模型的均方根誤差分別為0.328 9，0.214，0.140 3 m3/min，希爾不等系數分別為0.030 5，0.02，0.013 2。由此可見，隨機搜索+XGBoost模型指標評價綜合能力較高，可為現場瓦斯防治工作提供理論基礎。