馬 恒,任美學,高 科
(1.遼寧工程技術大學 安全科學與工程學院,遼寧 葫蘆島 125105;2.礦山熱動力災害與防治教育部重點實驗室,遼寧 葫蘆島 125105)
為有效降低瓦斯事故,井下新水平、新區投產時瓦斯涌出量預測必不可少。此項參數是井下通風、瓦斯日常管理不可缺少的基礎參數。傳統瓦斯涌出量預測目標是采用礦山統計法或分源預測法結合地質、采掘等多重影響因素選取參數進行預測工作。實際現場中,瓦斯動力現象的準確預測對接續安全生產至關重要。
近年來隨著智慧礦山的提出,以人工智能為導向的數字技術在煤礦飛速發展[1-2]。目前,國內外眾多學者多采用機器學習算法進行瓦斯涌出量預測。付華等[3]提出了基于CIPSO和ENN的耦合算法,通過參數實時尋優對預測模型收斂速度、預測精度和魯棒性進行提高;師超等[4]引入了一次指數平滑法進行數據優化,通過蛙跳算法優化Verhulst模型背景值參數建立SFLA-Verhulst組合預測模型;肖鵬等[5]壓縮映射遺傳算法優化BP神經網絡,并采用核主成分分析法對影響因素數據集進行降維,構建CMGANN耦合算法;Yuan[6]利用傳統的GM(1,1)模型預測瓦斯涌出量,模型能夠實現實時、動態指導。
上述學者的探索對瓦斯涌出量預測工作均有所推進。考慮瓦斯涌出量影響因素較為復雜,以優化數據特征、提高綜合模型質量為目標。基于此,以沈陽某煤礦綜采面瓦斯涌出量歷史數據為對象,搭建1種融合Lasso回歸與隨機搜索優化XGBoost的模型進行瓦斯涌出量預測,采用Lasso回歸篩選出瓦斯涌出量的重要影響因素,得到經特征選擇后的樣本數據。結合隨機搜索調參后的XGBoost模型得到預測值,引入評判指標驗證模型有效性。
套索回歸首次提出于1996年,通過降階的思想對數據進行壓縮估計,其通過構造1個懲罰函數得到1個較為精煉的模型,對回歸系數進行壓縮并使部分回歸系數變為0,從而進行變量的篩選[7-8]。
該算法可有效地從高維變量中選取與涌出量相關的自變量,實現降維目的。該過程只進行篩選影響因素,不進行預測。
Lasso回歸系數β可以對式(1)求最小值得到:
(1)
式中:第1項為殘差平方和;n為瓦斯涌出量樣本數;p為瓦斯涌出量影響因素個數;β0是xij為0時yi的均值;βj為回歸系數;yi為因變量瓦斯涌出量值;xij為自變量第i行樣本第j個輸入值;第2項為壓縮懲罰;λ為正則化參數。
正則化參數λ控制這2項對回歸系數估計的相對影響程度,其數值確定方法為交叉驗證。
極限梯度提升XGBoost是2016年由陳天奇提出的,其在大多數回歸和分類問題上表現良好,應用在人工智能、工業等多個領域[9-11]。將其原理與瓦斯涌出量相結合如下:
設D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),其中n為瓦斯涌出量樣本數;m為樣本包含的特征數;xi為樣本數據;yi為樣本真實值。模型在樣本上的預測結果如式(2):
(2)
(3)
式中:l為可微凸損失函數;γ和λ為正則化參數。
(4)
對式(4)中新預測值進行二階泰勒展開,并去除常數項,其表達式如式(5):
(5)
式中:gi和hi分別為損失函數中一階梯度和二階梯度數據。
假定Ij={i|q(xi)=j}表示第j組葉子節點,展開正則項得到式(6):
(6)
(7)
(8)
網格搜索算法,人為地分配1個特定的參數范圍,設置調整參數的步長,利用調整的參數訓練學習器,并使用交叉驗證來評估性能。擬合函數嘗試所有參數組合后,最優參數將返回給適宜的學習器,并調整為參數最佳組合。但是該尋優過程耗時較多,效率較低[12]。
隨機搜索算法,通過選擇每1個超參數的1個隨機值的特定數量隨機組合從而大大減少超參數搜索的計算量,縮短尋優時間,提升模型性能。其在空間分布中是以隨機采樣的方式進行的,對于連續變化的參數,隨機搜索算法將其作為1個分布進行采樣。
網格搜索算法與隨機搜索算法示意如圖1所示。
圖1 網格搜索與隨機搜索算法示意Fig.1 Grid search and random search algorithm schematic
本文首先通過特征選擇中的Lasso回歸對數據樣本進行篩選,去除對模型訓練中沒有積極貢獻的特征,選用隨機搜索算法優化XGBoost模型參數,構建“隨機搜索+XGBoost”預測模型,具體的流程步驟如下:
1)Lasso回歸建模:通過交叉驗證確定正則化參數λ,從回歸系數中篩選出沒有積極貢獻的特征。
2)劃分樣本:Lasso回歸選出主要影響因素后,更新后的數據作為預測輸入,并將新的樣本數據進行訓練、測試樣本的劃分。
3)初始化XGBoost模型參數:使用樹的數量n_estimators,最大樹深度max_depth,學習速率learning_rate,葉子上最小樣本數min_child_weight。
4)確定最優參數:給定參數區間,設定隨機搜索的種子數,利用隨機搜索算法進行參數尋優,直到確定最優參數,判斷是否滿足預先設定要求。
5)模型對比:通過隨機搜索+XGBoost預測模型得到預測值并與傳統XGBoost模型與網格搜索+XGBoost模型進行評判指標對比分析。
本文從初始瓦斯條件、開采條件、煤層地質條件這3個方面對瓦斯涌出量影響因素進行分析。
1)初始瓦斯條件:開采層瓦斯含量是瓦斯涌出的決定性因素,開采層瓦斯含量高會導致瓦斯涌出量高。由于預抽采瓦斯會對瓦斯涌出量產生顯著影響,此處假設本煤層預抽采時間固定為2 a。當本煤層瓦斯含量不高時,由于鄰近煤層賦存瓦斯含量較高,開采時瓦斯會涌入開采層及采空區。另外,鄰近層厚度、煤層間距、層間巖性也會間接影響瓦斯涌出[13]。
2)開采條件:綜采面產量的增減與絕對瓦斯涌出量有明顯的線性關系,涌出的瓦斯主要來源于割煤機割落的煤塊,一般來說,落煤時瓦斯涌出量較高。因此,采高、推進速度以及采出率等可作為瓦斯涌出的相關因素。
3)煤層地質條件:對于我國的開采地質條件,煤層埋深越深瓦斯涌出量越大。一般來說,深部煤層透氣性較差,會造成瓦斯積聚。煤層、巖層的滲透性與構造破壞程度、采動裂隙等因素息息相關,采動裂隙又與工作面的長度、開采強度等因素有關。另外由于采掘的持續推進,煤層厚度、煤層傾角的變化,瓦斯的擴散釋放也較為明顯。
經過綜合分析,確定與瓦斯涌出量相關的影響因素見表1。
表1 各影響因素回歸系數Table 1 Regression coefficient of each influencing factor
通過查閱文獻、結合前人成果,本文以沈陽某礦瓦斯涌出量影響因素數據為例,樣本數據源于文獻[14],通過Lasso回歸進行影響因素特征選擇。
由于瓦斯影響因素眾多,直接代入XGBoost模型預測會造成模型復雜度過高。因此,本文選用特征工程中的Lasso回歸方法,通過R語言編程對影響較小的因素進行剔除。Lasso回歸通過交叉驗證確定模型的懲罰力度。交叉驗證過程如圖2所示。
通過圖2可看到λ在不同取值下各變量懲罰函數值的變化情況,經交叉驗證得到的正則化參數λ的值為0.012 56,1倍標準差值為0.061 05。由公式(1)原理,通過得到的正則化參數λ,可知各個影響因素的回歸系數。Lasso回歸系數變化軌跡如圖3所示,各影響因素回歸系數統計見表1。
圖3 Lasso回歸系數變化軌跡Fig.3 Lasso regression coefficient change trajectory graph
由表1和圖3結合可知,當正則化參數λ的值為0.012 56時,此時有5個變量的懲罰函數值收斂為0,表明這5個變量對模型訓練沒有積極貢獻,故將這5個變量剔除。
通過Lasso回歸篩選影響因素后,部分數據樣本匯總見表2。
表2 瓦斯涌出量影響因素數據集(部分數據)Table 2 Data set of influencing factors of gas emission (partial data)
由于XGBoost模型參數較多,過多的參數尋優會造成尋優時間過長,本文選取如下4個主要參數通過Python進行尋優:1)使用樹的數量n_estimators;2)最大樹深度max_depth,一般用于防止過擬合;3)學習速率learning_rate,隨著權重的減少,模型魯棒性會有所提升;4)葉子上最小樣本數min_child_weight,其內涵是最小樣本的和,和最大樹深類似,局部的特殊樣本可以通過其取值進行有效避免。參數尋優范圍及結果見表3。
表3 超參數尋優范圍及結果Table 3 The optimization range and results of super parameters
將樣本數據后10組作為測試集,利用隨機搜索+XGBoost模型對測試集進行預測,并將預測結果與傳統XGBoost模型和網格搜索+XGBoost模型進行對比,對比其他模型結果和相對誤差見表4。搜索優化模型預測結果對比如圖4所示。
表4 各模型瓦斯涌出量預測結果及相對誤差Table 4 Prediction results and relative errors of gas emission of each model
圖4 搜索優化模型預測、實際值對比Fig.4 Search optimization model prediction and actual value comparison
從整體上來說,傳統XGBoost模型和網格搜索+XGBoost模型平均相對誤差分別為3.22%,2.31%。本文的隨機搜索+XGBoost預測模型平均相對誤差為1.53%,可看出本文模型精度的提升較為明顯。
從個別數據上考慮,如編號2,3的3種模型相對誤差均小于1%,差距不大,此時均能夠滿足工程上面的需要。
對于3種模型相對誤差計算結果偏差較大的數據,如編號5~7,本文模型與其他2種模型比較,編號5相對誤差略高于其他2種模型,編號6,7相較其他2種模型提升較多。其他2種模型最大相對誤差均高于一般工程允許的最大誤差10%,本文模型最大相對誤差為7.55%,表明本文模型能夠滿足工程實際需要。
采用均方根誤差RMSE用來衡量擬合效果,均方根誤差越小,預測精度越高;希爾不等系數TheilIC,評價預測結果相對真實結果,擬合誤差指數通常在0到1之間,數值越小表明計算值與真實值的差異越小,即計算結果精度越高[15]。分別如公式(9),(10)所示。
(9)
(10)
各模型評判指標對比如表5所示。
表5 各模型評判指標對比Table 5 Comparison of evaluation indexes of each model
由表5可知,本文模型與傳統XGBoost模型和網格搜索+XGBoost模型相比,平均相對誤差分別下降了1.69%,0.78%,精度有明顯提升。
經過計算,傳統XGBoost模型、網格搜索+XGBoost模型和隨機搜索+XGBoost模型3種模型的均方根誤差分別為0.328 9,0.214,0.140 3 m3/min,希爾不等系數分別為0.030 5,0.02,0.013 2,由此可見隨機搜索+XGBoost模型預測精度最高、泛化能力最強。
1)從初始瓦斯條件、開采條件、煤層地質條件3個方面分析瓦斯涌出量影響因素,發現各影響因素之間多重相關;通過特征工程中Lasso回歸模型對瓦斯涌出量影響因素進行篩選,當正則化參數取0.012 56時,確定瓦斯涌出量主要影響因素,降低建模難度。
2)由于XGBoost模型參數較多,本文主要選取n_estimators,learning_rate,max_depth和min_child_weight4個主要參數通過Python在一定范圍內進行參數尋優。將網格搜索、隨機搜索與XGBoost模型結合后預測結果進行對比,本文模型選取的最優參數組合分別為522,0.054,4,3。
3)傳統XGBoost模型、網格搜索+XGBoost模型和隨機搜索+XGBoost模型3種模型的均方根誤差分別為0.328 9,0.214,0.140 3 m3/min,希爾不等系數分別為0.030 5,0.02,0.013 2。由此可見,隨機搜索+XGBoost模型指標評價綜合能力較高,可為現場瓦斯防治工作提供理論基礎。