鄭學(xué)召, 李夢涵, 張嬿妮, 姜鵬, 王寶元
(1.西安科技大學(xué) 安全科學(xué)與工程學(xué)院, 陜西 西安 710054;2.國家礦山應(yīng)急救援西安研究中心, 陜西 西安 710054)
我國是一個以煤炭為主要能源的國家,隨著煤炭資源的不斷開采,煤自燃災(zāi)害時(shí)有發(fā)生,嚴(yán)重影響著煤礦安全生產(chǎn),成為煤礦生產(chǎn)面臨的主要災(zāi)害之一[1-3]。這不僅會造成煤炭資源的浪費(fèi),還會威脅煤礦工作人員的生命安全。因此,預(yù)測煤自燃溫度對于煤礦安全生產(chǎn)具有重要意義[4-5]。
常用的煤自燃預(yù)測方法有測溫法[6]、氣體分析法[7]及磁力預(yù)測法[8]等。氣體分析法因具有靈敏度高、可檢測性強(qiáng)及規(guī)律性好等特性而被廣泛使用[9],其通過測量煤與氧氣發(fā)生化學(xué)反應(yīng)時(shí)產(chǎn)生的指標(biāo)性氣體濃度并分析各氣體濃度與煤自然發(fā)火之間的規(guī)律,實(shí)現(xiàn)對煤自燃溫度的預(yù)測。然而,煤自燃溫度與指標(biāo)性氣體濃度之間的關(guān)系是非線性的[10],準(zhǔn)確描述這種非線性關(guān)系是進(jìn)行煤自燃溫度預(yù)測的關(guān)鍵。眾多學(xué)者對氣體分析法和煤自燃預(yù)測法之間的關(guān)聯(lián)展開了研究。張?zhí)煊畹萚11]基于支持向量機(jī)(Support Vector Machine,SVM)分類算法和多種指標(biāo)性氣體構(gòu)建了多煤種煤自燃危險(xiǎn)性預(yù)測模型,得出由網(wǎng)格搜索法確定參數(shù)的模型分類準(zhǔn)確率最高,但該模型確定參數(shù)的方法較為復(fù)雜。劉寶等[4]針對基于徑向基神經(jīng)網(wǎng)絡(luò)方法和基于SVM方法等傳統(tǒng)的機(jī)器學(xué)習(xí)方法存在誤差較大的問題,提出了一種基于相關(guān)向量機(jī)的煤自燃溫度預(yù)測方法,該方法使用的模型泛化能力強(qiáng)、預(yù)測誤差小,但對參數(shù)選取的要求很高。文獻(xiàn)[12-13]采用氣體分析法和神經(jīng)網(wǎng)絡(luò)算法建立BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)預(yù)測模型,可以預(yù)測早期煤自燃情況,但該方法在測試時(shí)易出現(xiàn)過擬合現(xiàn)象。
隨機(jī)森林(Random Forest,RF)算法具有預(yù)測精度高、不易過擬合、參數(shù)優(yōu)化過程簡單的優(yōu)點(diǎn)[14-15]。鑒于此,本文利用煤自燃程序升溫實(shí)驗(yàn)選取的O2濃度、CO濃度、C2H4濃度、CO/ΔO2比值、C2H4/C2H6比值作為煤自燃預(yù)警指標(biāo),構(gòu)建了基于RF算法的煤自燃溫度預(yù)測模型,引入均方誤差值(Mean Square Error,MSE)和判定系數(shù)R2對模型參數(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)對比結(jié)果表明,與基于粒子群優(yōu)化BP(Particle Swarm Optimization-Back Propagation,PSO-BP)神經(jīng)網(wǎng)絡(luò)算法和基于SVM算法的煤自燃模型相比,基于RF算法的煤自燃溫度預(yù)測模型性能最好,預(yù)測精度最高,具有較高的準(zhǔn)確率和魯棒性,可為煤自燃溫度預(yù)測及煤自燃火災(zāi)早期預(yù)防提供參考。
RF算法最早由L. Breiman[15]在2001年提出,它是以決策樹為基礎(chǔ)的一種機(jī)器學(xué)習(xí)算法,主要用于解決回歸和分類問題。根據(jù)決策樹的分裂標(biāo)準(zhǔn)主要有ID3、C4.5、CART等[16]決策樹算法。當(dāng)決策樹的數(shù)量較多時(shí),可以在一定程度上解決單一決策樹過擬合、分類效果差等問題。RF算法具體流程如圖1所示。

圖1 RF算法流程Fig.1 RF algorithm flow
(1) 利用Bootstrap隨機(jī)有放回地從原始學(xué)習(xí)集抽取m個樣本,一共進(jìn)行N次抽樣,形成N個學(xué)習(xí)樣本子集。被抽中的樣本稱為袋內(nèi)數(shù)據(jù),未被抽中的數(shù)據(jù)則稱為袋外數(shù)據(jù)。
(2)對于N個學(xué)習(xí)樣本子集,發(fā)展N個決策樹;由于樣本是隨機(jī)選取的,各個決策樹之間相互獨(dú)立。
(3)對于每一個決策樹,假設(shè)共有M個特征屬性,利用信息增益率選取一個最優(yōu)屬性作為該決策樹的根節(jié)點(diǎn),然后依次進(jìn)行分裂。
(4)每個決策樹都按照最優(yōu)特征進(jìn)行分裂,在這個過程中不需要進(jìn)行剪枝,形成隨機(jī)森林。
(5)按照每個決策樹的回歸結(jié)果,平均后得到最終結(jié)果。
基于RF算法的煤自燃溫度預(yù)測模型構(gòu)建流程如圖2所示,模型基于Matlab環(huán)境實(shí)現(xiàn)。

圖2 基于RF算法的煤自燃溫度預(yù)測模型構(gòu)建流程Fig.2 Construction process of prediction model of coal spontaneous combustion temperature based on RF algorithm
(1) 通過實(shí)驗(yàn)采集煤自燃預(yù)警指標(biāo)氣體濃度,分為學(xué)習(xí)集和測試集。
(2) 采用Bootstrap對學(xué)習(xí)集樣本進(jìn)行N次抽樣,形成N個決策樹;每個決策樹按照最優(yōu)特征進(jìn)行分裂,形成隨機(jī)森林。
(3) 采用均方誤差值和判定系數(shù)R2對RF算法中的參數(shù)進(jìn)行優(yōu)化并確定RF模型參數(shù)。
(4) 將測試集樣本指標(biāo)氣體濃度輸入由學(xué)習(xí)集樣本確定參數(shù)的RF模型,得到煤溫預(yù)測結(jié)果。
通過采集山東鄒城東灘煤礦煤樣進(jìn)行煤自燃程序升溫實(shí)驗(yàn)。通過程序升溫裝置對煤體進(jìn)行加熱,然后通入均勻的氣流,檢測并記錄煤氧復(fù)合反應(yīng)的氣體產(chǎn)物濃度和煤體溫度,并進(jìn)行特征溫度分析,以此確定煤自燃預(yù)警指標(biāo)。對該實(shí)驗(yàn)中的625組數(shù)據(jù)進(jìn)行缺失值和歸一化處理后得到521組數(shù)據(jù),將這些數(shù)據(jù)按照2∶1的比例分為學(xué)習(xí)集和測試集。不同氣體產(chǎn)物濃度與煤溫之間的關(guān)系如圖3所示。

(a) CO體積分?jǐn)?shù)和C2H4體積分?jǐn)?shù)與煤溫的關(guān)系

(b) CO/ΔO2比值和C2H4/C2H6比值與煤溫的關(guān)系
從圖3(a)可看出,CO在26.8 ℃開始產(chǎn)生,其濃度隨著煤體溫度升高而不斷增大。煤溫為50~100 ℃時(shí),CO濃度增長速率較小,煤溫高于100 ℃時(shí),CO濃度增長速率明顯增大,因此,CO濃度可以作為煤自燃早期預(yù)警指標(biāo)[17-18]。C2H4在80 ℃開始出現(xiàn),其濃度隨煤體溫度的增加逐漸增大,當(dāng)煤體溫度升至400 ℃時(shí),其濃度達(dá)到最大值,具有很好的規(guī)律性,因此,C2H4濃度也可以作為煤自燃預(yù)警指標(biāo)[19]。
從圖3(b)可看出,隨著煤體溫度不斷升高,C2H4/C2H6比值的變化趨勢為先降低后升高再降低,CO/ΔO2比值的變化趨勢為先增大后降低,C2H4/C2H6比值在150 ℃時(shí)出現(xiàn)極大值,同時(shí)CO/ΔO2比值增加速率變大,說明煤氧化反應(yīng)會產(chǎn)生大量的C2H4氣體和CO氣體,這一特征能夠和煤溫變化規(guī)律對應(yīng),因此C2H4/C2H6比值和CO/ΔO2比值也可作為煤自燃預(yù)警指標(biāo)。
從圖3(c)可看出,隨著煤體溫度增加,O2濃度不斷降低。O2濃度在50 ℃后迅速下降,而此時(shí)CO和C2H4濃度開始呈增大趨勢,煤體溫度升至150 ℃后,O2濃度降到最低,說明煤氧復(fù)合反應(yīng)是階段性的、非線性的。因此,O2濃度也可以作為煤自燃預(yù)警指標(biāo)[20]。
綜上所述,根據(jù)煤自燃程序升溫實(shí)驗(yàn),最終確定了煤自燃預(yù)警指標(biāo)為CO濃度、O2濃度、CO/ΔO2比值、C2H4濃度及C2H4/C2H6比值。
在使用基于RF算法的煤自燃溫度預(yù)測模型時(shí),為了得到更準(zhǔn)確的預(yù)測結(jié)果,需要對模型參數(shù)進(jìn)行優(yōu)化,尋找最優(yōu)參數(shù)。基于RF算法的煤自燃溫度預(yù)測模型需要優(yōu)化的參數(shù)有n_estimators、oob_sore、max_depth、min_samples_split和min_samples_leaf。在該模型中,用于測試和學(xué)習(xí)的數(shù)據(jù)量較少,因此min_samples_split參數(shù)即決策樹節(jié)點(diǎn)劃分時(shí)使用的最小樣本數(shù)量設(shè)為2,min_samples_leaf參數(shù)即葉子節(jié)點(diǎn)需要的最少樣本數(shù)量設(shè)為1。為了保證樣本選取的隨機(jī)性,該模型采用oob誤差估計(jì)法進(jìn)行誤差估計(jì),即oob_sore參數(shù)是否使用袋外數(shù)據(jù)設(shè)置為true。n_estimators、max_depth參數(shù)優(yōu)化如下。
2.2.1 n_estimators參數(shù)優(yōu)化
n_estimators表示決策樹的數(shù)量,如果決策樹的數(shù)量過多,會導(dǎo)致模型計(jì)算量太大,決策樹的數(shù)量太少,會影響預(yù)測結(jié)果的精準(zhǔn)度,因此,必須找到最合適的決策樹數(shù)量,使模型達(dá)到最優(yōu)。
為了更好地對n_estimators參數(shù)進(jìn)行優(yōu)化,引入MSE對其進(jìn)行分析。MSE越小,說明模型的精度越高。將n_estimators參數(shù)設(shè)置為0~200,不同深度下的決策樹與MSE的關(guān)系如圖4所示。

圖4 決策樹數(shù)量與MSE的關(guān)系Fig.4 Relationship between the number of decision trees and MSE
從圖4可看出,不同決策樹最大深度(max_deep)下,隨著決策樹數(shù)量的增加,MSE均不斷降低,直至決策樹的數(shù)量達(dá)到100后,MSE趨于平緩,變化較小。這說明決策樹數(shù)量達(dá)到100后,模型達(dá)到了最高精度,不受其他因素影響。
為了驗(yàn)證上述決策樹的數(shù)量是否為最優(yōu),本文引入判定系數(shù)R2進(jìn)行再次驗(yàn)證。R2越大,說明預(yù)測值與真實(shí)值越接近,模擬的效果越好。本文將n_estimators參數(shù)設(shè)置為0~300,不同深度下的決策樹數(shù)量與R2之間的關(guān)系如圖5所示。

圖5 決策樹數(shù)量與R2之間的關(guān)系Fig.5 Relationship between the number of decision trees and R2
從圖5可看出,在不同決策樹最大深度(max_deep)下,隨著決策樹數(shù)量的增加,R2不斷增大,直到?jīng)Q策樹的數(shù)量達(dá)到100時(shí),R2呈平緩趨勢且數(shù)值達(dá)到最大。這說明模型的預(yù)測值不斷接近真實(shí)值,擬合程度達(dá)到最理想狀態(tài)。
綜合考慮,基于RF算法的煤自燃溫度預(yù)測模型的n_estimators參數(shù)設(shè)為100。
2.2.2 max_deep參數(shù)優(yōu)化
max_deep參數(shù)表示限制決策樹的最大深度,該模型輸入樣本數(shù)量較少,因此設(shè)max_deep參數(shù)為1~10,分析其對煤自燃溫度預(yù)測模型性能的影響,如圖6所示。

圖6 決策樹深度與R2的關(guān)系Fig.6 Relationship between the depth of decision tree and R2
從圖6可看出,隨著決策樹的深度不斷增加,R2呈現(xiàn)先增大后降低的趨勢。當(dāng)決策樹的深度為4.5~5.5時(shí),R2達(dá)到0.869 7,為其最大值,并保持不變,表示該模型擬合效果達(dá)到最好。
綜上所述,基于RF算法的煤自燃溫度預(yù)測模型的n_estimators參數(shù)設(shè)為100,max_deep參數(shù)的取值范圍設(shè)為4.5~5.5。
為了對基于RF算法的煤自燃溫度預(yù)測模型進(jìn)行誤差分析,本文選擇了以下4項(xiàng)指標(biāo)對模型進(jìn)行評價(jià)。
(1) 平均絕對誤差(Mean Absolute Error,MAE):
(1)
式中:fi為第i個樣本的煤溫預(yù)測值,℃,i=1,2,…,n,n為樣本數(shù)量;yi為第i個樣本的煤溫真實(shí)值,℃。
式(1)中的差值被絕對化,可以很好地解決誤差相互抵消的問題,從而可精準(zhǔn)地評估模型的預(yù)測誤差。MAE越小,說明該模型擬合誤差越小。
(2) 平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE):
(2)
MAPE越小,說明模型的誤差越小,模型預(yù)測精度越高,模型的擬合性能越好。
(3) 均方根誤差(Root Mean Square Error,RMSE):
(3)
RMSE越小,說明模型的預(yù)測誤差越小,模型的性能越好。
(4) 判定系數(shù)R2:
(4)

R2為模型的判定系數(shù),取值為0~1,R2越接近1,說明模型的精度越高,即模型的性能越好。
為了驗(yàn)證基于RF算法的煤自燃溫度預(yù)測模型預(yù)測的準(zhǔn)確性,在保持與RF算法相同的學(xué)習(xí)集和測試集的基礎(chǔ)上,引入了廣泛采用的PSO-BP神經(jīng)網(wǎng)絡(luò)算法和SVM算法對煤自燃溫度進(jìn)行預(yù)測[21-22],并對其預(yù)測結(jié)果和基于RF算法的煤自燃溫度預(yù)測模型預(yù)測的結(jié)果進(jìn)行對比分析。
以上3種模型都有5個輸入,1個輸出。輸入分別為CO濃度、C2H4濃度、O2濃度、CO/ΔO2比值、C2H4/C2H6比值,輸出為溫度。3種模型測試樣本的煤溫預(yù)測值和真實(shí)值如圖7所示。

(a) RF模型測試樣本的煤溫真實(shí)值與預(yù)測值對比

(b) PSO-BP模型測試樣本的煤溫真實(shí)值與預(yù)測值對比

(c) SVM模型測試樣本的煤溫真實(shí)值與預(yù)測值對比
從圖7可看出,基于RF算法的煤自燃溫度預(yù)測模型重合度高于其他2個模型,這說明基于RF算法的煤自燃溫度預(yù)測模型的性能最為優(yōu)越。
不同模型預(yù)測性能指標(biāo)對比見表1。從表1可看出,基于RF算法的煤自燃溫度預(yù)測模型無論在訓(xùn)練過程還是在測試過程,其MAE、MAPE、RMSE以及R2指標(biāo)均優(yōu)于其他2個模型。而基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型和基于SVM算法的煤自燃溫度預(yù)測模型在測試階段的MAE、MAPE、RMSE明顯增大,R2明顯減小,說明這2個模型在測試階段出現(xiàn)了過擬合情況,導(dǎo)致模型的魯棒性降低,預(yù)測結(jié)果精度下降?;赗F算法的煤自燃溫度預(yù)測模型在學(xué)習(xí)階段和測試階段的4個指標(biāo)并沒有明顯偏差,這說明該模型具有較強(qiáng)的泛化性及魯棒性。

表1 不同模型預(yù)測性能指標(biāo)對比Table 1 Comparison of prediction performance indexes between different models
不同模型測試樣本相對誤差箱如圖8所示,基于RF算法的煤自燃溫度預(yù)測模型測試樣本的最大相對誤差為0.523 5,基于SVM算法的煤自燃溫度預(yù)測模型的最大相對誤差為1.052,基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型的最大相對誤差高達(dá)1.179 2?;赗F算法的煤自燃溫度預(yù)測模型的預(yù)測結(jié)果誤差要低于其他2個模型。

圖8 不同模型測試樣本相對誤差箱Fig.8 Relative error box diagram of test samples for different models
(1) 結(jié)合氣體分析法和RF算法構(gòu)建了基于RF算法的煤自燃溫度預(yù)測模型,并對模型參數(shù)進(jìn)行了優(yōu)化。與基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型和基于SVM算法的煤自燃溫度預(yù)測模型預(yù)測結(jié)果相比,基于RF算法的煤自燃溫度預(yù)測模型精度最高,基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型和基于SVM算法的煤自燃溫度預(yù)測模型容易出現(xiàn)過擬合現(xiàn)象。
(2) 基于RF算法的煤自燃溫度預(yù)測模型中,當(dāng)決策樹的數(shù)量達(dá)到100后,MSE和R2趨于穩(wěn)定,且MSE達(dá)到最小,R2達(dá)到最大,說明模型所預(yù)測的溫度與實(shí)際溫度的誤差最小,其相似度最大。
(3) 通過計(jì)算,RF測試階段的R2為0.869 7,PSO-BP測試階段的R2為0.783 6,SVM測試階段的R2為0.835 0,說明基于RF算法的煤自燃溫度預(yù)測模型能夠較為準(zhǔn)確地對煤自燃溫度進(jìn)行預(yù)測,具有較強(qiáng)的魯棒性和普適性,相比其他預(yù)測模型,預(yù)測結(jié)果更為準(zhǔn)確,且不需要復(fù)雜的參數(shù)優(yōu)化。