基于隨機(jī)森林算法的煤自燃溫度預(yù)測模型研究

2021-06-02 09:55:40鄭學(xué)召李夢涵張嬿妮姜鵬王寶元

工礦自動化 2021年5期

關(guān)鍵詞：模型

鄭學(xué)召，李夢涵，張嬿妮，姜鵬，王寶元

(1.西安科技大學(xué) 安全科學(xué)與工程學(xué)院，陜西西安 710054；2.國家礦山應(yīng)急救援西安研究中心，陜西西安 710054)

0 引言

我國是一個以煤炭為主要能源的國家，隨著煤炭資源的不斷開采，煤自燃災(zāi)害時(shí)有發(fā)生，嚴(yán)重影響著煤礦安全生產(chǎn)，成為煤礦生產(chǎn)面臨的主要災(zāi)害之一[1-3]。這不僅會造成煤炭資源的浪費(fèi)，還會威脅煤礦工作人員的生命安全。因此，預(yù)測煤自燃溫度對于煤礦安全生產(chǎn)具有重要意義[4-5]。

常用的煤自燃預(yù)測方法有測溫法[6]、氣體分析法[7]及磁力預(yù)測法[8]等。氣體分析法因具有靈敏度高、可檢測性強(qiáng)及規(guī)律性好等特性而被廣泛使用[9]，其通過測量煤與氧氣發(fā)生化學(xué)反應(yīng)時(shí)產(chǎn)生的指標(biāo)性氣體濃度并分析各氣體濃度與煤自然發(fā)火之間的規(guī)律，實(shí)現(xiàn)對煤自燃溫度的預(yù)測。然而，煤自燃溫度與指標(biāo)性氣體濃度之間的關(guān)系是非線性的[10]，準(zhǔn)確描述這種非線性關(guān)系是進(jìn)行煤自燃溫度預(yù)測的關(guān)鍵。眾多學(xué)者對氣體分析法和煤自燃預(yù)測法之間的關(guān)聯(lián)展開了研究。張?zhí)煊畹萚11]基于支持向量機(jī)(Support Vector Machine，SVM)分類算法和多種指標(biāo)性氣體構(gòu)建了多煤種煤自燃危險(xiǎn)性預(yù)測模型，得出由網(wǎng)格搜索法確定參數(shù)的模型分類準(zhǔn)確率最高，但該模型確定參數(shù)的方法較為復(fù)雜。劉寶等[4]針對基于徑向基神經(jīng)網(wǎng)絡(luò)方法和基于SVM方法等傳統(tǒng)的機(jī)器學(xué)習(xí)方法存在誤差較大的問題，提出了一種基于相關(guān)向量機(jī)的煤自燃溫度預(yù)測方法，該方法使用的模型泛化能力強(qiáng)、預(yù)測誤差小，但對參數(shù)選取的要求很高。文獻(xiàn)[12-13]采用氣體分析法和神經(jīng)網(wǎng)絡(luò)算法建立BP(Back Propagation，反向傳播)神經(jīng)網(wǎng)絡(luò)預(yù)測模型，可以預(yù)測早期煤自燃情況，但該方法在測試時(shí)易出現(xiàn)過擬合現(xiàn)象。

隨機(jī)森林(Random Forest，RF)算法具有預(yù)測精度高、不易過擬合、參數(shù)優(yōu)化過程簡單的優(yōu)點(diǎn)[14-15]。鑒于此，本文利用煤自燃程序升溫實(shí)驗(yàn)選取的O2濃度、CO濃度、C2H4濃度、CO/ΔO2比值、C2H4/C2H6比值作為煤自燃預(yù)警指標(biāo)，構(gòu)建了基于RF算法的煤自燃溫度預(yù)測模型，引入均方誤差值(Mean Square Error，MSE)和判定系數(shù)R2對模型參數(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)對比結(jié)果表明，與基于粒子群優(yōu)化BP(Particle Swarm Optimization-Back Propagation，PSO-BP)神經(jīng)網(wǎng)絡(luò)算法和基于SVM算法的煤自燃模型相比，基于RF算法的煤自燃溫度預(yù)測模型性能最好，預(yù)測精度最高，具有較高的準(zhǔn)確率和魯棒性，可為煤自燃溫度預(yù)測及煤自燃火災(zāi)早期預(yù)防提供參考。

1 RF算法

RF算法最早由L. Breiman[15]在2001年提出，它是以決策樹為基礎(chǔ)的一種機(jī)器學(xué)習(xí)算法，主要用于解決回歸和分類問題。根據(jù)決策樹的分裂標(biāo)準(zhǔn)主要有ID3、C4.5、CART等[16]決策樹算法。當(dāng)決策樹的數(shù)量較多時(shí)，可以在一定程度上解決單一決策樹過擬合、分類效果差等問題。RF算法具體流程如圖1所示。

圖1 RF算法流程Fig.1 RF algorithm flow

(1) 利用Bootstrap隨機(jī)有放回地從原始學(xué)習(xí)集抽取m個樣本,一共進(jìn)行N次抽樣，形成N個學(xué)習(xí)樣本子集。被抽中的樣本稱為袋內(nèi)數(shù)據(jù),未被抽中的數(shù)據(jù)則稱為袋外數(shù)據(jù)。

(2)對于N個學(xué)習(xí)樣本子集，發(fā)展N個決策樹；由于樣本是隨機(jī)選取的，各個決策樹之間相互獨(dú)立。

(3)對于每一個決策樹，假設(shè)共有M個特征屬性，利用信息增益率選取一個最優(yōu)屬性作為該決策樹的根節(jié)點(diǎn)，然后依次進(jìn)行分裂。

(4)每個決策樹都按照最優(yōu)特征進(jìn)行分裂，在這個過程中不需要進(jìn)行剪枝，形成隨機(jī)森林。

(5)按照每個決策樹的回歸結(jié)果，平均后得到最終結(jié)果。

2 基于RF算法的煤自燃溫度預(yù)測模型構(gòu)建

基于RF算法的煤自燃溫度預(yù)測模型構(gòu)建流程如圖2所示，模型基于Matlab環(huán)境實(shí)現(xiàn)。

圖2 基于RF算法的煤自燃溫度預(yù)測模型構(gòu)建流程Fig.2 Construction process of prediction model of coal spontaneous combustion temperature based on RF algorithm

(1) 通過實(shí)驗(yàn)采集煤自燃預(yù)警指標(biāo)氣體濃度，分為學(xué)習(xí)集和測試集。

(2) 采用Bootstrap對學(xué)習(xí)集樣本進(jìn)行N次抽樣，形成N個決策樹；每個決策樹按照最優(yōu)特征進(jìn)行分裂，形成隨機(jī)森林。

(3) 采用均方誤差值和判定系數(shù)R2對RF算法中的參數(shù)進(jìn)行優(yōu)化并確定RF模型參數(shù)。

(4) 將測試集樣本指標(biāo)氣體濃度輸入由學(xué)習(xí)集樣本確定參數(shù)的RF模型，得到煤溫預(yù)測結(jié)果。

2.1 數(shù)據(jù)采集及處理

通過采集山東鄒城東灘煤礦煤樣進(jìn)行煤自燃程序升溫實(shí)驗(yàn)。通過程序升溫裝置對煤體進(jìn)行加熱，然后通入均勻的氣流，檢測并記錄煤氧復(fù)合反應(yīng)的氣體產(chǎn)物濃度和煤體溫度，并進(jìn)行特征溫度分析，以此確定煤自燃預(yù)警指標(biāo)。對該實(shí)驗(yàn)中的625組數(shù)據(jù)進(jìn)行缺失值和歸一化處理后得到521組數(shù)據(jù)，將這些數(shù)據(jù)按照2∶1的比例分為學(xué)習(xí)集和測試集。不同氣體產(chǎn)物濃度與煤溫之間的關(guān)系如圖3所示。

(a) CO體積分?jǐn)?shù)和C2H4體積分?jǐn)?shù)與煤溫的關(guān)系

(b) CO/ΔO2比值和C2H4/C2H6比值與煤溫的關(guān)系

從圖3(a)可看出，CO在26.8 ℃開始產(chǎn)生，其濃度隨著煤體溫度升高而不斷增大。煤溫為50～100 ℃時(shí)，CO濃度增長速率較小，煤溫高于100 ℃時(shí)，CO濃度增長速率明顯增大，因此，CO濃度可以作為煤自燃早期預(yù)警指標(biāo)[17-18]。C2H4在80 ℃開始出現(xiàn)，其濃度隨煤體溫度的增加逐漸增大，當(dāng)煤體溫度升至400 ℃時(shí)，其濃度達(dá)到最大值，具有很好的規(guī)律性，因此，C2H4濃度也可以作為煤自燃預(yù)警指標(biāo)[19]。

從圖3(b)可看出，隨著煤體溫度不斷升高，C2H4/C2H6比值的變化趨勢為先降低后升高再降低，CO/ΔO2比值的變化趨勢為先增大后降低，C2H4/C2H6比值在150 ℃時(shí)出現(xiàn)極大值，同時(shí)CO/ΔO2比值增加速率變大，說明煤氧化反應(yīng)會產(chǎn)生大量的C2H4氣體和CO氣體，這一特征能夠和煤溫變化規(guī)律對應(yīng)，因此C2H4/C2H6比值和CO/ΔO2比值也可作為煤自燃預(yù)警指標(biāo)。

從圖3(c)可看出，隨著煤體溫度增加，O2濃度不斷降低。O2濃度在50 ℃后迅速下降，而此時(shí)CO和C2H4濃度開始呈增大趨勢，煤體溫度升至150 ℃后，O2濃度降到最低，說明煤氧復(fù)合反應(yīng)是階段性的、非線性的。因此，O2濃度也可以作為煤自燃預(yù)警指標(biāo)[20]。

綜上所述，根據(jù)煤自燃程序升溫實(shí)驗(yàn)，最終確定了煤自燃預(yù)警指標(biāo)為CO濃度、O2濃度、CO/ΔO2比值、C2H4濃度及C2H4/C2H6比值。

2.2 參數(shù)尋優(yōu)

在使用基于RF算法的煤自燃溫度預(yù)測模型時(shí)，為了得到更準(zhǔn)確的預(yù)測結(jié)果，需要對模型參數(shù)進(jìn)行優(yōu)化，尋找最優(yōu)參數(shù)。基于RF算法的煤自燃溫度預(yù)測模型需要優(yōu)化的參數(shù)有n_estimators、oob_sore、max_depth、min_samples_split和min_samples_leaf。在該模型中，用于測試和學(xué)習(xí)的數(shù)據(jù)量較少，因此min_samples_split參數(shù)即決策樹節(jié)點(diǎn)劃分時(shí)使用的最小樣本數(shù)量設(shè)為2,min_samples_leaf參數(shù)即葉子節(jié)點(diǎn)需要的最少樣本數(shù)量設(shè)為1。為了保證樣本選取的隨機(jī)性，該模型采用oob誤差估計(jì)法進(jìn)行誤差估計(jì)，即oob_sore參數(shù)是否使用袋外數(shù)據(jù)設(shè)置為true。n_estimators、max_depth參數(shù)優(yōu)化如下。

2.2.1 n_estimators參數(shù)優(yōu)化

n_estimators表示決策樹的數(shù)量，如果決策樹的數(shù)量過多，會導(dǎo)致模型計(jì)算量太大，決策樹的數(shù)量太少，會影響預(yù)測結(jié)果的精準(zhǔn)度，因此，必須找到最合適的決策樹數(shù)量，使模型達(dá)到最優(yōu)。

為了更好地對n_estimators參數(shù)進(jìn)行優(yōu)化，引入MSE對其進(jìn)行分析。MSE越小，說明模型的精度越高。將n_estimators參數(shù)設(shè)置為0～200，不同深度下的決策樹與MSE的關(guān)系如圖4所示。

圖4 決策樹數(shù)量與MSE的關(guān)系Fig.4 Relationship between the number of decision trees and MSE

從圖4可看出，不同決策樹最大深度(max_deep)下，隨著決策樹數(shù)量的增加，MSE均不斷降低，直至決策樹的數(shù)量達(dá)到100后，MSE趨于平緩，變化較小。這說明決策樹數(shù)量達(dá)到100后，模型達(dá)到了最高精度，不受其他因素影響。

為了驗(yàn)證上述決策樹的數(shù)量是否為最優(yōu)，本文引入判定系數(shù)R2進(jìn)行再次驗(yàn)證。R2越大，說明預(yù)測值與真實(shí)值越接近，模擬的效果越好。本文將n_estimators參數(shù)設(shè)置為0～300，不同深度下的決策樹數(shù)量與R2之間的關(guān)系如圖5所示。

圖5 決策樹數(shù)量與R2之間的關(guān)系Fig.5 Relationship between the number of decision trees and R2

從圖5可看出，在不同決策樹最大深度(max_deep)下，隨著決策樹數(shù)量的增加，R2不斷增大，直到?jīng)Q策樹的數(shù)量達(dá)到100時(shí)，R2呈平緩趨勢且數(shù)值達(dá)到最大。這說明模型的預(yù)測值不斷接近真實(shí)值，擬合程度達(dá)到最理想狀態(tài)。

綜合考慮，基于RF算法的煤自燃溫度預(yù)測模型的n_estimators參數(shù)設(shè)為100。

2.2.2 max_deep參數(shù)優(yōu)化

max_deep參數(shù)表示限制決策樹的最大深度，該模型輸入樣本數(shù)量較少，因此設(shè)max_deep參數(shù)為1～10,分析其對煤自燃溫度預(yù)測模型性能的影響，如圖6所示。

圖6 決策樹深度與R2的關(guān)系Fig.6 Relationship between the depth of decision tree and R2

從圖6可看出，隨著決策樹的深度不斷增加，R2呈現(xiàn)先增大后降低的趨勢。當(dāng)決策樹的深度為4.5～5.5時(shí)，R2達(dá)到0.869 7，為其最大值，并保持不變，表示該模型擬合效果達(dá)到最好。

綜上所述，基于RF算法的煤自燃溫度預(yù)測模型的n_estimators參數(shù)設(shè)為100，max_deep參數(shù)的取值范圍設(shè)為4.5～5.5。

3 模型對比分析

3.1 模型性能評價(jià)指標(biāo)確立

為了對基于RF算法的煤自燃溫度預(yù)測模型進(jìn)行誤差分析，本文選擇了以下4項(xiàng)指標(biāo)對模型進(jìn)行評價(jià)。

(1) 平均絕對誤差(Mean Absolute Error，MAE):

(1)

式中：fi為第i個樣本的煤溫預(yù)測值，℃,i=1,2,…,n，n為樣本數(shù)量；yi為第i個樣本的煤溫真實(shí)值，℃。

式(1)中的差值被絕對化，可以很好地解決誤差相互抵消的問題，從而可精準(zhǔn)地評估模型的預(yù)測誤差。MAE越小，說明該模型擬合誤差越小。

(2) 平均絕對百分比誤差(Mean Absolute Percentage Error，MAPE):

(2)

MAPE越小，說明模型的誤差越小，模型預(yù)測精度越高，模型的擬合性能越好。

(3) 均方根誤差(Root Mean Square Error，RMSE):

(3)

RMSE越小，說明模型的預(yù)測誤差越小，模型的性能越好。

(4) 判定系數(shù)R2:

(4)

R2為模型的判定系數(shù)，取值為0～1，R2越接近1，說明模型的精度越高，即模型的性能越好。

3.2 模型對比分析

為了驗(yàn)證基于RF算法的煤自燃溫度預(yù)測模型預(yù)測的準(zhǔn)確性，在保持與RF算法相同的學(xué)習(xí)集和測試集的基礎(chǔ)上，引入了廣泛采用的PSO-BP神經(jīng)網(wǎng)絡(luò)算法和SVM算法對煤自燃溫度進(jìn)行預(yù)測[21-22]，并對其預(yù)測結(jié)果和基于RF算法的煤自燃溫度預(yù)測模型預(yù)測的結(jié)果進(jìn)行對比分析。

以上3種模型都有5個輸入，1個輸出。輸入分別為CO濃度、C2H4濃度、O2濃度、CO/ΔO2比值、C2H4/C2H6比值，輸出為溫度。3種模型測試樣本的煤溫預(yù)測值和真實(shí)值如圖7所示。

(a) RF模型測試樣本的煤溫真實(shí)值與預(yù)測值對比

(b) PSO-BP模型測試樣本的煤溫真實(shí)值與預(yù)測值對比

從圖7可看出，基于RF算法的煤自燃溫度預(yù)測模型重合度高于其他2個模型，這說明基于RF算法的煤自燃溫度預(yù)測模型的性能最為優(yōu)越。

不同模型預(yù)測性能指標(biāo)對比見表1。從表1可看出，基于RF算法的煤自燃溫度預(yù)測模型無論在訓(xùn)練過程還是在測試過程，其MAE、MAPE、RMSE以及R2指標(biāo)均優(yōu)于其他2個模型。而基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型和基于SVM算法的煤自燃溫度預(yù)測模型在測試階段的MAE、MAPE、RMSE明顯增大，R2明顯減小，說明這2個模型在測試階段出現(xiàn)了過擬合情況，導(dǎo)致模型的魯棒性降低，預(yù)測結(jié)果精度下降?；赗F算法的煤自燃溫度預(yù)測模型在學(xué)習(xí)階段和測試階段的4個指標(biāo)并沒有明顯偏差，這說明該模型具有較強(qiáng)的泛化性及魯棒性。

表1 不同模型預(yù)測性能指標(biāo)對比Table 1 Comparison of prediction performance indexes between different models

不同模型測試樣本相對誤差箱如圖8所示，基于RF算法的煤自燃溫度預(yù)測模型測試樣本的最大相對誤差為0.523 5，基于SVM算法的煤自燃溫度預(yù)測模型的最大相對誤差為1.052，基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型的最大相對誤差高達(dá)1.179 2?；赗F算法的煤自燃溫度預(yù)測模型的預(yù)測結(jié)果誤差要低于其他2個模型。

圖8 不同模型測試樣本相對誤差箱Fig.8 Relative error box diagram of test samples for different models

4 結(jié)論

(1) 結(jié)合氣體分析法和RF算法構(gòu)建了基于RF算法的煤自燃溫度預(yù)測模型，并對模型參數(shù)進(jìn)行了優(yōu)化。與基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型和基于SVM算法的煤自燃溫度預(yù)測模型預(yù)測結(jié)果相比，基于RF算法的煤自燃溫度預(yù)測模型精度最高，基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預(yù)測模型和基于SVM算法的煤自燃溫度預(yù)測模型容易出現(xiàn)過擬合現(xiàn)象。

(2) 基于RF算法的煤自燃溫度預(yù)測模型中，當(dāng)決策樹的數(shù)量達(dá)到100后，MSE和R2趨于穩(wěn)定，且MSE達(dá)到最小，R2達(dá)到最大，說明模型所預(yù)測的溫度與實(shí)際溫度的誤差最小，其相似度最大。

(3) 通過計(jì)算，RF測試階段的R2為0.869 7，PSO-BP測試階段的R2為0.783 6，SVM測試階段的R2為0.835 0，說明基于RF算法的煤自燃溫度預(yù)測模型能夠較為準(zhǔn)確地對煤自燃溫度進(jìn)行預(yù)測，具有較強(qiáng)的魯棒性和普適性，相比其他預(yù)測模型，預(yù)測結(jié)果更為準(zhǔn)確，且不需要復(fù)雜的參數(shù)優(yōu)化。