張浪,張迎輝,張逸斌,李左
(1.煤炭科學研究總院,北京 100013;2.煤炭科學技術研究院有限公司 安全分院,北京 100013;3.煤炭資源高效開采與潔凈利用國家重點實驗室,北京 100013)
隨著智慧礦山建設和智能化開采的提出,礦井通風亟需向智能化、信息化方向轉變升級[1-3]。研究礦井通風網絡故障診斷對促進礦井通風智能化發展、提高通風系統安全保障能力具有重要意義[4-5]。
目前煤礦通風系統故障診斷方法主要是根據井下各類傳感器監測數據進行分析判斷,只能識別傳感器所在巷道的故障。針對該問題,一些學者將機器學習算法[6-9]應用到煤礦通風系統故障診斷中,取得了一定成果。劉劍等[10-12]提出了基于支持向量機(Support Vector Machine,SVM)的礦井通風系統阻變型故障診斷方法,將風量-風壓復合特征作為SVM的輸入構建診斷模型,提高了故障診斷準確率。周啟超等[13]提出采用改進遺傳算法對SVM 參數進行優化,并用于通風系統故障診斷。黃德等[14]將風量、風壓、節點壓能等7 種特征作為觀測特征進行組合試驗,解決了故障診斷觀測特征冗余無關的問題。劉彥青[15]提出了基于BP 神經網絡的礦井風量預測模型,對待掘巷道摩擦阻力系數進行了預測。
機器學習算法通過對已知數據的學習來預測未知數據,現有通風系統故障診斷方法大多針對1 種機器學習算法進行研究,無法保證所選算法為最優。因此,本文對多種機器學習算法進行分析比較,選擇SVM、隨機森林和神經網絡3 種算法,通過網格搜索和交叉驗證相結合的方法對基于SVM、隨機森林、神經網絡的通風網絡故障診斷模型進行參數尋優,最后采用3 種診斷模型進行實驗和現場驗證。
對最近鄰、線性模型、樸素貝葉斯、決策樹、隨機森林、梯度提升決策樹、SVM、神經網絡等8 種機器學習算法進行比較[16],結果見表1。綜合考慮各種算法的優缺點,選擇SVM、隨機森林和神經網絡3 種機器學習算法進行通風網絡故障診斷研究。

表1 8 種機器學習算法比較Table 1 Comparison of eight machine learning algorithms
SVM 主要思想是建立一個最優超平面作為決策曲面,使得正例與反例之間的間隔最大化。在樣本空間中,超平面可描述為

式中:wT為法向量,決定超平面的方向;x為輸入特征變量;b為位移項,決定超平面與原點之間的距離。
定義2 個標準超平面H1和H2,H1:wTx+b=1,H2:wTx+b=-1,2 個平面之間的距離就是分類間隔,可表示為

影響SVM 分類準確率的參數主要是γ和C。γ是控制高斯核寬度的參數,決定點與點之間的距離,γ越小,則決策邊界變化越慢,生成的模型復雜度越低。C是正則化參數,限制每個點的重要程度,C越大,則對應的模型越復雜。
隨機森林是一種集成算法,實現步驟如下:
(1)從大小為N的樣本數據集L中有放回地隨機抽取N個訓練樣本,得到一個自助訓練集Lk。
(2)用自助訓練集Lk訓練1 棵決策樹,在決策樹的每個節點需要分裂時,隨機從每個樣本的M個屬性中選取M0個作為分裂屬性,然后從這M0個屬性中選擇1 個進行分裂。
(3)每個節點按照步驟(2)進行分裂,直到不能夠再分裂為止。
(4)按照步驟(1)-步驟(3)建立大量決策樹,構成隨機森林。
影響隨機森林分類準確率的參數主要是決策樹個數p和限制分支時考慮的特征個數q。p值越大,則對應的隨機森林越復雜。q值決定每棵樹的隨機性大小,q值越小,隨機森林中的樹越不相同,一般默認其值與樣本屬性個數M的關系為

神經網絡是一種模擬人腦思維的計算機模型。神經網絡無需事先確定描述輸入與輸出之間映射關系的數學方程,而僅通過自身的訓練學習某種規則,在給定輸入值時得到最接近期望輸出值的結果。
影響神經網絡分類準確率的參數主要有隱含層層數、隱含層節點數、正則化參數、迭代次數及激活函數等。隱含層節點數t越大,正則化參數α越小,表示模型復雜度越高。確定隱含層節點數的經驗公式為

式中:m為 輸入層節點數;n為 輸出層節點數;a為調節常數,取值范圍一般為1~10。
采用SVM、隨機森林、神經網絡3 種機器學習算法建立通風網絡故障診斷模型。采集通風系統數據并進行預處理,從處理后的數據中隨機抽取75%作為訓練集,25%作為測試集;通過網格搜索和交叉驗證進行模型參數尋優,將測試集代入訓練過的模型,根據測試集準確率進行最終評估。基于機器學習的通風網絡故障診斷方法流程如圖1 所示。

圖1 基于機器學習的通風網絡故障診斷方法流程Fig.1 Flow of fault diagnosis method of ventilation network based on machine learning
3.1.1 實驗平臺
根據礦井通風系統實際布局,按照幾何相似、運動相似、動力相似準則構建通風網絡管道模型,采用中央并列式通風方式和機械抽出式通風方法,主副斜井進風,回風立井回風,布置1 臺2.5 kW 軸流式通風機作為通風動力裝置,共布置2 個水平、2 個回采工作面、1 個備用工作面、4 個掘進工作面及3 處硐室型用風地點。
實驗平臺由通風系統網絡管道子系統、通風系統傳感器與調控設施子系統組成,如圖2 所示,其中黃色部分表示自動蝶閥,藍色部分表示風速傳感器,紅色部分表示溫濕度傳感器。通風系統網絡管道子系統由直徑為160 mm 的透明亞克力管道組成,通風管道總長度為75 m,管道網絡分支為62 條,管道網絡節點為38 個;通風系統傳感器與調控設施子系統主要由16 臺自動蝶閥、14 臺壓差傳感器、18 臺風速傳感器、3 臺溫濕度傳感器組成。

圖2 通風網絡故障診斷實驗平臺Fig.2 Experimental platform of fault diagnosis of ventilation network
通風網絡如圖3 所示,其中e1-e62為管道網絡分支,為管道網絡節點。

圖3 實驗平臺通風網絡Fig.3 Ventilation network of experimental platform
3.1.2 數據采集過程
根據礦井通風阻力定律,有

式中:hi為第i條 分支的阻力,Pa;ri為第i條分支的風阻,N·s2/m8;Qi為第i條 分支的風量,m3/s。
由式(5)可知,當某條巷道分支風阻發生改變時,會引起整個通風網絡的風量重新分配。在實驗平臺中,用蝶閥代替通風構筑物風門、風窗,保持通風機動力不變,則蝶閥開度變化會造成其所在分支的等效風阻發生變化,進而引起風量變化。實驗時隨機選取分支e8,e10,e15,e16,e55模擬故障情況,具體步驟如下:
(1)將通風機頻率調為50 Hz,記錄各蝶閥初始狀態下e1-e3,e7,e9-e12,e20,e24,e27,e29,e35,e37,e41,e44,e49,e60分支中18 個風速傳感器測得的風速。
(2)調節分支e8中蝶閥開度,調節范圍為0~100°,不包括初始角度50°,連續調節60 次,記錄每次調節后網絡解算得到的風速。
(3)按照步驟(2)依次調節分支e10,e15,e16,e55中蝶閥開度,并收集每次變化后18 個風速傳感器測得的風速。
(4)測量管道網絡的斷面面積,將風速數據換算成風量。
18 個風速傳感器均為同一型號,測量精度為±0.2 m/s+2%FS,且在出廠前均已標校完成,確保了風量數據的準確性。
實驗共收集風量數據300 組,部分數據見表2。將18 個分支的風量作為故障診斷模型的輸入變量,故障分支編號作為輸出變量。

表2 部分風量數據Table 2 Part of the air volume data m3/min
為使18 個輸入風量數據位于同一量級,采用標準化方法對數據進行預處理。標準化方法確保了每個特征的平均值為0,方差為1,計算公式為

式中:ynew為標準化處理后的數據;yj為第j個輸入數據;為yj的平均值;σ為yj的方差;K為數據總數。
各分支初始風量數據箱形圖如圖4 所示,從上至下分別為上邊緣、上四分位數、中位數、下四分位數和下邊緣,其中上邊緣、下邊緣分別表示每個分支300 個數的最大值和最小值,數據中75%低于上四分位數,數據中25%低于下四分位數,中位數則是按大小順序排列后中間數的值。從圖4 可看出,初始數據中分支e18的風量最大,都在1 000 m3/min 以上,分支e14的風量最小,最大值不超過200 m3/min,各分支風量數據差距較大。
預處理后各分支風量數據箱形圖如圖5 所示。通過對比發現,標準化后風量數據之間的差距大大縮小。

圖5 預處理后風量數據箱形圖Fig.5 Box plot of air volume data after preprocessing
通過交叉驗證和網格搜索對基于SVM、隨機森林、神經網絡的通風網絡故障診斷模型進行參數尋優。
交叉驗證是一種評估泛化性能的統計學方法。在交叉驗證過程中,數據被劃分為k折,訓練模型時依次使用每一折作為測試集,其他k-1 折作為訓練集,最后得到k個精度值。評價交叉驗證精度的一種常用方法是計算平均值,通過k折劃分使得所有類別的數據都能被訓練,模型更穩定,數據更全面。
網格搜索是一種模型參數優化技術,其本質是對指定參數值的窮舉搜索。對指定的不同參數作笛卡爾乘積,得到若干組參數組合,使用每組參數訓練模型,挑選在交叉驗證中表現最好的參數作為最優參數。
4.2.1 SVM 模型參數尋優
在基于SVM 的故障診斷模型中,設C={10,102,103,104,105,106},γ={10-5,10-4,10-3,10-2,10-1,1},經過網格搜索和5 折交叉驗證,得到不同參數組合下SVM 模型交叉驗證平均分數熱力圖,如圖6 所示。可以看出,C=10,γ=10-5時,交叉驗證平均分數最低,只有0.545 0;隨著C和γ增大,交叉驗證平均分數也不斷增大,當C=104,γ=10-1時,交叉驗證平均分數最高,達0.905 0;繼續增大參數值,交叉驗證平均分數不再增大,說明最優參數為C=104,γ=10-1,該參數下SVM 模型分類預測能力最優。該結果驗證了參數值區間選取的合理性。

圖6 SVM 模型交叉驗證平均分數熱力圖Fig.6 The heat map of cross-validation average score of SVM model
4.2.2 隨機森林模型參數尋優
在基于隨機森林的故障診斷模型中,設決策樹個數p={5,10,15,20,25,30,35},由于輸入特征為18 個分支的風量,即M=18。根據式(3),令q={1,2,3,4,5}。經過網格搜索和5 折交叉驗證,得到不同參數組合下隨機森林模型交叉驗證平均分數熱力圖,如圖7 所示。可以看出,p=5,q=1 時,交叉驗證平均分數最低,只有0.658 0,此時模型相對簡單;隨著決策樹個數增加和隨機性參數增大,模型逐漸復雜化,交叉驗證平均分數不斷增大,當p=15,q=4 時,交叉驗證平均分數最高,達0.855 0;繼續增大決策樹個數和隨機性參數值,交叉驗證平均分數不再增大。

圖7 隨機森林模型交叉驗證平均分數熱力圖Fig.7 The heat map of cross-validation average score of random forest model
4.2.3 神經網絡模型參數尋優
通過實驗研究單隱層條件下隱含層節點數和正則化參數對分類準確率的影響。輸入數據為18 個風速傳感器的風量,輸出數據為5 個巷道分支編號,即m=18,n=5,根據式(4),設隱含層節點數t={6,7,8,9,10,11,12,13,14,15,16,17,18},正則化參數α={10-6,10-5,10-4,10-3,10-2,10-1}。經過網格搜索和5 折交叉驗證,得到不同參數組合下神經網絡模型交叉驗證平均分數熱力圖,如圖8 所示。可以看出,t=6,α=10-5時,交叉驗證平均分數最低,只有0.828 0;隨著隱含層節點數量增加,模型逐漸變得復雜,當t=14,α=10-5時,交叉驗證平均分數最高,達0.915 0,此時神經網絡模型分類預測能力最好。

圖8 神經網絡模型交叉驗證平均分數熱力圖Fig.8 The heat map of cross-validation average score of neural network model
3 種故障診斷模型在訓練集和測試集上的準確率見表3。可看出基于神經網絡的通風網絡故障診斷模型效果最好,泛化能力最強。

表3 故障診斷模型準確率比較Table 3 Comparison of accuracy of fault diagnosis models
3 種故障診斷模型在測試集上對分支e8,e10,e15,e16,e55的預測準確率如圖9 所示。可以看出,神經網絡對5 個分支的預測準確率均為最高,進一步驗證了神經網絡模型優秀的泛化性能。

圖9 故障診斷模型在各分支上的預測準確率Fig.9 Prediction accuracy of fault diagnosis model on each branch
為了進一步比較3 種故障診斷模型的準確率,在陜煤集團神木張家峁煤礦進行現場驗證。依次調節22201 運輸巷風窗FC-2-2-001、22202 運輸巷風窗FC-2-2-002、22203 運輸巷風窗FC-2-2-003 過風面積,監測不同狀態下2-2煤風窗附近8 個測風站的風量,共獲取160 組數據。將其中的75% 劃分為訓練集,25%劃分為測試集,對3 種故障診斷模型進行訓練和測試,結果見表4。可以看出,神經網絡模型在訓練集和測試集上的準確率均為最高。

表4 3 種故障診斷模型準確率Table 4 Accuracy of three fault diagnosis models
隨機調節2-2煤運輸巷3 個風窗的過風面積,監測風窗附近8 個測風站的風量,共收集120 組新數據,輸入神經網絡模型進行預測,3 個風窗故障位置診斷結果散點圖如圖10 所示,其中風窗序號1,2,3 分別表示FC-2-2-001,FC-2-2-002,FC-2-2-003。可以看出,風窗FC-2-2-002 的40 個故障樣本全部預測正確;風窗FC-2-2-001 的40 個故障樣本中,有1 個樣本被誤判為風窗FC-2-2-002 的樣本,其余全部預測正確;風窗FC-2-2-003 的40 個故障樣本中,有1 個樣本被誤判為風窗FC-2-2-002 的樣本,其余全部預測正確。對3 個風窗故障位置的診斷結果統計見表5,可見,基于神經網絡的通風網絡故障診斷模型準確率達0.98,進一步驗證了其可靠性。

圖10 故障位置診斷結果散點圖Fig.10 Scatter plot of fault location diagnosis results

表5 故障位置診斷結果統計Table 5 Statistics of fault location diagnosis results
(1)在通風網絡管道模型實驗平臺上收集通風數據,分別建立基于SVM、隨機森林、神經網絡的通風網絡故障診斷模型,并運用網格搜索對參數進行遍歷尋優,得出神經網絡模型在隱含層節點數量為14、正則化參數為10-5時,故障診斷準確率最高,泛化能力最好。
(2)將基于SVM、隨機森林、神經網絡的通風網絡故障診斷模型應用到張家峁煤礦現場數據集,得出3 種模型在測試集上的故障診斷準確率分別為0.86,0.90 和0.96。收集120 組新的通風數據并輸入神經網絡模型進行故障預測,準確率達0.98,進一步驗證了神經網絡模型的準確性和可靠性。