倪景峰,樂曉瑞,,常立峰,鄧立軍
(1.遼寧工程技術大學 安全科學與工程學院,遼寧 葫蘆島 125105; 2.遼寧工程技術大學 礦山熱動力災害與防治教育部重點實驗室,遼寧 葫蘆島 125105; 3.山西瑞通路橋新技術有限公司,山西 太原 030000)
復雜通風網絡故障診斷和風速傳感器優化布置是實現智慧礦山的關鍵技術之一,礦井通風仿真系統的應用與人工智能的蓬勃發展,使得礦井通風智能故障診斷的實現成為可能。故障診斷系統的應用具有較大的社會價值和經濟效益,但目前故障診斷系統的研究較少[1-2]。
決策樹由心理學家和計算機科學家E.B.Hunt于1962年提出,其運行速度快、魯棒性好、易擴展到大型數據庫中、可嵌入式特征選擇等優點使其廣泛應用于醫療診斷、股票預測和目標檢測等領域[3-4]。決策樹學習算法不僅可以構建分類和回歸故障診斷模型,還可以進行嵌入式特征選擇,二者在同一過程中完成,是解決礦井通風故障診斷與風速傳感器優化布置的最優解決方案。
在礦井通風故障智能診斷方面,劉劍等[5]將礦井風門失效、巷道冒落變形、巷道堵塞、巷道掘進延伸或報廢等現象稱為通風系統阻變型故障;郭欣[6]、姚志強[7]利用機器學習的方法對通風網絡和管網進行故障診斷,通過礦井通風仿真系統建立阻變-風量(風壓)故障樣本,以分支編號作為分類標簽,阻變量作為回歸值,利用支持向量機對樣本進行訓練和分類預測,初步實現礦井通風智能診斷。
在傳感器優化布置方面,火源探測傳感器優化布置[8]和瓦斯傳感器無盲區優化布置[9]等研究相對成熟,但針對故障診斷的風速傳感器優化布置研究較少。趙丹等[10]、潘競濤等[11]對角聯巷道傳感器位置優化進行研究,并在大明礦礦井通風故障診斷系統中進行實際布置實驗;劉劍等[12-13]在礦井通風系統阻變型故障診斷及風速傳感器位置優化研究中提出 “掃帚模型”的傳感器布置方法;居銀銀[14]提出基于決策樹和特征選擇的神經網絡釣魚網站檢測研究,通過特征選擇減少維度災難,提高釣魚網站監測能力。現有的風速傳感器優化布置主要是通過計算巷道分支相關度來選擇傳感器布置地點,本質是過濾式特征選擇,未將診斷模型的性能作為傳感器布置評價標準,難以滿足故障診斷系統需要與傳感器布置相匹配的實際要求。
鑒于此,本文提出1種嵌入式風速傳感器優化布置方法,構建基于決策樹的智能故障診斷系統,并在唐安礦進行模擬實驗,該方法的步驟如下:
1)利用IMVS構建唐安礦礦井通風仿真系統,通過改變巷道分支風阻構建空間數據集,地理位置靠近的巷道分支產生的故障對通風系統的影響相似。
2)對空間數據集預處理,分別確定適合回歸和分類的故障樣本集的無量綱化方式。通過比較ID3和分類與回歸樹(CART)故障診斷準確率,選擇更適合的決策樹模型。
3)對決策樹進行剪枝處理,以獲得更優復雜度的故障診斷模型,降低泛化誤差,提高準確率。
4)設置對照實驗,確定風速傳感器最優布置數量及布置地點,驗證布置方法的有效性。
本文為礦井通風故障診斷提供1種新的嵌入式風速傳感器優化布置及智能診斷方法,并通過唐安礦驗證模型的有效性。其應用可解決風速傳感器布置與故障診斷模型不匹配的問題,提高模型故障診斷準確率。智能診斷系統能夠及時發現隱患,避免故障可能帶來更大的損失,提高煤礦智能化水平。
礦井通風智能故障診斷系統主要由礦井通風故障樣本集、故障位置分類判斷模型、故障量回歸預測模型及風速傳感器優化布置4個方面構成。
數據是故障診斷的基礎,礦井通風故障樣本集是由通風網絡映射產生,具有空間自相關性[15]。保持唐安礦結構及風機動力不變,改變巷道分支風阻模擬通風網絡阻變型故障,利用礦井通風仿真系統IMVS[16]生成“阻變地點—阻變故障量—風量”關系的空間數據集D。
將礦井通風空間數據集不同規格的數據轉換為統一規格,能夠提高模型收斂速度和提升模型準確率,避免某個取值范圍較大的特征對模型計算造成影響。其主要處理方式為數據歸一化和標準化[17]。不同的模型需要獨特的數據處理方式,不能脫離模型評價數據預處理方式的好壞。數據歸一化的公式如式(1)所示:
(1)
式中:x*為樣本數據歸一化值;x為樣本數據;max(x)為樣本數據最大值;min(x)為樣本數據最小值。
數據標準化的公式如式(2)所示:
(2)
式中:x′為樣本數據標準化值;μ為樣本數據均值;σ為樣本數據標準差。
在構建礦井通風故障診斷模型之后,還需要對模型診斷性能進行評估。礦井通風故障位置判斷的目標為盡可能正確地診斷故障地點,因此需對模型使用故障診斷準確率進行度量,其計算如式(3)所示:
(3)
式中:Accuracy為故障診斷準確率;M為模型正確分類樣本個數;m為故障位置診斷所有樣本數。
故障量回歸預測的目標為使預測值與真實值盡可能接近,因此使用均方誤差對模型進行度量,如式(4)所示:
(4)
決策樹是1個有向無環圖,其用樹狀圖的結構來呈現通風網絡故障診斷規則,以解決故障位置分類判斷和故障量回歸預測問題[18]。礦井通風故障診斷的決策樹模型如圖1所示。由圖1可知,1棵決策樹包含1個根結點Q1,表示監測風量,若干對應測試特征的內部結點Q2和若干對應故障位置和故障量結果的葉結點ei,樹杈表示對特征的1次劃分;v表示決策樹劃分時選擇的風量。
圖1 礦井通風故障診斷的決策樹模型Fig.1 Decision tree model for fault diagnosis of mine ventilation
風速傳感器優化布置的核心是從所有巷道分支中確定最適合布置傳感器的地點和最優布置數量,即利用最少的特征達到最優的分類和回歸效果[19],嵌入式傳感器布置原理如下:
1)決策樹每次分枝均會選擇對信息熵或基尼系數影響大的特征,因此,在決策樹模型中選擇排序靠前的特征是對分類、回歸模型影響較大的特征,該特征即為傳感器布置巷道分支。
通過信息增益為準則來選擇劃分特征的決策樹稱為ID3[20],空間數據集D的信息熵Ent(D)定義為式(5),Ent(D)的值越小,則數據集D的純度越高。
(5)
式中:D為空間數據集;k為1,2,…,|y|;pk為第k類樣本所占的比例。
以基尼指數作為劃分特征標準的決策樹稱為CART,Gini(D)反應從數據集D中隨機抽取2個樣本,其類別標記不一樣的概率,Gini(D)越小,則數據集的純度越高。空間數據集D的純度用基尼值表示的計算如式(6)所示:
(6)
式中:K為樣本的總類別;Gini(D)為樣本集D的基尼值。
2)將選擇的巷道分支代入到模型中,權衡模型故障診斷準確率與風速傳感器數量的關系,選擇最優布置數量。
嵌入式風速傳感器優化布置方法將特征選擇與故障診斷訓練在同一個算法中進行,有效地解決模型與特征選擇不匹配的問題[21]。風速傳感器優化布置不僅能夠降低監測成本,提高傳感器利用率,還是降低數據維度、避免維度災難重要手段。
唐安煤礦坐落于山西省高平市馬村鎮唐西村西,占地50萬m2,可采資源儲量約1.4億t,巷道分支數n=88,其中13處巷道分支安設通風調節設施,原始參數情況下,風機工況點的風機風量和網絡風阻分別為107 m3/s,1 874 Pa,構建唐安礦空間數據集的步驟為:
1)對唐安礦通風系統進行普查,其內容包括記錄巷道、掘進工作面、采煤工作面、構筑物的參數和主要結點標高。
2)對唐安礦礦井通風系統進行阻力測定,確定各段巷道的實際風量、風阻和阻力系數,測量構筑物的風量和阻力。
3)構建唐安礦礦井通風仿真系統IMVS,并綜合調試。
4)保持通風網絡結構及風機動力不變,通過改變巷道分支風阻生成“阻變地點-阻變故障量-風量”故障樣本,通過重復步驟1)~4)生成空間數據集D。
將空間數據集隨機劃分為70%的訓練樣本和30%的測試樣本,由式(3)可計算出,數據標準化的唐安礦通風故障位置診斷的十折交叉驗證故障診斷準確率為85.58%。數據歸一化的故障位置診斷的十折交叉驗證故障診斷準確率為86.3%。對于礦井通風故障位置判斷模型,數據的歸一化處理準確率優于標準化處理。
數據歸一化的唐安礦礦井通風故障位置判斷圖如圖2所示。實際阻變位置和預測阻變位置重合代表故障位置判斷正確。
圖2 唐安礦礦井通風故障位置判斷模型Fig.2 Judgment model of mine ventilation fault location in Tang’an mine
唐安礦故障位置判斷的錯誤主要為鄰近巷道分支,其原因為鄰近巷道分支的發生故障對系統影響相似,故障診斷錯誤在一定程度上不影響故障維修人員對故障地點的判斷。
由式(4)可計算出,空間數據集歸一化的唐安礦通風故障回歸預測十折交叉驗證的均方誤差為0.603 1。數據標準化的故障量回歸預測的十折交叉驗證均方誤差為0.286 3,空間數據集集標準化處理能明顯提高決策樹回歸準確率。
空間數據集標準化的唐安礦礦井通風巷道分支故障量回歸預測圖如圖3所示。
圖3 唐安礦礦井通風巷道分支故障量回歸預測模型Fig.3 Regressive prediction model of branch fault quantity in mine ventilation roadway of Tang’an mine
本文使用貝爾實驗室設計的開源圖表工具graphviz對決策樹進行可視化,以CART可視化的前2層為例對決策樹進行解釋,如圖4所示。
圖4 唐安礦通風網絡故障診斷CART前2層可視化圖Fig.4 Visualization diagram for first two layers of fault diagnosis CART on ventilation network in Tang’an mine
決策樹每個方框中包含的數據有特征劃分值qi,將結點劃分為2類;根結點的樣本數為1 253,經過劃分將樣本分為1 186和67;決策樹將基尼系數高的特征作為根結點,該特征也是對決策樹影響最大的特征;劃分比例value,根據劃分結果class將每種分類結果按比例放置在value中。
根據式(3)計算,礦井通風故障診斷ID3決策樹故障位置分類十折交叉驗證的平均故障診斷準確率為84.9%,其故障診斷準確率低于CART決策樹。
唐安礦巷道CART決策樹基尼系數最高的20條巷道分支基尼系數見表1。其中,num為基尼值排序;label為巷道分支編號;gini為基尼系數;samples為樣本數。
表1 唐安礦巷道分支基尼系數Table 1 Gini coefficients of roadway branch in Tang’an mine
唐安礦通風網絡風速傳感器優化布置圖如圖5所示,標注Qi的巷道分支為風速傳感器布置巷道。嵌入式風速傳感器布置能夠在算法運行過程中自動忽略相似和冗余特征。
圖5 唐安礦通風網絡風速傳感器優化布置Fig.5 Optimized layout of wind speed sensors in ventilation network of Tang’an Mine
風速傳感器數量的選擇需要多次構建決策樹模型,不斷減少特征數來權衡準確率和特征數量之間的平衡。以基尼系數從大到小的順序選擇傳感器布置點,風速傳感器布置數量與隨機布置對比如圖6所示。
圖6 唐安礦風速傳感器布置數量優化Fig.6 Optimization on layout number of wind speed sensors in Tang’an mine
由圖6可知,風速傳感器的數量與故障診斷準確率成正比,基尼系數大的巷道分支對準確率影響較大。隨著風速傳感器布置數量的增加,模型故障診斷準確率的提升放緩。選擇基尼系數最大的15條巷道分支作為風速傳感器布置點,根據式(3)計算其故障診斷準確率為84.5%,高于隨機對照組的故障診斷準確率68.2%。
決策樹學習算法會傾向于過擬合,使得模型泛化能力下降。決策樹剪枝處理能夠有效地降低模型復雜度,提升故障診斷準確率。
選擇故障診斷準確率更高的CART決策樹進行剪枝處理,決策樹最大深度對準確率影響關系如圖7所示。由圖7可知,當最大深度小于45時,決策樹擬合不足,不足以刻畫模型。當最大深度大于45時,模型過擬合,故障診斷準確率下降。
圖7 決策樹最大深度剪枝效果Fig.7 Pruning effect on maximum depth of decision tree
決策樹葉結點最小樣本數min_samples_leaf與故障診斷準確率關系圖如圖8所示。由圖8可知,當葉結點最小樣本數為6時,故障診斷準確率最高。
圖8 決策樹葉結點最小樣本數剪枝效果Fig.8 Pruning effect of minimum sample number for leaf node of decision tree
當葉結點最小樣本數為6,最大深度為45時,CART決策樹泛化誤差最小,故障診斷準確率最高為91.1%。
1)決策樹學習算法不僅能夠構建礦井通風故障位置判斷分類模型、故障量預測回歸模型,還能對嵌入式風速傳感器優化布置。
2)礦井通風空間數據集由礦井通風網絡映射產生,具有空間自相關性的特點。嵌入式特征選擇由算法本身刪除相似特征與冗余特征,解決故障診斷算法與風速傳感器匹配度低的問題。
3)空間數據集歸一化能夠提高故障位置判斷分類模型準確率,標準化能夠提高故障量預測回歸模型準確率。
4)CART準確率略高于ID3決策樹,決策樹剪枝處理能夠降低泛化誤差,提高模型故障診斷準確率。
5)選擇基尼系數最高的15條巷道分支作為風速傳感器布置地點,其故障診斷準確率優于隨機布置對照組。隨著風速傳感器布置數量的增加,故障診斷準確率提升放緩。