賈哲宇,溫華兵,朱軍超,趙震宇
(江蘇科技大學 能源與動力學院,江蘇 鎮江 212003)
船舶的安全航行離不開柴油機等動力系統機器的穩定工作。而渦輪增壓器作為柴油機中長期在高熱、高速環境中運行的機械系統,工作環境惡劣、持續動力工作時間長,發生故障的可能性較大。一旦發生嚴重故障,會影響到整個柴油機動力裝置的正常運行,造成重大事故,導致浪費大量人力財力,甚至危及人員安全。為了確保渦輪增壓器正常工作,對增壓器的故障診斷方法進行研究很有必要。
神經網絡在渦輪增壓器模塊的故障診斷近年來逐步受到關注。姚榮榮[1]提出了基于BP-GA 的故障診斷方法;魏偉達[2]提出了基于多變量灰色預測模型,引入神經網絡和遺傳算法優化預測模型,基于RBF 神經網絡進行故障診斷;Yi Wei[3]提出了基于單類支持向量機(OSVM)、親和傳播(AP)和高斯混合模型(GMM)的無監督機器學習算法OAGFD 進行故障診斷;孔祥鑫[4]提出了振動分析法對增壓器蝸殼轉動失效進行診斷。實際應用中,由于柴油機渦輪增壓器的樣本數據較大且類別較多,很多故障識別方法分類時存在各自的局限性。隨機森林(random forest, RF)秉承了Bagging 方法的思想,適合處理高維度大數據,方便進行并行訓練,能夠有效提高故障分類準確率[5]。張鵬[6]研究了基于深度森林的無線傳感器網絡故障分類方法;尹際雄[7]研究了基于隨機森林的齒輪箱故障診斷方法;張利宏[8]研究了基于會議制隨機森林的電機滾動軸承故障診斷方法。
隨機森林方法已經應用到多個領域且有較好的效果。因此,本文將隨機森林模型應用到渦輪增壓器故障診斷,對柴油機渦輪增壓器的幾種常見故障進行分析,并驗證該方法應用在渦輪增壓器故障診斷的有效性。
融合Breimans 的“Bootstrap aggregating”思想與Ho 的“random subspace”,由Leo Breiman 與Adele Cutler 創造出的隨機森林方法,是一種具有多個決策樹的集成學習方法。由于使用隨機的方式生成決策樹,也稱為隨機決策樹。隨機森林之中的決策樹與決策樹沒有相關性。
隨機森林的工作原理是生成一些各自獨立學習和預測的分類器,最后將這些結果結合起來進行預測,這比單個分類器或模型預測的結果更好。隨機森林的基本元素是決策樹,每棵樹都作為一個分類模型,生成的最終結果就是各個樹分類結果的投票總數。
圖1 為隨機森林算法的基本流程。隨機森林的表現由隨機抽樣與特征選擇2 個階段起關鍵作用。確保每棵樹彼此獨立,隨機森林不會簡單進入局部過度嚴格,并且能穩定噪聲干擾。

圖1 隨機森林算法基本流程Fig.1 Basic flow of random forest algorithm
隨機森林可以分析復雜交互的經典特征,具有非常強大的能力,可以穩定噪聲數據,并具有更快的學習速度。該變量可用作為高階原始數據選項的工具。近年來,被廣泛應用于不同的分類、預測等問題中。
取CART 方法并使用Gini系數最小的原則對各節點分散,故障分類流程為:
步驟1假設隨機森林是由一系列的C1(x),C2(x),…,Ck(x)的決策樹所構成的,則該隨機森林的邊緣函數可以表示為
其中:I(·)為示性函數,X為輸入特征向量,Y為分類正確向量;j為分類錯誤向量;avk(·)為對其取平均值,avk(I(Ck(X)=Y))是模型正確分類數,(I(Ck(X)=j))是模型錯誤分類最大值。
步驟2邊緣函數表明正確的分類結果優于錯誤的最大分類結果。分類的結果隨邊緣函數的增大而更優。
利用bagging 方法從原始樣本集里隨機選擇N個步驟,并選擇數據作為訓練樣本集。
然后,建立樣本訓練的決策樹,在節點中隨機選取d參數,并利用基尼系數選擇最優樹決策點參數。基尼系數表示為
其中,樣本集S中每個類別的概率表示為Pi。若將樣本集S分為2 個子集S1和S2,則Gini系數為
步驟3按照順序重復步驟1、步驟2 創造多個決策樹對測試集x分類,結果從眾多決策樹里的投票多少決定,其中確定類別的公式為
其中:majority表示投票數量最多;Ci(x)表示第i棵決策樹;Ntree為決策樹的總數[9]。
因為現實環境中利用實驗得到渦輪增壓器的故障數據非常困難,所以選擇AVL Boost 軟件模擬渦輪增壓器的各類故障。柴油機主要參數如表1 所示。

表1 柴油機主要參數Tab.1 Main parameters of diesel engine
基于AVL Boost 平臺創建柴油機仿真模型,模型如圖2 所示。

圖2 柴油機仿真模型Fig.2 Diesel engine simulation model
利用構建的柴油機性能仿真數值模型,模擬計算柴油機額定工況下運行的主要性能參數。設置仿真模型的參數,如表2 所示。

表2 仿真模型主要參數Tab.2 Main parameters of simulation model
通過對比額定功率、燃油消耗率及最高爆發壓力等參數修正模型,使模型滿足精度要求,對比結果如表3 所示。

表3 額定工況下實際值與模擬值的對比Tab.3 Comparison between actual value and simulated value under rated working condition
額定工況下,建立的柴油機整機模型模擬計算的額定功率、燃油消耗率及最高爆發壓力與實際數據偏差均在1%以內,故認為此模型能夠達到模擬計算精度要求。據此進行模擬實驗獲取關聯的數據。
分別設置溫度降低(F1)、壓氣機故障(壓氣機效率降低)(F2)、中冷器氣側堵塞(中冷器壓降過高)(F3)、中冷器水側堵塞(中冷器效率降低)(F4)、曲軸箱竄氣(F5)、渦輪噴嘴環臟堵(F6)、排氣管臟堵(F7)、噴油延遲(F8)、渦輪前排氣管堵塞(F9)、進氣道漏氣(F10)以及排氣道漏氣(F11)這11 種故障狀況。篩選壓氣機出口溫度(S1)、氣缸排氣溫度(S2)、渦輪后排氣溫度(S3)、渦輪前排氣壓力(S4)、渦輪增壓器轉速(S5)以及增壓壓力(S6)這6 種熱力學參數作為故障診斷的特征參數。根據故障仿真實驗,獲得規模為1 007×6 的柴油機渦輪增壓器故障數據集。建立柴油機渦輪增壓器的故障樹如圖3 所示。

圖3 渦輪增壓器故障樹Fig.3 Turbocharger fault tree
數值實驗的流程如圖4 所示。將故障原始數據按比例分為711×6 的訓練集和規模為296×15 的測試集,用測試集數據檢測該模型的功能。

圖4 故障診斷流程Fig.4 Fault diagnosis process
仿真獲得的數據樣本集包括105 組環境溫度降低、86 組壓氣機故障、97 組中冷器氣側堵塞、99 組中冷器水側堵塞、93 組曲軸箱竄氣、93 組渦輪噴嘴環臟堵、90 組排氣管臟堵、93 組噴油延遲、83 組渦輪前排氣管堵塞、84 組進氣道漏氣、84 組排氣道漏氣,總共1 007 組。
使用隨機森林函數創建一個分類器。在構建隨機森林分類器時,利用隨機森林函數的功能對測試數據進行模擬。根據隨機森林分類的結果分析,診斷準確率如表4 所示。

表4 隨機森林方法故障診斷準確率表Tab.4 Table of fault diagnosis accuracy of random forest method
為了驗證隨機森林方法能夠有效提高故障診斷率,將整理后的數據集提供給決策樹方法進行故障診斷。表5 為決策樹算法的診斷準確率,圖5 所示為兩種分類算法各故障診斷率的對比。可以發現,決策樹誤診斷51 個,綜合準確率為82.77%。遠低于隨機森林的95.24%診斷率。因為決策樹方法是單個分類器,但隨機森林方法利用bootstrap 重抽樣方法將各種單一分類器組合,其中的訓練數據選擇各不一樣,選擇組合分類器的方法把各種分類器的處理結果結合,獲得一個森林的處理結果。因此,與決策樹方法相比,隨機森林能夠更準確識別柴油機渦輪增壓器故障。

表5 決策樹方法故障診斷準確率表Tab.5 Table of fault diagnosis accuracy of decision tree method

圖5 隨機森林方法與決策樹方法診斷率對比圖Fig.5 Comparison of diagnosis rate between random forest method and decision tree method
結合隨機森林的原理,決策樹數量大小和集中特征數量有可能影響隨機森林的效果,因此,首先保持集中特征數量值m(m=,M為總特征數量)不變為2,對隨機森林中決策樹的棵數選擇多種值,從0~300 每5 個取一次,使用隨機森林方法對故障樣本進行故障診斷,隨機森林決策樹棵數對分類的作用如圖6所示。

圖6 隨機森林決策樹棵數對分類的作用圖Fig.6 Effect diagram of random forest decision tree number on classification
可知,決策樹過少對故障診斷的影響較大,但取值超過50 后,隨機森林的診斷正確率并無明顯變化,基本在95.5%小幅波動。
首先保持隨機森林中決策樹的棵數不變為100,對集中特征數量值m進行多次取值,從1~6 每1 個取一次,使用隨機森林方法對故障樣本進行故障診斷,隨機森林集中特征數量對分類的作用如圖7所示。

圖7 隨機森林集中特征數量對分類的作用圖Fig.7 Effect diagram of feature number in random forest concentration on classification
可知,集中特征數量取值為2 時,隨機森林的準確率最高,因此設置隨機森林的集中特征數量為2。
綜合2 種參數的影響規律,將隨機森林的決策樹棵樹設置為150 棵,集中特征數量設置為2,得到柴油機渦輪增壓器故障96.28%的診斷率。
本文提出基于隨機森林的故障診斷方法對柴油機渦輪增壓器進行分析。基于AVL Boost 構建仿真模型,選擇該模型獲得的柴油機各種工況狀態中的數據,當做訓練樣本進行故障診斷,結果表明:
1)相比于決策樹分類器這種單一分類器,隨機森林方法準確率明顯更高,證明其能夠更準確識別柴油機渦輪增壓器的故障,對提高柴油機渦輪增壓器故障診斷的準確率有一定意義。
2)隨機森林對柴油機渦輪增壓器故障診斷的精度較高,在仿真模型的數據集上將隨機森林的決策樹數量設置高于50 棵,集中特征數量為2 時,能夠達到更高的準確度。