劉幸倩 唐友福 李明磊 繆皓 呂澤宇 楊新霞
(1.東北石油大學機械科學與工程學院 2.中國石油天然氣集團有限公司工程和物裝管理部 3.大慶鉆探工程公司)
隨著現代設備日趨大型化、高速化和自動化,滾動軸承作為機械裝備的重要承載部件往往工作在高速、重載的惡劣環境下,容易發生故障失效[1],輕則造成停產經濟損失,重則導致人員傷亡的災難性后果。因此開展有效的滾動軸承狀態監測與故障診斷研究具有重要意義。
近年來,基于深度學習的設備智能診斷方法日益成為研究熱點。包從望等[2]提出了基于卷積神經網絡的采煤機截割部減速器故障診斷方法。段禮祥等[3]提出基于改進卷積神經網絡(Convolutional Neural Networks,CNN)的多源異構信息數據級融合診斷方法。于洋等[4]提出一種采用深度可分離小卷積核進行降采樣和雙通道注意力模塊(Convolutional Block Attention Module,CBAM)的CNN網絡模型對軸承進行故障診斷,解決了池化層模糊特征的問題。ZHANG J.Q.等[5]提出一種新型的雙流神經網絡模型,可以生成大量缺陷圖像,預訓練分類網絡,通過遷移學習對帶鋼表面缺陷進行分類。LIU X.C.等[6]融合VGG16和AlexNet模型,提出了一種雙卷積神經網絡模型。CNN雖然取得了一定的成果,但是CNN提取特征時容易忽略隱性特征,如位置或比例信息。
為了克服上述缺點,國內外學者嘗試將注意力模塊嵌入到CNN中,增加通道和空間維度,比單通道域注意力模塊和單空間域注意力模塊更適用于計算機視覺識別任務。付加勝等[7]提出基于CNN-LSTM融合網絡的溢流早期預測深度學習方法。崔陸軍等[8]提出基于注意力機制的卷積模型的激光熔覆裂紋識別方法,提高了檢測準確率。韓陽等[9]提出一種融合三通道注意力的腦腫瘤圖像分割網絡。于潤潤等[10]提出輕量級的自適應通道注意力機制和空間注意力機制。
長久以來,國內外專家學者致力于開發深層復雜的網絡模型以滿足精度需求。強化學習的出現打破了深度網絡模型以往的先驗知識,為研究提供了新的嘗試。深度強化學習(Deep Reinforcement Learning,DRL)融合了深度學習和強化學習。深度學習為強化學習提供感知動態環境和存儲海量樣本的能力,而強化學習使深度學習能夠自主學習最優策略。最近,越來越多的研究將DRL應用于故障診斷問題。LI G.Q.等[11]提出一種基于膠囊神經網絡和在線特征字典方法的DRL模型,可以適應可變工況的故障診斷任務。DING Y.等[12]提出了一種基于稀疏自動編碼器的DRL方法,用于診斷軸承和泵的故障。DAI W.X.等[13]提出一種通過深度強化學習算法和平滑度指數倒數控制帶通濾波器,選擇信噪比最高的頻段新方法。FAN S.等[14]提出一種基于DRL的故障診斷方法,該方法可以從初始訓練集中選擇合適的樣本以減少模型性能的不平衡。WANG Z.X.等[15]提出一種基于一維卷積深度強化學習和改進的演員-批評者算法的智能故障識別網絡,緩解了過度擬合或退化的現象。
為此,筆者提出一種基于特征增強的深度強化學習(DRL)的滾動軸承故障診斷方法。該方法創新點是在卷積網絡的基礎上嵌入注意力模塊,實現全局搜索重要特征,彌補了卷積神經網絡局部最優以及忽略重要隱性特征的缺點。其次,該方法結合強化學習網絡模型,利用其自學能力和獨立決策能力,通過獎勵機制激勵于深度網絡模型注意圖權重參數,進而自主尋找最優分類策略。
CBAM模塊包含2個獨立的模塊,分別為通道注意力模塊和空間注意力模塊,提高了網絡對隱式重要特征的提取能力。同時CBAM是一個簡單的注意力模塊,是一種即插即用的簡單注意力塊,減少參數數量和計算能力。整體CBAM網絡結構如圖1所示,通道注意力模塊如圖2所示,空間注意力模塊如圖3所示。

圖1 CBAM網絡結構圖

圖3 空間注意力模塊
由圖1可知,CBAM模塊結合了通道注意力模塊和空間注意力模塊來推斷注意力權重圖并生成詳細的特征圖。這2個子模塊計算公式為:
F′=MC(F)?F
(1)
F″=MS(F′)?F′
(2)
式中:F表示輸入的特征圖;F′表示通道細化特征圖;F″表示細化的特征圖;?表示逐元素乘法。
首先使用最大池化層和平均池化層對輸入的特征圖在空間維度進行壓縮,生成2種不同的空間上下文描述符:AvgPool(F)和MaxPool(F);然后將這2個描述符轉發到多層感知器(MLP),MLP將2個池化層輸出的高級特征組合到一起;最后使用sigmoid函數激活輸入的特征,顯示輸入特征的通道優先級。模塊結構如圖2所示。
計算公式為:
MC(F)=σ(MLP(AvgPool(F)))+
MLP(MaxPool(F))
(3)
式中:σ是sigmoid運算;MaxPool表示最大池化;AvgPool表示平均池化。
空間注意力模塊更注重于哪個位置的信息更重要,起到補充作用。首先利用最大池化層和平均池化層處理輸入的特征;然后將2個不同特征的輸出連接起來,生成1個新的特征描述符;最后,通過卷積和sigmoid函數運算將新的特征描述符轉化為細化的特征。其結構如圖3所示,計算公式為:
MS(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
(4)
式中:MS∈RC×H×W;7×7表示卷積核大小。
CBAM模塊主要解決CNN的特征提取不充分的問題。本研究將CBAM模塊引入CNN模型。對CBAM模塊的數量和集成位置進行了分析和確認,進一步提高了模型的分類性能。網絡模型結構如圖4所示。

圖4 CBAM-CNN網絡結構圖
強化學習是從交互中學習以達到預期目標的方法。強化學習以馬爾可夫決策過程(MDP)為框架,馬爾可夫過程由一個元組組成(s,a,r,γ)。其中s是狀態集合,a是動作集合,p是狀態轉移概率矩陣,r是獎勵函數,γ是折扣因子。馬爾可夫決策過程如圖5所示。

圖5 馬爾科夫決策過程
Q-learning算法中智能體的學習過程分為3個步驟:①智能體觀察當前狀態隨機選擇一個動作;②環境對于智能體選擇的動作做出反饋,獎勵或者懲罰;③利用貝爾曼方程更新Q表,即Q(s,a)。
Q學習算法使用貝爾曼方程更新Q(s,a),其更新公式如下:
Q(s,a)=(1-α)Q(s,a)+
(5)
Qnew(st,at)=Q(st,at)+α[Rt+1+
(6)
通常有2種值函數來評價策略π的性能,即狀態值函數Vπ(s)和狀態-動作值函數Qπ(s,a)。狀態值函數定義為:
(7)
式中:E(·)為策略π的計算期望操作;s0為開始觀測狀態;k是相互作用步驟;Rk表示第k次交互步驟中的獎勵。
定義狀態-動作值函數為:
(8)
式中:策略π用于執行動作a到觀測結果s。
策略π用于最大化Qπ(s,a)和Vπ(s)。一旦給定了Qπ(s,a)和Vπ(s)的最大值,最優策略π*可以通過以下方法得到:
(9)

經驗回放是指將智能體與環境交互過程中每個時間節點產生的經驗數據et:
et=(st,at,rt,st+1)
(10)
將數據存儲在經驗池D:
UHPLC-Q-Orbitrap液相色譜-質譜聯用系統:Ultimate 3000超高效液相色譜儀(美國Dionex公司);Q Exactive型高分辨質譜儀(美國Thermo Fisher Scientific公司);ACQUITY UPLC? BEH C18色譜柱(100 mm×2.1 mm,1.7 μm,美國Waters公司)。AL104型萬分之一分析天平(瑞士Mettler Toledo上海有限公司);MDS-6G型多通量微波消解/萃取系統(上海新儀微波化學科技有限公司)。
D={e1,e2,…,en}
(11)
yi=Q(st,at;θi)+δ(R(s,a,st+1)+
(12)
深度Q網絡訓練過程中,通過最小化損失函數進行權重更新:
(13)
(14)
式中:y通過Q學習得到。
式(13)中,目標網絡的梯度θt通過下式進行更新:

?θtQ(s,a;θt)]
(15)

本文提出一種特征增強的深度強化學習滾動軸承故障診斷方法。在該網絡模型中將注意力模塊(CBAM)與深度強化學習(DRL)中的卷積神經網絡(CNN)結合,提高了CNN網絡的特征提取能力和圖像識別能力。同時,不同的故障樣本作為不同的狀態st,經過CNN-CBAM網絡的特征提取和特征編碼進入Q-learning故障識別機制,最后利用梯度下降法更新CNN中的參數θ,自主學習最優的分類策略。所提方法的結構圖如圖6所示,智能體迭代過程如圖7所示。本文所提方法的流程圖如圖8所示。

圖6 CABM-CNN-QL結構圖

圖7 智能體迭代過程

圖8 故障診斷流程圖
具體步驟如下。
(1)將滾動軸承故障信號分割成不同類型的樣本。
(2)隨機選取一個故障樣本作為當前狀態st輸入到CBAM-CNN-QL模型中。
(3)故障樣本首先進入卷積層提取特征,然后進入CBAM模塊。
(4)在CBAM模塊中,先后經過通道注意力模塊和空間注意力模塊,在注意力模塊中最大池化層和平均池化層分別提取主要特征,然后通過多層感知器MLP融合2個通道的特征,進入卷積層。
(5)通過卷積和sigmoid函數運算將新的特征描述符轉化為細化的特征,生成最終的注意力特征圖。
(6)用卷積層和全連接層對輸入注意力特征圖進行編碼,得到Q值。
(7)用貪婪策略選擇動作即選擇類別、執行動作at并獲得獎勵Rt+1(如果正確,獎勵+1;如果錯誤,獎勵-1);然后進入下一個狀態st+1,將經驗數據et{st,at,rt+1,st+1}存儲于經驗池D中。
(8)將步驟6中的Q值和獨熱碼點乘,以獲得Q(s,a;θ)。
(9)重復步驟(2)~步驟(8),并從經驗池D中隨機抽取小批量et{sj,aj,rj+1,sj+1},更新注意力圖權重θ。
(10)利用滾動軸承數據集驗證所提方法的有效性。
試驗平臺由交流電動機、電動機轉速控制器、轉軸、支撐軸承、液壓加載系統和測試軸承等組成,如圖9所示。試驗平臺通過調節徑向力和轉速,共設計了3類工況,如表1所示。試驗所用軸承為LDK UER204滾動軸承,其相關參數見表2。試驗中使用DT9837便攜式動態信號采集器采集振動信號。試驗中設置采樣頻率為25.6 kHz,采樣間隔為1 min,每次采樣時長為1.28 s。

表1 試驗工況

表2 滾動軸承相關參數

圖9 滾動軸承故障試驗臺
故障數據信息如表3所示。每種故障工況包括內圈、外圈、滾動體、保持架4個故障位置,即4種故障數據集。訓練集樣本數和測試集樣本數比例為4∶1,每個故障樣本包含2 480個數據點。表3給出了數據集的詳細信息。4種故障信號的時域波形圖如圖10所示。

表3 故障數據信息

圖10 4種故障狀態的時域波形圖
將本文所提方法應用于滾動軸承試驗數據集,CBAM-CNN-QL模塊的訓練迭代次數為60次,每批次200個樣本數據。同時,為避免試驗結果的隨機性,保證所提模塊的穩定性,將本文所提方法應用在3種工況下,以工況S1為例,說明CBAM-CNN-QL方法的分類識別結果及收斂過程,結果如圖11所示。圖11中,訓練集精度和誤差分別為99.69%和0.001 2。剛開始訓練時曲線振幅較大,上升迅速,迭代28次時達到峰值,之后曲線小幅震蕩,精度穩定在99.69%附近。測試集精度和誤差分別為99.02%和0.002 6,將測試集分類結果繪制成混淆矩陣,如圖12所示。4種故障中內圈故障(IF)和保持架故障(GF)識別效果最好,均有3個故障樣本識別錯誤,其他2種故障均有8個樣本識別錯別。本文所提方法在各種故障模式下均取得了較好的識別效果,驗證了CBAM-CNN-QL模型的可行性。

圖11 CABM-CNN-QL算法結果

圖12 混淆矩陣
為了驗證將本文所提方法的穩定性和優越性。將本文所提方法CBAM-CNN-QL與CNN、SE-CNN、CBAM-CNN、BP模型進行比較,訓練集的識別率曲線如圖13所示。由圖13可知,BP模型在收斂過程中曲線上升平緩,精度最低。CNN模型明顯優于BP模型但是收斂速度和精度還有待提高。CBAM-CNN模型和SE-CNN模型收斂速度相差不大,但是CBAM-CNN模型在收斂過程中曲線振幅相對較小,在迭代35次之后識別精度相對較高。CBAM-CNN-QL模型初始迭代時精度優于其他算法,上升過程中曲線振幅小于其他模型,迭代20次時,曲線精度開始高于CBAM-CNN模型,第20次之后CBAM-CNN-QL精度曲線始終高于其他模型且振幅相對穩定,無較大波動。

圖13 不同模型試驗比較結果
為進一步驗證模型的穩定性,將不同工況下的試驗數據代入不同算法網絡模型,比較其分類準確率,結果如圖14和表4所示。由圖14可知,本文所提方法CBAM-CNN-QL在每一類的故障數據樣本中均有較高分類精度,且收斂快、收斂過程穩定,平均分類精度可達到99.69%,比CBAM-CNN、SE-CNN、CNN、BP模型準確率高1.24%、2.08%、3.57%、13.66%。結果表明,相較于傳統的診斷算法,所構建的CBAM-CNN-QL模型優于其他方法的診斷性能。

表4 不同工況準確率結果

圖14 不同工況準確率對比
為了直觀地可視化分類過程,引入t-SNE技術,結果如圖15所示。使用CBAM-CNN-QL融合模型對6 287個測試集樣本數據進行分類,并給出了它們中間過程的t-SNE可視化。本文選擇的可視化網絡層為輸入層、卷積層、CBAM模塊中的卷積層以及全連接層。由圖15可知,振動信號在進入輸入層時其特征在二維空間上的分布混亂,不同類別混淆在一起,難以分辨。當振動信號通過卷積層后,可視化圖像可觀察到初步的分類,不同類別漸漸分離開來可觀察到1、3類故障點明顯剝離出來。經過CBAM模塊的卷積層后類別特征明顯,不同類別有明顯的分離現象但是2、3類故障點小部分未完全分離開來。經過最后一層輸出層時不同類別故障點完全分離,基本完成分類任務。

圖15 t-SNE可視化特征分布圖
本文將CNN、CBAM和Q-learning進行有機融合,提出了一種特征增強深度強化學習的滾動軸承故障診斷方法。通過加入注意力模塊(CBAM)提高特征提取能力,結合Q-Learning可以實現故障樣本到故障標簽的映射關系,利用經驗回放和獎勵機制,調節注意力圖權重參數,尋找最優分類策略。試驗結果進一步驗證了本文所提的方法的有效性,不僅增強了樣本數據的特征,提高識別精度,性能上也優于現有算法,具有良好的自適應性。