馬俊添, 張素明, 閻小濤, 陳海寶
(1.上海交通大學,上海 200240;2.北京宇航系統工程研究所,北京 100076)
在工業生產中,滾動軸承廣泛用于各種機械設備中,作為關鍵基礎部件,滾動軸承的損傷往往會對設備造成不同程度的損傷,例如精度下降、設備動力故障,甚至是嚴重的安全風險[1]。因此,對滾動軸承進行健康監控與剩余壽命分析(RUL),可以提高相關機械設備的使用壽命和運行狀態,有助于構建故障診斷與健康管理(Prognostics and Health Management, PHM)系統。
目前,滾動軸承的退化趨勢預測主要分為3類方法:基于模型的預測方法,基于經驗知識的預測方法以及基于數據驅動的預測方法[2]。基于模型的預測方法通常要構造數學統計模型來精準描述設備退化的機理,模型的描述準確性直接影響了算法的預測精度。然而,由于大多數的設備退化機制復雜,想要清晰地描述退化機制需要大量先驗知識,導致該方法的預測精度有限,應用范圍受限。基于經驗知識的預測方法需要借用專家經驗知識提取相應特征,該方法更適合定性評估,在高精度預測剩余壽命時存在局限性。數據驅動預測法不需要建立復雜的控制方程,通過傳感器采集歷史監測數據,利用數據分析方法找到數據內在規律,預測未來一段時期的退化趨勢以及設備剩余使用壽命,由于其低成本和高精度等特點,目前數據驅動預測法逐漸成為了當下的研究熱點,更加適合大數據壽命預測。本文構建了一種新的數據驅動壽命預測算法,對軸承傳感器得到的歷史振動信號進行退化趨勢預測,最終得到剩余壽命預測。
隨著機器學習的不斷進步以及硬件高性能圖形處理器的發展,基于機器學習的數字驅動軸承壽命預測得到了迅速發展[3],神經網絡可以從傳感器監測的歷史數據中提取有價值的特征,并自動學習設備退化過程及其影響因素之間的潛在關系,然后將真實的傳感器數據送入訓練好的網絡就可以預測當前設備的退化情況。近年來,越來越多的機器學習預測技術,尤其是基于神經網絡的方法被用來學習從軸承歷史數據到退化趨勢的映射關系。 Guo等[4]利用卷積神經網絡(Convolutional Neural Network,CNN)構建了健康因子,使用CNN通過卷積和池化的方式處理特征,然后通過非線性映射操作將這些學習到的特征構建為健康因子,此外采用離群區域矯正技術來矯正健康因子;Wei 等[5]設計了一種基于端到端的深度學習模型,直接對振動信號進行處理,并得到了很好的軸承故障診斷結果。在特征提取方面, Hong等[6]使用小波包分解提取衰減過程,并使用經驗模態分析算法提取波形趨勢,共同處理振動信號的時頻域特征,最后用自組織神經網絡進行健康預測;Ren等[7]結合了時域特征和頻域特征,并提出了一種新的頻域特征:頻譜分割求和(Frequency Spectrum Partition Summation),成功提取了振動信號的退化趨勢。在擬合退化趨勢方面,由于軸承的退化與其歷史信息息息相關,因此時序網絡如長短時間記憶網絡和GRU網絡等被廣泛用于時序相關性的提取。Ren等[8]設計了一種多尺度密集門遞歸單元網絡(MDGRU),并結合了預先訓練的受限玻爾茲曼機(RBM)網絡,該網絡可以捕獲時序特征并提取不同的時間尺度特征; Chen等[9]提出了一種帶有注意力機制的循環神經網絡,在軸承健康狀態預測方面具有很好的效果。
然而,通常軸承振動信號包含的退化信息十分微弱,再加上許多深度學習模型如CNN等更擅長處理二維圖像信息,直接對原始振動信號進行處理難以提取到理想的特征。連續小波變換(Continuous Wavelet Transform, CWT)由于可以直觀顯示頻率信號隨時間變化的特點,已經被廣泛用于機械故障診斷[10],因此本文使用CWT-RES-TCN模型,首先用CWT將軸承振動信號轉化為二維時頻譜圖,使用改進的深度殘差網絡(Deep residual network, ResNet)圖像識別網絡提取信號的時頻域特征,最后基于近年來開發的時空卷積網絡(Tempo-ral Convolutional Network, TCN)提取軸承的退化趨勢。TCN網絡是由Bai等[11]于2018年提出的架構,并且已經證明在很多時序任務中比傳統長短時間記憶網絡(LSTM)表現更優異,并且在訓練過程中消耗更少的資源。本文使用PRONOSTIA數據網絡集驗證該模型的有效性。
本文第1節詳細介紹網絡架構;第2節使用PRONOSTIA數據集對該框架進行了對比測試,驗證了本模型的有效性;第3節對本文的研究進行總結并做出展望。
本文提出的網絡架構為CWT-RES-TCN,網絡整體架構如圖1所示。首先在對原始數據進行簡單處理之后,對兩個方向的原始振動信號分別做連續小波變換,將原本的時域信息提取為時頻域二維圖像信息,隨后對X方向和Y方向的時頻譜圖做圖像融合,融合成六通道特征數據,利用ResNet提取圖像中包含的退化信息,并通過TCN提取數據中的時序特征,將高維數據轉化為一維特征向量,最后將退化過程進行線性回歸預測,減少隨機誤差的影響,最終完成壽命預測。該滾動軸承剩余壽命預測系統分為離線訓練與在線測試兩個部分,離線訓練時使用軸承設備從初始運行到出現故障的完整振動信號,分別訓練ResNet網絡和時空卷積網絡,在線測試時將測試數據以同樣的方式轉換成為時頻譜圖,依次送入ResNet和時空卷積網絡中,最后再對輸出的健康因子做線性回歸,得到測試振動信號的剩余壽命。

圖1 軸承RUL預測整體框架
傅里葉變換作為最基本的時頻變換方法不能有效刻畫時間域上信號的局部特性,為了解決這一問題,引入了加窗傅里葉變換,然而窗口的大小難以選取,該方法依然無法滿足非穩態信號變化頻率的需求。連續小波變換將無限長的三角函數基替換成了有限長的會衰減的小波基,該方法可以直觀地在時域和頻域中觀察信號,被廣泛應用于信號降噪,圖像壓縮以及機械設備故障檢測等領域。本文采用morlet小波基函數對原始振動信號進行功率譜圖繪制,morlet小波基函數的表達式
(1)
其中,復三角函數可以辨認頻率,衰減函數可以保證其時域有限支撐。為了自由改變頻率和時域區間,需要對小波基函數進行尺度變換,尺度變換包括伸縮系數和平移系數。用某一個尺度下的小波基函數與原信號相乘,當基函數縮至較窄時可提取高頻信號,反之當基函數伸至較寬時可提取低頻信號,基函數會在某些尺度下與信號產生一種重合關系,并相乘得到一個較大的值,通過這一結果就可以得到原信號包含頻率成分的多少。變換后如下
(2)
因此,morlet小波變換記為
(3)
以圖9中軸承1-1振動數據為例,分別繪制了其水平方向的時域振動數據和通過連續小波變換得到的時頻域功率譜圖,繪制結果如圖2所示。

圖2 軸承1-1時域圖及時頻譜圖
因此利用連續小波變換,可以清晰辨認出原始信號包含的頻率成分及其各自對應的時間窗口,該時頻功率圖有效地包含了原始振動信號的相關特征。
CNN是一種多級神經網絡,被廣泛應用于圖像分類、目標識別以及視頻分析等領域。一般來說,網絡的深度對模型的性能至關重要,更深的網絡結構可以構造出更復雜的模型,具有更強的數據表達能力,然而盲目地加深網絡層數會導致梯度彌散、梯度爆炸以及網絡退化等問題。ResNet[12]通過引入殘差網絡保證了在加深網絡層數后模型可以繼續收斂。假設每層卷積對輸入X做非線性變換后的輸出為
F=W2σ(W1X)
(4)
式中,σ代表非線性函數ReLU,最終輸出Y等于F與X之和,為了保持兩者維度的統一,在殘差連接時往往需要通過一個1*1的卷積核修正輸入X的維度。最終的非線性變換如下
Y=W2σ(W1X)+WsX
(5)
因此, ResNet網路學習的是目標值和輸入值的差值,在模型精度達到飽和時,繼續訓練的目標就是將殘差結果逼近至0,即使網絡加深準確率也不會下降,Veit等[13]和Orhan等[14]分別從不同的角度證明了殘差連接對深層網絡訓練的有效性。
ResNet網絡在2015年的大規模視覺識別挑戰(ILSVRC)和COCO數據集上取得5項第一,ImageNet分類top-5誤差僅為3.57,充分說明了該網絡在圖像深層次特征提取方面的能力,因此通過ResNet可以很好地提取到圖片中包含的特征。
本文對每一時刻的原始振動數據分別提取水平以及垂直方向的時頻功率譜圖,并將兩幅圖片融合為六通道(R1,G1,B1,R2,G2,B2)的時頻輸入數據。因此,將ResNet的輸入層改為六通道,對其最后一層利用全連接生成1024維的特征輸出,代表通過CNN提取得到的特征,其余網絡結構與文獻[12]中建立的模型一致。
在RUL預測(剩余壽命預測)階段,要綜合考慮關鍵設備在當前時刻的測量數據及歷史數據,并充分挖掘設備運行數據的時序信息,因此需要采用時序網絡對壽命預測問題進行建模。最基本的時序網絡循環神經網絡(RNN)具有天生的循環自回歸結構的特性,每一時刻的輸出結果都與之前的輸入存在聯系,正是由于RNN的這一特性,它對序列信息非常敏感,被廣泛應用于語言識別、機器翻譯等領域。然而傳統的循環神經網絡存在梯度消失和梯度爆炸的問題,目前最常使用的時序網絡是長短時間記憶網絡(LSTM),該網絡利用門控裝置更方便地控制信息的記憶與遺忘,通過引入線性自循環單元保持梯度的長期存在。除了LSTM,常見的時序網絡還有基于門控循環單元的循環神經網絡(GRU),該網絡簡化了LSTM的設計,合并了內部自循環單元與隱藏層,并將遺忘門、輸入門結合為更新門,新增重置門并刪除了輸出門。這些網絡模型根本上都是由RNN演化而來,然而這類模型由于結構上的循環設計導致一次只能輸入一個時間序列樣本,無法像CNN一樣進行大規模并行處理,并且 Bai等[11]通過實驗驗證了時間TCN在許多情況下的訓練結果要優于RNN算法,因此本研究采用TCN進行剩余壽命預測。
TCN主要借用了因果卷積(Causal Convolution)與膨脹卷積(Dilated Convolution)的思想。因果卷積意味著只使用歷史數據進行卷積運算,網絡模型無法看到未來的數據,因此被稱為因果卷積,該網絡結構如圖3所示。

圖3 因果卷積架構圖
然而,單純的因果卷積視線受限于卷積核的大小,如果想利用更多歷史數據進行預測就需要多層卷積堆疊。為解決此問題,TCN采用膨脹卷積的結構融入更多的歷史數據,膨脹卷積的結構如圖4所示。該結構每一層使用膨脹系數都為2的次冪,并隨著層數加深而增大,膨脹卷積的設計使得網絡的視線變大,可以利用更遠的歷史信息評估當前壽命。He等[12]驗證了殘差連接是收斂深層網絡的有效方法,因此TCN中加入了殘差塊的結構,每個殘差塊中包含兩層膨脹卷積以及非線性映射,并在每層中加入權重歸一化以及隨機忽略算法(dropout)以實現正則化。在殘差相接的過程中,如果出現維度不一致,無法拼接的情況,會在殘差連接時添加一個1*1的卷積層,統一兩者的維度。

圖4 膨脹卷積架構圖
除了測試精度更高的優點外,由于CNN的結構可以并行計算,而不像循環網絡一樣必須串行運行,加快了算法運行的速度。此外,TCN還不需要保存每一步的中間信息,減少了大量的內存開銷,因此本文選取TCN網絡進行壽命預測。
本文使用軸承壽命預測領域廣泛使用的PHM Challenge 2012數據集[15]來驗證本文提出的CWT-RES-TCN架構的有效性和優越性。
PHM Challenge 2012數據由IEEE可靠性協會和法國著名研究所FEMTO-ST提供,在PRONOSTIA平臺上進行,該試驗平臺專用于測試和驗證軸承故障,能夠在恒定/可變操作條件下加速軸承退化,是用于測試和驗證軸承壽命的標準實驗平臺,該測試平臺主要包括3個部分:旋轉部分、加載部分(可以給軸承施加徑向負荷)和測量部分,實驗平臺如圖5所示。為了避免損壞影響到整個平臺,當振動信號的幅度超過20g時停止測試。

圖5 PRONOSTIA實驗平臺[15]
該數據集有3種不同負載條件的數據,具體包括7個軸承工作在負載條件1:1 800 r/min和4 000 N;7個軸承工作在負載條件2:1 650 r/min和4 200 N;3個軸承工作在負載條件3:1 500 r/min 和5 000 N;其中每組軸承的前兩個作為訓練集,另外的軸承測量數據作為測試集。
在該數據集中,每個軸承有水平方向和垂直方向兩組原始振動信號,采樣頻率都為25.6 kHz,每10 s記錄2 560個采樣點(1/10 s)。以軸承1-1為例,從初始運行到設備失效共經歷了28 030 s,兩個方向的時域振動圖像如圖6所示。

圖6 原始振動信號
共采集了7 175 680個采樣點,在其水平和垂直方向對軸承1-1原始數據每隔500 s繪制一次水平方向和垂直方向的時頻功率譜圖,如圖7和圖8所示。可以看到,隨著軸承設備逐漸失效,時頻功率譜也隨著時間逐漸變化。兩個方向的時頻功率譜圖都包含著軸承的退化信息,并且在水平方向上圖像的變化更加明顯,這與時域圖像表現的信息一致;如果只選擇一個方向的圖片進行訓練可能無法提取最理想特征,因此將兩個方向的功率圖進行融合分析與訓練。

圖7 軸承1-1水平方向功率譜圖

圖8 軸承1-1垂直方向功率譜圖
在健康因子的構建過程中,使用每一組軸承數據的前兩個做訓練集,共兩次訓練:

2)TCN健康因子構建。由于時序網絡訓練時的輸入要盡可能與測試集保持一致,在具體讀取訓練數據時沒有從訓練集軸承數據的開始運行時刻取數據,而是隨機從訓練集挑選10 000個運行時刻,將該時刻之前(包括該時刻)的100個連續時頻功率譜圖送入預訓練好的ResNet網絡中,生成10 000×100×1 024的訓練數據,因此TCN網絡輸出維度為10 000×100,將最后一維作為輸出結果,同時選取每個時間窗口的最后一個健康因子真實值作為標簽進行訓練,損失函數為均方方差(MSE)
(6)
該時域卷積網絡共有4層,指數膨脹基為2,核大小分別選擇3,6,9,12進行測試。
如圖9所示,經過兩次訓練之后訓練集軸承運行過程的健康因子被十分準確地構建出來,圖中從左到右依次是軸承1-1、軸承1-2、軸承2-1、軸承2-2、軸承3-1以及軸承3-2這6組訓練集軸承數據,圖中的直線代表運行過程真實健康因子,曲線代表預測健康因子,二者相似程度十分高,說明CWT-RES-TCN架構可以非常好地提取壽命特征。

圖9 訓練集健康因子
本文將誤差百分比和預測分數被用來作為評價指標,這兩個指標也被廣泛應用于該數據集進行軸承壽命預測結果的評估。其中誤差百分比的定義為
(7)
式中,ActRULi代表第i個軸承的真實剩余壽命,RULi代表第i個軸承的預測剩余壽命。由于在實際生產中提前預知設備損壞可以避免更大的經濟損失,因此低估剩余壽命(Eri>0)比高估剩余壽命(Eri<0)的價值更大,使用評價指標A來描述這種影響,該評價函數的定義為
(8)
該評價函數的圖像如圖10所示,越接近1代表預測的精度越高。可以看出,對于絕對值相同的誤差百分比,橙色曲線的指標更高,說明相同精度下欠預測優于過預測。

圖10 評價函數圖像
最終所有測試集軸承的預測評分被定義為所有Ai的均值,以該評分判定預測結果
(9)
將測試軸承的時頻功率圖以相同的方式進行處理,將時間窗口大小同樣設置為100。假設某一軸承在測試階段共運行了full-time個時間周期,通過連續小波變換和ResNet特征提取后,數據的維度變為full-time×1 024,由于需要每一時刻之前100個時間周期的數據,因此在選取數據時從第100個開始,輸入TCN網絡的數據維度為(full-time-99)×100×1 024,輸出TCN網絡的數據維度為(full-time-99)×100×1,每個時間窗口的最后時刻作為健康因子輸出,因此最終的輸出結果維度為(full-time-99)×1。為了解決健康因子的波動問題,對生成的序列進行線性擬合,當擬合的直線達到0時說明設備出現故障,記健康因子擬合線方程為y=ax+b,則當前健康因子HI可以計算為a*current-time+b,由健康因子定義可推導剩余壽命為
(10)
如圖11所示,以軸承1-3為例,該軸承的運行振動信號轉化成時頻功率圖,并通過特征提取和時序網絡處理后預測得到一系列健康因子,通過線性擬合并延長獲得該軸承的剩余壽命(RUL)。可以看出,設備在初始運行時處于退化緩變期,健康因子的變化并不十分明顯,隨著設備的運行會進入退化驟變期,并且越臨近損壞時刻與真實健康因子的擬合越精確。

圖11 剩余壽命預測
由于越臨近設備損壞,設備的退化特征越明顯,提取到的特征便可以更準確地預測設備的剩余壽命。如圖12所示,其中綠色線是對全部數據進行線性擬合后得到的結果,棕色線是選取后30%數據進行線性擬合得到的結果,紅色線為真實剩余壽命,與紅色線越接近代表預測的精度越高。可以對臨近損壞的健康因子進行擬合更能逼近真實預測結果,可以有效避開設備初始運行時的退化緩變期,還能通過擬合減少健康因子預測的突變,提高檢測的精度。

圖12 健康因子擬合
本文分別對TCN的核大小取3,6,9和12,根據前面的分析,線性擬合數據量選取后10%~40%的數據,實驗結果如圖13所示。可以看出,對于大多數模型使用后30%的數據進行擬合時可以獲得更高的檢測精度,因此選擇后30%的數據做壽命預測。

圖13 不同核大小的檢測精度
為了證明本研究選用的時間卷積網絡優于傳統的循環神經網絡,在PRONOSTIA數據集上分別測試了LSTM、GRU、雙向GRU以及TCN時序網絡,并對比了它們的預測精度、計算速度以及模型大小。為了保證比較的公平性,所有測試網絡均首先使用ResNet進行預訓練,隨后采用與上文TCN網絡一致的輸入維度,其中預測精度選用誤差百分比,計算速度選用11個軸承測試集的所有測試樣本,共計12 859個時間序列的總測試時間。本文使用PYTORCH框架,模型訓練和RUL預測在UBUNTU系統,使用顯卡為Nvidia GTX 1 080 GPU。對比結果如表1所示,從表中可以看出,時間CNN在預測精度、計算速度和模型大小方面都更具有優勢。為了進一步證明本文方法的有效性,使用2.3節中提到的百分比誤差以及預測分數作為評價指標,預測了PHM Challenge 2012數據集中11個測試軸承的剩余壽命,并將本文的壽命預測算法與近年研究成果中的3種剩余壽命預測算法進行了對比,對比結果如表2所示。Er代表本文提出方法的誤差百分比;Er2是基于編碼器解碼器架構,并結合了少量先驗知識的預測模型得到的誤差百分比;Er3是基于卷積長短時間記憶網絡算法預測得到的誤差百分比;Er4是2012PHM數據挑戰獲勝算法的預測結果。從這些對比可以看出,本文的方法具有更高的預測精度,在壽命預測方面是可行的。

表1 時序網絡相似模型比較

表2 本研究與相關研究在PRONOSTIA數據集預測效果比較
本文提出了一種針對于機械振動信號的特征提取與壽命預測算法,該算法以圖像的方式提取振動特征,并使用時間CNN做時序預測,做到了完全數據驅動的剩余壽命預測。最后,在PHM Challenge 2012數據集上對提出的算法進行了驗證。和其他算法相比,該算法具有更高的預測精度、更快的計算速度以及較少的模型參數,證明了該算法在壽命預測領域的有效性。目前該算法仍有一些不足,比如在設備處于退化緩變期預測的準確度下降,并且由于TCN網絡結構使用了CNN的思想,雖然使用了膨脹卷積擴大感受野,但是仍存在限制,在不同的應用場景下需要設置膨脹系數以及卷積核大小來獲得更好的預測效果,未來將在這些方面進行更加深入的研究。