




















摘要:針對當前Transformer網絡模型運算效率偏低,且難以用于復雜工況條件下高速列車軸箱軸承故障診斷的問題,提出了一種基于時頻多域融合與輕量化結構的尺度感知調制Swin Transformer(SMST)模型的軸箱軸承故障診斷方法。首先,采用格拉姆角場法、雙譜法與Chirplet變換法,將軸承振動信號轉化為時域、頻域與時頻域內的二維圖像,基于多域特征融合思想集成為新的特征圖像;然后,設計了一種新的輕量化結構SMST模塊,在其內部實現了卷積運算與Transformer自注意力運算的進一步融合;最后,在層次化模型框架中引入特征金字塔模塊(FPB),彌補不同層輸出特征的不一致性,實現了上下文信息的特征深度融合及復雜工況條件下軸箱軸承故障診斷。實驗結果表明:相比格拉姆角場法、雙譜法、Chirplet變換法、短時傅里葉變換法、連續小波變換法等單一領域圖像生成方法,時頻多域融合方法生成的圖像特征信息表征能力更好;所提網絡模型在1 010、760、505 r/min這3種轉速變工況任務中的軸箱軸承故障識別準確率分別為99.88%、99.92%與99.96%;對比ResNets、GoogleNet、ViT、Swin Transformer和SMT這5種模型,所提方法的故障識別準確率更高,模型輕量化程度更好。所提方法可為實際工況中列車軸箱軸承故障診斷提供參考。
關鍵詞:故障診斷;軸箱軸承;多域融合;輕量化;尺度感知調制
中圖分類號:TH17 文獻標志碼:A
DOI:10.7652/xjtuxb202409009 文章編號:0253-987X(2024)09-0083-11
A Lightweight Scale-Aware Modulation Swin Transformer Network for Axlebox Bearing Fault Diagnosis
DENG Feiyue1,2, ZHENG Shouxi1, HAO Rujiang1,2
(1. School of Mechanical Engineering, Shijiazhuang Tiedao University, Shijiazhuang 050043, China;
2. Hebei Key Laboratory of Mechanical Power and Transmission Control, Shijiazhuang 050043, China)
Abstract:A scale-aware modulation swin transformer (SMST) model is proposed based on multi-domain fusion and lightweight structure, for axlebox bearing fault diagnosis, aiming to address the inefficiency of the current Transformer network model and its unsuitability for axlebox bearing fault diagnosis of high-speed trains under complex working conditions. Firstly, Gram angle field (GAF), bispectrum, and Chirplet transform techniques are applied to convert the bearing vibration signals into two-dimensional images in time, frequency, and time-frequency domains, which are integrated into a new image based on the idea of multi-domain feature fusion. Then, a new lightweight structure SMST module is designed, combining the further fusion of convolution operation and Transformer self-attention operation. Finally, a feature pyramid block (FPB) is introduced into the SMST hierarchical model framework to address the inconsistency of the output features across layers and enable deep feature fusion with contextual information. The fault diagnosis of axlebox bearings under complex working conditions is realized. Results show that the time-frequency multi-domain fusion method offers a superior representation of image feature information compared to single-domain image generation methods such as Gram angle field, bispectrum, Chirplet transform, short-time Fourier transform, and continuous wavelet transform. The proposed network model achieves high accuracy rates of 99.88%, 99.92%, and 99.96% in identifying axlebox bearing faults in the three tasks under variable working conditions with different speeds of 1 010 r/min, 760 r/min, and 505 r/min, respectively. Comparative analysis against five models of ResNets, GoogleNet, ViT, Swin Transformer, and SMT showcases the higher fault identification accuracy and better model lightweight of the proposed method. The proposed method can serve as a reference for the diagnosis of axlebox bearing faults in trains under actual working conditions.
Keywords:fault diagnosis; axlebox bearing; multi-domain fusion; lightweight; scale-aware modulation
軸箱軸承是列車車軸與車架之間關鍵的旋轉部件,起著承受車輪受力、傳遞車軸負荷、保證列車運行平穩舒適等重要作用。然而,在輪對踏面磨耗、軌道不平順等復雜激勵作用下,軸承故障信號中背景噪聲干擾強烈,故障特征提取與識別非常困難[1]。因此,探索更為有效的軸箱軸承故障診斷方法,對保障列車健康運行具有非常積極的意義。
伴隨人工智能技術的快速發展,基于深度學習方法的滾動軸承故障診斷方法得到了蓬勃發展,自編碼網絡(AEN)、循環神經網絡(RNN)、卷積神經網絡(CNN)等模型不斷涌現。向宙等[2]提出了一種區分自編碼網絡模型用于軸承特征提取,通過在網絡原始損失函數中添加交叉熵函數設計了一種新的復合損失函數;Jiang等[3]構建了深度RNN模型,通過輸入故障信號頻譜對滾動軸承故障進行診斷。相比AEN、RNN模型,CNN模型采用局部連接和權值共享的設計,使得模型訓練更為快捷,特征學習能力優越,應用更為廣泛。近年來,AlexNet[4]、ResNet[5],GoogLeNet[6]和ShuffleNet[7]等基于CNN模型的滾動軸承故障診斷方法不斷涌現。周凌孟等[8]利用主成分分析法對一維信號進行降維,將降維后的數據特征輸入殘差網絡診斷軸承故障。Deng等[9]將一維信號轉換為二維圖像格式后,輸入構建的多尺度深度殘差網絡模型,實現了軸承不同健康狀態的識別。Peng等[10]利用短時傅里葉變換獲取軸承振動信號的時頻圖,并輸入深度殘差網絡識別軸承故障類型。Yang等[11]提出了一種基于小波和深度CNN模型的滾動軸承故障數據自動聚類方法,首先利用小波包分解獲取特征信息,然后輸入網絡模型聚類分析,通過對信號進行預處理分析,可以獲取更準確的特征信息,能有效增強網絡模型的診斷效果。然而,CNN模型中感受野范圍受卷積核大小所限,往往只能考慮特征圖的局部信息而忽略全局信息,導致其長歷程特征學習能力較差,全局特征感知能力不足。
基于Transformer的自注意力網絡于2017年被首次提出[12],后憑借具有并行計算、擅于捕捉長距離依賴關系、全局特征學習能力強等諸多優點,迅速在自然語言、機器視覺等領域得到了廣泛應用。Vision Transformer (ViT)模型取得了媲美CNN模型的效果[13],被視作CNN模型有力的替代者,Swin Transformer(Swin T)[14]、Shuffle Transformer[15]、Cswin[16]等改進的Transformer模型更是不斷涌現。與此同時,基于Transformer的故障診斷研究也成為國內外學者研究的熱點。Yang等[17]構建了基于Transformer的深度網絡模型用于軸承故障診斷;Fang等[18]提出了CLFormer自注意力模型用于軸承故障識別,在強噪聲環境下具有較高的分類性能;Hao等[19]提出了一種雙通道視覺Transformer的軸承壽命預測模型,能夠獲取軸承信號中深層次的退化特征;Liang等[20]將子域自適應與視覺Transformer相結合,基于融合后的Transformer網絡實現了變工況下軸承故障診斷。隨著Transformer模型在故障診斷領域的廣泛應用,其弊端也逐漸顯現。傳統Transformer模型多采用層次化框架,導致網絡不同層之間特征信息集成較為困難,削弱了局部特征的學習能力。此外,Transformer模型參數規模大,需要大量的計算資源,造成其工作效率偏低,計算成本高昂,在工業領域難以快速部署應用。因此,為更好應用于工程實際,有必要開發基于Transformer的輕量化網絡模型。
基于上述分析,本文提出一種時頻多域融合和尺度感知調制Swin Transformer(scale-aware modulation Swin Transformer, SMST)模型用于高速列車軸箱軸承復雜變工況下故障診斷,并經過實驗分析,驗證了所提方法能夠有效提取針對軸承故障狀態的深度特征信息,克服復雜工況條件的干擾。本文主要內容包括以下3部分。
(1)分別采用格拉姆角場(GAF)、雙譜與Chirplet變換(CT)方法,將軸承一維振動信號在時域、頻域、時頻域內轉換為二維圖像,通過時頻多域融合集成為新的多通道特征圖像。相比傳統單一領域圖像,二維特征圖信息更為豐富,進一步增強了信號的特征表征能力。
(2)設計了一種輕量化結構的SMST模塊,在模塊內部實現了CNN和Transformer自注意力運算的深度融合:一方面利用尺度感知調制結構降低網絡規模,捕捉不同尺度特征信息;另一方面利用Swin T模型更好地學習全局語義特征信息,提高模型檢測性能。
(3)在SMST層次化模型框架中引入特征金字塔模塊(FPB),彌補不同層輸出特征的不一致性,實現上下文信息的特征融合,從而有效挖掘模型淺層和深層之間小目標語義特征,增強模型細粒度語義特征學習能力。
1 基于時頻多域融合的圖像生成方法
當前基于深度學習的軸承故障診斷研究中,通常采用圖像生成方法,將軸承振動一維信號轉換為二維圖像輸入網絡模型。GAF方法能將信號轉換為時域圖像,雙譜方法能將信號轉換為頻域圖像,短時傅里葉變換(STFT)、連續小波變換(CWT)方法等能將信號轉換為時頻域圖像。上述方法雖被廣泛采用,但僅能將信號轉換為單一領域內的圖像。基于此,本文提出基于時頻多域融合的圖像生成方法。
1.1 格拉姆角場法
格拉姆角場(GAF)法是一種基于格拉姆矩陣的圖像轉換方法[21],通過格拉姆矩陣計算一維時間向量的線性相關關系,從而將一維時域信號轉換為二維圖像。GAF保留了原始數據的全局信息,具有不受頻域分辨率限制且不依賴時間窗口等優點。采用GAF對一維時間序列(用矩陣形式表示)X=x1,x2,…,xn進行歸一化處理,然后將歸一化的時間序列使用極坐標重新進行放縮,表達式為
φ=arccosi, -1≤i≤1
r=ti/N(1)
式中:φ為極角;i表示歸一化處理后的時間序列點;ti為時間步;N為極坐標下的常數因子。由于cosφ在區間[0,π]上單調遞減,因此時間序列映射到極坐標下的值是唯一且固定的。將一維時域信號用極坐標系表示后,通過計算每個點之間的角度和、差表達數據點之間的相關性。采用格拉姆角和場作為信號處理方法的計算過程如下
G=′·-I-′2I-2(2)
式中:G為格拉姆角和場;I為單位行向量;為時間序列;′為的轉置。通過上述處理方式,GAF實現了將一維時間序列信號轉化為二維圖像,并保留了時間序列中的時間相關特性。
1.2 雙譜分析方法
相比傳統傅里葉變換方法,雙譜分析是一種高階譜處理方法,能夠在頻域范圍內表征信號的非線性特征[22]。由于信號構成不同,其頻譜組成也不同,對應的雙譜圖分布也會存在明顯差異。對于一維信號X,其雙譜Bx(ω1,ω2)的表達式為
Bx(ω1,ω2)=∑∞τ1=-∞ ∑∞τ2=-∞[c3x(τ1,τ2)exp[-j(ω1τ1+ω2τ2)]](3)
式中:c3x(τ1,τ2)為X的三階累積量;ω1、ω2表示雙譜中傅里葉變換到頻域得到的兩個頻率分量;τ1、τ2為求取三階累積量的時延。雙譜分析能夠有效抑制時域信號中的高斯噪聲,保留信號頻域信息,并以頻域圖像的形式進行顯示。
1.3 Chirplet變換法
Chirplet變換(CT)法是在短時傅里葉變換與小波變換基礎上的進一步衍變,通過引入平移算子與頻率旋轉算子的理念,利用線性調頻參數表示核函數來處理信號[23]。通過對軸承一維信號進行CT變換,可以在時頻域內得到二維時頻圖。對于一維信號X,其CT變換表達式為
Sx(f,tc)=∫+∞-∞z(t)ψ(t-tc)exp(-j2πφ(f,t,tc))·
exp(-jω(t-tc))dt(4)
式中:Sx為時間序列x的Chirplet變換;z(t)為X的解析信號;t為時間;tc為時間中心;ψ(t)為窗函數,一般使用高斯函數ψ(t)=exp(-t2/(2σ2)),其中σ為窗口參數。
通過CT處理,可以得到信號的二維時頻圖像,其中蘊含時域與頻域特征信息。
本文分別使用GAF、雙譜和CT 3種方法對輪對軸承一維信號進行處理,得到時域、頻域和時頻域二維圖像,然后對3種圖像進行灰度化處理,以減少圖片內存,再將3類圖像按照時域、頻域與時頻域的順序疊加,構成3通道的時頻多域融合圖像,整個過程如圖1所示。融合后的圖像蘊含了軸承信號時域、頻域和時頻域的特征信息,集成后的多通道特征圖像包含更為豐富的信號特征信息,故障特征表征能力進一步增強。
2 SMST網絡模型
2.1 尺度感知調制
Scale-aware modulation transformer(SMT)模型是基于CNN與Transformer的一種混合輕量化網絡模型[24]。SMT模型基于卷積運算設計了一個新穎的輕量尺度感知調制單元scale-aware modulation(SAM),由多頭混合卷積模塊和多尺度感知聚合模塊兩部分構成,具體結構如圖2所示。多頭混合卷積模塊中使用多個卷積核尺寸不同的深度可分離卷積(DSC),一方面能夠捕捉特征圖多個尺度上的空間特征信息,另一方面能有效減少傳統卷積的運算量。通過構建多個卷積核尺寸不同的DSC層,以自適應方式提取不同尺度的圖像特征信息,伴隨著網絡層數增加,能夠更好地捕捉局部細節特征,提取更豐富的語義信息。為了增強多頭混合卷積模塊的信息交互,在多尺度感知聚合模塊中對多頭混合卷積模塊提取到的不同尺度特征信息進行重組,使組內與組間的信息融合交互,可以實現輕量、高效的聚合效果。多尺度感知聚合模塊增強了特征圖的局部信息,更為明確地關注到特征圖中的重要部分,具備更好的特征圖細節特征捕捉與表征能力。
Swin T模型基本模塊包含2個串接的殘差連接結構,第一個由歸一化層(LN)和窗口注意力(W-MSA)或滑動窗口注意力(SW-MSA)構成;第二個由LN與多層感知機(MLP)構成。W-MSA與SW-MSA是基于自注意力機制提出的改進算法,自注意力機制的表達式為
attention(Q, K, V)=softmaxQKTdV (5)
式中:Q、K、V分別為查詢矩陣、鍵矩陣與值矩陣;QKT為注意力權重;d為縮放因子;softmax表示對權重進行歸一化。W-MSA模塊中特征傳遞的計算過程為
l=fW-MSA[fLN(zl-1)]+zl-1 (6)
zl=fMLP[fLN(l)]+l (7)
式中:l和zl表示第l塊中W-MSA和MLP的輸出特征;fW-MSA(·)、fMLP(·)、fLN(·)分別表示W-MSA模塊、MLP模塊和歸一化層的輸出函數。
W-MSA模塊中特征傳遞的計算過程為
l+1=fSW-MSA[fLN(zl)]+zl (8)
zl+1=fMLP[fLN(l+1)]+l+1(9)
式中:l+1和zl+1分別表示第(l+1)塊SW-MSA和MLP的輸出特征;fSW-MSA(·)表示SW-MSA模塊的輸出函數。
通過將SAM引入Swin T基本模塊,代替原有的W-MSA或SW-MSA,構建出更具輕量化結構的SAM模塊。SMT模型基于SAM模塊,采用與Swin T模型相同的層次化網絡結構,通過SAM模塊聚合特征圖的局部語義信息并對其進行調制,增強了模型的特征提取能力。在層次化網絡架構中,特征圖的分辨率隨著層次的加深不斷減小,使用W-MSA與SW-MSA對分辨率較大的淺層特征圖進行提取時會帶來龐大的計算成本,而SAM使用卷積對淺層特征圖進行特征提取,避免了自注意力機制帶來的龐大計算量,使得模型更加輕量化。
2.2 SMST模塊
SAM模塊是基于卷積運算提出的。單一的SAM模塊無法提取圖像特征的長距離語義信息,導致模型在全局特征提取上依舊存在不足。為此,本文在SAM模塊的基礎上,構建了一種新的SMST模塊,結構如圖3所示。SMST模塊依次堆疊1個SAM模塊和2個Swin T基本模塊。在所提的SMST模塊中,同時包含SAM、W-MSA與SW-MSA模塊。SAM模塊使用卷積進行特征提取,避免了自注意力機制帶來的龐大計算量,使得模型更加輕量化。W-MSA模塊先對輸入的特征進行窗口劃分,后在窗口內進行特征注意力運算。SW-MSA模塊則采用滑動窗口的形式,彌補W-MSA模塊窗口與窗口無法進行信息交流的不足。所提出的SMST模塊由SAM、W-MSA與SW-MSA串接構成,同時兼容了卷積運算與自注意力運算,使得每部分都能夠更好地匹配其計算特性,在網絡模型由淺層到深層時,實現從局部特征到全局特征的綜合提取。此外,所提SMST模塊保持了輕量級結構,進一步減少了模型的計算成本。
2.3 FPB模塊
當前,Swin T模型、SMT模型及諸多變種Transformer網絡模型均采用了層次化的網絡結構,雖然有利于模型構建圖像分類、目標檢測、語義分割等任務,但隨著網絡層數增加,不同層之間特征信息的集成較為困難,會丟失一部分圖像信息并影響模型精度。為此,本文構建了FPB模塊,結構如圖4所示,包含橫向傳遞和自上而下兩個部分,左側為模型4個階段后輸出的不同尺度特征圖,右側自上而下為融合路徑。在FPB模塊中,首先對尺寸較小的特征圖使用雙線性插值法進行2倍上采樣,將特征圖的尺寸放大2倍,然后使用尺寸為1×1卷積改變尺寸較大的特征圖的通道數,從而實現不同通道數、不同尺寸大小特征圖的維度匹配,最后通過特征圖逐元素相加操作實現融合。通過FPB模塊可以實現層次化網絡模型中不同深度特征、不同規模特征的細粒度融合,有效彌補不同尺度間特征的不一致性。
2.4 所提模型框架
本文所提出的SMST模型整體框架及相應特征圖參數如圖5所示,主要由4個階段(stage)的層次化結構與FPB模塊構成。Stage 1通過使用尺寸為4×4卷積的下采樣層將224×224×3像素的輸入圖像進行分塊并將通道數擴大到64,然后對分塊的圖像使用SAM模塊進行特征提取。Stage 2將stage 1的輸出特征圖通過使用尺寸為2×2卷積的下采樣層將特征圖進行2倍下采樣并將通道數擴大2倍。Stage 3與stage 4下采樣與stage 2相同,之后使用SAM模塊進行特征提取,在stage 3中使用本文所提的SMST模塊對下采樣的特征圖進行特征提取,從而實現從局部特征提取到全局特征提取的轉變。Stage 4中僅使用Swin T對特征圖進行特征提取,從而有效獲取全局特征信息。將FPB結構嵌入到4個stage之后,使用FPB將不同深度特征、不同規模特征的細粒度融合,然后分類網絡完成模式識別。
3 實驗結果與分析
3.1 實驗介紹
使用交通工程結構力學行為與系統安全國家重點實驗室高速列車軸承綜合試驗臺測試的軸承數據驗證本文所提方法的有效性,試驗臺如圖6所示。軸承型號為197726雙列圓錐滾子軸承,軸承故障類型分為8類,分別是正常、外圈故障(嚴重/輕微)、內圈故障(嚴重/輕微)、滾子故障(嚴重/輕微)、外圈滾子復合故障,如圖7所示。測試軸承選自中車石家莊車輛有限公司輪對軸承檢測車間,故障均為列車運行過程中產生的實際故障。輪對軸承故障類型與對應的類別標簽如表1所示。
實驗測試中,在測試軸承端蓋位置安裝加速度傳感器,采樣頻率為25600Hz。為了驗證模型在變工況條件下測試的準確性,選取1010、760、505r/min共3種轉速進行測試,各自采集1000組信號樣本,共計1000×3×8=24000組樣本信號。將樣本轉化為圖像之后,構建3個變轉速軸承故障診斷任務,分別定義為任務A1、任務A2、任務A3,具體如表2所示。實驗過程為:以任務A1為例,將轉速為505r/min和760r/min的樣本作為訓練集,將轉速為1010r/min的數據樣本作為測試集,訓練得到最優模型后,輸入測試集樣本進行測試,模型訓練和測試過程分別進行10次,測試結果評價指標取平均值。
3.2 模型參數設置
本文方法基于python 3.8語言,程序開發環境為PyCharm,深度學習框架為Pytorch,所用電腦硬件配置為Intel(R)Core(TM) i9-13900K, 64GB RAM,GPU為NVIDIA GeForce RTX 4090,輸入圖像為224×224×3像素,注意力頭數為8,學習率為0.001,迭代次數為50,批量大小為16。
3.3 結果分析
使用本文所提模型對3類任務分別進行實驗驗證。為驗證3類任務測試實驗的精確度,引入混淆矩陣分別對3次測試結果進行可視化,3類任務模型的混淆矩陣如圖8所示,識別結果準確率分別為99.88%、99.92%與99.96%,平均準確率為99.92%。從圖8可知,本文所提模型在3種變工況任務中都實現了較高的準確率,驗證了模型在變工況條件下對高速列車軸箱軸承健康狀態的識別精度較好。
為了進一步體現所提網絡模型在變工況條件下對軸承健康狀態的識別能力,利用t分布-隨機近鄰嵌入(t-SNE)方法,分析SMST模型各層提取的特征。選擇模型中6個階段進行t-SNE可視化,分別為模型輸入端、stage 1、stage 2、stage 3、stage 4和FPB輸出端,特征可視化結果如圖9所示。可以看出,在輸入端,8種健康狀態的軸承圖像的特征雜亂無章;隨著模型層次的遞進,8種健康狀態的軸承圖像特征開始逐漸分離;在stage 4后特征基本分離,仍有一部分特征混合在一起;在經過FPB模塊后,8種特征完成了聚類。相比原有SMT模型,FPB模塊通過融合模型上下文特征信息,提高了SMT模型識別性能,聚類效果更好,這進一步驗證了SMST模型的有效性。
3.4 消融實驗
為進一步分析時頻多領域圖像融合及所提模型中Swin T及FPB模塊對SMST模型性能的影響,通過兩次消融實驗分別進行驗證分析,評價指標取3類任務的平均值。本文選取準確率、精準率、召回率和F1值作為分析結果評價指標,上述4種指標定義及計算方式參見文獻[25]。此外,為評估網絡模型輕量結構剪枝水平,選擇運算速度與網絡模型參數量兩個指標對模型的計算成本與參數量進行評價。分別將GAF、雙譜、CT法與本文方法獲得的時頻多領域融合圖像作為信號樣本輸入到消融實驗1,采用SMST網絡模型開展計算,得到的結果如表3所示。由表可知,GAF與雙譜法包含了信號的時域、頻域信息,蘊含軸承故障信息相對單一,CT法則包含了振動信號的時頻域信息,因此GAF與雙譜法的輸入模型結果要低于CT法。時頻多領域圖像融合同時包含了時域、頻域和時頻域信息,模型測試結果最好,說明時頻多領域表達增強了信號中的特征信息表征能力。
消融實驗2在SMT框架基礎上,分別引入Swin T與FPB網絡,連同SMST模型分別進行消融實驗,結果如表4所示。可以看出,引入Swin T后,SMT模型的準確率得到提升,參數量和運算速度顯著減少;而FPB網絡的引入則以增加少量參數量為代價,通過融合淺層和深層特征信息提升了SMT模型的性能。
3.5 對比實驗
為驗證本文構建模型的合理性,將SAM、SMST與Swin T按照不同順序進行排列以獲取最佳模型組合。根據文獻[24]研究結果,SAM模塊位于層次化網絡模型前端,模型的輕量化程度更高,運算成本更低。因此,模型的stage 1與stage 2均選擇SAM模塊,僅對模型stage 3與stage 4的構成進行分析。分別選取4種組合進行實驗分析,結果如表5所示。從中可知,stage 3與stage 4均選擇SMST模塊時,模型準備率較高,但輕量化結果較差;均選擇Swin T基本模塊時,模型準確率較差,但輕量化結果較好。這是因為SMST模塊包含了Swin T基本模塊還有SMT模塊,性能較好,但網絡結構較為復雜。本文所提模型的構成在4種組合中測試準確率最高,輕量化結果要稍差于采用Swin T模塊的。
為驗證本文所提時頻多域融合方法的優越性,選擇STFT、CWT及CT這3種一維信號圖像生成方法與本文所提方法進行對比,使用本文構建的SMST模型進行測試,結果如圖10所示。由圖可知,CT的測試結果要好于STFT、CWT方法,這是因為CT是一種具有較高分辨率的參數化時頻分析方法,采用變換核函數能更好地匹配待分析信號,相比STFT、CWT方法能達到更優的時頻分析效果;本文所提方法在所有對比方法中的效果最好,所提方法生成的圖像融合了信號在時域、頻域、時頻域內的特征信息,包含更為豐富的特征信息,信號特征信息表征能力更強。
本文選擇基于CNN的ResNet50[5]、GoogleNet[6]模型,基于自注意力運算的ViT[13]、Swin Transformer[14]、SMT[24]模型共5種方法進行對比分析,得到的模型性能對比結果與輕量化剪枝結果分別如圖11和表6所示。由圖11可知,所有模型中,本文所提模型的識別準確率最高,為99.9%,基于傳統CNN框架的ResNet50和GoogleNet模型的GoogleNet網絡測試結果較差;ResNet50由于采用了殘差結構,因而有效緩解了在深度神經網絡中增加深度帶來的梯度消失問題,相比GoogleNet模型,網絡深度增加模型測試準確率相對更高。根據文獻[13],ViT模型與ResNet模型的性能相近,但若建立在大量數據樣本基礎上,本次測試中ViT模型的準確率要低于ResNet50;相比ViT,Swin T與SMT模型的性能雖然得到增強,但測試準確率仍低于本文所提方法。上述對比分析進一步證實了本文所提方法的優越性。
由表6和圖11可知,GoogleNet網絡結構簡單參數量少,計算成本最低,但準確率要低于ResNew50;相比GoogleNet模型,ResNet50網絡深度增加,計算成本與參數量都有所提升,但模型測試準確率相對更高。雖然ViT模型與ResNet模型性能相近,但計算成本與參數量要遠遠高于ResNet模型。相比ViT,Swin T模型的性能較好,計算成本與參數量均較少,這得益于Swin T基本模塊中采用了W-MSA與SW-MSA,有效減少了運算量,但測試準確率仍低于本文所提方法。SMT模型結合CNN與Transformer兩者的優勢,雖然在計算成本與參數量上優于Swin T模型,但在準確率上卻要低于Swin T模型。本文所提方法在參數量與計算成本上與SMT相近,但準確率最高。上述對比分析進一步證實了本文所提方法的優越性。
4 結 論
本文提出了一種時頻多域融合增強和SMST模型用于高速列車輪對軸承故障診斷,實現了復雜變工況下軸箱軸承不同故障模式的準確識別,主要結論如下。
(1)分別采用GAF、雙譜與CT方法,在時域、頻域與時頻域內將軸承信號先編碼為二維圖像,再融合為新圖像,利用時頻多領域融合增強了信號特征信息表達能力。
(2)設計了一種輕量化結構的SMST模塊,實現了卷積與Transformer的融合運算,并通過在層次化模型框架中引入FPB模塊,實現了網絡模型淺層信息和深層信息的細粒度融合,提升了模型的泛化性能。
(3)實驗結果表明:本文所提模型能夠在復雜變工況下準確地識別軸承不同的故障類型及故障損傷程度,在提升識別準確率的同時降低模型的參數量以及計算成本,使得模型更加高效,輕量化程度更好。
參考文獻:
[1]SUN Runtao, YANG Jianwei, YAO Dechen, et al. A new method of wheelset bearing fault diagnosis [J]. Entropy, 2022, 24(10): 1381.
[2]向宙, 張西寧, 張雯雯, 等. 區分自編碼網絡及其在滾動軸承故障特征提取中的應用 [J]. 西安交通大學學報, 2019, 53(8): 47-55.
XIANG Zhou, ZHANG Xining, ZHANG Wenwen, et al. Discriminative auto-encoding network with applications in fault feature extraction of rolling bearing [J]. Journal of Xi’an Jiaotong University,2019, 53(8): 47-55.
[3]JIANG Hongkai, LI Xingqiu, SHAO Haidong, et al. Intelligent fault diagnosis of rolling bearings using an improved deep recurrent neural network [J]. Measurement Science and Technology, 2018, 29(6): 065107.
[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90.
[5]AL-QIZWINI M, BARJASTEH I, AL-QASSAB H, et al. Deep learning algorithm for autonomous driving using GoogLeNet [C]//2017 IEEE Intelligent Vehicles Symposium (IV). Piscataway, NJ, USA: IEEE, 2017: 89-96.
[6]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 770-778.
[7]ZHANG Xiangyu, ZHOU Xinyu, LIN Mengxiao, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 6848-6856.
[8]周凌孟, 鄧飛其, 張清華, 等. 基于主成分分析的多域特征融合軸承故障診斷 [J]. 機床與液壓, 2024, 52(6): 167-176.
ZHOU Lingmeng, DENG Feiqi, ZHANG Qinghua, et al. Bearing fault diagnosis based on principal component analysis and multi-domain feature fusion [J]. Machine Tool amp; Hydraulics, 2024, 52(6): 167-176.
[9]DENG Feiyue, DING Hao, YANG Shaopu, et al. An improved deep residual network with multiscale feature fusion for rotating machinery fault diagnosis [J]. Measurement Science and Technology, 2021, 32(2): 024002.
[10]PENG Binsen, XIA Hong, L Xinzhi, et al. An intelligent fault diagnosis method for rotating machinery based on data fusion and deep residual neural network [J]. Applied Intelligence, 2022, 52(3): 3051-3065.
[11]YANG Yanli, FU Peiying. Rolling-element bearing fault data automatic clustering based on wavelet and deep neural network [J]. Shock and Vibration, 2018, 2018: 3047830.
[12]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2017: 6000-6010.
[13]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03)[2024-02-01]. https://arxiv.org/abs/2010.11929.
[14]LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2021: 9992-10002.
[15]HUANG Zilong, BEN Youcheng, LUO Guozhong, et al. Shuffle transformer: rethinking spatial shuffle for vision transformer [EB/OL]. (2021-06-07)[2024-02-01]. https://arxiv.org/abs/2106.03650.
[16]CHU Xiangxiang, TIAN Zhi, WANG Yuqing, et al. Twins: revisiting the design of spatial attention in vision transformers [C]//Advances in Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2021: 9355-9366.
[17]YANG Zhuohong, CEN Jian, LIU Xi, et al. Research on bearing fault diagnosis method based on transformer neural network [J]. Measurement Science and Technology, 2022, 33(8): 085111.
[18]FANG Hairui, DENG Jin, BAI Yaoxu, et al. CLFormer: a lightweight transformer based on convolutional embedding and linear self-attention with strong robustness for bearing fault diagnosis under limited sample conditions [J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-8.
[19]HAO Wei, LI Zhixuan, QIN Guohao, et al. A novel prediction method based on bi-channel hierarchical vision transformer for rolling bearings’ remaining useful life [J]. Processes, 2023, 11(4): 1153.
[20]LIANG Pengfei, YU Zhuoze, WANG Bin, et al. Fault transfer diagnosis of rolling bearings across multiple working conditions via subdomain adaptation and improved vision transformer network [J]. Advanced Engineering Informatics, 2023, 57: 102075.
[21]張淑清, 杜靈韻, 王冊浩, 等. 基于格拉姆角場與改進CNN-ResNet的風電功率預測方法 [J]. 電網技術, 2023, 47(4): 1540-1547.
ZHANG Shuqing, DU Lingyun, WANG Cehao, et al. Windpower forecasting method based on GAF and improved CNN-ResNet [J]. Power System Technology, 2023, 47(4): 1540-1547.
[22]謝躍雷, 鄧涵方. 基于改進ResNet的射頻指紋識別方法 [J]. 電訊技術, 2022, 62(4): 416-423.
XIE Yuelei, DENG Hanfang. A radio frequency fingerprinting identification method based on improved ResNet [J]. Telecommunication Engineering,2022, 62(4): 416-423.
[23]張力新, 賈義紅, 許敏鵬, 等. 基于Chirplet變換的變頻視覺誘發電位腦-機接口研究 [J]. 納米技術與精密工程, 2014, 12(3): 157-161.
ZHANG Lixin, JIA Yihong, XU Minpeng. Chirp stimuli visual evoked potential based brain-computer interface by Chirplet transform algorithm [J]. Nanotechnology and Precision Engineering,2014, 12(3): 157-161.
[24]LIN Weifeng, WU Ziheng, CHEN Jiayu, et al. Scale-aware modulation meet transformer [C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2023: 5992-6003.
[25]LIU Yanting, ZHAO Junjuan, LUO Quanyong, et al. Automated classification of cervical lymph-node-level from ultrasound using depthwise separable convolutional Swin transformer [J]. Computers in Biology and Medicine, 2022, 148: 105821.
(編輯 亢列梅)