楊正理,吳馥云,陳海霞
(三江學院 機械與電氣工程學院,江蘇 南京 210012)
鍋爐爐管自動報警系統是當鍋爐爐管在高溫、高壓狀態下工作中發生泄露故障時,根據安裝在鍋爐爐管上的多個聲波傳感器檢測到的聲波信號判斷鍋爐爐管是否發生泄露故障[1]。目前,故障識別主要是依據聲波信號的主要特征,包括聲波韻律特征和聲波譜特征[2]。
聲波韻律特征包括聲波基頻特征和能量特征,按照其全局和局部特征,可以通過提取聲波基頻和能量的最大值、最小值、平均值及方差等構成高維聲波特征集。聲波譜特征包括線性頻譜特征和倒譜特征,主要反映聲波信號在頻域上的差異。BOU-GHAZALE 等[3-4]的研究表明,倒譜特征在識別聲波信號特征上比線性頻譜特征具有明顯優勢。Hsiao 等[5-6]通過提取聲波信號的基頻、過零率、能量、梅爾頻率倒譜系數(Mel-frequency cepstral coefficient,MFCC)等特征,并計算其方差、平均值、最大值、最小值、峰度、線性回歸系數等構成高維聲波特征集,然后采用深度循環神經網絡(deep recurrent neural network, DRNN)模型在FAU-Aibo 數據集的未加權平均召回率(unweighted average recall,UAR)提高了9.3%;Han等[7-8]通過聲波能量、共振峰、諧波噪聲比等特征構建16 維聲波信號特征向量,其中前9 維為聲波韻律特征,后7 維為聲波譜特征,提出了一種基于高斯核的非線性近端支持向量機模型;胡德生等[9-10]基于主輔網絡特征融合方法,通過計算聲波信號的平均過零率、基準頻率、能量、以及MFCC 等特征,在IEMO-CAP 數據庫上使未非加權平均精度(unweighted average precision, UAP)提高到73.1%。上述文獻所述的模型均采用固定信息融合方法,將聲波信號的不同特征輸入到多個網絡,因而聲波信號特征利用率較低,造成模型的識別精確不高。本文充分利用聲波信號的多特征性質,對多個聲波特征采用不同融合策略進行信息融合,提高了信號特征利用效率,從而提升模型的識別精度。
近年來,卷積神經網絡(convolutional neural network,CNN)和長短期記憶網絡(long short-term memory,LSTM)以其較高的識別精度在聲波信號特征識別領域得到了廣泛的應用[11-16]。而近期的研究進一步表明,在雙向長短期記憶(bidirectional long short-term memory,BLSTM)網絡中引入注意力機制能更好地提高聲波信號的識別精度[17-20]。其主要思路是:1)基于當前聲波信號特征與其前后聲波信號之間的相關性,采用BLSTM 網絡能夠得到信號在時間上的依賴特征;2)基于爐管聲波信號中泄漏故障信號與正常信號之間的信息特征差異,引入注意力機制,增加故障信號在特征模型中的權重。
在鍋爐爐管聲波信號故障識別系統中,由于聲波傳感器之間輸出的聲波信號存在個體的差異性。為了降低個體差異對故障識別的影響,往往需要對各聲波信號進行差分處理后再作為2D-CNN、3D-CNN 網絡的輸入特征集,提升模型的識別精度。例如,Gao 等[21]通過計算聲音信號MFCC 系數的一階差分、二階差分作為信號特征集輸入到改進型3D-CNN-LSTM 網絡模型中,使網絡模型的UAR 在IEMCAP 和EMO-DB 數據庫上分別達到了64.57%和83.15%。Sohaib 等[22]通過計算聲音信號的對數梅爾特征(Log-Mel)的一階、二階差分作為信號特征集輸入到改進型2D-CNN-LSTM網絡模型中,使網絡模型基于發聲源依賴實驗和基于發聲源獨立實驗的識別精確率在IEMOCAP數據庫上分別達到90.02%和53.21%。Gupta 等[23]通過計算語音信號Log-Mel 的一階、二階差分構成3D-Log-Mel 數據集輸入到3D-CNN-LSTM 網絡模型,使語音信號識別平均準確率在IEMCAP和EMO-DB 數據庫上分別達到60.89%和86.07%。上述文獻所述方法將信號進行差分處理后再輸入到多通道卷積網絡模型,但卻沒有對各通道的特征輸入權重進行優化。聲波信號的不同階差分對信號的區分度顯然是不相同的,輸入到網絡模型時應該合理分配各通道的權重,從而提升模型的識別精度。
深度殘差收縮網絡(deep residual shrinkage networks,DRSN)引入了注意力機制和軟閾值函數。在內部將軟閾值化作為非線性層,自適應地在特征學習過程濾除噪聲信號,提高有用信號特征的學習效果,所以該模型適合給重要信號特征分配更大權重,而降低不重要信號特征的權重。本文引入DRSN 對聲波信號的輸入權重進行優化分配,提高聲波信號有效特征的輸入權重,提高聲波信號識別精度。
鍋爐爐管在運行過程中最容易發生故障且故障后果最嚴重的4 種泄露故障類型是發生在“四管”上的泄露故障,即再熱器管、水冷壁管、省煤器管和過熱器管[24]。用于故障識別的聲波信號有效特征通常采用聲波韻律特征和聲波譜特征來描述。
1) 短時能量。不同類型的鍋爐爐管聲波信號的幅度值是不相同的。所以其聲波信號的短時能量可以作為信號的特征之一;設某聲波信號為{x(n)},定義加窗函數的平均短時能量為
式中: ω(n) 為 窗函數,可選矩形窗或漢明窗等;h(n)為單位沖激響應;*為卷積。
2) 短時平均幅度。聲波信號短時能量主要用來描述信號的峰值幅度,而聲波信號的單位時間內幅度值變化情況可用短時平均幅度值Mn來表示:
3) 短時過零率。聲波信號的短時過零率用來表示單位時間內聲波信號穿越時間軸的次數,即
顯然,鍋爐爐管聲波信號的高、低頻部分具有較高和較低的短時過零率,可以用來表現聲波信號的振動情況,所以能作為區分聲波信號特征之一。
聲波信號的倒譜特征對信號特征的區分能力明顯優于線性譜特征。倒譜特征常用MFCC、線性頻率倒譜系數(linear frequency cepstral coefficient, LFCC)、線性預測倒譜系數(linear predictive cepstral coefficient, LPCC)來表示。
1) MFCC。MFCC 可有效表征聲波信號的共振情況。在聲波信號故障識別領域,MFCC 已經成為表征聲波信號特征應用最廣泛的參數[25]。聲波信號的MFCC 的計算過程如下:
①采用高頻濾波器對聲波信號進行預處理,濾除聲波信號中的高頻部分:
②按照段長為25 ms、移動段長為10 ms 對聲波信號進行分段處理,并給各段聲波信號加漢明窗;
③對各分段聲波信號進行傅里葉變換,并計算各分段聲波信號的能量分布:
④采用梅爾尺度三角濾波器對能量譜作平滑處理:
⑤計算三角濾波器輸出的對數能量,并對對數能量進行離散余弦變換,得到聲波信號MFCC系數:
2) LFCC。LFCC 計算過程與MFCC 相同,只是其濾波器組的頻率需要按照線性頻率進行分布;
3) LPCC。LPCC 采用線性預測分析方法獲得聲波信號的倒譜系數[26]。其計算過程如下:
①采用線性預測分析方法得到分段聲波信號的全極點模型,即
②聲波信號的激勵模型為
③模型的輸入和輸出關系可用表示為
④假設某段聲波信號的第n個采樣點的模型輸出為, 且能 夠用該段聲波信號前面p個模型輸出線性表示,即
式中:a1,a2,···,ap為常數,稱為線性預測系數。
⑤從而,LPCC 可表示為
在CNN 和BLSTM 網絡模型基礎上,引入注意力機制,通過增強有效聲波信號的權重,降低無效聲波信號的權重構建基線模型,如圖1 所示。

圖1 CNN-BLSTM 模型結構Fig.1 Structure of CNN-BLSTM
1) CNN 模型。首先,將聲波信號的韻律特征數據集作為1D-CNN 網絡的輸入,1D-CNN 網絡設置2 個卷積層,卷積核大小為5,數量定義為128,步長為1,激活函數采用ReLU。設置池化大小分別為5 和3 的兩個池化層;然后,計算聲波信號譜特征的一階、二階差分構成3 個通道的數據集作為2D-CNN 的輸入;2D-CNN 網絡設置3 個卷積層,卷積核大小分別為5×5、5×5、3×3,數量定義為128,步長為1,激活函數采用ReLU。設置池化大小為2×2 的3 個池化層;
2) BLSTM 模型。當前聲波信號的信號特征與其前、后聲波信號的特征信息均相關。所以在處理聲波信號序列時,需要采用兩個獨立的BLSTM網絡從前、后兩個方向分別對聲波信號進行處理。所以,BLSTM 網絡在t時刻的隱藏狀態輸出結果為
BLSTM 網絡的最終隱藏層輸出可表示為
式中:H∈Rt×d;t為 聲波信號的分段數;d為BLSTM網絡輸出最終隱藏層的大小。
3) 注意力機制。將BLSTM 網絡輸出的最終隱藏層作為注意力機制的輸入數據集。
式中:ai為注意力機制賦予給有效聲波信號的權重;h′i為有效聲波信號加權后的輸出值。
在CNN 模型基礎上構建引入了注意力機制的BLSTM 網絡。注意力機制的主要作用是合理分配輸入通道的權重,對包含故障特征的聲波信號分配較大的權重。鍋爐爐管聲波信號特征與爐內溫度、爐管內壓力、設備損耗、泄漏故障位置和程度等多種因素有關。注意力機制能夠使模型更有效地提取聲波信號本身特征及其耦合的爐管內壓力信息、爐管老化程度、設備損耗特征等。并在很大程度上避免在機器學習中出現過擬合現象。
本文所述的信息融合是指綜合不同模型的優勢,達到不同模型間提優補缺的作用,主要包括特征層融合和決策層融合[27]。
特征層融合是指將原始樣本分別輸入到多個深度學習網絡得到多個降維特征向量,由多個降維特征向量融合得到一個特征向量的方法,有特征向量并行和特征向量拼接兩種方式。特征向量并行是將多個同維的特征向量進行疊加得到新的同維特征向量,新特征向量的維數沒有增加,但卻增加了每一維向量的特征信息;特征向量拼接是將多個同維度或不同維度的特征向量串聯拼接而得到新的特征向量,新特征向量的維數增加,但每一維向量的特征信息量卻沒有增加。
決策層融合是指采用代數方法對多個模型網絡的識別結果進行融合。多個模型網絡的識別結果之間相互獨立,識別結果一般用一個預測評分來表示,常見的決策層融合方式就是對多個預測評分求平均值、最大值等。
在深度殘差網絡中引用軟閾值化作為非線性層。軟閾值化的本質是通過設計合適的濾波器對信號噪聲進行濾波。在深度殘差網絡基礎上應用軟閾值化構建DRSN,提高網絡模型對含噪數據或復雜數據的學習效果和識別精度。用x表示輸入特征向量,用y表示輸出特征向量,用 τ表示一個正參數閾值,軟閾值在網絡模型中的作用可表示為
當軟閾值的輸出對輸入的導數為1 或0 時,即
可有效防止信號經軟閾值處理后出現梯度消失和爆炸等異常問題。
將多個具有不同通道閾值的殘差收縮模塊進行疊加構成DRSN,如圖2 所示。

圖2 閾值獨立型殘差收縮模塊Fig.2 Residual shrinkage building unit with channel-wise thresholds
圖2 中的每個通道均對應一個獨立閾值,所以構成DRSN 的各殘差收縮模塊又稱為閾值獨立型殘差收縮模塊(residual shrinkage building unit with channel-wise thresholds,RSBU-CW)。通過對特征向量中每一個元素求絕對值,并利用全局平均池化方法將特征向量映射為一個一維向量作為一個兩層全連接網絡的輸入,其中全連接網絡的第二層神經元個數等于模型輸入特征映射的特征通道個數,全連接網絡的輸入縮放在(0,1)之間,縮放參數表示為
式中:zc表示第c通道的輸出特征; σc表示第c通道的縮放參數。
第c通道的閾值計算公式為
式中: τc表 示第c通道閾值;Xi,j,c表 示特征向量X第c通道下特征向量,坐標為 (i,j);faverage表示求均值。
由于各通道閾值由各樣本自身的特征自適應確定,所以DRSN 對含噪信號處理同樣具有良好效果。當樣本信號中的噪聲較小時,經學習和訓練后所得的閾值非常接近于0,從而使軟閾值化對訓練模型幾乎不會造成不良影響。本文通過計算聲波信號的譜特征,并經一階差分和二階差分后得到3 個通道的特征數據集,在輸入二維網絡之前,利用DRSN 得到各通道的輸入權重。經上述方法處理后,每組聲波信號的訓練樣本均能獲得獨立的通道權重,并根據各訓練樣本的信號特征對通道權重進行調整,從而得到具有獨立通道權重的CNN,提升模型的識別效果。
鍋爐爐管聲波信號故障識別系統采用DRSN多特征融合模型(DRSN with multi-feature fusion,DRSN-MF)。該模型包含一個一維網絡(1D-CNNBLSTM-attention) 和一個二維網絡(2D-CNNBLSTM-attention);兩個網絡分別都引入注意力機制和Dropout 層。注意力機制的主要作用是通過提高有效聲波信號的權重來提高聲波信號故障識別效果;Dropout 層的主要作用是有效緩解模型發生過擬合,提升模型的泛化能力,在一定程度上達到正則化的效果。二維網絡比一維網絡多了一個維度,模型利用這一維度實現樣本數據的多通道輸入。聲波信號的韻律特征數據作為一維網絡的輸入;聲波信號的譜特征作為二維網絡的輸入,在輸入到二維網絡前,首先計算聲波信號譜特征的一階和二階差分,形成3 通道特征數據集,再通過DRSN 對二維網絡的3 個通道權重進行合理分配,最后再將特征數據集輸入到二維網絡。MFCC、LFCC 和LPCC 均采用這種方式輸入數據。
不同類型的特征數據集經過一維或二維深度學習網絡后,其輸出結果為對應的降維特征向量。在特征層融合中,降維特征向量采用并行和拼接方法進行信息融合后作為全連接層的輸入,輸出結果采用Softmax 函數對聲波信號進行識別,如圖3(a)所示。在決策層融合中,降維特征數據集先通過全連接層,再采用Softmax 函數得到各類降維特征的分類預測得分,最后采用求平均值和最大值的代數組合規則輸出聲波信號的識別結果,如圖3(b)所示。

圖3 DRSN-MF 結構圖Fig.3 DRSN-MF structure
本文基于CNN 模型在特征提取方面的優勢和BLSTM 在時間連續上的識別優勢,將CNN 和BLSTM 進行融合得到CNN-BLSTM 模型用于鍋爐爐管聲波信號故障識別,該模型能夠提取豐富的信號特征,提高信號特征的利用效率,并對時間連續的行為動作具有較強的識別性,因此具有較高的信號識別率。
選擇某典型鍋爐爐管聲波自動報警系統的歷史數據作為本文的原始實驗樣本數據集。該樣本數據集經過一定的數據篩選、排異處理,共12 600 條數據,包括經多種類型、不同時段、多個聲波傳感器采樣得到的再熱器管、水冷壁管、省煤器管、過熱器管泄漏故障數據,以及無泄露故障數據。數據集采樣率為16 kHz,采用16 bit 量化。
鍋爐爐管聲波信號故障識別是一個典型的多分類任務,評價識別效果的主要指標有準確率、精確率、召回率和F1值[28]。對于一個二分類模型,模型輸入樣本可以分為正樣本和負樣本;模型輸出結果可分為4 種情況:1) 真陽性TP,即預測結果和實際樣本均為正樣本;2) 假陽性FP,即預測結果為正樣本,實際樣本為負樣本;3) 真陰性TN,即預測結果和實際樣本均為負樣本;4) 假陰性FN,即預測結果為負樣本,實際樣本為正樣本。
1) 準確率。準確率為預測結果正確的數量與全部樣本的比值:
2) 精確率。精確率為真陽性樣本數量與所有正樣本數量的比值。
3) 召回率。召回率為真陽性樣本數量與所有預測結果為正樣本數量的比值。
4)F1值 。F1值為算數平均數除以幾何平均數,且越大越好,本文的F1值就是精確值和召回率的調和均值。識別模型中,希望準確率和召回率都高,但是一般情況下,當準確率越高時、召回率就越低,反之依然。F1值的計算公式可表示為
多分類任務中,計算所有分類結果的精確率R和召回率P可分別構成一個n維向量R和P,即
式中:n表示多分類模型輸出的分類類別數;Ri、Pi分別表示第i個分類類別的精確率和召回率。
對多分類模型輸出分類類別的精確率求平均值就得到分類類別的UAP();對多分類模型輸出分類類別的召回率求平均值就得到的分類類別的UAR(),即
本文所有實驗在搭載第12 代Inter(R)Core(TM)i5-12500H 標壓處理器的HUAWEI MateBook 14 s上運行,基于TensorFlow 構建深度學習框架。模型識別效果的評價指標采用UAR、UAP、準確率和F1值。按照25 ms 幀長和10 ms 移動幀長的定義,將原始樣本數據集的聲波信號劃分成200 幀的聲波段,訓練樣本數和測試樣本數的比例為4∶1,所有實驗結果取10次平均值以消除隨機誤差。設置模型的學習率為10-4,衰減率為10-6,學習最高迭代次數為150。
1) 信息融合策略實驗。
對聲波信號的4 種信息融合方式進行實驗,實驗結果如表1 所示。

表1 聲波信號不同信息融合方式實驗結果Table 1 Experimental results of different information fusion methods of acoustic signals %
從表1 中數據可見,聲波信號采用特征層融合策略比決策層融合的效果更好。這一實驗結果表明,先將聲波信號的特征進行整合,再進行分類的信號識別效果更好。另外表中數據還表明:信號在特征層融合時,采用并行方式的效果比拼接方式好;信號在決策層融合時,采用求平均值的效果比求最大值方式好,這主要是因為求最大值方式容易出現過擬合現象。
2) RSBU-CW 模塊數量設置實驗。
多個RSBU-CW 模塊進行疊加構成DRSN,對構成模塊的數量對模型的識別效果進行實驗驗證。模型的信息融合在特征層進行,各特征向量融合方法采用并行方式。當RSBU-CW 模塊數量分別為1、2、3 時,模型的識別效果UAP 分別為84.65%、81.37%、79.29%。由此可見,構成DRSN模型的RSBU-CW 模塊為1 時,模型的識別效果就達到最佳狀態。所以模型構建時,不必過多追求RSBU-CW 模塊的疊加數量,原因是DRSN 模型的輸入特征數據量較小,過多的RSBU-CW 模塊疊加反而容易造成DRSN 模型過擬合,使其識別效果降低。
3) 模型訓練過程實驗。
對模型的訓練過程進行實驗,設置模型的最大迭代次數為100 次,并限定當模型連續40 次迭代,其模型準確率沒有提升時主動中斷訓練過程。得到的迭代次數-準確率變化曲線如圖4所示。

圖4 迭代次數變化時模型準確率變化曲線Fig.4 Model accuracy curves when the number of iterations changes
圖4 中的曲線表明,訓練沒有達到最大設定迭代次數訓練就被中斷,這是因為樣本數據較少的緣故。同時,當訓練次數達到50 次左右時,模型就開始收斂,這個現象表明本文所構建的模型是實用且有效的。
4) 樣本數據的混淆矩陣。
由學習框架得到原始樣本數據的混淆矩陣如圖5 所示。從圖5 中數據可以看出,本文所構建的模型對再熱器管、水冷壁管、省煤器管、過熱器管泄漏故障,以及無泄露故障信號均有較高的召回率,這說明本文所構建的模型能夠有效區分鍋爐爐管是否發生泄漏故障,并能較好地區分泄漏故障的類型。

圖5 原始樣本的混淆矩陣Fig.5 The confusion matrix of the original sample
5) 各類模型識別效果對比。
本文在CNN-BLSTM 模型的基礎上引入注意力機制作為基線模型,基線模型的信息融合在特征層采用特征向量并行融合方式。基線模型與本文所構建的DRSN-MF 模型的識別效果如表2。

表2 基線模型與DRSN-MF 模型識別效果對比Table 2 Comparison of recognition effect between baseline model and DRSN-MF model %
如表2 中數據所示,本文所構建的DRSN-MF模型在準確率、精確率、召回率和F1值4 個模型識別效果評價標準上均優于基線模型。為進一步驗證本文引入DRSN,在特征層進行信息融合,以及采用特征向量并行方式的模型的優勢,與其他文獻中所述的基于CNN、LSTM 及注意力機制所構建模型的識別效果進行比較的結果如表3 所示。

表3 DRSN-MF 模型與其他模型UAR 對比Table 3 Comparison of UAR between DRSN_MF and other models %
表3 中的數據表明,DRSN 能夠有效提高基于CNN 和LSTM 深度學習的聲波信號故障識別精度;同時,在特征層進行信息融合,以及采用特征向量并行方式能夠提高模型的識別效果。
本文在CNN-BLSTM 模型的基礎上引入注意力機制作為基線模型,構建了引入DRSN,在特征層進行信息融合,以及采用特征向量并行方式識別的模型,對鍋爐爐管聲波信號的故障進行識別。利用原始樣本數據對本文所構建的DRSN-MF 模型進行了大量的實驗驗證,并將本文模型與其他文獻所述的模型進行對比,驗證了本文構建模型的有效性,具有良好的推廣價值和實用性能。