施宇豪 許煥敏
(河海大學,常州 213022)
汽車異響會影響駕乘體驗,甚至導致嚴重的故障。在整車研發階段,主要通過振動臺架試驗與主觀評價相結合的方法檢查汽車異響問題,對試驗人員的經驗要求較高,且經過長時間的主觀判斷后,識別效率會大幅降低。利用人工智能技術開展聲音識別可以實現異響的自動診斷,并快速準確地判斷異響種類,從而極大地提高識別效率,對改善汽車NVH性能具有重要意義。
聲音識別技術廣泛應用于語音識別、環境聲音識別和機器聲音識別等領域。構建聲音識別模型是實現聲音識別的重要基礎,常用的聲學模型包括隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(Support Vector Machine,SVM)和人工神經網絡(Artificial Neural Network,ANN)[1]。楊軍磊基于GMM 識別模型和梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)特征實現了對空調機組噪聲的識別,從而進一步判斷設備故障類型[2]。楊興國提出一種基于SVM 分類器的發動機異響故障識別方法,提取異響聲音的小波包能量譜和雙譜峰值作為特征參數,可以較好地識別異響類型[3]。
HMM、GMM、SVM 與淺層神經網絡等均屬于淺層機器學習的模型,在處理一些特征較為復雜的數據時,存在數據表征能力不強的問題[4],導致識別效果不佳。深度學習方法一經提出就在圖像、聲音識別等領域得到廣泛應用。朱夢帆提取了電力設備故障聲音聲譜圖的特征,并自建卷積神經網絡(Convolutional Neural Network,CNN)模型完成了對電力設備不同放電故障聲音和正常放電聲音的分類[5]。Li 提出了一種具有多個卷積層的新型堆疊CNN 模型搭配對數梅爾譜(Log-Mel)特征輸入,使得對環境事件聲音的識別效果優于采用其他特征輸入的模型[6]。章杰設計了一種基于殘差網絡(Residual Network,ResNet)和門控循環單元(Gated Recurrent Unit,GRU)的模型結構,在車輛噪聲識別方面實現了96% 的準確率[7]。
本文借助四立柱振動試驗臺架采集了多輛試驗車的異響數據,將同類異響問題進行標注,針對異響數據內部結構復雜的特點,提取其梅爾頻譜(Mel-Spectrogram),采用卷積神經網絡對特征參數進行深層次的學習以實現其分類。
本文試驗在整車異響試驗室進行,試驗室內部為半消聲室結構,大幅減少了背景噪聲對原始信號的干擾,如圖1 所示。四立柱試驗臺通過4 臺獨立加振機控制,通過將加速度信號、位移信號等進行多次迭代來復現垂直方向的振動,從而進行整車四通道道路模擬試驗。4 臺液壓伺服作動器分別對4個車輪施加振動,可按設定的規律或采集的路譜特征對待測車輛施加激振力,從而激起待測車輛的異響。

圖1 汽車異響試驗室
本文的試驗對象為來自多個整車制造商的車型,并采用多條路譜進行激勵,以保證異響樣本來源的多樣性,使數據庫更具代表性。試驗采用的設備如表1所示。

表1 測試儀器
人耳聽覺的頻率范圍一般為20~20 000 Hz,結合奈奎斯特采樣定理,試驗時信號采樣頻率設置為44 100 Hz,采樣值可包含原始信號的所有信息。測試前調整標定器輸出頻率和輸出聲壓級分別為1 000 Hz、114 dB,然后插入聲傳感器進行標定,從而找到最適應當前試驗環境的靈敏度,最后將聲傳感器放置在距離采樣點5~20 cm處固定。
在控制端軟件中輸入迭代好的路譜來模擬試驗車在不同路面上的行駛狀態,在異響工程師判斷出異響問題后即可開始信號采集。
本文采集了減振器異響、安全氣囊異響、發動機罩異響、空調出風口異響4 種測試階段常見的異響數據。另外,考慮到實車道路異響識別會被發動機聲和周圍車輛的汽笛聲干擾,因此加入了Urbansound8K 數據集中的發動機空轉聲和汽笛聲來避免異響識別系統的誤觸發,并提高訓練模型的性能。將上述幾種數據以6∶2∶2 的比例隨機分割為訓練集、驗證集、測試集用于模型訓練及測試。
本文的汽車異響識別總體流程如圖2所示。

圖2 異響識別流程
CNN 的輸入是圖像,因此需要提取異響信號的特征圖譜。以往,由于機器學習算法無法處理復雜的圖像信息,HMM、GMM 等模型多將梅爾頻率倒譜系數用于特征提取。深度學習算法不需過多的預處理來提煉信息,故可以直接提取梅爾頻譜圖作為CNN的輸入[8],提取流程如圖3所示。

圖3 特征提取流程
梅爾頻譜參數的計算過程如下:
a. 預處理。預處理包括預加重、分幀、加窗函數。預加重的目的是補償高頻信息的損失,通常采用一階濾波器H(z)實現:
水資源管理水平得到提高。國家最嚴格水資源管理制度試點建設通過水利部中期評估。水資源論證納入政府投資項目聯合審批,規模以上地下水用戶全部實現水量在線監測。推行再生水、淡化海水、生態水和地下水“三增一減”管理,年利用再生水1.4億t、淡化海水3 000萬t,中心城區年生態補水1.73億m3,壓采深層地下水1 200萬m3。順利通過國家節水型城市復查,完成水功能區跨界斷面核定,全市所有水功能區納入水質監測。全年用水總量控制在24億m3以內,萬元GDP用水量降至18 m3,萬元工業增加值用水量降至8.3 m3,重要江河湖泊水功能區達標率提高到21%。
式中,α為常數,一般取0.9~1.0。
分幀的目的是使相鄰幀之間的參數平穩過度,因此兩幀之間存在重疊部分,加窗函數可以減少信號頻域的譜泄漏[9]。語音信號x(n)經預處理后的第i幀信號為xi(m)。
b. 快速傅里葉變換(Fast Fourier Transform,FFT)。對每一幀信號進行快速傅里葉變換,將信號從時域轉化到頻域:
式中,X(i,k)為第i幀信號中第k條頻域譜線的頻域數據;fFFT為快速傅里葉變換。
c. 計算傅里葉變換后第i幀信號中第k條頻域譜線的能量譜:
d. 計算通過梅爾(Mel)濾波器組的第i幀信號第m個三角帶通濾波器的對數能量譜:
式中,Hm(k)為通過第m個三角帶通濾波器的傳遞函數。
這里得到的對數能量為每一幀信號的對數梅爾譜特征,即梅爾頻譜[10],后續可用作CNN 的輸入參數。
CNN 在圖像分類上的應用非常成功,本文對聲音信號提取特征圖譜后,使用CNN 進行聲音識別、自然語言處理等研究。
CNN 模型中使用卷積層和池化層代替傳統神經網絡中的隱藏層,通過局部感知、權值共享、池化采樣實現對數據樣本深層特征的提取與參數的簡化[11]。典型的卷積神經網絡由輸入層、卷積層、池化層、全連接層及輸出層構成,其基本結構如圖4 所示。

圖4 典型卷積神經網絡
輸入圖像經過卷積層進行深層次的特征提取,由池化層對特征參數進行壓縮凝練,在多次卷積池化操作后使用全連接層將所有參數展開成一維,通過層層神經元之間的輸入、輸出調整權重,最終得到各輸出類別的概率。
本文搭建CNN 異響識別模型,記為Model1。輸入圖片大小為224×224,然后進行3 次卷積池化,卷積核尺寸為3×3,步長為1,池化層選擇最大池化,池化窗口大小為2×2,激活函數選擇線性整流函數(Rectified Linear Unit,ReLU),最后用Softmax 函數實現六分類。模型結構如表2所示。

表2 卷積神經網絡結構
模型學習率設置為0.001,損失函數設為多分類交叉熵,反向傳播的優化器選擇Adam,并使用準確率(Accuracy)函數繪制訓練及驗證精度曲線。訓練輪次(Epoch)設置為100。
將前文提取的梅爾頻譜通過圖像數據生成器(ImageDataGenerator)模塊的旋轉、平移等操作完成預處理,從而變相地增加了訓練樣本,通過Reshape函數修改圖像分辨率為224×224,然后開始訓練模型。完成100個輪次訓練后的驗證精度和損失如圖5、圖6所示。

圖5 訓練及驗證精度

圖6 訓練及驗證損失
由圖5 可以看出,訓練及驗證精度在前20 個輪次左右上升較快,此后趨向平緩,處于緩慢上升過程,損失精度與之相反。訓練過程中的最高精度停留在89.06%,驗證的最高精度約為90.07%,略高于訓練精度,精度最高的模型在第95輪。
模型訓練完成后,使用精度最高的模型識別測試集數據,以考查模型的泛化能力。
在模型訓練的基礎上開發識別程序,在程序中導入訓練好的.h5 模型文件,只需輸入測試集數據的相對路徑即可展示識別結果,其中單個測試樣本的識別結果如圖7所示。

圖7 單個測試樣本識別結果
混淆矩陣是一個誤差矩陣,可以用來進行可視化評估,從而監督學習算法的性能,如圖8所示。對角線上的數據可以理解為各類別的識別率,其余部分則為誤差數據。例如,減振器異響中有2%被錯誤識別為發動機空轉聲、2%被識別為安全氣囊異響、1%被識別為空調異響。

圖8 混淆矩陣
本文搭建的異響識別CNN 模型的平均識別精度達到90.5%,其中汽笛聲和氣囊異響識別率較高,達95%以上,而其余幾類大多低于90%,因此,該模型性能仍有提高空間,可通過調整參數進一步優化。
遷移學習作為機器學習的一種常用方法,多用于計算機視覺和自然語言處理等任務。遷移學習通過將預訓練模型置于目標任務中來幫助訓練可靠的決策函數,從而解決目標域中已標記樣本較少的問題[12]。異響信號的采集較為繁瑣,很難獲得大量的已標注樣本,因此將遷移學習的方法引入汽車異響識別具有一定可行性。本文選擇基于模型的遷移學習方法,以VGG16、ResNet50 作為預訓練模型,使用2 種經典模型的卷積池化層來提取特征參數,修改Softmax函數的分類數量來滿足試驗的具體需求。
VGG 模型[13]廣泛用于圖像分類問題,其模型結構如圖9所示。

圖9 經典VGG網絡模型
ResNet 網絡使用層間殘差跳連的方式傳遞信息,可以解決圖像經多層卷積提取特征后,特征圖像丟失原圖本質信息的問題,有效抑制了網絡退化[14]。ResNet結構塊如圖10所示。

圖10 殘差塊
ResNet 塊在層與層的傳遞中給出2 條路線,如果卷積的效果不佳,就將當次卷積重置,直接將上一層參數輸入給下一層,以避免某次卷積效果較差而影響后續訓練。
在使用上述2 種模型訓練時,學習率、優化器、激活函數、訓練輪次等參數均不變。匯總各模型的訓練精度、驗證精度、平均測試精度如表3所示。

表3 不同模型各精度匯總%
由表3 可知,遷移學習引入的模型在訓練、驗證、測試精度上均獲得了提升。相較于自建模型,VGG16 模型的識別率提升了2.83 百分點,ResNet50的識別率提升了3.83百分點。
本文提出了基于卷積神經網絡的汽車異響識別方法,經數據采集、特征提取、模型訓練等流程實現異響識別。首先,在整車異響試驗室中采集高信噪比的異響數據,然后,在傳統梅爾頻率倒譜系數的基礎上去除離散余弦變化,提取了更適合作為神經網絡輸入的梅爾頻譜,再通過搭建模型,調整模型參數來觀察模型訓練的精度和泛化能力,最后,基于遷移學習的方法解決了訓練樣本數據不足的問題。試驗結果表明:本文提出的汽車異響識別方法可以較好地識別異響問題,在原始數據集上的識別率可達90.5%;遷移學習可以在小樣本異響識別中取得更好的效果,VGG16 模型的識別率達到93.33%,ResNet50的識別率達到94.33%。