馮天培,孫躍東,王巖松,張博強,劉寧寧,,郭 輝
(1.上海理工大學機械工程學院,上海 200093; 2.上海工程技術大學機械與汽車工程學院,上海 201620;3.河南工業大學機電工程學院,鄭州 450007)
深度學習網絡模擬人類神經系統及其非線性層次化特性,逐層對信息進行非線性特征抽取并綜合處理,適用于建立車輛聲品質評價模型[1-2]。梁凱等[1]利用能夠直接處理二維面板信號的卷積神經網絡(convolution neural network,CNN),構建內燃機噪聲的聽覺時頻譜聲特征與煩躁度全局主觀評價結果之間的映射關系,結果表明整體煩躁度CNN評價模型的預測性能高于前饋神經網絡模型。
非平穩噪聲聲品質的瞬時主觀評價研究發現,時變聲品質主觀評價時間序列是平滑的,而提取的A計權聲壓級與響度等聲特征序列是波動的[3-4]。利用波動的聲特征時間序列建立時變聲品質評價模型,導致預測曲線呈現波動性,降低了對非平穩噪聲平滑性時變聲品質的評價效果。對于車輛噪聲整體綜合煩躁度CNN評價模型,時域波動聽覺譜的直接使用會限制模型預測性能。對聽覺譜進行時域平滑預處理,獲取時序平滑聽覺譜聲特征,可改善模型預測性能。
本文中對采集的汽車勻速和加速車內噪聲進行綜合煩躁度全局主觀評價試驗,使用Savitzky-Golay濾波器時間序列平滑法(SG濾波器)對噪聲樣本激勵級譜進行時域平滑預處理,分別以激勵級譜與時序平滑譜為聲特征,利用CNN構建噪聲樣本的聲特征與整體綜合煩躁度主觀評價結果之間的映射關系,研究方法如圖1所示,分析聽覺時頻譜的時域平滑預處理對車內噪聲整體綜合煩躁度CNN評價模型性能的改進效果。

圖1 車內噪聲整體綜合煩躁度評價的激勵級譜與時序平滑譜CNN模型
人類聲品質評價系統包括耳朵、聽覺神經系統與大腦,涵蓋了聲音信息的收集、傳遞、處理與主觀判斷。其中,耳蝸將中耳傳來的聲振信號進行聽覺頻帶解析處理并轉換為電化學信號,通過刺激聽神經向聽覺神經系統傳遞電脈沖信息。聽覺中樞對攜帶頻帶聲信息的生物電信號進行非線性層次化處理,綜合形成對聲事件的聽覺感知。大腦結合聽覺感知與個人主觀因素如心理活動、社會經歷、偏好與性格等,形成對聲音聲品質的判斷與評價結果。聲信號的耳蝸聽覺頻帶濾波與聽覺神經系統的非線性層次化信息處理是聲品質形成的重要過程。
心理聲學客觀參量包括響度、尖銳度與粗糙度等,常用于測量與評價車輛聲品質。粗糙度反映聽覺系統對聲音在時域上幅值快速變化的一種感覺。Aures粗糙度模型[5]是典型的粗糙度計算方法,利用24個聽覺頻帶廣義調制系數計算粗糙度。尖銳度感覺被聲音頻譜包絡影響,反映聲音的刺耳程度。響度表征聲音強弱的主觀感覺。Zwicker響度模型[6]已被國際標準 ISO 532B采用[7],是最常用的響度提取算法。其利用1/3倍頻程濾波器組模擬耳蝸,對聲音信號的功率譜密度進行帶通濾波,計算聽覺特征頻帶激勵級與沿臨界頻帶率分布的特征響度,積分獲得響度值,具體流程如圖2所示??紤]加權因子的Zwicker尖銳度模型是常用的尖銳度提取方法,如圖2所示,并被德國標準DIN 45692所采用[8]。綜上可知,常用心理聲學客觀參量的計算方法充分考慮了聽覺頻帶濾波特性,所以頻帶聲信息如激勵級時頻譜,可作為聲特征建立車輛聲品質評價模型[2]。

圖2 Zwicker響度與尖銳度計算方法
車輛聲品質評價分為全局評價(global evaluation)與瞬時評價(instantaneous evaluation)[9]、主觀評價與客觀評價兩個維度,如圖3所示。

圖3 車輛聲品質評價體系
主觀評價研究以人為主體,采用聽音評價試驗的方式進行[10]。在車輛噪聲聲品質主觀評價試驗中,選定評價指標與評價方法,組織評審團對車輛噪聲樣本進行聽音評價,統計并分析聲品質評價結果。其中,常用的主觀評價指標包括響度、尖銳度、粗糙度等單維度指標和綜合煩躁度、偏好性與運動感等多維度綜合性評價指標。主觀評價數據的典型統計量,如平均評價值,能夠反映出評審團對車輛噪聲直觀全面的聽覺感受,代表了車輛噪聲的真實聲品質水平,所以主觀評價是車輛聲品質評價的基本研究方法。
客觀評價研究分為傳統客觀評價與智能評價。傳統客觀評價以心理聲學客觀參量計算模型為典型代表,采用儀器測得的聲學客觀量來進行聲品質評判。傳統評價模型的算法過程復雜,對心理因素的計算模擬存在較大難度,所以在更靠近心理活動的綜合性評價指標的客觀評價計算上存在不足。智能客觀評價利用機器學習方法構建噪聲特征與主觀評價結果之間的映射關系,建立車輛噪聲聲品質客觀評價模型[11-13],將對心理活動的模擬融入模型中,可對聲品質進行較為精確的量化估計,是常用的對綜合性聲品質評價指標的客觀評價方法。其中多元線性回歸[14]、人工神經網絡[15]、支持向量機[16]與深度學習[1-2,17]是有效的建模機器學習方法,心理聲學客觀參量[11-12,14]與聽覺譜[1,15]是常用聲特征。主觀評價與智能客觀評價是研究車輛噪聲聲品質評價的兩個遞進的層次,主觀評價是客觀評價的基礎,客觀評價升華了主觀評價的研究。
全局主觀評價試驗常采用等級評分法、成對比較法和語義細分法等評價方法,獲取評價人員對評價對象的整體聲品質評價單值,可對車輛噪聲聲品質進行全局整體性認識。利用機器學習方法構建噪聲樣本的全局主觀評價結果與提取聲特征之間的映射關系,建立整體聲品質評價模型,評價速度快、一致性好,適合于工程應用。與全局評價不同,瞬時評價主要針對非平穩噪聲。在車輛噪聲聲品質瞬時主觀評價中,評價人員根據回放的噪聲樣本實時給出相應的瞬時聲品質評價值,獲得并統計針對評價對象的時變聲品質評價序列,在瞬時主觀感受變化方面對非平穩車輛噪聲的聲品質進行微觀局部性認識[3,9]。利用機器學習方法構建時變聲品質主觀評價序列與聲特征序列間的映射關系[11],建立時變聲品質評價模型,可測量與分析車輛時變聲品質環境、監控車內實時聲品質水平。全局評價與瞬時評價的研究成果可以相互借鑒。本文中研究汽車車內噪聲整體綜合煩躁度的智能客觀評價。
依據國家標準GB/T 18697—2002《聲學— 汽車車內噪聲測量方法》[18],本文中采集汽車勻速和加速工況下車內噪聲。試驗車輛選擇3輛不同品牌的國產轎車,分別標記為A、B與C車。工況設為30、40、50、60、70、80、90、100 km/h勻速行駛15 s及50~120 km/h全油門加速行駛,整個過程不能換擋。采集設備為B&K公司的PULSE聲音采集系統和兩只1/2英寸類型4189-A-21的傳聲器,采樣頻率為65 536 Hz,采集車輛前排司機位、副駕駛位與后排左乘客位(分別標記為 I、II、III位置)雙耳處噪聲。
每種試驗條件下測量3次以上,使用B&K公司的Sound Quality軟件對現場采集的車內噪聲信號進行采樣頻率為44 100 Hz的重采樣。通過聽音回放,并分析噪聲信號聲學參量如A計權聲壓級、響度等隨時間變化情況,選出每種條件下運行工況穩定且受其他因素影響小的最佳噪聲信號。考慮到人類聽覺主觀感知的形成過程,從選出的噪聲信號中剪輯出時間長度為5 s[19]的音頻信號作為一個噪聲樣本,其中加速噪聲信號持續時長均在10 s以上,在加速噪聲信號的前半部分與后半部分各截取一段5 s的噪聲樣本。每輛車可獲取30個噪聲樣本。根據采集車輛、位置與工況對樣本進行編號,如AI-70表示A車駕駛員位70 km/h勻速行駛車內噪聲樣本,BII-a表示B車副駕駛位50~120 km/h加速行駛前半部分時長5 s的噪聲樣本,CIII-b表示C車后排左乘客位50~120 km/h加速行駛后半部分時長5 s的樣本,建立本文中汽車車內噪聲樣本庫,共90個樣本,包括72個勻速噪聲樣本與18個加速噪聲樣本。其中AI-b、BII-70與C車后排左乘客位勻速噪聲樣本的聲學參量測量值如圖4所示。

圖4 噪聲樣本聲學參量時序圖與主觀評價結果分布圖
本文中選擇綜合煩躁度作為評價指標,參考語義細分法[20]為評價方法,設置描述噪聲綜合煩躁度主觀感受程度的等級評價詞,如表1所示。對比噪聲樣本的心理聲學參量值并組織一次語義細分法綜合煩躁度預評價,選定CI-60為參考樣本,其綜合煩躁度為“有些煩躁”。利用Adobe Audition軟件將參考樣本和各噪聲樣本分別組合,形成90個試驗評價樣本。組織由25位高校學生構成的評審團進行聽音評價試驗,評價人員先聽參考樣本,對噪聲樣本聽音完畢后,結合參考樣本的聲品質水平對噪聲樣本進行評價。將評價人員選擇的評價詞匯根據表1進行量化,得到其對各樣本的整體綜合煩躁度評價值。對每個樣本的各評價人員評價值取均值,作為評審團對該樣本的整體綜合煩躁度評價結果。C車后排左乘客位各勻速噪聲樣本的整體綜合煩躁度主觀評價結果與A聲級對比見圖4(c)。

表1 參考語義細分法綜合煩躁度等級評價詞及分值
針對聲特征時間序列的波動性,可利用平滑法提取具有時序平滑特性的序列。平滑法是進行時間序列趨勢性分析的一種常用方法,利用修勻技術削弱短期隨機波動對序列的影響,使序列平滑化。除了移動平均法與指數平滑法,SG濾波器[21]是常用的時間序列平滑技術。在SG濾波器的設計中,階數與采樣窗長是兩個重要參數。設p為階數,一般取 2、3或 4[22-23],2M+1為窗長,可根據待平滑時間序列的長度進行適當設置,且p≤2M。SG濾波器通過構造一個p階多項式fi,來擬合窗內時序數組{yi|i=-M,…,0,…,M},然后在時間序列上平移,完成對整個時間序列的平滑[24]。其中 fi為

解式(4)得最優系數組合{ar|r=0,1,…,p},可確定多項式fi,完成對數組的平滑擬合。
由于CNN能直接識別二維面板特征,本文中提取噪聲樣本的激勵級時頻譜,作為建立整體綜合煩躁度CNN評價模型的聲特征。在Matlab中編制聲音信號的激勵級譜提取程序:在時域上運用Hanning窗(窗寬800 ms,窗移200 ms)對信號進行分割,按照Zwicker響度模型[6-7]計算每一個子信號的聽覺特征頻帶激勵級;時域上取中間連續20個時間區塊,頻域上取前20個聽覺頻帶,獲得尺寸為20×20的噪聲樣本激勵級譜。
在Matlab中設計SG濾波器,階數設置為3,窗長為41個采樣點,對激勵級譜進行時域平滑,提取噪聲樣本的時序平滑激勵級譜聲特征。AI-a的激勵級譜與時序平滑譜分別如圖5(a)與圖5(b)所示,第2與第4聽覺頻帶的激勵級時間序列及其平滑序列分別如圖5(c)與圖5(d)所示。

圖5 噪聲樣本AI-a的聲特征提取
受啟發于Hubel-Wiesel生物視覺模型[22],卷積神經網絡(CNN)通過順序堆疊多個卷積— 池化層模擬視神經系統的局部感受野與非線性層次化處理特性[23-25]。具有局部連接、權值共享與降采樣特點的CNN,其典型結構見圖6,包含5種神經網絡層。

圖6 CNN的結構與特點
(1)輸入層:可接收單通道(如灰度圖像或單通道噪聲聽覺時頻譜)或多通道(雙耳語音信號、三通道彩色圖像)面板信號。圖6所示輸入層接收三通道信號,每通道輸入信號均是尺寸為17行17列的二維矩陣,則該輸入層的尺寸為3@17×17。輸入層接收輸入信號并傳遞至卷積層。
(2)卷積層:具有局部感受野特性的卷積層神經元對上一層輸出信號進行局部連接加權運算,通過激活函數映射獲得該層神經元輸出:
y=f(x·w-θ) (5)式中:x為卷積層神經元以局部連接方式接收的輸入區域信號;w為該神經元權重矩陣;θ為閾值;f(·)為激活函數;y為神經元輸出。
卷積層將層內神經元局部感受野統一為相同大小并排列在有限個相同尺寸的面板上,同一面板上的神經元擁有相同的連接權重矩陣(即權值共享特性,該權重集被稱為卷積核),一個面板稱為一個特征圖。卷積層同一面板上相鄰神經元在輸入信號上的局部感受野按其在面板上空間次序對應排列,相鄰局部感受野在垂直與水平方向上的距離稱為步長。通過在輸入面板信號高度與寬度方向上的補零操作,卷積層同一面板神經元局部感受野的并集覆蓋整個輸入信號。圖6中第一個卷積層的卷積核尺寸為6@3×3(卷積核個數@神經元感受野尺寸),通過運用尺寸為2×2的步長與0×0補零操作,該卷積層可輸出6個尺寸為8×8的特征圖(6@8×8)并傳遞至池化層。
(3)池化層:具有局部感受野特性的池化層神經元對上一層輸出特征圖進行局部連接加權運算(如最大值或平均值運算,即降采樣特性),獲得該層神經元輸出。池化層將層內神經元局部感受野統一為相同大小并排列在有限個相同尺寸的面板上,面板數量與前一卷積層輸出特征圖個數相同,并以一一對應的方式接收輸出特征圖,見圖6。常用的降采樣運算包括最大池化(max-pooling)和平均池化(average-pooling),池化層采用同一降采樣運算對輸入信號提取更高階的相對關系特征,降低特征維度與計算復雜度。圖6中第一個池化層包含6個通道,分別對應前一卷積層輸出的6個特征圖,層內神經元感受野尺寸為2×2,則該池化層可表示為6@2×2。通過運用尺寸為2×2的步長與0×0補零操作,該池化層輸出尺寸為6@4×4的特征圖并傳遞至下一層卷積層或全連接層。
(4)全連接層:層內神經元線性排列,每個神經元均連接至前一層所有神經元,按式(5)對前一層輸出信號進行接收、處理與計算。
(5)輸出層:層內神經元線性排列,每個神經元均連接至最后一層全連接層的所有神經元,并按式(5)對輸入信號進行激活輸出。輸出層神經元個數等于類別個數(分類問題)或響應變量數(回歸問題)。
在CNN中,ReLU函數是常用激活函數:

基于小批量隨機梯度下降的誤差反向傳播算法是常用的訓練算法,如圖7所示。迭代學習過程一直進行,直到滿足終止條件(如達到最大訓練輪數),輸出最優網絡權值閾值,CNN訓練完畢。在迭代訓練中,慣量因子可提高收斂速度并幫助尋優過程越過局部極小。

式中:η為學習率;W和ΔW分別為一次迭代過程中網絡前向計算使用權值閾值和獲得的權值閾值調整量;E為一次迭代中網絡前向計算誤差;ΔW*為前一次迭代訓練中學習到的網絡權值閾值調整量;γ為慣量因子。

圖7 基于小批量隨機梯度下降的CNN誤差反向傳播學習過程
本文中在Matlab平臺上構建CNN結構并設置網絡學習參數對CNN進行訓練,分別建立車內噪聲整體綜合煩躁度的激勵級譜與時序平滑激勵級譜CNN評價模型,其采用相同的CNN結構參數,如圖8所示,包括一個輸入層、兩個卷積— 池化組合層(C1-P2與C3-P4)、一個全連接層(FC5)與一個回歸輸出層。
輸入層中輸入尺寸設置為1@20×20,以接收尺寸為20×20的二維面板聲特征(激勵級譜或平滑激勵級譜);C1層利用尺寸為6@2×2的卷積核對輸入二維聲特征進行局部平面域感知與濾波;P2層接收C1層輸出的尺寸為6@19×19的特征圖,進行核為6@3×1的最大池化操作,并向 C3層輸出尺寸為6@7×19的特征圖;C3-P4層的卷積核分別為10@3×3與10@2×1并采用最大池化;FC5層利用30個全連接神經元對輸入信息進行綜合處理,提取高階特征;包含一個全連接神經元的輸出層輸出CNN前向計算的綜合煩躁度評價結果。卷積層、全連接層與輸出層中激活函數均設置為ReLU函數,各層步長、補零及輸出特征圖尺寸見圖8。

圖8 車內噪聲整體綜合煩躁度客觀評價模型
設置相同的CNN訓練參數:采用基于小批量隨機梯度下降的反向傳播學習算法來訓練CNN,其中小批量訓練樣本容量設置為12。學習率設置為0.000 7,慣量因子為0.9。在網絡可訓練參數的初始化方面,初始權重服從均值為0、方差為0.01的高斯分布,初始閾值均設置為0。最大訓練輪數終止條件設置為4 000輪。在Matlab中根據訓練參數的設置對建立的激勵級譜與時序平滑激勵級譜CNN評價模型進行訓練。
利用留一法對本文中建立的汽車車內噪聲整體綜合煩躁度CNN評價模型的性能進行檢驗。首先,建立訓練集與留一測試集,并歸一化處理;然后,利用訓練集與訓練參數對CNN網絡進行訓練,學習過程如圖7所示,分別輸出最優化的激勵級譜與時序平滑激勵級譜CNN評價模型;最后,利用留一測試集檢驗模型性能,檢驗項目為整體綜合煩躁度主觀評價結果與預測結果之間的Pearson線性相關系數(度量預測一致性)、預測誤差均值(度量預測精度)與方差(度量預測穩定性),其中相關系數的顯著性檢驗水平設置為0.05。留一法檢驗結果見表2與圖9。
表2中相關系數均高于0.85,p值均小于0.05,說明綜合煩躁度主觀評價結果與模型預測結果之間一致性較高。但是相比于激勵級譜CNN評價模型,基于時序平滑激勵級譜的CNN評價模型,其預測誤差均值降低10.43%、方差降低44.26%、Pearson相關系數升高4.13%,如圖9所示。說明時序平滑激勵級譜CNN評價模型的預測精度、穩定性與一致性均有提高,性能高于基于激勵級譜的CNN評價模型。車輛噪聲聲品質瞬時評價研究中的時變聲品質主觀評價時間序列平滑特性,提高了聲品質全局評價中的整體綜合煩躁度CNN評價模型的性能,提高了聲特征對車內噪聲整體綜合煩躁度的表達能力,即時序平滑激勵級譜的表達能力高于聽覺激勵級譜。相比于傳統常用聽覺譜如激勵級譜,時序平滑激勵級譜是較為優化的聲特征,更適于汽車車內噪聲整體綜合煩躁度的CNN客觀評價。

表2 CNN評價模型的留一法檢驗結果

圖9 CNN評價模型的留一法檢驗結果對比
考慮到車輛噪聲時變聲品質主觀評價序列的時序平滑特性,時序波動激勵級譜聲特征的直接使用會制約汽車車內噪聲整體綜合煩躁度CNN評價模型的性能。本文中利用SG濾波器提取汽車車內勻速和加速噪聲樣本的時序平滑激勵級譜,利用CNN構建二維面板聲特征與整體綜合煩躁度主觀評價結果之間的映射關系,建立基于時序平滑激勵級譜的車內噪聲整體綜合煩躁度CNN評價模型。留一法交叉檢驗結果表明,相比于基于激勵級譜的CNN評價模型,時序平滑激勵級譜CNN評價模型的預測精度、穩定性與一致性更高,性能更好。說明相比于激勵級譜等傳統常用聽覺時頻譜,時序平滑聽覺譜,如時序平滑激勵級譜,是較為優化的聲特征,更適于汽車車內噪聲整體綜合煩躁度的CNN客觀評價。