利用卷積網絡的高速列車主觀聲品質預測*

2022-09-16 09:12:30賈尚帥潘德闊阮沛霖

應用聲學 2022年4期

賈尚帥潘德闊阮沛霖鄭旭

(1 中車唐山機車車輛有限公司技術研究中心唐山 063035)

(2 浙江大學能源工程學院杭州 310027)

0 引言

隨著高速列車速度的提升，車內噪聲問題日益突出，這不僅會影響乘客的乘車體驗，甚至會損害人體健康。高速列車車內噪聲是多種復雜激勵源共同作用下的寬頻帶噪聲，且以中低頻為主[1]。傳統的A 計權聲壓級評價會對車內噪聲水平造成一定的低估，導致結果與人的主觀感受不相符。因此，國內外學者針對車內包括響度、尖銳度、粗糙度和抖動度等客觀聲品質參數開展了大量研究。Luo 等[2]針對高速列車車內聲品質提出了一種自適應Moore響度算法(AMLA)，該算法有效提升了計算的精度和效率。鞠龍華等[3]定量分析了車內強聲環境下的語言清晰度，研究了運行速度與語言清晰度之間的關系。Park 等[4]研究了車內瞬態變化噪聲的聲品質參數，得出響度值不能充分評價瞬態噪聲的結論。Li 等[5]通過語義細分方法，利用主成分分析對14個客觀指標進行降維，獲得了變電站噪聲的主要噪聲成分，并以此建立了主觀評價預測回歸模型。

為了進一步提升車內噪聲評價的準確率，近年來支持向量機或人工智能算法結合主觀評價的方法先后被運用到車內噪聲的主客觀預測研究中。申秀敏等[6]采用基于小樣本理論的支持向量機回歸方法建立了聲品質客觀參量與主觀評價結果的預測模型。Fang 等[7]基于支持向量機方法，通過客觀聲品質和主觀評價來研究電動車動力總成的聲品質。Liu 等[8]將支持向量機和遺傳算法結合，選擇了5 個心理聲學參數，以綜合滿意度指數作為主觀評價標準，分析柴油機的噪聲質量。Xing 等[9]采用小波包變換提取的加速特征作為輸入，使用神經網絡模型建立了響度和尖銳度的預測模型。Pietila等[10]比較了多元線性回歸和神經網絡方法的優缺點，探討了魯棒方法對提高聲品質評價模型精確度的影響。Zhang 等[11]結合神經網絡和粒子群優化算法提出了聲品質的預測模型，解決了主觀評價結果和客觀聲品質參數之間復雜的非線性問題。近年來，深度卷積神經網絡(Convolutional neural network,CNN)在語聲識別和計算機視覺領域取得了相當大的成功，因此Cao 等[12]將CNN 應用于城市噪聲識別，其識別效果比傳統的支持向量機更好。Huang 等[13]使用具有自適應學習速率樹的深度卷積神經網絡(ALRT-CNNs)進行純電動汽車的非平穩車內噪聲的主觀評價預測，避免了固定學習率下的造成的局部最優解，從而反映非平穩噪聲對人主觀評價的影響。

高速列車車內噪聲的時-頻特性是動態變化的。然而現有的客觀品質指標或者預測模型通常旨在通過單獨考慮時域或頻域來評價，很少能同時考慮聲音的時-頻變化特性，而聲學主觀評價的過程又會消耗大量的人力，因此，本文擬采用深度學習中的CNN 技術，研究建立預測精度高，且節省人力的高速列車車內聲學主觀聲品質的預測模型。

1 高速列車車內噪聲樣本采集

為了獲取高速列車在350 km/h 速度下的車內噪聲樣本，本文首先開展了高速列車車內噪聲搭載實驗研究。實驗在我國徐州至南京的高速鐵路上進行，測試車輛型號為CRH400BF。實驗采用德國Head Acoustics 公司的聲學人工頭設備(HMS IV，以下簡稱人工頭)。人工頭考慮了人體肩膀、頭部、耳廓等對聲場造成的影響，能模擬雙耳信號采集，從而使得采集的聲音更加符合人耳的聽覺感受。

車內噪聲測點及人工頭的布置根據ISO 3381：2005《鐵路應用-聲學-軌道車輛內部噪聲測量》來進行。坐姿情況下，人工頭的雙耳高度放置在座椅的垂直坐標，即座椅表面與靠背表面交線以上0.75 m 的位置。站姿情況下，人工頭人耳的垂直坐標在地面以上1.5 m 處。圖1 為一等座和二等座車廂內人工頭測點。本次實驗采集了車內19 個測點的噪聲數據，19個測點的位置如表1 所示，其中1～2為1 車，3～5為3車，6～8為4 車，9～11為4車與5車連接處，12～19為5車。每個測點記錄時間為30 s。

圖1 人工頭及測點布置示意圖Fig.1 Artificial head and measuring points

圖2(a)為高速列車車內各測點的總聲壓級值，可以看出車內噪聲強度較高，聲壓級普遍在65 dB(A)以上，其中10 號點風擋區域幅值最大，7號點二等座中部幅值最小。上述兩點的聲壓級1/3倍頻程頻譜如圖2(b)所示，可以看出高速列車車內不同區域的噪聲特性相差較大，在80 Hz以上，風擋區域的噪聲均高于二等座噪聲。主要的原因是風擋區域位于車廂的連接處，容易受到兩端轉向架噪聲的疊加影響，其高頻噪聲主要來源于轉向架區域噪聲。而車內低頻噪聲主要來源于地板的結構振動，因此7號點與10號點在低頻80 Hz以下噪聲幅值相差不大。

圖2 高速列車車內噪聲特性Fig.2 Noise characteristics of high-speed train

2 高速列車車內噪聲主觀評價實驗

主觀評價實驗的主要步驟如圖3所示。

圖3 主觀評價實驗主要步驟Fig.3 Key steps of subjective evaluation

(1)噪聲回放

從實驗采集到的車廂內各測點聲音信號中截取有代表性的樣本進行主觀評價實驗和客觀聲品質分析。每段聲音樣本持續時間不宜過長，否則會引起被試者聽聲疲勞；也不宜太短，否則聽聲被試需要反復播放聲音樣本，影響主觀評價的準確性。因此，本文主觀評價聲音樣本時長定為5 s，并保證實驗過程中的人為噪聲不在所選的樣本中。聲音樣本的截取在Head Artemis 軟件中進行，以保證無損轉換。

實驗在專業聽聲室中進行，使用Head LabP2均衡器進行回放，并搭配一對一標定過的Sennheiser HD600 型頭戴式耳機，能夠補償聽聲設備在回放過程中的頻響失真情況，并避免聽聲環境對評價結果產生影響。

(2)選擇受試者及評價方法

本次評價實驗征集了26名受試者，其中男女比例1：1，年齡在20～60 周歲之間，體重在50～90 kg之間，全部為聽力正常者。因為受試者都有過較多乘坐火車和從事振動噪聲研究工作的經驗，主觀評價方法采用語義輔助的等級評分法，相關介紹可參考文獻[14]。舒適度評價等級表如表2所示。

表2 聲品質主觀評價等級評分表Table 2 Subjective evaluation scores with explanation

評價實驗由每位受試者在消聲室內單獨進行。實驗開始前，首先對每位受試者說明實驗的目的，以及操作設備的方法。然后讓每位受試者先進行試聽并進行打分練習，熟悉打分過程。待受試者準備充分之后，對受試者播放19 個噪聲樣本(隨機順序)，由受試者做出舒適度評價并記錄。待19 個噪聲樣本播放完畢，獲得第一組評分，再重復進行一次播放，然后獲得第二組評分。

(3)評價結果分析

每位評價者對19個樣本都進行了兩次評價，針對每個評價者兩次打分結果可以采用Spearman相關系數進行分析[15]，其計算方法如下所示：

其中，r為Spearman相關系數，n是樣本數，Xi和Yi分別是兩變量的秩。

表3 為每位受試者的Spearman 相關系數。理想條件下，一個評價標準不變的受試者對同一樣本應當做出相同評價，從而每位受試者兩次評價之間的相關系數應當為1。根據相關文獻[15]，一般相關系數高于0.6就被認為具有比較強的相關性。其中5號、15號和22號受試者得出的評價結果相關系數低于0.6，說明其對同一樣本得出評價的結果一致性較差，其主觀評價穩定程度不夠高，因此予以剔除。

表3 評價者Spearman 主觀評價相關系數Table 3 Spearman correlation coefficients of each listener

主觀評分結果如圖4(a)所示，評價較低的區域主要集中在車廂之間連接處區域，其中10號點正好位于風擋區域，評分最低，臨近的9 號和11 號點評價也較差；評價最高的區域則位于7 號點，位于二等座車廂中部。圖4(b)展示了部分測點的統計結果，可以看出大部分評價者的評價分數都比較集中，如7 號點和10 號點。評價者的評分均較為集中，說明評價者對舒適性的評價標準較一致，但是1 號點司機室也存在評價相差較大的情況。對比主觀評價結果和車內噪聲A 計權聲壓級的結果可以看出，A 計權聲壓級最大的位置的評價最差，A 計權聲壓級最小的位置評價最好，說明A 計權方法在一定程度上能夠預測主觀評價的極值。但是對于車廂內的(如3 號點)二等座這樣的位置卻沒有很好的預測效果，3 號點的A 計權聲級比1 號點和2 號點都高，但是其評價卻不是最低，甚至與1 號點評價相近。其主要原因可能在于3 號點的噪聲頻率分布特性以及動態時-頻特性影響了受試者的評價，因此導致A 計權聲壓級不能取得較好的評價效果。

圖4 主觀評價結果Fig.4 Results of subjective evaluation

3 基于聲品質客觀參數的車內聲學舒適性預測建模

3.1 客觀聲品質參數分析

客觀聲品質參數有很多，但是目前有國際統一標準的只有響度，而尖銳度則有德國標準，另外較常用的客觀參數還有粗糙度和抖動度。為了研究聲品質參數和聲學舒適性主觀評價的相關性，本文選取了響度(Moore-Glasberg 法)、尖銳度(DIN45692法)、粗糙度(Aures法)和抖動度(Fastl方法)這4 個聲品質客觀參數對車內噪聲樣本進行分析。響度計算使用Moore-Glasberg 方法可以直接利用快速傅里葉變換的結果，將每一個頻率點都用于特征響度計算，響度結果更準確。尖銳度的計算需要考慮響度，因此為了減少指標之間的相互影響，尖銳度選擇德國標準DIN45692 中的計算方法，其默認使用Zwicker 響度進行尖銳度計算。粗糙度和抖動度的計算方法沒有統一標準，因此分別選擇較為權威的Aures 方法和Fastl 的方法以減少影響。部分樣本的聲品質客觀參數值如表4 所示。繪制出各聲品質客觀參數與主觀評價結果的相關散點圖，結果如圖5所示。

表4 部分測點的客觀聲品質參數Table 4 Sound quality objective parameters of some measuring points

圖5 主觀評價與聲品質客觀參數散點回歸圖Fig.5 Scatterplots of subjective evaluation and sound quality objective parameters

基于Spearman 相關系數進行分析，進一步分析聲品質主觀評價與客觀聲品質參量之間的相關性，結果如表5 所示。從表5 可以看出，響度與車內噪聲主觀舒適性的負相關值最大，達到了-0.88，說明響度對主觀評價影響較大，尖銳度和粗糙度次之，抖動度的負相關性最小。

表5 主觀評價與各客觀指標之間的相關性Table 5 Correlation between subjective evaluation results and sound quality objective parameters

3.2 BP神經網絡預測模型

為了建立起客觀聲品質參數與主觀聲品質之間的映射關系，本文采用BP 神經網絡，根據Spearman相關性分析的結果，選擇響度、尖銳度、粗糙度、抖動度作為網絡輸入，以主觀評價結果作為輸出，研究建立基于聲品質客觀參數的車內聲學舒適性預測模型。

圖6 主觀評價結果與BP 神經網絡預測值Fig.6 Subjective evaluation results and BP neural network model prediction value

4 基于CNN的聲品質預測模型研究

4.1 CNN

由于響度、尖銳度等心理聲學參數只能表征噪聲品質某個方面的特征，無法真實反映車內噪聲的物理特性，所以基于上述參數的預測模型不能很好地指導車內聲學舒適性的優化，且主觀評價預測精度也還有待提高。

CNN 是用于圖像識別等計算機視覺任務的算法模型。使用CNN構建主觀評價預測模型，可以將車內噪聲信號的時-頻分布圖作為輸入參數，相較于傳統使用時域或者頻域得到的評價指標，可以同時考慮聲音的時域和頻域特性，增加模型的預測準確度。典型的CNN 由以下部件構成：輸入層、卷積層、激勵層、池化層、全連接層和輸出層等。從輸入到輸出的中間進行處理的計算層都稱之為隱含層，CNN中每個神經元的運算過程如下：

其中，act()表示激活函數，θ是對神經元加權值，b是加偏置。

卷積層是CNN 最重要的組成部分，通過卷積層對輸入數據進行處理，一個卷積核能得到某一個特征。如果輸入的數據的大小為w×h，卷積核的大小為k×k，輸出的數據大小為w′×h′，步長為s，則輸出和輸入的關系如式(4)和式(5)所示：

由于經過多個卷積操作之后，會產生很大的數據量，將增加網絡的訓練難度。為了在減少計算量的同時防止過擬合的出現，可通過池化層進行降維，減少參數量。全連接層中每個神經元和上一層中的所有節點相連，會將傳遞過來的數據拉伸成n×1 的列向量，因此全連接層的參數也是最多的一層。

4.2 CNN配置參數

神經網絡參數的選擇并沒有固定方法。一般說來，內核越多，過濾的類型也就越多，意味著預測效果越好；而層數越多，意味著CNN 模型更加完善。但是，內核和層數越多，消耗的計算資源也就越多，計算的時間也就越長，因此需要綜合考慮。本文根據Ferreira 等[16]的相關文獻設計了如圖7 所示CNN主觀預測模型。

圖7 CNN 主觀評價預測模型Fig.7 CNN prediction model

4.3 訓練結果

考慮到CNN 模型所需的大量數據，每個車內噪聲樣本都分為多個1 s 的片段。因此，每個記錄的350 km/h 時速車內噪聲信號可被分成30個噪聲樣本(每個樣本對應相同的主觀評估得分)，總共獲得570 個噪聲樣本，將所有樣本劃分為80%的訓練樣本(456 個)以及20%的檢驗樣本(114 個)。然后，將訓練樣本輸入到CNN模型中，獲得的結果如圖8所示。從結果上看，在經過100次迭代之后，CNN模型的準確度達到了94.5%。同時表6 給出了準確度矩陣，從中可以看出準確度最低的地方出現在對于‘非常不適’的評價(91.1%)。

圖8 訓練過程和訓練準確度Fig.8 Training progress and accuracy

表6 準確度矩陣Table 6 Accuracy matrix

相比于BP 神經網絡，采用CNN進行主客觀預測，準確度更高。該主客觀預測模型一方面可以用于車內噪聲主觀評價預測，從而避免組織主觀實驗而浪費大量的人力和物力；另一方面由于模型輸入是具有真實物理意義的聲學時-頻分布圖，因此還可以指導高速列車車內聲品質的優化設計。

5 結論

本文基于聲學人工頭設備，獲取了高速列車在350 km/h速度下不同車廂、不同區域的雙耳噪聲樣本，對車內的主客觀聲品質評價和預測進行了系統研究，主要結論如下：

(1)高速列車車內噪聲存在明顯的低頻特性，不同區域的噪聲幅值差別較大。噪聲幅值最高的區域在風擋，最小的區域在客室中部。在客室內二等座一位端的噪聲往往相對于中部以及二位端要高。

(2)根據A 計權聲壓級和主觀評價結果，A 計權聲壓級可以很好地預測主觀評價最好以及最差的區域，對于客室內二等座區域預測效果較不佳。原因可能在于客室內噪聲的頻率分布以及動態時-頻特性會影響受試者的評價，因此導致A 計權聲壓級不能取得較好的評價效果。

(3)基于Spearman 相關系數分析了客觀聲品質參數與主觀評價結果的相關性，發現主觀評價分數與車內噪聲的響度負相關系數最大，而與抖動度的負相關系數最小。

(4)建立了基于CNN 的聲品質預測模型，將同時包含車內噪聲時域和頻域信息的時-頻分布圖作為模型輸入，模型更具有真實物理意義，預測精度比BP 神經網絡模型更高，更適宜用于指導高速列車車內聲品質的優化設計。