999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN和LSTM融合特征提取的車內聲品質評價模型研究

2022-10-12 10:27:06楊禮強王攀王杰
汽車工程學報 2022年5期
關鍵詞:評價模型

楊禮強,王攀,王杰

(1.重慶大學機械與運載工程學院,重慶 400044;2.作業幫教育科技(北京)有限公司,北京 100085)

聲品質是一款汽車脫穎而出、吸引消費者的重要因素之一,其科學高效的評價是汽車噪聲、振動與 聲 振 粗 糙 度(Noise、Vibration、Harshness,NVH)性能開發設計的關鍵。通過建立聲品質客觀評價模型來替代專家評審團做出符合人類主觀感受的評價和分類,可以克服聽音試驗評價的缺點,有效節省成本和時間。

國內外研究者根據不同類型的汽車噪聲,如車內噪聲、汽車關門聲、發動機噪聲、汽車加速噪聲等,從多元線性回歸、支持向量機、BP神經網絡和小波神經網絡等方法中選用一種來構建聲品質評價模型,這些方法都用到了物理聲學指標和客觀心理聲學參數,高度依賴于大量的、復雜的聲學理論和經驗知識。前3種方法通常在響度、尖銳度、粗糙度、波動度、A計權聲壓級、AI指數、主沖擊時間、低頻延續時間、抖動度、峰值頻率、語音清晰度和言語干擾級等聲學參數中,選用多個參數對噪聲樣本做預處理。基于小波神經網絡法,有的研究者引用維格納-威爾分布的時頻分析方法,建立聲品質參量SQP-RW,以此參量輸入小波神經網絡來預測汽車聲品質;有的研究者為加快聲品質評價模型的計算速度,使用噪聲信號的能量、均值和標準差對響度、尖銳度、粗糙度、聲調做出預測,采用這4個參數對噪聲樣本做預處理。

采用深度學習法建立車內聲品質評價模型不僅不需要高度依賴于復雜的聲學理論和經驗知識,還可以提取某些可能的未知深層次特征,使最終的聲品質評價模型具有理想的預測準確度。首先使用對數梅爾頻譜和時頻遮掩相結合的方法對噪聲樣本做預處理;然后建立CNN和LSTM相融合的特征提取模塊,以及使用全連接和Softmax輸出單元組合搭建分類器模塊;最后借助混合輸入得到大量樣本對所建立的評價模型進行訓練,使其具備理想的精度。

1 車內噪聲測試與主觀評價

1.1 車內噪聲數據采集

汽車行駛過程中會產生發動機噪聲、輪胎噪聲和風振噪聲等,各種噪聲經過不同的途徑傳遞到車內,在較為封閉的空間內互相疊加和反射形成了車內噪聲。車輛型號、車速以及乘坐位置等因素都會影響駕乘者坐在車內的聲音舒適性,這些因素在設計車內噪聲采集試驗時起到了指導性作用。

為保證車內噪聲能夠被真實有效地記錄到聲音樣本中,在進行噪聲采集試驗前對整車的各個系統進行了嚴格的檢查,確保了各系統都處于正常工作狀態且無異響。車內噪聲采集試驗場地是平滑干燥、無雜物、往來車輛少的硬地路面,周圍沒有高層建筑物,試驗當天氣溫為16~22℃,沿測試路線于1.2 m高度測得風速為1.7~2.0 m/s,滿足GB/T 18697—2002《聲學-汽車車內噪聲測量方法》規定的測試環境。依據國標對傳聲器的安裝要求,將傳聲器安裝在座椅頭枕靠近駕駛員和后排乘員左右耳的位置,且傳聲器以最大靈敏度的方向水平指向行駛方向,調節駕駛員座椅的靠背,使其處于垂直位置。傳聲器在車內的安裝位置如圖1所示。

圖1 傳聲器的車內安裝位置

當車輛按照預設的速度勻速穩定行駛時開始采集車內噪聲信號,且此時變速器擋位均處于最高擋位。最終獲得5輛不同品牌乘用車在60、80、100、120 km/h車速下的車內不同位置噪聲樣本。

1.2 車內噪聲主觀評價

主觀評價試驗組織了25位來自振動噪聲領域的研究者進行聽音試驗,其年齡分布在22~45周歲之間,平均年齡為28歲。使用類別判斷法作為主觀評價方法,并對評審團進行聲品質的知識培訓以及正式試驗前的聽音訓練。使用煩躁度作為評價試驗的聲品質指標,參考韓國現代公司提出的等級劃分法,將評價指標由低到高分為很差(0~0.2)、差(0.2~0.4)、合格(0.4~0.6)、良好(0.6~0.8)和很好(0.8~1)5個等級供評審員選擇。評價試驗在具有良好隔聲效果的實驗室內進行,回放設備采用高保真解碼器與某品牌高保真耳機組合,回放軟件使用Simcenter Testlab軟件下的Jury Testing模塊。評分結束后使用皮爾遜相關分析法對評價分值進行檢驗,剔除相關系數低于0.6的3位評價者的主觀評分,最終獲得37個合格的噪聲樣本主觀評價。

5類噪聲樣本的柱狀圖,如圖2所示。由圖可知,各類噪聲樣本的數量不一致,其中“很好”的噪聲樣本數量最少,為了平衡各類噪聲樣本的數量以及增加訓練樣本數量,對噪聲樣本的長度進行切割,每個訓練樣本長度為4 s。

圖2 各類噪聲樣本的數量

2 車內聲品質評價模型的構建

基于CNN和LSTM融合特征提取的車內聲品質評價模型的網絡結構,如圖3所示,由預處理層、CNN層、LSTM層和分類器組成,噪聲樣本首先經過對數梅爾頻譜和時頻遮掩的預處理,其次進入標準卷積網絡和空洞卷積網絡,接著把得到的三維數組扁平展開成一維數組進入LSTM網絡,之后進入分類器獲得預測概率值序列,最終輸出最大概率值所對應的噪聲樣本評價等級。

圖3 車內聲品質評價模型的網絡結構

2.1 預處理層

對噪聲樣本做預處理是為了把噪聲樣本的一維波形數據轉換為高維數據,以及增強數據的特征,以助于CNN和LSTM提取其中深層次特征。本文采用對數梅爾頻譜和時頻遮掩相結合的方法對噪聲樣本做預處理,如圖4所示。

圖4 車內聲品質評價模型的預處理過程

2.1.1 對數梅爾頻譜

梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)能夠獲取音頻數據中符合人耳對聲音感受的頻率信息,有助于在深度學習中進行卷積操作和特征提取。MFCC的提取主要包括梅爾濾波和倒譜分析,后者由于刪除了信息和破壞空間信息,不適用于深度學習。省略倒譜分析之后便得到對數梅爾頻譜,其提取流程為:輸入噪聲樣本,先進行預加重、分幀和加窗,然后做短時傅里葉變換得到功率譜,之后使用梅爾濾波器濾波,再取對數便得到對數梅爾頻譜,圖4 b即為對數梅爾頻譜。梅爾頻率與物理頻率的轉換公式如式(1)所示。

式中:為梅爾頻率,Hz;為物理頻率,Hz。

2.1.2 時頻遮掩

時頻遮掩是一種數據增強的方法,通過故意使用受損數據來防止模型過擬合,有助于訓練出更簡單的網絡,加快網絡的收斂速度。它包括頻率遮掩和時間遮掩兩個部分,具體操作是把對數梅爾頻譜指定的時間區間、頻率區間內的數值變為零值,如圖4 c所示。

2.2 CNN層

CNN是深度學習的一類網絡結構,多用于圖像、語音和視頻等的分類和識別,它通常由標準卷積或空洞卷積、激活和池化構成,有時為了防止模型出現過擬合和加快訓練速度,在卷積和激活之間會使用批量歸一化,如圖5所示。

圖5 CNN層的網絡結構

2.2.1 標準卷積與空洞卷積

卷積的過程是以時頻遮掩后的對數梅爾頻譜為輸入,將卷積核在頻譜上掃描,累加對應項相乘得到輸出,如式(2)所示。

式中:()為輸入;()為卷積核;()為輸出;為步長。

空洞卷積在標準卷積中添加零值來擴大卷積核尺寸,使其獲得更大的感受野,從而更好地提取特征。空洞卷積的尺寸由膨脹系數(Dilation Factor,DF)來調整,膨脹系數為在卷積核相鄰參數中填充(DF-1)個0。可將標準卷積看作是膨脹系數為1的特殊空洞卷積。空洞卷積的輸出定義為:

式中:、分別為輸入特征圖的長和寬;(,)為該特征圖上(,)位置的特征值;DF為膨脹系數;(,)為該特征圖經過空洞卷積后的輸出。本文的CNN采用一個標準卷積和一個膨脹系數為2的空洞卷積的組合。

2.2.2 批量歸一化、激活函數和平均池化

批量歸一化是數據預處理中的常用操作,可以統一各特征值的量綱,加快梯度的下降速度,從而縮短尋找最優值的時間。

激活函數的作用是給網絡引入非線性特性,增強模型的泛化能力。常用的激活函數有Sigmoid函數、Tanh函數和ReLU函數,本文模型中CNN和全連接的激活函數均使用ReLU函數,長短時記憶網絡的細胞狀態激活函數使用Tanh函數,門激活函數使用Sigmoid函數。

池化是對上一個特征圖進行一次數據過濾以減少網絡參數,包括平均池化、最大池化和全局池化,由于平均池化可以保留較多的信息,使提取的特征更完整,所以標準卷積和空洞卷積都采用平均池化,其運算過程為:首先,設置特征圖上的窗口尺寸和步長,然后在特征圖周圍添加零值,這一步在深度學習中稱為“padding”,接著計算特征圖窗口內所有數值的平均值,這個平均值作為下一個特征圖的數值,窗口從左到右、從上至下按預設的步長滑動,直至歷遍整個特征圖。

2.3 LSTM層

長短時記憶網絡屬于深度學習中循環神經網絡(Recurrent Neural Network,RNN)的一種網絡結構,多用于機器翻譯、天氣預測和音頻識別等具有時序特征的識別和分類任務。LSTM使用3種門決定細胞狀態中信息通過的比例,分別為遺忘門、輸入門和輸出門,如圖6所示。

圖6 LSTM層的網絡結構

遺忘門決定細胞狀態遺忘信息,其計算公式為:

式中:x為輸入門;h為上一時刻狀態;f為遺忘門;、分別為遺忘門的權重和偏置項。

輸入門決定增加信息到細胞狀態,其公式為:

更新細胞狀態:

輸出門決定輸出什么信息,其計算公式為:

式中:h為最終的輸出狀態信息;、分別為輸出門的權重和偏置項。

2.4 分類器

如圖7所示,模型的分類器由兩個全連接和1個Softmax輸出單元構成,第1個和第2個全連接的神經元數量分別為30個和5個,分類器最后輸出噪聲樣本被預測為5個評價等級的各個概率值,模型最終輸出的是最大概率值所對應的評價等級。

圖7 分類器的網絡結構

2.4.1 全連接和隨機失活

深度學習模型的分類器通常使用兩個全連接,第1個全連接用于進一步提取輸入數據的特征,第2個全連接則用于縮小最終的輸出大小,其神經元數量與模型的分類數量相等。每個全連接后面也需要使用激活函數來引入非線性特性。

隨機失活就是按設定的概率隨機去掉網絡當中的一些神經元,可降低模型對網絡中某些神經元的依賴性,增強模型的泛化能力,同時可減少訓練過程中的運算量,有效防止過擬合和加快訓練速度。本文在兩個全連接之間使用1個失活概率設置為0.5的隨機失活。

2.4.2 損失函數

損失函數用于評估預測值與真實值之間的差距,網絡反向傳播計算的目標就是使損失函數達到全局最小值,使預測值最接近真實值。本文的聲品質評價任務屬于多分類任務,選用分類交叉熵作為損失函數,如式(10)所示。

式中:為種類數量;為樣本評價等級向量,如果類別是,則y=1,否則等于0;p為神經網絡的輸出,指預測類別為的概率,由選定的輸出單元計算得出。

2.4.3 Softmax輸出單元

Softmax函數是一種常用于多分類任務的輸出單元,能表示個不同類別的概率分布,其計算公式為:

式中:y為車內噪聲樣本被分類為第類的概率;xx為Softmax單元的輸入,即第2個全連接的個輸出。由于上文將車內噪聲分為5個評價等級,所以值為5。

3 評價模型的訓練與驗證

本文的車內聲品質評價模型是在Matlab Deep Network Designer環境下建立的,首先使用訓練集尋找模型的最佳網絡參數,然后應用驗證集檢驗每次迭代訓練后模型的預測準確度,訓練全部結束后使用測試集評估模型的性能。深度學習模型的訓練不僅需要大量的樣本,而且超參數的選擇對最終訓練出來的模型性能產生重要的作用。混淆矩陣是深度學習中常用于測試模型性能的方法,可以直觀地看出各類別和全部類別的預測結果。

3.1 評價模型的訓練

3.1.1 混合輸入和超參數

混合輸入通過對同一數據集的兩個樣本和目標值進行插值獲得更多的樣本,從而克服因樣本數量少而導致訓練過程中出現過擬合的缺點,理論上通過這種方法可獲得無窮多個樣本。本文使用混合輸入獲取訓練集和驗證集,圖4 a為通過混合輸入獲得的噪聲樣本波形圖。

優化器、學習率、L2正則化系數、最小批次數量、訓練集和驗證集的樣本數量等超參數對模型最終的預測準確度具有非常重要的影響。可供選擇的優化器有SGDM、RMSProp和Adam,由于Adam訓練速度較快、收斂性更好,所以選擇Adam作為優化器,與之相對應的學習率通常使用0.001。L2正則化是一種有效防止過擬合的方法,它在權重的損失函數后面添加1個懲罰項,懲罰項前面的系數就是L2正則化系數,也稱為權重衰減系數。最小批次是訓練集的子集,用于每次迭代中評估損失函數的梯度并更新權重。訓練集用于更新模型的網絡參數,訓練集的樣本數量太少,容易導致訓練出來的模型過于簡單而出現欠擬合現象,訓練集的樣本數量太多,又會使模型過于復雜而出現過擬合現象,所以需要選擇合適的訓練集樣本數量。驗證集用于評估不同網絡參數下模型的性能,根據模型在驗證集上的效果選擇是否停止訓練,它的數量需要與訓練集保持一定的比例,一般選擇3∶7或2∶8的比例,本文選擇后者的比例。表1列舉了超參數的選取情況。

表1 超參數的選擇

3.1.2 模型的訓練結果

如圖8所示,在共12輪的訓練過程中,訓練損失曲線除了在第11輪時有所回升,總體上穩定下降,最終模型的訓練損失下降至0.728;訓練準確度曲線在1~3輪快速上升,3~6輪經過大幅下降后大幅回升,6~12輪以較小的波動幅度緩慢上升,訓練準確度曲線總體上呈現波動上升的趨勢,最終模型的訓練準確度達到了96.88%。訓練損失和訓練準確度的最后結果說明評價模型使用訓練集學習到了理想的網絡參數,使模型預測的2 160個訓練樣本評價等級與真實評價等級總體上大致接近,同時也反映了CNN和LSTM共同提取到了噪聲的深層次特征,使分類器能對大部分噪聲樣本做出正確的分類。

圖8 訓練準確度與訓練損失曲線

3.2 評價模型的驗證

對模型的驗證分為兩個部分,第1個部分使用555個噪聲樣本作為驗證集對模型進行驗證,考察其總體準確度;第2個部分基于混淆矩陣的方法,使用30個樣本作為測試集查看模型對每一類樣本的分類精度。

第1部分驗證的結果如圖9所示,在0~12輪過程中驗證損失穩定下降,最終降至0.681;驗證準確度在第3輪之前快速上升,之后緩慢爬升,在第8輪后波動變化,驗證準確度基本保持不變,70明模型的性能基本穩定下來了,最終的驗證準確度為93.69%。

圖9 驗證準確度與驗證損失曲線

第2部分驗證的結果如圖10所示,從長度為4 s的真實噪聲樣本集中,每一類隨機挑選6個,總共30個噪聲樣本作為測試集輸入已訓練好的評價模型,獲得預測評價等級與真實評價等級組成的混淆矩陣。混淆矩陣的行代表預測評價等級,列代表真實評價等級,對角線上的數字和百分比為各類噪聲樣本預測正確的樣本數量和預測準確度,非對角線上的數字和百分比則是分類錯誤的樣本數量和預測偏差度。從混淆矩陣可以看出,有1個真實評價等級為“差”的噪聲樣本被分類為“很差”,有3個真實評價等級為“良好”的噪聲樣本被分類為“很好”,這4個噪聲樣本均被分類于相鄰的評價等級,與真實評價等級差距不大,其余的噪聲樣本均被正確分類,表明模型對“很差”、“合格”和“很好”樣本預測準確度最高。

圖10 評價模型的混淆矩陣

總體來說,評價模型的預測結果與主觀評價結果有著很高的吻合度,能夠用于車內噪聲的聲品質評價。

4 結論

本文基于深度學習法建立了車內聲品質評價模型,該模型由預處理層、CNN層、LSTM層和分類器組成。通過研究得出以下結論:

(1)使用對數梅爾頻譜的方法把一維的波形噪聲變換成二維的頻譜,同時使用時頻遮掩法增強數據的特征,為模型的CNN層、LSTM層和分類器提供更多、更強的特征信息。

(2)評價模型在訓練集的訓練之下獲得了96.88%的訓練準確度,說明模型已獲得理想的網絡參數,使模型對大部分樣本的評價等級預測正確。

(3)在驗證集的檢驗下,評價模型的驗證準確度為93.69%,使用測試集對評價模型進行評估,發現評價模型的預測結果與主觀評價結果具有很高的吻合度,證明基于CNN和LSTM融合特征提取的車內聲品質模型具有足夠的精度,可用于車內聲品質的評價。

猜你喜歡
評價模型
一半模型
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
保加利亞轉軌20年評價
主站蜘蛛池模板: 54pao国产成人免费视频| 中文字幕亚洲第一| 久久久久亚洲AV成人人电影软件| 国产麻豆精品在线观看| 国产乱码精品一区二区三区中文 | 亚洲日本中文字幕天堂网| 亚洲经典在线中文字幕| 精品91在线| 中文天堂在线视频| 亚洲第一天堂无码专区| 日本久久久久久免费网络| 亚洲国产成人超福利久久精品| 亚洲成年人网| 日本道中文字幕久久一区| 欧美亚洲一二三区| 色欲不卡无码一区二区| 国产精品久久久精品三级| 精品三级在线| 久久精品人人做人人综合试看| 成人福利在线免费观看| 国产欧美另类| 日韩国产精品无码一区二区三区 | 国产精品女同一区三区五区| 久久a级片| h视频在线播放| 婷婷综合色| 欧美综合区自拍亚洲综合绿色| 亚洲一区二区精品无码久久久| 国产三级视频网站| 国产永久免费视频m3u8| 国产视频a| 久久国产精品麻豆系列| 女人18一级毛片免费观看| 美女免费精品高清毛片在线视| 巨熟乳波霸若妻中文观看免费| 亚洲男人的天堂在线观看| 欧美黄色网站在线看| 国产成熟女人性满足视频| 91精品免费高清在线| 在线观看国产黄色| 国产一在线| 国产一线在线| 一级毛片不卡片免费观看| 99精品在线看| 人人艹人人爽| 国产成人精品一区二区秒拍1o| 黄色a一级视频| 免费一级毛片在线观看| 少妇露出福利视频| 国产裸舞福利在线视频合集| 国产中文一区a级毛片视频| 9cao视频精品| 久久人与动人物A级毛片| 制服丝袜无码每日更新| 色婷婷在线影院| 国产在线观看第二页| P尤物久久99国产综合精品| 国产精品永久久久久| 91福利免费视频| 原味小视频在线www国产| 国产99精品视频| 日韩小视频在线观看| 黄色不卡视频| 国产精品无码制服丝袜| 成人字幕网视频在线观看| 亚洲a级在线观看| 中文国产成人精品久久| 亚洲国产精品一区二区第一页免| 国产区网址| 久热中文字幕在线| 国产欧美精品午夜在线播放| 91偷拍一区| 国产午夜小视频| 伊人久久精品亚洲午夜| 欧美成人h精品网站| 啪啪啪亚洲无码| 国产黄色片在线看| 精品国产三级在线观看| 91福利免费| 看国产一级毛片| 中文字幕亚洲精品2页| 婷婷五月在线视频|