













摘要: 為提高多聲音事件檢測任務的性能,本文深入研究速動壓縮非對稱諧振器級聯CARFAC 數字耳蝸模型,并提出了基于聽覺融合特征的多聲音事件檢測方法. 該方法首先利用CARFAC 提取混疊聲音的神經活動模式圖NAP,然后將NAP 與GFCC 拼接后生成融合聽覺特征,并將其送入CRNN 神經網絡進行全監督學習,以實現對城市聲音事件的檢測. 實驗表明,在低信噪比且重疊事件較多的情況下,融合聽覺特征較單獨的NAP、MFCC 以及GFCC 等特征具有更好的魯棒性和多聲音事件檢測性能.
關鍵詞: 數字耳蝸模型; 神經活動模式; 融合聽覺特征; 聲音事件檢測; 四折交叉驗證
中圖分類號: TP391. 4 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 043006
1 引言
在嘈雜的雞尾酒會中,盡管同時存在許多不同的聲音,例如:音樂聲、談話聲以及笑聲等,人們仍然可以對這些聲音進行分類識別,并專注于自己感興趣的聲音,這一現象被稱為“ 雞尾酒會效應”[1]. 可見,模擬人耳聽覺系統實現對聲音信號的高效處理具有重要的意義.
人耳聽覺系統主要由聽覺外周和聽覺中樞組成. 耳蝸作為聽覺外周系統中最為重要的部分,負責完成聲音信號到神經元電脈沖信號的轉換. 當聲音信號傳入耳蝸時,耳蝸內的液體隨之運動,基底膜也隨之發生振動,使得外毛細胞發束產生神經沖動,并刺激內毛細胞纖毛彎曲,從而改變電阻以產生動作電位[2]. 目前大多使用Mel 濾波器、Gammatone 濾波器等模型用于模擬人耳耳蝸,這些模型生成的MFCC、GFCC 等參數廣泛應用于語音識別、說話人識別等任務中,并取得了不錯的性能. 但這些聽覺模型僅對聲音在基底膜上的頻率分解進行了分析,并未考慮內、外毛細胞對整個耳蝸的作用,這使得在低信噪比的情況下,識別性能下降.
速動壓縮非對稱諧振器級聯(Cascade ofAsymmetric Resonators with Fast-Acting Compression,CARFAC)模型不僅考慮基底膜特性,還加入了內、外毛細胞以及耦合通道的自動增益控制模塊,提取的神經活動模式圖(Neural Activity Pattern,NAP)和穩定聽覺圖像(Stable Auditory Image,SAI)可應用于多種類型的語音處理項目. Xu等[3,4]基于CARFAC 設計了聲源定位系統,該系統利用CARFAC 對雙耳信號提取NAP,并計算雙耳NAP 中每個通道的瞬時相關性以生成聲音的相關譜圖,將所得相關譜圖送入CNN 神經網絡以回歸聲源方向角,實驗表明NAP 能較好實現聲音定位功能. Islam 等[5]對比了NAP 與其他特征參數在說話人識別中的性能,該項研究結果表明,針對低信噪比情況,NAP 特征參數較MFCC、FDLP、GFCC等參數在說話人識別中更具魯棒性,且識別率更優.
針對聲音事件檢測任務在聲音重疊和低信噪比下性能下降問題,本文基于數字耳蝸融合特征提出了聲音事件檢測方法. 該方法首先利用CARFAC 數字耳蝸模型模擬人耳耳蝸,對混疊的聲音信號進行頻譜分析生成NAP,并將NAP 與GFCC 拼接后生成的融合聽覺特征送入CRNN 神經網絡進行全監督學習. 對比發現,該融合參數較MFCC、GFCC 等聲音特征有著更好的魯棒性和多聲音事件檢測性能.
2 聲音事件檢測
隨著語音識別、說話人識別等技術的發展趨于成熟,聲音事件檢測(Sound Events Detection,SED)也得到廣泛關注. SED 任務旨在分析不同的聲音信號,提取聲音特征用于識別聲音事件的種類,并檢測出事件發生的起止時間,如圖1 所示.
早期的SED 任務是基于語音識別方法實現的,利用幅度譜或者梅爾頻率倒譜系數作為聲音輸入特征,基于SVM、HHM 的算法作為學習聲音特征向量的分類器,從而識別出語音[6]. 但生活中發生的聲音事件通常是多個且重疊的,將這些方法應用于多重疊聲源或者復雜噪聲環境下的聲音事件檢測并不可靠. 隨著對人耳聽覺模型的深入了解以及深度學習的快速發展,不少語音處理相關任務得到進一步突破. 通過學習人耳結構,模擬人耳對聲音的處理以獲得更為精細、更具分辨能力的聲音特征. 同時將前饋神經網絡、卷積神經網絡CNN、循環神經網絡RNN 及其變體LSTM、GRU 應用于聲音事件檢測,尤其在低SNR 下,使得性能進一步得到提升[7]. Cakir 等[8]和Adavanne等[9]針對CNN 不能捕捉音頻段中的長時依賴性問題,將CNN 優秀的特征提取能力與RNN 捕獲時序信息的能力結合,提出了基于卷積循環神經網絡(Convolutional Recurrent Neural Network, CRNN)的多聲音事件檢測模型,得到良好的檢測性能.
3 特征參數提取
在SED 系統中,特征選取非常關鍵,優質的聽覺特征能加快神經網絡的訓練以及提高檢測性能. 目前最常用的音頻特征有幅度譜、MFCC、GFCC 等.
3. 1 MFCC 的提取
MFCC 特征參數在語音識別以及說話人識別等領域被廣泛運用. MFCC 依據人的主觀感知在頻域劃分臨界帶,從而構成Mel 濾波器組用于模擬人耳基底膜的頻率分解. 提取MFCC 參數的具體過程如下.
1) 首先對語音進行預處理(預加重、分幀、加窗等);
2) 之后通過FFT 將每幀語音映射到頻譜上進行分析,計算出每幀數據的譜線能量;
3) 通過Mel 濾波器組求得Mel 濾波能量;
4) 對Mel 濾波能量取對數后計算DCT.
MFCC 參數的計算如公式(1)所示.
式中S ( i,m ) 為第i 幀第m 個Mel 濾波器能量,n 為DCT 后的譜線.
3. 2 GFCC 的提取
GFCC 與MFCC 的提取過程相似,不同之處在于Mel 濾波器是在頻域上設置了一系列的三角形帶通濾波器,而GFCC 是利用Gammatone 濾波器組提取的特征. 每個Gammatone 濾波器的峰值較Mel 濾波器的三角峰值更加平緩,可用于解決濾波器能量不足的問題,能更好地體現聽覺濾波器組的相關特性. 此外,Gammatone 濾波器采用ERB 頻率尺度來劃分中心頻率,相比于Mel 頻率尺度更符合人耳聽覺感知的特征. Gammatone 濾波器可用1 個因果的沖激響應函數來描述其濾波特性,其時域表達式為:
gi (t ) = Ctn - 1 e-2πbi t cos (2πfi t + ?i )U (t ) (2)
式中1 ≤ i ≤ N, i 代表第i 個濾波器,n 為濾波器階數,C 為濾波器增益,bi 為衰減因子,f i 為濾波器的中心頻率,?i 為相位.
3. 3 NAP 的提取
CARFAC 主要包括4 個部分:CAR 基底膜模型、DOHC 外毛細胞模型、DIHC 內毛細胞模型以及AGC 環路濾波器,其結構如圖2 所示.
CARFAC 利用多個PZFC 零極點濾波器級聯模擬基底膜,以完成對聲音的頻率分解,單個濾波器傳遞函數見式(3).
式中g 為直流增益,r 為極點半徑參數. PZFC 濾波器通過改變零極點位置r,實現對阻尼系數的修改. 阻尼系數越小,該級濾波器頻率響應幅度越大.
DIHC 內毛細胞模型對基底膜的運動進行檢測以及半波整流,感知基底膜運動狀態并用作輸入. 利用高通濾波器抑制經耳蝸蝸孔短路反射產生的20 Hz 以下的頻率,同時進一步通過自適應非線性機制完成動態壓縮,將信號轉換為神經放電速率用于輸出,生成NAP 神經活動圖.
DOHC 外毛細胞模型通過基底膜的局部震動速率v,依照非線性NLF 函數曲線(如式(4)所示),對PZFC 濾波器中的零極點位置進行調整,以實現基底膜的頻率選擇非線性以及人耳聽覺動態范圍壓縮.
由4 個單級平滑濾波器級聯并聯構成的AGC環路濾波器,可以利用相鄰通道的增益來約定當前通道的增益,以實現通道間的耦合. 這種能力被稱為側向抑制,并廣泛應用于聽覺處理系統中[10-12]. AGC 環路濾波器輸出反饋參數b,該參數與NLF 非線性函數共同影響基底膜模型中PZFC濾波器的極點半徑,如式(5)表示,實現協調DIHC模型的期望輸出與濾波器所需阻尼因子的匹配,從而形成閉環回路.
r = rmin + drz (1 - b) NLF (v) (5)
其中rmin 為最小半徑參數,該參數與各級PZFC 濾波器的中心頻率CF 相關,可用于計算最大阻尼.參數drz 用于控制相對負阻尼( 1 - b ) NLF( v ) 對極點半徑r 的影響比例.
3. 4 融合聽覺特征的提取
實驗表明(如表2~表4 所示),GFCC 在無噪環境下進行多聲音事件檢測任務的性能較好,但在低信噪比下,檢測性能急劇下降. 而NAP 在低信噪比,且無多個聲音事件重疊時,檢測性能較好,但隨著重疊事件的數量增多,性能急劇下降.針對上述問題,本文提出將NAP 和GFCC 參數進行拼接融合,生成融合聽覺特征用于實現多聲音事件的檢測.
4 實驗模型
本實驗采用CRNN 神經網絡完成多聲音事件的檢測任務,結構如圖3 所示.
網絡由4 部分組成:第1 部分是特征提取,對每幀混疊聲音提取相應的特征參數,用作神經網絡的輸入. 不同特征參數的提取方法在第3 節中已介紹.
第2 部分由3 層二維卷積層組成,每層含有32個二維卷積核,卷積核大小為3×3. 卷積層從輸入的特征中學習位移不變特征,經過ReLUs 激活函數的非線性運算后,再通過池化核為2 的最大池化層來降低時頻分辨率.
第3 部分是1 層雙向的GRU 神經網絡,從上一層的輸出中繼續學習時頻結構,經過tanh 激活函數的非線性運算獲取深層信息輸入到線性層網絡中.
第4 部分是經過1 個全連接層對網絡提取的特征進行分類. 為實現多分類回歸任務,全連接層輸出節點數為N=8,并利用sigmoid 激活函數輸出,代表數據集中8 種不同的聲音事件發生的概率. 若該類事件發生的概率大于閾值0. 5,認為此事件發生.
5 實驗
5. 1 實驗環境
本實驗采用環境如下:windows 11 操作系統,CPU 使用i5-12490F,GPU 采用Nvidia GeforceRTX3060 12 GB,內存使用雙通道8 GB 3200 MHzddr4,硬盤采用512 GB SSD 和1 TB HDD. 深度學習開發環境為Pytorch1. 10. 2+cuda11. 8,安裝有numpy 1. 23. 3、scipy 1. 8. 0 包.
5. 2 實驗數據
實驗數據來源于TUT Sound Events 2018[13]聲音事件檢測與定位中提供的類別和時間標簽,對Urbansound8K[14]中的音頻信號降采樣為8 kHz后,利用該標簽合成每條語音. 根據最多可重疊的聲音事件數量,又分為ov1、ov2、ov3 這3 個數據集,分別表示同一時間最多可重疊事件數為1、2、3的數據集. 每個數據集中共有300 條時長30 s 的語音. 每條由8 個聲音事件類組成,分別為:狗吠、鉆井聲、槍聲、警笛、街頭音樂、手提鉆、引擎發動聲和汽笛聲. 將每個數據集中60 條語音用作測試集,剩下240 條語音通過四折交叉驗證[15]將原始數據分為4 組,不重復地抽取其中1 組的數據作為驗證集,將剩下3 組數據合成訓練集. 通過分組訓練得到4 個模型,將這些模型的訓練結果取平均,得到最終的結果,如圖4 所示. 此外,為研究不同信噪比下的檢測性能,對語音加入粉紅噪聲進行實驗.
5. 3 實驗參數
對于特征參數的提取,每條語音均采用幀長為32 ms,幀移為8 ms 進行分幀,窗函數選用漢明窗. 分幀后對每幀數據提取相應的特征參數,用作神經網絡的輸入.
對于神經網絡模型,設訓練輪數epoch=200,批處理大小Batch_size=256,學習率Lr=0. 0002,采用Adam 優化器,二分類交叉熵損失函數計算損失.
此外,為研究特征維度的選擇對實驗結果的影響,選擇在SNR=10 dB 且最多有2 個事件重疊的情況下,分別對32 維NAP+32 維GFCC、32 維NAP+64 維GFCC、64 維NAP+32 維GFCC、64維NAP+64 維GFCC、82 維+82 維的融合特征參數進行對比,實驗結果如表1 所示.
由表1 結果所示(評價指標見5. 4 節),對特征增加一定維度,可以提升檢測性能. 但隨著維度的繼續增加,相應的噪聲成分也會增加,且在一定程度上增加了模型的計算復雜度和訓練時長. 因此,本文選擇64 維NAP 和64 維GFCC 進行拼接,作為檢驗融合特征參數的標準.
5. 4 評價指標
對于SED 二分類任務,測出來是某類事件有無發生的情況,二分類模型中的個案預測有4 種結局:
1) 真陽性TP:預測事件發生,實際該事件發生;
2) 偽陽性FP:預測事件發生,實際該事件沒發生;
3) 真陰性TN:預測事件沒發生,實際該事件沒發生;
4) 偽陰性FN:預測事件沒發生,實際該事件發生.
F 如式(6)所示,其值越大越好. ER 用于表示檢測的錯誤率,表達式如(7)所示.
其中N ( k ) 為實際上聲音事件發生的總數,S ( k )、D ( k )、 I (k) 如下式所示.
S ( k )= min ( FN ( k ),FP ( k ) (8)
D ( k )= max ( 0,FN ( k )- FP ( k ) ) (9)
I ( k )= max ( 0,FP ( k )- FN ( k ) ) (10)
其中K 取所有測試語音的幀的總數,即以幀為單位計算F、ER,并計算出SED 評分,如式(11).SED 越低,性能越好.
SED =ER+(1- F)/2 (11)
6 實驗結果
圖5 和圖6 分別給出了是否引用四折交叉驗證下的訓練損失和驗證損失曲線. 可以看出,在未引入四折交叉驗證時,過擬合現象較為嚴重,出現訓練集損失下降,而驗證集損失上升. 引入交叉驗證后,過擬合現象得以改善.
表2~表4 給出了不同信噪比下,各個參數在ov1、ov2、ov3 測試集中的F、ER 以及總分SED. 在表2 中可以看出,在無噪情況下,隨著最多重疊事件數目的增多,基于NAP 的檢測性能急劇下降,而MFCC、GFCC 在多聲音事件重疊下檢測性能更高. 對比表3 和表4 中ov1 數據集下的單事件檢測性能,可以看出隨著信噪比降低,MFCC、GFCC 參數的檢測效果急劇下降. 而融合聽覺特征因結合有NAP 和GFCC 各自的特點,在低信噪比和多聲音事件重疊的情況下,有著更低的SEDscore,表現出更高的檢測性能.
7 結語
針對低信噪比下多聲音事件檢測的性能下降問題,本文基于數字耳蝸融合特征提出了多聲音事件檢測方法,該方法首先利用數字耳蝸模型提取混疊聲音的NAP 特征,將NAP 與GFCC 拼接后生成融合聽覺參數. 在本文合成的數據集中,融合聽覺參數在低信噪比以及聲音事件重疊數較多的情況下,擁有更低的SEDscore,說明該融合聽覺參數較其他特征參數擁有更高的魯棒性,可用于低信噪比下的多聲音事件檢測任務.
雖然融合聽覺參數具有良好的魯棒性,但對于多個混疊聲音的事件檢測任務,還有值得改進的地方,比如可以對混疊聲音進行一定程度地聲音分離后,再利用魯棒的聽覺融合特征對其進行識別與檢測. 為此,我們接下來會進行聲音分離方面的研究,力求應用于多聲音事件檢測任務中.
參考文獻:
[1] Bronkhorst A W. The cocktail party phenomenon: Areview of research on speech intelligibility in multipletalkerconditions[ J]. Acta Acust, 2000, 86: 117.
[2] Zhai H Q, Zhang J P, Wang D, et al. Survey on auditorymodel [J]. Mech Eng, 2014, 273: 19.[霍慧強, 張金萍, 王丹等. 聽覺模型綜述[J]. 機械工程師, 2014, 273: 19.]
[3] Xu Y, Afshar S, Singh R K, et al. A binaural soundlocalization system using deep convolutional neuralnetworks [C] //2019 IEEE International Symposiumon Circuits and Systems(ISCAS). Sapporo, Japan:IEEE, 2019: 1.
[4] Xu Y, Afshar S, Wang R, et al. A biologically inspiredsound localisation system using a silicon cochleapair[ J]. Appl Sci, 2021, 11: 1519.
[5] Islam M A, Xu Y, Monk T. Noise robust textdependentspeaker identification using cochlear models[ J]. J Acoust Soc Am, 2022, 500: 151.
[6] Shao J X, Ni J J. Let you understand speech recognitiontechnology[J]. China Inf Technol Edu, 2021,21: 75.[邵建勛, 倪俊杰. 帶你了解語音識別技術[J]. 中國信息技術教育, 2021, 21: 75.]
[7] Mcloughlin I, Zhang H, Xie Z, et al. Robust soundevent classfication using deep neural networks [J].IEEE-ACM T Audio Spe, 2015, 23: 540.
[8] Cakir E, Parascandolo G, Heittola T, et al. Convolutionalrecurrent neural networks for polyphonicsound event detection [J]. IEEE-ACM T AudioSpe, 2017, 25: 1291.
[9] Adavanne S, Politis A, Nikunen J, et al. Sound eventlocalization and detection of overlapping sources usingconvolutional recurrent neural networks [J]. IEEE JSTSP,2018, 13: 34.
[10] Shamma S. Speech processing in the auditory systemII:Lateral inhibition and the processing of speechevoked activity in the auditory nerve[J]. J AcoustSoc Am, 1985, 78: 1622.
[11] James E, Barros A K, Yoshinori T, et al. Speechenhancement by lateral inhibition and binaural masking[C]//Proceedings of the 2004 14th IEEE SignalProcessing Society Workshop Machine Learning forSignal Processing. Sao Luis, Brazil: IEEE, 2004,14: 365.
[12] Lu X G, Chen D W. Computational auditory modeland its application in robust speech signal recognition[ J]. Acta Acust, 2000(6): 492.[盧緒剛, 陳道文. 聽覺計算模型在魯棒性語音識別中的應用[J].聲學學報, 2000(6): 492.]
[13] Adavanne S, Nikunen J, Politis A, et al. TUTsound events 2018-ambisonic, reverbera-nt and reallifeimpulse response dataset [DB/OL].(2020-01-24)[2022-09-15]. https://doi. org/10. 5281/zenodo.1237703.
[14] Salamon J, Jacoby C, Bello J P. A dataset and taxonomyfor urban sound research [DB/OL].(2014-11-03)[2022-09-05]. https://zenodo. org/records/1203745.
[15] Wang X Q, Liu S, Li Q Y, et al. Classification anddiscrimination of surrounding rock of tunnel based onSVM of K-Fold cross validation [J]. Min MetalEng, 2021. 41:126.[汪學清, 劉爽, 李秋燕, 等. 基于K 折交叉驗證的SVM 隧道圍巖分級判別[J]. 礦冶工程, 2021, 41: 126.]
(責任編輯: 白林含)
基金項目: 國家自然科學基金聯合基金項目(U1733109)