林巧穎, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
與語音和音樂信號(hào)不同,場(chǎng)景相關(guān)的聲音信號(hào)攜帶著大量日常生活環(huán)境以及發(fā)生于其中的事件信息。由于音頻場(chǎng)景中大部分音頻信號(hào)為短時(shí)非平穩(wěn)信號(hào),不具備固定的音源,聲源復(fù)雜且音頻事件高度重疊,適用于語音與音樂分類的方法已不再適用音頻場(chǎng)景分類,因此音頻特征的有效提取以及基于深度學(xué)習(xí)的分類模型的建立對(duì)音頻場(chǎng)景分類任務(wù)至關(guān)重要。目前,研究能夠表現(xiàn)音頻場(chǎng)景中的典型示例的特征提取方法,并在此基礎(chǔ)上實(shí)現(xiàn)有效的場(chǎng)景分類已成為該領(lǐng)域的研究熱點(diǎn),其潛在的應(yīng)用領(lǐng)域包括機(jī)器人導(dǎo)航系統(tǒng)[1]、情境感知設(shè)備[2],以及可根據(jù)音頻場(chǎng)景進(jìn)行自動(dòng)模式切換的智能手機(jī)[3]。
傳統(tǒng)的用于音頻場(chǎng)景分類的特征提取模型大多借鑒語音信號(hào)處理和聽覺感知技術(shù),如梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)[4]。這類特征抗干擾性強(qiáng),但只能分析信號(hào)的短時(shí)特征,無法完整刻畫整個(gè)音頻數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),存在一定的局限性。一些學(xué)者提出利用對(duì)數(shù)梅爾頻譜特征(Log Mel Spectrogram)[5-7]保留高頻能量,從而對(duì)場(chǎng)景音頻中的大動(dòng)態(tài)范圍[8]進(jìn)行有效補(bǔ)充。然而,由于場(chǎng)景音頻信號(hào)是自然音頻信號(hào),存在較多的背景噪聲,頻率變化劇烈,且大多數(shù)頻譜能量位于低頻范圍[9],對(duì)數(shù)梅爾頻譜特征亦存在一定局限性。
在特征分類方面,一些研究人員提出用結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)(Recurrant Neural Network, RNN)和K-近鄰(K-Nearest Neighbor, KNN)準(zhǔn)則的分類器。此后,考慮到音頻樣本中音頻事件在時(shí)域上的演進(jìn),研究者又提出采用隱馬爾可夫模型(Hidden Markov Model, HMM)刻畫聲音頻譜分量在時(shí)域的上下文信息,從而提高識(shí)別精度。近年來,隨著深度學(xué)習(xí)的發(fā)展[10],基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分類模型被成功地引入場(chǎng)景分類領(lǐng)域。
最新的研究表明,特殊音頻事件的識(shí)別有助于提高音頻場(chǎng)景的分類準(zhǔn)確性[11]。此類音頻場(chǎng)景分類模型首先對(duì)音頻事件進(jìn)行檢測(cè),然后在此基礎(chǔ)上進(jìn)行音頻場(chǎng)景分類。由于音頻事件之間存在重疊且聲源數(shù)量未知,音頻事件的檢測(cè)相對(duì)較為困難。為了解決這一問題,文獻(xiàn)[12]提出了基于多示例學(xué)習(xí)的場(chǎng)景分類方法。傳統(tǒng)的訓(xùn)練方法中,音頻場(chǎng)景由單一的特征向量表示。而多示例學(xué)習(xí)(Multi Instance Learning, MIL)算法則是用示例包(包含多個(gè)特征向量)來表示目標(biāo)音頻場(chǎng)景,場(chǎng)景標(biāo)簽為示例包標(biāo)簽,而非示例包內(nèi)的具體示例。多示例學(xué)習(xí)旨在訓(xùn)練出基于場(chǎng)景示例包的分類器[13],該模型目前已成功應(yīng)用于音頻事件檢測(cè)[14-16]和鳥聲分類[17]等領(lǐng)域。
目前現(xiàn)有的算法仍無法實(shí)現(xiàn)像人耳那樣對(duì)聽覺場(chǎng)景準(zhǔn)確地分類,主要原因包括兩個(gè)方面:第一,現(xiàn)有的特征提取算法大多基于頻率的線性分隔,這與人耳基底膜的非線性頻率選擇特性不匹配,從而造成特征分辨率低下的問題;第二,沒有將人耳聽覺感知特性與多示例分析有機(jī)地結(jié)合,從而造成分類準(zhǔn)確率不高的問題。
為了解決以上問題,本文提出了基于耳蝸圖多示例分析的音頻場(chǎng)景分類模型(ASC-MIL)。首先,利用中心頻率信號(hào)呈對(duì)數(shù)分布的濾波器組對(duì)音頻進(jìn)行濾波并構(gòu)造耳蝸圖[18];然后,將耳蝸圖輸入VGGNet 網(wǎng)絡(luò)提取其深層語義特征;最后,對(duì)深層語義特征進(jìn)行多示例分析,捕捉其場(chǎng)景標(biāo)簽之間的潛在關(guān)系[19]。其中,在多示例分析方法的分類預(yù)測(cè)整合器中采用了平均池化方法,可以有效地保留音頻場(chǎng)景的整體特征以及音頻場(chǎng)景背景噪聲特征。在DCASE 2018 Task 1A 和DCASE 2019 Task 1A 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型取得了比文獻(xiàn)[12]更高的分類準(zhǔn)確率。
ASC-MIL 的模型框圖如圖1 所示,主要由基于耳蝸圖分析的特征提取模塊和基于多示例分析的分類模塊組成。

圖1 ASC-MIL 模型框圖Fig. 1 Block diagram of ASC-MIL model
在特征提取階段,為了模擬人耳聽覺感知特性,采用了文獻(xiàn)[18]提出的耳蝸圖分析方法。
首先,采用式(1)所示的等效矩形帶寬余弦濾波器(Equivalent Rectangular Bandwidth Cosine Filter)組成的濾波器組對(duì)輸入信號(hào)進(jìn)行濾波。


其次,從人耳感知特性上看,聲音信號(hào)的包絡(luò)攜帶可用于重建聽覺感知難以區(qū)分的信息,采用低通濾波器對(duì)各濾波器組的輸出進(jìn)行濾波以提取其包絡(luò)信息。
為了模擬耳蝸可以對(duì)不同程度的聲音進(jìn)行非線性壓縮的特性,對(duì)各濾波的包絡(luò)輸出進(jìn)行非線性壓縮處理,得到壓縮包絡(luò)。非線性處理如式(3)所示:

文獻(xiàn)[18]提出壓縮包絡(luò)的幅度在高頻部分取值通常很低,對(duì)聽覺感知特性的表征影響不大。因此,為了進(jìn)一步提高模型的計(jì)算效率,本文采用文獻(xiàn)[18]的處理方式,對(duì)壓縮包絡(luò)進(jìn)行采樣率為400 Hz 的降采樣處理。所得的音頻樣本聽覺感知特征記為X。
如圖1 所示,基于多示例分析的分類模塊由音頻示例生成器(Instance generator)、音頻示例檢測(cè)器(Instance detectors)以及分類預(yù)測(cè)整合器(Prediction aggregator)組成。

1.2.2 音頻示例檢測(cè)器 考慮到每個(gè)音頻場(chǎng)景包含多個(gè)音頻事件,為了捕獲多示例與多個(gè)音頻場(chǎng)景標(biāo)簽之間的潛在關(guān)系,采用文獻(xiàn)[20]提出的Subconcepts 層作為音頻場(chǎng)景多示例檢測(cè)器。假定每個(gè)音頻場(chǎng)景標(biāo)簽具有若干個(gè)Sub-concepts,而多示例檢測(cè)器中的Sub-concepts 層能夠模擬單個(gè)音頻示例與所有音頻場(chǎng)景標(biāo)簽的Sub-concepts 之間的匹配分?jǐn)?shù)。示例j與音頻場(chǎng)景l(fā)的第k個(gè)Sub-concepts 之間的匹配分?jǐn)?shù)記為ajlk,可由公式(4)計(jì)算:

為了防止過擬合,在每個(gè)卷積塊的二維卷積層后增加了舍棄概率為0.5 的Dropout 層。
實(shí)驗(yàn)分別采用DCASE 2018 Task 1A 和DCASE 2019 Task 1A 數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象。其中DCASE 2018 Task 1A 包含8 640 段采樣率為44.1 kHz、長(zhǎng)度為10 s 的來自6 個(gè)歐洲城市的機(jī)場(chǎng)、商場(chǎng)、巴士、地鐵站、街道-人行道、街道-機(jī)動(dòng)車道、廣場(chǎng)、電車、地鐵車廂、公園共10 個(gè)音頻場(chǎng)景的樣本,總時(shí)長(zhǎng)24 h。DCASE 2019 Task 1A 包含14 400 段采樣率為48 kHz、長(zhǎng)度為10 s 的來自12 個(gè)歐洲城市的10 個(gè)同樣音頻場(chǎng)景的樣本。DCASE 2018 Task 1A 和DCASE 2019 Task 1A 中訓(xùn)練集和驗(yàn)證集的數(shù)目之比分別為6 122∶2 518 和10 080∶4 186。

式(2)中采樣因子s表征了等效矩形帶寬余弦濾波器組中帶通濾波器分布的疏密程度。當(dāng)s分別取1、2、4 時(shí),相鄰帶通濾波器之間分別重疊50%、75%、87.5%。此外,s還決定了濾波器組所包含的低通濾波器與高通濾波器的個(gè)數(shù)。具體取值見表1。

表1 采樣因子取值對(duì)濾波器個(gè)數(shù)的影響Table 1 Effect of sample factor on the numbers of filters
為了在計(jì)算效率和特征分辨率之間進(jìn)行平衡,本文采用s=2 時(shí)的濾波器組對(duì)輸入進(jìn)行非線性頻率映 射。
考慮到某些出現(xiàn)概率極低的音頻事件可能對(duì)整段音頻的場(chǎng)景分類產(chǎn)生重大影響,文獻(xiàn)[21]采用對(duì)音頻樣本進(jìn)行分割的方法,將罕見音頻事件限制于少數(shù)音頻片段,從而降低對(duì)整段音頻場(chǎng)景的影響。因此,在數(shù)據(jù)預(yù)處理階段,本文首先對(duì)輸入音頻進(jìn)行分割預(yù)處理再進(jìn)行耳蝸圖特征提取。
2.3.1 音頻樣本切分長(zhǎng)度對(duì)模型性能的影響 音頻片段的長(zhǎng)度對(duì)模型性能有一定的影響,片段越短,音頻場(chǎng)景的分類準(zhǔn)確率相對(duì)越高。同時(shí),分割后的音頻片段所提取的耳蝸圖特征維度較小,系統(tǒng)處理速度快,具有較強(qiáng)的實(shí)時(shí)性。本文以DCASE 2018 Task 1A 數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,均以音頻時(shí)長(zhǎng)為2 s 的音頻片段進(jìn)行實(shí)驗(yàn),表2 示出了實(shí)驗(yàn)結(jié)果。

表2 音頻樣本切分長(zhǎng)度對(duì)模型性能的影響Table 2 Effect of audio samples segmentation length on model performance
2.3.2 特征提取方式對(duì)模型性能的影響 為了驗(yàn)證耳蝸圖特征提取方法對(duì)分類性能的影響,分別采用語譜圖(Spectrogram)、MFCC 以及耳蝸圖特征作為模型的輸入,表3 示出了實(shí)驗(yàn)結(jié)果。可以看出耳蝸圖特征優(yōu)于語譜圖和MFCC 特征。可能的原因是耳蝸圖特征能夠模擬人耳基底膜的頻率選擇特性,因此提高了特征的分辨率,能更有效地刻畫場(chǎng)景音頻的整體特征。
2.3.3 分類器的選擇對(duì)模型性能的影響 為了驗(yàn)證分類器對(duì)模型性能的影響,分別采用SVM、最大池化層(MaxPool)和平均池化層(AvgPool)作為分類器。表3 的實(shí)驗(yàn)結(jié)果表明,平均池化層在音頻場(chǎng)景分類任務(wù)中優(yōu)于最大池化層和SVM 分類器。可能的原因是平均池化層將音頻幀級(jí)的分類概率求平均得到音頻樣本的分類概率,在一定程度上解決了音頻事件頻移對(duì)場(chǎng)景分類的影響[19]。
2.3.4 音頻場(chǎng)景分類模型性能比較 為了進(jìn)一步驗(yàn)證ASC-MIL 模型優(yōu)于其他音頻場(chǎng)景分類模型,實(shí)驗(yàn)比較了2018 年DCASE Task1 Subtask B 官方基線模型[5]、文獻(xiàn)[12]提出的模型和ASC-MIL 模型的分類準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表3 所示。結(jié)果表明:(1)相較于2018 年DCASE Task1 Subtask B 官 方 基 線 模 型,ASC-MIL 模型在2018 Task 1A 和2019 Task 1A 數(shù)據(jù)集上分類準(zhǔn)確率分別提高了9.4%和16.5%;(2)相較于文獻(xiàn)[12]提出的模型,ASC-MIL 模型在2018 Task 1A 和2019 Task 1A 數(shù)據(jù)集上分類準(zhǔn)確率分別提高了2.1%與2.2%。

表3 基于多示例分析的音頻場(chǎng)景分類算法性能比較Table 3 ASC Performance comparison based on multi-instance analysis
性能提升的可能原因如下:(1) ASC-MIL 模型通過加深網(wǎng)絡(luò)結(jié)構(gòu)的方式在音頻特征的基礎(chǔ)上提取出更高層、抽象的語義特征,從而提高模型性能;(2)高級(jí)語義特征與多示例學(xué)習(xí)方法結(jié)合,在無需對(duì)具體音頻事件進(jìn)行標(biāo)注的情況下,可檢測(cè)到多示例與多標(biāo)簽之間的潛在關(guān)系[21],對(duì)場(chǎng)景分類有一定的幫助。
超參數(shù)K值表示每個(gè)音頻場(chǎng)景所檢測(cè)到的音頻示例數(shù)量的最大值。為了檢測(cè)音頻多示例檢測(cè)器中超參數(shù)K的取值對(duì)模型性能的影響,選擇2018 Task 1A 數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象。圖2 示出了ASC-MIL 模型采用不同K值時(shí)所得的分類準(zhǔn)確率結(jié)果,可以看出增加K值不一定會(huì)提高分類性能。可能的原因是,當(dāng)K值較大時(shí),模型在每個(gè)音頻場(chǎng)景中所學(xué)習(xí)的音頻示例檢測(cè)器的區(qū)分性可能會(huì)下降。模型在K=7 時(shí)達(dá)到最高分類準(zhǔn)確率。

圖2 多示例檢測(cè)器的K 值對(duì)模型性能的影響Fig. 2 Influence of K value of multi-detector on model performance
本文提出了一種結(jié)合人耳聽覺感知特性和多示例分析機(jī)制的音頻場(chǎng)景分類模型。該模型在特征提取階段,利用中心頻率呈對(duì)數(shù)分布的濾波器組對(duì)輸入音頻進(jìn)行濾波以模擬人耳基底膜的頻率選擇特性,從而提高了特征的分辨率。同時(shí)引入了多示例學(xué)習(xí)機(jī)制對(duì)特征進(jìn)行分類,從而解決了音源復(fù)雜且音頻事件高度重疊所造成的分類準(zhǔn)確率低下的問題。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于深度學(xué)習(xí)的模型相比,本文模型實(shí)現(xiàn)了更高的分類準(zhǔn)確率。為了進(jìn)一步降低算法復(fù)雜度,未來可考慮通過引入圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)場(chǎng)景內(nèi)示例之間的相關(guān)性進(jìn)行學(xué)習(xí),從而幫助音頻場(chǎng)景的分類。