999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于配對特征融合的聲學(xué)場景分類方法

2023-01-01 00:00:00沈昕昊陳嘉燁宋曉寧
計算機(jī)應(yīng)用研究 2023年6期

摘 要:在近些年的研究中,單設(shè)備的聲音場景分類已經(jīng)取得不錯的效果,然而多設(shè)備聲音場景分類的進(jìn)展緩慢。為了解決多設(shè)備分類時樣本數(shù)量差異大的問題,提出了一種配對特征融合算法。通過計算每一對配對樣本在頻譜圖上的差異,將這些差異累加后取平均,可以獲得各個設(shè)備的平均頻譜特征,用于設(shè)備樣本的轉(zhuǎn)換。該算法在增加設(shè)備樣本數(shù)量的同時有效提升了模型的泛化能力。同時,為了獲取全局信息,提出了一種輕量級注意力模塊,通過對輸入特征在頻域上壓縮后進(jìn)行自注意力操作,可以在減少計算量的基礎(chǔ)上使模型專注于整個聲音序列信息的訓(xùn)練,實驗結(jié)果表明所提算法在模型大小和分類精度方面與其他方法相比具有較好的優(yōu)勢。

關(guān)鍵詞:聲學(xué)場景分類; 配對特征融合; 輕量級卷積神經(jīng)網(wǎng)絡(luò); 多設(shè)備; 注意力機(jī)制

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2023)06-027-1771-06

doi:10.19734/j.issn.1001-3695.2022.09.0500

Acoustic scene classification method based on paired feature fusion

Shen Xinhao, Chen Jiaye, Song Xiaoning

(School of Artificial Intelligence amp; Computer, Jiangnan University, Wuxi Jiangsu 214122, China)

Abstract:In recent years, single device sound scene classification has achieved good results, however, progress in multi-device sound scene classification has been slow. To solve the problem of large differences in the number of multi-device samples, this paper proposed a pairwise feature fusion algorithm. By calculating the differences in the spectrogram for each pair of paired samples and averaging these differences after accumulation, obtaining the average spectral characteristics of each device for the conversion of device samples. The algorithm effectively improved the generalization ability of the model while increasing the number of device samples. Meanwhile, in order to obtain global information, it proposed a lightweight attention module, which could make the model focus on the training of the whole sound sequence information on the basis of reduced computation by performing self-attention operations on the input features after compression in the frequency domain. The experimental results show that the proposed algorithm has better advantages in terms of model size and classification accuracy compared with other methods.

Key words:acoustic scene classification; paired feature fusion; lightweight convolutional neural networks; multiple devices; attention mechanism

0 引言

聲音場景分類指的是對一段音頻數(shù)據(jù)的識別和分類,這些音頻樣本通常由一個或者多個設(shè)備進(jìn)行錄制一定的時間,錄完之后被貼上環(huán)境標(biāo)簽。常規(guī)的環(huán)境標(biāo)簽有“人行道”“飛機(jī)場”等。經(jīng)過訓(xùn)練的計算機(jī)可以通過分析一段音頻中所包含的信息識別出該音頻錄制的地點,將其正確劃分到所屬的類別中。

聲音場景分類技術(shù)的應(yīng)用面十分廣泛。比如市面上的一些助聽器[1],能夠自行判斷出佩戴者所處的環(huán)境,通過周圍聲音的變化自動調(diào)整聲音方法或降噪功能;在一些工廠中,還可以通過對機(jī)器聲音的異常檢測,來判斷機(jī)器是否運轉(zhuǎn)正常,一旦機(jī)器發(fā)生異常,就可以通過警報提醒工人們;在自動駕駛方面,在夜晚行駛或者遇到大霧大雪等惡劣的天氣情況下,添加了聲學(xué)場景分類方法的自動駕駛模塊可以和視覺算法進(jìn)行互補(bǔ),使得汽車可以根據(jù)識別后的場景進(jìn)行駕駛模式的切換。

在聲音領(lǐng)域中,比較著名的競賽是由美國電子電氣工程師協(xié)會主辦,芬蘭坦佩雷理工大學(xué)等共同承辦的聲學(xué)場景分類和聲音事件檢測比賽(detection and classification of acoustic scenes and events,DCASE)[2]。比賽不僅提供了數(shù)據(jù)集TUT(urban acoustic scenes),還為環(huán)境聲的識別分類和檢測結(jié)果提供了公開的評估標(biāo)準(zhǔn),便于各個參賽團(tuán)隊進(jìn)行比較和研究。隨著越來越多的頂級高校組織、權(quán)威科研機(jī)構(gòu)、學(xué)術(shù)團(tuán)體等參與到比賽中來,DCASE在一定程度上吸引了人們的關(guān)注,促進(jìn)了聲音場景識別領(lǐng)域的發(fā)展。本文主要是對DCASE2021[3]任務(wù)中多設(shè)備的低復(fù)雜度聲場景分類任務(wù)進(jìn)行研究。

本文的主要貢獻(xiàn)包括三個方面:a)針對任務(wù)中的多設(shè)備樣本不匹配問題,提出了配對特征融合算法,增加了設(shè)備樣本數(shù)量,減小了各設(shè)備樣本數(shù)量的差距;b)對于DCASE競賽,其定義為不可見設(shè)備,即訓(xùn)練集中沒有,但測試集出現(xiàn)的設(shè)備。本文利用從一些可見設(shè)備提取到的平均頻譜信息,模擬一些不可見設(shè)備的頻譜特征,使得不可見設(shè)備的分類準(zhǔn)確率大大提高;c)為了使神經(jīng)網(wǎng)絡(luò)更關(guān)注全局特征的提取,減小局部信息的影響,提出了一種輕量級注意力模塊。

1 相關(guān)工作

近年來,以端到端為方式的聲學(xué)場景分類算法已經(jīng)得到了廣泛發(fā)展。例如WaveNet[4]、SEGAN[5]等算法在許多任務(wù)上都取得了重大突破,獲得了一些傳統(tǒng)聲學(xué)算法達(dá)不到的精度。本章介紹一些輕量級網(wǎng)絡(luò)以及一些針對多設(shè)備分類任務(wù)的優(yōu)秀解決方法。

1.1 輕量級網(wǎng)絡(luò)

在精度不斷提升的同時,深層神經(jīng)網(wǎng)絡(luò)通過設(shè)計非常深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于提取表達(dá)能力更強(qiáng)的深度特征,這對存儲設(shè)備和計算資源的要求非常高,常用的便攜式設(shè)備無法滿足該需求,這嚴(yán)重限制了深度神經(jīng)網(wǎng)絡(luò)在便攜式設(shè)備上的發(fā)展和應(yīng)用[6]。

DCASE挑戰(zhàn)賽的團(tuán)隊也在密切關(guān)注這個問題,因此從DCASE2020[7]起,便發(fā)布了低復(fù)雜度聲學(xué)場景分類這個任務(wù)。

目前,輕量級神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計主要包括人工設(shè)計輕量化神經(jīng)網(wǎng)絡(luò)模型、基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search, NAS)[8]的自動化神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計、神經(jīng)網(wǎng)絡(luò)模型的壓縮這三個方向。其中輕量級神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計已經(jīng)取得一定成果。SqueezeNet[9]通過1×1卷積和3×3卷積的組合使用壓縮模型;ShuffleNet[10]使用通道混洗(channel shuffle)保證分組卷積之后不同組的特征圖之間的信息交流; Xception[11]采用深度可分離卷積(depthwise separable convolution)來替換原來InceptionV3中的卷積操作, 在基本不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型的效果。

Howard等人[12]則把VGG中的標(biāo)準(zhǔn)卷積層換成深度可分離卷積,提出了MobileNetV1。在V1的基礎(chǔ)上,MobileNetV2[13]新增加了瓶頸殘差模塊(bottleneck residual block)。與ResNet[14]中的殘差模塊(residual block)不同的是,瓶頸殘差模塊的維度是兩端小、中間大,因此也被稱為倒置殘差模塊(inver-ted residuals block)。

在MobileNetV3[15]中,谷歌團(tuán)隊將NAS和MobileNetV2相結(jié)合,通過網(wǎng)格搜索尋找出最有效率的網(wǎng)絡(luò)結(jié)構(gòu),在瓶頸殘差模塊后部加入了SE(squeeze and excitation)[16]注意力模塊,并調(diào)整了激活函數(shù)與其出現(xiàn)的位置。

在人工設(shè)計的輕量級神經(jīng)網(wǎng)絡(luò)架構(gòu)中,大多數(shù)方法通過減少卷積核的冗余、減少中間特征的通道數(shù)量和設(shè)計更高效的模塊這三個方面,在保持神經(jīng)網(wǎng)絡(luò)性能的前提下,減少網(wǎng)絡(luò)的參數(shù)和計算量,均取得了不錯的成果。

1.2 多設(shè)備分類任務(wù)

在日常生活中,人們錄制一段音頻所使用的設(shè)備多種多樣,有人選擇用手機(jī)錄,也有人使用專業(yè)的錄音麥克風(fēng),這樣就會導(dǎo)致每個錄制設(shè)備的樣本數(shù)存在差異。對于一些小眾冷門的設(shè)備,樣本更是寥寥無幾。 在分類任務(wù)中,由于樣本數(shù)量少和聲音質(zhì)量不高,這些設(shè)備很難訓(xùn)練出較高的精度,導(dǎo)致整個類的精度降低。

Kim等人[17]通過插入殘差模塊的U-Net[18]結(jié)構(gòu)作為編碼器—解碼器,設(shè)計了一個設(shè)備轉(zhuǎn)換器。利用L2距離和基于GAN[19]的損失函數(shù)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,幫助網(wǎng)絡(luò)產(chǎn)生與目標(biāo)設(shè)備相似的特征分布,達(dá)到將一個設(shè)備的頻譜圖轉(zhuǎn)換為另一個設(shè)備的效果。Hu等人[20]設(shè)計了一個二階段的聲學(xué)場景分類模型,將聲音輸入通過神經(jīng)網(wǎng)絡(luò)分成三大類和十小類再融合輸出。在處理多設(shè)備任務(wù)上,利用Mixup[21]、Spec Augment[22]等9種數(shù)據(jù)增強(qiáng)方法,使得各個設(shè)備的樣本數(shù)量得到平衡,豐富了少樣本數(shù)量設(shè)備的特征。

Zhao等人[23]則使用了域自適應(yīng)的方法,設(shè)計了一個雙流神經(jīng)網(wǎng)絡(luò),隨著訓(xùn)練過程中損失函數(shù)變小,使源域和目標(biāo)域中配對的樣本實現(xiàn)特征對齊,達(dá)到緩解樣本數(shù)量不平衡的效果。

上述方法通過增加樣本數(shù)量、通過額外網(wǎng)絡(luò)進(jìn)行訓(xùn)練改變設(shè)備頻譜分布和域自適應(yīng)處理問題。但數(shù)據(jù)增強(qiáng)方法過量添加所導(dǎo)致訓(xùn)練集樣本數(shù)量龐大,以及重新訓(xùn)練另一個網(wǎng)絡(luò)制造新樣本,均延長了訓(xùn)練時間,影響模型的收斂。

2 對頻譜校正方法的改進(jìn)

2.1 音頻特征提取

人類通過耳蝸只能感受到20 Hz~20 kHz的聲音,遠(yuǎn)遠(yuǎn)小于自然界中聲音的頻率范圍,這使得人類聽到的聲音與外界所呈現(xiàn)出來的有一定程度的偏差。Steven等人經(jīng)過研究,提出了梅爾濾波器來模擬人類耳蝸對聲音信號的處理。目前聲學(xué)場景分類領(lǐng)域最常用的MFCC[24]特征和對數(shù)梅爾譜圖特征就是在梅爾濾波器的基礎(chǔ)上,增加一些步驟實現(xiàn)的。

本文方法采用對數(shù)梅爾頻譜圖作為神經(jīng)網(wǎng)絡(luò)的輸入。將采樣率為44.1 kHz的音頻在位移窗口為1 024的情況下進(jìn)行快速傅里葉變換,通過采樣率除位移窗口,得到時域長度為431,并用128個Mel濾波器進(jìn)行提取,輸入為對數(shù)梅爾頻譜圖、它的一階頻譜圖和二階頻譜圖在通道維度拼接而成,所以輸入通道數(shù)為3。這是因為一階頻譜圖可以很好地體現(xiàn)音頻的動態(tài)特征。對一階差分梅爾譜圖再次求取差分,得到二階差分梅爾譜圖,進(jìn)一步獲取更多的動態(tài)特征。這樣得到的輸入特征形狀為128×431×3。圖1為兩個樣本在不同設(shè)備上的頻譜圖。圖1(a)和(b)分別為設(shè)備A和C的頻譜圖,每一行表示一個樣本。可以看出在不同設(shè)備上同一個樣本的頻譜圖存在一些差異,這種差異一般表現(xiàn)為聲音信號在頻域上的浮動或是聲音信號分貝強(qiáng)弱的變化。

2.2 配對特征融合

在多設(shè)備任務(wù)中比較著名的方法是由Nguyen等人[25]提出的頻譜校正方法,它的目的是為了證明設(shè)備樣本的適度適應(yīng)特性,即通過縮放頻域上的每個頻率倉,可以實現(xiàn)一個設(shè)備的頻譜圖到另一個設(shè)備頻譜圖的轉(zhuǎn)變。具體做法是從每個設(shè)備中各選取一定數(shù)量的樣本,每個樣本的頻譜圖沿時間軸平均形成平均譜,對每個設(shè)備的平均譜進(jìn)行均值處理得到設(shè)備譜,再對所有平均譜進(jìn)行均值處理得到參考譜,最后通過參考譜除以設(shè)備譜,得到設(shè)備的頻譜系數(shù),它的大小為F×1,其中F代表頻域維度。每種設(shè)備都有各自的頻譜系數(shù),進(jìn)行設(shè)備之間的轉(zhuǎn)換。

受到頻譜校正方法的啟發(fā),本文提出了配對特征融合算法,主要解決多設(shè)備樣本數(shù)量差距大的問題。在DCASE所發(fā)布的TUT2020數(shù)據(jù)集中,設(shè)備樣本數(shù)量呈兩極分化。訓(xùn)練集中設(shè)備A的樣本數(shù)量約為其他設(shè)備樣本數(shù)量的13倍,其他設(shè)備錄制的音頻均可以在設(shè)備A中找到,它們的區(qū)別只是錄制設(shè)備不同。本文將不同設(shè)備錄制的相同標(biāo)識的樣本稱為配對樣本。

每個樣本的頻譜圖主要由有效的聲音信號和周圍環(huán)境噪聲組成。考慮到背景噪聲是持續(xù)存在的,為加性噪聲,通過譜減法[26],可以做到對其進(jìn)行有效過濾。在本文中,將樣本數(shù)量最多的設(shè)備A作為原始設(shè)備,其他設(shè)備B、C、S1、S2和S3作為參考設(shè)備,目的就是讓原始設(shè)備通過配對特征融合算法,實現(xiàn)向參考設(shè)備的特征轉(zhuǎn)換。本文方法作用在快速傅里葉變換之后,算法的輸入是成對的配對樣本,分別來自參考設(shè)備和原始設(shè)備。通過快速傅里葉變換,原始音頻已變成1 025×431的二維張量,將這兩個張量相減,就可以在過濾背景噪聲的同時得到不同設(shè)備在同一個樣本上的特征差異,并且對相減后的特征差異取絕對值,避免帶噪相位對音頻質(zhì)量的影響,通過函數(shù)可以表現(xiàn)為

本文沒有將頻譜校正僅用做樣本頻域的縮放,而是將其作為一種數(shù)據(jù)增強(qiáng)的方法,通過校正特征新生成的樣本緩解設(shè)備樣本數(shù)量差異大的問題。與頻譜校正中先對每個樣本的幅度譜圖沿時間軸平均的操作不同,本文方法沒有對時間軸進(jìn)行單獨操作,盡可能地保留了時域上的信息。在頻譜校正中各個設(shè)備選擇的樣本不完全是一一對應(yīng)的,而配對特征融合通過配對樣本得到的平均特征差異,比頻譜校正中對所有的平均譜再進(jìn)行平均這個操作更具有針對性,也更合理。兩者具體精度的對比在本文實驗結(jié)果中得以體現(xiàn)。

通過對梅爾頻譜計算后的二維張量進(jìn)行可視化發(fā)現(xiàn),大部分信息分布在頻域維度較低的區(qū)域,貫穿整個時域。圖1(c)和(d)分別為使用頻譜校正和配對特征融合輸出的頻譜圖,對一些音頻中聲音信號不多的樣本,如圖1中的第一行,頻譜校正和本文方法相差無幾,但對于一些復(fù)雜的聲音樣本,如圖1中第二行,頻譜校正的高頻信息丟失了一部分,而本文方法保留了這部分信息。

3 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

3.1 整體結(jié)構(gòu)圖

本文網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要是在MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)上改進(jìn)而來,由多通道融合模塊、輕量化模塊和輕量級注意力模塊組成。

多通道融合模塊分別對輸入特征進(jìn)行步長為1的3×3卷積、步長為2的3×3卷積、2×2的最大池化和平均池化。這樣操作是為了將原始特征提取到不同維度上并融合,增強(qiáng)模型對原始信息的感知能力,助力下游分類任務(wù),經(jīng)過拼接后的輸入特征大小為64×1 059×32。經(jīng)過3個輕量化模塊的下采樣和升維后,輸出維度變成了8×133×64。從輕量級注意力模塊輸出的特征則經(jīng)過下采樣和升維操作與輕量化模塊的輸出進(jìn)行逐元素相加,作為下一階段的輸入。最后通過1×1卷積將通道數(shù)降到10,在經(jīng)過全局平均池化和softmax之后得到樣本的分類概率。

3.2 輕量化模塊

本文采用的輕量化模塊由三個MobileNetV2中的倒置瓶頸模塊組合堆疊而成,其中每個輕量化模塊的第一個瓶頸模塊對輸入的頻譜圖進(jìn)行下采樣,使得時域和頻域維度均減半,下面的兩個瓶頸模塊通過殘差連接補(bǔ)充輸入的原始信息,每個倒置瓶頸模塊中的具體結(jié)構(gòu)如圖3所示。

在整個網(wǎng)絡(luò)結(jié)構(gòu)中,頻譜圖維度的下采樣都由深度可分離卷積實現(xiàn)。在進(jìn)行下采樣時,深度可分離卷積核大小為3,步長為2,填充為1。其他模塊中深度可分離卷積核大小為3,步長為1,填充為1。最后再由1×1卷積進(jìn)行降維,使得輸出通道數(shù)與輸入通道數(shù)一致。因為非線性的激活函數(shù)易對低維特征產(chǎn)生較大影響,使其失去一些重要信息,所以在最后輸出之前,去掉了ReLU[27]激活函數(shù)的使用,用線性變換進(jìn)行代替。圖3中的殘差連接只有當(dāng)卷積步長為1且輸入與輸出維度相等時才有效。

3.3 輕量級注意力模塊

在一些視覺的任務(wù)中,通常使用全局平均池化來獲取全局信息,減少噪點的干擾,這種操作將全局信息壓縮到通道中,難以保留維度之間的位置信息。而在聲音領(lǐng)域中,同一個時間段的信號代表不同的聲學(xué)事件,使用池化操作會導(dǎo)致聲音出現(xiàn)的順序錯亂。本文提出了一種輕量級注意力模塊,通過壓縮每個通道的頻域,獲得頻域平均特征,然后通過自注意力機(jī)制的計算,獲取了部分頻域?qū)φ麄€時域的全局信息。隨后將頻域擴(kuò)張到原來的維度,獲取完整的全局特征。在尾部使用殘差連接補(bǔ)充一部分輸入特征。具體如圖2左下部分所示。 由于信息大部分集中在頻域低的維度上,呈窄長型分布,所以用壓縮操作將頻域維度降至1維,在不損失過多特征得情況下減少自注意力的計算量。通過以上這些改進(jìn),將本文完整方法命名為配對特征網(wǎng)絡(luò)。

4 實驗設(shè)計

4.1 數(shù)據(jù)集和任務(wù)介紹

本文使用的數(shù)據(jù)集為TUT2020(TAU urban acoustic scenes 2020 mobile)中的開發(fā)數(shù)據(jù)集。該數(shù)據(jù)包含機(jī)場、公交車、地鐵、地鐵站、公園、廣場、購物商場、人行道、交通街道、電車10類聲學(xué)場景,共64小時23 040條音頻數(shù)據(jù),來自阿姆斯特丹、巴塞羅那等12個大型歐洲城市。這些數(shù)據(jù)由9個設(shè)備進(jìn)行錄制,其中設(shè)備A為48 kHz采樣率和24位分辨率的Zoom F8錄音機(jī),設(shè)備B為三星Galaxy S7,設(shè)備C為iPhone SE,均為真實設(shè)備,其余S1~S6為虛擬設(shè)備,是通過設(shè)備A的錄音與選定的Si脈沖響應(yīng)進(jìn)行卷積處理,然后用一組選定的參數(shù)進(jìn)行動態(tài)范圍壓縮處理得來的。虛擬設(shè)備的片段由設(shè)備A隨機(jī)選擇的片段組成,因此都與設(shè)備A的數(shù)據(jù)重合,但不一定相互重合。音頻以單通道,44.1 kHz,24 位的格式提供,最后被裁剪成長度為10 s的音頻片段。其中70%數(shù)據(jù)用于訓(xùn)練,30%用于測試,數(shù)據(jù)在各個設(shè)備上的具體分布如表1所示。

其中為了各個設(shè)備數(shù)量的均衡,設(shè)備A中有3 855個片段不用在訓(xùn)練集和測試集中。設(shè)備S4、S5、S6只出現(xiàn)在測試集中,被稱為不可見設(shè)備。

本文所要解決的任務(wù)為多設(shè)備的低復(fù)雜度聲場景分類。多設(shè)備指的是多個設(shè)備之間數(shù)量差異大導(dǎo)致的分類精度變低的問題。低復(fù)雜度主要是限制模型的大小,整個模型大小不得超過128 KB。各個團(tuán)隊一般比較的是各個模型的參數(shù)量。

4.2 訓(xùn)練過程中超參數(shù)的設(shè)置

整個模型的訓(xùn)練在TensorFlow2.0和Keras 2.3框架上進(jìn)行。優(yōu)化器使用隨機(jī)梯度下降(SGD)[28],其中動量(momentum)設(shè)置為0.9,衰減(decay)設(shè)置為10-6,并且使用分類交叉熵?fù)p失函數(shù)(categorical cross-entropy loss)。每個模型訓(xùn)練的迭代次數(shù)為256,批處理大小為32。最初的學(xué)習(xí)率設(shè)置為0.1,并在第3、7、15、31、127 和 255 輪處,重新設(shè)置學(xué)習(xí)率以獲得重新訓(xùn)練效果,學(xué)習(xí)率的衰減使用了余弦退火算法[28]。在模型中,還使用了兩種不增加樣本的兩種數(shù)據(jù)增強(qiáng)方法。其中mixup的α值為0.4,通過相鄰數(shù)據(jù)交叉產(chǎn)生新的特征,使數(shù)據(jù)更加豐富,獲得更好的魯棒性。Spec Augment運用在每個mini-batch里,會對時間軸和頻率軸進(jìn)行隨機(jī)屏蔽,緩解了過擬合。

5 實驗結(jié)果分析

為了評估本文方法的有效性,在本章中先和基線進(jìn)行比較,隨后在DCASE2021任務(wù)中與其他方法比較。 最后做消融實驗驗證每個模塊的有效性。網(wǎng)絡(luò)的訓(xùn)練與測試都在單張NVIDIA RTX2080Ti GPU上運行。

5.1 與基線方法比較

本文使用Seo等人[29]提出的版本1作為基線。基線除了使用頻譜校正,還使用了pitch shift、speed change、mix audios等數(shù)據(jù)增強(qiáng)方式,并加入了SE注意力。與基線使用多種數(shù)據(jù)增強(qiáng)方式不同,配對特征網(wǎng)絡(luò)僅使用一種數(shù)據(jù)增強(qiáng)方法,配合多通道融合模塊和輕量級注意力模塊,精度比基線高出3%,一輪的訓(xùn)練時間由原來的20 min降到現(xiàn)在的5 min,訓(xùn)練時間縮短了4倍,加快了模型的收斂。

不同方法各類的正確分類樣本數(shù)具體如表2所示。在機(jī)場類上,本文算法比基線精度提高9.2%,多正確分類30個樣本。在公交車、地鐵、地鐵站、公園和電車類上,本文方法比基線分別高出0.9%、2.7%、0.3%、8.4%和2.3%,比僅使用配對特征融合算法精度高出0.4%、0.7%、1.6%、3.9%和1.3%。而在購物商城、人行道和交通街道類中,在加入輕量級注意力模塊后,精度有一定程度的下降。面對僅在測試集中出現(xiàn)的不可見設(shè)備S4、S5和S6,本文方法與基線相比精度分別提升1.3%、2.0%和4.3%。具體如表3所示。

表3中第2行為僅加入頻譜校正方法,可以看出,配對特征網(wǎng)絡(luò)能夠通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練出更為豐富的特征分布,對于訓(xùn)練集中未出現(xiàn)的設(shè)備也能準(zhǔn)確識別,增強(qiáng)了模型泛化能力。

5.2 與其他方法比較

DCASE2021的任務(wù)1是多任務(wù)下的低復(fù)雜度聲音場景分類,使得參賽模型要兼顧精度和模型大小,本文方法和其他方法的分類結(jié)果如表4所示。其中官方方法是官方給的精度最低標(biāo)準(zhǔn),Byttebier等人[30]的方法主要是在卷積后加入SE注意力模塊,但由于SE學(xué)習(xí)到的是各個通道之間的關(guān)系,沒有關(guān)注時間序列上的信息,所以效果不是很好。Koutini等人[31]則是通過一個超參數(shù)限制感受野的大小,并對不同感受野范圍內(nèi)精度的變化進(jìn)行分析和研究。Yang等人[32]通過知識蒸餾[33]獲得教師學(xué)生模型,然后再利用彩票假說(lottery ticket hypo-thesis,LTH)[34]算法,通過對學(xué)生模型權(quán)重的不斷剪枝,最終獲得參數(shù)量小、精度高的模型。從結(jié)果來看,彩票假說算法的加入是有效的,被修剪掉的權(quán)重并沒有影響網(wǎng)絡(luò)性能,但由于加入了教師和學(xué)生這兩個模型,所以整個模型參數(shù)量較大。輕量級注意力模塊中的壓縮操作并不會損失很多原始特征,隨后對其做自注意力,在減少計算量的同時彌補(bǔ)了一部分時間序列前后關(guān)系,并在擴(kuò)張操作之后通過殘差連接補(bǔ)充上先前的特征,使得本文的整個操作更為合理化,參數(shù)量也控制在合理范圍內(nèi)。

本文方法在機(jī)場、廣場類的分類精度領(lǐng)先于其他任務(wù),分別比精度第二的方法高了8.4%和4.6%。在地鐵、地鐵站、公園類上和精度第一的方法差距不大,尤其在公園類上精度僅低0.4%。在公交車、人行道類上精度較低,分別只有80.1%和42.8%,與其他方法有不小的差距。尤其是在人行道類中,精度普遍較低,可能是人行道類音頻比較復(fù)雜,一些噪聲不能完全有效去除,導(dǎo)致生成的平均特征差異不準(zhǔn)確,易與其他類混淆。

與對比方法相比,配對特征網(wǎng)絡(luò)的優(yōu)勢在于配對特征融合方法能夠花費比較少的時間生成有效的平均特征差異,用于設(shè)備的轉(zhuǎn)換。輕量化模塊和輕量級注意力模塊的使用在提升精度的同時盡量減少模型參數(shù)量,符合了輕量化的要求,但是對于一些特定的類,例如人行道類,分類后的精度偏低。今后將改進(jìn)配對特征方法,使其獲得的平均特征差異可以用于某個具體的樣本,提高人行道類的精度。對網(wǎng)絡(luò)中的結(jié)構(gòu)也可以作進(jìn)一步優(yōu)化,使模型參數(shù)量更少,進(jìn)一步實現(xiàn)輕量化的要求。

5.3 轉(zhuǎn)換樣本數(shù)量對分類的影響

在配對特征融合方法中,將設(shè)備A樣本轉(zhuǎn)換為其他樣本的數(shù)量由λ控制。一份為要轉(zhuǎn)換設(shè)備的樣本數(shù),在數(shù)據(jù)集TUT2020中為330。本文默認(rèn)λ為1,圖4展示了不同λ值下分類的精度。

當(dāng)λ值為1,即轉(zhuǎn)換的樣本數(shù)量為其他設(shè)備本身的樣本數(shù)量時,得到的精度最高。而且隨著λ值增加,每輪訓(xùn)練的時間也在增加。綜合考慮下來,λ值為1時整個模型效果最好,精度為72%。

5.4 消融實驗

為了驗證配對特征網(wǎng)絡(luò)各個模塊的有效性,本文在TUT2020上進(jìn)行了幾組消融實驗。以配對特征網(wǎng)絡(luò)為基準(zhǔn),不斷移除本文中所提出的各個模塊,所得到的精度如表5所示。其中Base表示基礎(chǔ)模塊;PFF表示配對特征融合算法;SC表示頻譜校正算法;MF表示多通道融合模塊;LA表示輕量級注意力模塊。

其中第2、3行分別為只加入配對特征融合算法和只加入頻譜校正算法,可以看出精度高了1.9%。當(dāng)移除多通道融合模塊時,模型精度下降明顯,這是因為缺少了不同維度的特征,網(wǎng)絡(luò)捕捉的信息有限,對一些超出感受野范圍的聲音信號感知能力不強(qiáng)。當(dāng)移除輕量級注意力模塊時,模型精度有所下降,這是因為神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時過于關(guān)注局部信息,缺少了聲音信號整體連續(xù)的特性。

6 結(jié)束語

本文在改進(jìn)頻譜校正方法和MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,提出了配對特征網(wǎng)絡(luò)。實驗證明該方法在快速縮短訓(xùn)練時間的同時有效緩解了多設(shè)備樣本數(shù)量不匹配的問題,可以對多個環(huán)境類進(jìn)行準(zhǔn)確識別。下一步將繼續(xù)研究配對特征融合方法的細(xì)化和神經(jīng)網(wǎng)絡(luò)的輕量化改進(jìn)方法,在盡可能減少計算量、模型參數(shù)量的情況下,針對某個樣本,進(jìn)一步提高分類精度。

參考文獻(xiàn):

[1]汪家冬,鄒采榮,蔣本聰,等.基于數(shù)字助聽器聲音場景分類的噪聲抑制算法[J].數(shù)據(jù)采集與處理,2017,32(4):825-830.(Wang Jiadong, Zou Cairong, Jiang Bencong, et al. Noise suppression algorithm based on sound scene classification of diLAtal hearing aids[J].Data Collection and Processing,2017,32(4):825-830.)

[2]Giannoulis D, Benetos E, Stowell D, et al. Detection and classification of acoustic scenes and events: an IEEE AASP challenge[C]//Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.Piscataway,NJ:IEEE Press,2013:1-4.

[3]Martín-Morató I, Heittola T, Mesaros A, et al. Low-complexity acoustic scene classification for multi-device audio: analysis of DCAS 2021 challenge systems [EB/OL]. (2021) [2021-05-28]. https://arxiv.org/abs/2105.13734.

[4]Oord A, Dieleman S, Zen H, et al. WaveNet: a generative model for raw audio [J/OL]. (2016) [2016-09-12]. https://arxiv.org/abs/1609.03499.

[5]Pascual S, Bonafonte A, J Serrà. SEGAN: speech enhancement gene-rative adversarial network [EB/OL]. (2017) [2017-03-28]. https://arxiv.org/abs/1703.09452.

[6]葛道輝,李洪升,張亮,等.輕量級神經(jīng)網(wǎng)絡(luò)架構(gòu)綜述[J].軟件學(xué)報,2020,31(9):2627-2653.(Ge Daohui, Li Hongshen, Zhang Liang, et al. Overview of lightweight neural network architecture[J].Journal of Software,2020,31(9):2627-2653.)

[7]Heittola T, Mesaros A, Virtanen T. Acoustic scene classification in dcase 2020 challenge: generalization across devices and low complexity solutions[EB/OL].(2020)[2020-05-29].https://arxiv.org/abs/2005.14623.

[8]Elsken T, Metzen J H, Hutter F. Neural architecture search: a survey[J].The Journal of Machine Learning Research,2019,20(1):1997-2017.

[9]Iandola F N, Han Song, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50× fewer parameters andlt; 0.5 MB model size[EB/OL].(2016)[2016-02-24].https://arxiv.org/abs/1602.07360.

[10]Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6848-6856.

[11]Chollet F. Xception: deep learning with depthwise separable convolutions[C]//Proc of IEEE Conference on computer vision and pattern recognition.Piscataway,NJ:IEEE Press,2017:1251-1258.

[12]Howard A G, Zhu Menglong, Chen Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL].(2017)[2017-04-17].https://arxiv.org/abs/1704.04861.

[13]Sandler M, Howard A, Zhu Menglong, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4510-4520.

[14]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

[15]Howard A, Sandler M, Chu G, et al. Searching for MobileNetV3[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1314-1324.

[16]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018:7132-7141.

[17]Kim B, Yang S, Kim J, et al. QTI submission to DCASE 2021: residual normalization for device-imbalanced acoustic scene classification with efficient design[EB/OL].(2022)[2022-06-28].https://arxiv.org/abs/2206.13909.

[18]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of International Confe-rence on Medical Image Computing and Computer-assisted Intervention.Cham:Springer,2015:234-241.

[19]Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].(2015)[2015-11-19].https://arxiv.org/abs/1511.06434.

[20]Hu Hu, Yang C H H, Xia Xianjun, et al. A two-stage approach to device-robust acoustic scene classification[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:845-849.

[21]Zhang Hongyi, Cisse M, Dauphin Y N, et al. Mixup: beyond empiri-cal risk minimization[EB/OL].(2017)[2017-10-25].https://arxiv.org/abs/1710.09412.

[22]Park D S, Chan W, Zhang Yu, et al. Spec Augment: a simple data augmentation method for automatic speech recognition[EB/OL].(2019)[2019-04-18].https://arxiv.org/abs/1904.08779.

[23]Zhao Jingqiao, Kong Qiuqiang, Song Xiaoning, et al. Feature alignment for robust acoustic scene classification across devices[J].IEEE Signal Processing Letters,2022,29:578-582.

[24]Zheng Fang, Zhang Guoliang, Song Zhanjiang. Comparison of diffe-rent implementations of MFCC[J].Journal of Computer Science and Technology,2001,16(6):582-589.

[25]Nguyen T, Pernkopf F, Kosmider M. Acoustic scene classification for mismatched recording devices using heated-up softmax and spectrum correction [C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2020:126-130.

[26]Boll S. Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Trans on Acoustics, Speech, and Signal processing,1979,27(2):113-120.

[27]Li Yuanzhi, Yuan Yang. Convergence analysis of two-layer neural networks with ReLU activation[EB/OL].(2017-05-28).https://arxiv.org/abs/1705.09886.

[28]Loshchilov I, Hutter F. SGDR: stochastic gradient descent with warm restarts[EB/OL].(2016)[2016-08-13].https://arxiv.org/abs/1608.03983.

[29]Seo S, Kim J. MobileNet using coordinate attention and fusions for low-complexity acoustic scene classification with multiple devices[R].[S.l.]:Detection and Classification of Acoustic Scenes and Events,2021.

[30]Byttebier L, Desplanques B, Thienpondt J, et al. Small-footprint acoustic scene classification through 8-bit quantization-aware training and pruning of ResNet models[R/OL].(2021)[2021-10-15].https://dcase.community/documents/challenge2021/technical_reports/ DCASE2021_Byttebier_85_t1.pdf.

[31]Koutini K, Jan S, Widmer G. CPJKU submission to DCASE21: cross-device audio scene classification with wide sparse frequency-damped CNNs[R/OL].(2021)[2021-11-18].https://dcase.community/documents/challenge2021/technical_reports/DCASE2021_Koutini_112_t1.pdf.

[32]Yang C H H, Hu Hu, Siniscalchi S M, et al. A lottery ticket hypothe-sis framework for low complexity device-robust neural acoustic scene classification[EB/OL].(2021)[2021-07-03].https://arxiv.org/abs/2107.01461.

[33]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL].(2015)[2015-03-02].https://openaccess.thecvf.com/content/WACV2022/supplemental/Jeong_BiHPF_Bilateral_High-Pass_WACV_2022_supplemental.zip.

[34]Frankle J, Carbin M. The lottery ticket hypothesis:finding sparse, trainable neural networks[EB/OL].(2018)[2018-03-09].https://arxiv.org/abs/1803.03635.

[35]Kim B. Building light-weight convolutional neural networks for acoustic scene classification using audio embeddings[R].[S.l.]:Detection and Classification of Acoustic Scenes and Events,2021.

[36]Jeong Y, Park S, Lee T. Trident ResNets with low complexity for acoustic scene classification[EB/OL].(2021)[2021-11-18].https://dcase.community/documents/challenge2021/technical_reports/DCASE2021_Jeong_58_t1.pdf.

[37]Cao Wenchang, Li Yanxiong, Huang Qisheng. Acoustic scene classification using lightweight ResNet with attention[EB/OL].(2021)[2021-11-16].https://dcase.community/documents/challenge2021/technical_reports/DCASE2021_Cao_11_t1.pdf.

[38]Pham L, Tang H, Jalali A, et al. A low-complexity deep learning framework for acoustic scene classification[M]//Data Science Analy-tics and Applications.Berlin:Springer,2022:26-32.

[39] Heo H S, Jung J, Shim H, et al. Clova submission for the DCASE 2021 challenge: acoustic scene classification using light architectures and device augmentation[R].[S.l.]:Detection and Classification of Acoustic Scenes and Events,2021.

主站蜘蛛池模板: 国产91精品调教在线播放| 国产人免费人成免费视频| 在线观看av永久| 国产欧美日韩综合一区在线播放| 综合网天天| 精品丝袜美腿国产一区| 亚洲日韩日本中文在线| 国产国模一区二区三区四区| 无码一区18禁| 东京热一区二区三区无码视频| 国产美女精品人人做人人爽| 99久久亚洲综合精品TS| 欧美视频在线观看第一页| 日本一本正道综合久久dvd| 欧美在线一二区| Jizz国产色系免费| 国产一级妓女av网站| 国产福利微拍精品一区二区| 又黄又湿又爽的视频| 视频二区国产精品职场同事| 黄色网站不卡无码| 免费国产无遮挡又黄又爽| 久久国产乱子伦视频无卡顿| 日韩精品久久无码中文字幕色欲| 五月天综合网亚洲综合天堂网| 成人无码一区二区三区视频在线观看| 亚洲精品无码av中文字幕| 波多野结衣视频一区二区| 无码中文字幕加勒比高清| 国产91在线|中文| 99无码中文字幕视频| 国产在线第二页| 国产噜噜噜| 超碰aⅴ人人做人人爽欧美 | 国产特一级毛片| 日韩东京热无码人妻| 精品伊人久久久久7777人| 国产欧美视频在线| 国内老司机精品视频在线播出| 日本午夜影院| 欧美亚洲另类在线观看| 一级福利视频| 久久久久久高潮白浆| 国产96在线 | 无码人妻热线精品视频| аⅴ资源中文在线天堂| 亚洲区视频在线观看| 国产福利在线观看精品| 亚洲香蕉在线| 重口调教一区二区视频| 91小视频版在线观看www| 二级毛片免费观看全程| 强奷白丝美女在线观看| 国产毛片不卡| 国产AV无码专区亚洲精品网站| 国产91精品最新在线播放| 91亚洲视频下载| 国产精品区视频中文字幕| 亚洲一区二区三区在线视频| 婷婷午夜影院| 欧美中文字幕在线播放| 欧美性爱精品一区二区三区| 欧美一级一级做性视频| 波多野结衣无码视频在线观看| 性色生活片在线观看| 国产精品久久自在自线观看| 国产欧美精品一区二区 | 国产在线精品人成导航| 国产呦精品一区二区三区下载 | 欧美精品亚洲二区| 91外围女在线观看| 欧美国产日韩在线| 免费又黄又爽又猛大片午夜| 久综合日韩| 真人高潮娇喘嗯啊在线观看| 91欧美亚洲国产五月天| 国产真实二区一区在线亚洲| 青青久视频| 免费观看国产小粉嫩喷水| 亚洲无限乱码| 欧美在线精品一区二区三区| 午夜少妇精品视频小电影|