999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DenseNet結合空間通道注意力機制的環境聲音分類

2023-12-12 04:26:12董紹江
重慶理工大學學報(自然科學) 2023年11期
關鍵詞:機制特征模型

董紹江,劉 偉

(重慶交通大學 機電與車輛工程學院, 重慶 400074)

0 引言

人類周圍的聲音大致可以分為3類:環境聲音[1]、音樂、語音,因此智能聲音識別(ISR)包括環境聲音分類(ESC)、音樂信息識別(MIR)和自動語音識別(ASR)。其中,ESC在生活中應用十分廣闊,常應用于電力設備[2]、醫院和地鐵站的異常監測等場景。但是,環境聲音具有復雜變化的時頻特性,因此ESC比MIR和ASR更難。

針對上述問題,許多學者對ESC進行了大量的研究。總體而言,ESC主要由特征提取和分類網絡兩部分組成,通過計算獲得過零率(ZCR)[3]和梅爾頻率倒譜系數(MFCC)[4]等特征表示,然后通過矩陣分解、支持向量機等機器學習模型進行特征提取,但是通常這類方法比較耗時且缺乏創新性。

注意力機制在很多領域都有應用,如目標檢測、數據挖掘等。在環境聲音識別領域,Tripathi等[5]將神經網絡與注意力機制結合,在ESC數據集中取得了相當好的結果。SE[6]模塊是通道注意力機制,而CBAM[7]模塊是空間通道注意力機制,它們都屬于典型的注意力機制。其中,通道注意力機制首先會計算不同特征通道的重要程度,然后分配相應的權重以適配通道的重要性,但是SE注意力機制模塊會將二維特征圖壓縮為一維,這會導致某些空間位置信息丟失。空間通道注意力機制除了利用不同通道特征外,還利用不同空間位置信息,一定程度上是優于通道注意力機制的。

為了充分利用從環境聲中提取的Log-Mel譜圖的空間與通道相關性,提出了一種基于密集連接卷積網絡(DenseNet)的空間通道注意力機制,可以使網絡模型更加關注語義相關和突出的特征,從而提高ESC算法分類準確率。此外,為了解決聲音數據不足引起的模型過擬合現象,將混合在線數據增強方法應用于Log-Mel譜圖,并在2個公開數據集ESC-50和ESC-10上測試驗證了所提方法的適用性。結果表明,提出的空間通道注意力機制模型能夠使神經網絡更加關注顯著特征。

1 方法

1.1 頻譜特征提取

在給定環境聲音信號的場景下,采用Librosa庫[8]提取LogMel譜圖。窗口長度設置為2 048,步長設置為512,梅爾濾波器的數量設置為128,最后將像素值限制在0~255。經過上述步驟后,將ESC-10和ESC-50數據集的Log-Mel譜圖大小設置為128*431*1(對應頻率*時間*通道數),然后將特征譜圖作為網絡的輸入。ESC-50數據集的Log-Mel譜圖示例如圖1所示。

1.2 網絡結構

因為密集連接卷積網絡[9](DenseNet)在圖像識別領域有成功應用的先例,所以提出了基于DenseNet的網絡結構。DenseNet的本質是增加后續層輸入的變量,并通過連接不同層學習的特征圖來提高效率。圖2為DenseNet的主要結構。

圖2 DenseNet的主要結構

具體來說,第N層將先前層F0、…、FN-1處理后的特征圖作為輸入:

FN=HN[concat(F0,F1,…,FN-1)]

(1)

式中:concat是沿通道進行的拼接操作;HN被定義為3種連續操作的復合函數,即批量歸一化(BN)、線性整流函數(ReLU)和卷積核大小為(3,3)的卷積操作。對densnet網絡不同層的描述如表1所示。

表1 對densnet網絡不同層的描述

表1中的每個“conv”層表示順序操作BN-ReLU-Conv,其中網絡的輸出層包含的節點等于不同數據集中種類數。圖3為所提出的網絡模型框架。

圖3 網絡模型框架

1.3 注意力模型

1.3.1空間注意力模型

當環境聲音受到無聲片段影響時,意味著應該為相應的幀級特征分配不同的權重。為了解決ESC中普遍存在的問題,引入了空間注意力模塊來關注特征圖的空間位置信息,從而提高ESC中網絡的性能。空間注意力模型如圖4所示。

圖4 空間注意力模型

獲得空間注意力特征圖的主要步驟如下:

將一個大小為(H*W*C)的特征圖M輸入網絡,通過卷積核(H*1)和(1*W)分別沿橫軸和縱軸對每個通道進行編碼,因此第c通道在頻率h,時間w處的輸出可表示為:

(2)

(3)

將式(2)和式(3)得到的特征圖進行拼接,最后進行卷積運算,如式(4)所示。

(4)

式中:ReLU為激活函數;conv為一種卷積運算,卷積核大小為(1,1);BN為批量歸一化;f∈R(H+W)C/r是融合特征圖,涵蓋2個方向上的空間信息,即水平和垂直方向;r為沿通道維度的壓縮比,設置為8;f是沿空間維度被分割成的2個獨立張量,即fh∈RH×C/r和fh∈RW×C/r,后面是2個卷積運算convh和convw,包含的卷積核總數等于輸入特征圖M的通道數,卷積核大小為(1,1)。

zh=σ(convh(fh))

(5)

zw=σ(convw(fw))

(6)

將式(4)的結果分別代入式(5)和式(6),得到zh和zw,分別為包含沿水平方向和垂直方向信息的張量,其中σ是sigmoid激活函數。最后,將式(5)和式(6)的結果代入式(7),得到最終的注意力特征圖S。

(7)

從式(7)可以看出,最后的注意力特征圖Sc(i,j)的每個位置的值是通過原始特征圖Mc(i,j) 乘以包含水平方向信息和垂直方向信息的張量加權而得來的,這樣可以精確定位特征圖的突出區域。

1.3.2通道注意力模型

要使網絡更加關注顯著特征的通道,應用通道注意力機制將十分有效。在眾多通道注意力機制中,SE注意力機制[10]是典型的通道注意力機制,圖5為SE通道注意力機制模型。通常SE分為2個步驟操作:壓縮和激勵。壓縮是一種獲得全局特征向量的方式,具體操作是全局平均池化特征圖的空間維度。而激勵操作是將壓縮后的特征向量輸入兩層全鏈接層,獲得注意力權重矩陣,之后再與原始特征圖的對應通道相乘,得到增強后的特征圖。

圖5 SE通道注意力機制模型

輸入的特征圖xc(i,j)首先要全局平均池化,池化公式如下:

(8)

然后通過激勵操作獲得每個特征通道對應的權重,可由式(9)定義。

wc=σ[conv2(ReLU(conv1(gc)))]

(9)

式中:wc代表第c個通道對應的注意力權重;σ代表sigmoid激活函數;conv1代表含有C/r個卷積核,卷積核大小為(1,1);conv2為含有C個卷積核的卷積運算,卷積核大小也為(1,1),卷積核中會進行卷積運算;r是特征通道維數壓縮比,設置為8。

經過增強后的特征圖可由式(10)得到。

zc=wc⊙fc

(10)

式中:zc表示經過增強的第c個特征圖;⊙為對應通道相乘;fc∈RH×W表示第c個原始特征圖。

1.3.3空間通道注意力模型

由于卷積運算獲得的跨通道信息與空間信息之間的關系錯綜復雜,因此增加對二者的注意力機制,突出關鍵特征至關重要。具體來說,通道注意力機制更加關注顯著特征的通道,空間注意力機制有助于突出特征圖中特定的空間位置信息,因此可以將通道和空間2種注意力機制結合,從而得到更好的處理結果。圖6為提出的空間通道注意力機制模型。

由式(10)可得到經過空間通道注意力模型增強后的特征圖。

Rc(i,j)=zc⊙Sc(i,j)

(11)

式中:⊙代表對應通道相乘;zc和Sc(i,j)代表由通道注意力模型和空間注意力模型得到的增強后的特征圖。

圖6 空間通道注意力機制模型

1.4 數據增強

為了解決數據不足導致的過擬合問題,采用混合[11]數據增強方法對離散樣本空間進行線性插值,以提高鄰域的平滑度。混合算法定義如下。

(12)

(13)

式中:xi和xj是來自訓練數據集中的2個樣本特征,為隨機選取且具有泛化性;yi和yj是相應的one-hot標簽;λ是服從參數為α和β的Beta分布,即λ~Beta(α,β),其中α和β都為0.2。圖7為幾個ESC-10數據集中的Log-Mel譜圖混合增強的例子,用紅色框圈出來的數值表示的是2種不同類型的Log-Mel譜圖的混合比例,兩者混合比例之和為1。可以將2種不同類別的Log-Mel譜圖以隨機比例混合形成新的特征圖,以實現數據的混合增強。

2 實驗結果

2.1 數據集

在2個公開的聲音識別數據集上(ESC-10、ESC-50[12])對所提方法的優劣進行了驗證實驗。這2個數據集是通過Freesound項目公開獲得的錄音中的聲音片段構建的,聲音樣本以44.1 kHz,單通道,192 kbit/s的Ogg-Voorbis格式進行壓縮,數據集的格式為wav。對2個數據集的描述如下。

ESC-50數據集:該數據集的音頻總時長為2.8 h,它是擁有2 000個環境聲音音頻的集合,其中的每個音頻的時長有5 s。整個集合共有50個語義類(其中每類都有40個樣本例子),可粗略的分為5大類聲音:自然環境音、動物叫聲、流水聲、人類非交流聲以及室內室外聲。數據集預先劃分為5個部分,以便于后續的交叉驗證。

ESC-10數據集:該數據集可以看成是ESC-50數據集的一個子集,類別總數為10類(海浪聲、狗吠聲、雨聲、嬰兒啼哭聲、時鐘滴答聲、打鼾聲、直升機飛行聲、公雞打鳴聲、電鋸聲、火焰燃燒聲)。每個類別也包含40條音頻。

2.2 實驗環境

實驗是在Window 10操作系統,顯存8 GB,內存32 GB,顯卡為英偉達RTX2080的硬件環境下完成的。深度學習框架為Python-Tensorflow-2.5.0版本,采用Python語言編程。

在訓練階段,采用的損失函數為交叉熵函數,迭代次數設置為300,初始學習率為0.000 02,然后每迭代50次后將學習率縮小10倍,batchsize設置為32。樣本在訓練前是亂序的,網絡權重是隨機初始化的,Adam優化器用于優化損失函數。在測試階段,網絡的最終準確率為交叉驗證后的平均準確率。訓練和測試階段涉及的Log-Mel譜圖均采用訓練集的全局平均值和標準差進行歸一化操作。

2.3 實驗結果

表2為所提出的網絡與現有最好的環境聲音分類方法的最佳準確率,模型的最終準確率為交叉驗證后的平均準確率。

由表2可以看出,所提網絡模型在2個數據集上的識別準確率分別為94.3%和79.3%,與大部分現有網絡相比,準確率有明顯提升。與MCTA-CNN相比,所提模型在2個數據集上的識別準確率下降了0.2%和7.8%,這是由于MCTA-CNN是通過多通道時間注意力機制和離線數據增強的方法(ESC-10為1 600個樣本,ESC-50為8 000 個樣本)來訓練的,使用Log-Mel譜圖、一階變量和二階變量的特征圖沿通道維度進行堆疊作為輸入,整個過程十分繁雜耗時。所提的方法實施起來是比較簡單的,但代價是準確率略有下降,但已能夠滿足生活中大部分聲音識別的場景。

表2 所提網絡和現有網絡的識別準確率 %

2.3.1模型在ESC-10上的分類效果

圖8為所提網絡模型在ESC-10數據集的混淆矩陣,模型的平均準確率為94.3%。

圖8 在ESC-10數據集上的混淆矩陣

從圖8可以看出,電鋸(Chainsaw)、直升機(Helicopter)和打鼾(Sneezing)的聲音都獲得了100%的識別率。大多數聲音識別的準確率都高于90%(36/40)。其中嬰兒啼哭聲(Crying baby)識別準確率最低,為85.0%(34/40),分別有10%(4/40)、2.5%(1/40)和2.5%(1/40)的樣本被誤分類為時鐘滴答聲(Clock tick)、犬吠聲(Dog)和火焰燃燒聲(Crackling fire),因為上述這些環境聲音特征非常相似,所以可能導致分類錯誤。

如圖9所示,為了便于體現所提出的模型的有效性,從2個角度(即二維視圖(2D)和三維視圖(3D))使用t-SNE算法,分別對ESC-10的原始數據集和訓練后得到的特征分布通過Softmax層進行可視化表示。需要注意在圖9中的同一聲音類別的樣本點顏色相同。

由圖9可以發現,ESC-10的原始數據集的潛在特征分布是混亂無序的,不同類別之間相互交錯,可分性差。通過網絡模型訓練后,潛在特征分布變得更加緊湊,同一類別的大多數樣本會匯聚在一起,并且可分離性較強。

圖9 模型訓練前后ESC-10數據集潛在特征分布

2.3.2模型在ESC-50上的分類效果

圖10為所提模型在ESC-50數據集上的混淆矩陣,模型的平均識別準確率為79.3%。從圖10可以看出,雨聲(Rain)的識別準確率為20%(8/40),是所有聲音類型中識別率最低的,大多數的雨聲被錯誤地識別為犬吠聲(Dog)(6/40)、貓叫聲(Cat)(5/40)、水滴聲(Water drops)(4/40)和海浪聲(Sea waves)(4/40),這主要是雨的頻率響應范圍很寬造成的。此外,響雷聲(Thunderstorm)、煙花爆竹聲(Fireworks)、腳步聲(Footsteps)和玻璃破碎聲(Glass breaking)有97.5%(39/40)的識別準確率,是所有聲音類型中識別率最高的。

圖10 在ESC-50數據集上的混淆矩陣

2.4 實際場景測試

除了在公共數據集上驗證網絡模型性能外,還收集了現實世界中的一些環境聲音片段,并用訓練好的網絡模型識別其聲音類別,如圖11所示。

圖11 環境聲音采集場景

以上每個場景都收集了3段5 s的聲音片段,所以總共有12段環境聲音片段進行實際場景測試。經過預處理后,上述場景聲音的Log-Mel譜圖示例如圖12所示。

圖12 實際聲音場景的Log-Mel譜圖

隨后,將采集的音頻輸入訓練好的模型進行分類,檢驗其識別準確率,測試結果的混淆矩陣如圖13所示。

圖13 采集的環境聲音片段的混淆矩陣

從圖13可以看出,網絡模型對于采集的環境聲音片段的分類準確率約為91.67%,沒有準確識別所有音頻的原因可能是分類有誤的兩類聲音時頻域特征比較相似。還需要注意的是上述環境聲音片段是利用手機麥克風進行采集的,并沒有使用專業的錄音設備。

3 結論

1) 空間和通道結合的注意力機制模型相比于單一的通道注意力機制或空間注意力機制模型更有優勢,用來訓練網絡效果更佳。

2) 采用混合增強保證數據的多樣性,可以提高模型的泛化能力以及識別的準確率。

未來將嘗試利用計算機視覺領域的方法,找出更簡單、更可行、更有效的方法來解決環境聲音分類的關鍵問題。

猜你喜歡
機制特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 欧美成人精品在线| 无码福利日韩神码福利片| 亚洲精品无码人妻无码| 91九色视频网| 欧美精品色视频| 伊伊人成亚洲综合人网7777| 五月天久久婷婷| 四虎永久在线视频| 全裸无码专区| 国产精品林美惠子在线播放| 国产真实自在自线免费精品| 亚洲综合在线网| 国产精品福利导航| 亚洲精品国产首次亮相| 一级香蕉人体视频| 囯产av无码片毛片一级| 亚洲日韩精品无码专区97| 中文字幕在线看| 色视频久久| 在线视频精品一区| 日韩成人午夜| 天天摸天天操免费播放小视频| 国产91麻豆视频| 永久免费精品视频| 久久美女精品| 国产免费怡红院视频| 亚洲国产理论片在线播放| 日本午夜视频在线观看| 国产极品美女在线播放| 婷婷综合缴情亚洲五月伊| 91国语视频| 国产网友愉拍精品| 久久一本精品久久久ー99| 亚洲人成网站日本片| 精品在线免费播放| A级毛片高清免费视频就| 亚洲av无码专区久久蜜芽| 久夜色精品国产噜噜| 国产视频大全| 亚洲国产成人超福利久久精品| 青青草国产一区二区三区| 日韩欧美国产中文| 国产丝袜一区二区三区视频免下载| av天堂最新版在线| 日韩免费毛片视频| 亚洲男人的天堂久久香蕉网| 狠狠躁天天躁夜夜躁婷婷| 日本亚洲欧美在线| 精品国产Av电影无码久久久| 国产91丝袜在线播放动漫 | 欧美精品另类| 日韩在线1| 欧美劲爆第一页| 1769国产精品免费视频| jizz国产在线| 青青国产视频| 国产一区二区免费播放| 一级一级一片免费| 亚洲丝袜中文字幕| 国产精品私拍在线爆乳| 黄色三级网站免费| 欧美日韩专区| 四虎永久在线| 网久久综合| 91年精品国产福利线观看久久| 最新国产成人剧情在线播放 | 亚洲精品欧美重口| 中文字幕1区2区| 亚洲人在线| 欧美在线一二区| 亚洲一级毛片| 玖玖精品在线| 亚洲人成成无码网WWW| 久久天天躁狠狠躁夜夜躁| 五月激情婷婷综合| 72种姿势欧美久久久久大黄蕉| 永久毛片在线播| 秘书高跟黑色丝袜国产91在线| 久久这里只有精品23| 日韩国产无码一区| 秘书高跟黑色丝袜国产91在线| 国产亚洲男人的天堂在线观看|