999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PANNs-CNN的環(huán)境聲音分類算法研究及應(yīng)用

2024-12-31 00:00:00關(guān)志廣
無線互聯(lián)科技 2024年16期

摘要:環(huán)境聲音分類(ESC)技術(shù)主要涉及聲音特征提取和分類器算法的選擇。為了探索最佳的特征提取方法和分類器組合,文章對深度學習模型PANNs-CNN進行了研究和分析,對不同的特征提取方法進行了實驗對比。實驗結(jié)果表明,在與同類模型對比中,選用預(yù)訓練且更深層的CNN模型可以提高ESC的預(yù)測性能;Log-Mel特征可以更好地保留聲音信號高維度特征及特征相關(guān)性,有助于提升模型分類準確率。文章研究的基于Log-Mel特征提取方式和PANNs-CNN 14的環(huán)境聲音分類算法在ESC-50數(shù)據(jù)集上的分類準確率最好,并且在實際應(yīng)用中驗證了該算法的有效性。

關(guān)鍵詞:環(huán)境聲音分類;預(yù)訓練音頻神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);Log-Mel;Mel頻率倒譜系數(shù)

中圖分類號:TP3-05" 文獻標志碼:A

0 引言

環(huán)境聲音分類(Environmental Sound Classifica-tion, ESC)技術(shù)已被廣泛應(yīng)用于警報系統(tǒng)、野生動物監(jiān)測、城市環(huán)境聲音檢測等領(lǐng)域,主要涉及聲音特征提取和分類器算法的選擇。在聲音特征提取方面,目前廣泛使用基于梅爾濾波器組和伽瑪通濾波器組的特征提取方法。在分類器方面,與傳統(tǒng)機器學習模型的手動特征提取方案相比,深度學習能夠從大型數(shù)據(jù)集中自動提取具有區(qū)分性的特征,并且在未見過的數(shù)據(jù)上具有良好的泛化能力。Piczak[1]采用了從Log-Mel(LM)特征中獲得的二維結(jié)構(gòu)輸入具有2個全連接層和2個卷積層的深度學習模型,該模型的準確率達到了64.5%。Tokozume等[2]提出了一個由全連接層和一維卷積層組成的CNN模型,從原始波形中提取特征,達到了71.0%的準確率。Zhu等[3]研究了由6個卷積層組成的深度神經(jīng)模型的預(yù)測性能,基于頻譜圖和原始波進行特征提取,獲得了79.1%的準確率。

然而,這些研究工作仍然存在明顯不足:(1)選用的特征提取算法很多是為語音、音樂等結(jié)構(gòu)化聲音信號設(shè)計的,無法充分表征復(fù)雜的非結(jié)構(gòu)化環(huán)境聲音;(2)對更深的神經(jīng)網(wǎng)絡(luò)探索不足,訓練模型的泛化能力不強。為此,本文選用在AudioSet數(shù)據(jù)集預(yù)訓練的深度學習模型PANNs-CNN作為主干架構(gòu),使用公開數(shù)據(jù)集ESC-50進行模型微調(diào)(fine-tune),對基于梅爾濾波器組的Log-Mel特征和Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)特征提取方法進行實驗對比,以探尋最佳的特征提取方法與分類器的組合。

1 研究對象與方法

1.1 ESC-50數(shù)據(jù)集

聲音檢測在研究領(lǐng)域取得了巨大進展,公開可用的帶標注數(shù)據(jù)集功不可沒。ESC-50是2000個環(huán)境聲音樣本的帶標注公開數(shù)據(jù)集,可以認為是環(huán)境聲音分類的基準數(shù)據(jù)集之一。該數(shù)據(jù)集包含了5大類聲音樣本,分別是動物聲音、自然界聲音、人類發(fā)出的非語言聲音、室內(nèi)聲音以及城市噪聲。每個大類的聲音樣本又細分為10個小類,是單通道的.wav文件,采樣頻率為44.1 kHz,時長為5 s。

1.2 特征提取方法

1.2.1 Log-Mel特征

聲音信號首先經(jīng)過預(yù)處理(包括預(yù)加重、分幀和加窗等)后進行短時傅里葉變換(Short-Time Fourier Transform,STFT),得到功率譜;然后通過一組三角形梅爾濾波器,對功率譜進行濾波得到梅爾頻譜。

Log-Mel特征是對梅爾頻譜進行對數(shù)運算得到的,其表達式滿足式(1)。

LogMel(m,j)=log(Sm(m,j)+ε)(1)

其中,Sm(m,j)是聲音信號的梅爾頻譜,ε是一個小常數(shù),用于避免對數(shù)零值問題。對數(shù)運算考慮了人類聽覺系統(tǒng)的非線性特性,使提取的特征更加符合人類的聲音感知。

1.2.2 MFCC特征

MFCC特征是對Log-Mel特征進行離散余弦變換得到的,其表達式滿足式(2)。

MFCC(m,n)=∑J-1j=0LogMel(m,j)·cosπnJ(j+12)(2)

其中,n是MFCC系數(shù)的索引,J是MFCC的系數(shù)數(shù)量。為了壓縮數(shù)據(jù),一般僅保留最有效(前12~20個)的MFCC特征,因此J通常取值為13。

1.3 PANNs-CNN模型

在大規(guī)模AudioSet數(shù)據(jù)集中,基于卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓練音頻神經(jīng)網(wǎng)絡(luò)(Pretrained Audio Neural Networks based Convolutional Neural Network,PANNs-CNN)分為6層、10層和14層結(jié)構(gòu),在本文分別記為PANNs-CNN6、PANNs-CNN10、PANNs-CNN14。6層結(jié)構(gòu)由4個卷積層組成,卷積核大小為(5,5)。10層和14層結(jié)構(gòu)分別由4個和6個卷積塊組成,每個卷積塊由2個卷積層組成,卷積核大小為(3,3)。PANNs-CNN在每個卷積層之間應(yīng)用批量歸一化(Batch Normalization,BN),并使用ReLU激活函數(shù)。卷積模塊之后使用平均池化下采樣,池化核大小為(2,2)。PANNs-CNN14的模型結(jié)構(gòu),如圖1所示。

2 實驗及分析

2.1 實驗設(shè)置

2.1.1 數(shù)據(jù)集

本文使用ESC-50數(shù)據(jù)集對PANNs-CNN進行訓練和評估。聲音的采樣頻率為44.1 kHz,窗函數(shù)選擇漢寧窗,幀長為1024,幀移為320,梅爾頻率通道數(shù)為64。

本文采用5-fold交叉驗證的方法劃分數(shù)據(jù)集,以證明最終模型評估結(jié)果非隨機產(chǎn)生。即將整個數(shù)據(jù)樣本分成5等份,訓練過程每次選擇其中的一份作為驗證集,其余4份作為訓練集,最終以5次訓練在驗證集上的準確率均值作為該模型的最終評估結(jié)果。

2.1.2 模型參數(shù)

為適配ESC-50數(shù)據(jù)集,本文在PANNs-CNN模型的末尾添加了50個節(jié)點的全連接神經(jīng)網(wǎng)絡(luò),用以將提取的音頻特征映射到分類標簽的空間。每個模型的超參數(shù)均進行相同的設(shè)置,每次訓練的Epoch均為50次,優(yōu)化函數(shù)為Adam,學習率為0.0001,batch size設(shè)置為16,dropout值為0.3,損失函數(shù)為交叉熵損失函數(shù)。

本文所有模型均基于paddlepaddle-gpu 2.6.1深度學習框架及Python 3.8進行訓練。用于程序運行的計算機操作系統(tǒng)為Ubantu18.04,內(nèi)存為64 GB,處理器型號為Intel Xeon W-2223,顯卡型號為NVIDIA GeForce RTX 2080 Ti,顯卡內(nèi)存為11 GB。

2.2 實驗結(jié)果

2.2.1 準確率和損失值

PANNs-CNN模型在ESC-50數(shù)據(jù)集的訓練準確率(train_acc)、驗證準確率(val_acc),如圖2所示;訓練損失(train_loss)、驗證損失(val_loss),如圖3所示。

可以看到,PANNs-CNN 14經(jīng)過大約20次的迭代,驗證集的準確率穩(wěn)定在92.5%左右,損失值在0.29左右。其達到穩(wěn)定準確率和損失值所需的迭代次數(shù),明顯少于實驗中同類模型PANNs-CNN6、PANNs-CNN10所需的50次以上。

PANNs-CNN模型以及現(xiàn)有的部分同類環(huán)境聲音分類模型,在ESC-50數(shù)據(jù)集的準確率如表1所示。

可以看到,基于Log-Mel特征和PANNs-CNN 14的環(huán)境聲音分類算法在ESC-50數(shù)據(jù)集上的分類精度最高。這說明對于復(fù)雜環(huán)境聲音分類任務(wù),選用預(yù)訓練且更深層的CNN模型可以提高ESC的預(yù)測性能。

2.2.2 特征提取方法對比

為了研究不同特征提取方法的模型效果,另一組實驗在相同的數(shù)據(jù)集和模型參數(shù)下,采用MFCC特征提取的方法微調(diào)PANNs-CNN 14模型。MFCC特征的維度是13維,加上一階、二階差分,得到39維的MFCC特征。不同特征提取方法的模型準確率曲線、損失曲線分別如圖4—5所示。

由圖可以看到,對于復(fù)雜環(huán)境聲音分類任務(wù),采用Log-Mel特征提取方法的PANNs-CNN 14模型在驗證集的準確率和損失值上均優(yōu)于采用MFCC特征提取方法的同種模型。這是因為MFCC特征舍棄了聲音部分高維度特征,更強調(diào)低頻部分的聲音特征,因而更適用于傳統(tǒng)的語音識別,而PANNs-CNN 14模型利用包含高維度特征及特征相關(guān)性的Log-Mel特征,對復(fù)雜環(huán)境聲音有更好的分類性能。

采用MFCC、Log-Mel特征提取方法訓練的PANNs-CNN 14模型在ESC-50數(shù)據(jù)集中進行訓練的準確率如表2所示。

3 模型應(yīng)用

通過上述的實驗及分析,Log-Mel特征提取方法與PANNs-CNN 14模型組合的算法性能在公開數(shù)據(jù)集上得到驗證。此外,本文還采集了真實環(huán)境中的聲音片段,構(gòu)建了樣本量為200、分類為車輛碰撞聲、人體摔倒聲、施工噪聲、水龍頭漏水聲的數(shù)據(jù)集。該聲音場景數(shù)據(jù)集樣本的梅爾語譜圖示例如圖6所示。

采用Log-Mel特征提取方法,將提取到的聲音特征微調(diào)PANNs-CNN 14模型,在樣本量為40的實驗中,驗證評估其分類準確率,得到的混淆矩陣,如圖7所示。

可以看到,在實際應(yīng)用中模型對4種聲音場景的分類準確率約為90%。這說明在實際聲音分類應(yīng)用中,采用Log-Mel特征的PANNs-CNN 14模型具有良好的性能表現(xiàn)。不難分析,除了場景頻域特征相似導致分類錯誤外,聲音樣本的噪聲也對分類效果產(chǎn)生了負面影響。

4 結(jié)語

本文研究了在大規(guī)模數(shù)據(jù)集預(yù)訓練的深度學習模型中解決環(huán)境聲音分類的問題。實驗結(jié)果表明,在與同類模型的對比中,選用預(yù)訓練且更深層的CNN" 模型可以提高ESC的預(yù)測性能;Log-Mel特征可以更好地保留聲音信號高維度特征及特征相關(guān)性,有助于提升模型分類準確率。相比于現(xiàn)有的一些CNN模型,結(jié)合Log-Mel特征提取方法的PANNs-CNN 14模型的分類性能得到明顯提升,并在實際采集的4種聲音場景中表現(xiàn)出良好的泛化能力。后續(xù)的研究方向,可以針對抗噪性能更強的模型結(jié)構(gòu)進行研究和改進,以實現(xiàn)更優(yōu)的聲音分類效果。

參考文獻

[1]PICZAK K J. 25th International Workshop on Machine Learning for Signal Processing,September 17-20,2015[C]. Boston:IEEE,2015.

[2]TOKOZUME Y,HARADA T. International Conference on Acoustics, Speech, and Signal Processing (ICASSP),March 05-09,2017[C]. New Orleans:IEEE,2017.

[3]ZHU B Q, WANG C J, LIU F, et al. International Joint Conference on Neural Networks(IJCNN),July 08-13,2018[C]. Rio de Janeiro:IEEE,2018.

[4]ZHANG X H, ZOU Y X, SHI W. 2017 22nd International Conference on Digital Signal Processing,August 23-25,2017[C]. London:IEEE,2017.

[5]PICZAK K J. Proceedings of the 23rd ACM International Conference on Multimedia,October 26-30,2015[C]. New York:SIGMM,2015.

(編輯 沈 強)

Research and application of environmental sound classification algorithm based on PANNs-CNN

GUAN" Zhiguang

(Nanning Vocational and Technical University, Nanning 530008, China)

Abstract: Environmental sound classification(ESC) technology mainly involves sound feature extraction and the selection of classifier algorithms. In order to explore the best feature extraction methods and classifier combinations, this article studies and analyzes the deep learning model PANNs-CNN, and compares different feature extraction methods through experiments. The experimental results show that compared with similar models, selecting pretrained and deeper CNN models can improve the predictive performance of ESC. Log-Mel features can better preserve high-dimensional features and feature correlations of sound signals,which helps improve the accuracy of model classification. The environmental sound classification algorithm based on Log-Mel feature extraction method and PANNs-CNN14 studied in the article has the best classification accuracy on the ESC-50 dataset,and its effectiveness has been verified in practical applications.

Key words: ESC; PANNs; CNN; Log-Mel; Mel frequency cepstrum coefficient

基金項目:廣西教育科學“十四五”規(guī)劃2023年度專項課題;項目名稱:新工科背景下人工智能類專業(yè)專創(chuàng)融合實踐教學研究;項目編號:2023ZJY1841。

作者簡介:關(guān)志廣(1988— ),男,講師,碩士;研究方向:人工智能及機器人技術(shù)。

主站蜘蛛池模板: 国产婬乱a一级毛片多女| 日韩国产精品无码一区二区三区| 久久综合婷婷| 精品久久久久久中文字幕女| 欧美五月婷婷| 国产精品粉嫩| 午夜精品久久久久久久无码软件 | 2021国产乱人伦在线播放| 久久久久久高潮白浆| 国产精品美乳| 国产乱人伦AV在线A| 亚洲精品视频免费观看| 精品在线免费播放| 红杏AV在线无码| 精品人妻无码区在线视频| 尤物国产在线| 久久国产乱子伦视频无卡顿| 亚洲欧美日韩高清综合678| 午夜老司机永久免费看片| 亚洲国产亚综合在线区| 伊伊人成亚洲综合人网7777| 欧美日韩91| 91精品国产情侣高潮露脸| 欧美日韩一区二区在线播放| 国产无人区一区二区三区| 一区二区偷拍美女撒尿视频| 久久99国产精品成人欧美| 91久久国产综合精品| 国产精品亚洲а∨天堂免下载| 日韩亚洲综合在线| 亚洲精品无码在线播放网站| 国产日本视频91| 国产色网站| 麻豆国产在线观看一区二区 | 免费看av在线网站网址| 日韩无码真实干出血视频| 色屁屁一区二区三区视频国产| 九九热精品视频在线| A级全黄试看30分钟小视频| 综合色88| 亚洲黄色成人| 四虎影视永久在线精品| 99视频在线精品免费观看6| 无码精品一区二区久久久| 亚洲国产精品日韩欧美一区| 亚洲人成在线精品| 亚洲免费毛片| 亚洲午夜18| 亚洲天堂视频在线播放| 国产人人干| 久久综合丝袜日本网| 人人爱天天做夜夜爽| 成人综合网址| 91久久性奴调教国产免费| 国产大片黄在线观看| 99re66精品视频在线观看| 99这里只有精品在线| 无码综合天天久久综合网| 国产正在播放| 久久国产香蕉| 四虎永久免费在线| 欧美一区二区人人喊爽| 国产a v无码专区亚洲av| 国产精品男人的天堂| 国产尤物在线播放| 亚洲娇小与黑人巨大交| 美女一级毛片无遮挡内谢| 国产精品男人的天堂| 亚洲精品第一页不卡| 久久无码av三级| 91高清在线视频| 国产成人盗摄精品| 国产成人1024精品下载| 亚洲91在线精品| 被公侵犯人妻少妇一区二区三区| 97成人在线视频| 亚洲中文字幕23页在线| 欧美激情福利| 欧美成一级| 久久96热在精品国产高清| 国产精品开放后亚洲| 在线看AV天堂|