999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的小樣本聲目標識別方法

2021-05-07 07:54:46王鵬程王彥博孔慶珊
計算機測量與控制 2021年4期
關(guān)鍵詞:特征提取分類特征

王鵬程,崔 敏,李 劍,王彥博,趙 欣,孔慶珊

(1.中北大學 信息探測與處理山西省重點實驗室,太原 030051;2.北方科技信息研究所,北京 100089; 3.山東省軍區(qū)數(shù)據(jù)信息室,濟南 250099)

0 引言

聲目標分類是實現(xiàn)聲源識別的主要方法[1],指的是將聲信號數(shù)據(jù)與目標標簽相關(guān)聯(lián),從而實現(xiàn)聲信號到聲源類別的識別。

聲音信號識別的經(jīng)典方法有高斯混合模型(GMMs, gaussian mixture model)[2],支持向量機(SVM, support vector machines)[3],隱馬爾可夫模型(HMM, hidden Markov model)[4]等經(jīng)典機器學習方法,由于采用手工設(shè)計特征并識別的方法,通常能取得非常準確的效果。但這些方法無法自動提取特征,在識別新信號時往往表現(xiàn)較差,仍然需要重新做算法開發(fā),存在適用范圍小、泛化能力差的問題。

深度學習近年來蓬勃發(fā)展,憑借其在計算機視覺[5]、自然語言[6]、生物信息學[7]等領(lǐng)域的獨特優(yōu)勢,成為眾多學者的研究熱點[8-9],在文字[10],圖像[11]和聲音[7]等數(shù)據(jù)的解析方面有很大的應用價值,能夠?qū)W習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,解決了很多復雜的模式識別難題。

將其應用于聲目標分類識別也取得了很好的效果。或是使用卷積神經(jīng)網(wǎng)絡技術(shù)(CNN, convolutional neural networks)直接從聲譜圖數(shù)據(jù)中識別特征[12],或是通過無監(jiān)督學習技術(shù)根據(jù)數(shù)據(jù)間特征的相似性進行分組(聚類算法)[13],又或者將多種CNN網(wǎng)絡融合后進行多時間分辨率分析和多級特征提取[14],這些聲目標分類方法不需要人工提取特征,且識別精度可觀。然而,由于模型參數(shù)量巨大,容易過擬合,這使得在處理低復雜度樣本時會很困難。然而,在具體的聲源識別應用中,往往缺乏大規(guī)模的訓練數(shù)據(jù),無法滿足模型高樣本復雜度的要求。

基于上述問題,本文提出了一種基于深度學習的小樣本聲目標識別方法,基于殘差網(wǎng)絡(ResNet, residual network)設(shè)計了聲目標分類模型(MDF-ResNet, handmade design features ResNet)。模型采用了對數(shù)梅爾聲譜圖特征和手工設(shè)計特征分別對聲音數(shù)據(jù)進行特征預提取,擴充模型可用特征量;通過ResNet網(wǎng)絡結(jié)構(gòu)對兩種預提取特征進行深度提取和分類處理,提高特征利用率,最終實現(xiàn)聲目標的準確分類。

1 小樣本聲目標識別方法

為完成小樣本條件下的聲信號準確分類,結(jié)合聲信號處理中前端和后端的方法,從信號采集到信號識別做了一系列工作。首先,通過高靈敏度全指向性聲傳感器組成麥克風陣列,收集到不同聲源發(fā)出的聲信號,數(shù)據(jù)預處理之后,對聲信號數(shù)據(jù)進行手工設(shè)計特征和Log-mel spectrogram提取,得到(人工特征數(shù)×幀數(shù)×通道數(shù))形式的手工設(shè)計分類特征和(frequency,timesteps,channel)形式的Log-mel spectrogram特征。其次,基于ResNet網(wǎng)絡構(gòu)建適用于聲信號數(shù)據(jù)的深度學習訓練網(wǎng)絡。以手工設(shè)計分類特征和聲譜圖為輸入,聲源類型為標簽輸出,建立聲信號特征到聲源類型的端到端深度學習模型MDF-ResNet。最后,對網(wǎng)絡模型進行訓練,通過實驗測試模型性能。

2 聲信號特征預提取方法

2.1 對數(shù)梅爾聲譜圖特征

聲音數(shù)據(jù)是一種多通道的波形數(shù)據(jù),轉(zhuǎn)化為張量數(shù)據(jù)時體現(xiàn)為(timesteps,features)的二維時間序列信息, 如圖1,但這只考慮到了聲音的時域信息,未對其頻域信息進行分析,因此需要對聲音數(shù)據(jù)進行時頻域分析,將數(shù)據(jù)轉(zhuǎn)化為聲譜圖形式,得到包含聲音時頻域信息的聲譜圖,如圖2,將其當做圖像來處理,就可以在聲譜圖上訓練深度卷積神經(jīng)網(wǎng)絡,利用卷積網(wǎng)絡的特征提取能力對聲信號進行特征提取。

圖1 聲音波形圖

圖2 對數(shù)梅爾聲譜圖

在聲信號處理領(lǐng)域分析音頻,往往從中提取一種稱為梅爾倒譜系數(shù)(MFCC,Mel frequency cepstrum coefficient)的特征參數(shù)作為預提取特征[4],但在MFCC提取過程中會損失大量聲音細節(jié),深度學習興起后,深度神經(jīng)網(wǎng)絡強大的特征提取能力使得我們只需要將信息更加豐富的對數(shù)梅爾聲譜[15](如圖2)信息直接送入神經(jīng)網(wǎng)絡進行訓練,讓神經(jīng)網(wǎng)絡提取更加魯棒的特征。

從聲信號數(shù)據(jù)中提取得到Log-mel聲譜圖的過程如圖3所示。

圖3 對數(shù)梅爾聲譜特征提取

2.2 手工設(shè)計特征

手工設(shè)計特征基于特征工程方法[16],即預先經(jīng)過人工設(shè)計并從音頻信號中提取的特征。手工設(shè)計特征偏重于對聲音信號的整體認識如聲高、音調(diào)以及沉默率,通過手工工設(shè)計特征從數(shù)據(jù)中得到有意義的數(shù)據(jù)特征,高質(zhì)量的特征有助于提高模型整體的性能和準確性。特征在很大程度上與基本問題相關(guān)聯(lián),需要設(shè)計與場景、問題和領(lǐng)域相關(guān)的特征。

用音頻分析開源軟件Essentia的特征提取器Freesound對聲音數(shù)據(jù)抽取手工特征,Essentia提供了用于TensorFlow深度學習模型的接口,便于嵌入深度學習中使用。首先對音頻文件作分幀處理,將10 s的聲音信號分為500幀,每一幀信號40 ms,相鄰幀間有20 ms重疊。

然后進行Freesound特征提取:對于單通道內(nèi)每一幀信號用Freesound特征提取(參數(shù)設(shè)置為默認值)抽取400個特征如表1所示。每個聲音樣本可得到(手工特征數(shù)×幀數(shù)×通道數(shù))形式的Freesound手工設(shè)計聲源分類特征。

表1 Freesound特征提取器提取到的特征

3 聲目標分類模型MDF-ResNet

3.1 卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡,是深度學習的代表算法之一。卷積神經(jīng)網(wǎng)絡具有表征學習能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類。

由于孔子所處時代的影響,孔子提出的禮更加注重實踐價值和可操作性。首先來說,禮是人倫關(guān)系的規(guī)定。孔子所制之禮以現(xiàn)實生活的內(nèi)容為基,把周禮神秘的內(nèi)容轉(zhuǎn)為世俗性的,人倫性質(zhì)的關(guān)系。周禮的主要內(nèi)容都是關(guān)于祭祀的。“國之大事,在祀與戎。祀有執(zhí)脂,戎有受服,神之大節(jié)也。”[4](《左傳》成公十三年)之所以周人注重祭祀,并不僅僅是因為祭祀本身是一件神圣的事件,更為重要的是通過祭祀神圣連接主宰事物的神以說明統(tǒng)治的合法性。

卷積是一種線性運算。卷積網(wǎng)絡是使用卷積運算代替矩陣乘法運算的神經(jīng)網(wǎng)絡。例如,它被定義為:

其中是輸入nin矩陣的個數(shù)或者是張量的最后一個維度。Xk表示第k個輸入矩陣。Wk表示卷積核的第k個子卷積核矩陣。S(i,j)對應位置的值是輸出矩陣的元素對應于卷積內(nèi)核W。對于卷積后的輸出,通常用經(jīng)過激活函數(shù)——整流線性單元Relu將輸出張量中小于0的元素值整形為0值。通過卷積神經(jīng)網(wǎng)絡的不斷堆疊,網(wǎng)絡越來越深,不僅可以實現(xiàn)卷積網(wǎng)絡強大的表征能力,而且隨著網(wǎng)絡深度增加,過擬合的問題也得到了改善。

3.2 ResNet分類網(wǎng)絡

一般來說,通過不斷堆疊網(wǎng)絡層來加深、加寬神經(jīng)網(wǎng)絡,深度學習會有更強的表達能力,模型性能也會提高。但實驗發(fā)現(xiàn)一味地增加網(wǎng)絡層數(shù)并不能帶來分類性能的進一步提高,而且參數(shù)量的不斷增加會導致在小樣本條件下,網(wǎng)絡收斂變得更慢,分類準確率也變得更差。因此,本文采用了ResNet網(wǎng)絡:

H(x)=F(x)+x

(1)

將求解x到H(x)的問題轉(zhuǎn)化為求解兩者之間差值F(x)的問題,這樣網(wǎng)絡內(nèi)的信號可以直接通過捷徑連接到更深的層,這樣在網(wǎng)絡末端仍保留大量有效特征,數(shù)據(jù)內(nèi)的特征信號得到充分挖掘和利用,能夠在深度增加的情況下維持強勁的準確率增長,這使得ResNet分類網(wǎng)絡成為了當前應用最為廣泛的CNN特征提取網(wǎng)絡。

3.3 預訓練網(wǎng)絡

想要將深度學習應用于小樣本數(shù)據(jù)集,一種常用且非常高效的方法是使用預訓練網(wǎng)絡。預訓練網(wǎng)絡(pretrained network)是已在大型數(shù)據(jù)集上訓練好的模型,如果這個原始數(shù)據(jù)集足夠大且足夠通用,那么預訓練網(wǎng)絡學到的特征空間層次結(jié)構(gòu)可以有效地作為聲學分析的通用模型,因此這些特征可用于各種不同的聲信號分類問題,即使這些新問題涉及的類別和原始任務完全不同。

DCASE聲音場景與事件檢測分類挑戰(zhàn)賽中,任務A聲學場景分類的數(shù)據(jù)集是一個可供聲學分析的大型數(shù)據(jù)集,ResNet網(wǎng)絡在該任務上取得了很好的效果,我們采用在該分類任務上訓練好的ResNet網(wǎng)絡來處理我們采集到的聲數(shù)據(jù)。

采用了網(wǎng)絡微調(diào)fine-tuning的方法使用預訓練網(wǎng)絡,僅保留網(wǎng)絡的卷積部分用來做特征提取,將預訓練網(wǎng)絡的分類器部分丟掉,增加需要訓練的新分類器。某個卷積層特征提取的通用性(以及可復用性)取決于該層在模型中的深度,模型中越深的層能夠提取到越抽象的概念。由于新數(shù)據(jù)集與模型訓練的原始數(shù)據(jù)集有著較大差異,所以只使用模型前一部分層來做特征提取,而更深的層則與新加的特征分類器一起訓練。

3.4 聲目標分類模型

基于ResNet網(wǎng)絡設(shè)計了MDF-ResNet模型,結(jié)構(gòu)如圖4所示。

圖4 神經(jīng)網(wǎng)絡模型示意圖

MDF-ResNet模型包含36個卷積層,Log-mel能譜圖特征與手工設(shè)計特征的兩個分支上各有17個卷積層。這些卷積層的前后層分別是批量標準化層和采用了relu激活函數(shù)的激活層;其中,將批量標準化層scale和center參數(shù)設(shè)為False,起到了正則化的作用,防止模型過擬合,relu激活層對卷積層輸出的結(jié)果進行非線性變化,修正網(wǎng)絡中的線性輸出。

兩種特征分支結(jié)束后,通過Add層的add操作將兩個分支的輸出數(shù)據(jù)結(jié)合,結(jié)合后的特征經(jīng)過一個分類器來對特征進行最后的分類。分類器由Conv2D層、批量標準化層、全局池化層和激活層組成,這里Conv2D層使用了1×1的卷積核大小,第二個Conv2D層的卷積核個數(shù)設(shè)置為聲目標分類數(shù)量,再經(jīng)過全局池化層展開成一維向量數(shù)據(jù)后,由采用了Softmax函數(shù)的激活層對每個通道的貢獻進行加權(quán),實現(xiàn)聲目標的分類。

4 實驗驗證和結(jié)果分析

本實驗所采用的硬件平臺處理器為Intel (R) Core (TM) i7-7700@2.80 GHz,顯卡為NVIDIA Tesla V100,使用了并行計算架構(gòu)CUDA對深度學習處理流程進行加速。

4.1 數(shù)據(jù)準備

為了驗證所提出的模型,本文中建立了一個聲學信號硬件采集系統(tǒng)[17]來采集多個聲源信號。采集系統(tǒng)由16位分辨率16輸入數(shù)字采集設(shè)備SPECTRUM DN2.592-16、16個駐極體電容話筒Micw i436組成的球形陣列和定向揚聲器組成,采集參數(shù)由筆記本電腦控制程序進行調(diào)整。我們采用48 kHz采樣率采集了8個不同聲源的聲信號數(shù)據(jù),每個聲源包含1 000個樣本,共8 000個樣本數(shù)據(jù)集。每個樣本持續(xù)10秒。

4.2 數(shù)據(jù)預處理

利用librosa包中的log-mel方法對聲音數(shù)據(jù)作特征預提取,并使用二階差分對預提取特征進行處理增加聲信號動態(tài)信息。最終,經(jīng)過預處理后得到數(shù)據(jù)集為(8 000,128,461,6)。使用2.2中方法對聲音數(shù)據(jù)提取手工設(shè)計特征,得到數(shù)據(jù)大小為(8 000,500,400,2)。對8 000個樣本對應的分類標簽轉(zhuǎn)換成one-hot編碼的形式。數(shù)據(jù)集的訓練集和測試集的劃分比例為7∶3。

4.3 實驗驗證

在訓練中,批處理量為32,損失函數(shù)使用交叉熵損失函數(shù)categorical_crossentropy,優(yōu)化器使用隨機梯度下降優(yōu)化器SGD,epoch次數(shù)設(shè)為500次,使用學習率重置方法,在3、8、18、38、128和256次迭代后將學習率重置為最大值0.1,然后按照余弦函數(shù)方式衰減到0.000 01,這種方法可以提高分類的準確性。

為了對比驗證MDF-ResNet模型的性能,使用了Densenet121,ResNet101和Inception v4這3種深度學習網(wǎng)絡結(jié)構(gòu)在log-mel聲譜圖上同樣訓練了500次迭代。

4.4 結(jié)果分析

圖5、6中所示是MDF-ResNet,Densenet121,ResNet101和Inception v4對應的訓練準確性和損失。表2詳細列出了每個模型的性能,表中顯示了模型在測試集上的分類表現(xiàn)。可以看出,MDF-ResNet首先達到收斂,可以將其損失降低到非常低,且最終達到的識別精度是最高的。

圖5 訓練損失值曲線圖

圖6 訓練精準度曲線圖

表2 各模型的訓練情況和測試精度

最后,MDF-ResNet在測試集上的識別準確性為87.6%,如圖7所示,橫軸為網(wǎng)絡預測結(jié)果,縱軸為真實標簽,在各分類上的精度從81.82%~92.93%之間。這表明MDF-ResNet可以完成有效而準確的聲信號分類和識別。

圖7 訓練損失值曲線圖

為了研究不同訓練數(shù)據(jù)量下的模型性能,本文從8 000個樣本數(shù)據(jù)集中創(chuàng)建了1 000、1 500,…,4 500、5 000,…,7 500和8 000個訓練樣本的數(shù)據(jù)子集。在不同樣本量上以同樣的訓練方式所訓練的不同模型的精度如圖8所示。

圖8 不同數(shù)量訓練樣本上訓練不同模型的對比實驗

圖8的結(jié)果表明,與其他幾種模型相比,MDF-ResNet在每個數(shù)據(jù)子集中表現(xiàn)更好,并且在較小的樣本數(shù)據(jù)子集中(例如1 000、2 000、3 000、4 000個樣本)表現(xiàn)出更好的識別能力。手工設(shè)計特征的加入,使得該模型只需少量訓練樣本即可實現(xiàn)較高的識別精度。

5 結(jié)束語

本文針對聲源目標分類中小樣本訓練時分類模型性能不佳的問題,提出了一種基于深度學習的小樣本聲目標識別方法——MDF-ResNet模型。該模型在log-mel聲譜圖特征提取之外,增加了手工設(shè)計特征作為模型的特征補充,提高了小樣本數(shù)據(jù)的樣本復雜性。該模型在搭建的聲信號采集系統(tǒng)獲取到的8種聲源數(shù)據(jù)集上進行了實驗驗證,即使在少量訓練樣本上,MDF-ResNet仍然能夠?qū)崿F(xiàn)良好的識別精度。在處理聲信號分類中樣本復雜性低的問題時,MDF-ResNet在準確性上有顯著的提高。在聲源探測領(lǐng)域具有一定的工程應用價值。

該分類模型能夠靈活勝任基于大型和小型數(shù)據(jù)庫的訓練任務。目前的模型結(jié)合了人工設(shè)計特征,可在樣本復雜性低的情況下訓練,降低了對樣本量的要求。作為未來的工作,該算法還可推廣到其它應用領(lǐng)域,如醫(yī)學圖像識別、人臉識別與人臉偽裝、人臉匹配與視頻、人臉速寫與照片匹配等。

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 久久黄色小视频| 国产男女免费视频| 成人第一页| 高清不卡毛片| 欧美第一页在线| 国产成人亚洲无码淙合青草| 国产91无码福利在线| 91久久精品日日躁夜夜躁欧美| 国产簧片免费在线播放| 国产精品夜夜嗨视频免费视频| 99久久亚洲综合精品TS| h网站在线播放| 国产精品第页| www.99精品视频在线播放| 再看日本中文字幕在线观看| 欧美a在线视频| 久久久久久午夜精品| 久久不卡国产精品无码| 亚洲动漫h| 午夜老司机永久免费看片| 亚洲国产成人精品一二区 | 亚洲免费毛片| 全免费a级毛片免费看不卡| 久久一色本道亚洲| 久久综合婷婷| 成人精品午夜福利在线播放 | 国产一区二区影院| 欧美精品一区在线看| 国产不卡国语在线| 91福利免费| 青青青视频91在线 | 久久香蕉国产线看观看精品蕉| a毛片基地免费大全| 免费不卡在线观看av| 色天天综合| 狠狠干综合| 国产精品手机在线播放| 国产精品尤物铁牛tv | 色综合天天综合中文网| 亚洲欧美在线综合图区| 国产在线拍偷自揄观看视频网站| 欧美亚洲第一页| 999国内精品视频免费| 中文纯内无码H| 中文字幕人成乱码熟女免费| 午夜啪啪福利| 熟妇无码人妻| 一本一道波多野结衣av黑人在线| 国产一二三区视频| 午夜啪啪网| 国产精品成人免费视频99| 久久99国产乱子伦精品免| 毛片免费在线| 成人福利在线视频| 亚洲欧美日韩精品专区| 亚洲国产综合自在线另类| 亚洲免费人成影院| www.youjizz.com久久| 亚洲第一成网站| 精品撒尿视频一区二区三区| 国产屁屁影院| 国产99精品视频| 国产美女91视频| 欧美三级日韩三级| 欧美亚洲国产精品久久蜜芽| 成人字幕网视频在线观看| 久久99国产综合精品女同| 国产精品久久久免费视频| 久久免费视频6| 亚洲精品国偷自产在线91正片| 亚洲视频二| 国产哺乳奶水91在线播放| 亚洲成人精品在线| 亚洲天堂色色人体| 欧美一级99在线观看国产| 久久99精品久久久久久不卡| 欧洲极品无码一区二区三区| 乱人伦99久久| 亚洲男人天堂2020| 米奇精品一区二区三区| 青青草原偷拍视频| 亚洲精品视频免费看|