999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙重數據增強策略的音頻分類方法

2020-05-12 14:16:44張曉龍
武漢科技大學學報 2020年2期
關鍵詞:分類方法模型

周 迅,張曉龍

(1.武漢科技大學計算機科學與技術學院,湖北 武漢,430065;2.武漢科技大學大數據科學與工程研究院,湖北 武漢,430065;3.武漢科技大學智能信息處理與實時工業系統湖北省重點實驗室,湖北 武漢,430065)

聲音在人類接收的信息中占有很大比重。隨著科技的發展,使用數字格式的音頻信息量急劇增加,計算機聽覺技術也應運而生,并且有著越來越廣泛的應用領域,如環境辨識[1]、音頻監控系統[2]、機器人控制[3]、生物識別、聽力輔助裝置、智能家居[4]等。

音頻分類屬于計算機聽覺技術的重要組成部分,而音頻特征提取對提高分類精度至關重要,表征效果不佳的音頻特征將直接導致后續分類精度降低。傳統的音頻特征提取方法比較多,如梅爾頻率倒譜系數(MFCC)[5-6]、矩陣分解[7-8]、字典學習以及基于小波變換的特征提取[9]等方法。

近年來,深度學習相關技術取得較大進展,研究者嘗試使用神經網絡對傳統音頻特征進行計算以得到音頻的高層特征[10-11],這些高層特征的表達能力往往更強,可以為后續的分類工作提供幫助。但神經網絡訓練過程對于數據量的要求比較高,過少的數據難以達到令人滿意的擬合效果,特別是對于一些樣本數較少但標簽類別數量較大的數據集,其最終識別精度可能很差,此時可以采用數據增強的方法對數據量進行擴充。常用的音頻數據增強方法包括音頻旋轉、調音、變調、加噪等,這些方法在一定程度上可以提高分類精度,但對于原始數據量過少、類別數過多的數據集,還需要更加有效的數據增強方法。

為此,本文提出一種基于雙重數據增強策略的音頻分類方法,其在傳統的音頻數據增強之后再次進行譜圖數據增強,以增加數據的多樣性,提高特征提取模型的泛化能力,并對最終分類精度產生積極影響。雙重數據增強策略總體上可分為三步:一是對完成預處理的音頻數據采用傳統方法進行數據增強;二是將第一次增強后的數據轉化為語譜圖;三是對得到的語譜圖使用隨機均值替換方法進行譜圖增強,即第二次數據增強。雙重數據增強后還需進行卷積神經網絡和隨機森林分類器[12-13]兩個訓練過程,以完成整個音頻分類流程。

1 方法介紹

本文方法大體可分為4個步驟,分別為數據預處理、數據增強、獲取高層特征和分類器訓練,框架結構如圖1所示,其核心內容為雙重數據增強(Double Data Augmentation,DDA)、神經網絡模型(Inception_Resnet_V2)訓練、隨機森林(Random Forest,RF)分類器訓練,故命名為DDA-IRRF。

圖1 DDA-IRRF方法的框架結構

1.1 語譜圖

在DDA-IRRF方法中,音頻數據經過了兩次特征提取,第一次提取到的音頻特征形式為語譜圖二維數據[14]。語譜圖的橫軸為時間軸、縱軸為頻率軸,坐標點的灰度值表示單位時間與單位頻率內的聲音強度。語譜圖的生成需要經過預加重、分幀、加窗、短時傅里葉變換、梅爾濾波、取對數等一系列過程。

處理音頻信號時需要平穩的信號段,但原始音頻信號無法滿足該條件??梢赃M行分幀處理,在每一幀上認為音頻信號是平穩的。分幀后,幀的首尾連接處會出現不連貫的問題,需要對每一幀進行加窗處理,如式(1)所示:

Y(n)=X(n)W(n)

(1)

式中:Y為處理后的信號;X為源信號;W為窗函數;n為每幀采樣點數。

式(1)在頻域上的形式為:

(2)

可選的窗函數比較多,本文采用漢寧窗,其屬于升余弦窗,在保證頻率分辨率較高的同時頻譜泄漏較少,窗函數如式(3)所示:

(3)

式中:M為窗函數長度。

為了同時保有音頻在時域和頻域上的特征,在分幀加窗后需要進行短時傅里葉變換,變換公式為:

(4)

式中:STFT(k)表示短時傅里葉變換的離散形式;k=0,1,2,…,M-1。

1.2 雙重數據增強

1.2.1 第一次數據增強

在數據預處理之后即可進行第一次數據增強。這里采用一般的音頻增強方法,即對原始音頻數據集使用旋轉、調音、變調、加噪4種方法產生更多新的數據,完成后音頻數據量為原來的8倍。具體操作如下:

(1)音頻旋轉:將音頻文件中30%靠后的數據截取至音頻文件的首部進行拼接,生成一組新數據;

(2)音頻調音:將音頻數據的音量分別增大為原來的1.5倍和減小為原來的0.7倍,生成兩組新數據;

(3)音頻變調:通過改變頻率將音頻數據的音調增大為原來的2倍和減小為原來的0.5倍,生成兩組新數據;

(4)音頻加噪:在音頻數據中加入隨機噪音數據,重復兩次生成兩組新數據。

1.2.2 第二次數據增強

對第一次增強后的音頻數據進行頻譜分析,包括分幀、加窗、傅里葉變換、梅爾濾波、取對數運算,得到音頻文件對應的語譜圖。在此過程中,幀長設為 25 ms,幀移設為10 ms,梅爾譜帶的個數設為76。經過轉化,采樣率為44 100 Hz的5 s時長音頻會得到498×76大小的語譜圖,4 s時長音頻會得到398×76大小的語譜圖。

將音頻數據轉化為語譜圖數據后,進行第二次數據增強。本文使用隨機均值替換法產生新的語譜圖數據,實現數據增強,完成后數據量為第一次數據增強后的4倍。具體操作步驟如下:

(1)隨機選取行列:通過隨機方式選取每個語譜圖中30%的行與30%的列;

(2)均值替換:計算每個語譜圖中二維數據的平均值,用均值替換掉隨機選取的行列數據,可得到新的語譜圖數據;

(3)數據保存:對每個語譜圖重復3次步驟(1)和(2)的操作,得到3組新的語譜圖數據,加入到原數據集中,即完成第二次數據增強。

語譜圖數據增強效果如圖2所示。圖中黑色區域只代表原圖被屏蔽替換的區域,其具體的灰度值為該語譜圖的平均值,為便于觀察,該圖展示的僅為實驗中真實語譜圖的局部區域。

1.3 卷積神經網絡模型

得到雙重增強的二維數據集后,需要使用卷積神經網絡對其進行二次特征提取,才能得到表達能力更強的音頻高層特征。

卷積神經網絡屬于前饋神經網絡,在提取特征上具有很好的表現,能夠挖掘出數據的內在結構規律。本文使用Google研究團隊推出的卷積神經網絡模型Inception_Resnet_V2(見圖3)[15]來完成音頻高層特征的提取工作。其中,Stem模塊采用多次卷積操作與兩次池化操作,是進入Inception結構的預處理過程,可以防止瓶頸問題。Inception_resnet模塊則主要完成特征維度上的提取工作,引入的殘差結構可有效防止梯度下降問題。Inception_resnet模塊后面對應的Reduction模塊采用了并行結構,主要作用仍是防止瓶頸問題。Inception_Resnet_V2模型的最后一層采用的是Softmax分類器。

圖2 語譜圖數據增強

圖3 Inception_Resnet_V2模型結構

1.4 隨機森林分類器

在提取到音頻高層特征后,采用隨機森林分類器替換Softmax完成最后的分類預測。這是因為,神經網絡模型提取到的音頻高層特征的維度較高,隨機森林算法在處理高維度數據時表現很好,不用單獨進行特征選擇。另外,本文方法有較多參數,容易導致算法產生過擬合現象,而隨機森林在對抗過擬合方面具有很大優勢。

1.5 DDA-IRRF方法流程

DDA-IRRF方法的基本流程如圖4所示(不包括前期對數據的預處理工作)。輸入為訓練數據集與數據集標簽;音頻數據集分別經過音頻增強和譜圖增強,音頻增強后的數據量變為原始數據的8倍,譜圖增強后數據量再次提升,最終的數據量變為原始數據的32倍。然后,將增強數據及數據標簽輸入到Inception_Resnet_V2模型(去除Softmax層)進行訓練,得到音頻高層特征提取模型,將提取到的高層特征與原始標簽輸入到隨機森林模型進行訓練,得到隨機森林分類器并完成分類任務。

圖4 DDA-IRRF方法流程

2 實驗

2.1 數據集

實驗過程涉及3個數據集,均為wav文件格式的單聲道音頻數據,分別為常用的ESC-50、UrbanSound8K數據集及實驗室自采數據集。

實驗前需要對數據集進行預處理,其中首先要對實驗室自采數據集進行分段,將每個數據文件按照5 s時長進行分割,為避免無效數據,舍棄最后的多余數據,而其他兩個數據集均為已完成分段的數據。

3個數據集經過預處理后的基本情況如表1所示。ESC-50為環境聲音數據集,根據發聲物大致可分為5個大類,分別為自然環境聲、動物發聲、人類發聲、家庭常見聲以及城市常見聲,又可以具體細分為50個不同種類,其中每個種類包括40個音頻文件,每個音頻文件時長為5 s,總計有2000個wav文件;UrbanSound8K為城市環境聲音數據集,包括10個不同種類,總計有8732個 wav文件,與ESC-50數據集不同的是每個音頻文件時長為4 s;實驗室自采數據集包含8個人的語音數據,每人有12個時長為5 s的音頻文件,總計96個樣本。將數據集打亂后進行隨機劃分,得到訓練集與測試集,其中訓練集進行雙重增強,測試集直接計算其語譜圖二維數據,留待分類模型訓練完畢后進行算法測試。

表1 實驗數據集

2.2 特征提取

首先訓練Inception_Resnet_V2卷積神經網絡模型用于高層特征提取。由于數據量較大,為避免計算機內存不足,提前完成數據預處理與數據增強工作,實驗過程中,batch_size設置為64進行批量化輸入。訓練迭代次數為60,初始學習率為0.001,為了保證訓練效率與訓練效果,采用學習率遞減方法,每經過一次迭代,將學習率調整為當前學習率的0.96倍。

然后選擇不同的輸入數據進行訓練,得到多個神經網絡模型。各組輸入數據分別為:①未進行數據增強的ESC-50和UrbanSound8K訓練集;②僅進行音頻數據增強的ESC-50和UrbanSound8K訓練集;③雙重數據增強的ESC-50和UrbanSound8K訓練集。

完成模型訓練后,去掉模型最后的Softmax層,取相鄰的Global Average Pooling 2D層的輸出作為提取到的音頻高層特征,保存為文件。

實驗室自采數據集只有96個音頻文件,數據過少,不便于進行神經網絡模型訓練。將自采數據集輸入到用雙重增強ESC-50數據集訓練得到的神經網絡模型中,保存得到的音頻高層特征。

2.3 音頻分類

將各個數據集通過Inception_Resnet_V2得到的音頻高層特征及原始標簽輸入到隨機森林分類器進行訓練,均采用40棵決策樹。訓練好后對相應的測試數據集進行分類,統計分類精確度。

2.4 實驗結果分析

表2為不用隨機森林分類器,而采用Inception_Resnet_V2模型默認的Softmax分類器的實驗結果。表3為采用隨機森林分類器替換Softmax分類器的實驗結果。

表2 神經網絡模型的分類精度

Table 2 Classification accuracies by neural network model

數據增強方式分類精度/%ESC-50UrbanSound8K未進行數據增強70.382.4僅音頻數據增強83.991.7雙重數據增強87.193.9

表3 神經網絡模型+隨機森林分類器的分類精度

Table 3 Classification accuracies by neural network model and RF classifier

數據增強方式分類精度/%ESC-50UrbanSound8K未進行數據增強71.286.1僅音頻數據增強84.592.0雙重數據增強87.594.4

對比表2和表3可知,采用隨機森林分類器替換Softmax層后,各組數據的分類精度均得到不同程度的提升,體現了隨機森林在處理高維特征和避免過擬合方面的優越性。

同時,由表3可見,使用音頻數據增強可將ESC-50數據集的分類精度提升13.3個百分點,將UrbanSound8K數據集的分類精度提升5.9個百分點;若采用雙重數據增強策略,可以在音頻數據增強的基礎上進一步將ESC-50數據集的分類精度提升3個百分點,將UrbanSound8K數據集的分類精度提升2.4個百分點。上述結果表明,單純的音頻數據增強方法可提升音頻分類精度,而雙重數據增強策略的分類精度提升效果更佳,且對于樣本量較小的數據集,其效果更明顯。

本文方法與其他幾種方法在ESC-50與UrbanSound8K數據集上的實驗結果對比如表4所示。這兩個數據集在音頻識別研究中比較常用,從文獻查閱情況來看,ESC-50數據集的當前最高分類精度為86.5%,是Sailor等[10]使用FBEs+ConvRBM-BANK方法完成的,UrbanSound8K數據集的當前最高分類精度為93%,是Boddapai等[11]使用GoogleNet神經網絡模型完成的。本文方法在 ESC-50 數據集上的平均分類精度為87.5%,最高精度可以達到89%,在UrbanSound8K數據集上的平均精度為 94.4%,最高精度可達到96.2%,這表明雙重數據增強策略、Inception_Resnet_V2模型、隨機森林分類器三者相結合的音頻分類方法能有效提高分類精度。

表4 不同方法的分類精度對比

Table 4 Comparison of classification accuracies by different methods

來源方法分類精度/%ESC-50UrbanSound8k文獻[10]FBEs+ConvRBM-BANK86.5—文獻[11]GoogleNet7393文獻[11]AlexNet6592文獻[16]EnvNet-v284.978.3文獻[17]CNN83.5—本文DDA-IRRF87.594.4

實驗室自采數據集由于數據過少無法訓練神經網絡模型,但通過ESC-50數據集訓練好的模型可直接采集到音頻高層特征,再將高層特征輸入到隨機森林分類器進行訓練,最終在測試集上也能達到91.7%的分類精度,分類預測結果的混淆矩陣如表5所示。這表明通過ESC-50數據集訓練得到的高層特征提取模型在其他音頻數據集上也具有很好的分類效果,即采用雙重數據增強策略訓練得到的神經網絡模型的泛化能力很強。

表5 混淆矩陣

3 結語

本文提出了一種基于雙重數據增強策略的音頻分類方法。以數據增強為突破口,先后使用一般的音頻數據增強方法和基于隨機均值替換的譜圖增強方法,克服了語譜圖無法使用傳統數據增強方法的弊端,提高了數據的多樣性。在雙重數據增強后采用Inception_Resnet_V2神經網絡模型可提取到表達能力更強的音頻數據高層特征,最后使用隨機森林分類器替換Inception_Resnet_V2模型的Softmax層,完成音頻分類任務。在多個數據集上的實驗結果證明該方法可有效提升音頻分類精度,并且訓練出的特征提取模型具有很好的泛化能力。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲欧美日韩中文字幕在线| 国内精品视频区在线2021| 亚洲无码91视频| 欧美人人干| 亚洲中文字幕久久无码精品A| 国产在线无码一区二区三区| 国产一级毛片在线| swag国产精品| 成人中文字幕在线| 一级做a爰片久久免费| 精品视频免费在线| 国产欧美高清| 久久国产乱子伦视频无卡顿| 日韩欧美国产中文| 久久免费视频播放| 91美女在线| 国产不卡在线看| 亚洲精品自拍区在线观看| 亚洲天堂网在线视频| 国产一区在线观看无码| 在线播放真实国产乱子伦| 欧美在线三级| 新SSS无码手机在线观看| 性色生活片在线观看| 伊人色综合久久天天| 欧美午夜网| 亚洲午夜国产精品无卡| 久久精品国产在热久久2019 | 亚洲欧美成人| 亚洲国语自产一区第二页| 日本日韩欧美| 国产呦视频免费视频在线观看| 国产精品浪潮Av| 色丁丁毛片在线观看| 国产中文在线亚洲精品官网| 色综合中文| 国产精品女主播| 久久天天躁狠狠躁夜夜2020一| 小说区 亚洲 自拍 另类| 亚欧美国产综合| 久久黄色小视频| 色婷婷综合激情视频免费看| 中文字幕日韩欧美| 国产第二十一页| 欧美日韩北条麻妃一区二区| 亚洲欧美成人网| 国产精品亚洲va在线观看| 曰韩人妻一区二区三区| 亚洲欧美日韩中文字幕一区二区三区| 五月天久久婷婷| 日韩不卡高清视频| 中文字幕无码电影| 国产成人精品视频一区视频二区| 91精品伊人久久大香线蕉| 青青青视频免费一区二区| 亚洲Av综合日韩精品久久久| 日韩大片免费观看视频播放| 亚洲国产天堂久久综合226114| 国产免费自拍视频| 成人午夜视频网站| 99这里只有精品在线| 久久综合色天堂av| 无码AV高清毛片中国一级毛片 | 日韩a级片视频| www.国产福利| 性网站在线观看| 黄色网页在线观看| 国产国模一区二区三区四区| 青青青国产免费线在| 欧美伊人色综合久久天天| 久久不卡精品| 国产本道久久一区二区三区| 伊人激情综合网| a级毛片在线免费| 亚洲天堂高清| 国产三级视频网站| 天堂亚洲网| 亚洲av无码专区久久蜜芽| 精品偷拍一区二区| 国产精品人成在线播放| 亚洲AV永久无码精品古装片| YW尤物AV无码国产在线观看|