999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化正交匹配追蹤和深度置信網的聲音識別

2017-04-20 03:38:32陳秋菊
計算機應用 2017年2期
關鍵詞:特征優化信號

陳秋菊,李 應

(福州大學 數學與計算機科學學院,福州 350116)

(*通信作者電子郵箱fj_liying@fzu.edu.cn)

基于優化正交匹配追蹤和深度置信網的聲音識別

陳秋菊,李 應*

(福州大學 數學與計算機科學學院,福州 350116)

(*通信作者電子郵箱fj_liying@fzu.edu.cn)

針對各種環境聲音對聲音事件識別的影響,提出一種基于優化的正交匹配追蹤(OOMP)和深度置信網(DBN)的聲音事件識別方法。首先,利用粒子群優化(PSO)算法優化OMP稀疏分解,在實現正交匹配追蹤(OMP)的快速稀疏分解的同時,保留聲音信號的主體部分,抑制噪聲對聲音信號的影響;接著,對重構聲音信號提取Mel頻率倒譜系數(MFCC)、OMP時-頻特征和基音頻率(Pitch)特征,組成OOMP的復合特征;最后,使用DBN對提取的OOMP特征進行特征學習,并對40種聲音事件在不同環境不同信噪比下進行識別。實驗結果表明,OOMP特征結合DBN的方法適用于各種環境聲下的聲音事件識別,而且能有效地識別各種環境下的聲音事件,即使在信噪比(SNR)為0 dB的情況下,仍然能保持平均60%的識別率。

聲音事件識別;正交匹配追蹤;稀疏分解;粒子群優化;深度置信網

0 引言

近年來,深度學習引起許多研究者的關注,主要原因在于深度學習擁有從未知目標上自動學習特征的能力,而且其分類性能比傳統的分類器更好。深度學習的這種優點被用來處理高維數據以及復雜的音頻數據,因此,深度學習在聲音識別[1-4]、音頻信息檢索[5-6]和多媒體分類[7-8]等研究領域具有重要意義。

目前,基于深度學習的方法在聲音事件識別方面已有一定的研究。其中,Yu等[9]利用深度神經網絡(Deep Neural Network, DNN)提取聲音信號的判決內部表示用于聲音的分類;Dahl等[10]使用DNN建立了一個上下文相關的模型用于大量詞匯的語音識別;McLoughlin等[11]提出基于聲譜圖的前端特征并結合支持向量機(Support Vector Machine, SVM)和DNN分類聲音事件。

但是,訓練含有許多隱層的DNN時會產生向更深層傳播訓練錯誤的問題。為了解決這個問題,Hinton等[12]提出采用一種無監督學習的貪心逐層訓練方式訓練神經網絡,即深度置信網絡(Deep Belief Network, DBN)。該網絡訓練層采用受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)[13-16]進行無監督學習,然后在網絡的頂層采用有監督的反向傳播(Back Propagation, BP)網絡進行網絡參數的微調,更有利于處理高維數據以及復雜的音頻數據的識別。關于DBN的研究有:Farahat等[17]提出利用DBN提取語音幀的判決信息,并且采用非線性變換增強特征的抗噪性能;Mohamed等[18]提出利用DBN建立一個聲音模型用于語音識別;Guo等[19]提出使用DBN捕獲聲音事件的時域信息用于音頻分類。

然而,真實環境中存在著復雜多變的噪聲,尤其是低信噪比(Signal-to-Noise Ratio, SNR),對聲音事件識別產生較大的干擾。常用的降低噪聲影響的方法有卡爾曼濾波[20]、小波增強[21]、多頻帶譜減法[22]等。這些方法需要先驗地獲得待檢測信號或噪聲信號的統計特性。基于匹配追蹤(Matching Pursuit, MP)的方法利用信號的稀疏性,將信號稀疏分解重構進行自適應表示,不需要先驗地獲得待檢測信號和噪聲信號的統計特性,適合于各種環境下聲音事件的識別。

關于MP的研究主要有:Chu等[23]將MP特征結合Mel頻率倒譜系數(Mel Frequency Cepstrum Coefficient, MFCC)特征,用k-最近鄰(k-Nearest Neighbor,kNN)和高斯混合模型(Gaussian Mixture Model, GMM)分類器對聲音事件進行分類識別;Wang等[24]利用主成分分析(Principal Component Analysis, PCA)和線性判別分析(Linear Discriminant Analysis, LDA)對MP稀疏分解的原子進行降維處理作為聲音事件的特征,并用SVM分類器對聲音事件進行分類識別;Mallat等[25]提出利用過完備原子字典將原信號進行稀疏分解,通過稀疏逼近重構信號。由于MP在稀疏分解時需要迭代次數較多,收斂較慢,文獻[26]在MP的基礎上提出正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法,該算法可以在較少的迭代中完成信號的收斂。

OMP稀疏分解在搜索最優原子時存在計算復雜度高的問題。為了實現OMP快速稀疏分解,本文提出基于優化的OMP和DBN聲音事件識別方法。首先,從聲音事件樣本庫中選擇聲音事件,將其分為訓練樣本集和測試樣本集;然后,在保證收斂精度的前提下,采用粒子群優化(Particle Swarm Optimization, PSO)算法對選擇的樣本進行OMP稀疏分解;接著,對重構信號提取優化的正交匹配追蹤(Optimized Orthogonal Matching Pursuit, OOMP)復合特征;最后,使用DBN對OOMP特征進行分類識別。

1 OMP信號稀疏分解

OMP算法在MP算法的基礎上利用Gram-Schmidt方法將選擇的最優原子與已選擇原子集合進行正交化處理,以保證在相同精度的前提下,收斂速度更快。

假設待分解信號f,長度為N,在進行OMP稀疏分解前,首先要構造一個過完備字典D=(gγ)γ ∈ Г,Г為γ的集合。本文選擇的Gabor字典[25]由一個調制的高斯窗函數g(t)=e-πt2構成,

(1)

其中:平移因子μ是原子的中心位置;伸縮因子s、頻率因子v和相位因子ω定義原子gγ的波形。實際應用中需要對時-頻參數γ=(s,μ,v,ω)進行離散化[25]:

γ=(s,μ,v,ω)=(aj,dajΔμ,k1a-jΔv,iΔω)

(2)

其中:0

OMP稀疏分解如圖1點劃線框部分所示,過程如下:

1) 初始化信號殘差R0=f,迭代次數k=1,最大迭代次數kmax,已選原子集合p1=gγ1,歸一化后得到u1。

2) 從過完備原子字典D中選出第k次迭代與信號殘差最為相關的原子gγk,即內積|〈Rk-1,gγ〉|最大:

(3)

其中0<α≤1,表示最優因子。

3) 利用Gram-Schmidt方法將gγk關于已選原子集{gγi}(0

(4)

4) 將殘差投影到uk上得到新的殘差Rk+1:

Rk+1=Rk-〈Rk,uk〉uk

(5)

5) 若未達到最大迭代次數kmax,設置k=k+1,返回2),否則轉至6)。

6) 經過逐次迭代稀疏分解得到一系列原子,輸出第kmax次的近似原子展開式:

(6)

即對聲音信號進行OMP稀疏分解重構。

圖1 PSO優化的OMP最優原子搜索過程

2 優化的OMP聲音事件識別架構

2.1 PSO最優原子搜索策略

PSO的基本思想是利用粒子之間的協作與競爭,實現對復雜空間最優解的搜索[27-28]。在每一次的搜索中,粒子通過跟蹤兩個“極值”來更新自己的信息,一個是當前粒子的極值點;另一個是當前整個粒子種群找到的最優解,即全局極值點。

對OMP稀疏分解,瓶頸主要集中在式(3)的最優原子搜索過程。為此,利用PSO對最優原子搜索過程進行優化,其流程如圖1虛線框部分所示。

在該優化算法中,將時-頻參數組γk=(s,μ,v,ω)作為待優化的參數,對應第k次分解時粒子i在字典空間中所處的位置:

xi(k)=[si(k),μi(k),vi(k),ωi(k)]

(7)

將時-頻原子與第k次分解時信號的殘差的內積|〈Rk,gγk〉|作為適應值函數f[xi(k)],用來衡量粒子所處位置的質量。根據粒子群的移動和聚集,得到一個具有最大適應值的位置,即最優原子參數。

PSO優化搜索詳細過程如下:

1) 初始化PSO種群規模m,迭代次數k=1,最大迭代次數kmax,搜索范圍[xmin,xmax],速度范圍[vmin,vmax],隨機生成每個粒子i的初始速度和位置,計算初始適應值f[xi(k)],并設置為粒子i的當前個體最優解pbest(i),將最大的pbest(i)設置為種群最優解gbest。

2) 更新每個粒子的速度與位置。判斷粒子的速度是否超出界限,如果出界則更新;判斷粒子的位置是否在過完備原子字典中,如果不在,則取邊界值代替粒子的位置:

vi(k+1)=α1{wvi(k)+c1r[pbest(i)-xi(k)]+c2r[gbest-xi(k)]}

(8)

xi(k+1)=xi(k)+vi(k+1)

(9)

其中:α1為收斂因子,α1越大收斂速度越快;c1和c2為學習因子;r為(0,1)內均勻分布的隨機數;w為慣性權重因子,w較大則具有較強的全局搜索能力,較小則傾向于局部搜索。

但是,若w取值太大,可能導致粒子速度過大從而跳過最優解;若w取值太小則可能導致粒子搜索前期收斂速度太慢。本文采用線性慣性權重遞減策略,w值隨迭代次數線性遞減:

w=wmax-k×(wmax-wmin)/kmax

(10)

3) 為了避免出現局部最優現象,設置變異概率P,對粒子進行位置變異。

4) 計算粒子的適應值f[xi(k+1)],如果該值優于當前的個體極值點pbest(i),則用當前粒子所處位置更新pbest(i);如果所有粒子中有pbest(i)優于當前的種群最優解gbest,則更新gbest。

5) 如果k>kmax,則終止迭代,輸出gbest對應的時-頻參數組,即最優原子;否則,令k=k+1,轉至2),并更新信號或者信號殘差。

Rk+1=Rk-〈Rk,uk〉uk

(11)

重復多次上述過程,實現優化的OMP信號稀疏分解,保存分解結果并重構信號。

以重構信號和原始信號的均方誤差(Mean Squared Error, MSE)作為衡量重構信號的質量的標準。

(12)

其中:N為信號長度;y為采樣點索引值;f′(y)為重構后的信號;f(y)為原始信號。MSE值越大,重構質量越差;MSE值越小,重構質量越好。

對于長度為256的聲音信號,表1給出了采用原始OMP和優化OMP在稀疏度為20時的稀疏分解計算量。表1中,原OMP方法的參數設置見文獻[25];優化OMP方法中的粒子種群大小為30,最大迭代次數為15。從表1中可以看出,兩種方法之間的MSE相差不大,但是優化OMP在搜索次數和內積計算次數上分別減少了119 306次和2 386 120次,時間上優化OMP僅為原始OMP的1.58%,說明采用PSO優化OMP的方法在保證聲音信號重構質量的同時,實現了OMP的快速稀疏分解。

表1 稀疏分解計算比較

2.2 OOMP特征提取

OMP稀疏分解采用的Gabor原子由調制的高斯窗函數構成,而高斯型函數在時域和頻域都是局部化的,其局部特性保證了原子時-頻參數能夠較好地刻畫信號的非平穩時變特性。OMP稀疏分解將待提取的有用信息作為稀疏成分,將噪聲作為殘差成分,對噪聲進行低維投影后,噪聲不具有稀疏性[29]。在重構信號時,殘差部分的噪聲很難恢復,從而達到消除噪聲成分、增強聲音事件信號的目的。

通過優化OMP稀疏分解聲音信號,獲得表示該信號的時-頻參數組γk=(s,μ,v,ω)中伸縮因子s和頻率因子v的均值和標準差,構成OMP特征。

OMP(λ)=[mean(s,v),std(s,v)]

(13)

其中λ表示每幀聲音信號對應的幀索引。

對于聲音信號,重構精度隨著稀疏度的增加而不斷提升。但是,稀疏度過高,在重構聲音信號主體時,噪聲信號的重構比例也會相應地提升。所以,在保證重構精度的前提下,筆者經過實驗確定OMP稀疏分解在稀疏度為20時重構效果最好。

由于OMP特征維數較少,單獨使用OMP特征的識別效果不理想;而MFCC將線性頻譜映射到基于聽覺感知的Mel非線性頻譜中再轉換到倒譜上,能夠較好地刻畫聲音特征,但是在噪聲環境下,MFCC的性能大幅下降;此外,真實環境中不同聲音存在不同的基音頻率(Pitch)范圍,而Pitch作為特征描述聲音具有很好的區分性。針對這些問題,本文除了提取OMP特征外,還提取重構聲音信號的MFCC特征和Pitch特征,來補充OMP特征,組成一個OOMP復合特征。

2.3 DBN

DBN是由多層受限玻爾茲曼機(RBM)[13-16]組成的概率生成模型,采用貪心逐層無監督學習算法,自底向上地對輸入的數據進行提取和抽象,并通過對網絡權重值的調整和深層結構的優化實現訓練的整體最優,可以有效地表示和訓練非線性數據。

2.3.1 受限玻爾茲曼機

RBM是由可視層和隱層組成的無向圖模型,可視層表示輸入數據,隱層是學習可視層輸入數據的內在特征的二值表示,可視層和隱層之間通過權值進行連接,而層內是無連接的。根據輸入數據類型不同,RBM的能量函數E為:

(14)

(15)

式(14)和式(15)分別表示可視層輸入數據類型為二值型和連續型。其中:θ={w,ɑ,b}表示RBM模型的參數;wij表示可視單元i和隱層單元j之間的權重;bi和aj是其偏置項;NV和NH分別是可視單元和隱層單元的數目。

根據能量函數E可以得到可視單元和隱層單元狀態的聯合概率:

(16)

(17)

(18)

其中σ(x)=1/(1+exp(-x))。

當輸入數據類型為連續型時,式 (18)更新為:

(19)

其中N(·)是均值為0、方差為1的高斯分布。

RBM按照梯度下降法[12]進行極大似然學習,即最大化輸入的重構概率。為了提高訓練速度和減少訓練時間,本文采用單步對比散度CD1(Contrastive Divergence)算法[12-13,17]來逼近梯度。因此,RBM參數按照如下公式進行更新:

Δwij=ε(Ed(vihj)-Er(vihj))

(20)

Δbi=ε(Ed(vi)-Er(vi))

(21)

Δaj=ε(Ed(hj)-Er(hj))

(22)

其中:ε表示學習率;Ed(vihj)表示訓練數據集的期望;Er(vihj)表示采用CD1算法計算出的樣本分布的期望。

2.3.2DBN構建

通過對多層RBM的學習,前一層RBM隱層的輸出作為下一層RBM可視層的輸入,并在最后一層采用BP網絡進行微調,微調的目的是調整DBN模型參數,從而優化模型的分類性能。因此,本文構建一個經過RBM無監督學習和BP有監督微調的DBN模型架構,具體如圖2所示。

圖2 DBN模型

DBN訓練過程主要有兩個步驟:

1)根據輸入的OOMP特征自底向上地訓練RBM;

2)根據1)的訓練結果,采用BP算法對整個DBN結構進行參數的微調,使其更有利于分類。

由于聲音特征的聲學特性,采用二值型RBM進行特征學習將會丟失特征的屬性。因此,本文DBN中第一層RBM的可視層采用服從高斯分布的RBM,其余仍為二值RBM。

3 實驗與分析

3.1 聲音樣本

實驗采用的40類聲音均來自Freesound[30]聲音數據庫,分為哺乳動物叫聲、鳥叫聲和昆蟲叫聲3大類,每類聲音有30個樣本,具體如表2所示。

表2 聲音事件樣本集

每個樣本是單聲道“.wav”格式、采樣率為44.1kHz、聲音長度為2s、量化精度為16位的聲音片段。為了保持實驗數據的相對獨立性,訓練聲音樣本和測試聲音樣本沒有重復數據。從每一類樣本中隨機選取20個純凈聲音樣本作為訓練樣本,剩余的10個樣本混合不同的環境噪聲組成多組測試樣本,共有1 200個樣本,其中訓練樣本集800個,測試樣本集400個。實驗用到的3種噪聲為SONYICD-UX512F錄音棒以44.1kHz的采樣頻率錄取的真實環境噪聲,分別為風聲、雷雨聲和雨天湖邊聲,按信噪比0、10、20、30dB混入純凈聲音用于測試。

3.2 參數設定

1)提取MFCC特征中,采用24階Mel三角帶通濾波器組,提取12維離散余弦變換系數,加上對數能量作為第13維特征;采用循環平均幅度差函數(CircleAverageMagnitudeDifferenceFunction,CAMDF)提取每幀聲音信號的1維Pitch特征。此外,本文對聲音信號以幀為單位提取特征,根據上面訓練和測試集樣本大小,OOMP訓練特征大小為132 800×18,測試特征大小為66 400×18。對于抗噪冪歸一化倒譜系數(Anti-noisePowerNormalizedCepstralCofficient,APNCC)特征,采用32階的Gammatone濾波器,提取12維離散余弦變換系數。

2)PSO算法中的參數根據文獻[27-28]以及多次實驗作如下設定:種群大小為20,最大迭代次數為20,粒子搜索最大值為聲音長度,速度最大值為2π,收斂因子為0.729,學習因子為2,權重最大值為0.95,最小值為0.4,變異概率為0.2。

3)DBN中的相關參數根據文獻[12-13]以及多次實驗作如下設定:第一層服從高斯分布的RBM的學習率為0.001,迭代次數為200,其余的二值型RBM的學習率為0.025,迭代次數為100,動量為0.5。

4)本文實驗中用到SVM和隨機森林(RandomForests,RF)分類器。其中:SVM是直接利用LIBSVM[31]工具箱進行SVM的訓練和測試建模,核函數為徑向基核函數,懲罰因子c=2,核參數g=2.8;而RF分類器中的決策樹的個數和分類屬性個數,則綜合考慮本文實驗樣本數量和特征維度以及文獻[32]建議,分別設置為500和5。

3.3 實驗結果與分析

3.3.1 OOMP稀疏分解對聲音信號的增強

圖3中:圖(a)是一段包含2個有效音節的山斑鳩聲音信號的聲譜圖;圖(b)是對該聲音信號添加10 dB的流水噪聲的聲譜圖;圖(c)是采用小波增強法對圖(b)進行重構后的聲譜;圖(d)是采用多頻帶譜減法對圖(b)進行重構后的聲譜圖;而圖(e)是經過OOMP稀疏分解后對圖(b)進行重構的聲譜圖。

從圖3中可以看出,采用小波增強和多頻帶譜減法對帶噪聲音信號增強后,噪聲殘留成分較多。經過OOMP稀疏分解重構后,聲音信號的主體部分得到保留,而與信號相關度低的噪聲信號被去除,聲音增強效果較好。圖3(e)初步說明,OOMP稀疏分解在聲音增強性能上優于小波增強和多頻帶譜減法。

3.3.2 不同深度結構的DBN識別性能

由于DBN的深度不同,其識別效果也不同。為了選取出較好的DBN結構,分別構建不同隱層數和不同隱層單元數[17]的DBN,對重構聲音信號提取MFCC特征,將該特征放入DBN中進行訓練識別。表3表示不同深度結構的DBN識別性能。從表3中可以看出,隨著DBN隱層數的增加,識別性能越來越好,最好的訓練正確率和測試正確率分別達到98.21%和96.41%,但是當隱層數增加到第5層和第7層時,識別性能反而開始逐漸減少。在層數相同時,DBN的識別性能隨著隱層單元數的增加而增加,直至隱層單元個數為512。當隱層單元個數大于512,其識別性能逐漸開始下降,這是因為隨著DBN結構越來越復雜,可能出現過擬合現象,從而導致識別性能降低。因此,綜合考慮隱層數和隱層單元數的識別性能,本文采用包含隱層數為4、隱層單元數為512的DBN。

圖3 山斑鳩聲音信號的聲譜

表3 不同深度結構的DBN識別性能

Tab.3 Recognition performance of DBN with different depth structures

隱層數各隱層單元數訓練正確率/%測試正確率/%23457[100?50]95.8087.26[256?100]96.1289.83[512?250]96.8490.05[1024?500]96.0087.58[100?80?50]96.2988.24[256?170?90]96.8892.57[512?280?120]97.2593.98[1024?500?250]96.2588.25[256?140?80?50]97.5892.83[300?180?90?50]97.8393.58[512?300?150?100]98.2196.41[1050?520?250?125]96.5390.81[300?170?90?70?50]97.5590.76[340?280?160?80?50]97.6291.34[600?320?180?120?90]97.8795.84[1100?570?280?140?70]96.3489.75[350?250?190?150?90?70?50]97.3989.41[400?250?180?120?90?70?50]97.4190.42[620?350?200?150?90?70?50]97.5492.67[1200?650?330?180?90?70?50]95.8785.64

3.3.3 不同特征在無環境聲和不同壞境不同信噪比下比較

選取OMP特征、MFCC特征、OMP+MFCC特征和OOMP特征,放入3.3.2節選定的DBN中訓練,在無噪聲條件下進行識別率對比實驗,結果如表4所示。由表4可知,在無噪聲條件下,除了OMP特征外,其他三個特征對聲音事件的識別率都較高。單獨使用OMP特征,由于特征維數過低,識別效果不理想;而采用OMP特征和MFCC特征結合后,識別效果得到大幅提升;再用Pitch特征補充后,OOMP特征識別效果達到最佳。

表4 無噪聲條件下不同特征的識別率比較

對測試樣本分別添加信噪比為0、10、20和30 dB的三種環境聲,測試四種特征在三種噪聲環境下不同信噪比的識別性能,結果如表5所示。

表5 四種特征在三種噪聲環境下不同信噪比的識別率 %

從表5可以看出,不同的噪聲環境對識別性能的影響不一樣。其中,MFCC特征在三種噪聲不同信噪比下的識別率均最低,說明MFCC特征不適合噪聲環境下的聲音事件識別;OMP特征的識別率稍好于MFCC特征,但效果也不理想;而OOMP特征的識別率比OMP特征和OMP+MFCC特征均要好,說明經過OMP特征、MFCC特征和Pitch特征的結合形成的OOMP特征能有效地提高識別性能,具有較好的抑制環境聲音的特性。表5還顯示出,雨天湖邊噪聲環境對識別率的影響最大,風聲和雷雨聲噪聲對識別率的影響相對較小。OOMP特征識別率遠高于單獨的OMP特征和MFCC特征,也優于OMP+MFCC特征,從而說明OOMP特征是一個較好的特征,適合用于各種環境下的聲音事件識別。

3.3.4 不同聲音增強方法在不同環境和信噪比下比較

利用風聲、雷雨聲和雨天湖邊聲來模擬真實的環境聲音,分別對測試樣本添加信噪比為0、10、20和30 dB的三種環境聲,提取它們的OOMP特征,以及經小波和多頻帶譜減法增強后的兩組MFCC特征,并采用DBN分別對三組特征進行識別,結果如圖4。從圖4可以看出,三種聲音增強方法中,在各種環境及各種信噪比下,小波增強的性能相對來說較差,多頻帶譜減法性能稍微優于小波增強,而OOMP特征的識別性能最好,從而說明了在各種環境及各種信噪比下,OOMP特征仍然能保持最好的識別效果。

3.3.5 不同分類器比較

將OOMP復合特征分別放入SVM、RF和DBN分類器訓練,對其識別性能進行比較,結果如圖5所示。從圖5中可以看出,在三種噪聲環境下,信噪比為0 dB和10 dB時,OOMP特征結合DBN的平均識別率比OOMP特征結合SVM或RF的平均識別率要高;在風聲和雷雨聲的情況下,OOMP特征結合RF的識別性能在20 dB和30 dB時稍微優于DBN分類器;在雨天湖邊噪聲的所有信噪比下,OOMP特征的識別性能都是最好的。在三種噪聲環境下,尤其是低信噪比時,本文方法識別率都高于OOMP特征結合SVM和RF的方法,從而也說明了DBN分類器的分類性能優于傳統的分類器。

3.3.6 與其他方法的比較

把OOMP特征結合DBN的方法與APNCC結合SVM的方法[33]和MP結合SVM的方法[24]分別進行比較,在同上所述的三種噪聲環境下的識別率對比如圖6所示。可以看出,MP結合SVM的方法的平均識別率最低,而APNCC結合SVM的方法的平均識別率優于MP結合SVM的方法;本文提出的OOMP特征結合DBN的方法的平均識別率最高。即在三種噪聲環境下,無論是高信噪比還是低信噪比,本文方法的識別率都高于APNCC結合SVM和MP結合SVM的方法。

圖4 三種聲音增強方法在不同環境及信噪比下的識別率比較

圖5 OOMP特征結合不同分類器在不同環境及信噪比下的識別率比較

圖6 本文方法與對比方法在不同環境及信噪比下的識別率比較

4 結語

針對各種環境聲音對聲音事件識別的影響,本文提出一種基于優化OMP結合DBN的聲音事件識別方法。該方法采用PSO對OMP進行優化,對其提取OOMP特征放入DBN中進行分類識別。通過與傳統的聲音增強方法以及現有的APNCC結合SVM的方法和MP結合SVM方法進行比較,可以得出本文的方法除了具有較好的抑制噪聲的效果外,還能有效地提高各種環境下不同信噪比的聲音事件識別。但是在聲音信號更為微弱、環境更為惡劣的情況下,本文方法仍有改進的空間,下一階段將結合聲譜圖等方法,研究分析聲音信號更為微弱、環境更為復雜和信噪比更低的聲音事件識別。

References)

[1] DENG L, LI J Y, HUANG J T, et al.Recent advances in deep learning for speech research at Microsoft [C]// ICASSP’13: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway, NJ: IEEE, 2013: 8604-8608.

[2] LEE H, PHAM P, LARGMAN Y, et al.Unsupervised feature learning for audio classification using convolutional deep belief networks [C]// NIPS’09: Proceedings of the 2009 Conference Advances in Neural Information Processing Systems 22.Cambridge, CA: MIT Press, 2009: 1096-1104.

[3] HINTON G, DENG L, YU D, et al.Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups [J].IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[4] SAINATH T N, MOHAMED A, KINGSBURY B, et al.Deep convolutional neural networks for LVCSR [C]// ICASSP’13: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway, NJ: IEEE, 2013: 8614-8618.

[5] HAMEL P, ECK D.Learning features from music audio with deep belief networks [C]// ISMIR’10: Proceedings of the 2010 11th International Society for Music Information Retrieval Conference.Piscataway, NJ: IEEE, 2010: 339-344.

[6] KAGAYA H, AIZAWA K, OGAWA M.Food detection and recognition using convolutional neural network [C]// MM’14: Proceedings of the 2014 22nd ACM International Conference on Multimedia.New York: ACM, 2014: 1085-1088.

[7] RAVANELLI M, ELIZALDE B, NI K, et al.Audio concept classification with hierarchical deep neural networks [C]// EUSIPCO’14: Proceedings of the 2014 22nd European Signal Processing Conference.Piscataway, NJ: IEEE, 2014: 606-610.

[8] SZEGEDY C, LIU W, JIA Y, et al.Going deeper with convolutions [C]// CVPR’15: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2015: 1-9.

[9] YU D, SELTZER M L, LI J Y, et al.Feature learning in deep neural networks — studies on speech recognition tasks [EB/OL].[2016- 03- 26].https://arxiv.org/pdf/1301.3605v3.pdf.

[10] DAHL G E, YU D, DENG L, et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition [J].IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42.

[11] MCLOUGHLIN I, ZHANG H M, XIE Z P, et al.Robust sound event classification using deep neural networks [J].IEEE Transactions on Audio, Speech, and Language Processing, 2015, 23(3): 540-552.

[12] HINTON G E, OSINDERO S, TEH Y-W.A fast learning algorithm for deep belief nets [J].Neural Computation, 2006, 18(7): 1527-1554.

[13] HINTON G E.A practical guide to training restricted Boltzmann machines [M]// Neural Networks: Tricks of the Trade, LNCS 7700.2nd ed.Berlin: Springer, 2012: 599-619.

[14] ACKLEY D H, HINTON G E, SEJNOWSKI T J.A learning algorithm for Boltzmann machines [J].Cognitive Science, 1985, 9(1): 147-169.

[15] LAROCHELLE H, MANDEL M, PASCANU R, et al.Learning algorithms for the classification restricted Boltzmann machine [J].Journal of Machine Learning Research, 2012, 13(1): 643-669.

[16] LE ROUX N, BENGIO Y.Representational power of restricted Boltzmann machines and deep belief networks [J].Neural Computation, 2008, 20(6): 1631-1649.

[17] FARAHAT M, HALAVATI R.Noise robust speech recognition using deep belief networks [J].International Journal of Computational Intelligence and Applications, 2016, 15(1): 1650005.

[18] MOHAMED A, DAHL G E, HINTON G.Acoustic modeling using deep belief networks [J].IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22.

[19] GUO F, YANG D S, CHEN X O.Using deep belief network to capture temporal information for audio event classification [C]// IIH-MSP ’15: Proceedings of the 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Piscataway, NJ: IEEE, 2015: 421-424.

[20] LEE Y K, JUNG G W, KWON O W.Speech enhancement by Kalman filtering with a particle filter-based preprocessor [C]// ICCE’13: Proceedings of the 2013 IEEE International Conference on Consumer Electronics, Piscataway, NJ: IEEE, 2013: 340-341.

[21] VERMA N, VERMA A K.Real time adaptive denoising of musical signals in wavelet domain [C]// NUiCONE’12: Proceedings of the 2012 Nirma University International Conference on Engineering, Piscataway, NJ: IEEE, 2012: 1-5.

[22] 周曉敏,李應.基于 Radon 和平移不變性小波變換的鳥類聲音識別[J].計算機應用,2014,34(5):1391-1396,1417.(ZHOU X M, LI Y.Bird sounds recognition based on Radon and translation invariant discrete wavelet transform [J].Journal of Computer Applications, 2014, 34(5):1391-1396, 1417.)

[23] CHU S, NARAYANAN S, KUO C C J.Environmental sound recognition with time-frequency audio features [J].IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(6): 1142-1158.

[24] WANG J C, LIN C H, CHEN B W, et al.Gabor-based nonuniform scale-frequency map for environmental sound classification in home automation [J].IEEE Transactions on Automation Science and Engineering, 2014, 11(2): 607-613.

[25] MALLAT S G, ZHANG Z F.Matching pursuits with time-frequency dictionaries [J].IEEE Transactions on Signal Processing, 1993, 41(12): 3397-3415.

[26] SOUSSEN C, GRIBONVAL R, IDIER J, et al.Jointk-step analysis of orthogonal matching pursuit and orthogonal least squares [J].IEEE Transactions on Information Theory, 2013, 59(5): 3158-3174.

[27] KENNEDY J, EBERHART R.Particle swarm optimization [C]// ICNN’95: Proceedings of the1995 IEEE International Conference on Neural Networks.Piscataway, NJ: IEEE, 1995:1942-1948.

[28] 馬超,鄧超,熊堯,等.一種基于混合遺傳和粒子群的智能優化算法[J].計算機研究與發展,2013,50(11):2278-2286.(MA C, DENG C, XIONG Y, et al.An intelligent optimization algorithm based on hybrid of GA and PSO [J].Journal of Computer Research and Development, 2013, 50(11): 2278-2286.)

[29] LI S T, FANG L Y.Signal denoising with random refined orthogonal matching pursuit [J].IEEE Transactions on Instrumentation and Measurement, 2012, 61(1): 26-34.

[30] Universitat Pompeu Fabra.Repository of sound under the creative commons license [DB/OL].[2016- 03- 14].http://www.freesound.org.

[31] CHANG C C, LIN C J.LIBSVM: a library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): Article No.27.

[32] BREIMAN L.Random forests [J].Machine Learning, 2001, 45(1): 5-32.

[33] 顏鑫,李應.利用抗噪冪歸一化倒譜系數的鳥類聲音識別[J].電子學報,2013,41(2):295-300.(YAN X, LI Y.Anti-noise power normalized cepstral coefficients in bird sounds recognition [J].Acta Electronic Sinica, 2013, 41(2): 295-300.)

This work is partially supported by the National Natural Science Foundation of China (61075022).

CHEN Qiuju, born in 1989, M.S.candidate.Her research interests include multimedia data retrieval, sound event detection.

LI Ying, born in 1964, Ph.D., professor.His research interests include multimedia data retrieval, sound event detection, information security.

Sound recognition based on optimized orthogonal matching pursuit and deep belief network

CHEN Qiuju, LI Ying*

(CollegeofMathematicsandComputerScience,FuzhouUniversity,FuzhouFujian350116,China)

Concerning the influence of various environmental ambiances on sound event recognition, a sound event recognition method based on Optimized Orthogonal Matching Pursuit (OOMP) and Deep Belief Network (DBN) was proposed.Firstly, Particle Swarm Optimization (PSO) algorithm was used to optimize Orthogonal Matching Pursuit (OMP) sparse decomposition of sound signal, which realized fast sparse decomposition of OMP and reserved the main body of sound signal and reduced the influence of noise.Then, an optimized composited feature was composed by Mel-Frequency Cepstral Coefficient (MFCC), time-frequency OMP feature and Pitch feature extracted from the reconstructed sound signal, which was called OOMP feature.Finally, the DBN was employed to learn the OOMP feature and recognize 40 classes of sound events in different environments and Signal-to-Noise Ratio (SNR).The experimental results show that the proposed method which combined OOMP and BDN is suitable for sound event recognition in various environments, and can effectively recognize sound events in various environments; it can still maitain an average accuracy rate of 60% even when the SNR is 0 dB.

sound event recognition; Orthogonal Matching Pursuit (OMP); sparse decomposition; Particle Swarm Optimization (PSO); Deep Belief Network (DBN)

2016- 06- 12;

2016- 08- 04。 基金項目:國家自然科學基金資助項目(61075022)。

陳秋菊(1989—),女,貴州遵義人,碩士研究生,主要研究方向:多媒體數據檢索、聲音事件檢測; 李應(1964—),男,福建閩清人,教授,博士,主要研究方向:多媒體數據檢索、聲音事件檢測、信息安全。

1001- 9081(2017)02- 0505- 07

10.11772/j.issn.1001- 9081.2017.02.0505

TP391.42

A

猜你喜歡
特征優化信號
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
主站蜘蛛池模板: 欧美国产日本高清不卡| 在线观看无码a∨| 日本少妇又色又爽又高潮| 嫩草国产在线| 本亚洲精品网站| 欧美在线中文字幕| 久精品色妇丰满人妻| 久久黄色一级片| 91丝袜在线观看| 毛片视频网址| 黄色片中文字幕| 91视频首页| 国产成人AV男人的天堂| 精品久久蜜桃| 91小视频版在线观看www| a级毛片毛片免费观看久潮| 国产成人一区| 456亚洲人成高清在线| 国产小视频在线高清播放| 91免费国产在线观看尤物| 色哟哟国产精品一区二区| 亚洲日韩AV无码精品| 国产日韩久久久久无码精品| 中文无码毛片又爽又刺激| 久久亚洲中文字幕精品一区| 日韩在线成年视频人网站观看| 看av免费毛片手机播放| 夜夜操国产| 国产白浆一区二区三区视频在线| lhav亚洲精品| 精品伊人久久久久7777人| 久久人人97超碰人人澡爱香蕉| 国产午夜无码专区喷水| 激情在线网| 免费人成视网站在线不卡| 日本精品中文字幕在线不卡 | 国产免费怡红院视频| 免费不卡在线观看av| 久久精品这里只有精99品| 欧美在线网| 美女内射视频WWW网站午夜| 天堂岛国av无码免费无禁网站| 最新精品国偷自产在线| 欧美黄网在线| 久视频免费精品6| 精品无码国产自产野外拍在线| 四虎成人精品| 精品国产自在在线在线观看| yy6080理论大片一级久久| 午夜福利视频一区| 欧美国产日韩在线播放| 二级毛片免费观看全程| 成人日韩欧美| 久草国产在线观看| 精品国产免费观看| 在线国产91| 国产区人妖精品人妖精品视频| 99re在线观看视频| 在线亚洲精品自拍| 国产成熟女人性满足视频| 国产主播在线观看| 九九热在线视频| 国产97色在线| 亚洲欧美另类日本| 欧美日韩在线国产| 亚洲Va中文字幕久久一区| 四虎成人免费毛片| 青草91视频免费观看| 91青青视频| 国产美女精品一区二区| 亚洲人在线| 一本大道东京热无码av | 亚洲无码91视频| 精品無碼一區在線觀看 | 黄色网址免费在线| 天堂av综合网| 精品無碼一區在線觀看 | 综合色88| 久久人妻xunleige无码| 欧美福利在线观看| 欧美国产综合色视频| 国产成a人片在线播放|