弓彥婷,程小雪,任洪梅,陳雁翔(合肥工業大學計算機與信息學院,安徽合肥 230009)
?
聲譜圖顯著性在音頻識別中的應用
弓彥婷,程小雪,任洪梅,陳雁翔
(合肥工業大學計算機與信息學院,安徽合肥230009)
摘要:針對嘈雜背景、混疊、間斷或多源的復雜音頻,傳統音頻識別存在一定的局限性。文章提出了一種基于聲譜圖顯著性檢測的音頻識別方法,將音頻可視化轉化為二維聲譜圖圖像,利用圖像的顯著性檢測有效獲得聲譜圖中的主聲源區域,并去除聲譜圖中與主聲源無關的信息;然后針對主聲源區域提取特征,以減少干擾并降低冗余度;采用改進的卷積神經網絡(convolutional neural network,CNN)實現音頻識別。實驗結果表明,該方法可以有效解決復雜音頻的識別問題。
關鍵詞:復雜音頻;音頻識別;聲譜圖;顯著性;卷積神經網絡CNN
陳雁翔(1972-),女,安徽歙縣人,博士,合肥工業大學副教授,碩士生導師.
音頻識別[1]是聲信號處理領域的一個基本問題,旨在識別出音頻中信息的內容與來源,使計算機能夠模仿人耳聽覺功能進而理解辨識音頻。音頻即指大自然一切人耳可以聽到的聲音,如語音、音樂、環境音等[2-3]。目前,音頻識別以聲音特征為研究對象,傳統識別方法包括GMM、HMM、SVM和DNN等。然而,在混疊、間斷、多源和噪聲干擾等復雜的環境下,以聲音角度分析研究音頻仍是個難題?,F有的復雜環境音頻識別研究中,可視化的音頻識別方法是解決該類問題的一種途徑。
音頻可視化識別將研究對象從傳統音頻識別下的聲音特征轉變為表征音頻的圖像特征。已有的音頻可視化識別方法一般以聲譜圖作為語音圖像處理的數據基礎,如文獻[4]利用動態希爾伯特曲線路由對聲譜圖編碼后,通過高斯混合模型實現音頻識別,但該方法不適用于大范圍的復雜音頻識別;文獻[5-6]采用boosting分類器識別特征圖識別音樂和語音,這種方法需人為設定和調節閾值,對具有廣泛信息的復雜音頻識別不實用;文獻[7]采用2D-Gabor濾波器加隨機非負獨立成分分析提取聲譜圖的特征,并利用稀疏表示實現屬于環境聲音事件識別中異常聲音的識別與分類,但此方法僅局限于突發事件中的音頻識別。
聲譜圖是表征音頻特性的圖像,能夠從圖像的角度進行相關的識別與分類。在圖像處理領域中,文獻[8-11]介紹了顯著性(saliency)可刻畫人眼視覺對圖像的關注性,使人眼關注的部分在圖像中突顯并分離;對于聲譜圖而言,最主要的聲源區域恰好是人眼最關注的部分,因此圖像的顯著性可用于檢測聲譜圖中最主要的聲源區域。顯著性檢測算法由文獻[9]首次提出,該方法通過模擬生物體視覺注意機制的選擇機制來檢測圖像顯著性;傳統Itti算法研究圖像的局部特征,對于整個圖像的顯著性并未考慮。為獲得含有圖像整體檢測顯著性特征,文獻[12]基于文獻[9]的理論提出了基于圖論的顯著性模型GBVS;文獻[13]則利用自信息相關原理提出了基于自信息量的局部顯著性檢測算法;文獻[14]與文獻[13]研究的思想相似,通過計算貝葉斯概率模型的信息量來檢測局部顯著性,但此方法不通用。
為了解決復雜環境的音頻識別,并改善音頻識別的普適性與精確性,本文以聲譜圖作為圖像,通過研究適于檢測聲譜圖顯著性的算法,將音頻轉換為等價的圖像特征集,然后利用改進的卷積神經網絡進行基于圖像特征的音頻識別。
音頻可視化識別是利用圖像方法對映射為二維圖像的音頻進行識別。在聲信號處理領域中,音頻的映射方式多種多樣,如波形圖、幅頻圖、能量圖和聲譜圖等。其中聲譜圖可實時描述音頻的時間、頻率和能量3種特性。因此本文采用聲譜圖作為音頻的二維映射圖像,通過研究聲譜圖實現音頻識別。
基于聲譜圖顯著性檢測的音頻識別方法如圖1所示。首先在多條wav音頻中選取1個音頻信號,由該音頻信號生成聲譜圖,并利用改進的顯著性模型提取聲譜圖中具有圖像顯著性的局部譜圖;然后對該局部聲譜圖提取層次對比圖,再用PCA計算層次對比圖的主成分特征,并將所得的對比圖與其主成分特征分別作為卷積神經網絡(convolutional neural network,CNN)的2個輸入;最后通過改進的CNN實現音頻識別。

圖1 基于聲譜圖顯著性檢測的音頻識別方法
圖1中,S1、S2和S3分別為CNN中待下采樣的第1、2、3層;C1、C2和C3則分別為CNN待卷積的第1、2、3層。
圖1中具有顯著性的局部譜圖即聲譜圖中主要聲源所在的區域,本文將其定義為主圖;層次對比圖則是主圖中能量層次的對比??傮w來說,本文的音頻可視化識別方法共包含3部分:聲譜圖的顯著性檢測、主圖的特征提取和音頻的圖像識別。
1.1基于主圖分離的聲譜圖顯著性檢測
一般地,任意一段音頻信號的聲譜圖所包含的信息除了人們所關注的聲音信息外,還包括多發音源、環境音以及噪聲等其他無用信息,這些聲音會對聲譜圖分析產生一定的干擾,為此,找到聲譜圖中主要聲源區域是解決聲譜圖識別難點的關鍵所在。
人們在觀察聲譜圖時,主聲源對應區域是突出的并能夠吸引觀察者的注意。在圖像處理中,把這種能夠迅速引起觀察者注意的突出性特征稱為視覺顯著性,將具有突出性特征的圖像區域稱為圖像的顯著性區域。這就能夠將語音中主聲源位置的檢測轉化為對聲譜圖顯著性的檢測。本文基于文獻[9]和文獻[15-16]的顯著性模型,提出了基于聲譜圖顯著性的主圖分離模型。
1.1.1基于Itti改進的主圖分離模型
主圖分離模型是以Itti模型為基礎,為解決聲譜圖顯著性檢測出現的3個問題,并能夠從聲譜圖中準確提取主圖而提出的模型。所謂主圖表示主要聲源在聲譜圖中的位置區域。在聲譜圖中,色度和方向特征更為重要,而亮度對觀察者的吸引并不大。因此在主圖分離模型中,對于顯著性S的計算采取不同權值的線性組合,即其中,^O為方向顯著圖;^C為色度顯著圖;^I為亮度顯著圖;S為3個顯著圖歸一化后的線性疊加;N(·)為特征顯著圖歸一化函數。從(1)式可知,色度和方向特征權值增大,亮度權值減小,從而更好地體現色度和方向特征對于顯著圖的貢獻。

調整顯著圖組合系數只能在宏觀上體現出聲譜圖的顯著性,但對顯著圖中色度如何提取以及顯著區域中主聲源的位置如何判斷仍亟待解決。Itti模型與主圖分離模型的對比如圖2所示。

圖2 Itti模型與主圖分離模型的對比
圖2a為原聲譜圖;圖2b為Itti模型計算的顯著圖;圖2c為Itti模型與主圖分離模型計算的顯著圖,圖2b中的方形區域即圖2d為Itti模型下檢測的最顯著性區域;圖2c中的方形區域(即圖2e)是在本文所述的基于主圖分離模型改進的GHVS下檢測的最顯著性區域。可以看出,雖然在Itti模型下檢測到至少4個顯著性區域,但在WTA機制下最終選擇為非聲源位置。導致這一結果的原因是圖2b中的方形區域有明顯的藍黃雙色拮抗[17],該拮抗的顯著性明顯大于其他部分。
1.1.2本文的主圖分離模型判斷與分離過程
針對Itti檢測聲譜圖顯著性的缺陷,本文以聲譜圖特有的紅黃顯著性為依據,通過綜合利用注意焦點、顯著圖和聲譜圖改進聲譜圖局部顯著性的判斷和分離。從圖2c中方框區域可以看出,本文的主圖分離模型可以正確地判斷主聲源區域,具體判斷與分離的過程如下:
(1)在顯著圖中用WTA判斷注意焦點FOA,計算顯著圖中FOA所在的位置L。
(2)在聲譜圖中找到與FOA對應位置L,提取聲譜圖L位置的色度特征R、G、B和Y。
(3)判斷最大的特征是否為紅色R,即判斷紅色R是否大于色彩最大值的1/2,并判斷綠色G、藍色B和黃色Y是否均為0。若這2個判斷均為真繼續執行,否則抑制顯著圖中L位置的焦點,返回到步驟(1)。
(4)以L為中心畫尺寸為256×256的正方框,判斷正方框是否出邊界,若出則調整,最后依據正方框從聲譜圖中提取主圖。
主圖分離模型用于聲譜圖中主圖的檢測與分離,可改善基于圖像研究音頻的可行性、魯棒性與有效性,并降低圖像的冗余度。面對混疊、間斷、重復或多源同時發音的音頻,傳統的音頻識別方法很難實現。在同等條件下,采用本文的主圖分離模型則可識別音頻。因為聲音的混疊、間斷、重復或多源同時發音不會在聲譜圖中顯示出蓋過主音源的顯著特征,如圖2中出現的聲音重復,在主圖中并不產生干擾。
1.2主圖的特征提取
CNN的運算效率易受輸入特征的有效性影響,為此本文基于聲譜圖顯著性檢測出的主圖信息,提出了提取主圖相應有效特征的方法。現有的特征提取方法包括白化、正則化、標準化和PCA等,本文采用主成分分析(PCA)和層次對比圖進行特征提取。PCA主要針對CNN的輸入數據,實現對數據的規格化與壓縮功能;層次對比圖用于突出主圖聲源特征的能量對比性,繼而描述聲源的宏觀特征并降低主圖的冗余度。鑒于PCA[18-19]特征提取技術已相當成熟,本文在此不再詳細介紹。
PCA主要針對CNN輸入的預處理,并未明顯改善主圖的冗余度。為了降低冗余度并提高識別率,本文定義了一種層次對比圖,即通過對比主圖中能量的分布,突出最顯著位置的聲源結構及其本質特征,并降低噪聲等因素的干擾。
主圖與層次對比圖如圖3所示。

圖3 主圖與層次對比圖
圖3a與圖3b為2種不同聲源的主圖,圖3c與圖3d分別為圖3a與圖3b的層次對比圖。從圖3c中可以看出,能量最大位置與能量較大位置在圖中有明顯對比(能量最大位置為黑色,較大位置為白色);從圖3d中可以看出,噪聲干擾能量和非有效能量與能量較大位置有鮮明對比。通過本文的層次對比圖,主圖的聲源結構被清晰描述,同時主圖的數據變得稀疏而利于計算機的識別。
PCA側重于圖像的底層本質結構,層次對比圖則側重于圖像的高層特征形式,2種方法的整合有利于CNN的識別。
1.3基于卷積神經網絡改進的音頻圖像識別
卷積神經網絡CNN是由文獻[20]在研究貓的視覺皮層時提出的,并由文獻[21]首先實現和應用。CNN屬于深度學習3大深度結構[22](生成性、區分性和混合型)中的區分性結構,鑒于其可感知自然圖像中相關性強的局部空間,本文采用LeNet型的卷積神經網絡[23]研究音頻圖像。
考慮到音頻圖像的特殊性,本文對LeNet型CNN做出了改進,其結構如圖4所示。
圖4共包含3大部分:①原始輸入層;②第2個輸入層,即初始輸入圖像通過PCA后得到的特征參數從而組成的圖像,該部分主要用于人為調控特征參數的權值分布;③CNN結構,即由S1、C1、S2、C2、S3、C3和全連接構成。整體看網絡結構共包含7層,即3層卷積、3層采樣(即池化)和1層MLP。

圖4 改進的卷積神經網絡
從圖4可以看出,本文利用PCA在CNN特征學習的過程中引入內部輸入作為人為控制因素,因而預加重了音頻圖像識別中全局特性在特征分析時的權重。由于PCA可提取層次對比圖的最大方差分量,這些分量研究的是層次對比圖的結構化特性,能夠有效反應層次對比圖中聲紋的結構。因此PCA新增的內部輸入對有結構化的聲譜圖聲源識別更為有利,改善了算法的識別率。
2.1音頻數據庫
本文的音頻數據庫包含了爆炸聲、腳步聲、狗叫聲和青蛙聲,共419條音頻,其中每類包含100多條。通過主圖分離方法和特征提取,1張音頻的聲譜圖最終生成1張主圖、1張層次對比圖和1個PCA數據矩陣,即1條音頻的圖像數據描述集。
2.2基于聲譜圖顯著性檢測的音頻識別實驗
為了驗證本文方法的有效性,從419條音頻中隨機選取350條音頻的圖像描述集作為訓練部分,其余69條定為測試部分。采用改進的CNN結構,圖像描述集中的主圖和層次對比圖的尺寸定為256×256,PCA數據特征設為244×244。改進的CNN網絡識別結果如圖5所示,圖中錯誤識別率等于識別錯的聲譜圖數占被識別的聲譜圖總數的百分比。
從圖5可以看出,當訓練樣本小于500次時,錯誤識別率以訓練樣本次數的對數級迅速下降;訓練樣本超過500次后,錯誤識別率與訓練樣本次數成反比的關系穩定下降。由此可知,本文方法的音頻錯誤識別率與樣本數和訓練次數密切相關。此外,雖然在350個訓練樣本數和14 000訓練次數下錯誤識別率僅小于0.8%,但12 000訓練次數后錯誤識別率趨于平穩。由于本文構建的音頻數據庫包含大量的復雜音頻,錯誤識別率在訓練次數增加的過程中會受一定的影響。

圖5 基于聲譜圖顯著性檢測的音頻識別錯誤識別率
2.3分離主圖的對比實驗
基于Itti改進的主圖分離模型檢索的主聲源區域為非最佳顯著觀測位置(如圖2c中的方形區域)。為了找到最佳觀測區域,本文將主圖分離模型用于GBVS模型的改進,從而形成基于GBVS改進的主圖分離模型。改進后的結果如圖6所示,圖6a為聲譜圖原圖,圖6b與圖6c分別為經過GBVS算法和改進的GBVS算法檢測的各顯著性區域,圖6d與圖6e分別為GBVS算法和改進的GBVS算法檢測分離出的主圖。其中圖6b的方形區域為GBVS模型檢測的顯著性區域,該區域為非聲源區域;而基于GBVS改進的主圖分離模型檢測結果為圖6c中的方形區域,顯然與圖2e相比該區域為最佳主圖。

圖6 GBVS模型與改進的GBVS主圖分離模型的對比
為了進一步驗證基于GBVS改進的主圖分離模型為最佳模型,本文采用不同模型進行對比實驗。實驗結果見表1所列,其中主圖分離模型1和2分別表示基于Itti和GBVS改進的主圖分離模型;總聲源數為待檢測提取的總主圖數;聲源數為各模型下檢測提取為聲源的主圖數,那么總聲源數減去聲源數即各模型下檢測的非聲源主圖數;主聲源數為聲源數中各模型檢測為最佳聲源的個數;錯誤識別率基于CNN對各模型下主圖的識別結果。

表1 不同模型下主圖的分離
由于本文在只考慮純圖像模型的基礎上加入了聲譜圖特有的顯著關注點特征,改進后所分離的主圖大部分為聲譜圖的主要聲源區域,改進后的主圖分離模型非聲源數均為0。此外,由于GBVS模型考慮全局分布,比Itti更適于聲譜圖顯著性的檢測。在主圖分離模型中,基于GBVS模型的改進也同樣優于基于Itti模型的改進。因此,在基于聲譜圖顯著性檢測的音頻識別實驗中本文以主圖分離模型2為分離主圖的方法。
本文提出了一種基于圖像的音頻識別方法,實現了聲譜圖顯著性的檢測與分離,并通過該方法有效地解決了音頻中有混疊、間斷、噪聲等干擾的識別問題。首先提取音頻的聲譜圖,通過聲譜圖的顯著性檢測獲取主圖;然后對主圖特征提取得到層次對比圖,并將層次對比圖放入改進的卷積神經網絡實現音頻圖像的識別。實驗結果表明,本文方法可有效解決復雜音頻的識別問題。
[參考文獻]
[1]顏永紅.音頻信息識別與檢索技術[J].現代物理知識,2009(3):11-14.
[2]陳曉宇.基于樣例的音樂檢索研究[D].北京:北京郵電大學,2012.
[3]劉波霞,陳建峰.基于特征分析的環境聲音事件識別算法[J].計算機工程,2011,37(22):261-263.
[4]Lin C S,Wang D R.Spectrogram image encoding based on dynamic Hilbert curve routing[C]//International Conference on Image Processing Theory Tools and Applications.IEEE,2010:107-111.
[5]Ke Y,Hoiem D,Sukthankar R.Computer vision for music identification[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2005:597-604.
[6]Schutte K,Glass J.Speech recognition with localized time-frequency pattern detectors[C]//IEEE Workshop on Automatic Speech Recognition and Understanding.IEEE,2007:341-346.
[7]劉鵬.基于聲譜圖的公共場所異常聲音特征提取及識別研究[D].重慶:重慶大學,2012.
[8]Koch C,Ullman S.Shifts in selective visual attention:towards the underlying neural circuitry[J].Human Neurobiology,1985,4(4):219-245.
[9]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[10]Dick M,Ullman S,Sagi D.Parallel and serial processes in motion detection.[J].Science,1987,237(4813):400-402.
[11]Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient region detection[C]//International Conference on Computer Vision and Pattern Recognition.IEEE,2009:1597 -1604.
[12]Harel J,Koch C,Perona P.Graph-based visual saliency[J].Advances in Neural Information Processing Systems,2006,19:545-552.
[13]Bruce N D B,Tsotsos J K.Saliency based on information maximization[J].Advances in Neural Information Processing Systems,2005,18(3):298-308.
[14]Rahtu E,Kannala J,Salo M,et al.Segmenting salient objects from images and videos[C]//Proceedings of the 11th European Conference on Computer Vision:Part V.Springer-Verlag,2010:366-379.
[15]Klein D A,Frintrop S.Center-surround divergence of feature statistics for salient object detection[C]//International Conference on Computer Vision.IEEE,2011:2214-2219.
[16]Cannon M W,Fullenkamp S C.A model for inhibitory lateral interaction effects in perceived contrast[J].Vision Research,1996,36(8):1115-1139.
[17]Engel S,Zhang X,Wandell B.Colour tuning in human visual cortex measured with functional magnetic resonance imaging [J].Nature,1997,388(6637):68-71.
[18]Jolliffe I.Principal component analysis[M].2nd ed.New York:Springer-Verlag,2002:41-64.
[19]劉曉平,陸勁挺,夏新宇.基于PCA和馬氏距離的運動捕捉數據分割方法[J].合肥工業大學學報:自然科學版,2014,37(5):563-566.
[20]Hubel D H,Wiesel T N.Receptive fields,binocular interaction and functional architecture in the cat’s visual cortex[J].The Journal of Physiology,1962,160(1):106-154.
[21]Fukushima K.Neocognitron for handwritten digit recognition [J].Neurocomputing,2003,51(2):161-180.
[22]孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.
[23]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
(責任編輯胡亞敏)
Application of the saliency of spectrogram in audio recognition
GONG Yan-ting,CHENG Xiao-xue,REN Hong-mei,CHEN Yan-xiang
(School of Computer and Information,Hefei University of Technology,Hefei 230009,China)
Abstract:Traditional audio recognition had some limitations in the complex audio case,such as noisy background,aliasing,interruption or multi-source.In order to solve these problems,a new audio recognition method based on the saliency detection of spectrogram was proposed.Firstly,the audio was converted to a two-dimensional image through spectrogram.Secondly,the main sound source area was effectively separated by using the image saliency detection,and the information having nothing to do with the main sound could be removed in the spectrogram.Then the characteristics of the main sound source region were extracted to reduce the interference and redundancy.Finally,the audio recognition was realized by using the improved convolutional neural network.The experimental results show that the audio recognition method based on the saliency detection of spectrogram can effectively solve the identification problem of complex audio sources.
Key words:complex audio;audio recognitional;spectrogram;saliency;convolutional neural network
作者簡介:弓彥婷(1990-),女,內蒙古豐鎮人,合肥工業大學碩士生;
基金項目:國家自然科學基金資助項目(61105076);中國博士后科學基金資助項目(2012M511402);中央高校基本科研業務專項資金資助項目(2012HGCX0001;JZ2014HGBZ0059)和合肥工業大學教學研究資助項目(XJ201309)
收稿日期:2014-12-10;修回日期:2015-03-05
doi:10.3969/j.issn.1003-5060.2016.01.012
中圖分類號:TP37;TP391
文獻標識碼:A
文章編號:1003-5060(2016)01-0062-06