999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時頻圖像特征用于聲場景分類

2017-12-01 03:32:45高敏尹雪飛陳克安
聲學技術 2017年5期
關鍵詞:分類特征信號

高敏,尹雪飛,陳克安

?

時頻圖像特征用于聲場景分類

高敏1,尹雪飛1,陳克安2

(1. 西北工業大學電子信息學院,陜西西安 710129;2.西北工業大學航海學院,陜西西安 710072)

為解決根據音頻流識別聲場景的問題,對音頻信號進行恒Q變換,得到其時頻表達圖像,然后進行濾波平滑等處理,隨之提取能夠表述信號譜能量變化方向信息的梯度直方圖特征,以及能夠捕捉信號譜紋理信息的局部二值模式特征,輸入具有線性核函數的支持向量機分類器,對不同聲場景數據進行分類實驗。結果表明,相對于傳統的時頻域特征和梅爾頻率倒譜系數特征,所提出的特征基本能夠捕捉到給定聲場景具有區分度的信息,所得分類率更高,且兩者的互補作用使得聯合特征分類效果達到最優,該方法為聲信號特征提取貢獻了一種新思路。

聲場景;恒Q變換;梯度直方圖;局部二值模式

0 引言

將語義標簽和音頻流相關聯以標識產生聲音的聲環境,此問題被稱為聲場景分類(Acoustic Scene Classification,ASC)[1],它是計算聽覺場景分析背景下最困難的任務之一。此種分類任務在機器聽聲領域非常重要,其應用包括語境識別服務、智能可穿戴設備、機器人導航系統和音頻的歸檔管理等。

聲場景分類是一個相當復雜的問題,因為一個特定場景的錄音可能由大量的單個聲事件組成,但其中只有少數聲事件提供了有關該場景的信息[2]。因此,現在關于ASC的工作主要集中在提取聲信號特征的方法上[3-6],人們期望,所提取的特征能夠捕捉到一些給定聲事件具有區分度的信息。單獨的時域或頻域特征識別效果較差,而時頻表達可將聲信號在二維平面上可視化,反映了其時頻結構信息,有利于克服通過特征融合途徑獲得時頻聯合信息的弊端,避免了融合過程中特征間的彼此抑制。因此,可以借鑒圖像處理領域發展較為成熟的識別方法,對聲音時頻表達圖像進行識別,從而達到聲識別的目的。圖像處理中的梯度直方圖(Histogram of Oriented Gradient,HOG)特征,可以描述時頻表達圖像的形狀,捕捉聲音譜能量變化的方向信息;局部二值模式(Local Binary Pattern,LBP)可以描述其局部紋理特征,捕捉譜能量的緩慢變化或周期性變化信息。兩者組合更具有互補作用,有利于進一步提高特征的效能。

本文選取不同聲場景的錄音作為研究對象,用恒Q變換來表達信號,并將HOG、LBP以及兩者的聯合特征應用于聲信號的時頻表達圖像,輸入到多類別支持向量機分類器進行分類實驗,最后和傳統的時頻域及梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCCs)特征分類結果進行比較,并對結果進行分析。

1 數據來源

鑒于聲場景數據集缺乏共享機制,公開數據集十分有限,本文所用數據一是來自于文獻[7]所提供的D-case數據,該文獻提供了一套由專業錄音師進行錄制的高質量標準化、室內外場景數目均衡的開源錄音樣本,一共包含10種不同聲場景,錄音采樣率為44.1 kHz,總共有3 000 s,每5 s的錄音作為一個樣本,一共有600個樣本。數據二是由文獻[8]公開提供的EA數據,它是由Ma等人于2000年在East Anglia大學收集的,一共包含10種聲場景,采樣頻率為22.1 kHz,總共2 400 s,每5 s錄音作為一個樣本,一共有480個樣本。

2 信號的時頻表達

由于聲場景信號的非平穩特性,希望其時頻表達體現出短時局部窗函數內信號的功率譜,通常考慮基于小波或基于短時傅里葉變換的方式,本文利用恒Q變換[9-10](Constant-Q Transform,CQT)表達信號,該方法在1990年被提出,一般用于語音和音樂信號的分析和處理。與短時傅里葉變換不同,該變換用時變的窗函數在對數刻度上進行頻率分析,頻率分辨率與人的聽覺系統幾乎一致,時頻局部化描述能力更強,文獻[6]已經證明它對于聲場景分類中基于圖像的特征提取方法更為有效。從濾波器的角度分析,CQT是中心頻率與帶寬的比為定值Q的一組濾波器,可以在低頻獲得較高的頻率分辨率,在高頻獲得較高的時間分辨率。

一個八度內的頻率分布并非均勻,而是呈指數分布。

對信號進行恒Q變換后,為了獲得不依賴于信號長度和采樣頻率的特征,對CQT矩陣進行雙三次插值處理,調整得到像素為512*512的時頻表達圖像,該圖像保留了聲場景的時頻結構信息。其次,由于對信號噪聲缺少先驗知識,所以利用均值濾波來平滑時頻表達圖像,其目的是減小圖像中局部的強變化。圖1及圖2所示為地鐵聲場景的時域波形和處理后的CQT時頻圖。

圖1 地鐵聲場景中信號波形圖

圖2 地鐵聲場景中信號CQT時頻圖

3 特征提取

3.1 梯度直方圖

特征提取的主要目標是,捕捉時頻結構的形狀信息,并期望捕捉到的時頻結構信息和其所屬聲場景特性有關。計算視覺領域[5]的研究表明,局部形狀信息可以通過梯度密度和方向來表示。梯度直方圖基本上給出了圖像局部區域關于梯度方向出現次數的信息,因此,它們能夠描述該區域的形狀。

計算圖像的HOG主要基于以下步驟[11]:

(2) 將圖像分成無重疊的單元(cell)。

(3) 統計給定單元中各梯度方向的出現次數。

(4) 最終根據相鄰單元直方圖范數,對每個單元直方圖進行歸一化。

合并的根本思想是將局部區域的特征進行合并,變為另一個更低維的特征,但它仍保持了與鄰近區域的相關性。這種合并有助于獲得更穩健的信息。主要考慮以下的合并方法[12]:

(1) 隨時間邊緣化合并:平均時頻表達中沿時間軸的所有直方圖,其結果是在特征向量中喪失了所有的時域信息。

(2) 隨頻率邊緣化合并:平均時頻表達中沿頻率軸的所有直方圖,其結果是在特征向量中喪失了所有的頻域信息。

(3) 分塊合并:對相鄰的單元進行分塊,合并其中所有的特征,塊尺寸的大小由用戶自己定義。

對于上述圖2所示的時頻圖,計算每個8*8像素單元,具有8個方向的梯度直方圖,結果如圖3所示??梢钥闯?,HOG正確捕捉到了信號功率譜變化的方向。

圖3 地鐵聲場景中信號梯度直方圖

3.2 局部二值模式

局部二值模式用于描述圖像的局部紋理特征,在時頻圖像中表現為捕捉譜能量的緩慢變化或周期性變化信息[13]。其核心思想是,設定一個像素窗口,用窗口內中心像素的灰度值作為閾值,與其鄰域相比較,得到的二進制碼稱為一種模式并作為該局部的紋理特征。

計算圖像的LBP特征[14]主要基于以下步驟:

(1) 對整個時頻圖使用LBP算子標記所有的像素。

(2) 將時頻圖劃分成若干相等的單元。

(3) 統計每個單元LBP值出現的概率以得到直方圖。

(4) 最后將每個單元的統計直方圖連接成為一個特征向量,也就是整幅圖的LBP紋理特征向量。

LBP等價模式算子見公式(7)

本文對上述512*512的時頻圖,單元劃分為64*64大小,采用LBP等價模式算子,通過3*3鄰域內的8個采樣點計算得到8*8*59=3 776維特征向量,其中某一單元的LBP直方圖如圖4所示。

圖4 地鐵聲場景中信號LBP直方圖

4 實驗結果比對及分析

支持向量機(Support Vector Machine,SVM)已普遍用于各種數據的分類,且表現出良好的分類性能[15],用具有高斯核函數和線性核函數的SVM算法,每類聲場景選取1/2的訓練樣本進行訓練,其余用做測試,采用十折交叉驗證方式進行分類實驗。

HOG特征的梯度方向考慮有符號和無符號兩種,沿頻率和時間方向相鄰的64個單元進行合并可得到1 536維特征向量,使用具有線性核函數的SVM在本文數據集上進行分類,結果如表1所示。不同的合并方式對分類結果有較大影響,隨頻率邊緣化合并的效果最差,因為該方法丟失了關于頻譜內容的所有信息;隨時間邊緣化合并特征中缺乏時間信息,但獲得了較好的分類精度,這是因為聲場景的頻譜內容比時間內容更具有區分性,大多數的聲場景總體上是時不變的,盡管某些短時聲事件,可能攜帶了具有區分性的信息,但多數聲場景的周期性模式可進行全局性分析[5],促進分類效果;分塊合并方式可以達到最高分類精度,該方式的顯著趨勢是:隨著頻率邊緣化合并減小,時間邊緣化合并增加,分類精度先提高,后降低。在分塊大小為32*2時,分類精度達到最高。

表1 不同合并方式的分類效果

使用上述分塊方式效果最好的HOG特征、LBP特征及兩者聯合特征在三個數據集上進行實驗,另外為了評估本文所用算法的識別性能,還用到對信號進行分幀后得到的時頻域特征[16-17],將其標記為TFF,包括零交點比率(Zero-Crossing Rate,ZCR)、譜質心(Spectral Centroid,SC)、譜下降值(Spectral Roll-Off,SRO)、譜通量(Spectral Flux,SF)、線性預測倒譜系數(Linear Prediction Cepstrum Coefficient,LPCC),一共是1+1+1+1+12=16維,其次考慮到應用于聲場景識別效果較為突出的特征之一是MFCC[18],本文將MFCC及其一階二階差分進行平均,得到每幀信號39維特征向量也用作進行比較的基準特征,這些特征能夠很好地描述信號的動態性能。

用以上特征在三個數據集上分別進行實驗,所得識別率如表2所示。觀察可知不同核函數得到的識別率不同,總體來看線性核函數效果較好,更適用于本文所提取的特征向量。聯合特征得到的識別率最高,其次是HOG特征和LBP特征,時頻域特征效果最差。分析其原因,一方面,傳統的時頻域特征不能很好地捕捉到聲音信號時頻結構中關于形狀和演變的相關特征,MFCC的本質是捕捉了信號功率譜中的非線性信息[5],該信息并非聲場景中具有區分性的信息,而時頻表達的HOG和LBP特征卻可以提供具有強區分性的信號譜能量變化的局部方向信息及周期性變化信息,且兩者具有互補作用,使得聯合特征識別率更高。另一方面,由于大多數聲場景具有一定的周期性模式,因此可以忽略其中短時的單個聲事件所攜帶的信息而進行全局性分析,HOG和LBP特征計算過程中將圖像分割成單元的步驟,恰恰使得它們對于小的時間和頻率平移是不變的,這有助于識別效果。

表2 不同特征的分類效果(%)

另外本文數據的實驗結果優于公開的D-case數據,其主要原因:一是錄制同類場景音頻所選取的場景個數有限(場景的多樣性不如D-case數據),例如公園場景一共選取了四個不同的城市公園進行錄制,這可能導致場景類內差距較小;二是測試集和訓練集所包含的不同音頻片段可能來自于同一個錄音文件,它們之間的時間相關性使得分類率有所提高。

用Matlab 8.0版本進行仿真實驗,對每個樣本得到TFF特征的維數是16*332,MFCC特征的維數是39*332(其中332表示幀個數),LBP特征的維數是3 776,以及HOG特征的維數是1 536,因此相對而言,后兩種特征所占用的內存空間更小。在D-case數據集上計算每種特征所消耗的時間如表3所示,由表3可知,本文所提出的三種特征由于計算過程復雜,因此時間復雜度較高,可見識別率的提高是以增加計算時間為代價。

表3 幾種特征計算時間對比

在D-case數據集上用LBP_HOG特征對聲場景進行分類,得到的識別率混淆矩陣如表4所示,其中橫向為預測類標簽,縱向為實際類標簽,從中可注意到,與其他場景具有顯著差異的公共汽車和繁華街區能夠被精確地識別,較為相似的場景如公園和寧靜街區,地鐵和地鐵站臺出現一些混淆現象,但總體的識別率達到83.67%,比文獻[1]所提出的定量遞歸分析聯合MFCC特征所獲得的最高識別率83.2%高出0.47%,平均識別率達到84.23%,高出1%左右,說明本文所提特征能夠很好地捕捉到不同聲場景中的區分性信息。

表4 分類結果混淆矩陣

5 總結

本文首先對不同聲場景的聲信號進行恒Q變換得到其時頻表達,在此基礎上用圖像處理中的梯度直方圖特征和局部二值模式提取信號譜能量變化的局部信息,輸入支持向量機分類器,與傳統的時頻特征和MFCC特征進行比較,結果證明,所提出的基于聲音信號時頻表達圖像所提取的特征能夠很好地捕捉到聲場景中具有區分度的信息,且兩者聯合特征具有互補作用,效果更好。

[1] Barchiesi D, Giannoulis D, Dan S, et al. Acoustic scene classification: classifying environments from the sounds they produce[J]. IEEE Signal Processing Magazine, 2015, 32(3): 16-34.

[2] Stowell D, Giannoulis D, Benetos E, et al. Detection and classification of acoustic scenes and events[J]. IEEE Transactions on Multimedia, 2015, 17(10): 1733-1746.

[3] Ghoraani B, Krishnan S. Time–frequency matrix feature extraction and classification of environmental audio signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(7): 2197-2209.

[4] Cotton C V, Ellis D P W. Spectral vs. spectro-temporal features for acoustic event detection[C]//Applications of Signal Processing to Audio and Acoustics, IEEE Workshop on. IEEE, 2011, 69-72.

[5] Roma G, Nogueira W, Herrera P. Recurrence quantification analysis features for environmental sound recognition[J]. Bmc Public Health, 2013, 9(22): 1-4.

[6] Bisot V, Serizel R, Essid S, et al. Acoustic scene classification with matrix factorization for unsupervised feature learning[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, 2016, 6445-6449.

[7] Giannoulis D, Stowell D, Benetos E, et al. A database and challenge for acoustic scene classification and event detection[C]// European Signal Processing Conference, 2013, 1-5.

[8] Ma L, Smith D J, Milner B P. Context awareness using environmental noise classification[C]//European Conference on Speech Communication and Technology, Eurospeech, 2003, 1-4.

[9] Sch?rkhuber C, Klapuri A, Holighaus N, et al. A matlab toolbox for efficient perfect reconstruction time-frequency transforms with log-frequency resolution[C]//Aes Conference on Semantic Audio, 2014, 1-8.

[10] Sch?rkhuber C, Klapuri A, Sontacchi A. Audio pitch shifting using the constant-Q transform[J]. Journal of the Audio Engineering Society, 2013, 61(7/8): 562-572.

[11] Minetto R, Thome N, Cord M, et al. An effective gradient-based descriptor for single line text regions[J]. Pattern Recognition, 2013, 46(3): 1078-1090.

[12] Boureau Y L, Ponce J, Lecun Y. A theoretical analysis of feature pooling in vision algorithms[C]//Proc. International Conference on Machine Learning, 2010, 328-33.

[13] Kobayashi T, Ye J. Acoustic feature extraction by statistics based local binary pattern for environmental sound classification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing, 2014, 3052-3056.

[14] Felzenszwalb P F, Girshick R B, Mcallester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Software Engineering, 2010, 32(9): 1627-45.

[15] Tan L N, Alwan A, Kossan G, et al. Dynamic time warping and sparse representation classification for birdsong phrase classification using limited training data[J]. J. Acoust. Soc. Am., 2015, 137(3): 1069-80.

[16] Karbasi M, Ahadi S M, Bahmanian M. Environmental sound classification using spectral dynamic features[C]//IEEE Communications and Signal Processing, 2011, 1-5.

[17] 陳克安. 環境聲的聽覺感知與自動識別[M]. 北京: 科學出版社, 2014. CHEN Kean. Auditory perception and automatic recognition of environmental sound[M]. Beijing:Science Press, 2014.

[18] Chakrabarty D, Elhilali M. Exploring the role of temporal dynamics in acoustic scene classification[J]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2015, 10(11): 1-5.

Time-frequency representation based feature extraction for audio scene classification

GAO Min1, YIN Xue-fei1, CHEN Ke-an2

(1. School of Electronics and Information, Northwestern Polytechnical University, Xi’an 710129,Shaanxi, China; 2. School of Marine Science and Technology, Northwestern Polytechnical University, Xi’an 710072, Shaanxi,China)

To recognize audio scene in a complex environment according to an audio stream, a constant-Q transform is chosen to obtain the time-frequency representation (TFR) of the signal. Due to the lack of prior knowledge on the signal and noise, a mean filtering is used to smooth the TFR image, then the features based on the histogram of gradients (HOG) of the TFR image are extracted, which can reflect the local direction of variation (both in time and frequency) of the signal power spectrum. Consequently the Local Binary Pattern (LBP) feature is considered, which captures the texture information of the signal. As for the classification algorithm, support vector machine with linear kernel function is used. Classification experiment has been done on the data of different acoustic scenes. Compared with the classical audio features such as MFCCs, the proposed features capture the discriminative power of a given audio scene to show good performance in classification, and the combined features achieve the best results. It is valuable in the field of feature extraction of acoustic signal.

acoustic scene classification; constant-Q transform; histogram of oriented gradient; local binary pattern

TN911.72

A

1000-3630(2017)-05-0399-06

10.16300/j.cnki.1000-3630.2017.05.001

2016-11-04;

2017-03-15

國家自然科學基金資助項目(11574249、11074202)

高敏(1991-), 女, 山西運城人, 碩士研究生, 研究方向為信號與信息處理。

高敏, E-mail: 253191300@mail.nwpu.edu.cn

猜你喜歡
分類特征信號
分類算一算
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 91美女视频在线| 中美日韩在线网免费毛片视频| 久久精品亚洲中文字幕乱码| 免费xxxxx在线观看网站| 色网在线视频| 亚洲综合18p| 免费jizz在线播放| 伊人久久大香线蕉aⅴ色| 天天婬欲婬香婬色婬视频播放| 午夜高清国产拍精品| 亚洲男人的天堂在线| 国产精品亚洲一区二区三区z| 国产成人亚洲无码淙合青草| 正在播放久久| 2021天堂在线亚洲精品专区| 免费人成网站在线高清| 免费一级无码在线网站| 日韩国产综合精选| h网址在线观看| 亚洲国产日韩一区| 国产成人1024精品| 国产成人a在线观看视频| 91精品啪在线观看国产| 被公侵犯人妻少妇一区二区三区| 久久黄色毛片| 欧美色综合网站| 亚洲欧美日韩中文字幕一区二区三区 | 国产精品区视频中文字幕| 无码中文字幕乱码免费2| 三级欧美在线| 国产欧美一区二区三区视频在线观看| 国产精品手机在线观看你懂的| 99在线国产| 亚洲无码视频喷水| 中国一级毛片免费观看| 欧美视频在线观看第一页| 玩两个丰满老熟女久久网| 一级成人欧美一区在线观看| 欧美亚洲激情| 成人免费视频一区二区三区| 欧美国产综合视频| 免费毛片全部不收费的| 日韩一级二级三级| 99er精品视频| 成年免费在线观看| 亚洲毛片网站| 色综合激情网| 国产成人一区免费观看 | 久久国产精品无码hdav| 综合色婷婷| 国内毛片视频| 国产精品免费久久久久影院无码| 日韩av电影一区二区三区四区| 麻豆精品久久久久久久99蜜桃| 97久久超碰极品视觉盛宴| 国产精品亚欧美一区二区| 伊人丁香五月天久久综合 | 国产在线自揄拍揄视频网站| 伊人久久精品亚洲午夜| 无码国内精品人妻少妇蜜桃视频| 成人免费黄色小视频| 狠狠色婷婷丁香综合久久韩国| 91久久天天躁狠狠躁夜夜| 欧美伊人色综合久久天天| av手机版在线播放| 无码一区18禁| 亚洲网综合| 99久久精品免费看国产免费软件| 久久综合成人| 精品国产一二三区| 综合色亚洲| 99视频精品全国免费品| 99草精品视频| 国产激情国语对白普通话| 成人在线视频一区| 色婷婷在线播放| 国产综合精品日本亚洲777| 国产AV无码专区亚洲A∨毛片| 91青青草视频| 久久久久青草线综合超碰| 亚洲中文字幕在线一区播放| 福利一区在线|