999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于頻域和時域差分的音頻指紋算法研究

2014-09-04 01:54:56牛憲華1曾柏森2陳思利
西華大學學報(自然科學版) 2014年5期

牛憲華1,曾柏森2,陳思利

(1.西華大學數學與計算機學院,四川 成都 610039;,2. 中國聯通成都市分公司網絡優化中心,四川 成都 610036;3.成都工業學院通信工程系,四川 成都 611730)

隨著互聯網的發展和音頻壓縮技術的進步,網絡上出現了海量的音頻信息。人工管理海量的數字音頻數據是一件幾乎無法完成的工作,這直接促使了音頻指紋(audio fingerprinting,AF)技術的快速發展。音頻指紋技術建立了一種用于比較2個音樂數據聽覺質量的有效機制,可以快速高效地識別和檢索出音頻內容,是數字音頻的內容識別、版權保護、內容完整性校驗等領域的關鍵技術之一。近年來,音頻指紋技術成為國內外學者研究的熱點[1-4]。采用短時傅里葉變換得到音頻信號的頻譜信息是提取音頻指紋時廣泛使用的一種方法。2002年,J.Haitsma等[5]提出Philips音頻指紋算法。Philips算法將頻譜子帶能量時頻濾波結果的正負值作為音頻特征,對多種信號畸變具有較好的魯棒性。2006年,A.Ramalingam等[6]將香農熵、子帶能量、頻譜子帶質心、頻譜帶寬和梅爾頻率倒譜系數等多種基于短時傅里葉變換的特征作為音頻特征分析其魯棒性,其實驗結果表明在一定的信號畸變下,頻譜子帶質心的魯棒性較好。J. S.Seo等[7]基于文獻[6]提出采用歸一化頻譜子帶質心(normalized spectral sub-band centroids, NSSC)作為音頻特征,并證明NSSC算法具有良好的魯棒性。本文對性能較好的Philips算法進行了仿真分析,并針對Philips算法在某些信號畸變情況下,魯棒性不理想的情況,引入功率譜差分的思想,給出了改進算法,并將改進算法與現有算法進行了比較分析。

1 算法概述

1.1 Philips算法

Philips音頻指紋算法是在2002年提出的[5]。該算法將頻譜子帶能量時頻濾波結果的正負值作為音頻特征,其流程圖如圖1所示。

圖 1 Philips音頻指紋算法流程圖

重疊分幀模塊是按31/32的重疊率進行分幀;傅里葉變換模塊實現時頻轉換;頻帶濾波器模塊是使用濾波器組劃分頻譜子帶;二維濾波器模塊是使用濾波器組進行頻譜子帶差分;門限判別模塊是計算每幀信號的音頻指紋。

1.2 Philips 算法分析

本文主要分析Philips算法中的2個關鍵模塊:頻帶濾波器模塊和二維濾波器模塊。通過分析發現,改進Philips算法在這2個模塊所采用的濾波器形式,就可以有效地提高音頻指紋的魯棒性。

1.2.1 頻帶濾波器模塊

頻帶濾波器模塊主要是使用濾波器組來劃分頻譜子帶。常用的功率譜子帶劃分方式有2種:一種是采用Bark刻度[8-9]的矩形濾波器組;另一種是采用Mel刻度的三角形濾波器組[10]。Philips算法采用Bark刻度的矩形濾波器組劃分頻譜子帶,各個濾波器之間沒有重疊。本文將Philips算法中的矩形濾波器組用三角形Mel刻度濾波器組來代替。采用這2種濾波器組的算法仿真對比分析結果如圖2所示。

從圖2可以看出,使用Mel刻度三角形濾波器組的音頻指紋,在時間刻度修改和線性速度改變時,誤碼率明顯減小,但在白噪聲干擾情況下誤碼率變化不大。通過計算可得出2種濾波器組功率譜子帶間的相關性,如圖3所示。可以看出,使用Mel刻度三角形濾波器組時功率譜子帶間的相關性較高。結合圖2的結果可知:增大功率譜子帶間的相關性可以有效提高音頻指紋針對線性速度改變和時間刻度修改的魯棒性;與之相反的是,可以提高音頻指紋對白噪聲的魯棒性[11]。

圖 2 矩形Bark刻度濾波器組與三角形Mel刻度濾波器組的音頻指紋誤碼率比較

圖 3 2種濾波器組的子帶相關性

1.2.2 二維濾波器模塊

設原始音頻信號s(n)被噪聲d(n)污染,形成帶噪音頻信號x(n)=s(n)+d(n)。帶噪音頻信號經過短時分幀處理后表示為

xn(m)=sn(m)+dn(m) (0≤m≤M-1,

0≤n≤N-1)。

(1)

式中:m為幀號;M為音頻信號的幀數;n為幀內序號;N為每幀信號的長度。

根據傅里葉級數性質,式(1)的離散傅里葉級數關系可以表示為

Xk(m)=Sk(m)+Nk(m)。

(2)

式中,Xk(m) 、Sk(m)和Nk(m)分別表示xn(m)、sn(m)和dn(m)的離散傅里葉級數,0≤k≤K-1,K表示離散傅里葉變換的長度。

設加性噪聲d(n)的均值為零,那么Nk(m)的均值也為零,記為Nk。有

(3)

(4)

(5)

再通過多項式近似的方法來求功率譜對時間t的導數[12],為

(6)

對功率譜進行子帶劃分即讓功率譜通過特定的濾波器組。每個濾波器的輸出為

(7)

式中:a和b分別表示帶通濾波器的頻帶寬度的上下限;αi表示濾波器組的系數。根據式(5)和式(6)可以得出

(8)

其中T值代表計算濾波器輸出的差分值時用到的前面幀和后面幀的個數。

由以上推導可知,濾波器輸出對時間求導的結果與噪聲無關,因此可以采用功率譜頻域和時域差分的方式給出改進算法。Philips算法相當于把功率譜子帶通過一個二維的濾波器,即在頻域和時域上都通過一個一階高通FIR濾波器,濾波器傳遞函數均為

U1(z) = 1-z-1。

(9)

仿真結果表明,時域差分可以消除直流分量和變化緩慢的噪聲干擾,頻域差分可以減小頻譜間的相關性。由前面的推導可知,功率譜子帶求導可以消除噪聲的影響,功率譜子帶對時間的導數即為濾波器輸出的差分值。當進行差分運算時只用到前后各1幀,即T=1時,濾波器組的輸出就可以認為經過了一個二階帶通FIR濾波器,濾波器傳遞函數為

U2(z) =z-z-1。

(10)

當使用前后各2幀進行差分運算,即T=2時,濾波器組的輸出即為一個四階帶通FIR濾波器,相應的濾波器傳遞函數為

U3(z) =3z3+2z2+z-z-1-2z-2-3z-3。

(11)

3種濾波器的傳遞函數U1、U2、U3的幅度特征如圖4所示。

圖 4 濾波器U1、U2、U3的幅度響應

可以看出:采用濾波器U1過濾白噪聲和變化緩慢的噪聲時,提升了高頻分量;但是由于高頻分量里的有效信息較少,這樣會造成大量頻譜信息的丟失。若選用既包含更多低頻分量同時又能抑制高頻分量的濾波器U2或U3來處理,則可以更好地消除白噪聲和變化緩慢的噪聲。

1.3 改進算法

通過前面對功率譜子帶劃分和子帶間時頻差分的分析發現,改變功率譜子帶劃分方式和功率譜子帶間的時頻差分方式,可以有效提高音頻指紋在白噪聲和時間刻度修改等信號畸變下的魯棒性;因此,基于時頻差分的思想給出了改進的音頻指紋算法,其流程圖如圖5所示。

圖 5 音頻指紋改進算法流程圖

重疊分幀模塊是按15/16的重疊率進行分幀的,比Philips算法31/32的重疊率低,減少了數據的處理量;傅里葉變換模塊實現時頻轉換;頻帶濾波器模塊使用三角形Mel刻度濾波器組代替Bark刻度濾波器組進行頻譜子帶劃分;頻率差分和時域差分模塊使用濾波器組U3+U1進行功率譜子帶差分;門限判別模塊用于計算每幀信號的音頻指紋。

筆者在Philips音頻指紋算法的基礎上,主要修改了頻帶濾波器組模塊的功率譜子帶劃分方式和二維濾波器模塊的子帶間時頻差分方式,提出了2種改進算法,算法主要修改部分描述如下。

1)改進算法1:頻帶濾波器組使用矩形Bark刻度濾波器組,頻率和時域差分模塊改用濾波器組U3+U1。

2)改進算法2:頻帶濾波器組改用三角形Mel刻度濾波器組,頻率和時域差分模塊改用濾波器組U3+U1。

2 噪聲魯棒性分析

把實驗環境分為理論環境和真實環境來模擬常見的噪聲環境。在理論環境條件下,采用包括MP3編解碼、白噪聲、幅度壓縮的方法對音頻信號進行畸變;在真實環境條件下,采用在4個典型場景采集的音頻信號作為實驗樣本。

2.1 理論環境

首先,對實驗樣本進行幾類常見的處理:幅度壓縮、白噪聲、MP3編解碼、時間刻度修改和線性速度改變。然后利用NoiseX-92[13]中的幾類噪聲(車內噪聲、公共場合噪聲和工廠噪聲)對實驗樣本加噪。在上述噪聲環境條件中,Philips算法和改進算法的誤碼率如圖6所示。

從圖6可以看出:在車內、公共場合和工廠環境下,改進算法一的誤碼率明顯低于其他2種算法,即在這些環境下改進算法1的噪聲魯棒性優于另外2種算法;在時間刻度修改和線性速度改變這2種信號畸變情況下,改進算法2的誤碼率較低,噪聲魯棒性優于另外2種算法;而針對一些對音頻指紋誤碼率影響較小的畸變,如幅度壓縮、MP3編解碼等,改進算法與Philips算法的誤碼率相差不大。

筆者又將改進算法1和Philips算法進行比較,其結果如圖7所示,改進算法1的魯棒性優于Philips算法。

圖 7 算法的正確識別率比較

2.2 真實環境

將實驗樣本在4個不同的真實場景下進行錄音采集。為符合一般的采集條件,使用Samsung GT-I9305型號手機在4種典型環境下進行信號采集:1)室內,安靜,噪聲少;2)小區,安靜,噪聲相對較少;3)商場,喧鬧,存在說話聲、音樂等各種背景噪聲;4)公交車,喧鬧,嘈雜,存在發動機聲、說話聲等各種背景噪聲。

將以上4種典型環境下采集的音頻信號作為實驗樣本,分別采用改進算法和Philips算法提取音頻指紋,得到的誤碼率如圖8所示。

圖8的實驗結果表明:在比較喧鬧嘈雜的環境下,改進算法一相較Philips算法,其魯棒性明顯改善;在相對安靜的環境下,2種改進算法與Philips算法差別不大;本文提出的改進算法在真實環境下的噪聲魯棒性相較Philips算法有明顯提高。

3 結束語

本文通過對經典音頻指紋算法——Philips算法進行分析研究,發現Philips音頻指紋算法在低信噪比、線性速度改變等方面存在魯棒性較差的問題,通過仿真分析總結出功率譜差分能有效消除加性噪聲的特性。為此,提出了一種基于頻域和時域差分的音頻指紋提取算法。在實驗環境和真實環境條件下對改進算法和現有算法進行了對比分析。其實驗結果表明,改進算法的魯棒性優于Philips算法。

圖 8 真實環境下算法誤碼率比較

[1]Grosche P, Müller M, Serrà J. Audio Content-Based Music Retrieval[J]. Multimodal Music Processing, 2012, 3:157-174.

[2]Kamaladas M D , Dialin M M. Fingerprint Extraction of Audio signal using Wavelet Transform[C]//2013 International Conference on Signal Processing Image Processing & Pattern Recognition (ICSIPR). Coimbatore:IEEE, 2013: 308-312.

[3]Doets P J O , Lagendijk R L. Distortion Estimation in Compressed Music Using Only Audio Fingerprints[J].IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(2): 302-317.

[4]Lee S , Yook D , Chang S. An Efficient Audio Fingerprint Search Algorithm for Music Retrieval[J].IEEE Transactions on Consumer Electronics, 2013, 59(3): 652-656.

[5]Haitsma J , Kalker T. A Highly Robust Audio Fingerprinting System[J]. Proceedings of the International Symposium on Music Information Retrieval, 2002, 11: 107-115.

[6]Ramalingam A , Krishnan S. Gaussian Mixture Modeling of Short-Time Fourier Transform Features for Audio Fingerprinting[J].IEEE Transactions on Information and Forensics and Security, 2006, 1(4): 457-464.

[7]Seo J S , Jin M , Lee S , et.al. Audio Fingerprinting Based on Normalized Spectral Subband Centroids[J]. IEEE International Conference on Acoustics, Speech, and Signal Proceedings, 2005, 3(3): 213-216.

[8]Thomas F. Quatieri 離散時間語音信號處理:原理與應用[M].趙勝輝, 劉家康,譯.北京:電子工業出版社, 2004: 540-550.

[9]Shaughnessy D O. Speech Communication: Human and Machine[M].[s.n.]: Universities Press (India) Pvt Limited, 1987:23-45.

[10]Davies S B , Mermelstein P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences[J].IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(4): 357-366.

[11]Nadeu C , Hemando J , Gorricho M. On the Decorrelation of Filter-Bank Energies in Speech Recognition[J].Proc Eurospeech, 1995: 1381-1384.

[12]Xu J F , Wei G. Noise-Robust Speech Recognition Based on Difference of Power Spectrum[J]. IEEE Electronics Letters, 2000, 36(14): 1247-1248.

[13]Varga A , Steeneken H J M. Assessment for Automatic Speech Recognition: II. NOISE-92: A Database. An Experiment to Study the Effect of Additive Noise on Speech Recognition Systems[J]. Speech Communication, 1993, 12: 247-251.

主站蜘蛛池模板: 日韩一级毛一欧美一国产 | 婷婷六月激情综合一区| 亚洲国产综合精品中文第一| 国产精品久久久久久久久久久久| swag国产精品| 久久人妻xunleige无码| 人妻精品久久无码区| 亚洲视屏在线观看| 久久久精品国产SM调教网站| 片在线无码观看| 久久国产黑丝袜视频| 四虎国产永久在线观看| 国产特级毛片| 亚洲中文字幕av无码区| 国产91精品调教在线播放| 72种姿势欧美久久久大黄蕉| 农村乱人伦一区二区| 国产精品永久免费嫩草研究院| 日本高清有码人妻| 中文字幕人成乱码熟女免费| 婷婷中文在线| www.国产福利| 国产一区二区免费播放| 亚洲黄色片免费看| 国产精品漂亮美女在线观看| 久久77777| 亚洲最新在线| 性网站在线观看| 人妻熟妇日韩AV在线播放| 区国产精品搜索视频| 国产青榴视频| 精品国产免费观看一区| 日韩成人午夜| 欧美一级高清视频在线播放| 亚洲AV电影不卡在线观看| 国产精品丝袜视频| 免费一级毛片不卡在线播放 | 人与鲁专区| 亚亚洲乱码一二三四区| 亚洲色图欧美| 亚洲国产AV无码综合原创| 久久综合国产乱子免费| 欧美一级特黄aaaaaa在线看片| 丁香亚洲综合五月天婷婷| 国产白浆视频| 99久久这里只精品麻豆| 国产高清色视频免费看的网址| 国产精品人莉莉成在线播放| 噜噜噜久久| 国产精品一区二区国产主播| 欧美色综合网站| AV不卡无码免费一区二区三区| 国产成本人片免费a∨短片| 美女国内精品自产拍在线播放 | 国产精品亚洲а∨天堂免下载| 国产精女同一区二区三区久| 国产粉嫩粉嫩的18在线播放91| 国产成人无码AV在线播放动漫| 99久视频| aaa国产一级毛片| 在线色国产| 亚洲三级网站| 国产女同自拍视频| 无码中字出轨中文人妻中文中| 伊人久久福利中文字幕| 乱系列中文字幕在线视频 | 久久午夜夜伦鲁鲁片不卡| 国产精品视频第一专区| 亚洲色成人www在线观看| 久热re国产手机在线观看| 欧美精品1区2区| 亚洲一区毛片| 白浆视频在线观看| 五月天综合网亚洲综合天堂网| 99re经典视频在线| 亚洲最大看欧美片网站地址| 亚洲国产天堂久久综合| 69av免费视频| 激情午夜婷婷| 91原创视频在线| 在线播放真实国产乱子伦| 深夜福利视频一区二区|