喬立能,夏秀渝,葉于林
1(四川大學 電子信息學院,成都 610064)
2(中國人民解放軍78438部隊,成都 610066)
基于音頻指紋的兩步固定音頻檢索①
喬立能1,夏秀渝1,葉于林2
1(四川大學 電子信息學院,成都 610064)
2(中國人民解放軍78438部隊,成都 610066)
提出了一種基于過零率和音頻指紋的兩步固定音頻檢索算法.在基于過零率直方圖的初步檢索中,采用直方圖的迭代計算和動態的觀測窗滑動步長來減少計算量并加快搜索速度,快速篩選出相似度較高的候選音頻片段;接著基于降維Philips音頻指紋對候選音頻進行精檢索,進一步提高檢索精度.實驗結果表明,該音頻檢索算法在保證較好的檢索準確性基礎上,大幅度提高了檢索速度,且具有較好的魯棒性.
音頻檢索;過零率;直方圖;音頻指紋
隨著現代信息技術、多媒體技術和網絡技術的發展,多媒體信息的數據量急劇增多.人們對如何在海量的多媒體庫中快速找到感興趣或有用的信息產生了越來越大的需求[1].在多媒體檢索中,音頻檢索是一個受人們關注且富有挑戰性的研究課題[2,3].目前,音頻檢索主要分為兩大類:一類是基于特征相似度的固定音頻檢索,它是指給定一個查詢音頻段,在待檢音頻庫中檢索與其相同或同源的片段[4,5];另一類是基于內容的音頻檢索技術,該技術主要研究如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽覺特征,詞字、旋律等語義特征實現基于內容的音頻信息檢索[6,7].
相對來說,基于內容的音頻檢索數據復雜、技術難度大,而基于相似度的固定音頻檢索實現簡單靈活,檢索正確率高,是實際常用的音頻檢索方法.固定音頻檢索目前主要有基于距離的方法、基于特征直方圖的方法[8,9]及上述 2種方法的結合[10].基于特征直方圖的方法本質上是屬于概率統計的方法,避免了復雜的空間距離計算,檢索速度較快,但是檢索精度低.基于距離的方法將待檢音頻和模板音頻按相同時間間隔劃分成幀系列,通過計算兩者幀序列之間距離的累加和判斷音頻的相似度.該方法的檢索精度很高,但是檢索速度較慢.文獻[11]提出了基于模板子空間的固定音頻檢索,即根據模板間的相似性劃分模板子空間,確定各模板所屬的子空間.文獻[12]利用文本搜索引擎中的倒排索引方法,為音頻建立音頻字典和倒排索引,提出基于倒排索引的音頻檢索方法.建立音頻索引是解決大規模靜態音頻數據庫快速檢索的有效手段,但實際中也經常遇到未建立音頻索引的情況,如廣播電臺、電話等動態音頻的實時監測,事先未建立音頻索引的動態音頻庫檢索等.這時無索引文件可用,音頻檢索必須從原始音頻數據分析做起,實現快速準確的音頻檢索難度更大,對檢索魯棒性的要求也更高.
針對實際中無索引文件可用的動態音頻庫檢索,本文提出了一種基于過零率和音頻指紋的二步固定音頻檢索方法,第一步利用過零率直方圖從待檢音頻數據中初步篩選出相似度較高的音頻片段,第二步利用音頻指紋對匹配出的音頻片段進行精確檢索,進一步提高檢索精度.由于利用了迭代法計算直方圖、動態滑動觀測時間窗以及音頻指紋的魯棒性,算法減少了計算量,提高了篩選速度和音頻檢索的魯棒性.
2.1 基本算法
直方圖計算方法由于不用逐幀比較,在檢索速度上有著絕對的優勢,至今仍是固定音頻檢索領域使用常用的方法.
圖1給出了直方圖匹配算法的示意圖.首先,計算查詢音頻和待檢音頻片段的特征矢量.然后用一個等長的觀測時間窗來觀測查詢音頻和待檢音頻,對觀測窗內特征矢量進行量化后建立直方圖.接著比較查詢音頻和待檢音頻片段之間直方圖的相似度.當計算的相似度大于給定的門限值時,認為初步搜索到指定音頻,記錄待檢音頻中對應的時刻信息.否則,觀測時間窗繼續向前滑動進行下一步搜索.

圖1 直方圖算法示意圖
直方圖法作為本文音頻檢索的第一步,目的是從大量音頻數據中快速篩選出與待檢音頻相似度高的音頻片段,從時間消耗的角度當然希望采用計算量小的音頻特征.常用的音頻特征有過零率、Mel頻率倒譜系數(MFCC)、感知線性預測(PLP)等,其中 MFCC、PLP計算復雜,時間消耗大.而過零率的計算簡單,且能較好區分不同聲音.為提高初步檢索效率,本文采用過零率來建立直方圖.
根據查詢音頻過零率的取值范圍,劃分出若干個等間隔的取值區間,然后統計在每一個取值區間的過零率的頻率,這樣就生成了直方圖.生成的直方圖h可以表示為:

這里 L是直方圖的直方柱總數,ih是第i個直方柱的過零率的頻率.
查詢音頻和待檢音頻片段之間的直方圖相似度通常用直方圖交集法進行測量.其相似度定義為:

2.2 觀測窗滑動步長及直方圖的迭代計算
采用直方圖交集法的相似度具有一定的時間連續性,因此不必逐幀進行直方圖搜索匹配.可以根據某一時間位置直方圖的相似度,預測出之后若干位置的相似度上界,如果這些位置的相似度上界小于預設門限,則可以直接跳過.因為待檢音頻的觀測時間窗是按照時間的先后順序向前滑動的,當觀測時間窗從第幀向前移動到第 l2幀時,移動了(l2-l1)幀,在第l2幀,直方圖各取值區間的過零頻數最多增加(l2-l1)個,假設時間窗內的總幀數是N,所以,待檢音頻在第 l2幀的直方圖的每個直方的最大值是第 l1幀的直方圖的每個直方加(l2-l1)/N,因此,當計算出第 l1幀待檢音頻和查詢音頻的相似度,就可以知道在第 l2幀的相似度的上界.

其中,hR(l1)和 hR(l2)分別是待檢音頻窗函數在l1和 l2幀生成的直方圖.利用公式(3)和給定的門限值 ST可以給出窗函數向前滑動的步長:

其中,w是滑動步長.當計算的相似度超過給定的門限值時,檢索結束;否則按照 w的大小向前滑動窗函數,繼續進行檢索.由于觀測窗動態滑動步長的引入,使得檢索速度大大提高.
直方圖計算本質上就是觀測時間窗內每個取值區間過零次數的累加,因此可以通過迭代方法由前一個時間窗內的直方圖求得后一個時間窗內的直方圖.公式(1)中,過零率分為L個取值區間,各區間的概率為設某一幀的過零率取值為x,定義:

其中,ai和ib分別是過零率第i個取值區間的下限和上限,直方圖計算可采用迭代公式:

直方圖編碼的缺點是忽略了時序信息,如將一段音頻信號按時間倒序重新排列后,它的直方圖將和原音頻信號相同,另過零率本身包含的信息非常有限,因此當待檢音頻與查詢音頻屬于同一類音頻(如語音)時,檢索的準確性能就會大大降低.為了進一步提高檢索準確性,本文針對直方圖法初步篩選出的音頻片段,采用音頻指紋進行二次精確檢索.
3.1 音頻指紋
一個數字音頻指紋可以視為一段音頻的摘要,即一個指紋函數F可以把一段包含大量數據的音頻X映射為只有有限個比特的一個指紋.音頻指紋作為內容自動識別技術的的核心算法,已廣泛應用于音樂識別,版權內容監播,內容庫去重和電視第二屏互動等領域.使用音頻指紋而不是音頻數據本身進行比較和檢索具有三方面好處:因為指紋數據量相對比較小,可以大大減少檢索過程的相似度的比較計算量;指紋來源于音頻數據聽覺最重要的部分,因此在經受信號失真時仍能進行有效比對;指紋數據庫與媒體數據庫相比尺寸減小很多,可以進行更高效的搜索.
Philips魯棒音頻指紋模型是業界許多實際商業應用的原型和學術界不斷研究的對象.當前音頻哈希指紋方法不足以滿足特定音頻(如廣告)的實時監測問題,與現有方法相比,Philips魯棒音頻指紋模型在保證音頻檢測準確性的同時,能實現指紋的快速提取.本文采用Philips魯棒音頻指紋模型[13,14],指紋提取過程如下:

圖2 音頻指紋提取算法框架
1)分幀:以每0.064秒為一幀對音頻進行分幀,幀與幀之間保持50%的重疊率,每一幀用相同長度的漢寧窗進行加權,公式(7)為漢寧窗公式,式中N為漢寧窗長度,大小為一幀音頻的樣點數.

2)傅立葉變換:用快速傅里葉算法FFT對每一幀內容進行離散傅立葉變換DFT,一維離散傅立葉變換的定義公式如公式(8)所示,其中X(k)為頻域信號,x(n)為時域信號,N為DFT變換的樣的長度:

3)分成33子帶:將每一幀頻譜圖300Hz-2000Hz的內容按對數空間映射成33個不重疊的子帶,第m子帶的起始頻率也即第m-1子帶的終止頻率f(m)可表示為式(9),其中Fmin為映射下限,此處為300Hz,Fmax為映射上限,此處為2000Hz,M為子帶個數,此處為33.

4)計算能量:計算每個子帶所包含的能量,設第m子帶起始頻率為f(m),終止頻率為f(m+1),DFT之后的頻域信號為X(k),則下式給出子帶m的能量計算表達式:

5)生成指紋:假定第n幀的第m子帶的能量為E(n,m),其對應的二進制指紋比特為F(n,m),則音頻指紋的每個比特定義為:

所以每一幀數據最后生成31比特的二進制指紋信息.
3.2 指紋降維
上述音頻指紋提取,每一幀數據最后生成31比特的二進制指紋信息.實際應用中,希望進一步降低指紋維數從而有效的減少數據量.本文提出基于音頻指紋每一位方差大小來降低指紋維數的方法.利用音頻庫數據,我們統計了音頻指紋每一位的方差,由于隨機變量的方差描述的是它的離散程度,也就是該變量離其期望值的距離.音頻指紋某位方差越大,不同音頻在該位的差異越大,說明該位的區分性越好,反之區分性差.所以保留區分性好的位,而去掉區分性差的位,可以將31維音頻指紋轉換為較低的維數從而有效的減少數據量.
3.3 精確檢索方法
本文對直方圖法初步篩選出的結果基于音頻指紋進行二次精確檢索.首先提取查詢音頻段以及直方圖相似度大于門限值的待檢音頻段的數字音頻指紋.然后對查詢音頻段和待檢音頻段的數字音頻指紋進行比對,這里就需要一個簡單有效的檢索匹配算法.本文采用比特誤差率(Bit Error Rate,BER)比較兩個音頻片段數字音頻指紋之間的相似度,其計算如下:

F(n,m),F’(n,m)分別代表查詢音頻和待檢音頻第n幀音頻指紋的第m位,N為總幀數,M為指紋位數.當搜索到低于預設門限的比特誤差率時,則表明找到了匹配的音頻文件.
4.1 性能評測指標
為了對算法結果進行有效的評價,本文采用了信息檢索領域常用的評價標準:查全率和查準率,對檢索結果進行評價,查全率即從檢索源中正確檢出的目標數和目標總數的比值;查準率即從檢索源中正確檢出的目標數和檢索出的目標數的比值.
4.2 實驗結果
本文實驗所用數據采集于成都人民廣播電臺播放的節目,包括新聞、音樂、廣播劇、廣告等,音頻數據總時為20h,數據均為單聲道,采樣率為 8 kHz,量化精度為 8 bit.在提取聲學特征參數時,幀長為 0.064s,幀移為0.032s.
1)音頻指紋性能分析
首先考察信號幅度變化對音頻指紋的影響.設y(t)=ax(t),x(t)為原始音頻,a為放大系數,y(t)為幅度發生變化后的音頻.實驗結果顯示,任意改變信號幅度(a值隨機選取),同一音頻所提取出來的音頻指紋都是一樣的,即音頻指紋不受幅度變化的影響.
接著,我們考察了噪聲對音頻指紋的影響.從數據庫中隨機選取了一段30s長的音頻,然后分別疊加不同信噪比的高斯白噪聲生成帶噪音頻數據,我們統計了不同信噪比下帶噪音頻和無噪音頻的音頻指紋誤碼率,實驗結果如圖3所示.

圖3 音頻指紋距離曲線圖
從圖3可以看出,音頻指紋具有一定的抗噪性,但還不算太好.于是對提取音頻指紋作如下改進:

門限值T的取值以各幀信號子帶能量的均值為基準,并乘以不同系數c進行動態選取.改進后的音頻指紋抗噪性能如圖4所示.
圖4顯示系數c取得越大,音頻指紋抗噪性能越好,但音頻指紋區分不同音頻的能力也會下降.我們反復實驗顯示,當門限值取各幀信號子帶能量均值的0.1倍時,既能很好地提高音頻指紋抗噪性能,又能有效區分不同類型的音頻.后續實驗均基于改進音頻指紋完成.

圖4 不同門限值對音頻指紋的影響
我們從音頻庫中挑選出不同種類適量的音頻數據,提取其Philips音頻指紋,然后統計了音頻指紋每一位的方差,為音頻指紋降維做準備.31位Philips音頻指紋每一位的方差統計結果如圖5所示.

圖5 31維音頻指紋方差
根據3.2節的分析,降維音頻指紋將采取保留方差大的位,去掉方差小的位來降低指紋維數.
2)檢索性能分析
利用采集的音頻數據庫,每次隨機從數據庫中選擇時長2s的音頻作為查詢音頻,然后對數據庫進行檢索,每類實驗重復進行100次實驗.
① 不同維數音頻指紋的檢索性能
根據實驗統計的音頻指紋各位方差情況(圖5),采取保留方差值大的位進行音頻指紋降維.分別選取了31維,15維,7維的音頻指紋進行對比實驗,不同維數音頻指紋的檢索結果如表1所示.

表1 音頻指紋維數對檢索結果的影響
表1表明,音頻指紋取15維時,既能達到有效減少數據量的效果,又能取得較好的檢索性能,所以最終我們選取了15維的音頻指紋進行精檢索.
② 初檢索與精檢索對比
本文基于兩步法進行固定音頻檢索,第一步采用過零率直方圖法進行初檢索,選取的門限主要要保證足夠高的查全率,盡量不漏掉目標;第二步依靠精檢索來確保高的查準率.每次隨機從數據庫中選擇2s音頻作為查詢音頻,然后對數據庫進行檢索,重復進行100次實驗.初檢索和精檢索實驗結果如表2所示.

表2 初檢索和精精索性能對比
從實驗結果可以看出,初檢索在保證基本不漏檢的情況下,精檢索可以大幅度提高檢索準確性.
③ 檢索魯棒性實驗
我們還在待檢音頻中加入噪聲,進行了不同信噪比情況下的仿真實驗,實驗結果如表3.

表3 信噪比對檢索結果的影響
由實驗結果可以看出,查全率幾乎不受噪聲的影響;當信噪比降低時,檢索準確性有不同程度的下降.由音頻指紋的性能分析可知,抗噪性能與提取音頻指紋的門限值有關,當門限值越大,檢索準確性越好,但音頻指紋區分不同音頻的能力也會下降.而本文方法主要適用于錄音片段在線查詢等應用,實際中錄音機的信噪比應在40dB以上,實驗結果表明該方法能夠滿足實際應用需求.
本文提出了一種基于過零率和音頻指紋的二步固定音頻檢索方法.首先利用過零率直方圖從待檢音頻數據中快速篩選出相似度較高的音頻片段,采取直方圖迭代計算,動態的觀測窗滑動步長等措施減少計算量并加快了搜索速度.然后利用降維Philips音頻指紋對匹配出的音頻片段進行精確檢索,基于降維音頻指紋的簡潔性、區分性及魯棒性,精檢索不僅提高了檢索精度,而且檢索匹配速度快,具有良好魯棒性.實驗結果給出該音頻檢索算法良好性能的證明.本文重點針對無索引文件可用的動態音頻檢索問題,提出了一系列簡化計算、加快搜索速度的措施,適用于錄音片段在線查詢等應用,后續我們將針對大規模靜態音頻數據庫建立音頻索引開展進一步的研究應用.
1 Wang Y,Liu Z,Huang JC.Multimedia content analysis using both audio and visualclues.IEEE SignalProcessing Magazine,2000,17(6):12–36.
2 Foote J.An overview of audio information retrieval. Multi-Media Systems,1999,7(1):2–10.
3楊繼臣,王偉凝.一種基于隨機段的固定音頻檢索方法.計算機應用,2010,30(1):230–232.
4張衛強,劉加.網絡音頻數據庫檢索技術.通信學報, 2007,28(12):152–155.
5張衛強,劉加.一種基于仿生模式識別思想的固定音頻檢索方法.自然科學進展,2008,18(7):808–813.
6 Hanesn JHL,Huang RQ.Speech find:Advances in spoken document retrieval for a national gallery of the spoken Word. IEEE Trans.on Speech and Audio Processing,2005,13(5): 712–730.
7 Chechil G,Le E,Rehn M,et al.Large scale content based audio retrieval from text queries.Proc.of the 1st ACM International Conference on Multimedia Information Retrieval.New York,USA.ACM Press.2008.105–112.
8 Kashino K,Kurozumi T,Murase H.A quick search method for audio and video signals based on histogram pruning.IEEE Trans.on Multimedia,2003,5(3):348–357.
9 Kim KM,Kim SY,Jeon JK,et al.Quick audio retrieval Using multiple feature vectors.IEEE Trans.on Consumer Electronics,2006,52(1):200–205.
10齊曉倩,陳鴻昶.基于K-L距離的兩步固定音頻檢索方法.計算機工程,2011,37(19):160–162.
11談會星,陳福才,李邵梅.基于模板子空間的快速固定音頻檢索方法.計算機工程,2012,38(20):260–263.
12張雪源,賀前華.一種基于倒排索引的音頻檢索方法.電子與信息學報,2012,34(11):2561–2567.
13郭杰,王之禹.應用于快速音樂檢索系統中的音樂指紋提取算法.中國聲學學會2007年青年學術會議.2007.135–136.
14李偉,李曉強,陳芳,王淞聽.數字音頻指紋技術綜述.小型微型計算機系統,2008,29(11):2124–2130.
Two-Stage SpecificAudio Retrieval Based onAudio Fingerprinting
QIAO Li-Neng1,XIA Xiu-Yu1,YE Yu-Lin2
1(College of Electronics and Information,Sichuan University,Chengdu 610064,China)
2(78438 Troops of the Chinese People’s Liberation Army,Chengdu 610066,China)
This paper proposes a two-step fixed audio retrieval algorithm based on zero crossing rate and audio fingerprinting.The iterative calculation of the histogram and the sliding step of the observation time window are used in preliminary retrieval based on the zero crossing rate histogram to reduce the amount of calculation and speed up the search,fast filtering out candidate audio segments with high similarity;Then based on the dimension reduction Philips audio fingerprint,accurate retrieval of the candidate audio is carried out,further improving the retrieval accuracy.The experimental results show that the audio retrieval algorithm can improve the retrieval speed greatly and has good robustness,ensuring good retrieval accuracy.
audio retrieval;zero crossing rate;histogram;audio fingerprinting
2016-09-03;收到修改稿時間:2016-11-14
10.15888/j.cnki.csa.005819