999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于壓縮感知和音頻指紋的固定音頻檢索方法①

2020-03-22 07:42:12趙文兵賈懋珅
計算機系統應用 2020年8期
關鍵詞:數據庫特征信號

趙文兵,賈懋珅,王 琪

(北京工業大學 信息學部,北京 100124)

隨著數字化信息的快速發展,各種以音頻為載體的作品也越來越多,海量的音頻信息豐富了人們的生活同時也給人們帶來了麻煩,如何準確、快速的從數據庫中獲取自己想要的信息,已經成為信息時代人們迫切需要同時也是音頻檢索領域的重要研究問題之一.目前,音頻檢索主要分為兩大類:一類是基于特征相似度匹配的固定音頻檢索,其基本原理是對給定的待查詢音頻片段,在樣本音頻庫中檢索與其相同或同源的片段[1,2];另一類是基于內容的音頻檢索技術[3],該技術主要研究如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽覺特征,詞字、旋律等語義特征實現音頻信息檢索.

相對來說,基于內容的音頻檢索技術較難,該類方法需依據生物語言特征和聲韻等信息去識別音頻的內容,算法比較復雜主要用于人機交互領域.而基于特征相似度匹配的固定音頻檢索相對較為簡單,算法復雜度較低,它不需要識別出待檢音頻的內容只需要根據其音頻特征與樣本音頻特征庫數據進行相似度比較來確定待檢音頻是否為目標音頻,此音頻檢索技術適用范圍較廣,常用于音樂搜索、音頻版權保護以及廣告監測等領域.

固定音頻檢索技術目前主要在匹配方法上進行了研究,有基于特征直方圖的方法、基于距離的方法[4,5]及上述兩種方法的結合[6].且這兩種方法所用的音頻特征都是傳統音頻特征,基于特征直方圖的方法簡單、快速,但是檢索準確率不高,基于距離的方法其計算復雜度較高.這兩種算法的不同之處在于檢索階段采取的特征相似度[7]判別方式不同,但是在檢索之前,都需要預先對樣本模板和待檢音頻進行特征提取和矢量量化,而正是這些預處理耗費時間,并在很大程度上決定檢索的準確度[8].另外,在檢索過程中樣本音頻特征數據庫的存儲量是決定檢索速率的關鍵因素之一.而音頻指紋具有數據量較小、抗噪性能較高、特征參數提取相對簡單等優點深受該領域學者青睞,其中Philips 算法[9]是其中比較經典的一種,一經提出便受到廣泛關注.Philips算法在各種信號畸變情況下具有良好性能,并且速度方面有很大的優勢,但是當信號有較快線性速度改變時性能不夠理想.近年來,也有學者提出利用人工智能識別音頻片段的指紋檢索技術[10].將小波包系數的奇異值熵以及樣本熵相融合作為音頻片段信號的特征參數,提取出音頻指紋,但是,此方法需要神經網絡訓練,算法復雜度較高.也有學者利用采樣子指紋和計數匹配進行音頻檢索[11],該方法是提取一段音頻的多個子指紋并標記,在指紋匹配時進行子指紋計數并匹配,該方法檢索準確率較好,由于需要多次計算子指紋使得該方法的檢索速率不太理想.另外,有國內學者提出基于壓縮感知梅爾倒譜的檢索[12]算法(Compressed Sensing Mel Frequency Cepstrum Coefficient,CS-MFCC)和國外學者提出[13]基于子指紋掩碼(Sub-fingerprint Masking,SM)的音頻指紋檢索算法具有很好的檢索效果.

針對實際中固定音頻檢索樣本音頻特征數據庫存儲量大的問題,本文提出一種基于壓縮感知和音頻指紋降維的音頻檢索方法,該方法在構建樣本音頻特征庫時利用壓縮感知算法先對樣本音頻進行壓縮處理再提取音頻指紋特征,然后,對提取的音頻指紋引入離散基尼系數進行指紋特征降維.由于,該方法對樣本音頻采取先壓縮再進行特征降維,這就使得在同量的樣本音頻下該方法構建的樣本音頻特征庫的數據量較小,算法減少了計算量,提高了篩選速度和音頻檢索的魯棒性.

1 基于壓縮感知的音頻特征庫構建

1.1 聲音預處理

由于音頻信號具有短時平穩性,且音頻數據的首末段以及中間段有不含信息的音頻段,為了更高效的壓縮樣本音頻,需要對樣本音頻進行預處理,分為帶通濾波、預加重、分幀、加窗和靜音幀判別.

1.2 音頻信號的壓縮處理

考慮到音頻信號數據較大,直接提取特征會使得構建的特征庫數據量大,變相增加了檢索工作量.為此,本文在特征提取前對音頻信號進行壓縮感知,來解決特征庫數據量大的問題.壓縮感知算法是由Donoho 等[14]在2006年提出的概念,是對信號壓縮的同時進行采樣,不同于傳統的Nyquist 采樣定理,在壓縮感知的理論框架下,采樣速率不再取決于信號的帶寬,而是取決于信息在信號中的結構和內容[15].當信號為稀疏信號時,壓縮感知可以以遠小于采樣定理要求的采樣數,通過重構算法重構原始信號[16].

為驗證音頻信號在頻域的稀疏性,本文選用愛荷華大學音樂樂器樣本庫(University of Iowa Music Instrument Samples,Iowa-MIS)[17]中的數據作為樣本進行分析,統計了6 類音頻信號(采樣率為16 kHz)的幀能量保留比與時頻成分保留個數間關系[18],如圖1所示.其中,縱坐標表示各幀保留的時頻點個數(按照頻率成分幅度由大到小的順序保留時頻點);橫坐標表示保留相應數量的時頻成分時,所保留的時頻成分能量占該幀信號總能量的百分比.時頻變換選用1024 點的離散余弦變換(Discrete Cosine Transform,DCT),幀能量保留比從98%到80%均勻變化時,統計分析相應的時頻保留個數.

圖1 不同幀能量保留比下6 類音頻信號時頻保留數統計

從圖1中可以看出,6 類音頻信號的時頻保留數隨著幀能量保留比的均勻下降以非線性方式下降.可見,音頻信號在頻域的能量呈非均勻分布,大部分能量集中在少數時頻系數中.以鋼琴為例,在幀能量保留比為90%時,時頻保留數為256 個為總數2048的1/8,同樣,貝斯在幀能量保留比為92%時,時頻保留數為256,說明關鍵的256 個時頻系數可以包含一幀音頻92%的信息能量.因此可知,音頻信號在頻域呈現明顯的能量集中性,即其在頻域具有稀疏特性.基于此,本文將壓縮感知理論引入音頻檢索領域并對其理論進行改進.

設x=[xn(1),xn(2),···,xn(N)]為預處理后的第n幀音頻信號,根據稀疏編碼模型音頻信號xn(p)在DCT 域的頻域系數α可用式(2)表示:

其中,ψN×N為的DCT 基矩陣,α=[α1,α2,···,αN]T.

根據上述實驗可知音頻信號在頻域具有稀疏特性,α=[α1,α2,···,αN]T中最大的Q(Q<

此時,完成音頻信號稀疏化處理,得到滿足壓縮條件的時域稀疏信號.要實現對稀疏音頻信號的壓縮,需要通過觀測矩陣將稀疏信號投影到低維空間.為保證音頻檢索過程中觀測矩陣在訓練和識別階段一致,選擇一個穩定的觀測矩陣至關重要.考慮到音頻信號具有短時平穩性,即,相鄰若干樣點變化平緩,故本文選行階梯矩陣[19]為觀測矩陣.通過此觀測矩陣將稀疏音頻信號相鄰的幾個采樣點合成一個采樣值,這樣既壓縮了音頻信號又保持了音頻信號的短時平穩性,便于后續二次分幀處理.

將上述Q-稀疏化后的第n幀信號通過行階梯觀測矩陣Ф投影得到M維的觀測序列信號:

其中,Y=[yn(1),yn(2),···,yn(R)],Φ為H×N的觀測矩陣(H

故N×1稀 疏音頻信號經過觀測矩陣Φ 壓縮后得到維度為H×1的觀測信號Y減小了音頻序列數據量.

1.3 稀疏音頻指紋特征提取

在音頻的眾多特征中,音頻指紋是近年來最受歡迎的一種,音頻指紋是指可以代表一段音頻重要聲學特征的基于內容的緊致數字簽名,其主要目的是用少量的數字信息代表大量音頻數據信息.它相對于傳統的音頻特征具有3 個優點,因為音頻指紋數據量較小,可以減小特征數據庫的存儲量從而提高音頻特征匹配速度;指紋的抗噪性能較高,可以減小音頻識別過程中的干擾因素;音頻指紋特征提取流程相對簡單,因此可以減少特征提取的時間增加音頻減速速率.

在眾多的音頻指紋中,Philips 音頻指紋模型因具有較高的魯棒性且算法較為簡單,本文以此指紋模型為基礎進行音頻指紋提取.首先,對上述壓縮后的音頻數據Y進行二次分幀;其次,對分幀后信號進行離散傅里葉變換并對頻域信號進行頻譜子帶劃分,從頻譜中選取M個非重疊的頻帶,頻帶之間是等對數間隔的.再次,計算每幀音頻的各個子帶能量,分別求其上述選取的M個非重疊頻帶的能量.最后,根據子帶能量的判別生成每幀音頻的子指紋,上述每幀所求的M個子帶能量比特差分判別公式如下:

其中,E(n,m)表示音頻第n幀的第m子帶能量,t(n,m)=E(n,m)?E(n,m+1)表示第n幀的第m子帶和m+1 子帶的能量差,F(n,m)為對應的二進制比特音頻指紋信息.最終,每幀音頻最后生成一個M–1 維的二進制子指紋信息.

1.4 音頻指紋降維

對于一段音頻來說,所含的音頻指紋信息是由多個二進制子指紋信息構成,其指紋信息數據量仍然很大,在實際應用中,希望進一步降低音頻指紋維數從而有效減少指紋數據量.為此,本文提出基于離散基尼系數計算的音頻指紋降維方法.求取音頻指紋的每一維度離散基尼系數,各維度指紋的離散基尼系數反映了音頻指紋該維度數據的離散程度,即音頻指紋該維度數據的差異性大小.音頻指紋某維的離散基尼系數越大,不同音頻在該維的差異就越大,說明該維數據的區分性越好,反之區分性差.本文通過保留音頻指紋中區分性較好維的信息,去掉區分性較差維的信息,從而實現降低指紋維數的目的.

音頻指紋各維度的離散基尼系數計算過程如下:

(1)求取音頻指紋的離散洛倫茲曲線,離散洛倫茲曲線是求離散基尼系數的關鍵曲線,是由累積指紋數據占比矢量的各個元素構成,j表示音頻指紋的維度序號,取值范圍j=1,2,…,M–1 求取累積指紋數據占比矢量的計算過程如下:

將音頻指紋庫中的各類音頻指紋按幀處理,音頻指紋每50 幀指紋數據為一組共分成L組,構建第j維累積指紋數據矢量:

(2)以上述所求的離散洛倫茲曲線為分界線,可得音頻指紋第j維度的基尼系數公式如下:

如圖2所示,其中,Sa為坐標對角線段OA與離散洛倫茲曲線圍成的閉合面積,點O的坐標為(0,0)點A的坐標(1,1),Sb為坐標線段OB、BA與離散洛倫茲曲線圍成的閉合面積,點B的坐標為(1,0),Gj為音頻指紋第j維度的基尼系數.

圖2 音頻指紋離散基尼系數示意圖

由上述可知,Sa+Sb的和為對角線段OA與線段OB、BA 所圍成的閉合面積,即:Sa+Sb=1/2,因為音頻指紋是離散的,故本文將上述公式離散化為:

由此,得到音頻指紋第j維離散基尼系數,其中i為組編號,為音頻指紋第j維度累積第i組指紋數據占比量.

最終,通過統計音頻指紋各維度的離散基尼系數,去掉區分性較差維的信息得到降維指紋F′(n,r)其中,r=1,2,…,R(R

2 音頻特征檢索

本文采用比特誤碼率作為匹配相似度判定,具體過程如下:

(1)選取待測音頻經上述預處理、稀疏化處理以及壓縮處理得到待測觀測序列信號.

(2)將上述壓縮處理后的待測觀測序列信號Yˉ經指紋特征提取、指紋特征降維得到待測音頻指紋Fd(n,r),其中,Fd(n,r)表示待測音頻信號序列第n幀音頻指紋的第r位.

(3)將得到的待測音頻指紋與樣本音頻指紋庫中的音頻指紋進行相似度匹配,本文選取比特誤差率(Bit Error Rate,BER)作為匹配算法比較兩個音頻片段之間的相似度,其計算公式如下:

其中,⊕為異或操作,F′(n,r),Fd(n,r)分別代表降維后的樣本音頻和待檢音頻第n幀音頻指紋的第r位,T為音頻總幀數,R為音頻指紋位數.

(4)設置比特誤差率的閾值,求其BER的值,若其值小于設定的閾值,則表示待檢音頻與樣本音頻庫中的音頻相似度較高,反之,待檢音頻與樣本音頻庫中的音頻相似度較低,從而得出檢測結果.

3 實驗結果與分析

3.1 性能評價指標

為了驗證算法的有效性,本文選用音頻檢索中常用的查全率與查準率作為性能評價標準;查全率與查準率的定義如下:

查全率=從檢索源中檢出的正確目標數/應檢索出的目標數

查準率=從檢索源中檢出的正確目標數/實際檢索出的目標數

3.2 實驗結果分析

本文實驗主要在不同信噪比的數據集進行檢索,以驗證本文算法的檢索性能.所用數據采樣率為8 kHz,特征提取處理幀長為0.256 s,幀移為0.032 s,對于壓縮后的音頻數據每幀分為33 個子帶,即M=33.

數據庫1:包含5000 個音頻文件,每個音頻文件長3 s~5 min,主要為課題所在實驗室的采集語音數據及從互聯網采集的音頻數據,總大小約為12.3 GB,總時長為230 h,音頻文件為8 kHz 采樣16 bit 編碼的PCM 格式.

數據庫2:針對數據庫1,添加白噪聲形成信噪比為40 dB的數據集.

數據庫3:針對數據庫1,添加白噪聲形成信噪比為30 dB的數據集.

數據庫4:針對數據庫1,添加白噪聲形成信噪比為20 dB的數據集.

數據庫5:針對數據庫1,添加白噪聲形成信噪比為10 dB的數據集.

數據庫6:從數據庫1 中任意選取1000 個音頻文件,從其中隨機位置截取一段時長為3 s的音頻數據作為檢索片段.

3.2.1 音頻指紋降維程度分析

為確定音頻指紋降維能量,本文從音頻數據庫1 中選取語音類數據和歌曲類數據,求取所選數據音頻指紋各維度的離散基尼系數,統計音頻指紋各維度的離散基尼系數.圖3(a)、圖3(b)分別給出了250 段與500 段數據的32 維音頻指紋各維度的離散基尼系數的均值.

圖3 語音與歌曲數據音頻指紋各維度的離散基尼系數

從圖3可以看出測試的數據量不同時(250 段與500 段),得到的音頻指紋各維度的離散基尼系數的均值不相同,但是最小離散基尼系數所對應的維數是相同的.即,在兩個不同體量的測試數據中,得到的結果都是音頻指紋在第2、14、15、25 維的離散基尼系數相對其他維數都比較低,說明音頻指紋在這幾維的信息區分度相對較低.根據1.4 節分析,降維音頻指紋將保留指紋離散基尼系數大的維度信息,舍去指紋離散基尼系數小的維度信息.因此,可以去掉音頻信號的這幾維指紋信息,從而達到指紋降維目的.以此類推,若想進一步降維可以通過圖3看出指紋離散基尼系數在第1、3、24、26 維也相對較低,可以嘗試去除這幾維的指紋信息.

3.2.2 樣本壓縮比與指紋降維對檢索性能的影響

利用樣本音頻庫中的各類音頻,依次選取音頻數據作為待查詢音頻,然后對樣本特征數據庫進行檢索.

(1)樣本不同壓縮程度對檢索性能的影響

本實驗選取數據庫6 中的數據集為待查詢音頻,在數據庫1 進行檢索.比較不同樣本壓縮比下構建的特征庫的檢索效果.此實驗中,構建特征數據庫時不進行指紋特征降維操作.樣本壓縮比N/H分別設置為1、2、3、4、5 時,音頻檢索性能如表1所示.

表1 樣本壓縮程度對檢索結果的影響(%)

表1表明,當樣本壓縮比N/H為2和3 時,檢索效果相對較好.考慮到樣本壓縮比為3 時,既能多壓縮樣本數據又能取得較好的檢索效果,因此,樣本壓縮比取3 時最為合適.

(2)指紋維數對檢索性能的影響

根據圖3所得的音頻指紋各維度的離散基尼系數情況,采取保留指紋離散基尼系數大的維度信息,舍去指紋離散基尼系數小的維度信息的方式進行音頻指紋降維.結合圖3結果,本文嘗試分別丟棄0 維(不丟棄)、4 維、6 維和14 維離散基尼系數最小的音頻指紋信息構建特征庫.即,音頻指紋降維至32 維、28 維、26 維和18 維.此實驗選取數據庫6 中的數據集為待查詢音頻,在數據庫1 進行檢索.此實驗過程樣本音頻不做壓縮處理.比較不同指紋維數對檢索性能的影響結果如表2所示.

表2 指紋維數對檢索結果的影響(%)

表2表明,音頻指紋降至28 維與26 維時,查全率相對較好,但考慮到查準率時,音頻指紋降至28 維時既能保證降低指紋維數,又能保證檢索性能,因此,指紋降至28 維較為合適.

(3)樣本壓縮程度和指紋降維程度對檢索性能的影響

由表1可以看出樣本壓縮比N/H為2和3 以及4 時檢索性能較好,由表2可以看出指紋維數降至28 維和26 維時,檢索性能較好.結合這兩個實驗結果中最好的參數,選取數據庫6 中的數據集為待查詢音頻,在數據庫1 進行檢索.比較不同壓縮比和音頻指紋情況下所提方法的檢索性能如表3所示.

表3 樣本壓縮結合指紋降維對檢索結果的影響

表3表明,在綜合考慮到減小樣本音頻特征庫數據量與保證檢索準確率的情況下,樣本壓縮比N/H=3 及音頻指紋降至28 維時,既能減小樣本音頻特征庫數據量又能保證檢索準確率.因此,選取樣本壓縮比為3 以及音頻指紋為28 維進行音頻檢索最為合適.

3.2.3 不同信噪比下不同算法的音頻檢索性能對比

為了驗證本文算法的優劣性,特將本文算法與其他同類型檢索方法進行性能比較.考慮到基于壓縮感知梅爾倒譜的檢索算法[12](Compressed Sensing Mel Frequency Cepstrum Coefficient,CS-MFCC)和基于子指紋掩碼(Sub-fingerprint Masking,SM)的音頻指紋檢索算法[13]具有很好的檢索效果.本文選用這兩個方法為參考方法,簡寫為CS-MFCC 算法和SM 算法.

在本次對比試驗中,本文方法依據上述的綜合討論取樣本壓縮比為3 以及音頻指紋為28 維的指紋特征作為實驗特征參數.在音頻檢索階段時,添加不同信噪比的高斯白噪聲作為干擾,選取數據庫6 中的數據集為待查詢音頻,分別在數據庫1、2、3、4、5 進行檢索.3 種方法的檢索性能如表4所示.

由表4可以看出,在信噪比相同的情況下,本文算法的查全率與查準率相對較高,說明在相同環境下本文的算法法案優于CS-MFCC 算法和SM 算法.另外,在不同信噪比下,3 種算法的查全率與查準率都發生不同程度的改變.本文算法、CS-MFCC 算法和SM 算法的查全率變化趨勢如圖4所示,查準率的變化趨勢如圖5所示.

表4 不同信噪比下不同算法的音頻檢索性能(%)

圖4 3 種算法的查全率趨勢圖

圖5 3 種算法的查準率趨勢圖

由圖4和圖5可以看出本文算法、CS-MFCC 算法和SM 算法的查全率與查準率雖然都隨著信噪比的降低而減小.但是,減小的幅度與快慢不同,說明3 種算法的魯棒性能不同.在信噪比為20 dB 以上時,本文算法與SM 算法的魯棒性相差不大,CS-MFCC 算法的魯棒性相對較差.在信噪比低于20 dB 后,SM 算法的魯棒性比本文算法的魯棒性較為好點,CS-MFCC 算法的魯棒性在信噪比低于30 dB 后就開始急速變差.綜上所述,3 種算法中本文算法的檢索性能與魯棒性都相對較好,因此,可以知本文方法具有良好的檢索性能.

4 結束語

本文針對現有音頻檢索中樣本音頻特征庫數據量較大且檢索速率慢問題,提出一種基于壓縮感知和音頻指紋降維的固定音頻檢索方法,該方法利用壓縮感知算法對樣本音頻進行先壓縮再提取音頻指紋特征隨后引入離散基尼系數對音頻指紋進行降維,使得樣本音頻特征庫的數據量減小.該方法的特征匹配算法簡單,而且匹配速率較快,實驗表明,該方法在選取合適的樣本音頻壓縮比與音頻指紋維數時具有較好的檢索性能.

猜你喜歡
數據庫特征信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
基于LabVIEW的力加載信號采集與PID控制
主站蜘蛛池模板: 日本午夜影院| 美女被操91视频| 欧美成人午夜在线全部免费| 国产欧美日韩va| 中文字幕人妻无码系列第三区| 香港一级毛片免费看| 九九视频免费看| 国产人人乐人人爱| 中文字幕永久在线看| 国产96在线 | 国产屁屁影院| 国产精品尤物在线| 最新亚洲人成无码网站欣赏网| 国产精品亚洲精品爽爽| 欧美va亚洲va香蕉在线| V一区无码内射国产| 久久精品丝袜高跟鞋| 亚洲天堂在线免费| 幺女国产一级毛片| 亚洲欧美不卡视频| 亚洲黄网在线| 亚洲欧美在线综合一区二区三区| 欧美在线视频不卡第一页| 在线观看精品自拍视频| 成人免费午间影院在线观看| 91精品小视频| 国产97视频在线观看| av一区二区三区在线观看| 午夜啪啪网| 四虎影视无码永久免费观看| 国产白丝av| 不卡的在线视频免费观看| 91麻豆国产在线| 国产人成在线视频| 老司国产精品视频91| 久久久久免费精品国产| 中文字幕在线视频免费| 国产午夜一级淫片| 久久香蕉国产线看精品| 国产精品美人久久久久久AV| 国产精品嫩草影院av| 精品無碼一區在線觀看 | 欧美日本在线播放| 日韩中文精品亚洲第三区| 综合五月天网| 久草网视频在线| 精品国产香蕉伊思人在线| 国产精品亚洲五月天高清| 亚洲91在线精品| 亚洲成人播放| 亚洲国产日韩在线成人蜜芽| 国产精品综合久久久| 久久成人18免费| 国产自在自线午夜精品视频| 欧美日韩高清在线| 国产三级韩国三级理| 国产午夜精品鲁丝片| 午夜色综合| 国产精品观看视频免费完整版| 日韩欧美高清视频| 国产喷水视频| 国产成人精品一区二区免费看京| 久久亚洲国产最新网站| 麻豆国产精品视频| 国产欧美日韩免费| 99在线观看精品视频| 成人精品午夜福利在线播放 | 免费高清a毛片| 午夜国产理论| 国产XXXX做受性欧美88| 伊人国产无码高清视频| 国产精品亚洲а∨天堂免下载| 欧美亚洲日韩不卡在线在线观看| 91视频99| 97人妻精品专区久久久久| av在线5g无码天天| 本亚洲精品网站| 毛片免费网址| 亚洲AV无码乱码在线观看代蜜桃 | 波多野结衣爽到高潮漏水大喷| 免费国产高清视频| 国产91色在线|