王小穩

摘? ?要:本文介紹了一種基于計算多個音頻信號物理特征值相關系數的音頻內容比對算法。利用兩路音頻的時域幀序列、短時過零率序列、譜質心序列和梅爾倒頻系數序列,再將這四組參數進行相關性統計,計算出它們的相關性函數,獲得最大相關性系數。從而判斷兩路音頻是否內容一致的音頻比對算法。是信號處理領域,更進一步涉及音頻信號處理領域中的一種基于相似度的音頻比對方法。
關鍵詞:音頻內容比對? 音頻比對算法? 時域相關系數 過零率相關系數 梅爾倒頻系數? 譜質心相關系數
中圖分類號:TN912.3? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)02(a)-0141-02
語言是我們人類的重要交流工具,自然高效、方便準確。對于語音信號處理的研究最早可以追溯到1876年貝爾發明電話。把模擬音頻信號轉換成電信號,再將電信號轉換成模擬信號完成電話的功能。對音頻的處理在我們身邊無處不在。與我們的生活息息相關。近年來在工作中接觸到對音頻內容的判別,實時、準確的判斷傳輸鏈路上的音頻內容是否一致,都要靠人工去判別,當播出節目是非漢語節目時,判別起來也是件很困難的事情。為了使我們的工作更簡便,有效地減少人為播出事故,更迅速的發現播出音頻的異常。為此我們早在十幾年前,就研究了幾種公開發表的關于音頻比對的文章、算法和專利,以便學習研究出一種新的擁有自主知識產權的音頻內容比對算法。下面將介紹這種由我們自己研究的音頻比對的方法。供大家一起研討。
1? 比對算法簡介
本算法的功能是比對從不同設備或相同設備不同通道采集的兩路音頻信號,判斷音頻信號內容是否是相同。它是信號處理領域,更進一步涉及音頻信號處理領域中的一種基于相似度的音頻比對方法,是利用時頻分析法計算語音信號物理特征值進行相關性統計的方法。
2? 本算法的具體思路
獲得兩路需要比對的音頻信號,對音頻信號進行預處理,分別取長度為N的音頻采樣序列計算兩路音頻的相關性參數,并計算兩路的延遲,然后通過延遲值將兩路信號重新對齊,再重新計算兩路音頻的相關性參數。最后取分別長度為M的音頻采樣序列,計算相關性來得到兩路音頻信號的相似度。計算的音頻物理特征值有它們的時域幀序列、短時過零率序列、譜質心和梅爾倒頻系數序列。再將這四組參數進行相關性統計,計算出它們的相關性函數,獲得最大相關性系數。從而判斷兩路音頻是否內容一致。
3? 具體步驟
3.1 音頻信號預處理
讀取兩路音頻信號數據重采樣并取長度為 N的采樣序列進行預加重,歸一化音頻序列;然后對音頻信號進行音頻幀劃分,將其劃分為M 個不同的幀。
3.2 提取音頻幀的過零率
先計算提取音頻幀的包絡序列,然后提取音頻幀包絡序列的過零率。
3.3 提取音頻幀的MFCC(梅爾倒頻系數)系數
對每一個音頻幀進行FFT變換,求得每幀信號的頻率譜,根據頻率譜求得每個音頻幀的幅度譜;再根據音頻的參數設計一組Mel濾波器;求得濾波器的輸出,并將輸出取對數;將上一步中的輸出作離散余弦變換(DCT),從而求得MFCC(梅爾倒頻系數)系數,最后組成MFCC(梅爾倒頻系數)系數序列。
3.4 提取音頻幀的譜質心
分別對M個音頻幀進行傅里葉變換,將其轉換到頻域得到M個音頻幀頻譜;將每個音頻幀頻譜劃分為L個子帶,并分別計算頻譜子帶的質心;將頻譜子帶質心歸一化,組成譜質心序列。
3.5 計算歸一化譜質心序列的相關函數
分別對兩個音頻譜質心序列進行離散傅里葉變換得到序列XA和XB序列;取序列XA的共軛并與序列XB逐元素相乘得到序列XC;對序列XC進行逆離散傅里葉變換得到兩路音頻的相關函數序列;對相關函數序列重新進行排序,取出序列的后半部分與前半部分重新拼接成新的相關函數序列;對相關函數序列進行歸一化處理,并求得最大的相關系數。
3.6 計算音頻時域序列的相關函數
根據計算歸一化譜質心序列的相關函數的方法求預處理后音頻時域序列的相關函數;對相關函數序列進行歸一化處理,并求得最大的相關系數。
3.7 計算過零率序列的相關函數
根據計算歸一化譜質心序列的相關函數的方法求過零率序列的相關函數;對相關函數序列進行歸一化處理,并求得最大的相關系數。
3.8 計算MFCC(梅爾倒頻系數)系數序列的相關函數
根據計算歸一化譜質心序列的相關函數的方法求MFCC(梅爾倒頻系數)系數序列的相關函數;對相關函數序列進行歸一化處理,并求的最大的相關系數。
3.9 計算音頻信號延遲
記錄譜質心序列、過零率序列和MFCC(梅爾倒頻系數)序列的相關函數最大位置和中點位置;相關函數最大位置與中點位置的差值乘以音頻信號采樣頻率來求的延遲時間,求三個延遲的平均值即為信號延遲時間。
3.10 重新對齊音頻信號
如果兩路音頻信號存在延遲,剪切延遲時間,將兩路信號重新對齊,重新執行3.2~3.7內的步驟;如果兩路音頻信號不存在延遲,直接執行下一步。
3.11 獲得音頻信號相關系數
選擇譜質心相關系數、時域相關系數、過零率相關系數和MFCC(梅爾倒頻系數)相關系數,采用加權的方式求得音頻的相關系數。
通過這個算法,我們可以實現對音頻內容的判斷,把這個算法封裝成庫文件,應用軟件將要比對的兩路音頻送給庫文件的接口,并讀取返回的相似度的數值。根據最大的相似度數值判別音頻內容是否一致。
4? 算法仿真實驗
本算法的效果可以通過下面的仿真實驗得到進一步證明。
4.1 仿真條件
本發明的仿真平臺用Inter(R)Core(TM)i5-8250U 1.6GHz,內存為8GB,運行Windows10專業版的PC機,開發工具為Microsoft Visual Studio2010。
4.2 仿真內容與結果分析
仿真實驗是對從設備上不同的兩個通道,直接采集的相同音頻信號進行處理,采樣頻率為:22050Hz,其中一路音頻信號相對另一路有延遲。
如圖1所示,為利用本文所述的音頻比對算法計算的,從設備不同通道中采集相同的兩段音頻信號,逐段比對的相關系數分布圖,從圖中可以看出兩路音頻信號的相關系數基本穩定在0.3~0.6之間,有很強的相關性,可以有效的對音頻信號進行比對。實現對音頻內容是否一致的判斷。
5? 結語
實現音頻比對的功能有很多不同的方法,尤其是最近一兩年來,各種實現的比對算法層出不窮。像音頻聲紋比對識別技術、基于時域相似度算法、基于頻域相似度的算法、還有現在最流行的時頻分析法,如Gabor變換、小波變換等等。各有各自的優缺點。這些都是對語音信號處理的研究。音頻內容的比對只是其中一個簡單的應用。語音信號處理技術正處于蓬勃發展的時期,不斷有新產品被研發出來、市場需求逐漸增加,具有良好的應用前景。伴隨著人工智能、機器人的發展,語音識別成為熱門研究課題,語音的信號處理技術正發揮越來越重要的作用,并且出現了新的研究方向,例如語音檢索技術、語音的訓練與矯正技術、語種的識別技術、語音的情感處理研究等等。
參考文獻
[1] 韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2013.
[2] 趙力.語言信號處理[M].北京:機械工業出版社,2018.
[3] 嚴勤,呂勇.語言信號處理與識別[M].北京:防工業出版社,2015.