楊貴安,邵玉斌,龍 華,杜慶治
(昆明理工大學,云南 昆明 650500)
在如今信息爆炸的時代,互聯網、廣播和視頻中充斥著大量的音頻信息,語音和音樂是音頻數據中最重要的兩類。在音頻檢索、語音識別、語音文字轉換以及新聞摘要抄錄等領域中都需要音頻分類這項預處理技術以提高整體工作效率,降低錯誤率。
音頻分類的關鍵在于音頻特征選取,現有技術通常在頻域和時域內尋找區分度明顯的特征用于音頻分類。例如文獻[1]選取過零率和頻譜作為特征,文獻[2]選取二號逆Mel濾波器(Energy Variance of Inverse Mel Filter No.2,EVIMF2)的能量方差作為特征,兩篇文獻中分類準確率最高為文獻[1]的99.3%,但兩篇文獻均以1秒作為分類單元,對精度小于1秒的音頻類型變化片段難以進行準確劃分。文獻[3]選取過零率(Zero-Crossing Rate,ZCR)的平均值和標準差等7維數據作為特征,文獻[4]選取短時能量和短時平均過零率等117維數據作為特征,兩篇文獻在特征提取部分計算量較大,對音頻最終分類效率造成影響。文獻[7]、文獻[8]、文獻[9]均以單一語音和音樂的混合音頻作為分類對象。文獻[7]對數梅爾能量、調制頻譜等特征進行非線性映射和組合用于混合音頻的分割及分類,在特征計算上將耗費較多時間和資源。文獻[8]采用較新的深度置信網絡算法對混合音頻進行分割及分類,但以實驗結果來看最終分類準確率93.94%有待提高。文獻[9]將一維音頻信號處理和二維圖像信號處理結合起來提取多個特征用于音頻分類,其最終分類準確率95.68%仍然不是最佳效果。
因此,本文提出一種基于音頻分割的音頻分類算法,對待分類音頻先進行分割再進行分類。在分割階段,結合能熵比和文獻[1]中提到的幅度均方根(Root Mean Square,RMS)實現音頻分割,音頻分割目的是檢測出所有音頻類型變化點,而基于能熵比的音頻分割中以8 ms為幀移逐幀進行計算,所以對音頻類型變化點的檢測能精確到8 ms。音頻分割對單一音頻不存在過分割現象,因此不會對單一音頻分類結果產生影響,對混合音頻而言可能存在過分割現象,此問題在同類型的相鄰音頻段合并時得到解決。文中用統計方法證明了選取幅度的峰態系數和平均基頻作為分類特征的可行性,因此在分類階段,對分割所得音頻段提取幅度的峰態系數和平均基頻兩個特征,并利用高斯混合模型作為后端分類器進行分類,將同類型的相鄰音頻段合并便得到最終分類結果。僅提取二維特征的先分割再分類算法不僅提高了分類效率,還獲得了良好的分類效果。
音頻分割需要兩個步驟,第一步基于能熵比特征進行分割,第二步基于幅值均方根特征進行分割。將第一步中滿足閾值條件的結果與第二步的結果進行組合形成新的音頻段,即音頻分割結果。
說話人在講話間隙會出現停頓,所以語音信號存在大量靜音段,而音樂本身呈現的連續性較好,音樂信號一般不存在靜音段,因此兩類音頻信號的能熵比在時間軸上高于設定能熵比閾值的點的密集程度會有所區別,如圖1(b)所示為能熵比高于0.05的點,利用此特點對音頻進行分割。


圖1 基于能熵比的音頻分割
待分割音頻以32 ms為幀長,8 ms為幀移進行分幀,一幀信號數據的能熵比(Energy entropy ratio,Er)計算如下:

式中,y(n)為一幀信號中第n個采樣點所對應的幅度,n=1,2,3,…,L,L為幀長,H為一幀音頻信號的譜熵值。
一段音頻內幀信號的能熵比(Er)大于0.05的其中兩幀為第r幀和第s幀,其中r<s,若s-r大于1,則第r幀處為一個分割點。分割結果如圖1(c)所示,可以看出音樂信號的分割較為準確,而語音信號被分割為非靜音段和靜音段,即對語音信號進行了過度分割,此問題在基于幅度均方根的音頻分割中將得到較好的解決。
待分隔音頻以20 ms為幀長,零幀移進行分幀,50幀即1 s作為一個單元,幅度均方根(RMS)計算如下:

對于每一個單元而言,不同參數的廣義x2分布很好地擬合了語音和音樂信號的幅度均方根統計直方圖[5]。兩個單元之間的相似度表示如下:

式中:


式中,σi和μi為第i個單元信號幅度均方根的均值和標準差。
對于第i個單元,其相鄰兩個單元的音頻類型是否發生變化由單元之間相似度的距離來決定,距離計算如下:

若相鄰單元的音頻類型發生變化,其相似度距離D(i)較大,反之D(i)較小。
由于音頻信號活動是時變的,因此對D(i)進行局部標準化[5],計算如下:

式中,V(i)為當前單元距離D(i)與前后相鄰兩單元距離的均值之差,即

DM(i)為與當前單元前后相鄰兩單元距離的最大值,即

音頻信號的歸一化距離如圖2(a)所示。在所有小于1的Dn中尋找出最大值并求其二分之一作為閾值,大于閾值的Dn所對應的時間點即為音頻的分割點。分割結果如圖2(b)所示,語音信號的分割較為完整,但是對音頻信號的分割不夠準確。

圖2 基于幅值均方根的音頻分割
因此需要結合兩種分割方法的優點,使得分割點盡可能精確。將基于能熵比的音頻分割結果中幀數大于T1或幀數減去T2再除于T2取整不為0的音頻段與基于幅度均方根的音頻分割結果進行組合,T1、T2的計算如下:

式中,fs為音頻的采樣率,I為基于能熵比的音頻分割中分幀時所設幀移。

式中,v為基于能熵比的音頻分割結果中所有音頻段的幀數。
音頻分割的目的是檢測出所有音頻類型的變化點,而基于能熵比的音頻分割中以8 ms為幀移逐幀進行計算,所以對音頻類型變化點的檢測能精確到8 ms。整個音頻分割過程如圖3所示,將兩種分割方法分割所得音頻段的起始點和終止點升序排列并兩兩組合形成新的音頻段作為音頻分割結果。音頻分割結果如圖4所示,語音/音樂信號內部仍存在分割點,此類分割點在音頻段分類后進行同類型的相鄰音頻段合并時可消除。

圖3 音頻分割過程

圖4 音頻分割結果
選取區分度明顯的音頻特征用于音頻分類既可以降低所提取特征的維度,又能保證分類的準確率。本文選取幅度的峰態系數和平均基頻作為分類特征。
觀察語音和音樂信號的波形可以發現兩者有較大差別,因此波形的統計特征可以用其幅度的概率密度函數來描述,而峰態系數是表征概率密度分布曲線在平均值處峰值高低的特征數,一段音頻信號幅度的峰態系數K計算如下:

式中,N為音頻信號采樣點數,xj為音頻信號第j個采樣點所對應的幅度。
圖5為采樣率8 kHz,時長10 s,單聲道的150段音樂信號(包括各種風格的歌唱聲、樂器音等)和150段語音信號(包括男女混合音、男音、女音)幅度的峰態系數統計圖。統計結果表明,音樂信號幅度的峰態系數大部分集中在5附近,而語音信號幅度的峰態系數大部分集中在10附近,這是因為音樂信號波形更連續,其幅度范圍廣泛,概率密度分布曲線平緩,所以峰態系數較小,而語音信號波形較離散,其幅度更集中于某一個值,概率密度分布曲線陡峭,所以峰態系數較大。

圖5 音頻信號幅度的峰態系數統計直方圖
基音頻率是語音信號的一個重要屬性,可以作為區分語音和音樂信號的一個特征,因此對基頻進行進一步統計分析。本文采用傳統的倒譜法計算基音頻率,對每一段音頻的基音頻率求均值并進行統計。圖6所示是對各150段音樂信號和語音信號的平均基頻進行統計的結果,可以看出語音信號的平均基頻主要分布在100~200 Hz,而音樂信號的平均基頻主要分布在200~350 Hz。

圖6 音頻信號平均基頻統計直方圖
對分割所得音頻段提取幅度的峰態系數和平均基頻兩個特征,并利用高斯混合模型作為后端分類器進行分類,將同類型的相鄰音頻段合并便得到最終分類結果。最終分類結果如圖7所示,字母“M”代表音頻段類型為音樂,字母“S”代表音頻段類型為語音。

圖7 音頻最終分類結果
以MATLAB為平臺進行算法實驗,實驗所使用的音頻包括單一語音、音樂音頻及其兩者的混合音頻,音樂含有經典、藍調、流行和爵士等七種風格,語音來自中國之聲和清華大學王東教授的語音數據集,所有音頻均為采樣率8 kHz、16位精度的單聲道Wave文件。
實驗使用時長3秒的單一語音和單一音樂音頻各150段訓練高斯混合模型,對300段待識別音頻進行識別測試,300段音頻包含時長為10 s、5 s、3 s、2 s和1 s的單一音樂和單一語音音頻各30段。音頻分類準確率計算如下:

分類結果如表1所示。

表1 單一音頻分類結果
分類結果表明上述所提取的兩個特征用于音頻分類是非常有效的。
實驗使用15段5 s和60 s單一語音和音樂的混合音頻進行分割和分類測試。分類時,若分割時間與人工標注的時間相差超過0.5 s,就認為分割時間和標準時間之間的音頻段是錯誤分類[6]。分類精度定義為:

分類結果如表2所示。分類后,同類型的相鄰音頻段進行合并便得到最終分類結果。

表2 混合音頻分類結果
將漏檢和多檢(譬如實際只有一個分割點,卻被檢測為多個分割點)定義為檢測錯誤,結果如表3所示。

表3 混合音頻分割結果
通過表2和表3的實驗結果數據可以看出,針對單一語音和音樂的混合音頻而言,本文結合兩種不同分割方法的優點進行音頻分割的方式效果理想,正是由于對音頻分割點(音頻變化點)的計算較為準確,因此對混合音頻的分類效果和對單一音頻的分類效果能達成一致,準確率仍能達到98.61%。分類的準確性降低了同類音頻合并時出錯的概率,因此對過分割點的消除也更為準確,最終混合音頻分割準確率達到98.24%。與年份較近的文獻[7-9]相比較,本文提出的音頻分割和分類算法在保證準確率的前提下,僅提取二維特征,大大降低了運算量,能更好滿足實時性要求,且從實驗結果來看,最終分類的準確率比文獻[8]提高了4.67%,比文獻[9]提高了2.93%,準確率平均提高3.80%。綜合實際情況分析,本文所提出的音頻分割和分類算法計算量小、效果穩定、整體結構易于實現,具有一定的實際應用價值。
本文提出了一種基于音頻分割的音頻分類算法。首先結合基于能熵比特征和基于幅度均方根特征的兩種分割方法對待分類音頻進行分割,對分割所得音頻段提取幅度的峰態系數和平均基頻兩個特征,并利用高斯混合模型作為后端分類器進行分類,將同類型的相鄰音頻段合并便得到最終分類結果。與現有分類算法相比,本文提出的算法對單一語音和音樂的混合音頻進行分類更為適用。本文算法具有很高的分割準確率,僅提取二維特征便得到較高的分類準確率,既減小了特征計算、建模等時間代價,又提高了對單一語音、音樂音頻及其混合音頻進行分類的效率和準確率,算法效果穩定、整體結構易于實現,該語音/音樂分割與分類算法具有一定可行性和實用性。在后續工作中,考慮使用更多音頻樣本測試本文算法的分類準確率。