(天津大學 電子信息工程學院 天津 300072)
摘 要:提出了一種規則和隱馬爾可夫模型相結合的音頻分層分類算法,首先利用規則將新聞節目中的音頻分為靜音、語音和音樂三類,然后采用隱馬爾可夫模型進一步將語音和音樂細分為男主持人語音、女主持人語音、交替報道、獨白語音、現場語音和音樂六類。實驗結果表明,男主持人語音、女主持人語音以及音樂的分類效果最好,查準率和查全率均可達90%以上;交替報道的分類性能最差,查準率為57.5%,查全率為79.3%;其他類別的分類性能居中,在70%~90%左右。與同類算法相比,該算法分類性能較高。
關鍵詞:音頻分類; 內容分析; 隱馬爾可夫模型; 新聞視頻; 視頻檢索
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2009)05-1673-03
Hierarchical audio classification algorithm for news video content analysis
JI Zhong SU Yuting SONG Xingguang AN Xin
(School of Electronic Information Engineering Tianjin University Tianjin 300072 China)
Abstract:This paper proposed hierarchical audio classification algorithm which first classified the news audio stream into silence speech and music with rulebased classifier and then employed hidden Markov models to categorize the speech and music to maleanchor speech femaleanchor speech alternate speech monologue speech live report and music. The experiment results show that the classification works best in maleanchor speech,femaleanchor speech and music in which precision and reall can both reach more than 90%. The classification performs worst in alternate speech with precision of 57.5% and with recall of 79.3%. The performance of classification in other types is at the average level with precision and recall ranging from 70% to 90%. Compared with the other representative algorithm this method works well with relatively high precision.
Key words:audio classification; content analysis; hidden Markov model(HMM); news video; video retrieval
0 引言
新聞視頻中的音頻信號包含有不同的類型,如語音、音樂以及靜音等。它們按照一定的順序播放,當從一種類型的音頻信號轉換到另一種類型的音頻信號時,某些聽覺特征會發生變化,前后差別較大,如同圖像序列中的視覺特征一樣。音頻信號分類的目的就是根據音頻特征將不同的音頻信號區分開來,進行歸類[1~4]。通過音頻分類,一方面可以對不同類別的聲音信號采取不同的處理方式,減小進一步處理的搜索空間,如對語音信號可以進行語音識別、關鍵詞提取和說話人識別;另一方面,音頻分類的結果反映了音頻內容的高級語義特征,對音頻乃至視頻的內容分析和檢索具有重要的意義。
此外,音頻分類與音頻分段是相輔相成的。相同類型的音頻片段一般持續幾秒到幾分鐘,這些連續、同一類型的音頻片段就構成了表達相同內容的音頻語義單元。這些音頻語義單元的邊界可以用來為故事單元分割以及鏡頭分類等提供有意義的線索[5]。
很多研究者在音頻分類領域做出了卓有成效的工作,根據使用的方法主要可以分為基于規則的音頻分類算法[1,2]和基于學習的音頻分類算法[3,4,6]兩類。基于規則的方法通常選擇若干種音頻特征,然后按照不同音頻類型在這些特征方面的不同,根據人工設定的閾值進行分類。基于學習的方法通常將支持向量機(SVM)、隱馬爾可夫模型(HMM)等統計學習的方法應用到音頻分類的研究中。
目前,雖然一些音頻分類算法已經取得了較好的分類性能,然而大部分類別個數比較少,并不能滿足實際的視頻內容分析和檢索應用。針對某一具體視頻類型,如新聞、體育節目等更深層次的音頻分類對基于內容的視頻分析,尤其對多模態信息融合的應用有著重要的意義。有鑒于此,本文提出了一種規則與HMM相結合的分層音頻分類算法,對新聞節目中的音頻流進行更細致的分類。
1 分層音頻分類算法
1.1 算法框架介紹
新聞視頻節目中的音頻主要包括靜音、音樂以及語音三大類。靜音指一段較長時間的無聲區,可提供一些結構和內容上的簡單而有效的線索。例如,較長的靜音區一般是新聞故事單元間的切換點,可以為故事單元分割提供簡單而快速的粗分割線索。音樂通常對應著新聞節目的片頭、片尾或者中間穿插的片花及廣告場景。語音是新聞節目中最重要的音頻類型,含有大量的信息量,對其細致的區分是提高語音識別、說話人識別、基于內容的音/視頻檢索準確度的必要步驟。
新聞鏡頭大致可以分為主持人鏡頭和非主持人鏡頭。經觀察發現,主持人鏡頭對應的音頻有男主持人語音、女主持人語音和交替報道三類。非主持人鏡頭對應的語音有三種情況:a)大部分鏡頭由本次節目的主持人或其他未露面的主持人播報,這時的語音類型為男主持人語音或女主持人語音;b)由記者播報的鏡頭,由于記者的語調和語速等特征與主持人語音比較類似,當沒有環境音時,將之視做男主持人語音或女主持人語音;當有背景音時,將之歸為現場語音一類;c)由被采訪者敘述時,由于此時的語音在語速等特性上與主持人語音區別較為明顯,當沒有環境音時,將之歸為獨白語音一類;有背景音時,將之歸為現場語音一類。新聞節目中的語音可以分為男主持人語音、女主持人語音、交替報道、獨白語音和現場語音。
圖1為提出的面向新聞視頻的分層音頻分類框架圖。第一層為粗略分類層,采用基于規則的方法將新聞節目中的音頻分為語音、音樂和靜音三類;第二層為精細分類層,采用六個HMM分類器將語音和音樂細分為男主持人語音、女主持人語音、交替報道、獨白語音、現場語音和音樂六類。粗分后的語音和音樂都要經過HMM5這一分類器來判別是否是現場語音類型。這是因為當新聞背景音是音樂的時候,如果音樂的聲強比較大,在粗略分類中會被判斷為音樂;反之就會被判斷為屬于語音。
1.2 音頻特征分析
音頻信號具有短時平穩、長時可變的特性,即在一段短的時間內,可以近似認為其特征是穩定不變的,而超出這段時間,它就是一種典型的非平穩信號[1,2]。研究發現,這些短的時間段一般為10~30 ms,稱為音頻幀(audio frame),是音頻處理中的最小單元。音頻幀的時間粒度太小,很難從中提取有意義的語義內容,所以需要定義時間粒度更大的音頻結構單元,通常稱為音頻片段(audio clip)。音頻片段的特征一般由若干幀組成,在音頻幀特征的基礎上計算得到。常用的音頻幀特征有短時能量、短時過零率、基音頻率、中心頻率以及美爾頻域倒譜系數(MFCC)等;常用的音頻片段特征有靜音比、過零率標準差、中心頻率標準差、基音頻率標準差和δMFCC等。
1.3 基于規則的音頻粗略分類
粗略分類器的目的是將提取出來的音頻片段劃分為靜音、音樂和語音三部分。由于這三種音頻類別之間有著比較明顯的區別,可以通過基于規則的方法進行分類。
靜音表現在聲強上就是音頻信號的振幅很小、人耳聽不到的聲音。它一般會持續一定的時間,表現在能量譜上就是在一段較長時間內能量很低。此處采用靜音比特征,規則如下:a)當一個音頻幀的能量低于某個閾值,就認為它是靜音幀;b)當一個片段中的靜音幀的比例超過閾值TS 時,就認為它是靜音片段。閾值的設定與當前聲音的響度和頻率有關系,響度高閾值就高,所以閾值的設定應隨不同的音頻片段而變化。為此,采用自適應的閾值TE的判定方法:當音頻幀的短時能量與一個3 s大小的滑動窗口內的平均短時能量的比值低于閾值TR時,就認為是靜音幀。
在新聞中,音頻信號除了靜音部分以外,大致可分為語音和音樂兩類。經實驗分析,采用過零率標準差和中心頻率標準差這兩個特征進行區分。一般來說,語音信號的這兩個特征值大于音樂信號。當一個音頻片段的過零率標準差小于閾值TZ并且中心頻率標準差小于閾值TF時,就認為它是音樂片段,否則為語音。
在分類中由于分類器的誤判等原因,會出現某片段的音頻類型突然與其周圍的類型不一致的情況。而事實上音頻信號是具有一定連續性和穩定性的,在短時間內不會出現突變。例如,相鄰的兩個語音片段之間不會忽然出現一個音樂片段。因此,在粗分過程結束后要對分類結果進行平滑,將短暫的類型突變的音頻片段合并到與其相鄰的類型段中。經分析,得到最終平滑規則為:如果連續片段(小于5個)之間的類型一致,且不為靜音類型,并且與其前或后的類型都不一致,那么就令這些片段類型與它前邊片段的類型一致。
1.4 基于HMM的音頻精細分類
精細分類的目的是將語音類型進一步細分,以達到對新聞視頻節目的語音識別、音頻檢索以及音/視頻多模態分析的要求。此外,有些現場語音類型的背景是音樂,在粗分中可能被分類為音樂一類,因此也有必要對音樂類型進一步分類。細分的音頻類別為男主持人語音、女主持人語音、交替報道、獨白語音、現場語音、音樂六類。
首先經分析確定采用的特征為MFCC、δMFCC和基音頻率標準差。MFCC特征具有不同的階數,階數越高對音頻信號的模擬程度就越高,計算量也就越大。最終選取12階的MFCC系數,使得精細分類使用的特征向量共為25維,分別為12維的MFCC系數、12維的一階δMFCC系數以及1維的基音頻率標準差。
然后確定使用的模型。因為HMM具有良好的隨機時序數據模擬能力,得到了廣泛的應用,尤其在音頻信號的處理方面。所以選用HMM作為精細分類的模型。HMM是一種統計模型,在本質上是一個雙重隨機過程。其中一個隨機過程描述狀態的轉移,稱為馬爾可夫鏈;另一個是隨機過程,描述狀態與觀察值之間的統計對應關系。HMM的精髓就在于觀察可測、狀態隱含。一般用以下五個參數來描述:N——模型中的狀態數目;M——每個狀態對應的可能的觀察值數目;π——系統的初始狀態概率矢量;A——狀態轉移概率矩陣;B——輸出觀察值概率分布。這樣,由以上五個參數就可以構成一個HMM:λ=(N M π A ,B)。
2 實驗結果和分析
實驗的音頻數據采用六段CCTV1的新聞聯播節目,時間長度共為10 800 s,采樣頻率轉換為32 kHz,精度為16位,存儲格式是wav格式。其中兩段新聞節目(共3 600 s)作為訓練數據,從中挑選不同的音頻類型訓練相應的HMM模型;剩下的四段新聞節目(共7 200 s)作為測試數據。其中片段長度為1 s,相鄰片段間有0.5 s的重疊部分。經過預處理后得到測試音頻片段總數是14 280個。其中靜音片段1 005個,音樂片段661個,男主持人片段5 084個,女主持人片段6 232個,現場語音片段394個,獨白語音片段880個,男女交替的片段24個。粗略分類的閾值設定為TR=0.044,TS=0.8,TZ=20,TE=400。結果如表1所示。
實驗中采用查準率(precision,也稱精確率)和查全率(recall,也稱召回率)評估性能。查準率(P)定義為正確檢測的音頻片段個數r與實際檢測到的音頻片段個數N(包括正確檢測的個數r和誤檢測的個數n)之比;查全率(R) 定義為正確檢測到的音頻片段個數r與應該檢測到的音頻片段個數M(包括正確檢測的個數r和漏檢測的個數m)之比。
從表1可以看出,靜音的查全率比較高,查準率較低。一些低能量語音片段的存在是造成誤檢測的主要原因。語音和音樂的分類性能總體上比較高,只有音樂的查全率比較低,這是因為粗分時將帶有背景音樂的語音作為音樂一類,而當音樂的聲強比較小時就將它判斷成為了語音類,導致音樂片段的漏檢測。
精細分類使用自左向右的連續型的HMM。其中,轉移概率矩陣A的初值設定為狀態只轉移到本身和它的下一狀態,概率分別為0.5;初始概率矩陣π的初值設定為從第一個狀態開始出發,初始概率值為1;概率密度函數的初值是通過K均值聚類產生。HMM分類器的狀態數和觀察符號數(即B參數的高斯混元數)分別為4和3。訓練算法是BaumWelch算法,利用Viterbi算法進行迭代調整。
表2給出了基于HMM的精細分類結果,可知基于HMM的精確分類性能比較不錯:音樂的檢測效果最好,沒有誤檢,查全率可達98.8%;男、女主持人語音的查準率分別是97.4%和97.6%,查全率分別為94.7%和96.7%。兩者之間相互誤判以及獨白語音類的干擾是影響性能的主要原因。獨白語音和帶有背景音的語音查準率較低的主要原因是因為有的語音片段中會出現存在有較低能量的背景音,從而導致誤檢測。交替報道的查準率最低,只有57.5%,其原因是兩個語音的交替點不固定,而且既包含語音又包含靜音的片段也會被誤判為交替報道。
文獻[6]首先采用基于規則的方法檢測靜音片段,然后采用支持向量機將非靜音片段分為純語音、非純語音、音樂和背景聲音四類。分層分類算法與之相比,主要有兩個方面的提高:a)分類個數增多,將最重要的音頻類型——純語音,進一步分為男主持人語音、女主持人語音、交替報道和獨白語音四類,更符合實際應用的要求,提高了音頻分類的利用價值,為新聞視頻中的語音識別以及內容分析等應用提供了重要的輔助信息;b)由于采用了規則和隱馬爾可夫模型相結合的音頻分層分類算法,分類性能有所提高,如圖2所示。為了便于比較,選取了靜音、純語音、音樂和現場語音四種類型。其中,純語音包括上述男主持人語音、女主持人語音等四種類型,現場語音即文獻[6]所述非純語音,而文獻[6]中所述背景聲音一類由于在新聞視頻中并不多見,本文分層分類法并沒有將它分為一類。由比較可知,分層分類法對靜音片段的查準率稍低,查全率稍高。這是因為文獻[6]方法利用能量和過零率兩個特征檢測靜音片段,比分層分類法多一個特征,所用規則苛刻一些,因此誤檢測的片段要少一些,漏檢測的片段要多一些。而其他三類,由于都經過了兩層判斷,而且在第二層由多個HMM分類器分別判斷,查準率和查全率都有所提高。
3 結束語
針對新聞視頻的內容分析,本文提出了一種規則與HMM相結合的分層音頻分類算法,將音頻流細致地分為靜音、男主持人語音、女主持人語音、交替報道、獨白語音、現場語音、音樂七類。對語音識別、音頻檢索以及基于多模態的新聞視頻內容分析和檢索具有重要的實際應用價值。
參考文獻:
[1]WOLD E BLUM T KEISLAR D et al. Contentbased classification search and retrieval of audio[J]. Multimedia 1996 3(3):27-36.
[2]ZHANG Tong KUO J. Audio content analysis for online audiovisual data segmentation and classification[J]. IEEE Trans on Speech and Audio Processing 2001,9(4):441-457.
[3]韓冰 高新波 姬紅兵. 一種基于選擇性集成SVM的新聞音頻自動分類方法[J]. 模式識別與人工智能 2006,19(5):634-639.
[4]LIU Zhu HUANG Jincheng WANG Yao. Classification of TV programs based on audio information using hidden Markov model[C]//Proc of IEEE Workshop on Multimedia Signal Processing. 1998:27-32.
[5]冀中 張春田 蘇育挺. 新聞視頻故事單元分割技術綜述[J]. 中國圖象圖形學報 2007,12(11):1952-1960.
[6]LU Lie ZHANG Hongjiang LI S. Contentbased audio classification and segmentation by using support vector machines[J]. Multimedia Systems 2003,8(6):482-492.