楊繼臣,李艷雄
(1.仲愷農業工程學院 計算機科學與工程學院,廣東 廣州510225;2.華南理工大學 電子與信息學院,廣東 廣州510640)
在視頻檢索中,人們使用關鍵幀進行檢索;在文本檢索中,人們使用關鍵詞進行檢索[1];另外,蘆烈等人提出在音頻中使用類似于詞頻-逆文檔頻率的方法在音頻中檢測音頻關鍵詞[2-3]。受關鍵幀和關鍵詞的啟發,本文提出在電視新聞中使用關鍵說話人進行檢索。一般情況下,關鍵說話人是多媒體記錄中角色最重要的那個人,相對于其他人而言,他(她)可能出現的次數比較多和出現的時間比較長;但有些情況下,并不一定出現次數多和時間長的人就是角色最重要的。
在以前的說話人檢索研究中,很少有人考慮關鍵說話人的問題,都是把所有的人物一樣對待,只標注誰在何時說(who spoke when)[4-6]。在新聞故事中,為了節省時間,有時人們只需要觀看或聽下主要角色的講解就可以了解故事的主要內容,因此在這種情況下,需要把新聞故事的主要角色找出來,把他(她)作為該故事的關鍵人物。另外對于用戶而言,他(她)可能只對某一位人物有興趣,如果把他(她)感興趣的人物作為關鍵說話人。在檢索時,可以有效快速地檢索到說話人。受文獻 [1-3]算法思想的啟發,為了能在電視新聞中找到關鍵說話人,我們提出使用說話人關鍵度的方法發現關鍵說話人,我們首先介紹了我們使用的數據庫,然后詳細我們的算法,最后用實驗進行驗證我們的算法。
由于多媒體處理的實驗數據庫方面,沒有統一的數據庫,比如,文獻 [7]采用NIST數據,文獻 [8]采用日語電視新聞數據,文獻 [9]采用GALE普通話數據庫。在本文中,我們選用中央電視臺的新聞聯播。
我們選用新聞聯播的原因主要有以下3方面[10]:①從研究的角度,它有最簡單的場景(新聞提要部分完全靜音),也有最復雜的場景(戰事報道,暴風雨報道)。②從影響的范圍來看,它是全國收視率最高的新聞節目,也是世界上觀眾最多的新聞節目,影響范圍甚廣。③從存檔的角度看,因它是國內外大事的真實記錄者,內容涵蓋政治、經濟、科技、社會、軍事、外交、文化、體育等方面,因此它是最有可能存檔的新聞節目。
由于我們主要研究如何發現每個故事中的關鍵說話人,又因為關鍵說話人發現是在新聞故事分割和說話人索引完成之后才能進行的,由于篇幅有限,本文中我們主要介紹如何在前面兩步都已完成的基礎上,研究如何發現關鍵說話人。
首先我們先介紹下新聞故事中出現的說話人涉及到的說話人參數。圖1是某段新聞故事中出現的說話人記錄。
圖1 某段新聞故事中出現的說話人記錄
由圖1可以看出,此段新聞故事中總共有5個說話人:SP1、SP2、SP3、SP4和SP5。其中SP1出現了2次,SP2、SP3、SP4和SP5各出現了1次,他們每個人持續時間和每次出現的時長多數情況下不相等,另外他們每個人的位置也不一樣。
在新聞故事中,說話人出現的次數作為一個重要指標,但并不是出現的次數越多就越重要。像在文本中,有些詞是停詞(比如 ‘的’字),雖然出現的次數比較多,但未必重要。在本文中,要處理的對象是分割好的單個新聞故事,和文本中出現的詞不同的是,在新聞故事中,說話人每次出現,都會有一段持續過程,因此我們引入了說話人持續時間和平均每次說話人時長這兩個參數。在新聞故事里,因為不同的人出現的位置不一樣,所以我們還引入說話人位置因子這個參數。
為了能發現關鍵說話人,我們認為在故事中每個人的重要性是由說話人關鍵度(speaker key,SK)決定,SK的大小決定了說話人在故事中的重要程度。SK越大,相應的說話人越重要,最大的SK對應的說話人是關鍵說話人。在新聞故事中,我們認為SK是由說話人頻率、說話人持續時間、平均每次說話人時長和說話人位置因子共同決定的,下面對它們一一進行介紹。
說話人頻率(speaker frequency,SF)表示說話人在新聞故事(news story,NS)中出現的頻度,相當于文本中的詞條頻率一樣,但和一般意義上的頻率不同的是,我們使用e指數函數的倒數計算它,這樣做的好處是使每個值都小于1;在某種程度上相當于對它進行了歸一化,其余的兩個參數(說話人持續時間和平均每次說話人時長)也采取同樣的處理方法。計算公式如下
式中:Si——新聞故事出現的第i個說話人,ni——Si出現的次數,navg,nstd——所有說話人出現次數的平均值和標準方差。
說話人持續時間(speaker duration,SD)是計算說話人在新聞故事中出現的全部時間,它的計算公式如下
式中:di——Si的全部持續時間,davg,dstd——所有說話人相應的時長的平均值和標準方差。
平 均 每 次 說 話 人 時 長(average every time speaker length,AETSL)考慮到了說話人每次在新聞故事中出現的時間平均長度,計算公式如下
式中:li——Si在新聞故事中的平均每次出現時長,lavg,lstd——所有說話人相應的平均每次出現時長的平均值和標準方差。說話人位置因子(speaker position factor,SPF)考慮到了在新聞故事中每個說話人起的作用不同,出現的順序不同。
在新聞聯播的故事中,最完整的人物結構應該是:
主持人+講解員+(記者,國家領導人或一般的被訪問者)+講解員+訪問者+…。
其中,第一個出現的人物一般是主持人,主持人一般起介紹整個故事的作用;第二個出現的人物是講解員,講解員負責介紹整個故事;第三個出現的人物一般是記者或國家領導人或一般被訪問者,記者一般負責報道故事發生的地點,國家領導人一般就某件事發表談話,被訪問者一般是對某件事情發表看法。因為新聞故事一般都是概括型的,通常情況下前面出現的人物的SPF要大于后面出現的人物的SPF。因為每個說話人之間是相互獨立的,最終的SK的計算公式為
式中:SK(Si,NS)——最終計算得到的說話人Si在新聞故事中的說話人關鍵度,把SK最大的那個說話人作為關鍵說話人;α——說話人Si的說話人位置因子。但要說明的是如果不考慮說話人位置因子的作用,即把每個人的位置因子都設置為一樣,假設在某段新聞故事里總共有n個說話人,那么式(4)可以寫為
在一個故事中,如果所有說話人的說話人頻率都相等,那么在計算SK時,SF(Si,NS)可以不用考慮,這種情況下式(4)可以寫為
同理,若所有說話人的SD或AETSL都相等,則式(4)可以分別寫為式(7)和(8)
若所有說話人的SF、SD和AETSL都相等時,這種情況下,SK只是由說話人位置因子α決定。
在上面介紹說話人關鍵度的基礎上,我們提出基于說話人關鍵度的關鍵說話人發現方法如下:①在說話人索引的基礎上,為要處理的新聞故事里出現的每個人物計算說話人關鍵度。②按照說話人關鍵度的大小,把故事里出現的人物進行排序,把說話人關鍵度最大的那個人作為關鍵說話人。
我們收集了2009年將近200天的新聞聯播數據,我們首先對新聞聯播進行內容分析,總結出新聞聯播的規律,把新聞聯播的故事分成兩大類:有主持人的和無主持人的。然后取出20天的數據,使用音視頻特征聯合的方法,對這20天的新聞故事進行分割,最后我們得到新聞故事分割的準確率為93.12%。
在新聞故事分割的基礎上,我們使用說話人模型自舉法和說話人超級矢量相結合的方法對說話人進行索引,我們從上面的20天已分割好的新聞中取出5天的數據進行訓練和10天的數據進行索引。在這10天的數據中,平均每天的新聞故事數目為19個,最少的為16個,最多的為21個。在新聞故事中,出現人物最少的為1個,最多的為10個。最終我們得到的說話人索引準確率為88.24%和說話人數量準確率為90.17% 。
在說話人索引的基礎上,我們這10天的數據進行關鍵說話人發現。
我們對10天的新聞故事分別進行基于說話人關鍵度的關鍵說話人發現,因為實驗數據太多,在這里,只詳細寫出其中8個故事的計算過程。其他的故事的計算過程和它們都一樣。
(1)對每個新聞故事統計以下數據:人物數目、最大時長、最小時長、故事中人物出現的最多次數和最少次數、SF平均值和方差、SD平均值和方差、AETSL平均值和方差。
(2)對新聞故事里面出現的每個人物分別計算SF、SD和AETSL。
(3)在不考慮說話人位置因子的情況下得到的說話人關鍵度值。
(4)在考慮說話人位置因子的情況下得到的說話人關鍵度值。
表1是這8個新聞故事的統計結果。
表1 新聞故事的統計結果(時長的單位為S)
從表2可以看出:
在第一個新聞故事中,因為講解員和被訪問者的出現的次數一樣,都是一次,結果他們的SF都是無窮大,最終的SK無法計算出來,這也是式(5)~(12)在計算SK為什么不考慮SF的原因。
在第一個和第二個新聞故事中,因為說話人的數量為2,他們計算出的說話人參數值相等,這就說明在只有2個人的新聞故事中,無論他們出現的次數是多少,只使用SF、SD和AETSL無法發現關鍵說話人。
表3是不考慮說話人位置因子得到的說話人關鍵度值。
表2 新聞故事中出現人物的說話人3個參數值
表3 不考慮說話人位置因子得到的說話人關鍵度值
從表3可以得出,如果新聞故事中只有兩個人,他們最終的SK是一樣的。如果新聞故事中的人物多于兩個,計算得到的最大的SK多數情況下是故事中的被訪問者,但在新聞故事中,被訪問者一般只是對某件事發表看法,一般情況下,都不把他們作為關鍵說話人。為了找到關鍵說話人,在計算說話人關鍵度值需要考慮說話人位置因子。
因為新聞故事一般都是概括型的,即越在前面出現的人越重要,所以通常情況下前面出現的人物的SPF要大于后面出現的人物的SPF,在這里,我們把第一個說話人的SPF設置為0.5且后面的出現的SPF是前面一個SPF的一半(0.5,0.25,0.125,0.00625,…)。要說明的是這樣設置SPF可能不一定完全正確。
表4是考慮說話人位置因子得到的說話人關鍵度值。
從表4可以看出,考慮說話人位置因子后,說話人關鍵度最大的絕大部分都是前面出現的人物(講解員或主持人),這與新聞故事中的關鍵說話人相符合。我們對這10天的新聞故事使用基于說話人關鍵度的關鍵說話人發現實驗結果如下:若不考慮說話人位置因子得到的結果75%,若考慮說話人位置因子得到的結果為95%;這也說明在新聞故事中我們提出使用說話人位置因子的正確性。
表4 考慮說話人位置因子得到的說話人關鍵度值
借簽關鍵幀和關鍵詞的發現方法,在說話人索引的基礎上,為了發現電視新聞中的關鍵說話人,基于說話人頻率、說話人持續時間、平均每次說話人時長和說話人位置因子4個因素綜合定義了說話人關鍵度 ,用以判斷說話人的重要性,把每個故事中說話人關鍵度最大的人作為關鍵說話人。實驗結果表明這種算法可以找到新聞故事中絕大部分的關鍵說話人。但是這種算法也存在一定的不足:影響說話人關鍵度的4個因素設計的有點簡單,它們嚴重依賴均值的大小,另外有時候可能會難符合實際情況,最后關鍵說話人是一種很主觀的判斷,在不同的媒體類型中,關鍵說話人會有不同的特性,因此這應該與多媒體類型有關,所以在后續的工作中,我們打算再引入其他的因素進來,讓說話人關鍵度可以符合更多的實際情況,另外我們還要使用其他的數據庫進行實驗,以使這種算法應用的范圍更廣。
[1]CHEN Yulin.Keyword search method application research on science and technology novelty check [J].Journal of Henan Normal University(Natural Science Edition),2010,39(3):171-173(in Chinese).[陳予琳,關鍵詞檢索方法在科技查新中的應用研究 [J].河南師范大學學報(自然科學),2010,39(3):171-173.]
[2]LU L,Hanjalic.Towards optimal audio keywords detection for audio content analysis and discovery [C].14th Annual ACM International Conference on Multimedia,2006:825-834.
[3]LU L,Hanjalic A.Audio keywords discovery for text-like audio content analysis andretrieval[J].IEEE Transactions on Multimedia,2008,10(1):74-85.
[4]Vijayasenan D,Valente F.An inforamtion theoretic approach to speaker diarization of meeting data [J].IEEE Transactions on Audio Speech and Language Processing,2009,17(7):1382-1393.
[5]Barras C.ZHU Xuan.Multistage speaker diarization of broadcast news [J].IEEE Transactions on Audio Speech and Language Processing,2006,14(5):1505-1512.
[6]HAN K J,KIM S.Strategies to improve the robustness of agglomerative hierchical clustering under data source variation for speaker diarization [J].IEEE Transactions on Audio Speech and Language Processing,2008,16(8):1590-1601.
[7]Friedlan G,Vinyals O.Prosodic and other long-term features for speaker diarization [J].IEEE Transactions on Audio Speech and Language Processing,2009,17(5):985-993.
[8]Nishida M,Kawahara T.Speaker model selection based on the Bayessian information criterion applied to unsupervised speaker indexing [J].IEEE Transactions on Speech and Audio processing,2005,13(4):583-592.
[9]CHOU S M,TANG Hao,HUANG Thomas.Fishervoice and semi-supervised speaker clustering [C].IEEE International Conference on Acoustics Speech and Signal Processing,2009:4089-4092.
[10]YANG Jichen,HE Qianhua.A two-step criterion algorithm of speaker segmentation [J].Joernal of Electronic &Information Technology,2010,32(8):2006-2009(in Chinese).[楊繼臣,賀前華.一種兩步判決的說話人分割算法 [J].電子與信息學報,2010,32(8):2006-2009.]