崔玉斌,宿玉文,宋 征
(北京數碼視訊科技股份有限公司,北京 100085)
基于M ap-Reduce的電視新聞場景切分方法
崔玉斌,宿玉文,宋 征
(北京數碼視訊科技股份有限公司,北京 100085)
采用Hadoop云計算的Map-Reduce架構,對大數據電視新聞類內容進行并行的語音識別和視頻分析處理,以提高效率。主要提出了基于播音員語音情節連貫性的視頻段合并方法以及采用碼流分析的視頻場景突變檢測方法。提高了新媒體生產平臺自動剪切視頻場景的準確性。滿足用戶在第一時間使用電視、平板電腦和手機等多屏終端,享受新媒體互動服務。
Map-Reduce;大數據;視頻場景檢測;語音識別
在當前內容爆炸的時代,電視節目的數量呈現快速增長的趨勢,每天擁有數萬條電視新聞資訊,涉及各個方面。以前標清分辨率的視頻日積月累后就形成了海量的大數據,而隨著高清的普及,以及未來4K、甚至8K的超高清電視內容,無疑會形成更加龐大的PB量級數據。為了適應移動互聯網“速食主義”的時代特點,將龐大的電視新聞內容快速加以利用,需要對電視新聞節目進行及時的整理、標注和入庫,并建立新媒體聚合門戶,使多屏用戶按需準確地檢索到。
數碼視訊新媒體智能互動搜索平臺(IICSP)是科技部中新國際合作專項研究課題。IICSP基于業界流行的Hadoop云計算架構[1],針對PB量級的電視新聞大數據進行基于Map-Reduce架構的并行處理,實時響應大規模并發的用戶請求。該平臺的核心技術為基于自然語言理解的智能語音識別和基于碼流分析的輕量級視頻場景檢測方法,實現了具有新媒體多屏點播、直播等業務的智能新媒體互動搜索平臺。在三網融合不斷深化的新形勢下,以及移動流媒體蓬勃發展的新業態下,不斷滿足產業日益增加的新媒體業務需求。
IICSP采用了Hadoop中最核心的分布式文件系統HDFS和Map-Reduce軟件編程框架技術[1]。平臺的采集設備把待處理的海量電視新聞按照節目分別錄制,并保存為HDFS中的文件分塊,以分布式的存儲方式,均勻地分配在云中的各個數據節點(DataNode)內,實現了負載均衡。在每個數據節點上,運行Map和Re?duce作業。Map主要執行兩個操作,一是采用語音識別對電視新聞播音員的語音數據進行處理;二是進行視頻場景分析和視頻切分,輸出新媒體數據。其中第一階段的主要目的是對視頻段進行語音識別,分析獲取語音關鍵詞作為標簽,并為新媒體內容搜索建立索引;而第二階段主要是產生三屏新媒體短視頻內容。Reduce則把新媒體內容進行分類聚合,以適配新媒體聚合類應用。IICSP采用的Map-Reduce架構設計見圖1。

圖1 Map-Reduce架構設計圖
電視新聞內容場景的變換很豐富,一段視頻場景持續時間在幾分到幾秒不等,文獻[2]中按照時間對視頻文件進行分段是比較簡單的方案,沒有考慮到語音上下文的相關性。雖然并行計算能夠提高系統的有效性,但存在語音識別準確率下降的問題。
IICSP中每路Map處理一個新聞節目,以保證語音識別的準確率。另外,對電視新聞內容進行深入分析可知,電視內容中視頻和音頻是同步的,在語義上具有強關聯性。IICSP根據播音員語音內容情節上下文的連貫性,精心設計了對固定間隔切分視頻段,按照語音語義進行合并的算法;并設計了計算復雜度非常低的視頻場景檢測方法;采用了保證主客觀質量的視頻切分方法。上述方法確保自動產生的新媒體視頻在語義上具有連貫性、準確性和完整性,在結構上保證了音視頻文件同步且完整。
IICSP采用的電視新聞場景切分方法流程見圖2。新聞節目切分包括5個關鍵的部分:1)播音員聲紋識別模塊;2)基于播音員語音情節單元的視頻段合并模塊;3)語音情節單元邊界檢測模塊;4)視頻場景檢測模塊;5)文件切分模塊。

圖2 電視新聞場景切分流程圖
2.1 播音員聲紋識別
在語音識別中,只有對新聞播音員進行標準語音識別才能獲得95%以上的準確率。因此采用該模塊來鑒別獲得播音員的語音文件,以便后續處理。聲紋識別技術目前已經非常成熟,本文采用文獻[3]提出的方法進行處理。
2.2 基于播音員語音情節單元的視頻段合并算法
總體設計思想是把待處理的語音文件分成等間隔的小段,根據語音段頻繁出現的熱詞來判斷相鄰語音小段內容的相似性,把內容相似的小段合并為一個情節單元(CU)。定義語音的情節單元為一段內容上下文關聯度很強的音視頻片段。而對于非播音員的語音片段,自動劃歸為前一段播音員語音的CU。
1)播音員語音小段劃分
設Vi代表第i個t秒間隔的采樣語音段,其中i=1,2,…,n;其中t的初始值為對樣本新聞視頻播音員說一句話持續時間長短統計學習得到的樣本均值,一般不超過10 s,并根據實際的處理視頻自適應地調整t值,對于不足t秒的播音員語音,按照實際時間處理。
2)合并算法
通過對新聞內容的分析可知,一段主題新聞內容播音員都會反復提到人名、事件名、地名、時間等所謂的熱詞。把這類詞定義為關鍵詞,關鍵詞數據結構如下:

上面結構體中的變量含義為:①按人、事件、物、地點、時間等設置枚舉變量,設系統初始的總類數為C;②保存關鍵詞的名稱;③用(j)代表第i段語音中、第v類、第j個關鍵詞經過統計出現的頻度數量,其中變量v 基于上段所述的準則,可以認為前后兩段音頻內容的重點一致。接下來,進行最終的語音小段合并準則判定其中,用關鍵詞類的權重與關鍵詞出現頻率的乘積作為最終判定分段內容相似性的參數。而TH為經驗閾值,一般根據分類樣本進行統計,初始值設為樣本均值,并可自適應進行調整。 2.3 情節單元邊界檢測算法 為了確定兩段內容獨立的語音情節單元的精確切分點,在前后兩小段t秒的語音段不能合并的情況下,記錄后t秒各類經過排序的前Δ個關鍵詞與前t秒對應各類關鍵詞的補集內(即后t秒中新出現的關鍵詞集合)的關鍵詞名稱。依次選取補集中頻率最高的各類關鍵詞的名稱,在前后2t秒的語音中尋找該關鍵詞第一次出現的時間點,確定2t秒內最前面的時間點為語音情節單元邊界,以便在該語音對應的視頻圖像組(GoP)鄰域內找到精確的文件切分點。 2.4 視頻場景檢測算法 在確定了語音情節單元邊界對應的視頻幀后,在該幀所在GoP和前后2個相鄰的GoP內進行碼流分析,獲得宏塊序號、DC系數、運動矢量殘差值和幀內編碼宏塊數量等關鍵數據。該視頻突變場景檢測方法計算復雜度非常低,僅讀取2.5 s左右時間內的60幀視頻碼流,進行比特級的解碼即可。而對于視頻漸變場景則采用語音關鍵詞進行切分。 1)播音員頭肩像關鍵幀檢測 對于新聞類節目,具有播音員頭肩像的視頻幀是輔助進行場景劃分的重要依據。采用有監督機器學習的方式,選取各個電視臺新聞播音員各種播報場景幀作為樣本,提取具有播音員頭肩像的關鍵幀的宏塊/塊的序號和DC分量數值,進行統計,獲取樣本均值和方差等數字特征,形成樣本特征庫。在實際檢測中采用最小二乘法與樣本特征庫內的特征數據進行比對,只要波動不超過樣本方差,即可判斷當前幀是播音員頭肩像。 2)運動復雜度分析 在GoP鄰域內,設RF為參考幀,CF為當前幀,Σmv為累加的CF解碼宏塊/塊的解碼運動矢量差值之和,如果Σmv 3)幀內宏塊數統計 在GoP鄰域內,設NαIntraMB代表第α幀的幀內編碼宏塊數量,α為視頻幀的序號。設ThNumIntraMB為通過對樣本分析獲取的視頻預測幀(P、B幀)幀內宏塊的數量閾值,一般取樣本均值。如果NαIntraMB?Nα-1IntraMB,即后一預測幀的幀內編碼宏塊數突然成倍增加,則認為前后預測幀紋理差異較大或運動特別劇烈,存在場景切換的可能。 如果在GoP鄰域內檢測到播音員頭肩像的關鍵幀,且連續GoP場景平滑,則可以判定當前場景是播音員頭肩像場景,該場景的第一個GoP可以作為切分前后新聞內容短視頻的備選斷點。 對于兩段新聞片段之間沒有播報場景視頻幀的情況,采用視頻場景突變檢測方法:如果前后預測幀運動劇烈變化,或幀內編碼宏塊劇烈上升,則當前GoP可以作為切分前后新聞內容短視頻的備選斷點。 2.5 文件切分算法 GoP從I幀開始。當檢測到幀類型是I幀后,則確定為GoP邊界。切分文件的原則是保持播音員語音的完整性且保持音視頻同步。對于播音員語音從I幀開始且為開環GoP的情況,需要去掉I幀后面緊接著的兩個B幀的前向參考然后切分,以便在解碼時能正確重建。而對于閉環GoP,則無需處理,直接切分。如果播音員語音開始的時間點對應的視頻幀非I幀,分為以下兩種情況進行處理。 對于P幀:解碼該P幀,并重新編碼為全幀內宏塊P幀,丟棄當前GoP中顯示時間在該P幀前面的視頻幀對應的碼流,后面其他幀碼流無變化。 對于B幀:確定其后向參考幀,如果是I幀不處理,是P幀則解碼重建,并重新編碼為全幀內宏塊P幀。解碼該B幀,再編碼為全幀內宏塊P幀,丟棄當前GoP中顯示時間在該B幀前面的視頻幀對應的碼流,而對顯示時間在該B幀后面的B幀,進行解碼重建,并重新編碼為全幀內宏塊P幀。 IICSP基于云計算Map-Reduce架構并行對大數據電視新聞內容進行高效且精確地主題劃分、打標簽、建立索引。采用了新穎的視頻場景切分算法,獲得準確完整的新媒體短視頻。運營商搭建IICSP后,可提供一系列智能、交互、時尚的新媒體內容服務,使其擁有的海量電視內容迅速增值。IICSP較現有的其他同類平臺,具有處理效率高且更準確的優點,節省了勞動力,提高了性價比。 [1] Apache Hadoop[EB/OL].[2013-08-25].http://hadoop.apache.org/. [2]王碩,劉文.并行化語音識別系統的研究與設計[J].計算機工程和應用,2012,48(11):71-74. [3] TAN L,WEIG.Blind signal separation of convolution mixture sig?nals via minimum mutual information(MMI)method[J].Journal of China Institute of Communications,1999,20(10):49-55. TN949.6 B ?? 雯 2013-11-22 【本文獻信息】崔玉斌,宿玉文,宋征.基于Map-Reduce的電視新聞場景切分方法[J].電視技術,2014,38(6). 國家國際科技合作專項(2012DFG11800) 崔玉斌(1979—),高級工程師,主研多媒體通信、視頻內容分析、語音識別、云計算等; 宿玉文(1973—),高級工程師,主研數字電視傳輸、媒體內容保護和增值業務技術等; 宋 征(1975—),高級工程師,主要研究方向三網融合、物聯網、云計算等。
3 小結