張華斌
摘 要:隨著我國廣播事業的不斷發展,對廣播監測的要求也在不斷提高,工作量也越來越大,依靠原有人工識別為主的工作模式已經無法滿足現在的業務需求。廣播監測網語音綜合處理系統的建設很好地解決了這一問題,將監測工作從人工識別向計算機識別發展,提高了語言和節目的識別率,從而提高了廣播監測的工作效率。
關鍵詞:廣播語音綜合處理;語音評估;語種識別;呼號識別
1 需求概述
隨著我國廣播事業的不斷發展,目前廣播監測工作量越來越大,如何自動監測和評估這些節目的播出信號質量,以及及時地判斷這些節目是否存在空播、錯播、停播等異態事件,已經成為我們必須解決的一個現實問題。
目前,廣播監測的手段正在由傳統依靠人工操作向計算機輔助監測過渡,初步達到了設備控制的自動化和廣播信號采集的數字化、信息化和網絡化,并實現了部分簡單異態事件監測的自動化。在廣播監測中,其中一種方式是依靠無人值守的遙控站點采集當地實時收聽到的節目,并以錄音文件的形式回傳到中心機房進行評估,這種主要依靠人工識別的監測方法,在站點數量眾多時,需要處理的工作量非常大,人工很難在較短時間內發現并確認匯總異態。近年來廣播監測業務規模不斷擴大,對監測質量的要求也不斷提高,建設一套智能化的廣播語音綜合處理系統,提高對異態處理的實效性和準確性,對于提高廣播監測服務質量和維護空中電波秩序具有非常重要的意義。
2 建設內容
廣播監測網語音綜合處理系統的核心功能是監測服務區內聽眾聽到的節目是否與播出時節目源的節目和語言一致,如果不一致,確認信號的可聽度、干擾強度、及語言等,為此需要完成基于錄音文件的自動評估、實時語音語種識別、臺名與呼號輔助識別三個主要功能,具體建設內容包括:
2.1 基于錄音文件的自動評估
對站點采集的各頻次語音數據進行自動評估,輸出判斷結果及其置信度。其中:
(1)質量評估結果:停播、錯播和空播;(2)效果評估結果:評分結果為5分制,其中3分以上直接打分3/4/5,3分以下給出s1/s2形式評分(s1:廣播臺可聽度0~5漸強,s2:干擾情況0~5漸弱),并判斷噪聲種類(背景噪聲或同鄰頻語音干擾)和干擾強度;(3)語種評估結果:在錯播異態條件下,且s2在3分以下時,自動給出錯播語種的候選結果及其置信度。
2.2 實時語音語種識別
針對實時采集的數據文件,應能夠判斷是否按照預定的語言進行播出。如果沒有按照預定語言播出,則進行報警,并顯示應當播出的語種、實際播出的語種等信息。
2.3 臺名與呼號輔助識別
可以對站點采集到的含有外臺臺名及呼號的錄音文件進行臺名與呼號識別。
3 設計原則
考慮到綜合處理系統具有監測數據處理量大,實時性強,對數據安全性、可靠性、準確性要求高的特點,并結合現有網絡傳輸條件,確定以下設計原則:
(1)可靠性:系統能夠長時間穩定運行,設備監測指標準確,信息上報處理迅速,達到系統的最大平均無故障時間;(2)先進性:采用先進的音頻智能處理技術,提高處理的準確性和實時性,而且充分考慮到未來技術發展的需要,力爭超前設計;(3)安全性:建立在一個專用網絡中,注重信息和數據的保護與隔離,可保證廣播監測網系統的安全,具有完善、可靠的系統訪問權限機制;(4)模塊化:系統采用模塊化設計和面向服務的構架,當監測任務增加、監測站點增加和網絡規模擴大時,通過增加相應的功能模塊,就能方便地擴大監測規模;(5)開放性:采用開放式操作系統、開放式網絡結構及其協議、和開放式的客戶/服務器模式,從而實現充分的資源共享,使平臺具有良好的可移植性。
4 系統軟硬件設計
4.1 物理結構設計
(1)錄音任務下發與回傳服務器:該服務器已到位,負責遙控站錄音文件的采集和回收;(2)衛星參考源采集服務器:負責衛星參考源信號的實時采集存儲;(3)數據庫服務器:負責存儲數據和結果信息,是業務層交互信息的核心存儲區;(4)Web服務器:負責系統頁面的展示;(5)調度服務器:負責數據處理任務的調度,并負責處理結果的回收入庫,負責負載均衡控制,以充分利用計算機集群的計算能力;(6)引擎計算服務器:負責實時對調度器下發的任務進行音頻比對計算,并把計算結果通知調度器;(7)同步服務器:負責運行圖的實時同步,和數據庫信息的同步;(8)磁盤陣列:負責存儲錄音文件和參考源數據。
各個服務器均可為主流機架式計算機物理部署,服務器之間通過千兆局域網互連。用戶業務系統在基于J2EE的Web服務器管理下,實現多用戶并發數據訪問。
4.2 軟件架構設計
廣播監測網語音綜合處理系統的軟件架構采用模塊化設計原則,每個模塊保持一定的功能獨立性,在協同工作時,通過相互之間的接口完成實際的任務,模塊化設計將功能模塊有機地結合起來,在保證正確性和健壯性的基礎上,提高了軟件的可擴展性和可復用性。
系統的軟件架構采用分層邏輯結構,整個系統自下到上分為3層:數據采集存儲層、數據分析處理層、表示層。
4.2.1 數據采集存儲層
數據采集存儲層主要實現三部分數據采集與存儲工作:
各電臺參考源信號的采集與存儲:基于組播技術,給定IP和端口,實時采集幾十套電臺的多語種廣播節目,每套節目每天存儲量約2GB。
中短波調幅廣播的采集與存儲:對接收機輸入一路中短波調幅廣播信號,基于V8指令,在1分鐘內切換頻率進行采集,并把數據存儲到磁盤陣列中。
錄音回傳數據的數據庫存儲:對監測網數據采集系統所回傳的錄音文件進行同步,把文件相關信息,比如文件名、路徑、語言、時長等同步到數據庫中進行存儲,數據庫采用oracle11g,可存儲百萬條數據記錄。
4.2.2 數據分析處理層
數據分析處理層綜合利用固定模板檢索、語音比對、語種識別與確認、音頻分類、音頻質量評估等先進的智能處理技術,通過ESB企業級服務總線,為上層“表示層”的系統業務應用提供中間層的服務支撐。
在本系統中,ESB企業級服務總線封裝了各服務的差異性,使得所有在總線上通信的服務能夠適應于不同的服務使用者,消除了提供中間服務支撐的軟件間的差異性,在很大程度上也為系統將來的功能擴展奠定很好的一個基礎服務平臺,能夠很方便地加入新的音視頻智能處理服務。
另外,“表示層”可通過服務總線調度分布式集群并行計算環境,在分布式集群并行計算環境中進行音視頻內容的智能分析,并將結果輸出給“表示層”進行顯示,用戶可對置信度較低的智能識別結果進行人工編輯審核。
4.2.3 功能模塊表示層
功能模塊表示層負責向數據分析處理層提交任務,通過動態網頁與數據分析處理層進行交互以及數據通信,其中包括提交增加,刪除,查詢,修改,管理等操作,并提供時間軸控件顯示音頻波形數據,以達到輔助人工快速審核計算機智能處理結果的目的。
功能模塊表示層包含的功能子系統主要有:廣播效果智能評估、頻譜收測實時評估。
功能模塊表示層采用C/S架構,以頁面形式將各個功能進行展示,用戶可打開客戶端界面對系統進行登錄和訪問。
5 系統功能流程設計
步驟1:打開并讀取mp3格式的音頻文件,如果文件小于3秒,則報文件錯誤異常,否則進行下一步。
步驟2:把音頻文件以1秒為測試單位,分成語音、音樂和噪聲,并計算其中的音樂比(音樂時長占總時長的比例)、噪聲比(噪聲時長占總時長的比例)和語音時長,同時把語音片段提取出來保存為語音片段文件。
步驟3:根據靜音比例,如果靜音比例很高,則判斷信號為空播,并給出置信度,否則進行下一步。
步驟4:根據噪聲比例,如果噪聲比例很高,則判斷信號為停播,并給出置信度,否則進行下一步。
步驟5:根據信噪比,對音頻文件進行質量評估,得到初始信號質量分數,然后根據音樂比和噪聲比,對分數進行調整,從而得到最終質量分數。
步驟6:對音頻文件進行臺名呼號模板檢索,如果檢索到,則根據該臺名呼號所屬的語種節目得到識別語種和置信度,此時把在步驟2中保存的語音片段文件刪除,清理內存并輸出結果。
步驟7:判斷音頻文件是否是錄音回傳模式,如果是,對錄音回傳模式的音頻文件,判斷音頻文件中的語音長度是否大于10秒,如果是,則查找參考源進行語音比對。
步驟8:如果與各電臺節目比對結果一致,則給出本節目語言及其置信度,否則進行下一步。
步驟9:對非錄音回傳模式的音頻文件,或者未找到參考源的音頻文件,或者比對不一致的音頻文件,判斷音頻文件中的語音長度是否小于10秒,或者語音質量低于3分,如果是則給出話少結果,否則進行下一步。
步驟10:進行語種確認,如果確認結果的第一名與指定語言相對應,則給出語種確認結果及置信度,否則進行下一步。
步驟11:進行語種識別,給出前5名識別語言的候選及其置信度。
6 結束語
目前廣播監測網語音綜合處理系統已基本建設完成,處于試運行階段,系統運行穩定。該系統應用了多項音頻智能處理技術,監測結果可靠,自動化程度很高,值班人員僅需要對低置信度結果進行審核即可,大大減輕了人工工作量。未來隨著監測站點規模不斷增加、語言種類不斷擴大,相信該系統的投入使用,可以大大提高監測工作效率,為安全播出提供有力的技術保障。
參考文獻
[1]L.Lu,H.-J. Zhang,and H.Jiang. Content analysis for audio classification and segmentation. IEEE Transaction on Speech and Auido Processing. 10(7):504-516,October 2002.
[2]Kashino K,Kurozumi T,Murase H. A quick search method for audio and video signals based on histogram pruning [J]. IEEE Transaction on Multimedia,2003,5(3): 348-357.
[3]Haitsma J,Kalker T. A highly robust audio fingerprinting system [C]// Proceedings of International Symposium on Music Information Retrieval . Paris,France,2002: 107-115.
[4]姜洪臣,任曉磊,趙耀宏,等.基于音頻語譜圖像識別的廣告檢索,清華大學學報(自然科學版),Vol.51,No.9,pp 1249-1252,2011.
[5]姜洪臣,鄭榕,張樹武,等.基于SDC特征和GMM-UBM模型的自動語種識別,中文信息學報.Vol.21 No.1,pp 49-53,2006.
[6]R van Zwol,S Rüger,M Sanderson and Y Mass: Multimedia information retrieval: new challenges in audio visual search. SIGIR Forum,41(2),pp 77-82,2007.