王瑋
(貴州省廣播電視監測中心,貴州 貴陽 550002)
廣播電臺是一種重要的傳統媒體,在宣傳黨和政府的相關思想、政策方面發揮著重要作用,廣播電臺播出的內容日益呈現出多樣化、開放性的特點,這就給其安全性帶來了很大的隱患,如果在節目播出過程中出現違規不良信息、導向偏差、低俗化娛樂化傾向等問題,勢必會在廣大收聽人群中產生不良反應,造成惡劣的社會影響。
目前,貴州省每年全省廣播節目播出時長約22 萬小時,平均每天播出廣播節目約600 小時。節目量大、覆蓋面廣、內容繁雜,個別廣播節目存在“三俗”現象;違規醫藥、金融廣告等夸張虛假宣傳;違規傳播不法政治傾向、淫穢色情等內容的現象時有發生。因此,貴州省廣播電視監測中心也意識到自己的職責所在,提出利用先進的科學技術,加強對廣播節目內容和質量的監督,積極從多個方面采取有效措施加強安全保障,防止在廣播播出過程中出現問題節目,促進廣播電臺的健康、穩定發展,保障廣播電臺的安全播出,引導社會大眾形成正確的價值觀和道德觀。
語音識別技術,也被稱為自動語音識別(automatic speech recognition,ASR),其目標是將人類的語音詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。通俗地說就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術,也就是讓機器聽懂人類的語言。
語音識別技術發展至今,共4 個階段。第一階段是萌芽階段源于AT&T貝爾實驗室的Andry 系統,它可實現十個英文數字的識別。第二階段是技術突破階段(20 世紀80 年代),HMM 模型在語音識別中的成功應用及人工神經網絡在語音識別中的研究進一步推動了語音識別研究工作。第三階段是產業化階段(20 世紀90 年代到21 世紀初),微軟利用基于上下文相關的深度神經網絡-隱馬爾科夫模型對大詞匯量語音識別的研究成果,對語音識別系統的原有技術框架進行了徹底改造,語音識別技術進入新時代。第四個階段是快速應用階段(2010年至今),如今語音識別技術已經運用于各類通信、生活服務終端,國外微軟、谷歌、蘋果公司研發投入各自的移動終端虛擬語音助手;國內百度、搜狗、訊飛等均聲稱的語音識別系統性能達到97%。這些均標志著語音識別技術已經成熟。
監測中心已有一套廣播內容監審系統,但該系統并沒有利用人工智能技術對廣播節目內容進行監管,導致絕大部分監聽監測工作需要人工的參與。目前,監測中心已將貴州省市(州)級以上主要自辦廣播節目25 套(省臺7 套,市州18 套)納入監聽監測范圍,對各級播出單位廣播節目每天近600小時數據量進行監聽監測,要及時發現問題,找出違規內容,這個工作量對于監測中心有限的工作人員來說,是一個不可能及時完成的任務。我們急需一個高效可靠的解決方案。
無論是從監審的質量還是速度上來看,監測中心當前的監聽監測效率都有待提高。因此急需在監測工作中應用智能語音識別技術建立完善的監管體系,系統的覆蓋本地資源,自動完成分析、分解工作,工作人員可在系統內查看與審查敏感詞,整個過程與原始音頻關聯,同時,系統基于預設的告警信息,自動對音頻流進行監控報警,不僅提高監管的質量,更加提高效率。
語音轉寫與說話人無關,為自助語音終端提供連續語音識別功能。針對語音識別應用中面臨的方言口音、背景噪聲等問題,基于實際業務系統中所收集的涵蓋不同方言和不同類型背景噪聲的海量語音數據,通過先進的區分性訓練方法進行語音建模,使語音識別在復雜應用環境下均有良好的效果表現。
語音轉寫系統應具備的特性:
1.支持常見語句聽寫
語音識別對于日常使用的常用對話有著很高的識別準確率,包含短信類、生活、交通、娛樂、科技、數字數值、名人、互聯網熱詞、新聞等領域;
2.支持中文標點智能預測
語音識別使用超大規模的語言模型,對識別結果語句智能預測其對話語境,提供智能斷句和標點符號的預測;
3.端點檢測
端點檢測是對輸入的音頻流進行分析,確定用戶說話的起始和終止的處理過程。一旦檢測到用戶開始說話,語音開始流向識別引擎,直到檢測到用戶說話結束。這種方式使識別引擎在用戶在說話的同時即開始進行識別處理;
4.噪音消除
在實際應用中,背景噪聲對于語音識別應用是一個現實的挑戰,即便說話人處于安靜的辦公室環境,在語音中也難以避免會有一定的噪聲。語音識別系統應具備高效的噪音消除能力,以適應用戶在千差萬別的環境中應用的要求;
5.大詞匯量、獨立于說話人的健壯識別功能
滿足大詞匯量、與說話人無關的識別要求。產品可以支持數萬條語法規模的詞匯量;并能適應不同年齡、不同地域、不同人群、不同終端和不同噪聲環境的應用環境;
6.置信度輸出
置信度反映了識別結果的可信程度。語音識別引擎可以在返回識別結果時會攜帶該識別結果的置信度,應用程序可以通過置信度的值進行分析和后續處理;
7.針對識別結果能夠進行二遍智能糾正
針對語音識別第一次識別錯誤的結果,能夠根據陳述人后面說話的識別結果對第一次的錯誤結果進行糾正,從而表明系統具備自主學習的能力;
8.效果優化
為保障識別效果,在語音轉寫服務自身識別能力基礎上,通過采集到的數據資料,利用學習服務不斷迭代優化行業模型,進行語音模型庫的更新,用于提升語音轉寫引擎的整體效果。通過統一采集、收集智能語音轉寫服務存儲上的非結構化和結構化數據,分析和篩選出其中特定或有特色文本數據,通過用戶判斷學習內容自動提取特征并輔助專業化工具標注,以調整語音識別和語音合成的模型參數,使其獲得更好地語音識別效果。通過訓練的音頻、語料等數據,不斷完善擴大訓練數據,根據業務系統的識別模型資源需求,提供相應模型資源。
1.基礎支撐層,包含:計算資源、存儲資源、網絡資源、安全資源。
2.核心能力層,包含:中文離線轉寫、智能斷句、標點預判、噪聲消除、端點檢測、文本篇章級優化配置、語氣詞過濾配置。
3.平臺層,包含:統一身份認證、統一用戶管理、用戶中心。
4.應用層,包含:節目管理、自動拆條、影視頻轉碼、語音轉寫、機器研判、人工復審、評議管理、信息檢索、報表管理、日志管理、敏感庫管理、消息推送。
5.用戶層,包含:廣播監測部門人員、其他部門人員。
廣播內容監審系統是基于AI 智慧媒體云平臺建立的,整個云平臺為一個整體基礎服務框架,作為語音轉寫等能力的調用基礎。對外提供穩定高效的服務,并具備擴展性、可伸縮性和高可用性。

從部署架構上看,系統分為智能監審系統服務器、代理服務器、統一管理平臺服務器、數據庫服務器四個部分,各部分功能描述如下:
1.智能監審系統服務器:包含兩臺中文離線轉寫引擎服務器,主要用于部署中文離線轉寫引擎。
2.代理服務器:提供安全服務功能。
3.統一管理平臺服務器:用于對統一身份認證、系統管理等功能進行服務。
4.數據庫服務器:主要用于對監審結果進行存儲。
貴州省廣播節目監管系統核心功能就是利用中文離線語音轉寫技術對廣播節目中的語音部分內容進行處理,將音頻信息轉換成文字信息,并利用敏感庫對轉換后的文字信息做機器研判處理。
廣播內容監審系統主要包含以下幾大模塊:廣播節目管理模塊、研判監管模塊、評議管理模塊、信息檢索模塊、報表管理模塊以及系統管理模塊。系統可支持對監測中心所監管的廣播數據的監審,可支持機器自動化研判結果,可支持人工審核,可支持周期性自動化出具分析報告。
系統建成后通過語音轉寫、敏感詞比對等技術,幾小時的節目數據在人工智能技術的輔助下僅需十幾分鐘即可提供研判分析結果,工作效率提升數倍,極大地提高了監測中心對廣播節目的監管效率,也不需要額外再增加人員進行人工監聽,為單位節省了不必要的開支。
對貴州省廣播電視監測中心從更廣闊的層面來看,也提升了社會效益。首先,系統能夠加快推進工作方式的改造提升,保障廣播節目安全播出,響應國家廣電總局關于進一步強化安全播出責任意識的要求。其次,隨著社會經濟發展,人民群眾日益增長的多層次、多樣化的文化生活需要,對廣播傳播內容提出了更高要求,廣播節目必須承擔起社會責任,著眼于受眾的需求,用優秀的節目去引導大眾。同時要求各級播出機構也要恪守節目內容必須始終堅持正確的政治方向,牢牢把握正確的輿論導向,堅持團結穩定鼓勁、正面宣傳為主的方針。發揮主流媒體的引領作用,努力構建一個純凈、和諧的播出環境,打造立體多樣、豐富生動的廣播節目創新集群,為新時代新征程營造良好輿論氛圍,實現經濟效益與社會效益的雙贏。