吳慧思
傳統的廣播電視內容管理業務有廣告管理、監聽監看以及動態輿情等,不同的業務建立不同的系統。筆者根據廣播電視監管業務需求以及現有技術的發展,在傳統廣播電視內容管理的業務分類基礎上,整合資源,對傳統的廣播電視內容管理系統做進一步改進和擴展,提出了一套基于微服務架構,集節目識別、廣告識別、新增重復節目識別等節目拆條,輿情處理,人臉識別,節目評議,語音識別于一體的廣播電視內容智能化監管平臺。
系統在框架上采用微服務架構,在業務的基礎上細分功能,分組為各個子功能,不同的子功能就可以分為一個微服務,具有硬件資源可靈活調用、維護簡單以及運行高效的特點。具體架構如圖1所示。
圖1 內容管理平臺架構
系統功能模塊主要由監管業務和平臺管理兩個部分組成,如圖2所示。
圖2 系統主要功能模塊
在一個系統中,會有多個功能模塊,每個功能模塊由多個基礎子功能構成,通常包含幾十個子功能。它們需要通過彼此之間的調用,才能實現各種業務功能,因此基礎子功能之間往往存在著各種交錯的依賴關系。隨著平臺的不斷壯大,代碼規模逐漸變多,各個子功能的調用關系也將趨于復雜和難以維護,甚至還會帶來很多難以跟蹤和調試的錯誤。例如,節目識別、廣告識別以及新增重復節目識別,這三個模塊都使用了消息隊列、高速緩存、數據庫讀寫,若節目識別出現錯誤,消息隊列將會出現卡死的情況,這會直接影響其他功能模塊的正常使用。若能把節目識別、廣告識別以及新增重復節目識別分別安裝在各自獨立的運行環境中,并且對它們各自所需的資源也都封裝在一個相對獨立的環境下,那么任何一個模塊的異常都不會影響到其他模塊的正常運行。
傳統的解決方案是通過虛擬機的方式對環境進行隔離。虛擬機是基于操作系統層面的,因此存在以下缺點:云平臺難以對虛機的各種異常情況進行監控,云平臺不能及時發現虛機的假死、藍屏、程序錯誤等情況;啟動速度慢,一臺虛機需要先啟動操作系統,才能啟動應用程序,因此需要較長的時間,用戶能感受到明顯的業務中斷;資源調配不夠靈活,新建一臺虛機需要許多環節,當業務數據瞬間增多時,無法及時補充計算資源。為此,該系統引進了微服務軟件架構,并以容器為技術實現,能較好地解決以上問題。
容器類似于沙盒技術,其主要目的是通過將應用程序運行在容器中,實現與外界的相對隔離,并通過統一的資源管理平臺對容器進行資源管理。本質上,容器是一個特殊的進程,因此比虛機輕便許多。容器通過名稱空間(Namespace)、控制組(Control groups)、切根(chroot)技術,把資源、文件、設備、狀態和配置劃分到一個獨立的空間。容器的新建和啟動速度通常能達到秒級,而虛機往往需要幾分鐘。容器和虛機一樣,也可以在不同的宿主機器之間遷移,并且遷移速度比虛機更快。
通過容器來構建微服務還帶來以下優點。一是計算環境可移植性較好。由于封裝了軟件模塊所需的內部調用細節,如程序對Java或Python運行環境的依賴,以及對操作系統的特殊配置都封裝在容器中,容器不僅可在Windows與Linux的宿主機上進行移植,還能減少因測試與交付環境的不同而產生的無法預知的錯誤。二是便于版本控制。由于每個容器鏡像都可以進行版本控制,不同的版本分支便于在業務的不同開展階段對微服務的部署做調整。三是提高系統的協同開發效率。由于容器能夠對模塊的跨服務依賴性進行最大的消除,依賴關系的沖突是消耗開發人員生產力的原因之一。通過對系統進行微服務劃分,并對不同的微服務采用不同的容器進行封裝,做到獨立升級。
系統通過音頻分離服務、全天音頻特征提取服務、圖像關鍵幀提取服務等,把從前端采集到的音視頻文件轉換為音頻文件,同時進行圖像提取,按一秒一幀的頻率抽取圖像。對音頻信號加窗處理,獲取短時平穩的音頻信號,轉到變換域后,應用能量準則提取特征,為后續的音頻特征檢索做基礎服務。
1.節目識別。節目識別是把廣播電視的節目按不同類型完整地識別出來,包括新聞節目、專題欄目、電視劇、動畫片等節目識別。將節目按類型完整地標注,避免了后期在進行節目審核時需從海量的廣播電視節目中尋找節目等問題,降低了人工審核節目的難度。一般情況下,同樣的節目,每期的片頭片尾都是相同的,可以根據節目的這一特性,運用技術手段找到節目的播出時間。因為音頻文件占用空間小、音頻特征提取和識別技術已經較為成熟,所以在節目識別方式上使用的是音頻識別。在節目識別中,需要由審核人員手動對節目的片頭片尾做樣本,系統再通過節目樣例音頻特征提取服務提取樣本的音頻特征,形成節目樣本的數據庫。在做節目樣本時,把節目樣本對應的性質同時綁定,即可把對應的節目分類。同時,系統根據全天音頻特征提取服務,對全天的音頻做特征提取。音頻識別程序收到控制中心的識別指令后,檢索相關的廣播電視頻率頻道音頻特征索引文件,匹配對應的樣本音頻特征,最后把識別到的結果標注好并在頁面上呈現。
2.廣告識別。廣告識別主要分為違規廣告、商業廣告以及公益廣告的識別。通過廣告的自動識別和拆分,審核人員可以清晰地看到一天的節目時段,播了什么廣告,在什么時間播放廣告,是否有違規等識別結果,及時了解廣告的播出情況,提高了人工審核的效率。該識別原理主要建立不同類型的廣告樣本庫,根據音頻特征分別去檢索相應的文件,并得出結果。目前,樣本的音頻識別檢索算法發展已經比較成熟,準確率高,識別出來的結果基本可以直接使用,不需要過多人工干預。
3.新增重復節目識別。全天的廣播電視節目中,會有新增的電視劇宣傳片和廣告等,這些新增的素材一般會在當天或者第二天重復播放。利用重復的特點,通過對音頻特征重復遍歷比對的算法,把在廣播電視中重復播放的視頻片段識別出來,幫助審核人員快速準確定位到新增的節目內容。通過審核新增的節目內容,并及時做相應的樣本讓系統去識別和標注,系統自動識別發現新增節目內容和人工維護相結合的方式,提高整個流程的工作效率。因為已有樣本的音頻檢索識別準確率高,所以利用現有節目和廣告的識別結果,在識別時間上,首先可以剔除掉其他服務中已經確定的節目時間,節省了計算資源。同時,通過場景識別模塊,識別出停機時段,在此基礎上再去做新增視頻的識別,提高系統的效率。
4.輿情處理。該業務主要是一些相關內容報道的收集和統計,可以分為三大部分:一是專題報道和宣傳報道,主要是一些重點工作以及熱點事件、突發事件的報道;二是上級廣播電視臺對于地方的相關報道;三是擴展到某一領域或者行業相關的輿情報道。為了實現該業務,首先通過預設節目時間以及節目識別技術相結合的方式,把特定的節目或者時間段截取出來,然后對其進行語音識別技術,把節目的音視頻轉為文字,通過設定專題的關鍵字或者地方的名字等,檢索節目的文本,最終定位到節目中的關鍵字,找到相關的報道或輿情。
5.人臉識別。人臉識別,即對敏感人物自動篩查,可對節目畫面中出現的人物進行更加高效、全面的身份識別。人臉識別功能的實現,大大降低了審核人員的工作量,提高了內容審核的智能化管理水平。目前,人臉識別有兩種方式,一種是通過靜態圖像進行人臉關鍵特征提取來識別,另一種是通過視頻進行人臉識別。系統在音視頻預處理服務中已經提取過圖像關鍵幀,直接運用已經提取好的關鍵幀,可以避免出現視頻識別中計算量較大的情況,從而提高系統的整體運行效率。對于人臉識別,首先對圖像幀做場景識別,剔除掉相似的圖片,對不同場景的圖像做識別,提高資源利用率。
1.審核模塊。可對系統識別出來的結果進行審核、確認以及編輯處理,如包括新聞專題節目時間、廣告、輿情、人臉等識別結果的審核;對節目進行評議;對輿情信息進行剪輯、編輯;按照條件查詢數據,播放識別結果。
2.報表管理。根據不同的業務需求,數據報表主要包括節目報表、廣告報表、輿情報表、違規報表等。可對系統的整體數據做統計分析,自定義時間周期,按年、季、月、周、日等統計數據,形成圖表和報表。圖表和報表可按照常見辦公軟件的格式導出。
3.配置管理模塊。可以在操作頁面對采集站點、頻率頻道、節目等相關信息進行增加、刪除、更改、編輯等操作。
4.日志管理。記錄系統的相關操作,如數據庫的查詢、刪除、發送接口命令等,并進行及時備份,可按時間對日志進行查詢。
5.設備管理。可監控各個微服務的運行狀態,顯示每個微服務的功能、進程,對異常的服務及時報警,及時發現系統運行中的問題,提高系統維護的可易性和便捷性。
6.用戶管理。可以對用戶進行權限管理,可增加、刪除、編輯用戶,對不同的用戶進行分組,分配不同的使用權限,不同的業務用戶掛載不同的業務管理模塊,可形成堆疊。
1.系統在識別算法前期,已經對音視頻文件做了音頻分離、音頻特征提取文件以及圖像幀抽取等,把資源統籌分類,為識別的方式提供了可選擇性。不同業務的識別可根據情況選擇合適的識別方式,提高了系統的靈活性。此外,在計算前期對數據進行統一的碎片化處理,如后續有新業務需要做識別計算,不再需要重新對音視頻做前期處理,可直接進行音頻或者圖像識別,節省了開支,降低了系統開發成本。
2.系統運用了目前較為成熟的識別技術,配備了語音識別和人臉識別服務,提高了監管的智能化水平,節約了人力成本。
3.系統采用了微服務結構,不同的微服務負責不同的子功能,邏輯清晰,且可快速部署,只需要定義良好的接口,就可讓微服務之間進行通信,具有高可用性和擴展性。
1.目前,系統可以對新增重復節目的片段進行識別和標注,在無樣本的情況下,還不能完整地識別一條廣告或一個完整的電視劇宣傳片等。是否可以根據靜音和音頻特征遍歷檢索相結合的方式,或者語義識別的方式去完整地識別一條新增廣告,還需要做大量的測試和計算。無樣例地對節目進行完整拆條,是目前的難點問題。
2.雖然單獨的微服務降低了巨大代碼的開發難度,但是因為涉及微服務之間的編排、處理,需要全局考慮服務與服務之間的關聯,所以增加了整個系統的部署復雜度。此外,由于服務相互的依賴變得復雜,若進行系統測試,要充分考慮服務依賴的強弱、降級、限流等問題,避免出現測試誤差的情況。
不斷加強新技術的更新和應用,探索業務和技術相互推動之路,進一步提升廣播電視內容的智慧化監管水平,把工作人員從海量的廣播電視節目初篩中解放出來,讓審核進入新的時代,是廣播電視監測的挑戰和任務。