王志雄
(國家廣電總局291臺,蘭州 730105)
隨著廣電總局對節目內容監管力度的不斷強化,涉及節目內容的時長監管、播出數量監管,以及節目違規內容發現、節目播出情況的分析和研判等成為了內容監管重要工作。目前,針對廣播電視節目內容的監管建立了一套統一采集、統一存儲、集中處理的軟件監管平臺,能夠對廣播電視節目進行編目與檢索,對視音頻文件進行自動結構化分析并拆分標注形成全天的節目單,為節目內容監管業務提供了技術保障。然而,隨著監管數據的不斷增加和積累,違規節目視音頻及結構化數據呈海量增長,急需提高廣播電視違規視音頻及數據的處理及管理能力[1]。
違規節目內容綜合管理系統旨在提出靈活、可擴展、統一的視音頻多維度描述體系,從空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員等多個維度對視音頻違規內容進行標注,能夠有效的解決數據孤島問題,增強監測數據的統計分析能力。通過自然語言處理技術與人工相結合的方式[2],能夠自動識別并獲取與視音頻節目內容違規相關的違規標簽,進而能夠建立違規標準標簽庫。同時,在違規內容的多維度標簽標引體系的基礎之上圍繞違規標簽建立知識庫,讓違規節目監管工作更加有的放矢。
違規節目內容綜合管理系統基于媒體資料內容多維度描述、存儲與檢索體系,實現廣播電視違規視音頻監管數據更有效的管理,包括違規節目視音頻文件及監看信息匯聚、多維度標注、信息檢索、數據統計及分析管理等主要功能。在此基礎上,通過標簽抽取和信息抽取技術,對違規內容業務庫的構建進行支撐。
違規節目內容綜合管理系統框圖如圖1所示。
違規節目內容綜合管理系統由以下幾個軟件組成:
(1)媒體資源匯聚軟件;
(2)違規節目內容綜合管理平臺;
(3)多維度數據檢索展示系統。
在廣播電視節目內容監管業務中,需要核查數量龐大的廣播電視節目,發現其中出現的虛假廣告、夸張宣傳、有害信息等違規內容,并對違規信息進行高效、準確、及時的研判。在這個過程當中積累形成海量的歷史監管數據,對于違規信息映射、數據檢索分析、視音頻文件管理等工作,僅靠人工錄入及人工數據關聯不現實,并且形成不了宏觀的數據分析。媒體資源匯聚軟件就能解決這個問題,它除了提供基本的監測內容管理標注頁面外,還能夠實現日常違規節目監管任務中視音頻文件與違規描述信息文件(節目播出情況表)的關聯匯聚,并將匯聚數據導入數據庫。并且根據視音頻描述的所屬維度,細化到標簽名稱,將節目播出情況表中信息填入到映射字段中,然后實現監測監管內容批量導入系統,方便廣播電視違規節目的多維度管理、展示,以及宏觀的監測監管數據分析。
媒體資源匯聚軟件如圖2所示。

圖2 媒體資源匯聚軟件
違規節目內容綜合管理平臺建立一定的描述體系以系統化地存放數據,能夠以預先設定好的維度描述體系對數據進行統一描述,按照設定的一級描述維度(空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員)對違規視音頻內容進行詳細描述。上述六個維度都有子維度予以支撐,相當于二級描述維度,可以完全描述違規視音頻節目的有用信息,對于描述信息不足的,可以人工補充。一、二級維度之間均可進行維度描述的編輯管理,實現兩級維度描述之間的相互映射,并完成視音頻的播放以及描述維度的展示。
違規節目內容綜合管理平臺界面如圖3所示。

圖3 違規節目內容綜合管理平臺
違規節目內容綜合管理系統的主要內容均存在數據庫中,除了系統管理人員等維護相關信息外,主要是建立視音頻文件的描述信息并進行分類儲存和展示,可分類編輯和查看空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員等六大維度的信息。其中,空間信息包括國家/地區、省份/直轄市、市、區/縣等級別的信息,可對信息進行配置及管理。視音頻信息包括節目名稱、所屬頻道、節目類別、內容介紹、違規類型、記錄原因等信息,是對違規節目內容的主要研判數據,并且可以根據實際業務需求增加和調整研判項目。時間信息包括違規節目的開始時間、結束時間、視頻時長、日期等信息,均設置為可配置項,即名稱、數據類型都可在后臺配置,兼容文本輸入、日期等類型。采集來源信息主要針對不同的監測監管系統而言,如衛星系統、有線電視系統、廣播監測系統等。監測研判信息包括任務來源、任務類型,主要標明該任務是從上級哪個廣播電視監測監管部門下發的,以及是何種類型的監測監管任務,以便后續的任務歸類和數據分析。監測人員信息包括部門、職位、姓名,用于明確責任。該管理平臺可對視音頻文件點擊播放,并查看視音頻文件的詳細維度描述,如圖4所示。

圖4 多維度信息描述
多維度數據檢索展示系統能夠對存儲的視音頻及其描述信息進行檢索與展示,支持按照省份、廣告類型、任務類型、時間進行檢索,并具備一定的數據統計分析能力。其中,可按照甘肅、青海、寧夏三個省份進行數據檢索及展示,并在節目列表當中顯示相關視音頻文件詳細的違規類型和內容描述。可按照廣告類型進行數據檢索及展示,包括普通商業廣告、購物短片廣告、醫藥廣告、收藏類廣告、招商加盟類廣告、微商廣告,并在節目列表當中顯示相關視音頻文件詳細的違規類型和內容描述。可按照任務類型進行數據檢索及展示,包括付費頻道監看、購物頻道監看、節目內容核查,并在節目列表當中顯示相關視音頻文件詳細的違規類型和內容描述。所有檢索均需進行時間段設置,并可獨立按照時間進行數據檢索及展示。
多維度描述信息檢索與展示如圖5所示。

圖5 多維度描述信息檢索與展示
數據統計分析如圖6所示。

圖6 數據統計分析
廣播電視節目內容監管工作的特點就是類型多樣、數據繁雜、千頭萬緒,例如同一個頻道涉及多種類型的節目,相同的違規情況出現在不同的節目形態當中,不同的業務對應不同的上級主管部門,不同的業務類型有不同的監管要求,不同的業務要在不同的軟件系統上完成,這些都導致廣播電視節目內容監管工作的數據管理非常麻煩,人工操作費時費力。此外,違規節目的違規研判標準和項目也不盡相同,出現的違規情況也千差萬別,這就需要軟件系統對違規信息進行多維度的管理。通過違規節目內容綜合管理系統,監管人員只要對違規節目錄音錄像,進行規范的視音頻取證,并且按照規范完整、詳細地填寫研判信息,最終將研判信息和違規節目視音頻文件匯聚導入,建立相互的映射關系,后續的數據管理工作都由系統完成。目前,違規節目內容綜合管理系統共匯聚違規節目內容描述信息1092條,違規節目視音頻157個。其中,部分違規節目存在重復播出的情況,在此將內容相同的違規視音頻只選取一個進行匯聚管理。通過多維度的管理廣播電視違規節目內容數據,規范了信息格式,提高了工作效率,對于數據的檢索和分析也更加高效,對于違規節目規律性的問題更容易把握,研判工作更加有的放矢。
基于實際工作要求,違規節目內容綜合管理系統進行多維度的監管,按照空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員六大維度進行分類存儲。同時,將敏感詞納入多維度描述體系當中,依托標簽語義體系模型構建基礎關鍵詞庫,建立違規節目內容語義標簽庫,方便數據的檢索。該系統能夠將原先分散式存儲的研判數據按照多維度描述進行匯聚描述、存儲及檢索,可對數據進行深度挖掘分析,完成違規節目研判信息的抽取與沉淀。對不同渠道、不同形式的節目進行長期監管,可以積累豐富的違規節目研判經驗,利用該系統檢索獲得相應歷史數據和研判信息,有對當前業務也有很大的指導作用,利于違規節目研判知識的傳承,監管人員研判能力的提高。目前,對于空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員等六大維度的信息檢索,基本可以覆蓋所有的業務內容要求。面對今后的業務變更,系統也保留了擴展功能,可以人工編輯維度信息,以適應更加豐富的廣播電視節目內容監管要求。
該系統能夠對廣播電視節目內容違規信息及數據進行自動化處理分析,對違規信息及數據進行多維度的統計與展示,為節目內容監管工作起到了有效的支撐。違規節目內容綜合管理系統支持按照省份、廣告類型、任務類型、時間進行數據檢索與分析,并且從總體違規情況、頻道違規情況、節目類型違規情況、時間段違規情況等四個角度進行違規節目數據展示和分析,以達到更加全面的數據分析統計。目前,系統可對已經匯聚的甘肅、青海、寧夏三省廣播電視違規節目進行數據分析,內容涉及日常廣告、付費頻道、購物頻道等任務類型。其中,日常廣告涉及三省衛視頻道、地面電視頻道、廣播頻率,廣告類型包括普通商業廣告、購物短片廣告、醫藥廣告、微商廣告、招商加盟類廣告、收藏類廣告等。付費頻道涉及8個頻道,違規節目信息334條,主要違規情況為播出商業廣告以及在節目中變相發布廣告。購物頻道涉及2個頻道,違規節目信息29條,主要違規情況為夸大商品功能和效果、叫賣式宣傳等。
衛視廣告違規信息統計如圖7所示。

圖7 衛視廣告違規信息統計
違規節目內容綜合管理系統能夠完成視音頻違規內容的資源匯聚、多維度描述、多維度存儲、多維度檢索及數據統計等功能,能夠滿足對視音頻違規節目內容信息的管理、檢索以及數據分析,有利于提高視音頻違規節目的日常監管效率,對準確、及時、全面了解廣播電視違規節目播出情況有很大幫助。