宋文喆
(國家廣電總局291臺,蘭州 730105)
隨著廣播電視節目內容的發展和創新,以及觀眾對高品質節目內容需求的不斷增大,需要對海量的廣播電視節目進行內容方面的監管和核查,杜絕虛假廣告、不良內容出現在廣播電視媒體和節目當中[1]。對于節目內容的監管,需要進行節目時長、數量的統計,違規內容的研判,播出情況的分析,還需將海量的核查信息與對應的視音頻文件建立關聯,方便信息的檢索與分析,實現數據的統一描述和管理[2]。
針對上述情況,本文研究從多維度的角度對視音頻文件進行基于標簽的描述與統一管理,包括空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員等六個維度,完成廣播電視違規節目的多維度描述、多維度存儲、多維度檢索。在此基礎上設計違規節目內容綜合管理平臺,實現視音頻文件的內容描述、存儲、檢索功能,提高廣播電視違規節目內容核查與監管的能力。
違規節目內容多維度描述體系的主要任務是對視音頻文件及其相關聯的描述文件(節目播出情況表)進行處理,讓兩者相互關聯,并批量導入系統數據庫,使紛繁雜亂的數據得到有序管理,為后續的違規節目信息檢索以及數據統計分析做好準備。
具體流程主要包括以下兩部分:
(1)關于違規節目原始數據的預處理,將視頻文件與相關的描述文件(節目播出情況表)進行關聯匯聚并導入數據庫,以預先設定好的六大維度描述體系對違規節目視音頻文件進行統一描述;
(2)關于違規節目統一描述數據的處理,使用數據挖掘技術發現被管理數據的規律、共性特征,以此為基礎建立基于標簽的內容關鍵詞庫,方便對違規節目信息、數據進行檢索及統計分析。
具體處理流程如圖1所示:

圖1 數據處理流程圖
為了更好地描述與利用視音頻節目的信息,建立一定的描述體系對其進行系統化地描述與分類,將從空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員等六個維度進行描述和記錄,實現對違規節目內容的信息管理。六個維度各有子維度予以支撐,相互之間建立映射關系,可以完全描述違規視音頻節目的有用信息,對于描述信息不足的,可以人工補充。根據視音頻描述信息的所屬維度,細化到標簽名稱,將具體節目播出情況表中信息填入到映射字段中,方便將節目播出情況表中內容導入到系統中。
具體的設計方案如下:
(1)空間信息

空間信息國家/地區省份城市其他
空間信息子維度都以列表的形式展示,點擊進入配置界面可進行內容上的管理與維護,包括增、刪、改、查。對于前臺,進行標簽標注時,采用級聯下拉框的形式進行展示,選擇對應的區域然后提交后,系統自動保存數據。
(2)視音頻信息

視音頻信息名稱所屬頻道節目類別內容簡介違規類型記錄原因
視音頻信息是違規節目內容研判的主要信息,要求詳細填寫,以文本輸入類型為主,且字量要設置的盡量大,滿足文本輸入要求。其中,節目類別為廣播電視具體播出的節目形態,如養生類節目、醫藥廣告、購物短片廣告、招商加盟類廣告,付費頻道的專業節目,購物頻道的購物節目等,要包括目前所有的業務形態;違規類型是對視音頻文件研判后的定性結果,是詳細展示的描述信息;記錄原因是廣播電視節目違規情況的具體描述。上述子維度信息均可進行內容上的修改和維護,并且可以根據實際業務需求增加和調整子維度。
(3)時間信息

時間信息開始時間結束時間視頻時長日期
廣播電視節目有大量的重播情況,故時間信息是關聯違規視音頻文件的重要信息。上述子維度均為可配置項,即名稱、數據類型都可在后臺配置,兼容文本輸入、日期等類型。
(4)采集來源
廣播電視節目監管根據任務的不同而采用不同的業務系統,采集來源信息主要針對此情況而設置,如衛星系統、有線電視系統、廣播監測系統等。
(5)監測研判

監測研判任務來源任務類型
其中,任務來源主要是標明該任務是從上級哪個廣播電視監測監管部門下發的,以便后續的歸類和分析;任務類型則包括衛視廣告監看、地面電視廣告監看、廣播廣告監聽等內容。每個任務都會對應不同的任務來源和任務類型。
(6)監測人員

監測人員部門職位姓名
監測人員信息主要用于明確責任。上述子維度均可在后臺進行靈活配置,以方便維護與擴展,兼容文本輸入、日期等數據類型。
在廣播電視節目內容監管中,通過違規敏感詞庫進行節目內容合規性篩查,并且需要較高的完整性和準確性。面對海量的視音頻文件與相關描述信息,需要做大規模的收集和整理,使原本混亂的信息變的有序化,方便違規內容的檢索和展示。基于此需要建立違規內容關鍵詞庫,將敏感詞納入多維度描述體系中,依托標簽語義體系模型,對違規標簽進行語義擴展,實現標簽語義化處理。該系統從違規節目內容六大維度中選取的一些標簽項加入關鍵詞庫,作為違規節目內容的標準標簽,對廣播電視節目內容基于分詞技術進行數字特征提取,利用標準特征庫的并行交叉匹配算法和智能比對技術,提供標準的匹配、比對、檢索的并行接口,即相當于形成一個詞表用以提高非法違規廣播電視節目的檢測的準確度和速度。對于以后新增加的視頻節目信息,如果其導入的內容與關鍵詞庫中相同或者相似,就判斷這個視頻節目也有可能是違規節目。例如將敏感人物的標簽加入到關鍵詞庫當中,與其相應的信息便可方便查詢和檢索,有助于監控特定、潛在的節目違規情況。以六個描述維度以及現有的視音頻節目和描述文件為基礎,以信息抽取、關鍵詞庫構建為技術手段,獲取廣播電視頻率頻道播出的違規節目綜合信息,及時歸納違規節目的總量與分布規律,豐富監管人員在知識儲備、關注領域、研判規律等方面的知識貯備和交流,最大限度地發揮內容資源的優化與共享。當新任務下達時,可以通過查詢關鍵詞庫得到對于特定時間段、特定頻道、特定內容或者是特定廣告類型的統計數據,掌握違規節目的歷史播出情況,對新的監管任務有很大的數據支撐作用。
基于以上體系設計以及廣播電視節目內容監管工作的實際需求,設計完成違規節目內容多維度綜合管理平臺。該系統提出靈活、可擴展、統一的視音頻多維度描述體系,從空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員等多個維度對視音頻違規內容進行標注,后臺提供以Tab頁的形式切換展現不同維度的標注信息項,用戶可以隨時保存輸入的內容,能夠有效的解決數據孤島問題,增強監測數據的統計分析能力,也是后續建立違規節目內容關鍵詞庫的基礎。通過自然語言處理技術與人工相結合的方式,能夠自動識別并獲取與視音頻節目內容違規相關的違規標簽,進而能夠建立違規標準標簽庫,讓違規節目監管工作更加有的放矢,有效提高對廣播電視違規節目內容的監管能力。
違規節目內容綜合管理平臺如圖2所示。

圖2 違規節目內容綜合管理平臺
其中,視音頻界面展示違規節目視音頻文件,規范文件命名規則為“頻道名稱+日期+開始時間+節目名稱”。廣播電視會有大量重播,而且相同節目會在不同頻道播出,通過文件命名的四個信息的交叉驗證,可以將視音頻文件和相關的違規節目描述信息建立對應的映射關系,確保數據關聯正確。監管人員可在搜索框檢索需要的視音頻文件,并且能夠播放相應視音頻,點擊相應條目數據上的“維度描述”可查看該違規節目六個維度的詳細描述信息,如圖3所示。

圖3 多維度描述信息
此外,內容項管理界面可顯示所有數據庫當中的違規視音頻文件以及相應的描述信息,每一行代表不同的違規視音頻文件以及相應描述信息。點擊“維度描述”同樣可查看上圖所示的該違規節目詳細維度描述信息。同時,還可將鼠標滑動到某行數據條目上,系統自動彈窗顯示違規節目詳細維度描述信息,如圖4所示。

圖4 內容項管理界面
通過對廣播電視不同渠道、不同內容進行監管,監測人員的工作時間越長,處理的違規內容節目越多,就越能累積相應的違規判斷經驗,這些經驗能夠對今后的工作有效指導,提高監測效率。對違規視音頻節目內容多維度描述體系的研究,有助于高效管理現有的違規節目,對于違規視音頻從空間信息、視音頻信息、時間信息、采集來源、監測研判、監測人員這六個維度來展示其詳細信息,實現對違規節目內容的監控管理功能。將以往以文件形式分散存儲的獨立數據,通過數據匯聚將上述數據按照多維度描述進行匯聚、統一描述并存儲,能夠對上述數據進行深度挖掘分析,從而進行違規監測知識的抽取與沉淀。