挑戰播客監管新課題適應網絡斗爭新形勢
播客作為一種新興的網上視聽媒體傳播形式,在互聯網視聽節目傳播中占有十分重要的地位,成為廣大網民在線觀看視頻和上傳視頻的主要途徑,但也存在著一些不容忽視的問題。為進一步落實監管職責,加強對播客網站的管理,國家廣電總局2008年4月批復監管中心建設“播客視頻節目監管系統”,以擴大互聯網視聽節目監管范圍,為管理部門規范播客網站視聽節目傳播秩序提供更高效的技術手段。
播客視頻節目監管系統由30多臺搜索機集群服務器,以及業務處理分析服務器、數據庫服務器、存儲陣列、負載均衡、防火墻、交換機等設備組成,包含節目歸類、熱點監控、播客監控、網站監控、影視監管、視頻專題等30個功能模塊。以國內156家重點播客網站為監控對象,根據播客網站的技術特點,在播客視頻節目深度采集、多層次熱點話題聚類、智能化視頻節目歸類、播客影視節目排重和傳播動態分析等技術上進行了創新,解決了播客網站節目數據大規模抓取、視頻熱點自動聚類、播客節目自動歸類、播客發布者管理、影視節目傳播分析等多個技術難點。
該系統實時采集、分析、發現播客網站上最新的視聽節目,對熱點信息進行話題聚類與跟蹤,對播客網站上的視聽節目按照電影、電視劇、動漫、新聞等重點類別進行自動歸類,建立了播客發布者黑白名單,可以及時掌握播客網站上節目傳播趨勢與動態,記錄和下載各類違規節目,跟蹤其擴散范圍與演變趨勢,并能對各類注冊并發布節目的播客進行登記和跟蹤,對播客網站上傳播的影視節目版權信息進行核查。播客視頻節目監管系統在研制了面向播客網站的深度視頻信息采集子系統、播客視頻熱點自動發現技術、面向播客的智能化視頻節目歸類技術、播客影視節目排重和傳播動態分析技術方面,都有創新。
播客具備WEB2.0時代傳媒形態的典型特征,如自主的信息傳播方式,以音視頻為主的信息傳播內容等。從發展軌跡來看,播客發展速度比當年博客更為迅猛,這種新傳媒形態已成為互聯網視頻傳播的主流。網絡視聽媒體在豐富人民群眾的精神文化生活的同時,也存在著為不健康的內容提供了傳播渠道。例如,境內部分網站片面追求經濟效益,無視政府法規,在網絡視聽節目中播放、轉播、鏈接含有色情、暴力甚至反動的節目內容。黨中央和國家領導高度重視信息網絡視聽節目傳播管理工作,對互聯網絡信息安全保障工作提出了更高的要求,明確廣電總局對IP電視、播客和手機視聽節目業務負有監管職責,并多次批示要求“加快完善視聽節目監控中心建設,盡快運作監管體系”,“要加強網絡視頻節目監看,加快完善視頻監看平臺建設,以適應網絡斗爭的新形勢”。
播客視頻節目監管系統于2008年10月開始建設,2009年6月投入運行至今,軟硬件運行穩定,監控范圍涵蓋156家重點播客網站,平均搜索周期小于9小時,已保存節目元信息數量超過9500萬條,音視頻平均遺漏率小于2.2%,熱點排行更新周期小于4小時,首頁內容提取準確率達到100%,保存節目信息重復率小于0.1%。建立了播客網站基礎信息庫、視聽節目庫、視聽節目索引及特征庫等各類信息庫,在“打擊整治網絡淫穢色情等有害信息專項行動”、“六四二十周年專項監控”、“新疆7·5事件”、“國慶六十周年”、“茉莉花革命”等重大專項和日常監管任務中,為總局對播客網站管理提供了大量及時、準確的監管數據,為維護國家信息安全和文化安全,提供了有力的技術支撐手段。
系統設計以國內重點播客網站為監測對象,實時采集和分析網站上的視聽節目信息,發現最新的音視頻節目,對熱點信息進行話題聚類與跟蹤,及時掌握網上視聽節目傳播趨勢與動態;對播客網站上的視聽節目進行歸類,對電影、電視劇、動漫、新聞等重點類別節目進行重點監管;對發現的違規節目進行記錄和下載取證,跟蹤其擴散范圍與演變趨勢;建立播客發布者黑白名單,對在播客網站上登記注冊并發布節目的播客發布者按違規情況進行登記;對已審批播客網站的備案信息進行核查,發現違規情況并自動報警提示;對播客網站上傳播的視聽節目版權信息進行核查,對侵權盜版行為進行記錄;通過建立播客網站基礎信息庫、視聽節目庫、視聽節目索引及特征庫等各類信息庫,初步建立播客網站視聽節目信息數據庫,為播客網站的監管工作提供較為全面、準確的監管數據資料。
基于內容分析技術對熱點和輿情信息進行發現和跟蹤是監管的重點之一。由于網站節目類別多樣,熱點分散,同時視頻信息文本內容少,需要系統具有較強的節目自動歸類和熱點話題聚類能力。針對上述問題,播客視頻節目監管系統
在節目、關鍵詞、話題等三個層次上進行在熱點信息的發現和輿情分析。在節目熱點發現層次,與傳統的基于點擊量絕對值發現熱點節目的方法不同,系統采用了基于節目點擊量和評論時間變化曲線分析,發現熱點節目的策略,取得了很好的效果;在關鍵詞熱點發現層次,基于數據挖掘方法,并充分結合播客節目數據的本身特征,包括標題、標簽、分類、熱度、發布時間等信息,利用關鍵詞在不同時間段內的熱度散布特征,提出了一種面向視頻等短文本數據的熱點關鍵詞發現算法,在系統應用中取得了較好的效果;在話題熱點發現層次,系統使用了一種新的視頻話題檢測算法。采用二部圖模型表示視頻和關鍵詞的雙向關系,通過該模型,視頻不僅可以用關鍵詞表示,也能用作特征以傳播文本信息。通過分析視頻和關鍵詞的關聯結構能減少文本噪聲,基于該模型對視頻進行聚類,能夠有效發現最新的熱門視頻事件。在系統實際數據的測試表明,該方法具有較好的有效性,方法具有一定的創新性。
播客視頻節目監管系統的建立運行,填補了國內對播客網站視頻節目監管的技術手段空白,進一步擴大了互聯網視聽節目有效監管范圍,在面向播客網站的深度視頻信息采集、熱點話題、熱點詞匯、熱點節目分析、智能化視頻節目歸類等方面取得了新的突破,積累了播客發布者黑白名單、播客網站影視節目庫等基礎數據。
該系統從2008年10月開始建設,2009年6月上線試運行至今,監控目標156家,保存各類節目元信息9500多萬條,記錄個人播客信息超過800萬,機構播客1300多個,播客群組1.6萬個,建立了20個大類83個小類的節目分類,包含10000多條電影、電視劇、動漫、記錄片的播客影視節目庫,以及播客網站基礎信息庫、視聽節目庫、視聽節目索引庫及特征庫等播客視頻節目基礎信息庫。
在“打擊整治網絡淫穢色情等有害信息專項行動”、“六四二十周年專項監控”、“新疆7·5事件”、“國慶六十周年”、“茉莉花革命”等一系列重大專項和日常監管任務中為監管工作提供了大量及時、準確的監管數據,并為進一步打擊影視節目盜版源頭,維護影視節目版權,提供了數據基礎和技術手段。
播客視頻節目監管系統實現了對國內156家播客網站上9500萬條視頻節目的有效監管,平均搜索周期小于9小時,音視頻平均遺漏率小于2.2%,熱點排行更新周期小于4小時,首頁內容提取準確率達到100%,保存節目信息重復率小于0.1%。2010年8月26日,廣電總局科技司組織有關專家對播客視頻節目監管系統進行了技術鑒定,鑒定組一致認為該系統具有創新性,填補了國內空白,達到國際領先水平。
播客作為一種新興的網上視聽節目傳播形式,在互聯網視聽節目傳播中占有十分重要的地位,并已成為互聯網視聽節目傳播的主流形式,播客網站視聽節目傳播秩序直接關系到國家文化安全。如今播客視聽節目傳播的發展和監管是全世界共同面臨的新課題,它具有信息海量、傳播形式多樣且不斷更新、受眾人群眾多等特點,僅僅依靠人工手段開展監管工作,根本無法適應網絡視聽節目的發展形勢,這對所有網絡文化的建設者和管理者而言,既是新的機遇,也是新的挑戰。因此播客視頻節目監管系統挑戰了播客監管新課題,適應了網絡斗爭的新形勢。

圖1 系統的軟件架構

圖2系統硬件構成