司凱威
(國家廣播電視總局二九三臺,河南 451162)
媒體融合進程的加快和網絡基礎設施的完善,互聯網電視機和機頂盒、智能投影、電視棒、VR 電視、AR 電視等終端走進千家萬戶,成為廣大人民群眾收聽收看視聽節目的重要途徑之一。新冠肺炎疫情爆發以來,阿里等互聯網巨頭推出大量具有價格實惠、接口豐富、操作簡便、觀看體驗好等特點的產品。華數TV 等互聯網電視平臺積極開辟抗疫專欄,增加優秀影視劇、動畫片、紀錄片等視聽節目供給,極大地提升了互聯網電視的覆蓋范圍和影響力。截至2020年6月,我國互聯網電視終端激活數量已達2.6 億臺,用戶超過6.11 億人[1]。在資本和技術的共同驅動下,互聯網電視憑借節目存量多、更新速度快、操作簡便、智能化程度高等優點,不斷擴大覆蓋人群和影響力。與此同時,個別不法分子為謀取商業利益,趁機傳播色情、低俗等違規視聽節目。
為引導行業規范健康發展和防止違規視聽節目傳播,國家網絡視聽管理部門頒布了《專網及定向傳播視聽節目服務管理規定》、《持有互聯網電視牌照機構運營管理要求》等規定,要求互聯網電視不得傳播宣揚暴力犯罪、危害社會公德、損害未成年人身心健康等視聽節目。相關規定的及時出臺和嚴格落實,給互聯網電視節目合規化運營指明了發展方向。面對海量的視聽節目,原有的人工操作遙控器的工作方法[2],存在勞動強度大、監看周期長、數據統計難度大、節目變動發現滯后、通信數據分析專業性強等問題,難以適應監管工作要求。實踐發現,互聯網電視終端存在遙控器控制接口不一致、播控平臺EPG 版本多、視聽節目存量大且更新快、部分終端通信數據加密等情況,也為監管工作帶來了新的挑戰。
本文提出利用控制主機、多功能控制器、HDMI數據采集卡、鏡像交換機、服務器等設備構建通用型的終端監管平臺[3]。利用ADB、XPATH 和PYSHARK等功能包,研發具有終端控制、音視頻和通信數據采集、節目信息處理和內容研判、監看結果存儲和發布等功能的應用軟件,以探索建立適應媒體融合要求的互聯網電視智慧化監管新模式。
為滿足對市場主流的互聯網終端的自動控制、音視頻和通信數據采集、節目信息處理和內容研判、監看結果存儲等需求,互聯網電視節目監管系統硬件部分主要包括控制主機、多功能控制器、HDMI 采集卡、無線路由器、鏡像交換機、圖像識別服務器、數據庫服務器、HDMI攝像頭等設備,如圖1所示。

圖1 系統結構示意圖
監管對象主要包括互聯網電視機和機頂盒、智能投影、電視棒、VR 電視、AR 電視等終端。伴隨著媒體融合進程的縱深發展,目前境內電子市場上主流的互聯網電視終端一般是運行在安卓及衍生系統上。人機交互接口一般都包含有開關機、方向、確認、返回等。基于上述技術特點,可以構建通用的終端自動控制系統。
控制模塊主要包括控制主機、多功能控制器等設備,通過命令控制互聯網電視終端開關機、方向切換、確認、返回等操作。利用安卓系統調試工具ADB,可對運行安卓及衍生系統的終端設備進行控制。該種控制方式具有適用范圍廣、操作簡便、響應及時等特點,但需要掌握遠程調試模式的開啟方法。對于設置有紅外遙控裝置的終端設備,可以通過與控制主機連接的多功能控制器進行控制。多功能控制器是帶有紅外收發器的單片機開發板,與控制主機之間通過RS232 接口進行互聯,與互聯網電視終端通過紅外信號進行通訊。該種控制方式具有操作簡便、反饋及時等優點,但同時操作多個終端時容易發生信號錯亂。
音視頻數據采集模塊主要包括HDMI 數據采集卡、攝像頭等設備。對于帶有HDMI 輸出的機頂盒,通過線纜與HDMI 數據采集卡直接進行連接。對于電視機、智能投影等不具有HDMI 輸出的設備,則通過HDMI攝像頭與采集卡進行互聯。
通信數據采集模塊主要包括無線路由器、鏡像交換機、無線網卡等設備,用于采集被控終端的通訊數據。智能終端通過WIFI 連接無線路由器。鏡像交換機的下聯接口連接無線路由器,監控口連接控制主機的千兆網卡,上聯口連接互聯網。
數據分析模塊包含有圖像識別、音視頻識別、頁面解析、通信數據解析、任務調度等服務器。為利用最新的違規內容識別算法和降低軟件開發的難度,系統遠程調用某互聯網運營商提供的服務接口,對色情、低俗等內容進行識別。為充分利用服務器的計算、網絡、帶寬資源,將相關的應用部署在虛擬化服務器上。
數據發布模塊主要是包括數據發布服務器、磁盤陣列和數據庫服務器。為確保音視頻和通信數據的存儲速度,采用了高性能的磁盤陣列。為長期保存配置參數、監管結果等信息,使用了支持并發操作的MYSQL數據庫。
為全面排查互聯網電視終端的點播節目、直播頻道、應用程序的傳播情況和變化情況,實現終端的自動控制、音視頻和通信數據的實時采集、關鍵數據的智能提取與分析等功能,并兼顧系統的可擴展性和維護性,該系統可以分為數據源、控制與采集層、存儲與處理層、業務應用層,如圖2所示。

圖2 系統軟件組成示意圖
數據源層主要是為系統控制和數據采集提供必要的硬件和軟件環境。為兼容互聯網電視機、機頂盒、投影設備、電視棒等多類型的終端,利用面向對象編程技術將控制開關機、方向、確認、取消、菜單等操作的ADB命令和多功能控制器的操作命令進行封裝。
控制部分主要是根據用戶設定對互聯網電視終端進行實時控制。設備管理模塊提供生產廠家、系統類型、控制模式、網絡設置等終端基礎數據的管理服務。操作命令設定模塊提供終端操作命令的學習、修改、存儲等方法。為擺脫對遙控器的依賴和長期保存控制命令,將終端操作命令存儲到數據庫表中。為簡化控制命令的有效性,操作錄制模塊提供控制命令的測試功能和操作流程的驗證功能。為避免終端長時間運行造成宕機和確保通信數據采集的完整性,終端需要在每次使用前重啟和運行中設置合理的等待時間,并且利用采集功能進行監控。
數據采集部分主要是實時采集互聯網電視終端的音視頻、通信數據、布局文件、故障報警等數據。音視頻采集模塊通過調用HDMI數據采集卡的驅動程序,將音視頻文件保存成帶有時間戳MP4格式的文件。通信數據采集模塊調用網絡數據采集軟件WIRESHARK對指定地址的通信數據進行采集,以獲取IP、域名、下載地址等信息。布局文件采集模塊通過ADB命令獲取頁面布局等關鍵信息,以減少對文字識別軟件的依賴,確保節目信息的準確性。故障報警信息采集模塊主要是獲取控制和采集設備和程序發出的異常數據。
數據處理部分主要是將采集到的數據進行信息提取、識別和統計,以獲取所需的點播節目、直播頻道、應用程序的名稱、音視頻、圖片、IP、域名等信息。通信數據采集模塊通過調用WIRESHARK 的過濾命令和分析命令,以獲取IP、域名、下載地址以及必需的數據文件。頁面分析模塊通過針對點播節目、直播節目、輪播節目特點分別進行設計處理規則,以獲取直播節目名稱和截圖、點播節目的名稱和劇集等、應用程序的信息和下載地址等。為避免相關要素的干擾,在軟件中可以定義文字識別的區域,對于特定位置的圖片進行識別。音視頻處理模塊通過調用互聯網服務提供商的功能接口,分析節目內容是否存在低俗、色情等違規內容。
數據存儲模塊主要是將控制文件、音視頻、通信數據、應用程序等數據進行存儲并建立相互之間的對應。為方便文件進行存儲,將音視頻文件打上時間戳,并用生成時間對文件進行命名。通過在MYSQL數據庫中建立一對一、一對多、多對多映射關系,確保監管數據之間的對應聯系。將終端控制代碼、設備名稱、生產廠家、節目、頻道的信息變化等信息分門別類的存儲在相應的數據庫之中,以便于長期的分析和使用。
監管數據部分提供點播節目、直播頻道、應用程序相關數據的人機交互接口。點播節目模塊提供終端EPG 信息、節目數量、節目時長、節目鏈接地址、熱度變化等情況管理功能。通過對點播節目的比較可以區分出播控平臺的EPG 數量。為定期分析點播節目的變化情況,系統提供了新增節目的統計和監看功能。在對點播節目分析的過程中,提供點播節目連接服務器通信數據的查詢過程。直播頻道模塊提供頻道數量、頻道EPG、頻道變化、頻道運行圖等信息的查詢功能。因直播節目具有較強的瞬時性,系統在提供音視頻觀看的同時,提供截圖數據的查詢功能,以便快速瀏覽。應用程序模塊提供應用程序信息、下載地址、版本信息、下載數量等數據。
任務管理部分主要是提供系統監控、設備管理、任務管理、調度管理、關鍵字管理、原始數據管理等功能。為了長期分析相關模塊的運行狀況,均在數據庫中建立了相應的表格。
通過建立全新的互聯網電視監管工作流程,實現對主流互聯網電視終端的信息錄入、任務設定、設備控制、數據采集、內容識別、數據存儲、結果發布等操作,如圖3所示。

圖3 系統流程圖
(1)參數設定:將設備生產廠家、軟件版本、生產日期等相關信息錄入數據庫。按照互聯網電視終端的接口類型選擇合適的控制模式、設定數據采集對應的欄目名稱和任務名稱。
(2)終端控制:利用互聯網電視終端模擬器對控制命令和響應情況進行驗證。為提升工作效率,采用操作錄制的功能,完整記錄操作的步驟。
(3)音視頻采集與處理:利用HDMI 數據采集卡對音視頻數據進行采集和ADB 命令獲取布局文件。利用信息提取技術獲取節目的名稱、集數、熱度、圖片等相關信息。經過關鍵詞比對后,將疑似違規的內容調用違規內容識別算法,進而得到點播、直播、應用程序、違規內容以及預警信息表。
(4)通信數據采集與處理:利用網卡獲取互聯網電視終端與播控平臺服務器之間的數據。通過運行指定的過濾命令提取IP、URL、EPG、音視頻等數據,進而生成節目服務器、鏈接地址、EPG等相關信息。
(5)數據發布:通過人性化的交互界面向操作人員提供點播節目、直播頻道、應用程序的整體情況和變動情況,并提供相關數據的下載服務。
(1)終端控制技術
利用主流互聯網電視終端運行在安卓及其衍生系統的特點,通過向互聯網電視終端指定的端口號發送ADB 命令,模擬遙控器進行方向、菜單、確認、返回等操作。以遙控器的向上按鍵為例,通過TCP端口傳送命令“adb shell input keyevent 19”,即可實現向上滾動。只需按照規定更改后面的數字,可以實現開關機、切換、確認、返回等操作。實踐證明,該種操作方式具有適用范圍廣、實時性強、命令簡單等優點,其難點在于打開遠程調試的方法。
(2)通信數據提取技術
針對提取EPG、圖片、IP、域名等信息的需求,利用python的第三方支持包PYSHARK遠程調用網絡數據捕獲軟件WIRESHARK,捕獲控制主機上指定IP的通信數據,過濾解析所需的信息。以提取JPG格式的圖片為例,使用“http.request and!((http.request.full_uri matches"http://.*.jpg.*"))”即可得到所有JPG圖片的鏈接地址。實踐證明,該種方式具有通信數據捕獲及時、信息內容豐富、解析規則通用性強等優點。
(3)關鍵信息解析技術
為減少對圖片識別文字識別功能的依賴和提升關鍵信息識別的準確性,基于點播節目、直播頻道、應用程序等信息按照一定規則在互聯網電視終端上展示的事實,通過ADB命令獲取XML格式的文件后,使用XML文檔查找工具包XPATH進行數據提取。以提取某終端的節目名為例,輸入“tv_names=driver. find_elements_by_xpath(r′//*[@resource-id="com.youku.phone:id/yk_item_title"]′)”,可實現對點播節目名的查找。該種數據解析方法具有配置靈活、操作簡便等優點。
(4)數據管理技術
為方便對節目、圖片等相關信息的管理,借助DJANGO數據庫的建模技術,在數據庫表之間建立一對一、一對多、對對多的映射關系,以便于聯合查詢、反向查詢等操作。
為適應媒體融合帶來的新變化和落實網絡視聽主管部門的新要求,通過搭建通用型的終端監管平臺和研發具有自動控制、采集、處理、存儲、發布等功能的應用軟件,實現互聯網電視節目的智慧監管系統。實踐證明,該系統不僅在終端控制、數據采集與處理、數據分析等方面具有明顯的優勢,還降低了勞動強度和操作難度,探索出了一條在媒體融合背景下互聯網電視節目智慧化監管的新模式。下一步,將重點研究互聯網電視終端節目傳播的新規律和新業態,挖掘系統的潛在價值。