徐 帥國家新聞出版廣電總局哈爾濱監測臺,黑龍江哈爾濱 150089
新時期互聯網視聽節目監管系統建設的思索
徐帥
國家新聞出版廣電總局哈爾濱監測臺,黑龍江哈爾濱150089
隨著互聯網視聽節目的發展,音視頻資源愈來愈豐富,但這其中也隱藏著一些有害信息,而現有的監管系統往往無法快速有效地搜查出它們。針對這種現象,文章提出了一個對現有監控平臺進行資源共享的新思路,重新優化監測方式,實現對所有的視聽節目進行實時快速的自動化抓取分析,將甄選出的少量可能含有不健康信息的音視頻數據交由工作人員進行判斷,并提供這些數據的來源地址,以便更好地打擊網絡犯罪。
互聯網技術;視聽節目;監管系統
隨著現代化社會的發展,無論是人們的生活還是工作都已與互聯網技術密不可分。雖然互聯網技術帶來了極大的便利,但也帶來了不小的隱患,越來越多的不健康信息潛藏在互聯網中,使得互聯網監管成為一個各國政府都不得不面對的問題。早在1977年,美國便頒布了《聯邦計算機系統保護法》,開創了將法制引入互聯網的先河,并在1996年通過了《通信內容端正法》等法律,加強對互聯網通信的限制。然而僅有法律的約束是不夠的,由于網絡環境的特殊性,一些不法分子還是會借助互聯網傳播許多不良信息,給公眾帶來精神上的污染,所以一個能對互聯網信息進行實時甄別處理的監管系統在當下變得極為重要。本文擬建立一個統一監管平臺對互聯網視聽節目進行極速有效地分析處理,實時地將篩選出的不健康的信息反饋給相關部門以便及時處理。
目前互聯網發展日新月異,網絡上每年所更新的內容已經堪比人類歷史所產生的數據的總和,面對如此海量的數據,要識別并處理其中的有害信息便成了一個巨大的挑戰。我國的互聯網監管系統尚處在起步狀態,還有很長的路要走,許多問題急需要解決。
1.1數據標準化問題
隨著互聯網的高速發展,視聽節目由Web1.0的單向傳播發展到Web2.0的互動分享,由最初的B/S模式發展到現在的P2P模式,由最初的專業制作機構主導發展到用戶自己上傳內容,特別是在HTML5標準規范的制定完成后,使得其表現形式及文件類型變得千差萬別,即使同一個音視頻文件在不同的平臺中其表現出來的屬性也可能相差極大,這就導致監管部門不得不根據不同特征類型的音視頻構建單獨的專用監控系統,易造成信息的重復處理,導致極大的資源浪費且可能監管不全。所以,建立一個能將互聯網視聽節目進行統計分析歸類并將其標準化的前端收集整合系統極為關鍵。
作者簡介:徐帥,國家新聞出版廣電總局哈爾濱監測臺。
1.2信息孤島問題
由于監管部門所使用的監控系統不盡相同且相應標準不集中,導致各個監控系統之間難以實現數據共享,從而使得最后匯總的需要人工處理的音視頻數據數量較大。其中,可能不同標準下的多個數據提供的是相同的信息,卻由于不同的監控系統的輸出形式不同,導致需要大量的工作人員對其進行再甄別和處理。
1.3視聽節目內容難以實時全面挖掘問題
1.4部分視聽節目無法訪問問題
部分視聽節目資源隱藏于深層網頁中,深層網頁難以通過普通靜態鏈接直接訪問,只能通過特定的方式進入,例如回復可見、付費觀看等,而這類網站往往是有害信息的聚集之處。現階段的技術無法繞過表層網站設置的訪問障礙直接獲取深層網站中的內容,所以這也會導致網絡監管中出現一些監控死角。
1.5缺乏視聽節目傳播分析功能問題
現有的監控系統由于分析域單一,缺乏對數據來源的統計分析,所以往往只能記錄下幾個孤立的來源地址,無法確定不良信息的具體傳播路徑,導致無法對有害源頭進行有效打擊。且音視頻在傳播過程中會由于傳播平臺的不同導致數據特征發生改變,從而使監控系統不得不提取出每一個音視頻數據文件逐一分析,增加系統的工作量及人工成本。
1.6視聽節目版權監管缺乏問題
由于互聯網分享模式的便捷以及曾經中國人本身對作品版權不甚注重,導致視聽節目正版與盜版魚龍混雜,而現如今的監管系統又難以對版權進行分析。目前隨著互聯網版權問題得到公眾越來越多的關注,對互聯網視聽節目版權的甄別和管理作為監管系統的功能之一勢在必行。
一個完整的監管系統應包括前端的數據收集整合單元,中端的數據綜合分析處理單元以及后端的信息輸出單元。
2.1研發適應互聯網音視頻節目監管工作的搜索引擎
一款適用于互聯網音視頻節目監管工作的搜索引擎是高速有效提取所需的音視頻數據的關鍵,它應具有以下屬性。1)能夠極快地對互聯網上的信息進行檢索,并得到一個準確的結果。2)能夠有效識別關鍵字內容,并將其作為標準進行篩選,去除無用數據。3)能夠對所有域名進行檢索,確保無漏網之魚。4)能夠在確保不遺漏有害信息的同時盡量去除無用信息,減少系統工作量。5)能夠對提取出的有效信息進行整合,將相同信息合并,并分析其傳播路徑,完成對有害信息來源的確定。6)對所有提取出的有效信息進行整理,將其以標準化的格式輸出給下一單元,方便對數據內容的分析。
此搜索引擎可大致分為兩個部分:一個能夠快速有效地抓取相關網頁的音視頻資源的聚焦爬蟲系統;一個能夠快速對比有效信息并進行整合的分析系統。聚焦爬蟲是一種能夠自動爬取網頁的程序,它能根據既定的內容有選擇性地訪問有有用信息的網頁并對網頁上的信息進行有選擇性地提取,減少了抓取無音視頻網頁的時間,極大地提高了工作效率。分析系統需要將聚焦爬蟲提取出來的信息進行相似度分析,將相似度極高的內容進行整合打包并進行傳播途徑分析,并將來自不同網頁的格式眾多的音視頻進行重新的標準化編碼,再輸出給中端的數據綜合分析處理單元。2.2建立互聯網音視頻節目的統一監管平臺

圖1 信息檢索處理層
由于目前監管部門所使用的監控系統不盡相同且不同監控系統間難以實現數據共享,這就使得建立一個標準統一的互聯網音視頻節目監管平臺極為重要。一個統一的監管平臺可以在合理的時間內快速有效的分析處理掉來自前端數據收集整合單元的音視頻信息,并將其中的不良信息甄別出來發送給后端輸出。監管部門的工作人員可以對輸出的信息進行人工識別從而判斷其有害與否,并對其進行最終處理。
這個統一監管平臺可分為三個層面:軟件層面、硬件層面以及管理層面。管理層面包括各個不同地區的監管部門的不同監管系統之間的監測數據共享及監測區域的協調,避免出現多個監控系統同時檢測相同音視頻資源的情況,防止資源浪費。硬件層面是指各自不同的監管部門的硬件實現資源共享,或者說是根據硬件資源的擁有量合理安排監控范圍,以確保能夠實時的對互聯網上的視聽節目信息進行快速甄別,第一時間內消除有害信息。軟件層面是指不同監控系統的輸入輸出形式應統一標準,確保數據能夠快速共享并及時處理。

圖2 監管平臺主體框架
此平臺中還應包括一個或多個能夠實時更新ICP數據庫,從而便于追蹤有害信息來源的現實地址,為打擊網絡犯罪提供方便之門。
3.1搜索技術
3.1.1文本搜索
3.1.2圖像搜索
能夠利用已知的敏感圖像對節目庫中的視頻資源進行特征幀對比檢索,對含有與輸入圖像相似度較高的特征幀的視頻進行提取,并將其發送給分析系統進行再處理,同時對該文件進行定位及傳播途徑分析。
3.1.3音頻搜索
能夠對已知的敏感音頻信息進行聲波特征提取,并與數據庫中的音視頻資源進行聲波相似度分析,并將相似度較高的音視頻提取出來,發送給前端的整合系統,以便進一步分析確認,同時對音視頻的來源進行定位并記錄其傳播路徑。
3.2信息處理技術
3.2.1信息處理系統
信息處理系統基于Hadoop架構,Hadoop是一個能夠對海量數據進行快速分析處理的分布式系統基礎架構,得益于其并行分布的工作方式,它能夠依托在性能普通的硬件上提供快速高效的數據吞吐及處理,其優點包括且不限于高可靠性、高擴展性、高效性、高容錯性及低成本。
3.2.2信息處理任務
信息處理包括以下幾個任務。
1)音視頻資源的采集匯總工作。其主要包括將搜索引擎得到的可能包含不良信息的網站進行全面信息采集,提取其中的音視頻信息及標題、來源等關鍵數據,并將原始數據進行匯總分流處理。
2)有效信息分類。系統采用模糊分類方法,通過對視聽節目所在網頁關鍵信息的分析整理從而對獲得的音視頻進行模糊分類,同時將相同資源的傳播路徑分析記錄下來,并僅保留源文件,減少重復內容,便于下一步的整合處理。
3)音視頻整合。系統將上一步得到的分類信息進行相似度對比,將相似度極高的數據合并或直接舍棄部分,減少需要處理的總數據量。
4)信息重新編碼。將上一步得到的音視頻資源進行數據整理,將不同形式的源文件轉換為便于系統統一分析的單一文件。
3.3視聽節目分析技術
3.3.1音頻分析
將信息處理系統中得到的音視頻文件進行音頻提取,并通過FFT(快速傅立葉變換)將模擬信號轉換為機器可識別的數字信號,對得到的數據進行對比分析處理,最后得到一個可視化的統計數據。3.3.2圖像分析
對視頻中的圖像進行特征幀提取,利用鏡頭邊緣檢測算法對分鏡頭中的多個圖像進行嚴格計算,得到每個鏡頭中最具代表的圖像,并利用信息處理平臺進行分析,最終得到一個可視化的統計數據。
3.4集中監管平臺要深入研究的關鍵技術
網絡監管由來已久,一些關鍵技術已經較為成熟,但還有部分技術尚未成型,所以在建立互聯網音視頻節目的統一監管平臺的過程中應重點建設以下幾個關鍵技術。
1)一個能夠快速有效的對資源進行相似度分析的程序。
2)一個能夠保留原始信息并能將幾乎所有音視頻格式進行從新編碼的程序。
3)一個能夠實時進行數據共享及資源調配的系統。
隨著互聯網視聽節目的快速發展,一個能夠迅速準確監測這些數據的監管系統變得極為重要,集中統一的監管平臺為監管部門提高了效率,共享的數據庫節省了大量資源,而這也為公眾互聯網生活的安全健康打下了堅實的基礎。
[1]錢衛,朱磊.構建互聯網視聽節目集中監管平臺的探索和設想[J].中國有線電視,2011(10):1137-1140.
[2]裴鵬真.互聯網視聽節目監管系統的應用與實踐[J].計算機光盤軟件與應用,2014(4):88-89.
[3]李曉東,王仝杰.互聯網視聽節目監管的關鍵技術及系統簡介[J].廣播與電視技術,2008,35(4):52-54.
[4]葉昆.互聯網視聽節目監管系統簡介[J].大眾科技,2009 (10):11-13.
[5]甄雪嬌,齊忠文,劉博,等.互聯網視聽節目監管系統建設的思索[J].廣播與電視技術,2014,41(z2):60-62.
[6]謝燕燕.互聯網視聽節目監管系統關鍵技術研究及方案設計[J].廣播與電視技術,2015,42(5):120-124.
2096-0360(2016)14-0039-03
G2
A