單懷榮

摘 要:隨著經濟的發展和社會的進步,互聯網視聽節目呈現遍地開花的態勢。互聯網視聽節目監測系統技術也越來越重要。通過介紹互聯網視聽節目監測系統及其相關技術,以期能夠為同仁提供參考。
關鍵詞:互聯網視聽節目;網頁;監測系統;技術
中圖分類號:TP393.02 文獻標識碼:A 文章編號:2095-6835(2014)04-0129-02
1 系統架構及其主要功能
1.1 未審批網站搜索
1.1.1 未審批站點(非法站點)的發現
未審批站點搜索引擎(專用搜索引擎)可以通過互聯網進行全方位、快速的掃描,以發現網絡傳播視、音頻節目的站點。對發現的視、音頻站點,系統要通過統一的接口將信息上傳至信息處理層,處理層對這些信息進行分析和組織后,將站點信息存入中央數據庫中。未審批站點搜索可以將搜索范圍限定在指定領域內(某省份、某地區、某個IP地址段)。以杭州市為例,搜索范圍主要集中在杭州市內,并且能夠略過已通過廣電部門審批可以合法通過互聯網傳播視、音頻節目的站點,最大程度地降低了資源浪費和用戶處理工作量。網站信息包含站點域名、IP地址、物理地址、是否為直播站點等相關信息。
1.1.2 未審批站點節目信息分析
搜索引擎能夠快速地在網絡上搜索信息,智能分析系統可以有效地分析出網站中播放的各種節目的信息,例如,哪些站點提供了直播的節目,站點播放節目的名稱等;也可以對站點進行分類,分析出色情、反動等信息的存在。
1.1.3 未審批站點搜索結果信息審核
提供對信息結果的查看和查詢功能,查詢功能靈活、高效,可根據多種條件進行查詢。對搜索到的各種結果和數據提供修改功能,除了域名IP等固定信息外,都可以通過修改功能進行信息校準,并補充現有信息。
1.2 審批網站搜索
智能分析系統可以分析出網站中播放節目的各種信息;可以對站點靈活分類,識別節目內容是否存在違規情況;可以對節目進行類似的可配置分類。通過搜索引擎,可以準確地發現網站上播放的視、音頻節目。
1.3 重點網站搜索
系統可以對產生影響較大、訪問量較高、節目數量多的視聽網站進行重點監控。監控結果可查看重點網站監控的數據,結果中會顯示網站名稱、網站域名、所在省份、所在城市、節目數等信息。節目信息包括節目標題、節目統一資源定位符(URL)、節目類別、節目網頁快照和節目下載情況等信息。重點網站的信息,可靈活地根據不同條件進行查詢,靈活制訂分類策略,對站點進行分類。
1.4 其他功能介紹
1.4.1 網頁快照
提供基于網頁數據快照的數據取證功能。系統將搜索時發現的視、音頻節目的網頁內容中的有效信息存儲到本地(去掉大量的圖片信息),用戶可以將這些網絡快照作為歷史留存和處罰的證據。
1.4.2 IP地址定位
系統通過國內IP地址信息庫提供準確的非法網站物理地址的定位信息,也可以基于非法站點的域名、IP地址發現網站服務器所在的省份、城市,部分可以精確到提供服務器的公司名稱。
1.4.3 非法站點警告及反饋
系統提供一個簡單的電子郵件自動發送平臺,用戶可以根據需求對情節非常嚴重的站點進行電子郵件警告。同時,系統會提供技術手段記錄警告內容,并且通過日程安排模塊提供警告追蹤和提醒,綜合、全面地進行站點警告、反饋和處理等管理操作,簡化管理流程。用戶可以通過該模塊記錄對網站的警告、網站的反饋和與其溝通的過程,有效了解網絡的歷史遺存問題,掌握第一手管理資料。
互聯網視聽節目系統架構如圖1所示。
2 相關技術淺析
2.1 搜索引擎技術基本原理
2.1.1 網絡爬蟲
網絡爬蟲是基于HTTP協議的網絡應用程序。通過網頁的鏈接地址來尋找網頁,從網站上的某一個頁面(通常是首頁)開始讀取網頁內容,并抽取網頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網頁,一直循環,直到把這個網站所有網頁抓取完為止。
增量式網絡爬蟲是對已下載網頁采取增量式更新或只爬行新產生的、已經發生變化的網頁,有效減少了下載量,減少了時間和空間的耗費,提高了視聽節目監測系統的效率。
2.1.2 索引器
索引器的主要功能是分析收集的信息,按照一定的結構將信息組織成有序文件進行存儲,并建立相應的URL、網頁內容和網頁內容偏移等索引。它主要用到的技術有分詞、索引詞選取、停用詞過濾、索引歸并、索引壓縮、索引更新和倒排文件緩存。
2.1.3 查詢器
查詢器的主要功能是通過用戶接口界面,在本地數據庫中查找與用戶要查詢的內容相匹配的信息,并進行文檔與查詢相關度的計算,將排序結果以一定的形式返給用戶。
2.2 網頁分析技術
2.2.1 視頻網頁搜索和判斷
在互聯網視聽節目監測系統中,搜索引擎的作用就是在網絡上搜尋視、音頻網頁,因為網絡上的數據是不斷更新的,種類也是不斷變化的。搜索引擎首先負責的就是將網絡上各種格式(avi,mp3,ram等)的視、音頻節目的具體信息搜索下來,其中包括網頁地址、瀏覽量、用戶評論和作者信息等。
一般情況下,互聯網部分視頻網站的視頻網頁的URL都有較明顯的規律可循,通過這些規律,可以簡單、快速地判斷網頁中是否包含視頻。例如,土豆網中包含視頻的網頁主要分為兩大類,由單個視頻和專輯中的視頻組成,其網頁URL格式表示如下:
單個視頻:http://www.tudou.com/albumplay/……=.html.
專輯:http://www.tudou.com/list/……=.html.endprint
還有一類視頻網頁有統一的、有規則的網站,通過正則表達式就可以簡單、快速、方便地判斷出對應網站內包含的網頁是否是視頻網頁。以土豆網為例,系統可以使用下面定義的正則表達式進行判斷:
單個視頻:http://www.tudou.com/albumplay/_(.*)=.html.
專輯:http://www.tudou.com/list/_(.*)=.html.
通過網頁的URL,使用上述正則表達式匹配成功,則可以認為該網頁中包含視頻。
2.2.2 網頁內容分析
互聯網上的大部分資源是主要是超文本標記語言(HTML)網頁資源,HTML網頁必須通過網頁分析、處理后才能用于索引和檢索,很多相關的計算都需要解析后的HTML網頁,比如網頁內容相關度計算、關鍵詞頻率計算,等等。HTML網頁的分析和處理,主要是初步完成網頁格式的解析,去掉網頁中顯示格式的控制元素和無意義的標簽信息。網頁中的多媒體、圖片等文件有許多不同的編碼格式, 一般都是通過鏈接的錨文本(即鏈接文本)和相關的文件注釋來判斷這些文件內容的。另外, 還可以通過多媒體文件中的文件屬性了解文件的內容。
系統對網頁內容、編碼、類別等作相應的分析、處理:對網頁內容進行編碼轉換,自動對中文編碼進行識別、轉化,將其他種類的編碼類型轉換成GBK(即漢字編碼“國標”);將繁體字轉換成簡體字;并取頁面的標題、關鍵詞、摘要和其中的超鏈(Hyper Link)等關鍵數據生成摘要。
2.2.3 中文分詞技術
該系統主要采用基于詞典的中分分詞算法、基于統計的分詞算法和基于語義的分詞算法。
基于詞典的中文分詞算法包含三個要素,即分詞詞典、字符串匹配原則和文本掃描方向。詞典匹配法通常作為初分手段,其步驟簡單,易于實現,且可以正確地切分出包含在詞典中的詞語,在現實中被廣泛使用。
基于統計的中文分詞算法是以相鄰的字之間共同出現的頻率或概率作為基于統計分詞方法構建詞的基本依據。
基于語義的分詞算法是把語言學的相關知識加入到分詞規則庫中,它是模擬人腦對語言和句子的理解,達到識別詞匯單元的效果。要建立完整的分詞規則庫還是存在很大困難的,目前這種分詞方法還沒有得到廣泛應用。
〔編輯:白潔〕
Abstract: With the development of economy and the progress of the society, the trend of blossoming over Internet audio-visual program. Internet video monitoring system technology is also more and more important. By introducing the Internet audio-visual program monitoring system and its related technology, in order to provide reference for colleagues.
Key words: internet audio-visual program; web page; monitoring system; technologyendprint