趙偉 梁曉雁

摘 要:該課題研究過程中,查閱了大量的國內外關于文本、圖片和過濾技術研究的著作、論文和期刊,從理論角度分析了現階段國內外先進技術、實現方式和過濾算法,通過技術驗證和分析,以及實際的測試結果表明了采用協議還原、數據爬蟲引擎進行數據采集分析,使用關鍵字識別匹配、語義圖像識別等技術可實現對互聯網中文本、圖片和視頻信息的過濾。
關鍵詞:網絡 不良信息 危害 過濾
中圖分類號:TN9198 文獻標識碼:A 文章編號:1672-3791(2015)09(c)-0003-02
不良信息過濾系統,設計和實現對信息有效識別和過濾,并為用戶管理員提供進行可視化監控。即用戶和管理員可查看信息保留和過濾不良信息過濾情況。因此,系統切實設計和實現系統分析識別功能和過濾功能,并將采集、分析和過濾的效能進行優化,以達到優良的用戶體現。
1 研究目的
該課題設計基于大數據技術的采集、分析和過濾的不良信息過濾系統,該系統能夠有效識別互聯網中不同分類的不良信息,并根據用戶的需求,可實現對網頁文本內容進行關鍵詞識別,然后對其URL進行相應的處理,完成互聯網不良信息的過濾,其中內容過濾是不良絡信息過濾系統的重點功能。具體的系統設計目標為:
(1) 系統對內容過濾的效率性能要求較高;
(2) 系統除了實現傳統的基于URL、關鍵字等信息的過濾,還實現了通過語義分析對文本內容的智能過濾;
(3) 系統根據互聯網信息的變化情況具有適應性學習的能力;
(4) 系統采用低耦合高內聚的設計方法,將分詞、特征識別和分類算法進行模塊化設計;
(5) 將網頁劃分為多個處理單元,并實現分布式多引擎處理機制。
2 設計與實現
2.1 系統結構
該信息過濾系統的架構采集-分析-過濾-可視化”的架構進行設計,并在這個基礎上滿足業務的可擴展性要求。整個系統包括如下四個部分:
2.1.1 采集系統
通過搜索監測引擎的方式實現基于不良信息規格的數據采集,并將采集內容分裝至采集庫。
2.1.2 分析系統
基于數據清洗和分析技術,對所釆集的數據進行協議還原,包括數據重組,下載網頁或文字、圖片、視頻等信息,并完成內容識別、分析和存儲。
2.1.3 過濾系統
根據分詞規則,通過檢索規則庫等技術,對信息進行過濾,并提供完成格式優化、策略配置和入庫建檔。
2.1.4 可視化系統
負責與用戶的交互、完成審核、報警和報表功能,并包括采集、分析和過濾的配置管理功能。
2.2 系統流程
該系統按照EPC 模型,通過將業務過程中的采集資源、分析資源、過濾資源和可視化資源(系統、組織、數據等),組織設計完成一個能夠完成不良信息過濾任務流程的動態模型。
2.2.1 數據采集
采集的種類分為兩大類,一種是使用互聯網的搜索引擎,根據指定的關鍵字進行相關內容的數據采集,第二種是對指定網站類型的數據進行采集(如博客、論壇、新聞等)。根據這兩大類采集方式,分別執行相應的采集子流程,在采集子流程中根據不同的采集類型執行相應的采集規則,并將采集的數據存入數據庫中。
2.2.2 數據分析
數據分析階段,首先從采集數據庫中獲取數據內容,然后根據數據內容的不同選擇不同的數據分析器,最后進入相應的數據清洗子流程。數據清洗子流程中,根據不同的分析器選擇文本分析法或者內容分析法進行相應的數據清洗,并將清洗后的數據結果存入數據庫中。
2.2.3 數據處理
數量處理階段,首先從清洗后的數據庫中獲取初步處理的數據,然后對該數據根據配置的處理的方式,選擇相應的處理流程。該階段的處理流程主要包括:檢索、分類、聚合等;還可以通過插件的方式對其進行擴展來完成更多的功能。
2.2.4 數據展示階段
主要是通過頁面的形式對數據進行一個有效的展示,更能直觀的表達出數據的作用,包括展現預警信息、負面信息、熱點趨勢等,通過擴展頁面的方式可以增加更多的展示效果。
3 結語
該課題最初的研究是基于研究解決不同不良信息的過濾問題,但是隨著對現狀的分析和工作的難度增加,越來越發現針對網絡不良信息的過濾是一個可以上至關系國家民生,下至老百姓生活的具體防范措施,從而調整工作的步驟,逐步建立可視化監測平臺、規劃不良信息搜集、持續實時監測過濾機制、完成研究報告。這個過程是非常艱辛,其中過很多的迷茫和未知,都是通過檢索和收集大量的相關資料,以及在不斷地部署開發驗證中磨練。其中也體會到了技術改變一切,但是不斷業務需求是驅動,業務剖析和其他手段的輔助也關切到不良信息的成果,這里就涉及到了國內外的法律法規、管理措施、道德約束,這些各自都是一定因素的助力和局限,直接影響著網絡不良信息的現狀。
參考文獻
[1] 叢健.不良信息過濾技術研究[D].北京:北京郵電大學,2012.
[2] 史乙力.基于關鍵詞匹配的網頁文本過濾算法的研究和實現[D].貴陽:貴州大學,2009.
[3] 賈美娟.基于互聯網的不良信息過濾技術的設計與實現[D].哈爾濱:哈爾濱工程大學,2006.
[4] 王銀利.基于啟發式規則和文本分類的信息過濾技術[D].北京:北京交通大學,2007.
[5] 黃勃.基于語義分析的網絡過濾設計與實現[D].長沙:湖南大學,2011.
[6] 林建.網絡不良信息過濾研究[D].武漢:華中師范大學,2007.
[7] 蘇云,馬慧芳.基于Web的信息過濾技術[J].情報雜志,2005,24(5):72-73.