摘 要:文章從信息過濾系統的構成、數學模型、系統實現機制、具體項目實施結果等幾個方面對信息過濾技術進行了闡述,具有一定的文獻資料參考價值。
關鍵詞:信息過濾;非法文本;研究設計
1 引言
互聯網上的海量信息,改變了人們的生活方式,給人們的工作、學習、生活帶來了極大便利。但是互聯網所具有的全球性、開放性、交互性、快捷性等特點,使得互聯網上傳播的各種信息魚龍混雜,夾雜著一些不良內容的浮渣,不乏利用主頁、電子公告板、留言板、聊天室等交互式欄目張貼、傳播有害信息、泄露國家秘密的問題;利用電子郵件和短信息發送有害信息的問題;另外相關管理部門由于監管不力,對有害信息不防范、不刪除、不報告,出現管理失控的問題;一些不良信息的制造者不斷變化策略,也給不良信息的防范帶來沉重的負擔。基于互聯網信息管理的這種現狀,互聯網信息過濾技術應運而生了,而且互聯網信息過濾技術也在不斷的更新,因為只有互聯網信息過濾技術不斷更新,才能有效遏制互聯網上的不良信息傳播。
2 信息過濾系統的構成
一個簡單的信息過濾系統應包括以下四個基本部分:信源(Source)、過濾器(Filter)、用戶(User)以及個性化文件庫(Profile)。如圖1所示就是信息過濾系統的一種簡單結構圖。信息過濾器是信息源和信息用戶之間的中介,通常情況下,信源和用戶都不擁有對方的有關知識,使得用戶想要過濾的信息難以被發現。但信息過濾系統通過個性化文件庫使過濾器知曉信息用戶的需求,信源在向用戶提供檢索信息的同時,用戶也可以自己決定是否需要向過濾器發送反饋信息,用以指明哪些信息是不良信息而需要過濾器去過濾掉,使過濾器通過知識學習、調整以更新現有的過濾信息庫表中的內容,形成相關的興趣主題模型。
圖1 信息過濾系統體系結構模型
信息過濾系統主要面對的是半結構化和非結構化的數據,它為信息用戶提供的是長期的信息需求。一般情況下,用戶的信息過濾需求是長期的、相對穩定的、變化較慢的。信息過濾系統將信息和用戶Profile文件進行比較,主動將相關度較高的信息提供給符合該興趣主題模型的用戶。圖2就是這種信息過濾工作的處理流程。
圖2 信息過濾工作的處理流程
從圖2可以看出,首先要對進入的信息進行特征提取,其次同用戶的需求進行匹配、過濾,然后進行反饋與評價,以便使過濾的結果更能接近用戶的需求。
3 信息過濾技術的主要數學模型
信息過濾技術的外在表現就是信息檢索,其數學模型就是信息檢索的一種數學抽象。當前比較流行的數學模型主要有布爾模型、向量空間模型和概率推理模型三種。
布爾模型是三者中比較容易實現的一種,是許多商用檢索系統的理論基礎,該模型是基于集合論、布爾代數的一種簡單檢索模型,但這種模型的準確率和查全率相對較低。
向量空間模型是公認的一種非常有效的檢索模型。在進行信息過濾的過程中,首先對請求的頁面數據進行加工,將頁面看成是一個由m個詞組成的向量P,然后比較向量P和用戶的趣向描述向量D的相似程度。一般情況下采用的方法是取兩個向量的余弦值,根據它們夾角的大小來判斷相似程度,最后再根據比較的相似度值判斷是否過濾掉該頁面。
概率推理模型是通過計算文本和用戶請求頁面之間的相似系數,來判斷用戶請求的頁面是否屬于非法。這種模型應用概率方法,降低了相應的文本排列問題的困難,但增加了存儲和計算資源的開銷,且參數估計難度較大。
總之,后兩種模型的許多性能優于布爾模型,但是布爾模型的效率和速度優于后兩種模型。
4 信息過濾機制的基本思想
信息過濾機制的基本思想是:用戶提供自己感興趣的關鍵字,也叫特征項,由系統生成公共模板,利用搜索代理,獲得相應的信息源。然后確定用戶興趣模板的關鍵字權重和文檔特征項的提取,采用相應的數學模型、運用一定的算法進行信息和模板的匹配,將符合一定閾值的文檔反饋給相應的用戶。
5 信息過濾系統的實施與實驗結果
我們課題組所設計的信息過濾系統包括訓練和過濾兩大模塊。訓練模塊的目的是根據給定的訓練集生成初始的過濾模板,并決定初始的閾值,而過濾模塊則是先將文本流中的文本表示成向量的形式,然后通過學習分類器與訓練過濾模板進行匹配,最后輸出結果。工作流程如圖3所示。
圖3 非法網頁過濾流程圖
6 結束語
互聯網中的非法網頁給人們帶來嚴重的負面影響,而非法網頁中包含的不良信息,存在著不可忽視的危害性。如何從大量的網頁中快速準確地識別出各種非法內容并將其屏蔽,是信息過濾最主要的任務。我們課題組在過濾技術的研究中取得了一點成績,主要包括以下工作:
6.1 結合信息過濾常用技術,設計了基于互聯網的信息過濾系統,該系統采用二級過濾策略,并分成訓練模塊和過濾模塊加以實現。
6.2 提取Web頁面中的正文文本,組成訓練文本集,再對訓練文本集進行預處理,建立成特征詞詞典,用該詞典作為系統的分詞詞典代替通用的分詞詞典,采用最大匹配算法,對訓練文本集二次處理,建立文本的表示。利用特征詞典有效地提取特征項,降低了向量表示的維數,并有效地利用KNN算法對文本進行分類,通過測試數據顯示匹配效果較好。
參考文獻
[1]叢健.不良信息過濾技術研究[D].北京:北京郵電大學,2012.
[2]張綺雯.網絡內容過濾技術的分析與比較[J].科技致富向導,2010(24).