基于互聯網信息過濾技術的研究與設計

2013-12-31 00:00:00劉冬彥李婷李巖

科技創新與應用 2013年14期

摘要：文章從信息過濾系統的構成、數學模型、系統實現機制、具體項目實施結果等幾個方面對信息過濾技術進行了闡述，具有一定的文獻資料參考價值。

關鍵詞：信息過濾；非法文本；研究設計

1 引言

互聯網上的海量信息，改變了人們的生活方式，給人們的工作、學習、生活帶來了極大便利。但是互聯網所具有的全球性、開放性、交互性、快捷性等特點，使得互聯網上傳播的各種信息魚龍混雜，夾雜著一些不良內容的浮渣，不乏利用主頁、電子公告板、留言板、聊天室等交互式欄目張貼、傳播有害信息、泄露國家秘密的問題；利用電子郵件和短信息發送有害信息的問題；另外相關管理部門由于監管不力，對有害信息不防范、不刪除、不報告，出現管理失控的問題；一些不良信息的制造者不斷變化策略，也給不良信息的防范帶來沉重的負擔。基于互聯網信息管理的這種現狀，互聯網信息過濾技術應運而生了，而且互聯網信息過濾技術也在不斷的更新，因為只有互聯網信息過濾技術不斷更新，才能有效遏制互聯網上的不良信息傳播。

2 信息過濾系統的構成

一個簡單的信息過濾系統應包括以下四個基本部分：信源（Source）、過濾器（Filter）、用戶（User）以及個性化文件庫（Profile）。如圖1所示就是信息過濾系統的一種簡單結構圖。信息過濾器是信息源和信息用戶之間的中介，通常情況下，信源和用戶都不擁有對方的有關知識，使得用戶想要過濾的信息難以被發現。但信息過濾系統通過個性化文件庫使過濾器知曉信息用戶的需求，信源在向用戶提供檢索信息的同時，用戶也可以自己決定是否需要向過濾器發送反饋信息，用以指明哪些信息是不良信息而需要過濾器去過濾掉，使過濾器通過知識學習、調整以更新現有的過濾信息庫表中的內容，形成相關的興趣主題模型。

圖1 信息過濾系統體系結構模型

信息過濾系統主要面對的是半結構化和非結構化的數據，它為信息用戶提供的是長期的信息需求。一般情況下，用戶的信息過濾需求是長期的、相對穩定的、變化較慢的。信息過濾系統將信息和用戶Profile文件進行比較，主動將相關度較高的信息提供給符合該興趣主題模型的用戶。圖2就是這種信息過濾工作的處理流程。

圖2 信息過濾工作的處理流程

從圖2可以看出，首先要對進入的信息進行特征提取，其次同用戶的需求進行匹配、過濾，然后進行反饋與評價，以便使過濾的結果更能接近用戶的需求。

3 信息過濾技術的主要數學模型

信息過濾技術的外在表現就是信息檢索，其數學模型就是信息檢索的一種數學抽象。當前比較流行的數學模型主要有布爾模型、向量空間模型和概率推理模型三種。

布爾模型是三者中比較容易實現的一種，是許多商用檢索系統的理論基礎，該模型是基于集合論、布爾代數的一種簡單檢索模型，但這種模型的準確率和查全率相對較低。

向量空間模型是公認的一種非常有效的檢索模型。在進行信息過濾的過程中，首先對請求的頁面數據進行加工，將頁面看成是一個由m個詞組成的向量P，然后比較向量P和用戶的趣向描述向量D的相似程度。一般情況下采用的方法是取兩個向量的余弦值，根據它們夾角的大小來判斷相似程度，最后再根據比較的相似度值判斷是否過濾掉該頁面。

概率推理模型是通過計算文本和用戶請求頁面之間的相似系數，來判斷用戶請求的頁面是否屬于非法。這種模型應用概率方法，降低了相應的文本排列問題的困難，但增加了存儲和計算資源的開銷，且參數估計難度較大。

總之，后兩種模型的許多性能優于布爾模型，但是布爾模型的效率和速度優于后兩種模型。

4 信息過濾機制的基本思想

信息過濾機制的基本思想是：用戶提供自己感興趣的關鍵字，也叫特征項，由系統生成公共模板，利用搜索代理，獲得相應的信息源。然后確定用戶興趣模板的關鍵字權重和文檔特征項的提取，采用相應的數學模型、運用一定的算法進行信息和模板的匹配，將符合一定閾值的文檔反饋給相應的用戶。

5 信息過濾系統的實施與實驗結果

我們課題組所設計的信息過濾系統包括訓練和過濾兩大模塊。訓練模塊的目的是根據給定的訓練集生成初始的過濾模板，并決定初始的閾值，而過濾模塊則是先將文本流中的文本表示成向量的形式，然后通過學習分類器與訓練過濾模板進行匹配，最后輸出結果。工作流程如圖3所示。

圖3 非法網頁過濾流程圖

6 結束語

互聯網中的非法網頁給人們帶來嚴重的負面影響，而非法網頁中包含的不良信息，存在著不可忽視的危害性。如何從大量的網頁中快速準確地識別出各種非法內容并將其屏蔽，是信息過濾最主要的任務。我們課題組在過濾技術的研究中取得了一點成績，主要包括以下工作：

6.1 結合信息過濾常用技術，設計了基于互聯網的信息過濾系統，該系統采用二級過濾策略，并分成訓練模塊和過濾模塊加以實現。

6.2 提取Web頁面中的正文文本，組成訓練文本集，再對訓練文本集進行預處理，建立成特征詞詞典，用該詞典作為系統的分詞詞典代替通用的分詞詞典，采用最大匹配算法，對訓練文本集二次處理，建立文本的表示。利用特征詞典有效地提取特征項，降低了向量表示的維數，并有效地利用KNN算法對文本進行分類，通過測試數據顯示匹配效果較好。

參考文獻

[1]叢健.不良信息過濾技術研究[D].北京：北京郵電大學，2012.

[2]張綺雯.網絡內容過濾技術的分析與比較[J].科技致富向導，2010（24）.

科技創新與應用2013年14期

科技創新與應用的其它文章: 基于示教/實訓/考核一體化的電力拖動實訓設備的開發與研究; 鄉鎮安全工作中存在的問題及解決對策; 瞄準產業需求，加強中山市高等院校產學研公共技術服務平臺建設; 淺析南京地鐵倉庫安全檢查方法的改進; 關于城市燃氣泄露的危險分析和安全防范; 船舶建造質量事故報告撰寫優化