999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互聯網信息過濾技術的研究與設計

2013-12-31 00:00:00劉冬彥李婷李巖
科技創新與應用 2013年14期

摘 要:文章從信息過濾系統的構成、數學模型、系統實現機制、具體項目實施結果等幾個方面對信息過濾技術進行了闡述,具有一定的文獻資料參考價值。

關鍵詞:信息過濾;非法文本;研究設計

1 引言

互聯網上的海量信息,改變了人們的生活方式,給人們的工作、學習、生活帶來了極大便利。但是互聯網所具有的全球性、開放性、交互性、快捷性等特點,使得互聯網上傳播的各種信息魚龍混雜,夾雜著一些不良內容的浮渣,不乏利用主頁、電子公告板、留言板、聊天室等交互式欄目張貼、傳播有害信息、泄露國家秘密的問題;利用電子郵件和短信息發送有害信息的問題;另外相關管理部門由于監管不力,對有害信息不防范、不刪除、不報告,出現管理失控的問題;一些不良信息的制造者不斷變化策略,也給不良信息的防范帶來沉重的負擔。基于互聯網信息管理的這種現狀,互聯網信息過濾技術應運而生了,而且互聯網信息過濾技術也在不斷的更新,因為只有互聯網信息過濾技術不斷更新,才能有效遏制互聯網上的不良信息傳播。

2 信息過濾系統的構成

一個簡單的信息過濾系統應包括以下四個基本部分:信源(Source)、過濾器(Filter)、用戶(User)以及個性化文件庫(Profile)。如圖1所示就是信息過濾系統的一種簡單結構圖。信息過濾器是信息源和信息用戶之間的中介,通常情況下,信源和用戶都不擁有對方的有關知識,使得用戶想要過濾的信息難以被發現。但信息過濾系統通過個性化文件庫使過濾器知曉信息用戶的需求,信源在向用戶提供檢索信息的同時,用戶也可以自己決定是否需要向過濾器發送反饋信息,用以指明哪些信息是不良信息而需要過濾器去過濾掉,使過濾器通過知識學習、調整以更新現有的過濾信息庫表中的內容,形成相關的興趣主題模型。

圖1 信息過濾系統體系結構模型

信息過濾系統主要面對的是半結構化和非結構化的數據,它為信息用戶提供的是長期的信息需求。一般情況下,用戶的信息過濾需求是長期的、相對穩定的、變化較慢的。信息過濾系統將信息和用戶Profile文件進行比較,主動將相關度較高的信息提供給符合該興趣主題模型的用戶。圖2就是這種信息過濾工作的處理流程。

圖2 信息過濾工作的處理流程

從圖2可以看出,首先要對進入的信息進行特征提取,其次同用戶的需求進行匹配、過濾,然后進行反饋與評價,以便使過濾的結果更能接近用戶的需求。

3 信息過濾技術的主要數學模型

信息過濾技術的外在表現就是信息檢索,其數學模型就是信息檢索的一種數學抽象。當前比較流行的數學模型主要有布爾模型、向量空間模型和概率推理模型三種。

布爾模型是三者中比較容易實現的一種,是許多商用檢索系統的理論基礎,該模型是基于集合論、布爾代數的一種簡單檢索模型,但這種模型的準確率和查全率相對較低。

向量空間模型是公認的一種非常有效的檢索模型。在進行信息過濾的過程中,首先對請求的頁面數據進行加工,將頁面看成是一個由m個詞組成的向量P,然后比較向量P和用戶的趣向描述向量D的相似程度。一般情況下采用的方法是取兩個向量的余弦值,根據它們夾角的大小來判斷相似程度,最后再根據比較的相似度值判斷是否過濾掉該頁面。

概率推理模型是通過計算文本和用戶請求頁面之間的相似系數,來判斷用戶請求的頁面是否屬于非法。這種模型應用概率方法,降低了相應的文本排列問題的困難,但增加了存儲和計算資源的開銷,且參數估計難度較大。

總之,后兩種模型的許多性能優于布爾模型,但是布爾模型的效率和速度優于后兩種模型。

4 信息過濾機制的基本思想

信息過濾機制的基本思想是:用戶提供自己感興趣的關鍵字,也叫特征項,由系統生成公共模板,利用搜索代理,獲得相應的信息源。然后確定用戶興趣模板的關鍵字權重和文檔特征項的提取,采用相應的數學模型、運用一定的算法進行信息和模板的匹配,將符合一定閾值的文檔反饋給相應的用戶。

5 信息過濾系統的實施與實驗結果

我們課題組所設計的信息過濾系統包括訓練和過濾兩大模塊。訓練模塊的目的是根據給定的訓練集生成初始的過濾模板,并決定初始的閾值,而過濾模塊則是先將文本流中的文本表示成向量的形式,然后通過學習分類器與訓練過濾模板進行匹配,最后輸出結果。工作流程如圖3所示。

圖3 非法網頁過濾流程圖

6 結束語

互聯網中的非法網頁給人們帶來嚴重的負面影響,而非法網頁中包含的不良信息,存在著不可忽視的危害性。如何從大量的網頁中快速準確地識別出各種非法內容并將其屏蔽,是信息過濾最主要的任務。我們課題組在過濾技術的研究中取得了一點成績,主要包括以下工作:

6.1 結合信息過濾常用技術,設計了基于互聯網的信息過濾系統,該系統采用二級過濾策略,并分成訓練模塊和過濾模塊加以實現。

6.2 提取Web頁面中的正文文本,組成訓練文本集,再對訓練文本集進行預處理,建立成特征詞詞典,用該詞典作為系統的分詞詞典代替通用的分詞詞典,采用最大匹配算法,對訓練文本集二次處理,建立文本的表示。利用特征詞典有效地提取特征項,降低了向量表示的維數,并有效地利用KNN算法對文本進行分類,通過測試數據顯示匹配效果較好。

參考文獻

[1]叢健.不良信息過濾技術研究[D].北京:北京郵電大學,2012.

[2]張綺雯.網絡內容過濾技術的分析與比較[J].科技致富向導,2010(24).

主站蜘蛛池模板: 久热精品免费| 亚洲欧洲一区二区三区| 狠狠操夜夜爽| 亚洲无码熟妇人妻AV在线| 亚洲一级色| 特黄日韩免费一区二区三区| 欧美日韩午夜视频在线观看| 2020国产免费久久精品99| 国产成人一区免费观看| 草草影院国产第一页| 色妞www精品视频一级下载| 日本一本在线视频| 国产免费网址| 国产情侣一区二区三区| 欧美精品高清| 国产区福利小视频在线观看尤物| 欧美精品高清| 无码一区中文字幕| 亚洲中字无码AV电影在线观看| 人妻精品久久久无码区色视| 九九视频免费在线观看| 国产在线精品99一区不卡| 日韩第九页| 久久精品国产国语对白| 视频一区视频二区中文精品| 谁有在线观看日韩亚洲最新视频 | 黄色网页在线观看| 日韩美一区二区| a免费毛片在线播放| 一区二区自拍| 欧美一级高清视频在线播放| 日本一本正道综合久久dvd| 国产亚洲现在一区二区中文| 91福利免费| 欧美在线伊人| 免费一级无码在线网站| 六月婷婷精品视频在线观看| 国国产a国产片免费麻豆| 日本草草视频在线观看| 99热这里只有免费国产精品| 激情无码字幕综合| 一区二区三区在线不卡免费| 免费国产无遮挡又黄又爽| 大学生久久香蕉国产线观看 | 99视频有精品视频免费观看| 欧美一级高清免费a| 欧美黄色网站在线看| 日本欧美一二三区色视频| 久久亚洲AⅤ无码精品午夜麻豆| 国产精品3p视频| 午夜影院a级片| 69视频国产| 98超碰在线观看| 波多野结衣视频网站| 欧美v在线| 日本精品影院| 国产免费人成视频网| 九九久久精品免费观看| 精品国产香蕉在线播出| 午夜爽爽视频| 亚洲免费成人网| 丰满人妻一区二区三区视频| 日本尹人综合香蕉在线观看| 污视频日本| 国产精品嫩草影院av| 欧美第一页在线| 亚洲精品爱草草视频在线| 99这里只有精品免费视频| 欧美在线中文字幕| 欧美亚洲激情| 國產尤物AV尤物在線觀看| 91九色最新地址| 欧美性天天| 中文字幕永久在线观看| 67194在线午夜亚洲| 男女性午夜福利网站| 成年人国产网站| 国产美女视频黄a视频全免费网站| 美女无遮挡免费网站| 国产女人爽到高潮的免费视频| 亚洲性日韩精品一区二区| 国产无人区一区二区三区|