999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡信息分級過濾系統(tǒng)的研究與實現(xiàn)

2012-07-25 03:19:08盧秉亮張春宇
微處理機 2012年2期
關鍵詞:文本內(nèi)容信息

朱 健,盧秉亮,張春宇

(1.沈陽航空職業(yè)技術學院,沈陽110034;2.沈陽航空航天大學計算機學院,沈陽110136;3.中國電子科技集團公司第四十七研究所,沈陽110032)

1 引言

隨著Internet的迅速發(fā)展和用戶對網(wǎng)絡信息安全需求的不斷增加,信息過濾以及相關技術取得了很大進展。Denning于1982年提出了“信息過濾”[1]的概念,利用“內(nèi)容過濾器”對實時的電子郵件進行信息過濾。1987年,Malone等人研制了基于內(nèi)容過濾(Content-based Filtering)的“Information Lens”[1]。上世紀八十年代末,由美國 DARPA(高級研究計劃局)資助的“Message Understanding Engineer”[3]極大地推動了信息過濾技術的發(fā)展。在我國,清華大學的曾春等根據(jù)不同用戶的興趣不同及多樣性的特點,提出了基于內(nèi)容的個性化搜索算法[4],田范江等人從用戶要求的不同角度出發(fā)完善算法,不斷提高信息過濾的質量和速度[5]。

2 內(nèi)容過濾技術

2.1 包過濾技術

網(wǎng)絡上的內(nèi)容信息是以數(shù)據(jù)包(Packet)進行傳送的。每個包都有一個源IP地址和一個目的IP地址,包過濾可以通過檢查數(shù)據(jù)包的IP地址來過濾信息內(nèi)容。但IP地址和內(nèi)容并不是一一對應關系,往往會對合法內(nèi)容造成誤判,不能滿足基于內(nèi)容安全的保護需求,需要采用內(nèi)容過濾技術。

內(nèi)容過濾是對應用層內(nèi)容協(xié)議中所傳輸?shù)男畔?nèi)容進行分析,并根據(jù)預先設置的過濾條件,控制信息的下一步傳送方向。內(nèi)容過濾主要有兩種實現(xiàn)形式:白名單(White List)也稱為包含過濾 (Inclusion Filtering),只有在此名單中的信息才能被訪問,具有較高的安全性,但“白名單”數(shù)據(jù)量大,在進行關鍵字匹配時需要較多的時間,影響了網(wǎng)絡速度,同時也增大了維護的代價。“黑名單”(Black List)也稱為排除過濾(Exclusion Filtering),是目前比較常用的過濾策略,其思想是將影響到網(wǎng)絡安全的信息加入黑名單,使其不能被其他網(wǎng)絡用戶訪問,對于那些不在黑名單中的信息都可以被訪問到。很明顯,這個黑名單將小得多,但需要對黑名單不斷更新以保證其安全性。

2.2 關鍵字過濾

關鍵字過濾就是對信息的內(nèi)容進行關鍵字匹配,通常用黑名單來實現(xiàn)。只要站點包含有與關鍵字相匹配的信息,它就會被禁止訪問。

2.3 URL過濾

IP和URL數(shù)據(jù)庫過濾是根據(jù)用戶的需求把用戶認為有問題、有危險性的IP地址或URL進行控制,一旦發(fā)現(xiàn)有該IP地址或URL的網(wǎng)頁則立即將其過濾掉。因為URL對應的是具體的網(wǎng)頁而不是網(wǎng)頁所在的服務器,克服了傳統(tǒng)包過濾的缺點,大大提高了過濾的準確性。

3 網(wǎng)絡信息分級過濾系統(tǒng)的設計與實現(xiàn)

網(wǎng)絡信息過濾系統(tǒng)必須要保證眾多用戶同時與互聯(lián)網(wǎng)聯(lián)網(wǎng)時的速度和質量,為保證信息過濾的準確性和高效性,系統(tǒng)采用分級匹配過濾的策略,在保留IP地址、URL和關鍵字過濾的基礎上,增加內(nèi)容分析過濾。其過濾的過程如圖1所示。

3.1 關鍵字、IP過濾、URL過濾

首先建立信息關鍵字數(shù)據(jù)庫、非法網(wǎng)頁的IP數(shù)據(jù)庫和URL數(shù)據(jù)庫,當信息進入到過濾系統(tǒng)所在的服務器緩存中時,系統(tǒng)首先將此信息與服務器中IP、URL數(shù)據(jù)庫、關鍵字數(shù)據(jù)庫進行比對。如果與關鍵字數(shù)據(jù)庫中的關鍵字相同或網(wǎng)頁的IP、URL與數(shù)據(jù)庫中的某IP、URL相同時,系統(tǒng)就會屏蔽這個信息,這樣就免除了重復過濾,緩解了系統(tǒng)壓力,提高了響應速度。

圖1 系統(tǒng)主要過程圖

3.2 網(wǎng)絡協(xié)議識別

應用層的內(nèi)容過濾與網(wǎng)絡端口處理相比,要求大量的計算資源,如果在網(wǎng)絡邊緣對內(nèi)容進行處理,帶來的問題是必然導致性能下降。為了能夠對應用層數(shù)據(jù)進行內(nèi)容過濾,突破內(nèi)容處理障礙,達到實時分析網(wǎng)絡內(nèi)容和行為,首先需要識別應用層協(xié)議類型,然后針對不同的協(xié)議給出相應的具體處理方法。一般的協(xié)議類型識別方法是利用RFC規(guī)定的協(xié)議默認端口來判斷協(xié)議的類型,然而這種方法的準確性并不高,系統(tǒng)通過增加對后續(xù)數(shù)據(jù)報文內(nèi)容的分析來綜合判斷協(xié)議類型。

相對于網(wǎng)絡層的協(xié)議而言,應用層的協(xié)議沒有統(tǒng)一的表示來表明協(xié)議的類型,除了少數(shù)協(xié)議,如DNS和SMTP協(xié)議可以通過TCP連接的目的端口判定以外,其他的協(xié)議均可以變換連接端口,比如HTTP協(xié)議默認使用80端口,但是實際應用中,也可以采用1080、8080等其他端口。因此,對于應用層協(xié)議的判定要通過對數(shù)據(jù)內(nèi)容進行分析來進行協(xié)議識別,如圖2所示,每個數(shù)據(jù)報文按自上而下的順序依次傳遞給處理子程序進行網(wǎng)絡協(xié)議識別并進行相應的處理。

當捕獲到一個TCP連接的建立信息時,系統(tǒng)將這個連接建立的信息提交所有的TCP協(xié)議處理子程序進行處理。所有的子程序都必須對當前連接的內(nèi)容進行處理,判定當前連接的類型是否是自己所能處理的協(xié)議。如果不是,則通知系統(tǒng)放棄當前連接的處理權,如果子程序識別出當前連接的協(xié)議和其所能處理的協(xié)議吻合,則通知系統(tǒng)獲得對當前連接的處理控制權。對于那些根據(jù)當前信息還不能進行有效判斷的連接,則通知系統(tǒng)等待更多的數(shù)據(jù)到來以完成有效的判斷,直到找到當前連接的處理子程序或者所有的處理子程序均放棄對當前連接的處理權為止。

圖2 TCP報文識別

3.3 基于內(nèi)容的信息過濾

對于經(jīng)過關鍵字過濾和IP、URL過濾后仍無法確認該信息是否合法,則繼續(xù)進行基于文本內(nèi)容的過濾,即將被測文本分詞與分詞字典進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。

系統(tǒng)采用KNN(K-Nearest Neighbor)這樣一種基于統(tǒng)計的模式識別算法,其基本思想是:在給定新文本后,考慮在訓練文本集中與該文本距離最近(最相似)的K篇文本,根據(jù)這K篇文本所屬的類別來判斷新文本所屬的類別。也就是說,把每一篇文本都看作是一個N維向量,計算新文本與這K篇文本之間的距離,通過這些距離和K篇文本所屬的類別來確定新文本的類別。具體的算法步驟如下:

1)根據(jù)特征項集合重新描述訓練文本向量。

2)當出現(xiàn)一個新文本后,對新文本進行分詞處理,分詞的依據(jù)是使用特征詞,進而確定新文本的向量表示。即使用向量空間模型,文本用向量表示。

3)在訓練文本集中選出與新文本最相似的K篇文檔,計算文本相似度,可轉換為兩個文本向量的夾角余弦值。給定文本 di(di1,di2,…din)和dj(dj1,dj2,…djn)的相似度計算公式為:

4)在新文本的K個鄰居中,依次計算權重,計算公式為:

其中,x為新文本的特征向量,sim(x,d)為相似度計算公式,Y(di,Cj)為類別屬性函數(shù),如果di屬于類Cj,那么函數(shù)值為1,否則為0。

5)對類的權重進行比較,將文本分到權重最大的那個類別中。

在具體操作中,按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;系統(tǒng)采取雙向最大匹配分詞策略[6],如果兩者切分結果相同,說明沒有歧義,直接輸出分詞結果。如果不一致,則輸出最短路徑的那個結果,如果長度相同,則選擇少的那一組切分作為結果。如果單字也相同,則選擇正向分詞作為結果。

4 測試

內(nèi)容過濾服務器端使用Win2003 server操作系統(tǒng),利用Winpcap進行抓包。測試方案從Internet上整理600份網(wǎng)頁作為測試庫,其中,正常網(wǎng)頁、非法網(wǎng)頁各300份。利用開發(fā)出的系統(tǒng)對這600份網(wǎng)頁進行過濾,以測試該過濾系統(tǒng)的性能。

英國學者克里維頓(C.M.Cleverdon)首次將查全率(Recall)和查準率(Precision)[7]作為信息檢索和過濾系統(tǒng)效率的評價指標以后,這兩個指標就一直成為對信息系統(tǒng)進行評價和試驗的重要指標。查全率指系統(tǒng)在實施某一檢索作業(yè)時,檢出相關文獻的能力;查準率指系統(tǒng)在實施某一檢索作業(yè)時,拒絕不相關文獻的能力,分別用公式(3)和公式(4)表示。

文獻[8]使用了另外一種評價指標,如公式(5)所示。

對于這三個評價指標,可以得到相應的測試結果,如表1所示。

表1 測試結果表

由測試結果可以看出,查全率達到85%以上,準確率達到87%以上,F(xiàn)1的值達到了86.671%(一般情況下要求F1的值達到75%以上),此方案的過濾效果比較理想。

5 結束語

系統(tǒng)利用Winpcap對進出網(wǎng)絡的信息進行數(shù)據(jù)包的抓取,采用分階段過濾策略,通過對查準率和查全率的測試,實驗結果表明過濾效果比較理想。由于在一個報文的匹配中,最為耗時的匹配運算是在報文中匹配多個串,為了提高響應速度,可以考慮引入AC算法、WM算法等多模匹配算法。

[1] 劉輝.網(wǎng)頁信息過濾系統(tǒng)的研究與設計[D].江蘇:蘇州大學,2009.

[2] 黃曉明,夏明春.網(wǎng)絡信息過濾的成本效益分析[J].情報科學,2003,21(11):1129-1132.

[3] Lynette Hirschman.Comparing MUCK- Ⅱ and MUC-3:Assessing the difficulty of different tasks[C].Proceedings of the 3rd Conference(MUC-3).DARPA,Morgan Kaufmann,1991:25-30.

[4] 曾春,刑春曉,周立柱.基于內(nèi)容過濾的個性化搜索算法[J].軟件學報,2003 14(5):999-1004.

[5] 田范江,李叢蓉,王鼎興.進化式信息過濾方法研究[J].軟件學報,2000,11(3):328-333.

[6] 馮是聰.搜索引擎?zhèn)€性化查詢服務研究[J].計算機應用,2002(3):45-50.

[7] Thorsten Joachims.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C].The 10th European Conference on Learning(ECML),1998.

[8] 賈美娟,李娟.基于分級匹配的信息過濾研究[J].大慶師范學院學報,2007,27(5):14-17.

猜你喜歡
文本內(nèi)容信息
內(nèi)容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 中文字幕1区2区| a毛片基地免费大全| 国产精品hd在线播放| 天天躁夜夜躁狠狠躁图片| 国产va在线观看免费| 日韩福利在线视频| 在线综合亚洲欧美网站| 久久五月视频| A级全黄试看30分钟小视频| 国产精品成人观看视频国产 | 2020最新国产精品视频| 日韩欧美91| 激情综合婷婷丁香五月尤物| 国产凹凸视频在线观看| 中日韩一区二区三区中文免费视频| 亚洲妓女综合网995久久| 日韩经典精品无码一区二区| 久久青草精品一区二区三区| 国产亚洲精品无码专| 国产91精品最新在线播放| 人妻21p大胆| 亚洲色欲色欲www在线观看| 欧美人在线一区二区三区| 国产三区二区| 2020国产精品视频| 这里只有精品在线播放| 四虎精品国产AV二区| 亚洲精品中文字幕午夜| 亚洲 欧美 偷自乱 图片| 欧美日韩在线第一页| 久久人人97超碰人人澡爱香蕉| 在线看片免费人成视久网下载| 国产在线视频自拍| 亚洲中文字幕日产无码2021| 免费aa毛片| 国产免费久久精品99re丫丫一| 日韩 欧美 小说 综合网 另类| 狠狠亚洲五月天| 91蝌蚪视频在线观看| 97精品国产高清久久久久蜜芽| 亚洲国产成人自拍| 伊人欧美在线| 日韩在线观看网站| 亚洲日本在线免费观看| 日日噜噜夜夜狠狠视频| 国产凹凸视频在线观看| 无码丝袜人妻| 五月六月伊人狠狠丁香网| 爱做久久久久久| 国产女人在线观看| 五月激激激综合网色播免费| 欧美成人亚洲综合精品欧美激情| 国产免费一级精品视频 | 日本黄色a视频| 9啪在线视频| 久久亚洲国产最新网站| 一级片一区| 国产亚洲成AⅤ人片在线观看| 青青青国产在线播放| 亚洲水蜜桃久久综合网站| 亚洲国产欧美中日韩成人综合视频| 波多野结衣亚洲一区| 欧美v在线| 91精品在线视频观看| 国产97视频在线观看| 亚洲精品动漫| 日本精品影院| 国产一级裸网站| 一级毛片在线免费视频| 欧美色亚洲| 91综合色区亚洲熟妇p| 亚洲色图欧美在线| 五月婷婷中文字幕| 国产又大又粗又猛又爽的视频| 她的性爱视频| 亚洲色图欧美一区| 黄色网在线| 国产黄色视频综合| 怡红院美国分院一区二区| 日本黄网在线观看| 日韩av高清无码一区二区三区| 狠狠色成人综合首页|