999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KMP算法的網(wǎng)頁敏感信息審查系統(tǒng)

2013-10-19 10:14:48付為民
河南科技 2013年17期
關鍵詞:分析信息系統(tǒng)

米 淳 李 翔 付為民 梅 彬

(中國人民公安大學 網(wǎng)絡安全保衛(wèi)學院,北京 102623)

1 研究背景

1.1 選題目的及意義

隨著網(wǎng)絡突飛猛進的發(fā)展,網(wǎng)絡媒體已發(fā)展為繼報紙、廣播、電視之后的“第四媒體”,08年初中國網(wǎng)民數(shù)量更是超過了美國成為世界第一。如此驚人的發(fā)展速度使得網(wǎng)絡已經(jīng)成為信息的主要載體,每天都會有大量良莠不齊的信息產(chǎn)生于網(wǎng)絡并廣泛傳播,網(wǎng)絡也成為一些不法分子用來實施犯罪行為或者傳播違法信息的重要工具。在此背景下,公安部門對于網(wǎng)絡信息的掌握顯得尤為重要。隨著公安部門“實施科技強警戰(zhàn)略、建立公安情報信息系統(tǒng)”的目標提出,公安網(wǎng)絡信息分析系統(tǒng)的建設需求空前迫切。本文在分析公安部門對網(wǎng)絡信息分析系統(tǒng)需求和相關技術(shù)的基礎上,結(jié)合公安部門已有的“公安情報信息綜合平臺”探討研究了網(wǎng)頁信息分析系統(tǒng)的設計與實現(xiàn)。

1.2 本課題的研究方向及創(chuàng)新點

1.2.1 本文的研究方向:本文以互聯(lián)網(wǎng)信息過濾與定位系統(tǒng)的設計和實現(xiàn)為目標,深入分析了一個高效的互聯(lián)網(wǎng)敏感信息審查系統(tǒng)的系統(tǒng)架構(gòu)和基本工作流程等方面的問題。本文的主要工作如下:(1)結(jié)合國內(nèi)外有關搜索與模式匹配的技術(shù),設計了互聯(lián)網(wǎng)信息審查系統(tǒng)的整體架構(gòu);(2)介紹并分析了系統(tǒng)中三個重要的系統(tǒng)子模塊:信息收集模塊,信息預處理模塊和關鍵詞發(fā)現(xiàn)模塊的設計實現(xiàn);(3)通過實驗證明了該設計中系統(tǒng)架構(gòu)的可行性及高效性。

1.2.2 本論文的創(chuàng)新點:(1)采用KMP快速匹配算法對網(wǎng)頁內(nèi)容進行定位,效率相對于其他一般模式匹配算法大幅提高;(2)運用爬蟲思想及算法從網(wǎng)絡獲取信息源,較人工查找方式實現(xiàn)了工作自動化及高效化。

2 系統(tǒng)的設計與實現(xiàn)

2.1 設計目標與思路

根據(jù)《計算機信息網(wǎng)絡國際聯(lián)網(wǎng)安全保護管理辦法》中的第五條規(guī)定:任何單位和個人不得利用國際聯(lián)網(wǎng)制作、復制、查閱和傳播下列信息:煽動抗拒、破壞憲法和法律、行政法規(guī)實施的;煽動顛覆國家政權(quán),推翻社會主義制度的;煽動分裂國家、破壞國家統(tǒng)一的;煽動民族仇恨、民族歧視,破壞民族團結(jié)的;捏造或者歪曲事實,散布謠言,擾亂社會秩序的;宣揚封建迷信、淫穢、色情、賭博、暴力、兇殺、恐怖,教唆犯罪的;公然侮辱他人或者捏造事實誹謗他人的;損害國家機關信譽的;其他違反憲法和法律、行政法規(guī)的。

因此,開發(fā)敏感信息過濾系統(tǒng)旨在實現(xiàn)網(wǎng)絡安全監(jiān)察人員在虛擬復雜的網(wǎng)絡世界中及時有效地發(fā)現(xiàn)有關情報信息與違法犯罪信息,為打擊網(wǎng)絡違法犯罪及時提供有力的依據(jù)和線索,推動監(jiān)控網(wǎng)絡違法犯罪的信息化與自動化。

該敏感信息過濾系統(tǒng)主要實現(xiàn)以下功能。

(1)多級網(wǎng)頁鏈接獲取

一個網(wǎng)站一般包含了多級目錄,即擁有多個超鏈接,呈樹形結(jié)構(gòu)。而本系統(tǒng)中網(wǎng)頁鏈接獲取子系統(tǒng)針對該結(jié)構(gòu),采用“網(wǎng)絡爬蟲”。“網(wǎng)絡爬蟲”是一個自動提取網(wǎng)頁的程序,是搜索引擎的重要組成。本系統(tǒng)中,網(wǎng)頁鏈接獲取子系統(tǒng),根據(jù)一定的網(wǎng)頁分析算法過濾并保留指定類型的鏈接,并將其放入等待抓取的URL隊列。然后,它將根據(jù)廣度優(yōu)先的搜索策略,從隊列中的上級站點頁面逐級往該站點的下級頁面抓取網(wǎng)頁URL,并可根據(jù)用戶的需求重復上述過程,直到達到系統(tǒng)中設定的某一條件時停止。

(2)網(wǎng)頁內(nèi)容分析

1)網(wǎng)頁編碼格式分析

在當今網(wǎng)頁設計中,包含中文的編碼格式主要有四種,其分別是:GB2312、BIG5、GBK以及UTF-8格式。其中GB2312是簡體中文編碼,其一個漢字占用2字節(jié),是大陸的主要編碼方式。但當網(wǎng)頁中包含繁體中文、日文、韓文等等時,這些內(nèi)容可能無法被正確編碼;

很多國內(nèi)網(wǎng)頁指定的編碼都是GB2312的,它是對ASCII的一種擴展,而ASCII—GB2312—GBK之間是向下兼容的,但Unicode中的 UTF-8與 ASCII、GB2312、GBK之間并不兼容,如果用UTF-8處理其他格式或者其他格式處理UTF-8的中文字符均會出現(xiàn)亂碼。因此,對頁面關鍵字分析之前需要對網(wǎng)頁編碼格式進行檢測與轉(zhuǎn)換。

在UTF-8格式的頁面中,一般包含如下標記:

其中HTTP-EQUIV類似于HTTP的頭部協(xié)議,它回應給瀏覽器一些有用的信息,以幫助正確和精確地顯示網(wǎng)頁內(nèi)容。該標記即在發(fā)送文檔前通知瀏覽器該網(wǎng)頁采用UTF-8格式的編碼,提前進行編碼以實現(xiàn)正常的瀏覽。該網(wǎng)頁內(nèi)容分析子系統(tǒng)通過分析如上標記中的編碼格式,并提前通過WideCharToMultiByt()函數(shù)進行轉(zhuǎn)換,以達到關鍵詞準確搜索的目的。

2)基于KMP算法的敏感信息關鍵詞分析

關鍵詞的搜索操作,即字符串的模式匹配,是各種串處理系統(tǒng)中最重要的操作之一。其定位函數(shù)為Index(S,T,pos),其中S為目標串,T為模式串,pos表示第N個字符開始匹配。KMP算法是一種改進的字符串匹配算法,其關鍵是根據(jù)給定的模式串定義一個next函數(shù),next函數(shù)包含了模式串局部匹配的信息。此算法可以在O(m+n)的時間數(shù)量級上完成串的模式匹配操作,其改進在于:每當一趟匹配過程中出現(xiàn)的字符比較不相等時,不需要回溯i指針,而是利用已經(jīng)得到的“部分匹配”的結(jié)果將模式串向右“滑動”盡可能遠的一段距離后,繼續(xù)進行比較,極大的縮短的對復雜網(wǎng)頁的搜索時間。KMP算法的匹配過程如下:

2.2 基于KMP算法的敏感信息過濾系統(tǒng)軟件的實現(xiàn)

軟件在VC++6.0集成開發(fā)環(huán)境中編寫實現(xiàn)。其主要由用戶界面進程以及負責下載與分析的工作者線程組成。其包含了以下子系統(tǒng):

(1)網(wǎng)頁獲取子系統(tǒng):其對指定URL的緩存文件進行讀取分析,由于一般的HTML網(wǎng)頁中,標簽的href屬性用于指定超鏈接目標的 URL,因此,獲取中的引號中內(nèi)容即可獲得URL地址。

(2)網(wǎng)頁格式轉(zhuǎn)換子系統(tǒng):其首先判斷網(wǎng)頁編碼格式,即讀入網(wǎng)頁源代碼的1個字節(jié),檢測如下內(nèi)容:“”如果存在,則進行編碼格式轉(zhuǎn)換,即將UTF-8轉(zhuǎn)換至Unicode,再由Unicode轉(zhuǎn)換至ANSI。其實現(xiàn)關鍵代碼如下:

(3)基于KMP算法的網(wǎng)頁內(nèi)容搜索子系統(tǒng):該系統(tǒng)首先對用戶輸入的關鍵詞進行分析或拆分操作,獲取NEXT[J]列表。隨后根據(jù)NEXT[J]列表對網(wǎng)頁內(nèi)容進行關鍵詞的模式匹配操作。其實現(xiàn)的關鍵代碼如下:

3 總結(jié)

本文在充分考慮基層網(wǎng)監(jiān)民警業(yè)務需求的基礎上,針對網(wǎng)頁敏感信息隱藏難以發(fā)現(xiàn)的問題,開發(fā)了一種基于KMP模式匹配算法的網(wǎng)頁敏感信息檢索及URL提取應用軟件。使用本軟件能夠高速地對網(wǎng)頁敏感信息進行精確或者模糊檢索,使民警在進行網(wǎng)絡監(jiān)察時,面對海量網(wǎng)頁信息是不再 “束手無策”,對敏感信息“一覽無余”。

[1]孫鑫.VC++深入詳解[M].北京:電子工業(yè)出版社,2012

[2]吳偉民,嚴蔚敏[M].北京:清華大學出版社,2009

[3]《計算機信息網(wǎng)絡國際聯(lián)網(wǎng)安全保護管理辦法》,1997年12月

猜你喜歡
分析信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統(tǒng)及其自動化發(fā)展趨勢分析
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美国产日韩在线观看| 色丁丁毛片在线观看| 日本a级免费| 国产无码精品在线播放| 久久久精品久久久久三级| 亚洲中文在线看视频一区| 色欲色欲久久综合网| 99热这里只有免费国产精品 | 成人日韩精品| 美美女高清毛片视频免费观看| 亚洲AV无码久久天堂| 毛片久久网站小视频| WWW丫丫国产成人精品| 在线精品亚洲一区二区古装| 亚洲精品无码AV电影在线播放| 欧美精品亚洲二区| 日韩色图区| 欧美黄网站免费观看| 91区国产福利在线观看午夜 | 国产第一色| 嫩草影院在线观看精品视频| 国产男女XX00免费观看| 青青青视频免费一区二区| 国产不卡在线看| 极品国产一区二区三区| 青青操视频免费观看| 国产最新无码专区在线| 欧美日韩综合网| 亚洲va欧美va国产综合下载| 欧美区一区| 色综合国产| 色哟哟色院91精品网站| 国产区成人精品视频| 强乱中文字幕在线播放不卡| 久久亚洲中文字幕精品一区| 色老头综合网| 欧美精品啪啪一区二区三区| 国产午夜福利在线小视频| 91精品啪在线观看国产91| 91精品啪在线观看国产60岁 | 国内精品自在欧美一区| 精品無碼一區在線觀看 | 夜夜高潮夜夜爽国产伦精品| 三上悠亚精品二区在线观看| аⅴ资源中文在线天堂| 88av在线播放| 玖玖免费视频在线观看 | 国产亚洲视频中文字幕视频 | 88av在线| 亚洲综合久久一本伊一区| 在线看免费无码av天堂的| 午夜无码一区二区三区在线app| 久久久久久国产精品mv| 五月婷婷伊人网| 亚洲成年人网| 成人综合网址| 国产鲁鲁视频在线观看| 国产无遮挡裸体免费视频| 1024国产在线| 国产97色在线| 中国一级特黄视频| 日韩精品亚洲一区中文字幕| AⅤ色综合久久天堂AV色综合| 国产高清国内精品福利| 国产成人精品午夜视频'| 亚洲综合色婷婷中文字幕| 欧美精品二区| 麻豆精品在线视频| 无码国内精品人妻少妇蜜桃视频| 欧美精品在线免费| 久久伊人色| 自拍中文字幕| 真实国产乱子伦高清| 亚洲二区视频| 亚洲免费福利视频| 国内精品一区二区在线观看| 精品无码一区二区在线观看| 久久激情影院| 亚洲AⅤ永久无码精品毛片| 免费又黄又爽又猛大片午夜| 亚洲精品福利网站| 黄色网址手机国内免费在线观看 |