樊建永,劉宏杰,田素云
(陜西師范大學 計算機科學學院,陜西 西安 710062)
基于搜索引擎的校園網站信息監控系統的設計與實現
樊建永,劉宏杰,田素云
(陜西師范大學 計算機科學學院,陜西 西安 710062)
互聯網的發展為知識與信息的傳播提供了前所未有的便利,但同時也為不良信息的傳播提供了條件。高校作為互聯網應用與研究的前沿陣地,信息安全尤為重要。為了防止校園網上非法信息的傳播,實現對網上信息內容的主動監管,保護網絡信息的安全,本文設計并實現了基于搜索引擎的網站內容監控系統,它主動地掃描校園網網站,獲取網站內容信息,利用關鍵詞匹配技術及時發現包含敏感詞的網站,并將結果及時提供給網絡管理員。通過使用本系統有效地防止了非法信息在校園網中的傳播,實現了對校園網站的主動監控與管理。
信息安全;內容監控;校園網絡;分詞處理;搜索引擎
隨著高校信息化建設的快速發展,校園網絡已遍及學校的各個部門,一方面校園網站的數量迅速增長,精品課程等網站越來越多,網絡已成為師生工作、學習、生活不可缺少的一部分;另一方面學校通過校園網站發布教學安排、學生管理、科研動態諸多方面的信息,學校的各項工作都與其形成密切的關系。然而網站信息安全管理卻不容樂觀,信息安全形勢日趨嚴峻,由于網站大多是分散式的管理,網站管理人員安全防范意識不強,給計算機病毒和網絡黑客以可乘之機,有的部門主頁多次受到黑客的攻擊,網頁上的數據被更改,擾亂了學校正常的工作秩序。學校的電子留言板、公告板方便了師生交流,但同時也為非法言論等信息提供了交流的場所,一些不法分子利用網絡傳播小道消息,向高校散布有害信息,擾亂校園秩序。有的學生因在平時的學習、生活中受到一些委屈,就隨意在網站中發表一些十分偏激的言辭,或對學校老師進行人身攻擊,損壞了學校形象,因此網站信息安全監控成為亟待解決的問題。
目前由于缺乏成熟的、針對特定網絡應用下的信息內容監控系統,對網站內容的檢查都是通過人工來完成的。但是這種方法不能做到實時地監控,并且效率低下,無法適應網絡發展的需要。人們迫切需要計算機輔助來進行網絡內容的自動監控。
目前對網絡信息內容的監控主要是使用網絡安全審計系統,通常部署在校園網絡出口,通過對網絡出口鏈路數據的鏡像或者分光后從旁路接入審計系統,實時捕獲網絡數據包,還原并分析數據包的內容,可以實現對敏感關鍵字、非法URL的監控與過濾。這一類型的監控系統可以及時發現包含有非法詞匯的網站,及時屏蔽包含該詞匯的網頁,使用戶免受非法詞匯的影響。但這種監控的缺點是它是一種被動的監控模式,只有通過出口訪問的內容中包含敏感詞匯才能被監控到,并且無法得到非法內容的來源,不能對整體的網絡和特定網站中的網頁信息進行監控。
基于這種現狀,筆者設計實現了一個基于搜索引擎的網站內容監控系統。它主動掃描整個網站,獲得網站的網頁內容,并對內容進行預處理分析,利用關鍵詞匹配技術對結果進行匹配,及時發現網站中包含的非法詞匯,并將結果提供給管理員,方便管理員對網絡內容進行監控,還可以與報警系統相關聯實現郵件或者短信息報警,使網絡管理員在第一時間采取相應的處理措施,及時阻止這些內容的傳播。從而實現對網站信息主動、實時的監控。
網站內容監控的過程其實就是對校園網站內容進行搜索、分析、比較的過程。首先要獲取被監控網站的網頁作為數據源,然后對網頁數據內容進行分析預處理,為搜集到的網頁建立索引數據庫和分詞庫信息。通過與用戶設定的敏感關鍵字或URL鏈接信息進行對比匹配,從分詞庫中查找到包含敏感關鍵詞的網頁URL,再通過網頁索引在網頁信息數據庫中查找并返回整個網頁的全部內容。通過以上分析與研究,網站信息監控系統主要由以下五個功能模塊組成:網站內容采集模塊、網頁分析預處理模塊、自動分詞模塊、查詢匹配模塊、結果反饋模塊。為了提高搜索運行的效率本系統使用C++多線程設計完成。處理流程如圖1所示。

1.網站內容采集模塊
采集模塊主要完成獲取網頁內容、分析鏈接、存儲網頁信息的功能。采集模塊的核心是網頁抓取程序,網頁抓取的過程是從URL庫 (初始為用戶指定的URL集合)獲得輸入,解析URL中標明的Web服務器地址、與服務器建立連接、構造請求消息體并發送給服務器、獲取服務器返回的網頁信息,最后將獲得的網頁數據存儲在網頁信息數據庫。我們使用網頁抓取程序自動對指定IP范圍內的網站進行遍歷,主動發現網站信息。網頁抓取程序將沿著網頁上的鏈接按照深度優先算法進行網頁搜集,然后從本網頁中解析出所包含的的URL鏈接信息,看是否已經被訪問過,將未訪問的URL加入到URL列表中供網頁抓取程序繼續搜索,并從URL列表中移除已訪問過的URL,最后將URL、IP地址、采集時間、數據長度信息保存到數據庫建立網頁信息數據庫,采集模塊結構如圖2所示。

2.網頁分析預處理模塊
網頁分析預處理模塊主要是為采集模塊產生的網頁信息數據庫建立索引信息,并生成索引網頁庫。通過使用索引網頁庫我們就可以在網頁信息數據庫中快速定位到給定URL所指向的記錄。如果不對網頁信息數據庫建立索引信息,也可以通過順序查找的方法完成URL到指定記錄的過程,但是會消耗大量的I/O,數據量增大的時候不能夠滿足快速響應的要求,因此網頁預處理的第一步就是為原始網頁建立索引,實現圖1中的索引網頁庫,從而就能隨機存取其所指向的網頁,實現快速查詢與匹配。我們對URL采用MD5算法生成URL摘要,產生16個字節的唯一標識,然后對URL唯一標識信息進行排序,生成一個有序的URL索引數據庫。在查詢匹配模塊中可以使用二分查找算法在網頁索引庫中快速查找到相應的網頁文檔編號,然后再通過文檔編號在網頁信息數據庫中查找到對應的網頁。
3.自動分詞模塊
如果直接在網頁數據庫中查找與我們所設置的關鍵字或者文本信息相匹配的網站,查詢效率將無法滿足我們快速搜索的需要。為了提高關鍵字與網頁數據庫中的內容匹配速度,我們需要把整個網頁的文本內容字串分隔成詞串,將整句切割成小的詞匯單元,即分詞處理。然后再為分詞庫建立索引,來提高查詢的效率。所以分詞是對中文文本進行快速查詢匹配的前提。
在本系統中我們采用基于字符串匹配的分詞方法,這種方法又稱為機械分詞方法,使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,它按照一定的策略將待分析的字符串與已設定好的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。在使用逐詞匹配算法的同時,我們還使用統計的方法來識別一些新的詞,同時將這些新詞添加到分詞詞典中。我們把串匹配和串頻統計結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了統計分詞結合上下文識別生詞、自動消除歧義的優點。具體的流程為先取網頁信息數據庫中的HTML源代碼,對源代碼進行過濾,提取文本內容,然后調用分詞程序,對文本內容進行分詞處理。將得到的每個詞串連同它所在的URL、文件名、瀏覽量作為一條記錄,保存到分詞庫里,供查詢匹配模塊使用。
4.查詢與匹配模塊
該模塊主要實現了按照用戶設置的關鍵字在網頁信息數據庫中查詢包含敏感詞記錄的功能。首先將用戶設置的關鍵詞提交給查詢代理,查詢代理檢索分詞模塊生成的分詞索引表和索引網頁數據庫,并通過多表連接在網頁信息數據庫中查詢返回具體的網頁源代碼信息,將返回信息提供給結果反饋模塊。
5.結果反饋模塊
此模塊主要負責把前四個階段建立好的索引網頁庫、分詞庫、網頁信息數據庫進行處理后將結果呈現給用戶,實現基于Web的結果顯示功能,包括響應用戶的查詢檢索和記錄用戶的行為。我們使用ASP.NET 2.0進行網絡程序設計,用戶可以通過網頁形式查看監控的結果,返回的結果包括網站的URL、IP地址、敏感關鍵字的位置等信息。也可以通過配置電子郵件網關將監控結果以電子郵件形式自動發送給管理員,并且可以按照IP地址、關鍵字等進行結果的查詢和統計,同時將用戶查詢的內容和查詢時間等信息記錄到日志文件中。結果反饋模塊還可以與專用SMS短信息收發平臺互聯實現短信息報警功能,使網絡管理員在第一時間發現敏感信息并及時做出相應的處理。
本系統結合搜索引擎技術,對網站內容的獲取、存儲、分析、匹配問題都提出了較好的解決方案,通過對指定IP地址范圍內或特定的網站內容進行自動掃描、分詞、預處理后與事先設定的關鍵字進行匹配,及時發現違規信息,對網頁篡改、不良信息的傳播等可以及時報警,實現了網站內容的自動監控與管理。
此系統模塊化設計,靈活可擴展,很容易擴展成一個集文字、圖像監控于一身的綜合監控系統,而自身體系結構無需大的變動。此系統除了在校園網中使用外也很容易推廣到其他行業使用,如網絡提供商、各企業事業單位以及需要對網絡內容進行監控的單位或部門。此外對系統進行升級還可以實現自動搜索網站,及時發現未備案的網站和私自架設的網站信息等功能。☉
[1]Piotr K Arakis.An early warning and attack identification system[C].Dudapest,Hungary:Proceeding of 16th Annual First Conference,2004:35-41.
[2]陳紅松,胡長軍.網絡內容監控與預警系統的設計與實現[J].計算機工程與設計,2009,30(1).
[3]林海霞,原福永,陳金森等.一種改進的主題網絡蜘蛛搜索算法[J].計算機工程與應用,2007,43(10):174-176.
[4]梅龍寶.趙毅校園安全管理信息系統設計與實現[J].中國教育信息化,2007(4).
[5]熊馨,康國磊,胡光武等.基于Web Service的分布式網站內容監控系統設計[J].電腦知識與技術,2009(18).
[6]孫紅杰,方濱興,張宏莉.一種新的大規模網絡主動預警方法[J].電信科學,2007(1):74-78.
[7]晉耀紅.基于語義的文本過濾系統的設計與實現[J].計算機工程與應用,2003,39(17):22-25.
[8]易青松.基于NDIS的網絡監控系統的設計與實現[J].計算機工程與設計,2006,27(15):91-98.
(編輯:金冉)
TP393.18
B
1673-8454(2011)15-0034-03