網絡信息內容審計系統的研究與實現

2011-10-19 08:58:00付沙

中國教育信息化 2011年1期

關鍵詞：內容信息系統

付沙

（湖南財政經濟學院，湖南長沙 410205）

網絡信息內容審計系統的研究與實現

付沙

（湖南財政經濟學院，湖南長沙 410205）

網絡信息內容審計是一種對網絡中傳輸的信息內容進行分析與審計的技術，是網絡安全技術中非常重要的組成部分，通過內容審計可實現網絡信息內容的可控性。本文闡述了網絡信息內容審計技術，研究并構建了一種網絡信息內容審計系統，且對其主要功能模塊的工作流程及其實現進行了詳細說明。

內容審計；數據采集；特征匹配；負載均衡

一、引言

隨著我國信息化建設的不斷推進和計算機網絡的飛速發展，信息的發布與共享更為簡捷方便，網絡信息日益豐富；與此同時，許多非法和不健康的信息也出現在互聯網上，嚴重影響廣大網絡用戶的日常生活與工作，給整個社會的和諧穩定造成惡劣影響。如何保證網絡行為、信息內容的合法性、合規性及健康性已成為網絡與信息安全領域研究中的熱點問題，在此背景下網絡信息內容審計技術得到快速發展，網絡信息內容審計系統逐漸成為整個安全系統中不可或缺的重要組成部分。

網絡信息審計系統包括對網絡信息報文格式的完整性、合法性進行形式化審查和對報文的類型、內容進行審查兩大部分。目前，對審計系統的研究絕大部分都集中在報文完整性和合法性判別研究方面，基于內容的審計系統研究不多。因此，研究和構建網絡信息內容審計系統對于網絡信息的安全、網絡的有效使用和對國家的安全具有重要意義。[1]

二、網絡信息內容審計技術的思想

網絡信息內容安全的主要技術包括基于內容的防火墻和網絡信息內容審計。[2]基于內容的防火墻雖能最大限度地保障網絡信息內容的安全，但在網絡犯罪取證和網絡行為監控方面卻無能為力，還只能依賴于網絡信息內容審計技術。該技術針對網絡流量中不良信息傳播的問題，綜合運用網絡數據包獲取、協議分析、信息處理、不良流量阻斷等方式實現對網絡信息內容傳播的有效監管。能夠幫助用戶對網絡進行實時監控，記錄網絡上發生的一切，尋找非法和違規行為并為用戶提供事后取證。

文獻[3]中指出網絡信息內容審計技術是采用一些智能化的處理技術及網絡信息報文采集、組合、判別等方面的技術，對通過網絡的報文內容進行實時處理和識別，凡是發現包含有害、非法、敏感信息的報文就記錄其源/目的IP地址、源/目的端口號、服務類型等相關信息，形成系統訪問日志并提供給系統管理人員和其他有關用戶進行事后審計和分析，進而采取相應的安全管理措施，包括對非法及不健康信息進行追查等處理。

三、網絡信息內容審計系統的必要性

網絡信息內容審計系統是指從計算機網絡系統中的若干個關鍵點收集數據包，對其傳送的內容進行審計分析，檢查其中是否含有違反信息安全策略的行為跡象，實現對網絡信息內容的監控，防止機密文件或敏感信息的非法泄漏及傳送，對可疑行為或內容采取措施并為查證提供有力證據。[4]網絡信息內容審計系統作為保障網絡信息安全的實時審計工具，可以高速有效地對進出內部網絡的電子郵件、網頁（BBS）、P2P軟件、上傳下載文件和遠程登錄等各類傳輸信息進行數據截取和還原，并可根據用戶需求對通信內容進行審計，提供高速的敏感特征關鍵詞檢索和標記功能，從而防止內部網絡敏感信息的泄漏以及非法信息的傳播。

四、網絡信息內容審計系統的結構

在網絡信息內容審計系統中，網絡內容采集模塊從互聯網上取回內容之后，內容分析模塊對內容進行分析處理。在擁有足夠的網絡帶寬情況下，內容分析模塊對大流量網絡數據的處理速度將成為系統性能的瓶頸。而內容分析模塊的處理速度和對敏感信息的識別準確率又是一對矛盾，難以兼顧。如果采用簡單高速的分析算法則會降低識別準確率；而采用復雜準確的分析算法又難以保證處理速度。[5]

基于該因素，除了在系統中運用高性能的計算設備之外，在系統結構方面可以采用兩層分析結構：第一層采用簡單高速的分析技術進行數據包獲取和內容過濾，著重系統的效率，對采用的算法時間復雜度有嚴格要求；第二層采用復雜準確的分析技術對第一層過濾的結果進行精確處理，著重系統的準確率和功能的全面性。通過將兩層分析結構分步實現，從而增強對敏感信息的識別準確率，提高整個系統的性能。[6]

五、系統主要功能模塊及其實現

網絡信息內容審計系統主要由四個功能模塊組成：數據采集模塊、數據包還原重組模塊、特征匹配模塊和集群及負載均衡控制模塊。整個系統采用網絡探針技術進行數據采集和分布式集群技術實現數據包還原重組，能較好地解決傳統網絡信息內容審計系統在高速網絡環境下丟包率高、性能低下、無法支持多種協議的問題。系統的主要功能模塊如圖所示。

1.數據采集模塊

數據采集模塊是網絡信息內容審計系統的基礎組件。該模塊通過截獲整個網絡所有的信息流量，根據信息源主機、目標主機和服務協議端口等信息簡單過濾掉不需要關心的數據，再將用戶感興趣的數據發送給更高層的應用程序進行分析。在不同的操作系統平臺需要使用不同的數據包獲取技術，目前常用的是網絡數據包捕獲函數庫Libpcap（Packet Capture Library）和信息包捕獲與網絡分析模型包WinPcap（Windows Packet Capture）。

在Unix或Linux操作系統平臺下進行網絡數據包采集時可采用Libpcap，它是一個由與實現無關的訪問操作系統所提供的分組捕獲機制的分組捕獲函數庫。該函數庫提供的接口函數主要實現和封裝與數據包截獲有關的過程，同時所提供的C函數接口可用于需要捕獲經過網絡接口數據包的系統開發中。目前有許多流行的工具都使用了Libpcap來進行數據采集，如tcpdump、snort等。而WinPcap是Windows操作系統平臺下一個免費、公共的網絡底層訪問系統，可用于進行捕獲、發送原始數據包，它是Unix系統平臺下廣泛使用的Libpcap的Windows版本。

本文所構建的系統在Windows系統平臺下運行，選用WinPcap來完成數據采集。WinPcap采集相關數據后提交數據幀給數據采集模塊，該模塊接收并分析記錄數據幀的源和目的MAC地址，分析數據幀的上層協議類型。WinPcap不僅提供了一套與Libpcap兼容的標準報文捕獲接口，以便于將程序移植到Unix系統平臺下，還考慮了各種性能和效率的優化，收集網絡通信過程中的統計信息并提供了內核態的統計模式。在數據采集模塊中，首先可通過以太網的廣播特性對網絡底層信息進行監聽并獲取網絡上傳輸的數據流，包括協議端口、子網主機的所有交互數據等。在這些交互數據中存在著大量用戶不需要關心的非敏感信息（正常信息），對非敏感信息的監聽工作嚴重影響到系統的工作效率，因此，建立高效的信息過濾機制是提高信息監聽工作效率的重要環節，它使用戶可指定特定的協議端口及子網主機，如對電子郵件、網頁（BBS）、遠程登錄等各類傳輸信息進行過濾，只將用戶關心的敏感信息向更高層提交，從而提高系統工作效率。

2.數據包還原重組模塊

數據采集的目的是為了分析網絡數據包內容，對于網絡信息內容審計系統來說，僅分析零碎數據包的價值非常小，必須將一個會話中雙向傳輸的所有數據包進行拼接，并排除協商、應答、重傳、包頭等網絡附加信息以實現還原與重組，只有這樣才能實現網絡內容的監控與審查。按照TCP/IP協議以及應用層協議的規范，此模塊對采集的IP數據包在進行預處理之后逐層還原并將數據包進一步重組為應用層數據。根據數據物理幀的幀頭，模塊可以識別出所有的IP數據包；根據IP數據包頭中的信息（信源端IP地址、信宿端IP地址、協議類型號等）則可以識別出哪些IP數據包屬于同一個TCP或者是UDP的數據分段，并將它們重組為數據分段；再根據TCP或者是UDP段頭中的信息（源端口號、目的端口號、序列號、確認號等）可以恢復原始會話的內容，經過進一步處理可以完成應用層協議的重現并對內容還原分析。

以電子郵件為例，電子郵件通常是以編碼的方式在網絡上進行傳輸，RFC1341-MIME（多媒體因特網郵件擴展）中有詳細的說明，郵件的內容編碼標志域指出了相應的編碼方式，主要分為五種：7bit、8bit、Binary、Quotedprintable和BASE64編碼。7bit、8bit和Binary編碼方式的數據在郵件發送和接收過程中都是以明文方式進行傳輸的；而Quoted-printable和BASE64編碼則以非明文方式傳輸，這是當前電子郵件中最常用的編碼方式，根據其相應的編碼規則可以對郵件進行相應的解碼并對郵件報文信息進行翻譯。[7]

3.特征匹配模塊

敏感特征關鍵詞的匹配速度是決定系統性能的關鍵，解決不好將嚴重影響系統的性能，甚至導致失敗。字符串的匹配算法直接影響系統的檢測效率，當對網絡數據包匹配特定字符串的特征時就需要一個有效的字符串搜索算法。

特征匹配模塊可以利用自動機技術對敏感特征關鍵詞進行字符串匹配，若發現敏感信息則將其相關信息記入數據庫中，在客戶端可以實現對信息的顯示、查詢及統計。將所有的關鍵字分解成不同的狀態構成自動機，該自動機以文件內容作為輸入對象，輸出結果為匹配到的關鍵字，從而完成特征匹配的功能。

4.集群及負載均衡控制模塊

集群是指相互獨立的一些系統在一臺負載監視器的控制下作為一個系統共同工作，構造集群的目的是為了提高系統的可靠性和規模的可擴展性。集群的核心技術就是構造負載監視器和實現任務分配策略的算法，負載監視器負責監視集群系統中的各臺機器的當前負載，任務分配策略根據各臺機器的當前負載進行任務分配并在各臺機器之間進行負載均衡。

集群及負載均衡控制模塊采用在集群的各個主機上安裝監視本機CPU負載的Agent的方式，Agent可獲得當前系統的CPU負載。這些Agent和數據接收機上的負載監控程序采用CORBA進行通信，負載監控程序可實時監控到各臺機器的當前負載。集群的負載均衡策略可采用加權最小負載法，即有新的任務提交的情況下選用加權最小負載（=當前負載/處理能力）的處理機為新數據包的處理者。同時，由于網絡流量的增長速度已遠遠高于處理器處理能力的增長速度，使用負載均衡算法來應付大流量內容審計是必須的，但現有的分流技術仍存在不足，尚不能實現真正的負載均衡，仍需進一步完善數據負載均衡算法。

六、結束語

本文針對網絡環境下的信息內容安全性問題和當前網絡信息內容審計產品的不足，結合網絡信息內容審計技術的發展趨勢，研究并構建了一種可對網絡信息流進行全面有效檢測與審計的網絡信息內容審計系統，以確保網絡信息安全可靠的傳輸。☉

[1]陳國龍,陳火旺,康仲生.基于內容的網絡信息安全審計中的匹配算法研究[J].小型微型計算機系統,2004,25(9):1676-1679.

[2]趙曉明,張新霞.基于網絡信息安全內容審計系統及相關技術研究[J].航空計算技術,2006,36(5):127-130.

[3]萬國根,秦志光,劉錦德.高速網絡環境下內容審計系統的研究與實現[J].計算機科學,2003,30(12):59-61.

[4]孫欽東,管曉宏,周亞東.網絡信息內容審計研究的現狀及趨勢[J].計算機研究與發展,2009,46(8):1241-1250.

[5]朱瑞,趙亮.基于內容的網絡安全信息審計系統研究[J].電力信息化,2008,6(11):36-39.

[6]張曉彤,張德運,高鵬.基于內容的實時網絡信息審計系統[J].計算機應用研究,2004(10):215-216.

[7]李慧君,李建民,徐鷹.分布式網絡內容監控審計系統的設計與實現[J].華中科技大學學報（自然科學版）,2003,10(31)增刊:196-198.

（編輯：隗爽）

TP393.08

1673-8454（2011）01-0043-03