羅維
摘 要:隨著科學技術的快速發展,各種網絡犯罪行為時有發生,為個人和國家帶來了嚴重的損失,因此加強計算機網絡及服務器安全,確保信息的完整性和保密性至關重要。服務器在計算機操作系統中發揮著重要的作用,其安全涵蓋物理安全、病毒防護、網絡安全、數據庫安全、操作系統安全等,這就需要認真研究服務器的安全保護措施,利用web日志來了解系統面臨的潛在威脅,以免系統數據受到破壞或修改。本文就對web日志數據挖掘在服務器安全方面的應用進行分析和探究。
關鍵詞:web日志數據挖掘 服務器安全 應用
中圖分類號:TP393.05 文獻標識碼:A 文章編號:1674-098X(2017)08(c)-0155-02
隨著計算機網絡技術的快速發展,信息數據呈爆炸式增長,而這些信息數據具有非結構化、動態性、異質性等特征,蘊含著極其豐富的圖像圖形、本文、視音頻等信息資源,多存在于服務器上,尤其是用戶記錄信息以及鏈接結構信息[1]。目前管理人員如何篩選和查找所需的有用信息數據,已經成為一大難題,這也在很大程度上推動了單類型、單文本的數據挖掘朝著web日志數據挖掘的方向發展,為服務器的安全提供了強有力的技術保障。
1 web日志數據挖掘概述
對于web日志挖掘而言,其主要是在用戶存取模式的基礎上,對有用的價值加以獲取,深度挖掘web上的相關數據及日志數據,這樣可以及時發現用戶訪問web頁面。當然web數據有其他的類型,基本都是網上的原始數據,而we b日志挖掘并不是原始數據,借助用戶和網絡之間的互動來獲取第二手數據,包括用戶提問式、瀏覽器訪問記錄、代理服務器日志記錄、用戶個人簡歷、網絡服務器訪問記錄、注冊信息等。分析這些數據的規律,詳細識別電子商務的潛在客戶,或者是在擴展有向樹模型來識別用戶的瀏覽序列模式,以便web日志挖掘工作的順利實施。同時以用戶訪問web記錄為依據,挖掘用戶的興趣關聯規則后將其存放在相關的數據庫中,從而對用戶行為進行合理預測,以便用戶獲取相關的web頁面,促進頁面獲取速度的加快[2]。總之,web服務是互聯網提供最豐富、最多的服務,因而Web服務器往往會遭受很多的攻擊,這就要求管理人員采取切實可行的措施來防止服務器遭受入侵和攻擊,其中最為常用且直接有效的方式就是及時查看web服務器的日志記錄。對于大型網絡而言,其訪問數據以及日志記錄數目較大,只有采取切實可行的措施,合理運用數據挖掘技術,才能合理把握日志、準確抓住重點或找到入侵線索。
2 web日志數據挖掘在服務器安全方面的應用
黑客攻擊web站點時,都會事先對web站點可進行攻擊或存在的漏洞進行了解,高效運用漏洞掃描軟件,一旦發現漏洞則進行攻擊;然而部分能在web日志中找到的漏洞,一旦出現下列的情況,則會出現一些攻擊行為:①大量訪問被拒絕;②沒有找到多次出現的請求資源;③存在特定的資源請求字符串。一般情況下,管理人員對web日志進行分析時,如果發現“..%c1%”和“+.htr”等特定資源申請字符串,即認定客戶正在發起攻擊。從web日志分析可知,了解黑客攻擊服務器的特點后,認真分析web日志數據,對系統可能存在的威脅進行準確把握,并采取切實可行的加固系統方式,以免系統數據被破壞。
web日志數據挖掘在服務器安全方面的應用具體表現為如下幾方面:第一,模式識別和分析。針對模式識別,其主要是以各種算法為基礎,對處理后的數據進行深度挖掘,然后生成模式,具體表現為:①網頁編碼:在網絡結構的基礎上編碼相關主題頁面,將特定的數字設置在每個頁面上,然后以網站現有的網頁數為依據進行編號。②會話抽取:對所有的會話進行求取后,構成用戶會話集。③頁面相似度分析:借助余弦相似度的方式,合理計算頁面間的相關性[3]。④用戶聚類:運用等聚類方法,如RCPC、CARD等,對網站用戶會話進行聚類處理訪問。為了確認模型的性能,應該以訪問量較大的網站為依托,模擬其網站服務器的日志。
第二,數據預處理。數據預處理主要是在日志文件轉換為數據庫文件后進行,旨在轉化web日志,使其更好地進行數據挖掘,確保數據的精準性,而這一過程涉及識別用戶會話、識別用戶、數據清理、識別片段這四個階段。①識別用戶會話。對于用戶會話而言,其是指用戶對服務器的有效訪問,利用連續請求頁面的方式,在網站中獲得訪問行為,以用戶會話為基礎掌握黑客入侵時的相關操作,保障web服務器數據的安全性。
②識別用戶。web日志記錄的用戶情況分為:同一時間內,同一用戶的IP對web服務器進行訪問;或者是同一時間內,不同用戶利用相對簡單的代理訪問web服務器[4]。從服務器安全的層面而言,前一種情況時重點分析的對象,以日志中的IP為依據進行分類,以時間順序為依托,對同一個IP的訪問進行排序,有效判斷一定時間內各IP訪問服務器的情況;若該IP在同一時間訪問服務器,則判斷IP和系統中所保存的常用代理服務器,但其不是代理服務器時,則要有效識別該IP的日志數據。
③數據清理。其主要指的是以需求為基礎對日志文件進行處理,涉及合并一些記錄或刪除不必要的數據等。用戶對某個網頁進行請求時,可以自動下載與該網頁相關的音頻、圖片等信息,然后記錄在日志文件中;由于數據挖掘是以用戶訪問模式為目的,這些信息的可用性不高,所以刪除日志中的文件后綴,如jpeg、jpg、gif等的記錄,從而檢驗是否有黑客入侵。黑客入侵在日志中多在HTTP狀態出錯,所以清理數據的過程中,對正常訪問的數據加以去除;但有些黑客可能借助正常的訪問加以入侵,這時需要保留正常的訪問數據。
④格式化。數據集完成會話標識后,需要格式化會話數據,使其變成習相應數據挖掘算法的數據模型,即數據轉化[5]。而日志記錄涉及HTTP狀態、請求資源、訪問方式、客戶端IP、時間、日期等,但通過格式化這些日志記錄,系統可以產生全新的表,即“已經清洗的web日志記錄”,并且該表包括代理、引用頁面、訪問頁面、時間、IP地址、編號等。例如:“7、210.38.171.*、05/Nov/2003:09:46:398000、B.htn1、A4、htn1.Mozilla/4.0(Win+98)”。經過上述的預處理,服務器日志變成與相關挖速決挖掘算法的數據模型相符。
3 結語
Web日志作為一個巨大的數據量,通過人工的方式進行分析幾乎不可能,只有采用數據挖掘的技術手段,從安全性的角度分析web日志,才能確保web服務器的數據安全。當前信息技術的研究重點就是web數據挖掘技術,這也是現代科技相互融合的趨勢,該技術在互聯網的快速發展下將會實現理論與技術的發展,如多媒體數據、圖像圖形數據、結構和半結構文本數據的高效挖掘算法;web知識庫的動態更新及維護等等,進一步推動數據挖掘技術與數據庫技術的發展。
參考文獻
[1] 鄧詩琪,劉曉明,武旭東,等.Web服務器攻擊日志分析研究[J].信息網絡安全,2016(6):56-61.
[2] 應毅,任凱,曹陽.基于改進的MapReduce模型的Web挖掘[J].科學技術與工程,2013(5):1205-1209.
[3] 趙潔,溫潤,周峰,等.基于Web用戶日志的電子商務領域競爭對手分析——以11家電子商務網站為例[J].信息資源管理學報,2013(4):53-62,71.
[4] 周愛武,肖云,封軍.Web日志挖掘數據預處理優化[J].計算機技術與發展,2011(1):42-45.
[5] 李曉昕,謝維奇.基于Web日志挖掘的網上學習行為研究[J].計算機技術與發展,2011(12):73-76.endprint