999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據流挖掘的網絡邊界防護技術研究*

2016-08-10 03:43:00姜洪海王婷婷
計算機與數字工程 2016年7期
關鍵詞:挖掘

姜洪?!⊥蹑面谩∽蟆∵M

(1.海軍北海艦隊司令部機要處 青島 266000)(2.海軍工程大學信息安全系 武漢 430033)

?

基于數據流挖掘的網絡邊界防護技術研究*

姜洪海1王婷婷1左進2

(1.海軍北海艦隊司令部機要處青島266000)(2.海軍工程大學信息安全系武漢430033)

摘要針對網絡邊界安全檢測與防護問題,提出了基于數據流挖掘的網絡邊界防護模型。該模型從數據流的角度出發,首先對網絡數據進行抽樣并預處理,然后應用數據流挖掘技術進行規則挖掘,最后根據挖掘結果對網絡進行分析和控制。仿真實驗表明,在網絡安全檢測中,數據流挖掘方法比傳統的模式匹配方法更具有優勢。

關鍵詞網絡邊界; 防護; 數據流; 挖掘

Class NumberTP393

1引言

網絡安全問題一直是互聯網技術領域熱點問題之一,尤其是不同網絡之間的邊界安全,其所受到的安全威脅來源呈日益增長態勢。近年來,隨著網絡技術的發展,部分網絡出口流量就達到百G甚至更高,在超大規模網絡之間交換的數據量則更高,甚至達到千G[1]。如何維護高速網絡邊界安全己成為一個現實問題?,F有網絡之間交換的數據往往呈流式狀態,針對如此大規模的數據流安全檢測問題,傳統的邊界安全檢測與防護手段存在諸多問題:需要多次訪問數據,無法處理潛在無限的數據流;計算復雜度太高,難以一次性處理所有數據流;空間復雜度太大,有限內存難以計算[2]。

為了從大量冗余的信息中提取出潛在有價值的信息,衍生出了一個全新的領域—數據挖掘。數據挖掘就是從海量的、模糊信息中獲取有效的、潛在有用的信息和知識的過程[3~4]。而數據流挖掘就是在流式數據上提取有效的、有價值的信息和知識的過程。數據流挖掘技術能夠在大規模流式數據中發現特征或規則。在網絡異常行為分析和入侵檢測領域,利用數據流挖掘技術可以從大量的審計數據中找出正?;蛉肭中再|的行為模式,從而構建自動檢測模型。基于數據流挖掘的網絡安全檢測方法具有自適應強、無監督和檢測效率高等優點。本文從數據流挖掘的角度出發,研究基于數據流挖掘的網絡邊界行為檢測和防護技術。

2網絡邊界防護難點

網絡邊界是指具有不同安全策略的網絡連接處或者是邏輯隔離的不同網絡之間分界線。網絡邊界內涵豐富,不僅包含傳統的物理邊界,還包括網絡之間的邏輯邊界。網絡邊界的復雜性與廣泛性決定了其所受的安全威脅來源多樣,如網絡內外部的信息泄露、針對網絡邊界設備或系統服務器的網絡攻擊、內嵌在軟件中的網絡病毒、盜用網絡信息的木馬入侵等。目前針對網絡邊界的防護主要是配備邊界路由器、邊界防火墻、邊界防病毒設備、邊界流量監控等。如此多的邊界防護軟硬件容易產生安全信息過載現象,造成管理的混亂。網絡邊界的防護關鍵是能夠對各種網絡安全威脅進行快速有效的檢測,對檢測到的威脅進行及時隔離與處理,從而才能夠確保網絡安全。

3數據流挖掘在網絡行為分析中的優勢

網絡中的程序或用戶在網絡中的各種行為,往往可以通過其產生的網絡行為數據來反映。從捕獲的網絡行為數據中,選擇合適的有代表性的行為屬性進行模式挖掘處理,構建網絡的正常行為特征庫,通過實時比較網絡的當前行為和行為特征庫,可以實現對網絡異常的檢測和分析,維護網絡的安全。

數據流挖掘就是從大量流式數據中挖掘出潛在的有價值的信息知識過程。數據流挖掘包括對數據流的頻繁模式挖掘、分類挖掘、聚類挖掘和關聯規則挖掘[5~7]。該技術主要根據流式數據本身的固有屬性進行挖掘分析,從數據之間的差異發現價值信息,挖掘模型不依賴專家系統,不需要過多的人工參與。將數據流挖掘技術應用到網絡異常行為分析和網絡防護,具有智能性好、自動化程度高、檢測效率高、自適應性強和誤報率低等優點。

4基于數據流挖掘的網絡邊界防護模型

圖1為基于數據流挖掘的網絡邊界防護模型,主要分為三個模塊:數據流抽樣與預處理模塊、數據流挖掘與規則輸出模塊、網絡邊界安全控制模塊。下面對其進行詳細介紹。

4.1數據流抽樣與預處理模塊

網絡數據流的抽樣是對大量、高速、時變的網絡數據包按一定比例進行約減抽取。通過對網絡數據流的抽樣,可以降低網絡分析與測量的實現代價,從而實現對網絡的安全檢測和性能監控等目的。對網絡數據流的抽樣,最重要的是利用樣本能夠恢復出原有數據的特性即保真,但同時也需要追求抽樣方案的簡單性與可行性以提高效率[8]。

圖1 基于數據流挖掘的網絡邊界防護模型

網絡數據流的抽樣樣本為網絡數據包,將數據包統計為網絡連接記錄,仍然不能直接用于數據挖掘,需要對其進行預處理。預處理過程主要包括特征屬性項的選取、屬性值的數值化和屬性值的標準化。

4.1.1特征屬性項的選取

鑒別并選取關鍵屬性項作為數據流挖掘算法的輸入,對于數據分析來說意義重大。不僅可以降低算法的復雜度和所需存儲空間,而且可以提高算法的準確率。以KDD99數據集為例,對于數據集中每一條網絡連接記錄的41個特征屬性,文獻[9]根據PFRM算法(基于效能等級的重要特征排序算法)篩選出了對應于不同網絡攻擊行為的重要特征屬性子集,如表1所示。表中數字對應KDD99數據集中各特征屬性項編號,即1~41個特征屬性項。

表1 PFRM算法重要特征屬性子集列表

綜合得出PFRM算法可選擇的特征屬性項個數為19個,即特征屬性項集F1={1,2,3,4,5,6,10,12,23,24,25,26,29,32,33,34,36,38,39}。文獻[10~11]利用RS粗糙集理論對數據集的屬性進行約簡,并和SVDF、LGP、MARS算法進行比較,選出了六個最為重要的特征屬性項。各算法選擇的重要特征屬性項如表2所示。

表2 RS、SVDF、LGP、MARS算法重要特征屬性子集列表

考慮到RS選擇的特征屬性子集能夠很好地判斷入侵,且特征屬性項的個數較小,容易實現,本文采用的是RS算法對數據集屬性約簡篩選出的特征屬性項子集F3={3,4,5,24,32,33}。

4.1.2屬性值的數值化

在網絡連接記錄中的所有特征屬性中,還包含一些非數值數據,如flag、service、Protocol_type等屬性值是字符串類型。為了能夠對其運算,需要將這些字符串變為數值型。連接正?;蝈e誤的狀態—flag屬性,取值有S0,S1、S2、S3、SF、SH、OTH、REJ、RSTO、RSTOSO、RSTR,一共11個,可分別將其轉換對應為整數1~11;協議類型—Protocol_type屬性的取值有icmp、tcp、udp可對應為整數1~3,其他協議類型一律對應為4;對于目標主機的網絡服務類型—service一共有70種取值,可分別對應于整數1~70。

4.1.3屬性值的標準化

大多數的數據流挖掘算法是根據相似度對算法的輸入即特征屬性項進行挖掘分析的,將相似度小的數據聚為一類,相似度大的數據分開。而相似度對特征屬性項的值域范圍是非常敏感的。例如,相似度采用歐式距離進行運算時,對如下兩組數據進行相似度的判斷:

第一組:{(1,1,2,3),(2,2,3,2)};

第二組:{(180,340,320,120),(280,240,420,220)};

第一組中兩個數據的相似度:

第二組中兩個數據的相似度;

=200

如果算法以數值3為相似度的度量標準,則根據得到的結果,第一組應該歸為一類,第二組應該被劃分開。但事實上,第二組兩個數據之間的距離與第一組兩個數據之間的相對距離等同。直接用特征屬性的值進行計算勢必造成很大誤差,必須對數據進行標準化。

對于包含m個特征屬性項的L個數據的數據集DS,由式(1)~式(3)將其轉換到新的標準化空間NEW_DS。mean_vector[i]和std_vector[i]分別是數據集DS中第i個特征屬性項的均值和標準方差。

(j∈(1,2,…,L),i∈(1,2,…,m))

(1)

(2)

(3)

這樣,通過式(1)~式(3)后,可將數據集中不同特征屬性項由其初始空間轉換到標準空間,消除不同值域范圍對挖掘算法的影響。

4.2數據流挖掘分析與規則輸出模塊

將抽樣數據流進行預處理之后,待挖掘數據的真實性、數據量以及數據質量已經可以得到保障,接下來就可以對處理過的數據進行深層次的分析和挖掘了。這部分工作主要是從待挖掘的數據中找到異常數據,挖掘出隱藏在數據中的重要價值信息,并且以規則這種可接收、可理解可應用的形式展示出來。

如圖2所示,為數據流挖掘與規則輸出的整個流程。首先需要選擇合適的挖掘算法對數據進行挖掘分析,同時將分析的結果以圖表或文本規則的形式進行總結,最后輸出。

圖2數據流挖掘與規則輸出過程

4.2.1數據流挖掘算法

對數據進行挖掘應用最為廣泛的是J.B.MacQueen提出的k-means算法即K均值算法。由于該算法簡單、高效、適用于大規模數據集的處理,自提出后就被廣泛應用于各種領域。經典的K均值算法屬于劃分聚類方法,目標是最小化平方誤差和函數。算法經過多次迭代,將Rd空間上的數據集X={x1,…,xi,…,xn}劃分聚類到K個不同類簇當中,使得類簇間相似度盡可能小,類簇內相似度盡可能大。K均值算法首先隨機指派K個數據點作為算法的初始聚類中心,然后采用歐式距離計算所有點到達各個中心的距離,把各個點劃分到離其最近的中心點所屬類簇。對調整后的類簇重新計算其簇中心,再次更新所有點的所屬簇,如此反復迭代,直至聚類準則函數收斂或達到迭代次數,算法結束。具體聚類過程如圖3所示。

圖3 K均值算法聚類過程

4.2.2挖掘結果判斷

對于網絡邊界數據流來說,挖掘的結果主要是找出其中具有潛在威脅的信息即異常信息。異常,從某種意義上說是一種模式,這種模式中的數據并不滿足我們熟知或者預定義的正常數據范圍,在整個數據流中找出符合這種模式的數據稱之為異常檢測。而在聚類中,對異常的挖掘是基于數據對象與大眾數據的偏離程度。所有數據通過無監督的聚類算法按照相似度差異進行聚類劃分之后,被分成不同的類簇。對異常的判斷基于以下兩個原則:在同一個類簇中,正常的數據對象離類簇中心距離較近,而異常數據對象離類簇中心距離較遠;在不同的類簇之間,正常的數據對象屬于規模較大、數據密集的類簇,而異常數據對象屬于嬌小的、數據稀疏的類簇。如圖4所示,在一個二維數據集中,所有數據被聚類劃分為三類。數據集中的大部分數據都聚集在類簇C1和C2中,對于較為稀疏的類簇C3和離類簇中心距離較遠的數據點d1和d2都可以被判斷為異常數據點。

圖4 數據挖掘結果判斷

4.3網絡邊界安全控制模塊

當利用數據流挖掘技術發現異常數據流之后,需要對該數據流所代表的網絡行為進行監控或及時阻斷,此功能主要由網絡邊界安全控制模塊來完成。作為網絡邊界安全控制中心,通過允許、拒絕網絡之間流通的數據流,網絡邊界安全控制模塊實現對出入網絡的服務、訪問進行審計和控制,對用戶的行為進行監控,對具有不安全傾向行為早發現早預防,削弱、減少網絡中的脆弱點,達到網絡防護的目的。具體措施包括斷開連接或關閉訪問資源、根據相應的安全策略進行響應、向用戶告警等。

5仿真分析

在網絡邊界防護過程中,對網絡入侵或者攻擊行為的識別是關鍵,為了分析數據流挖掘在網絡行為判斷中的優勢,本文對數據流挖掘方法和傳統入侵檢測系統的模式匹配方法進行了仿真對比,主要分析兩種方法對網絡攻擊數據的檢測率、誤檢率和檢測時間。

實驗配置:Win 7,VC++6.0,Matlab7.1,CPU 2.4 GHz,2.0 GB內存。實驗數據來源于UCI機器學習數據庫[12]的KDD數據集。其中,KDD數據集有四大類攻擊數據即異常數據:Dos(拒絕服務攻擊)、Probing(監視與探測)、R2L(遠程非法訪問)、U2R(普通用戶對本地超級用戶的非法訪問)。該數據集中的每一個連接記錄可提供一個完整的網絡會話。表3是摘自KDD99數據集的三條網絡連接記錄,以CSV格式呈現。

表3 KDD99數據集

結果如表4所示。對于前三種攻擊數據,檢測率方面,數據流挖掘檢測方法平均比傳統模式匹配檢測方法提高了4%,用時方面平均少了1468ms。這是因為數據流挖掘技術主要根據數據本身的固有屬性進行挖掘分析,效率較高。但是在誤檢率方面,傳統模式匹配檢測方法根據原有的攻擊行為模型進行一一吻合檢測,誤檢率較低。綜合來看,在整體數據集的檢測中,數據流挖掘檢測方法除了在誤檢率方面稍微落后一些,在檢測率和檢測時間方面,優于傳統的模式匹配檢測方法。

表4 兩種方法對攻擊數據的檢測效果比較

6結語

本文主要研究了基于數據流挖掘的網絡邊界防護技術。提出了基于數據流挖掘的網絡邊界防護模型,主要包括數據流抽樣與預處理模塊、數據流挖掘與規則輸出模塊、網絡邊界安全控制模塊。并對防護模型中涉及到的關鍵技術和環節進行了重點介紹。最后利用編程仿真,分析了數據流挖掘技術在網絡行為分析中的優勢。將數據流挖掘技術應用到網絡異常行為分析和網絡防護,具有智能性好、檢測效率高等優點,如何在真實網絡環境中搭建平臺與實踐應用,將是本文下一步研究方向。

參 考 文 獻

[1] 白生江.主動型軍用網絡邊界防護系統研究[D].西安:西安電子科技大學,2010.

BAI Shengjiang. Study of Proactive Military Network Security Border Protection System[D]. Xi’an: Xi’an Electronic and Science University,2010.

[2] 劉本倉.基于采樣數據流挖掘的網絡行為分析研究[D].西安:西安電子科技大學,2009.

LIU Bencang. Research On Network Behavior Analysis Based on Sampling Stream Data Mining[D]. Xi’an: Xi’an Electronic and Science University,2009.

[3] 李賀玲.數據挖掘在網絡入侵檢測中的應用研究[D].長春:吉林大學,2013.

LI Heling. Study on Application of data mining in network intrusion detection[D]. Changchun: Jilin University,2013.

[4] 譚林.基于NMHS4C和M-Apriori的Snort入侵檢測研究[D].武漢:武漢科技大學,2015.

TAN Lin. Research on Intrusion Detection Based on Snort NMHS4C and M-Apriori[D]. Wuhan: Wuhan University of Science and Technology,2015.

[5] Shie B E, Yu P S, Tseng V S. Efficient algorithms for mining maximal high utility itemsets from data streams with different models[J]. Expert Systems with Applications,2012,39(17):12947-12960.

[6] Li H F. MHUI-max: An efficient algorithm for discovering high-utility itemsets from data streams[J]. Journal of Information Science,2011,37(5):532-545.

[7] Song W, Liu Y, Li J. Mining high utility itemsets by dynamically pruning the tree structure[J]. Applied Intelligence,2014,40(1):29-43.

[8] InMon. sFlow accuracy and billing[EB/OL]. http://www.inmon.com/PDF/sFlowBilling.pdf,2015-10-10.

[9] 田俊鋒,王惠然,劉玉玲.基于屬性排序的入侵特征縮減方法研究[J].計算機研究與發展,2006,43(Suppl):565-569.

TIAN Junfeng, WANG Huiran, LIU Yuling. Research on Reduction Method of Intrusion Features Based on Ordering Features[J]. Journal of Computer Research and Development,2006,43(Suppl):565-569)

[10] Ivan Bruha. Pre-and Post-Processing in Machine Learning and Data Mining[J]. Machine Learning and Its Applications,2010,18(3):258-266.

[11] 陳才杰.粗糙集理論在知識發現數據預處理中的研究與應用[D].武漢:武漢理工大學,2014.

CHEN Caijie. Research and Application of Rough Set on Data Preprocessing of Knowledge Discovery[D]. Wuhan: Wuhan University of Technology,2014.

[12] Asuncion A, Newman D. UCI Machine Learning Respository[EB/OL].[2015-12-1].http://archive.ics.uci.edu/ml/datasets.html.

收稿日期:2016年1月6日,修回日期:2016年2月14日

作者簡介:姜洪海,男,工程師,研究方向:信息安全。王婷婷,女,碩士,工程師,研究方向:網絡安全。左進,男,碩士,研究方向:信息安全。

中圖分類號TP393

DOI:10.3969/j.issn.1672-9722.2016.07.023

Network Boundary Protection Technology Based on Data Stream Mining

JIANG Honghai1WANG Tingting1ZUO Jin2

(1. Confidential Room, Navy North Sea Fleet Headquarters, Qingdao266000)(2. Information Security Department, Naval University of Engineering, Wuhan430033)

AbstractIn view of the problem of network boundary security detection and protection, a network boundary protection model based on data stream mining is proposed. From the view of data flow, the network data is sampled and processed first, then the data stream mining technology is applied to rule mining. Finally, the network is analyzed and controlled according to the mining results. Simulation experiments show that, in the network security detection, the data stream mining method has more advantages than the traditional pattern matching method.

Key Wordsnetwork boundary, protection, data flow, mining

猜你喜歡
挖掘
高中物理課程資源體系的挖掘與研究
初中英語老師如何充分挖掘學生學習英語的興趣
新一代(2016年17期)2016-12-22 12:24:37
挖掘“文本”空白,讀悟表達補白
東方教育(2016年4期)2016-12-14 08:19:03
挖掘網絡資源推進高中開展綜合實踐活動
創設英語課堂中的德育模式
深入挖掘教學資源 提高課堂教學效率
使德育開花結果
將“再也沒有”帶向更有深度的思考中
古詩詞教學中藝術內涵的挖掘策略
挖掘檔案文化資源推進檔案文化建設
資治文摘(2016年7期)2016-11-23 00:37:46
主站蜘蛛池模板: 中文字幕 91| 亚洲中文字幕国产av| 国产成人亚洲综合A∨在线播放| 国产青榴视频| 久久99热66这里只有精品一| 国产成人精品一区二区三区| 九色综合伊人久久富二代| 久久黄色影院| 亚洲中文字幕久久精品无码一区 | 国产综合欧美| 高清视频一区| 99re在线免费视频| 99视频在线免费| 91在线播放免费不卡无毒| 色综合五月| 国模私拍一区二区| 亚洲视频无码| 国产精品久线在线观看| 日韩二区三区| 亚洲香蕉在线| 伊人色婷婷| 激情视频综合网| 亚洲欧洲综合| 久久国产精品夜色| 亚洲天堂视频在线观看| 国产在线一区视频| 亚洲无码日韩一区| 亚洲精品黄| 亚洲一区精品视频在线| 久久青草免费91线频观看不卡| 日本AⅤ精品一区二区三区日| 亚洲国产天堂在线观看| 亚洲成a人片7777| 男人天堂亚洲天堂| 国产高清免费午夜在线视频| 免费网站成人亚洲| 婷婷99视频精品全部在线观看| 91网在线| 成人免费黄色小视频| 人妻熟妇日韩AV在线播放| 91九色国产porny| 一本大道无码高清| a毛片基地免费大全| 一级全黄毛片| 国产av一码二码三码无码| 成人伊人色一区二区三区| 丁香亚洲综合五月天婷婷| 自偷自拍三级全三级视频| 呦视频在线一区二区三区| 国产精品午夜福利麻豆| 亚欧美国产综合| 欧美日韩另类国产| 国产福利小视频在线播放观看| 亚洲三级色| 欧美啪啪视频免码| 99热亚洲精品6码| 精品国产女同疯狂摩擦2| 在线精品欧美日韩| 国产剧情国内精品原创| 久久久久人妻精品一区三寸蜜桃| 久久香蕉欧美精品| 亚洲男人的天堂在线观看| 午夜国产精品视频| 欧美日韩91| 国模私拍一区二区三区| 视频国产精品丝袜第一页| 午夜不卡福利| 高清国产在线| 五月婷婷欧美| 久久国产精品影院| 国产18在线播放| 99精品在线看| 国产精品永久不卡免费视频| 国产一区二区影院| 狠狠久久综合伊人不卡| 久久久久人妻一区精品| 亚洲日韩日本中文在线| 在线欧美国产| 日韩美女福利视频| 粗大猛烈进出高潮视频无码| 欧美日韩久久综合| 正在播放久久|