999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Spark框架下聚類模型在網絡流量異常檢測中的應用

2017-05-18 03:40:01周顯春
網絡安全技術與應用 2017年5期
關鍵詞:效果檢測方法

◆周顯春 肖 衡

(三亞學院信息與智能工程學院 海南 572022)

Spark框架下聚類模型在網絡流量異常檢測中的應用

◆周顯春 肖 衡

(三亞學院信息與智能工程學院 海南 572022)

本文在Spark 平臺上采用基于RDD的聚類模型對網絡流量異常進行檢測。在Spark的集群環境下,通過對比測試準確率、WCSS發現,k-means++聚類模型比BisectingKMeans模型更加適合對網絡流量進行檢測。該實驗結果對從事網絡流量異常的檢測的研究者有一定的借鑒作用。

網絡流量檢測;Spark ;k-means++;BisectingKMeans

0 引言

近年來,隨著“互聯網+”、云平臺、大數據等新技術高速發展,互聯網現在已經成為經濟發展和社會進步的不可或缺的推動力量。與此同時,網絡信息的數據量也呈現爆炸式增長,呈現4V特性(量大、多樣性、速度快、價值密度低)。在大數據的環境下,原有的病毒、黑客、電子竊聽、電子欺詐的檢測技術效率底下,使得網絡的安全問題尤其突出。

同時,為了滿足大容量數據分布式處理的要求,國外研究者提出Apache Spark。Spark是一種分布式、開源的計算框架,目的是為了簡化基于計算機集群的并行程序的編寫。Spark不僅可以發揮MapReduces的對大數據的處理能力[1],還可以充分利用數據集內存緩存、啟動任務的低遲延、迭代類運算、實時計算的支持和強大的函數式編程接口[2]。國外學者已經在 Spark平臺用使用機器學習算法KMM檢測網絡流量異常,而且檢測效果較好[3]。但是聚類算法在檢測網絡流量異常檢測時,仍然存在對分類數K值和初始化中心缺乏有效機制保證的缺陷。針對這個問題,無論是在非Spark還是Spark平臺上,有國內學者提出改進KMM,實驗證明檢測效果很好[4-7],但是在Spark平臺上研究網絡流量異常的較少,尤其是對各種聚類方法檢檢測效果的對比研究。

因此,本文提出在Spark平臺上利用各種常見的聚類模型進行網絡流量異常檢測,對比k-means++、BisectingKMeans的測試效果進行比較,找到更適合網絡流量異常檢測的方法,為有效分析網絡海量數據提供一條有力的解決途徑。

1 相關研究

1.1 網絡流量檢測技術的現狀

目前,基于機器學習算法的網絡流量異常檢測方法分為監督學習、無監督學習和半監督學習。其中,有監督學習網絡流量異常檢測方法首先需要使用監督學習機器學習算法先對帶有特征值的訓練樣本進行訓練得到一個預測值,然后把預測值和實際的流量類型進行對比,最后用調試好參數的模型去檢測新接受的網絡數據,判斷其是正常數據,還是異常數據。但需要有已知類型的訓練樣本[8],而且是不能檢測未知類型的數據,實時性檢測效果差。有監督學習網絡流量異常檢測方法直接對帶有特征值的訓練數據進行分析,調試好參數,就可以用于檢測新的接受網絡數據,得出所屬類型,檢測效果很好[9-10],但是算法復雜度高[11]。半監督學習把監督學習和無監督學習進行結合,在預測精度和需要已知類型的樣本之間取得了很好的折中[12]。

1.2 聚類方法

聚類方法,是數據進行分類,讓所有類似的數據在一簇,它是一種無監督的學習方法。常見的聚類算法主要包括 K-均值聚類、模糊 K-均值、層次聚類(凝聚聚類和分列式聚類)等。在聚類方法中,初始質心得選擇和質心的數量是找到一個最優模型的關鍵。如果它們的值初始化或選擇不恰當,會造成聚類局部最優,不能找到最有參數,造成預測效果差。因此,研究聚類方法的質心及其數量就成為重點、難點。

Zhang Tian 等[13]提出了一種Canopy-Kmeans 算法,在K-均值聚類算法執行之前,先執行 Canopy 算法預處理。后面還有很多學者也展開了相關研究,然而,都并沒有從根本上解決初始選值的問題。尤其是隨著大數據時代的到來,單一的節點已經無法處理海量數據,需要能夠高效、簡單的能夠在集群上并行運行的算法。

1.3 大數據分布式計算模型

為了應付爆炸式增長數據的有效分析,研究者提出了兩種基本的大數據分析開源計算模型:Hadoop 和Spark。Hadoop,它是受2003年至2006年Googl公司的GFS、MapReduce、Big Table的啟發而開發了三大神器:滿足海量數據訪問和存儲的分布式文件系統(HDFS)、高效和并行的計算機編程模型(MapReduce)、支持海量數據管理的Hase,能夠滿足分布式存儲、訪問、分析、檢索大容量數據的要求,但是對數據科學家來說,存在不能滿足數據緩存和支持迭代算法的要求。2009年,Spark 由加州大學伯克利分校AMPLab 實驗室開發,是對Hadoop強有力的補充,可以在YARN(Hadoop2)所支持的MapReduce上運行,還可以與其他開源Mesos,EC2平臺集成。Spark 是用Scala 語言實現的,但是開發接口語言不一定是scala語言,還可以是Python、R、Java語言。Spark 設計理念與核心基于RDD(Resilient Distributed Dataset)和采用有向無環圖的任務調度機制,可以讓中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark 能更好地適用于數據挖掘與機器學習等需要迭代的算法[14-16]。

1.4 基于Spark的聚類方法

在 Spark 平臺上實現的聚類方法有 K-means、GaussianMixture、BisectingKMeans、LDA。其中在網絡流量檢測方面應用的方法主要有K-means、BisectingKMeans。K-means聚類是一種非常經典的挖掘算法,BisectingKMeans是一種結構化的聚類方法,但是都具有初始值不穩定,容易陷入局部最優的缺點。

1.4.1 k-means++算法流程

(1)首先隨機初始化K個聚類中心;

(2)計算所有樣本距離K個聚類中心的歐式距離;

(3)每個樣本比較距離K個聚類中心的歐式距離,找到最小距離后,將其歸納到距離這個樣本最小的聚類中心;

(4)計算每個聚類樣本距離該聚類中心距離的平均值,調整聚類中心;

(5)迭代處理(2)~(4),一直到每個聚類中心不再調整,或者該聚類的平均距離小于某個閾值。

1.4.2 BisectingKMeans

(1)所有樣本自稱為一簇;

(2)然后WCSS下降最快的點劃分為兩個簇;

(3)重復(1)、(2)、(3),一直到簇的數和K值相等。

1.5 評價指標

聚類模型性能的評價指標分為內部指標和外部指標。內部指標是以歐式距離、馬氏距離等為依據,Spark平臺上實現了歐式距離,名稱為聚類的方差和(WCSS),找到最小值也就知道了最佳模型。外部指標有F-measure、Rand measure等,但是需要訓練的數據帶有標簽才能計算。本實驗采用WCSS對聚類的效果進行評價,然后找到合適的K值。

2 實驗與結果分析

2.1 實驗環境與實驗數據

本實驗采用虛擬機上安裝 ubuntuserver16.10,并安裝了必須Java8、Hadoop2.7、Spark2.10搭建Spark 計算集群平臺,具體配置見表:

表1 集群的配置情況

本實驗數據采用Kaggle大賽的用于網絡入侵的數據,每條數據記錄了信息發送的字節數、登錄次數等屬性。共有38特征,有489.8多萬個樣本[3]。 通過查準率、誤差平方對三種不同聚類方法的檢測效果進行對比試驗。為了讓實驗結果更加的可信,需要對數據的特征進行規范化。可以利用computeColumnSummaryStatisticsh函數統計,信息如下:

(1)平均值

[48.342430463958564,1834.6211752293812,1093.6228137132 127,……,0.057659413800050824]

(2)方差值

[523206.01584971714,8.862924680175377E11,4.16040910679 9707E11,5.716084530911116E-6,……,0.0533507023089224]

從上面顯示的結果,無論是平均值還是方差都能夠發現了存在離群點,它會影響聚類檢測的效果,因此需要歸一化處理。

2.2 聚類效果實驗

在spark平臺上運用k-means++、BisectingKMeans對數據處理。對比最優的K值及其檢測效果。

(1)K的比較(WCSS的值縮小為原來的萬分之一)

圖1 K和WCSS的關系圖

WCSS的值是選擇合適K值得依據。它的值越小,聚類的效果就越好。從圖1可知,Kmeans++算法合適的 K值是 40,而BisetingKMeans算法合適的K值是100。

(2)檢測效果比較

用708M數據對KMeans++和BisetingKMeans進行訓練后,找到最有K值,然后預測每個數據是正常數據還是異常數據。把數據帶有的標簽和預測值相比較,統計效果,包括檢測率(檢測到的攻擊數據占所有攻擊數據的比重)和誤警率(檢測為攻擊的正常數據占所有正常數據的比重)。具體檢測情況如下表。

表2 檢測效果比較

由表2可知,KMean++采用兩種不同的區分數據正常和異常的標準。檢測率達到了 99.94%,是采用常用的區別標準,直接根據數據所在聚類的類別來劃分,簡單但是誤警率高,達到24.90%。采用閾值的標準,如果某個點到所屬聚類的距離超過了確定的第110點距離聚類的距離(先按照距離排序),則判為異常數據。測試效果的誤警率降低到13.2%,但是檢測率也下降了。BisetingKMeans 也采用第二種標準。KMean++在Spark平臺上的檢查效果要比BisetingKMeans好,誤警率較大,達到了13.2%。而且在實驗過程中,BisetingKMeans訓練的時間特別長,不適合在線分析。

3 結束語

本文提出在Spark平臺上利用聚類模型來進行網絡流量異常檢測,對比k-means++、BisectingKMeans的測試效果進行比較,找到更適合網絡流量異常檢測的方法,在一定程度上提升了應付網絡攻擊的能力。但是,本次實驗的結果是只分類正常數據和異常數據兩類,沒有針對攻擊類型分類檢測,而且采用數據的是離線數據,缺乏實時性,下一步研究的主要方向為:調試聚類參數、修改聚類算法或者借助SparkStreaming完成基于聚類的網絡流量異常的在線分析等。

[1]唐振坤.基于Spark的機器學習平臺設計與實現[D].廈門大學,2014.

[2]蔡立宇,黃章帥,周濟民譯,(南非)Nick Pentreath著.Spark機器學習[M].北京:人民郵電出版社,2016.

[3]Sandy Ryza,UrilLaserson,SeanOwen,Josh Wills著.Spark高級數據分析.龔少成譯[M].北京:人民郵電出版社,2016.

[4]張佃倫.基于粗糙集的聚類算法及其在入侵檢測中的應用[D].青島科技大學,2015.

[5]吳哲夫, 張彤, 肖鷹. 基于 Spark平臺的 K-means聚類算法改進及并行化實現[J]. 互聯網天地, 2016(1):44-50.

[6]李淋淋, 倪建成, 于蘋蘋.一種基于聚類和 Spark框架的加權Slope One算法[J].計算機應用, 2017.

[7]張波. 基于Spark的K-means算法的并行化實現與優化[D].華中科技大學, 2015.

[8]陳曉,趙晶玲.大數據處理中混合型聚類算法的研究與實現[J].信息網絡安全,2015.

[9]黃俊,韓玲莉,陳光平.基于無指導離群點檢測的網絡入侵檢測技術[J].小型微型計算機系統,2007.

[10]蔣盛益,李慶華.無指導的入侵檢測方法[J].計算機工程,2005.

[11]李錦玲,汪斌強.基于最大頻繁序列模式挖掘的App-DDoS 攻擊的異常檢測[J].電子與信息學報,2013.

[12]陸悠,李偉,羅軍舟.一種基于選擇性協同學習的網絡用戶異常行為檢測方法[J].計算機學報,2014.

[13]ZHANGT,RAMAKRISHNANR,LIVNYM. BIRCH:an efficient dataclustering method for very large databases[C]// ACM Sigmod Record. 1996.

[14]孫科.基于 Spark 的機器學習應用框架研究與實現[D].上海:上海交通大學,2015.

[15]尹緒森.Spark與 MLlib: 當機器學習遇見分布式系統[J].程序員,2014.

[16]陳虹君.基于 Spark 框架的聚類算法研究[J].電腦知識與技術,2015.

海南省教育科學規劃課題成果(QJY13516047):基于大數據的個性化學習模式構建及實證研究;海南省教育廳科研項目(Hnky2015-55):面向多媒體的高速率無線傳輸技術研究;三亞市院地科技合作項目(2015YD11):基于非連續的寬頻譜無線網絡傳輸技術研究。

猜你喜歡
效果檢測方法
按摩效果確有理論依據
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲日韩AV无码一区二区三区人| 亚洲欧美天堂网| 污污网站在线观看| 国产毛片网站| 欧美翘臀一区二区三区| 午夜福利免费视频| 91久久天天躁狠狠躁夜夜| 国产精品视频白浆免费视频| 怡春院欧美一区二区三区免费| 成年片色大黄全免费网站久久| 欧美日韩免费在线视频| 9丨情侣偷在线精品国产| 欧美伊人色综合久久天天| 免费视频在线2021入口| 国产精品99一区不卡| 亚洲精品在线观看91| 日本高清免费不卡视频| 精品无码一区二区三区在线视频| 日本高清成本人视频一区| 欧美成人在线免费| 日韩一区精品视频一区二区| 国产综合精品日本亚洲777| 爆乳熟妇一区二区三区| 国产精品三级专区| 97青青青国产在线播放| 久久人人爽人人爽人人片aV东京热 | 69av免费视频| 亚洲色图另类| 97综合久久| 亚洲中文久久精品无玛| 欧美 国产 人人视频| 成人在线观看不卡| 国产精品漂亮美女在线观看| 色偷偷综合网| 亚洲激情区| 国产一级毛片yw| 91啦中文字幕| 99er这里只有精品| 国产麻豆精品在线观看| 国产美女叼嘿视频免费看| www.91中文字幕| 亚洲精品欧美重口| 亚洲AⅤ综合在线欧美一区| 欧美日韩精品综合在线一区| 一级毛片免费观看久| 老司国产精品视频91| 手机在线看片不卡中文字幕| 极品性荡少妇一区二区色欲| 亚洲成年网站在线观看| 99久久精品无码专区免费| 国产欧美亚洲精品第3页在线| 91成人免费观看在线观看| 国产精品思思热在线| 色婷婷在线播放| 国产杨幂丝袜av在线播放| 就去色综合| 天天摸夜夜操| 国产全黄a一级毛片| 久久亚洲美女精品国产精品| 国产视频 第一页| 国产免费网址| 91福利一区二区三区| 久久精品最新免费国产成人| 91免费国产高清观看| 激情午夜婷婷| 国产成人精品第一区二区| 精品剧情v国产在线观看| 国产乱论视频| 亚洲中文字幕在线一区播放| 强奷白丝美女在线观看| 成人亚洲国产| 亚洲综合狠狠| 国产色爱av资源综合区| 国产在线精品99一区不卡| 亚洲国产天堂在线观看| 久久精品人人做人人综合试看| 国产精品私拍在线爆乳| 亚洲免费三区| 激情無極限的亚洲一区免费| 色综合网址| 国产精品视频猛进猛出| 久久国产精品国产自线拍|