999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類算法在流量分析中的應(yīng)用

2019-07-20 13:24:35龍穎何加龍胡雪
電子技術(shù)與軟件工程 2019年10期
關(guān)鍵詞:數(shù)據(jù)處理

龍穎 何加龍 胡雪

摘要:本文從網(wǎng)絡(luò)流量的數(shù)據(jù)來源出發(fā),淺談了聚類算法處理網(wǎng)絡(luò)流量的基本流程。

[關(guān)鍵詞]聚類算法 流量分析 數(shù)據(jù)處理 FCM

隨著互聯(lián)網(wǎng)的發(fā)展,各種網(wǎng)絡(luò)應(yīng)用層出不窮,人們對(duì)網(wǎng)絡(luò)帶寬的需求增加。對(duì)網(wǎng)絡(luò)運(yùn)營商、網(wǎng)絡(luò)管理員來說,高效識(shí)別和管理網(wǎng)絡(luò)流量,能有效進(jìn)行網(wǎng)絡(luò)帶寬分配和網(wǎng)絡(luò)調(diào)度;流量識(shí)別也能幫助某些應(yīng)用對(duì)用戶行為開展研究,以提供更好的服務(wù),如購物網(wǎng)站、廣告精準(zhǔn)投放等;在網(wǎng)絡(luò)安全領(lǐng)域,通過流量分析,識(shí)別正常網(wǎng)絡(luò)流量和異常流量,輔助識(shí)別網(wǎng)絡(luò)攻擊。

1 流量分析數(shù)據(jù)來源

數(shù)據(jù)傳輸?shù)姆庋b特性使管理員無法打開流量數(shù)據(jù)包查看內(nèi)容,只能根據(jù)流量的特點(diǎn)進(jìn)行大致分類。流量分析數(shù)據(jù)來源有兩種,一種是離線流量數(shù)據(jù),一種是實(shí)時(shí)流量數(shù)據(jù)。

數(shù)據(jù)集是離線流量數(shù)據(jù)的典型代表。在實(shí)際研究中,訓(xùn)練流量分析算法一般均會(huì)采用特殊處理的網(wǎng)絡(luò)流量數(shù)據(jù)集,如MCFP、HTTP DATASET CSIC 2010、WIDE、KDD99等。某些數(shù)據(jù)集已經(jīng)標(biāo)注正常網(wǎng)絡(luò)流量和異常網(wǎng)絡(luò)流量,并提供了訓(xùn)練集和測(cè)試集,在監(jiān)督學(xué)習(xí)中有很重要的作用。

但是隨著網(wǎng)絡(luò)協(xié)議的不斷演進(jìn),網(wǎng)絡(luò)通信雙方采取異種網(wǎng)絡(luò)協(xié)議的情況增多,網(wǎng)絡(luò)攻擊方式的多樣化,對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)包的正確標(biāo)注需要耗費(fèi)大量的人力,異形數(shù)據(jù)、加密數(shù)據(jù)給數(shù)據(jù)標(biāo)注帶來更多困難。在網(wǎng)絡(luò)流量分析模型中,絕大多數(shù)樣本都是正常的,只有極少數(shù)是異常的,在先驗(yàn)概率較低的情況下,這部分異常樣本往往會(huì)被忽略,這種非均衡化特性使監(jiān)督算法效率降低,而且隨著網(wǎng)絡(luò)帶寬的增加和網(wǎng)絡(luò)應(yīng)用的數(shù)目劇增,對(duì)網(wǎng)絡(luò)實(shí)時(shí)流量的分析成為主要訴求。

個(gè)人用戶可以利用wireshark、sniffer等軟件捕獲實(shí)時(shí)流量,利用軟件自帶的協(xié)議分析、故障診斷、入侵檢測(cè)等模塊,匹配用戶自定義規(guī)則,可以便捷對(duì)網(wǎng)絡(luò)流量進(jìn)行分析和處理。但軟件捕獲局限性較大,一"般只能捕獲通過本機(jī)網(wǎng)絡(luò)適配器的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)包從發(fā)送方到接收方需要經(jīng)過數(shù)個(gè)網(wǎng)絡(luò)設(shè)備如交換機(jī)、路由器、網(wǎng)關(guān)等,在此過程中,網(wǎng)絡(luò)運(yùn)營商可以通,過監(jiān)聽網(wǎng)絡(luò)設(shè)備端口、設(shè)備端口復(fù)制等方式對(duì)流量進(jìn)行采集。監(jiān)聽網(wǎng)絡(luò)設(shè)備端口采集流量一般要對(duì)設(shè)備進(jìn)行專門的配置,且流量采集和存儲(chǔ)要求較高,這種大規(guī)模的流量采集和分析可以為運(yùn)營商提供網(wǎng)絡(luò)整體性能分析依據(jù)。

實(shí)時(shí)流量采集面臨諸多問題,首先是采集效率,采集來的流量數(shù)據(jù)包含大量無用信息,價(jià)值密度低,不能直接進(jìn)行處理;其次是實(shí)時(shí)流量包含用戶隱私,采集數(shù)據(jù)使用不當(dāng)會(huì)造成用戶隱私泄露。

2 流量數(shù)據(jù)預(yù)處理

數(shù)據(jù)集中的流量數(shù)據(jù)和采集來的原始數(shù)據(jù)價(jià)值密度低,噪聲數(shù)據(jù)、冗余數(shù)據(jù)、數(shù)據(jù)缺失均會(huì)影響算法的處理效率,因此,在流量分析前需要對(duì)這些數(shù)據(jù)開展預(yù)處理工作,加快數(shù)據(jù)分析的過程。

數(shù)據(jù)清洗。數(shù)據(jù)清洗的主要任務(wù)是對(duì)缺失數(shù)據(jù)進(jìn)行填充,平滑噪聲數(shù)據(jù),檢測(cè)并去除離群點(diǎn),過濾不符合要求的數(shù)據(jù)。

數(shù)據(jù)變換。數(shù)據(jù)變換指將數(shù)據(jù)轉(zhuǎn)化成適合處理的形式,如將連續(xù)數(shù)據(jù)離散化、減少數(shù)據(jù)復(fù)雜度、按比例縮放數(shù)據(jù)、增加數(shù)據(jù)粒度等,經(jīng)過變換的數(shù)據(jù)呈現(xiàn)的行為會(huì)比未變換的數(shù)據(jù)更加容易挖掘,但也可能導(dǎo)致一些細(xì)節(jié)丟失。

數(shù)據(jù)降維。盡管在某些情況下,數(shù)據(jù)的高維特性可以幫助數(shù)據(jù)分類,但對(duì)于網(wǎng)絡(luò)流量而言,某些維度存有大量與數(shù)據(jù)分析無關(guān)的信息,這些冗余信息會(huì)減慢數(shù)據(jù)分析進(jìn)程。數(shù)據(jù)降維是指找出能最佳替代原始數(shù)據(jù)的最小屬性集,在保留數(shù)據(jù)矩陣的關(guān)鍵特征的前提下,對(duì)高維數(shù)據(jù)進(jìn)行低維投影有利于數(shù)據(jù)挖掘和可視化。3聚類算法在流量分析中的應(yīng)用

非監(jiān)督的分析方式由于不需要事先標(biāo)注,成為網(wǎng)絡(luò)流量分析的主要手段。聚類算法能在非監(jiān)督的情形下把數(shù)據(jù)對(duì)象集劃分為多個(gè)組或簇,簇內(nèi)對(duì)象具有極高相似性,簇間對(duì)象有極大不同。在流量分析過程中,能將自動(dòng)將行為類似的網(wǎng)絡(luò)流量分為關(guān)系緊密的子集或簇。

K-means算法是經(jīng)典的基于數(shù)據(jù)對(duì)之間距離的聚類形式,將數(shù)據(jù)劃分成多個(gè)相互排斥的簇,隨機(jī)給定樣本初始聚類中心,在樣本類別未知的情況下,計(jì)算樣本的距離(歐氏距離、閔氏距離、馬氏距離等),根據(jù)樣本離簇中心的遠(yuǎn)近,將樣本劃入各個(gè)簇,最終,每個(gè)樣本都被確切劃分到一個(gè)簇中。這種嚴(yán)格將數(shù)據(jù)樣本劃分到具有明確界限的簇是典型的硬劃分形式。

由于有時(shí)數(shù)據(jù)界限不那么明確,樣本不能被嚴(yán)格劃分到簇中?;谀:腇CM算法能解決數(shù)據(jù)界限不明確的問題。在模糊聚類中,每個(gè)樣本對(duì)簇的隸屬度范圍以[0,1]表示。但是模糊聚類算法也存在一些問題,比如對(duì)初始值和噪聲敏感、矩陣計(jì)算耗時(shí)長(zhǎng)等。為了解決大數(shù)據(jù)環(huán)境下FCM聚類時(shí)間長(zhǎng)的問題,QingYu等提出了基于MapReduce框架的FCM算法,王桂蘭等針對(duì)FCM算法會(huì)產(chǎn)生大量矩陣計(jì)算的問題,提出并行環(huán)境下的FCM算法。

其他聚類算法如DBSCAN、SSN、CURE等在流量分析中均有廣泛應(yīng)用。

4 結(jié)語

網(wǎng)絡(luò)技術(shù)的發(fā)展日益成熟,對(duì)網(wǎng)絡(luò)流量分析的要求也越來越高,對(duì)流量進(jìn)行分析可以監(jiān)測(cè)用戶行為,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)異常,能幫助人們盡快做出應(yīng)對(duì)。

參考文獻(xiàn)

[1]楊雅輝,網(wǎng)絡(luò)流量異常檢測(cè)及其分析研究[J].計(jì)算機(jī)科學(xué),2008(05):108-112.

[2]汪立冬,錢麗萍.網(wǎng)絡(luò)流量分類方法與實(shí).踐[M].北京:人民郵電出版社,2013.

[3]Qing Yu, Zhimin Ding. Improved Canopy-FCM Algorithm Based 0n Ma pReduce. International Congress on Image andSignal Processing [C]. USA: IEEE, 2016.

[4]王桂蘭,周國亮,薩初日拉,朱永利.Spark環(huán)境下的并行模糊C均值聚類算法[J].計(jì)算機(jī)應(yīng)用,2016,36(02):342-347.

猜你喜歡
數(shù)據(jù)處理
驗(yàn)證動(dòng)量守恒定律實(shí)驗(yàn)數(shù)據(jù)處理初探
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
ADS-B數(shù)據(jù)處理中心的設(shè)計(jì)與實(shí)現(xiàn)
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
大數(shù)據(jù)處理中基于熱感知的能源冷卻技術(shù)
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
數(shù)據(jù)處理能力在求職中起關(guān)鍵作用
我國首個(gè)“突發(fā)事件基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn)”發(fā)布
主站蜘蛛池模板: 国产一区二区色淫影院| 国产黑丝视频在线观看| 国产精品内射视频| 成人一级黄色毛片| 色男人的天堂久久综合| 色亚洲成人| 久久美女精品| 国产一级毛片网站| 国产成人超碰无码| 国产网友愉拍精品| 香蕉网久久| 国产精品一老牛影视频| 日韩国产黄色网站| 天天躁夜夜躁狠狠躁图片| 中文字幕亚洲综久久2021| 午夜福利网址| 91精品综合| 91啪在线| 国产一级妓女av网站| 亚洲高清在线天堂精品| 国产精品亚洲天堂| 国产幂在线无码精品| 亚洲女同一区二区| aa级毛片毛片免费观看久| 国产极品美女在线观看| 亚洲福利一区二区三区| 国产精品私拍在线爆乳| 伊人丁香五月天久久综合| 久青草国产高清在线视频| 高潮爽到爆的喷水女主播视频| 国产在线无码av完整版在线观看| 精品国产香蕉在线播出| 亚洲色图在线观看| 亚洲精选无码久久久| 国产精品原创不卡在线| 亚洲第一视频网| 婷婷六月激情综合一区| 国产亚洲欧美另类一区二区| 香蕉网久久| 国产精品99久久久久久董美香| 在线日韩一区二区| 国产乱人伦AV在线A| 亚洲大尺度在线| 国产精品自在在线午夜区app| 尤物成AV人片在线观看| 国产AV无码专区亚洲A∨毛片| 欧美精品1区2区| 91在线一9|永久视频在线| 91www在线观看| 国产成人综合在线视频| 丁香婷婷激情网| 国产美女久久久久不卡| 天天躁夜夜躁狠狠躁躁88| 国产鲁鲁视频在线观看| 成人在线亚洲| 国产在线91在线电影| 天天操天天噜| 女同久久精品国产99国| 国产一在线观看| 97视频免费在线观看| 内射人妻无码色AV天堂| 欧美日韩国产成人高清视频| 91久久偷偷做嫩草影院电| 全色黄大色大片免费久久老太| 亚洲日韩高清在线亚洲专区| 国产精品原创不卡在线| 欧美在线网| 中文字幕1区2区| 好紧好深好大乳无码中文字幕| 国产中文在线亚洲精品官网| 四虎精品免费久久| 日韩无码精品人妻| 制服丝袜在线视频香蕉| 青青国产成人免费精品视频| 91网站国产| 99久久免费精品特色大片| 原味小视频在线www国产| 精品少妇人妻无码久久| 91美女视频在线| 国产成人做受免费视频| 国产va欧美va在线观看| 一级成人a毛片免费播放|