999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CWGAN-GP 平衡化的網(wǎng)絡惡意流量識別方法

2022-10-29 01:57:36丁要軍王安宙
電子科技大學學報 2022年5期
關鍵詞:分類方法模型

丁要軍,王安宙

(甘肅政法大學網(wǎng)絡空間安全學院 蘭州 730070)

在機器學習和數(shù)據(jù)挖掘領域,惡意流量不平衡是一種普遍存在的現(xiàn)象。目前對惡意流量不平衡數(shù)據(jù)分類的研究主要涉及兩種方法[1]:一是對分類算法進行新的設計或改進;二是在數(shù)據(jù)級別上進行操作,主要通過過采樣、欠采樣或混合采樣來達到數(shù)據(jù)集的平衡。現(xiàn)有的過采樣方法主要分為傳統(tǒng)方法和基于生成對抗網(wǎng)絡的方法。大多數(shù)傳統(tǒng)的過采樣方法都基于SMOTE 技術[2],由于這些方法更關注局部數(shù)據(jù)信息,生成的數(shù)據(jù)不夠真實;另一種是基于生成性對抗網(wǎng)絡(generative adversarial networks,GAN)[3],它可以捕捉數(shù)據(jù)的真實分布并直接生成合成數(shù)據(jù),用于無監(jiān)督學習。隨后,文獻[4]提出了一種基于條件生成對抗網(wǎng)絡(conditional generative adversarial networks, CGAN)的模型,該模型在GAN的基礎上加入了條件信息生成特定的類別。然而,GAN 與CGAN 都會受到不穩(wěn)定訓練(梯度消失)和模式崩潰的影響。為解決這些問題,WGAN(Wasserstein generative adversarial networks)[5]隨 即被提出,該模型使用EM 距離(也稱為Wasserstein)而不是JS 散度來度量真實數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的距離,從理論上解決了梯度消失的問題,可有效緩解模式崩潰問題。但CGAN 與WGAN 依然存在著訓練只生成質量不高的樣本或模型無法收斂。在使用GAN 模型解決網(wǎng)絡惡意數(shù)據(jù)分類問題中,文獻[6]提出了GAN 模型生成具備可執(zhí)行性和攻擊性的惡意網(wǎng)絡流樣本,但它只針對緩沖區(qū)溢出漏洞攻擊進行了研究,模型的泛化性有待進一步研究。文獻[7]提出了Attack-GAN 模型,用于生成能夠敝開入侵檢測系統(tǒng)的數(shù)據(jù)包級別對抗網(wǎng)絡流量。文獻[8]提出將WGAN-GP 與CGAN 優(yōu)勢融合的CWGAN-GP(conditional Wasserstein generative adversarial network-gradient penalty)方法,該方法不僅生成更真實多樣的數(shù)據(jù),而且克服了模式崩潰和訓練不穩(wěn)定的問題。

本文將WGAN-GP 與輔助條件信息相結合,作為一種新的過采樣方法,為網(wǎng)絡流量圖片不平衡數(shù)據(jù)集中的少數(shù)類生成合成樣本。

1 CWGAN-GP 原理

與其他GAN 模型及其衍生版本類似,CWGANGP 也是由鑒別器(discriminator)和生成器(generator)組成,它們以相反的方式訓練,通過博弈使得生成的樣本與真實數(shù)據(jù)無法區(qū)分。CGAN 模型在原始GAN 模型上添加輔助條件信息,WGAN-GP 模型以同樣的方式擴展到CWGAN-GP。CWGANGP 采用EM 距離來評估真實樣本和模擬樣本之間的分布,且加入了條件信息。Wasserstein 距離為:

CWGAN-GP 是通過懲罰鑒別器相對于其輸入梯度的范數(shù)來替代WGAN 削減權重,有效克服了WGAN 模型難以收斂的問題。

為限制生成器生成方向,使生成器能夠生成特定類別數(shù)據(jù),與CGAN 類似,CWGAN-GP 模型向生成器和鑒別器添加了附加信息y,y可以是類別標簽或任何其他類型的輔助信息。本文中條件信息是類別標簽。在鑒別器中,將Pdata、Pg和y以聯(lián)合隱藏表達的形式結合;在生成器中,以相同的形式將條件y與生成數(shù)據(jù)分布pg連接。函數(shù)形式為:

CWGAN-GP 的目標是使L最小化[9],從而實現(xiàn)生成數(shù)據(jù)與真實數(shù)據(jù)之間的分布距離更小。與傳統(tǒng)的過采樣方法相比,CWGAN-GP 直接生成數(shù)據(jù),而不只是關注局部信息。

2 基于CWGAN-GP 的流量圖片數(shù)據(jù)平衡方法

由于深度學習模型對輸入數(shù)據(jù)格式有具體要求,本節(jié)介紹數(shù)據(jù)集的預處理方法,將原始流量數(shù)據(jù)進行圖片化處理,在此基礎上對數(shù)據(jù)擴充平衡。

2.1 網(wǎng)絡流量圖片化

基于文獻[10]對數(shù)據(jù)處理的經(jīng)驗,本節(jié)的網(wǎng)絡流量圖片化主要是使用工具集USTC-TK2016 將原始流量數(shù)據(jù)(PCAP 或PCAPNG 格式)處理成IDX數(shù)據(jù)集格式(更好的遷移到多數(shù)模型)。

1) 流量切分:按照流量表示形式將原始PCAP文件按照數(shù)據(jù)流形式切分為多個PCAP 文件,本數(shù)據(jù)流是具有相同五元組信息的數(shù)據(jù)包的時間排序集合。

2) 圖片生成:將處理過的文件按照784 字節(jié)進行統(tǒng)一長度處理,即保留文件前784 字節(jié)數(shù)據(jù),舍棄文件785 字節(jié)以后的所有信息,如果長度少于784 字節(jié),則在文件后面補充0x00;統(tǒng)一長度后的文件按照二進制形式轉換為灰度圖片,即一個字節(jié)對應灰度像素值,如0x00 對應黑色,0xff 對應白色,輸出格式為PNG。

3) 數(shù)據(jù)集格式轉換:將生成的多類別圖像轉換為包含圖像像素信息和統(tǒng)計信息的IDX 格式,方便后續(xù)數(shù)據(jù)擴展和分類模型輸入。

完成以上處理操作后,每張圖片都是28*28 的灰度圖片,這些圖片類別之間有良好的區(qū)分度,保證了深度學習模型分類有很好的效果。

2.2 流量圖片數(shù)據(jù)平衡

將預處理完成的數(shù)據(jù)放入CWGAN-GP 圖像生成器中,利用CWGAN-GP 能穩(wěn)定地生成多樣樣本的特點產(chǎn)生新的少數(shù)類別流量圖片。生成數(shù)據(jù)是具有真實圖像特征且多樣性較強的擴充數(shù)據(jù),利用這些數(shù)據(jù)對原始不平衡數(shù)據(jù)集進行數(shù)據(jù)擴充,不僅能有效平衡數(shù)據(jù)集,還能防止像傳統(tǒng)上采樣技術擴充數(shù)據(jù)集所造成的數(shù)據(jù)樣本單一、訓練模型容易過擬合的問題。CWGAN-GP 網(wǎng)絡的鑒別器損失是與生成圖片質量高度相關的參數(shù),在生成階段加入一個判別函數(shù),在鑒別器、生成器損失小于某閾值時輸出生成圖像,保證生成的圖像與原始真實圖像的高度相關性。平衡方法如圖1 所示。

圖1 基于CWGAN-GP 數(shù)據(jù)平衡方法

1) 將需要擴充的少數(shù)類真實流量圖制作成IDX數(shù)據(jù)集格式,輸入進CWGAN-GP 模型中進行訓練。

2) 在生成器損失小于C1且鑒別器損失小于C2時,將生成器騙過鑒別器的圖像按類別輸出。本文的C1、C2絕對值大小分別為1.0 和0.2,在大量訓練情況下記錄生成器、鑒別器損失大小變化,如圖2 所示,C1、C2是在考慮時間效率下相對收斂的損失值大小。

圖2 生成器、鑒別器損失變化

3) 將生成的流量圖片與原始流量圖片進行合,完成原始數(shù)據(jù)集的平衡。

平衡完成的數(shù)據(jù)是和原始流量圖片高度相關且具有多樣性,如圖3 所示,可以看出利用此方法可以生成人眼均可明確分辨的相關圖像,且具有一定的多樣性。生成數(shù)據(jù)相關程度在實驗結果中得到驗證。

圖3 生成流量圖與真實流量圖對比

3 實驗結果分析

3.1 不平衡數(shù)據(jù)集

實驗使用的是公共數(shù)據(jù)集USTC-TFC2016 和CIC-IDS2017[11]中的部分數(shù)據(jù),數(shù)據(jù)集由原始PCAP文件組成。從USTC-TFC2016 中選擇了9 類應用程序,其中包括6 類正常應用流量和3 類異常應用流量;從CIC-IDS2017 選擇10 類應用程序,9 類異常應用流量和1 類正常流量,數(shù)據(jù)集均有較大的不平衡。使用不同方法使數(shù)據(jù)集實現(xiàn)平衡,將數(shù)據(jù)樣本隨機劃分成90%的訓練集和10%的測試集。數(shù)據(jù)集平衡前后分布如表1 和表2 所示。為保證實驗有效性,數(shù)據(jù)集的測試集部分均為真實數(shù)據(jù),生成數(shù)據(jù)只對訓練集部分進行平衡。

表1 USTC-TFC2016 數(shù)據(jù)集平衡前后分布

表2 CIC-IDS2017 數(shù)據(jù)集平衡前后分布

3.2 模型參數(shù)設置

對于相同的超參數(shù),設置均保持相同;對于不同的超參數(shù),單獨設置。GAN、WGAN 和CWGANGP 均為4 層神經(jīng)網(wǎng)絡,噪聲空間的維數(shù)設置為100,batch_size 設置為64。WGAN 和CWGAN-GP將α、β1、和β2 分別設置為0.002、0.5 和0.999;clip_value 均為0.01;critic 設置為5,即當生成器訓練1 個batch 時,判別器要接著訓練5 次;梯度懲罰系數(shù)λ 在CWGAN-GP 中設置為10,訓練批次均為在滿足2.2 節(jié)條件下且生成數(shù)據(jù)數(shù)量足夠時停止;SMOTE 方法的k_neighbors 為5。

本文使用的分類模型是經(jīng)典LeNet-5[12]的CNN結構,CNN 模型使用交叉熵損失,batch_size 設置為50,訓練輪次均為2 000。

3.3 評價標準

本文使用評價網(wǎng)絡流量分類器的性能指標有精確度(precision)、召回率(recall)和F1-score。

3.4 實驗結果及分析

實驗在一臺配置了Intel(R)Core(TM) i7-7700HQ CPU @2.80 GHz 處理器、16 GB 內存、GPU(GeForce GTX1050)、Win10 系統(tǒng)的筆記本電腦上運行。使用TensorFlow 1.15.0+Keras 2.3.1 深度學習平臺實現(xiàn)分類操作,基于GAN 及其衍生版本的數(shù)據(jù)生成方法使用torch1.3.1+GPU 實現(xiàn)。

使用CNN 模型對5 種平衡方法和原始數(shù)據(jù)進行實驗測試。只對訓練集進行處理,測試集全部為原始數(shù)據(jù)。隨機選取10%的樣本集作為測試集,并對剩余90%的數(shù)據(jù)集進行平衡化作為訓練集。為消除隨機劃分數(shù)據(jù)集對結果的影響,將實驗重復5 次取平均值作為最終結果,結果如圖4、圖5所示。

圖4 CIC-IDS2017 分類結果對比

圖5 USTC-TFC2016 分類結果對比

經(jīng)過對比得到在相同訓練參數(shù)下,使用CWGAN-GP 方法進行流量圖片平衡后的數(shù)據(jù)集相較于其他分類方法識別效果提升明顯,且在多數(shù)類別上識別均值高于使用其他平衡方法。CWGANGP 方法的最終效果優(yōu)于其他方法,F(xiàn)1 值在IDS2017上相較于原始數(shù)據(jù)提高近3%,較于SMOTE 方法提高近2%;在TFC2016 上較原始提高近4%,較SMOTE 提高近1.3%;在兩個數(shù)據(jù)集上均有識別率較低的流量類別,這些流量類別具有一定隱蔽性,不易被識別出來,但本方法對識別率有較大提高,驗證了本方法具有一定的魯棒性,且不易出現(xiàn)模式崩潰和收斂困難的問題。由于相較于WGAN-GP添加了輔助信息,在生成效率上也有很大提高。均值結果統(tǒng)計如表3、表4 所示。

表3 CIC-IDS2017 分類結果均值統(tǒng)計

表4 USTC-TFC2016 分類結果均值統(tǒng)計

4 結 束 語

本文提出了利用流量圖片化結合CWGANGP 來處理惡意流量識別領域的不平衡問題,此方法通過學習原始數(shù)據(jù)的真實分布來生成新的數(shù)據(jù)。

在兩個不同的惡意流量不平衡數(shù)據(jù)集上,通過使用深度學習分類算法CNN 對基于CWGAN-GP方法進行了評估。實驗結果表明,CWGAN-GP 在所有指標下均優(yōu)于其他過采樣方法,但需要更多的時間進行訓練。在未來的研究中,將對CWGANGP 進行更加深入的理論研究,加速其訓練和收斂過程;并探索更加合理的生成數(shù)據(jù)評價指標。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲国产精品一区二区高清无码久久| 亚洲精品老司机| 九九九久久国产精品| 亚洲精品动漫| 国产精品妖精视频| 高清精品美女在线播放| 四虎永久在线| 日韩国产一区二区三区无码| 91福利在线看| 亚洲免费人成影院| 国产另类乱子伦精品免费女| 热久久国产| 国产成人免费| 在线精品自拍| 国产性精品| 国外欧美一区另类中文字幕| 成年人国产网站| 欧美a级完整在线观看| 成人毛片免费在线观看| 亚洲大学生视频在线播放| 热思思久久免费视频| 少妇极品熟妇人妻专区视频| 一边摸一边做爽的视频17国产| 亚洲国产中文精品va在线播放| 亚洲毛片一级带毛片基地| 午夜人性色福利无码视频在线观看| 亚洲无码视频一区二区三区| 亚洲aaa视频| 亚洲人成人无码www| 欧美精品v日韩精品v国产精品| AV老司机AV天堂| 欧美精品v日韩精品v国产精品| 一本大道在线一本久道| 国产成人三级| 青草视频在线观看国产| 伊人久久福利中文字幕| 黄色网址手机国内免费在线观看| 亚洲精品日产精品乱码不卡| 天堂av综合网| 亚洲精品麻豆| 91精品久久久久久无码人妻| 呦视频在线一区二区三区| 国产亚洲精品自在久久不卡 | 日韩123欧美字幕| 亚洲最大在线观看| 中文字幕久久亚洲一区| а∨天堂一区中文字幕| 2020国产精品视频| 免费精品一区二区h| 伊大人香蕉久久网欧美| 国产午夜小视频| 亚洲Av激情网五月天| 99这里只有精品在线| 亚洲第一黄片大全| 无码在线激情片| 永久免费精品视频| 日韩免费毛片| 日韩无码视频播放| 丁香六月激情综合| 国产无码性爱一区二区三区| 免费人成黄页在线观看国产| 免费 国产 无码久久久| 日韩高清一区 | 日韩无码真实干出血视频| 亚洲欧美成人影院| 日韩在线观看网站| 国产真实乱人视频| 欧美日一级片| 第九色区aⅴ天堂久久香| 国产日本欧美亚洲精品视| 精品国产成人av免费| 嫩草影院在线观看精品视频| 五月天综合网亚洲综合天堂网| 久草视频中文| 久久综合丝袜日本网| 亚洲成A人V欧美综合天堂| 亚洲女同一区二区| 最近最新中文字幕在线第一页 | 色噜噜综合网| 亚洲成人网在线观看| 91精品啪在线观看国产91| 日韩欧美中文字幕在线精品|