999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析和隨機森林的DDoS攻擊檢測模型研究

2022-05-27 10:11:44胡曉紅繆祥華袁梅宇
化工自動化及儀表 2022年2期
關鍵詞:特征檢測模型

胡曉紅 繆祥華,b 袁梅宇,b

(昆明理工大學a.信息工程與自動化學院;b.云南省計算機技術應用重點實驗室)

如今, 互聯網安全越來越被人們所重視,在眾多現有的威脅中, 分布式拒絕服務攻擊(Distributed Denial-of-Service,DDoS)是一種操作起來相對簡單但傷害性非常大的攻擊內部網和Internet資源的技術[1~3]。 DDoS攻擊通過入侵分布在不同位置的主機,在這些主機上安裝控制程序使其被操控成為傀儡機來發起大規模的攻擊。 當攻擊者想要發起攻擊時,成為傀儡機的主機便會按照攻擊者的指令向被攻擊者發起大量攻擊,使得被攻擊者不能響應正常服務,而且該攻擊行為通常會長時間占用網絡帶寬和系統資源,讓正常訪問的用戶不能及時使用相應資源。

1 研究現狀

目前提出的針對DDoS攻擊檢測的方法很多,支持向量機(SVM)[4,5]、決策樹(Decision Tree)等機器學習方法都被用來檢測DDoS 攻擊。Sharafaldin I等提出基于信息增益來尋找最佳屬性[6],然后利用決策樹來對DDoS攻擊進行劃分的方法,該方法先計算數據特征的信息增益,而后根據計算出的每個特征信息增益的大小選出最佳屬性(不止一個),最后根據信息增益遞歸分割數據集生成決策樹,但是只尋找最佳屬性往往會使得一些數量較少的攻擊類型被忽略或者誤判。奚玉龍利用粒子群優化算法優化卷積神經網絡的卷積核以提高模型的訓練效率和全局尋優能力[7],對網絡數據特征首先用卷積神經網絡的權值共享和最大池化自動挖掘,然后用卷積核進行優化,但是優化時間過長,而對于DDoS攻擊來說,能夠更為快速地識別出DDoS攻擊是十分重要的。湯輝等利用重定向判定機制對訪問了分布式蜜罐系統的攻擊行為進行分析[8],如果判定是正常行為就交由正常服務器來響應,如果判定是攻擊行為則由蜜罐系統進行處理,這樣確保了系統的可靠性和實用性,但是經過蜜罐系統后,并不是所有數據都是攻擊數據,且判別的準確率和時間需要提高。

針對以上問題,筆者提出了基于主成分分析(Principal Component Analysis,PCA) 和隨機森林(Random Forest,RF)的DDoS攻擊檢測模型。 對于入侵數據首先用PCA進行降維處理, 因為入侵數據通常有非常多的特征,有些特征對于判定其是否為入侵數據并沒有起到很大作用, 而PCA可以保留數據的主要特征分量。 降維處理過的數據隨后放入隨機森林模型,通過對參數的調整,可以快速判別出該數據流是否為入侵數據, 與決策樹、SVM及KNN等機器學習算法相比, 準確率和檢測速度都得到了非常大的提升。

2 基于主成分分析和隨機森林的DDoS攻擊檢測模型

筆者采用基于主成分分析和隨機森林(PCARF)算法對DDoS攻擊進行檢測,提出了基于主成分分析和隨機森林的DDoS攻擊檢測模型(PCARF DDoS攻擊檢測模型)。 考慮到DDoS攻擊中數據量大和數據特征多的問題, 首先采用PCA對數據進行降維處理。 PCA是一種針對高維數據的技術, 對于處理特征維數多的數據具有很好的效果。 面對數據量大、特征種類繁多的數據,不管是機器學習算法還是神經網絡模型處理起這類數據往往都會出現耗時長且準確率不高的問題。 因此,對數據首先進行降維處理可以縮短算法的處理時間,并且通過降維還可以使得數據變得更加直觀和易于理解。 降維操作完成后,將處理過的數據放入隨機森林模型訓練分類。 隨機森林通過Bagging方式來產生多組不同的決策樹[9],然后將多個決策樹合并在一起組成“森林”[10]。 當需要對一個樣本進行預測時,森林中的所有樹開始參與投票,由于樹與樹之間相互獨立,每一棵決策樹都是經過隨機且互不影響的訓練樣本得到的,因此每棵樹的分類策略都不一樣, 投票結束后,綜合整個森林的決策得到最終的預測期望值,產生最優結果。

2.1 模型框架

筆者提出的PCA-RF DDoS攻擊檢測模型結構框圖如圖1所示, 該模型主要由3個模塊組成:數據預處理模塊、PCA-RF算法訓練模塊和分類測試模塊。

圖1 PCA-RF DDoS攻擊檢測模型結構框圖

2.2 具體算法

對于很多噪聲過大的數據來說,PCA可以去除噪聲,讓數據變得“干凈”。 更加具體地說,PCA可以將大量原始的數據特征融合成少量的特征空間,融合成的新的數據特征可以代表原始數據集中幾乎所有數據的特征。 將多個數據流量特征融合到少數幾個主要特征中,從而可以降低數據分析的復雜性。 PCA將m維的數據集X融合成n維的數據集Y(m>n),處理后的數據集Y不僅損失的信息很少,而且數據的冗余度也降低了,數據得以綜合利用。

首先,提取樣本特征生成特征矩陣X1,然后用如下公式計算出X1第j列的樣本標準差σj:

x′i1、y′i2、z′i3和w′i4表示每一維度特征減去該列的樣本標準差后得到新的特征矩陣X2中的每一個相應元素(此處以4個特征為例)。

得到新的特征矩陣后,在此基礎上計算協方差矩陣X3:

計算矩陣X3的特征值λ和對應的特征向量ξ,并將特征值從大到小排序:

其中E為單位矩陣。

選擇前k個特征值λ, 計算出其特征向量ξ組成特征矩陣X4,矩陣X4即降維處理完成的特征矩陣。

隨機森林是集成了決策樹特點的機器學習算法,它不僅繼承了決策樹在分類問題上的優點和容錯率高的特點,還解決了決策樹泛化能力差的缺點。

筆者提出的算法結合了PCA可以降低數據分析復雜性和隨機森林分類快的優點,具體算法如下:

輸入:數據集D,類別集合L,L={0,1} /*D為已經經過數據預處理的數據集*/

輸出:最終分類結果T,T={Attack,BENIGN}

①對數據集D生成特征矩陣X; /*X矩陣為有m維特征的矩陣*/

②For each xi∈X

③提取樣本特征xi,生成特征矩陣X1;

④End For

⑤根據式(1)得到新的特征矩陣X2;

⑥根據式(2)得到協方差矩陣X3;

⑦For each xi∈X3

⑧根據式(3)計算出特征值λi;

⑨End For

⑩根據λi計算出特征向量, 選取k個特征向量組成特征矩陣X4; /*以此便得出了k維特征矩陣*/

3 實驗結果與分析

3.1 實驗準備

實驗硬件為華為MateBook13, 操作系統為Windows 10,開發環境為jupyter notebook。 采用的數據集為CIC-DDoS2019[4]數據集,它一共包含了87個特征,有數十萬條數據,該數據集能夠最大限度地模擬真實數據流特征,彌補了以前數據集的缺點和局限性。

3.2 數據預處理

數據預處理操作過程如下:

a. 對數據進行數值化操作,數據集中包含了87個特征,其中float類型的特征有24個,int類型的特征有57個,object類型的特征有6個, 因此將6個object類型特征轉換為float類型,便于后續操作;

b. 對于冗余和無意義的特征進行刪除;

c. 對于部分行或者列中有缺省的數據進行填充, 填充方法是計算其上下條數據的平均值,然后將其作為缺省值填進去;

d. 利用Python中的LabelEncoder方法將標簽中的“Attract”和“BENIGN”轉換為“0”和“1”,便于分類;

數據預處理完成后,筆者用train_test_split方法將數據集分為訓練集和測試集。

3.3 評價指標

筆者將從準確率 (accuracy)、 精確率(precious)、召回率(recall)、F1-score和訓練時間5個方面對模型的DDoS攻擊檢測進行性能評價。而前幾類評價都依賴于混淆矩陣的計算,見表1。

表1 混淆矩陣

其中,TP表示數據類別為正常數據并且模型識別也為正常數據;FN表示數據類別為正常數據但是模型識別為攻擊數據;FP表示數據類別為攻擊數據但是模型識別為正常數據;TN表示數據類別為攻擊數據并且模型識別也為攻擊數據。

準確率acc是模型正確判斷出該數據為攻擊還是正常數量占所有預測數據總量的比例,計算方法為:

精確率pre是模型正確判斷出該數據為攻擊數據并且該數據也確實為攻擊數據的比例,計算方法為:

召回率recall的意思是模型正確判斷出攻擊數據占所有攻擊數據的比例,計算方法為:

F1-score(F1-score)用來衡量二分類問題中模型的綜合精準度,取值范圍為0~1,1代表模型分類結果最好,0代表模型的分類結果最差,計算方法為:

3.4 結果分析

將PCA-RF算法與傳統機器學習中的SVM、KNN、Na l¨ve Bayes、Logistic Regression 和Decision Tree進行對比, 在準確率、 精確率、 召回率、F1-score和訓練時間5個方面進行實驗,結果見表2。

表2 6種算法性能比較

實驗結果表明,筆者提出的PCA-RF算法在準確率、精確率、召回率、F1-score和訓練時間5個方面均優于其他算法,分別達到了99.92%、99.22%、99.92%、99.92%、7.311 1 s。 證實了隨機森林在檢測DDoS攻擊中有著比SVM、KNN等傳統學習算法更加優秀的表現[11]。

4 結束語

針對DDoS攻擊檢測問題中的準確率低、檢測時間長的問題, 提出了基于PCA和隨機森林的DDoS攻擊檢測模型。 首先使用PCA對數據集進行特征降維,保留數據的主要特征分量,降維處理過的數據放入隨機森林模型,可以快速得到分類結果。 實驗結果表明,該算法在準確率、精確率、召回率、F1-score和訓練時間5個方面均優于SVM、KNN、Na ve Bayes、Logistic Regression、Decision Tree這5種算法。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲成av人无码综合在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲欧洲AV一区二区三区| 特级欧美视频aaaaaa| 国产黄色爱视频| 久久久久国产精品嫩草影院| 亚洲精品无码不卡在线播放| 久久精品最新免费国产成人| av一区二区无码在线| 91九色视频网| 91青青草视频| 亚洲精品视频免费| 色噜噜在线观看| 中文字幕资源站| aⅴ免费在线观看| 亚洲视频二| 91视频日本| 久久久久国产一级毛片高清板| 国产大片黄在线观看| 欧美成人一级| 麻豆国产精品一二三在线观看| 日韩精品一区二区三区免费| 欧美性色综合网| 亚洲第七页| 秋霞一区二区三区| 日韩色图在线观看| 日韩久草视频| 国产精品一区不卡| 91成人精品视频| 精品伊人久久久香线蕉 | 麻豆精品在线| 亚亚洲乱码一二三四区| 国产高清在线精品一区二区三区| 亚洲Aⅴ无码专区在线观看q| 国产91在线|日本| 中文字幕人妻无码系列第三区| 成人一区在线| 小说区 亚洲 自拍 另类| 国产麻豆va精品视频| 高潮毛片免费观看| 高清久久精品亚洲日韩Av| 中文字幕va| 欧美精品成人| 欧美午夜在线播放| 国产精品lululu在线观看| 欧洲高清无码在线| 国产在线日本| 国产自无码视频在线观看| 国内精品小视频在线| 亚洲黄色视频在线观看一区| av在线人妻熟妇| 国产免费自拍视频| 国产第三区| 99视频在线看| 99久久国产精品无码| 欧美性爱精品一区二区三区| 久久夜夜视频| 无码综合天天久久综合网| 国产精品极品美女自在线| 国产男女免费完整版视频| 粗大猛烈进出高潮视频无码| 一级毛片在线免费视频| 手机精品视频在线观看免费| 一本久道久久综合多人| 97国内精品久久久久不卡| 久久久精品无码一二三区| 日本成人一区| 国产 在线视频无码| 91久久夜色精品国产网站| 99re视频在线| 欧美精品v欧洲精品| 国产爽歪歪免费视频在线观看| 特级精品毛片免费观看| 在线日韩一区二区| 亚洲视屏在线观看| 国产欧美亚洲精品第3页在线| 视频二区亚洲精品| 成人欧美在线观看| 国产乱子伦无码精品小说| 亚洲大尺码专区影院| 日本亚洲欧美在线| 丝袜美女被出水视频一区|