999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向樣本不平衡的網絡安全態勢要素獲取

2022-01-22 07:46:26欣,朱
計算機工程與應用 2022年1期
關鍵詞:分類模型

張 欣,朱 江

重慶郵電大學通信與信息工程學院,重慶 400065

隨著物聯網、第五代移動通信系統的發展,網絡趨于復雜化和大型化,互聯網承載的信息更為豐富,未來將真正實現萬物互聯。隨之而來的數據泄露、網絡攻擊問題凸顯[1],數不勝數的網絡安全威脅和紛繁復雜的網絡攻擊手段使得傳統的殺毒軟件、防火墻等防護手段也難以主動防御。為了應對日益嚴峻的大規模網絡安全形式,網絡安全態勢要素獲取[2]分析各個安全要素,篩選出影響網絡安全的主要因素,對這些數據信息要素進行理解、融合并剔除存在的冗余數據,要素獲取對把握網絡安全態勢起到不可或缺的作用。

近幾年,機器學習被應用在網絡安全態勢感知領域[3-8],例如,文獻[3]采用支持向量機(support vector machine,SVM)作為要素獲取模型,文獻[4]研究了基于極限學習機(extreme learning machine,ELM)的要素獲取模型,文獻[5]研究了基于反向傳播(back propagation,BP)的要素獲取模型。以上模型均可實現安全態勢要素獲取分類,且具有學習速度快、泛化性較好的優點,但都屬于淺層結構且表征能力有限,面對高維、非線性的海量真實網絡數據時,其要素分類精度不夠理想。因此,深度學習以其強大的擬合能力正逐漸成為機器學習領域的熱點[9]。例如,已有學者將卷積神經網絡(convolutional neural network,CNN)用在入侵檢測領域[10-11],該方法能更好地提取數據特征,有效提高分類精度并降低模型的復雜度,缺點是現有態勢要素獲取模型中,無法解決實際運用(實際網絡流量數據)存在部分樣本數據量相比于其他數據量過小,存在模型無法正確識別各個不同的攻擊類型的特征分布,以至于模型泛化能力不足,無法正確識別樣本,難以保證對要素的準確獲取以及態勢預測,使得管理員對未來的網絡狀態無法做出準確判斷。

為了提高在數據集分布不平衡情況下小樣本的分類精度,本文擬設計一種基于樣本特征的態勢要素獲取模型。主要工作概括如下:

(1)通過設計一個改進的CNN 基分類器對樣本進行分類,得到理想的大樣本分類精度,并根據樣本量級特征和分類精度對樣本進行分類。

(2)對數據過小的超小樣本,通過生成對抗網絡[12](generative adversarial network,GAN)來進行數據增強。

(3)在擴充后的小樣本的數據集,結合遷移學習這一方法微調基分類器,提高小樣本的分類精度。

1 網絡安全態勢要素獲取模型框圖

網絡安全態勢要素獲取本質上是對態勢要素進行分類,模型框圖如圖1所示,通過改進的CNN 基分類器模型對所有樣本進行樣本特征學習,然后根據樣本量級和基分類器得到的分類精度,將樣本分為大樣本(樣本數據量大,通常占比為總樣本的10%以上,基分類器指標優越)、較小樣本(樣本數量與大樣本數量差別較大,影響基分類器精度,通常占比為總樣本2%到5%之間,基分類器精度較為不理想)和超小樣本(樣本數據量極小,通常占比為總樣本1%左右,于基分類器中無法訓練出有意義的分類,分類精度幾乎為0),由于CNN基分類器存在較強擬合能力[13],因此得到了較好的大樣本分類精度。但是由于樣本不平衡,小樣本的分類精度不夠理想,需要進一步優化。具體措施是:通過GAN與遷移學習相結合的方法,先使用樣本擴充器深度卷積生成對抗網絡(deep convolutional generative adversarial network,DCGAN)來對超小樣本訓練集進行類內擴充,得到平衡的小樣本訓練集,再結合遷移學習微調基分類器,達到在較短的迭代次數以及樣本不足的情況下,也能很好學習小樣本特征的目的,得到適應小樣本的新CNN 分類器,提高小樣本的分類精度。該要素獲取模型主要分為以下4個步驟:

圖1 要素獲取模型框圖Fig.1 Block diagram of element acquisition mechanism

步驟1 數據集預處理,將原始的一維網絡流量數據集X=[x1,x2,…,xL]1×L∈RM×L處理成適合態勢要素獲取分類機制的K×K二維矩陣格式。

步驟2 有監督學習訓練CNN 基分類器,并篩選出小樣本。

步驟3 訓練本文搭建樣本擴充器,實現數據增強。

步驟4 在平衡后的小樣本訓練集中,結合遷移學習微調基分類器,提高小樣本分類精度。

1.1 數據集預處理

1.1.1 NSL-KDD數據集

本文的分析對象是NSL-KDD[13]數據集,此數據集是國際上廣泛應用于網絡安全分析的網絡流量數據,比起KDDCup99 數據集,該數據集剔除了重復多余的數據,所以能夠更好地滿足本研究試驗模型的驗證要求。選取數據集KDDTrain和KDDTest+共148 514個樣本作為實驗數據,本文的實驗數據分布如表1所示。該數據集主要包括正常數據(normal)和4 種攻擊類型數據(Dos、Probe、R2L,U2R)。本文將R2L類設為較小樣本,U2R類為超小樣本,其他三類為大樣本。該數據集的每一個樣本共有42維,前41維為樣本的特征,最后一維為樣本的標簽信息。采用留出法對小樣本U2R和R2L以及其他三類攻擊分別選取80%作為訓練集,20%作為測試集。

表1 實驗數據分布Table 1 Experimental data distribution

1.1.2 原始數據集預處理

由于提出的態勢要素獲取機制只能識別數值型特征且需要二維矩陣格式的數據集,故需要對數據集進行預處理。由于數據集屬性間存在量綱問題,通常需要對數據集進行歸一化操作。由于本文搭建的分類器網絡都使用了批量歸一化,為了更好地保留數據的原始特征以及不破壞數據集的分布,故在此不對數據集進行歸一化處理。數據預處理如圖2,具體步驟如下所示。

圖2 原始數據集預處理Fig.2 Preprocessing of original data set

(2)模型輸入特征選擇刪除樣本中特征值全為0的一個冗余維度,故樣本的維度變為121 維,即X=[x1x2…x122]1×121。

(3)樣本維度進行重組本文提出的要素獲取機制,輸入需為二維K×K矩陣格式數據,將一維數據集X構造成11×11的二維數據集,如下式(1)所示:

最后,將標簽normal、Probe、Dos、U2R、R2L 也進行one-hot編碼,編碼后均為五維數據y→I5,I5∈?5×5,每一行代表一種標簽類型。

1.2 安全態勢要素獲取模型

首先利用卷積神經網絡搭建要素基分類器,訓練基分類器,實現大樣本的準確分類,并為后續的遷移學習提供參數和權值,然后對小樣本分類精度進行優化。下一節,將基于樣本量級的特征提出安全態勢要素獲取的模型。

1.2.1 大樣本分類

改進的CNN網絡安全態勢要素獲取基分類器(network security situation element acquisition-improved CNN,N2SEA-ICNN)如圖3所示,CNN的基本模型包括了Conv2d 代表二維卷積層,Maxpooling 代表最大池化層,Flatten 層,Dense 層代表全連接層,以及輸出層為softmax 層。此外,還包括了在每個卷積層后面引入的BatchNormation批量歸一化層,以及在全連接層前添加了dropout 層。圖中k表示卷積核,filter 表示過濾器個數,stride表示步長。

圖3 N2SEA-ICNN基分類器模型Fig.3 Classifier model of N2SEA-ICNN base

BN 層修正數據的分布保證梯度存在,可以加快模型收斂,并提升模型的泛化性能。由于本文的實驗數據集與CNN 擅長的圖像處理數據集相比更為簡單,為了防止基分類器模型出現過擬合問題,在全連接層前添加了dropout層,在模型訓練過程中,dropout概率性地將網絡的隱含層節點的權值臨時設置為0,不參與網絡的計算且反向傳播時權值不變,可以防止由于某個特征權重占比過大而導致模型過擬合。

CNN通常由卷積層和池化層組成,分別如下式所示:

式中,假設Mi(M0=X)為CNN 的第i層的輸入態勢要素特征圖,Wi為第i層的卷積核權重向量,運算符號“?”表示卷積運算,bi是第i層的偏移向量,f(x)是激活函數。卷積層根據多個卷積核及滑動窗口值,提取態勢要素樣本Mi的多重特征信息。池化層根據不同的采樣規則對態勢要素特征圖進行采樣,該過程可以對態勢要素進行降維,減少網絡模型的參數個數。本文對轉化為K×K矩陣格式的安全要素數據進行態勢要素特征圖卷積運算,通過多個過濾器在態勢要素特征圖矩陣滑動,提取網絡流量數據的多重空間特征。

N2SEA-ICNN 中BN 層,在每一個小批量數據輸入下一層神經網絡之前修正數據的分布,突出數據間的相對差異而減小絕對差異,對于一個Batch,假設對應x的集合為B={x1,x2,…,xm},于是其對應的BN 層的輸出{yi}通過以下公式計算得出:

ε是mini-batch的樣本個數,設為ε=10-8,修正所有輸入xi滿足均值為0且方差為1。計算均值和方差的任意值可采用上面的公式:

其中,γ和β用梯度下降法求出。

2.1.3 精密度考察 取高、中、低質量濃度(30.00、15.00、0.03 μg/mL)的Lut對照品溶液,按照“2.1.1”項下色譜條件分別連續進樣6次,計算各個質量濃度對應峰面積的RSD值。結果顯示,Lut峰面積RSD值分別為0.44%、0.39%、0.71%。

1.2.2 超小樣本分類

由于樣本分布不平衡的問題,導致傳統的要素獲取機制對超小樣本R2L類樣本學習不到特征,影響到超小樣本的分類精度。因此提出了基于DCGAN[18]的超小樣本擴充器,同時利用隨機梯度下降法實現DCGAN的數據擴充最優求解。如前所述,在數據預處理過程中,數據集已經處理成了K×K矩陣格式的數據集,更加便于DCGAN 實現卷積處理,同時DCGAN 可以生成無限逼近真實樣本的偽造樣本,避免由于訓練樣本不足而導致的過擬合問題。因此DCGAN 能夠較好的實現預處理后的超小樣本類內擴充。判別模型D 和生成模型G 都使用卷積神經網絡,采取上文設計的N2SEA-ICNN分類器作為判別器,為了得到能夠提取更多的態勢要素特征的生成器,故去掉所有的池化層,由3個卷積層以及BN層構成,最后一層激活函數使用tanh。DCGAN 的模型如圖4所示。

圖4 DCGAN模型Fig.4 DCGAN model

其中,G(z)表示生成網絡由噪聲z生成的樣本,而D(G(z))表示生成樣本通過判別網絡后,判斷其為真實樣本的概率。最終求得近似最優解的生成式模型minG(z)。判別網絡輸出樣本是來自真實數據的概率,交叉損失熵為式(8)所示,其中φ和θ分別為判別網絡和生成網絡的參數。

生成網絡的損失函數如式(9):

綜上,生成對抗網絡的核心思想可用數學公式表示如下:

為了求解公式(10)的最優解,提出了一種基于隨機梯度下降法的最優解求解算法。

算法1 基于DCGAN的數據擴充算法

通過訓練得到生成器,對超小樣本進行不同比例擴充。

1.2.3 小樣本分類

針對上一節數據集擴充后的小樣本(較小樣本和擴充后的超小樣本)數據集,由于遷移學習[19]可以在樣本不足的情況下很好地學習樣本的內部特征,同時前面訓練好的N2SEA-ICNN 基分類器已經學習到了大樣本的內部特征,而且大小樣本具有相似的特征,故提出對N2SEA-ICNN 基分類器進行遷移學習的小樣本分類方法。這種方法不僅能夠避免訓練小樣本過擬合,還能夠有效地縮減模型的訓練時間。遷移學習過程如圖5 所示,分為3個步驟。

圖5 遷移學習過程Fig.5 Transfer learning process

(1)特征學習:在文中第1.2 節,利用N2SEA-ICNN基分類器實現樣本特征學習。

(2)特征遷移:將N2SEA-ICNN 基分類器學習到的權重參數,作為新分類器的初始權重。

(3)遷移后分類器學習:先凍結N2SEA-ICNN 基分類器前面幾層網絡并移除最后一層,再添加兩層全連接層,通過反向傳播微調最后兩層,得到適應于小樣本的新分類器模型。

由于實際運用中,無法人為識別大小樣本。經N2SEA-ICNN基分類器誤判為小樣本的大樣本,將在新的二級分類器分類器中再次誤判。因此對仿真得到的小樣本分類精度進行損失懲罰,具體公式如下式所示:

2 實驗仿真

本文的實驗環境為:Windows 10操作系統,python3.7環境下采用Keras 深度學習框架進行模型訓練和測試;硬件配置為:64 位操作系統,處理器為Inter?Core?i5-8500 CPU 3.00 GHz。

2.1 評估度量的選擇

模型評估標準的選擇至關重要,準確率(Accuracy)、查準率(Precision)、查全率(Recall)均為要素獲取分類問題常用的衡量指標。通常將樣本分為正樣本和負樣本,正樣本指屬于所求類的樣本,反之,不屬于該類的樣本為負樣本。正負樣本的混淆矩陣如表2所示。

表2 正負樣本的混淆矩陣Table 2 Confusion matrix of positive and negative samples

其中,TP 為被預測為正樣本,真實同是正樣本;FP為被預測為正樣本,真實是負樣本;N 為被預測為負樣本,真實是正樣本;TN 為被預測為負樣本,真實同為負樣本。

通常選取Accuracy 作為衡量分類模型性能的指標,但當樣本分布不平衡時,它不能準確地衡量模型的整體分類精度,僅能代表大樣本類的分類精度。在工程應用中,Precision 和Recall 通常為負相關,進一步優化時需要選擇優化目標,選擇的標準是當漏判帶來的損失較大時,Recall優先。反之當誤判帶來的損失較大時,則Precision 優先。由于本文解決的是網絡安全態勢要素獲取問題,在安全領域方面漏掉任何一個攻擊都可能產生嚴重后果,為了能夠準確地識別出所有的攻擊行為,在本文中更傾向于采用查全率對所提出的預測模型進行評價。后面將提到每個類的分類精度,即為查全率。

2.2 實驗結果分析與討論

2.2.1 N2SEA-ICNN基分類器的訓練過程分析

在深度學習模型中,模型參數的選擇會對模型性能造成一定影響,通過手動調參得到適應于模型的超參數。模型各層參數如表3所示。

表3 模型各層參數Table 3 Parameters of each layer of model

由于設計的態勢要素獲取模型為多分類問題,故選取categorical_crossentrop[20]為損失函數,運用Adam[21]優化算法對模型進行反向傳播訓練,根據損失函數調整模型訓練的超參數,設置bach_size為128,迭代次數為50。最后通過測試集檢測模型的泛化能力來評估模型。迭代次數與損失函數值、準確率的關系曲線分別如圖6和圖7所示。

圖6 N2SEA-ICNN基分類器準確率曲線Fig.6 Accuracy curve of N2SEA-ICNN base classifier

圖7 基分類器損失值曲線Fig.7 Loss curve of N2SEA-ICNN base classifier

通過分析兩組圖像可以看出,隨著迭代次數的增加,準確率曲線也呈現逐步上升的趨勢,當迭代次數達到40 時,分類精度達到了0.979。同時損失函數值穩定下降的趨勢并接近于0,模型趨于穩定,得到了最優的模型。為了更加準確地識別網絡安全的各個因素,本文統計了每個類的分類精度,如圖8 所示,R2L 和U2R 兩類的分類精度明顯低于其他三類,因為在模型訓練時這兩類的樣本很少,提取到的特征少,因此在測試的時候分類精度低。

圖8 N2SEA-ICNN基分類器分類精度Fig.8 Classification accuracy of N2SEA-ICNN base classifier

2.2.2 遷移學習對小樣本的效果

對于上述小樣本分類精度的問題,采取上文提到的遷移學習模型來重新得到小樣本的分類精度。隨機選取較小樣本R2L類以U2R類的80%作為訓練集,其余的作為測試集,迭代次數與損失函數值、準確率的關系曲線如圖9和圖10所示。

圖9 基于遷移學習模型的準確率曲線Fig.9 Accuracy curve based on migration learning model

圖10 基于遷移學習模型的損失值率曲線Fig.10 Loss rate curve based on migration learning model

通過分析上圖的曲線,可以看出隨著迭代次數的增加,準確率曲線呈現穩定上升且準確率較高,損失函數逐步趨于0,在訓練到30 epoch 逐漸收斂。遷移學習將較小樣本的分類精度提高至少32%,達到98.8%,超小樣本分類精度提高了74%,遷移學習快速訓練的特點使再分類所需的時間降低,因此不會成規模增加模型的時間復雜度。

2.2.3 超小樣本數據增強結合遷移學習的效果

為了進一步地提高超小樣本U2R類的分類精度,采取數據增強來解決數據不平衡問題。本文采取訓練DCGAN得到的生成器來進行樣本擴充,在擴充后的數據集,結合遷移學習對N2SEA-ICNN 基分類器微調,得到新的分類器。DCGAN 模型訓練的迭代次數和損失值的關系曲線如圖11所示,其中d_loss代表判別器損失值,g_loss 代表生成器損失值。通過觀察圖11,可以看出兩個損失函數都在逐步下降,大約在迭代10 000次模型收斂,因此在本文的后續實驗DCGAN的迭代次數選擇10 000次。

圖11 DCGAN模型訓練損失Fig.11 Training loss of DCGAN model

本文通過DCGAN訓練得到的生成器,生成不同比例的樣本個數,對U2R類做樣本擴充,并結合遷移學習訓練得到新的小樣本的分類精度如圖12所示。

圖12 增強樣本后小樣本的分類精度Fig.12 Classification accuracy of small samples after enhancement

經仿真驗證,隨著U2R 類擴充樣本個數的提高,DCGAN 樣本擴充結合遷移學習的模型與超小樣本的分類精度呈正相關增加,當擴充樣本達到2 500時,分類精度最佳。相比不擴充時的原始訓練集U2R的分類精度提高了13%以上。

2.3 獲取精度分析與比較

為了進一步證明本文方法的優勢,與淺層的神經網絡及深度學習方法進行了對比實驗,包括SVM、CNN(lenet-5)[14]、DBN[22]、SRU-DCGAN[23]和基于遷移學習的CNN,分類精度如表4所示。

由表4 可知,本文要素獲取模型相比文獻[23]的方法,較小樣本R2L精度提高了5個百分點,超小樣本U2R提高了6個百分點,對U2R的分類精度達到88.24%。雖然對Dos的分類精度低于部分傳統的方法,但整體的分類精度明顯高于其他方法。基于遷移學習的CNN方法對R2L 較小樣本的分類精度也高于SVM、PSO-DBN、SRU-DCGAN模型,說明遷移學習對于提高小樣本的分類精確度是有效的。最后在基于GAN數據類內擴充的模型中,超小樣本的分類精度也高于其他的要素分類模型,證明了GAN 對平衡樣本以及提高超小樣本的分類精度有明顯作用。

表4 不同要素獲取方法的精度Table 4 Accuracy of different factor acquisition methods%

2.4 模型復雜度分析

表5 不同模型的復雜度對比Table 5 Complexity comparison of different models

可以看出本文提出的網絡安全要素獲取模型復雜度低于SVM 以及SRU-DCGAN[19]模型,略高于文獻DBN[18]和CNN[9],量級是相同的并沒有成規模增加,說明本文提出方法在提高分類精度的同時也沒有增加模型的復雜度。

3 結語

本文針對樣本不平衡的網絡數據特征,提出了一種基于GAN生成對抗網絡的樣本擴充和遷移學習模型分層的網絡安全態勢要素獲取模型。采用CNN作基分類器,根據樣本量級和基分類器的分類精度,將樣本分為大樣本、較小樣本和超小樣。該模型結合了通過生成式對抗網絡類內擴充方法來生成超小樣本數據,結合遷移學習更快速而高效地學習小樣本的特征。運用NSL-KDD 數據集對模型進行了訓練與測試,通過仿真結果表明,不僅保證了大樣本的分類精度,還提高了態勢要素小樣本的分類精度,從而改善了要素獲取模型的整體性能。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲无码视频一区二区三区| 97在线免费| 欧美日韩精品综合在线一区| 久久久久亚洲AV成人人电影软件| 欧美成a人片在线观看| 丁香婷婷综合激情| 亚洲成人在线网| 亚洲第一视频区| 精品国产免费人成在线观看| 成年看免费观看视频拍拍| 欧美a在线视频| 一本视频精品中文字幕| 国产在线观看第二页| 国产小视频免费| 小说区 亚洲 自拍 另类| 制服丝袜一区| 91破解版在线亚洲| 亚洲精品动漫在线观看| 国产高清在线丝袜精品一区 | 国产理论一区| 伊人久久青草青青综合| 亚洲成a人片| 精品人妻AV区| 一级黄色片网| 国产99免费视频| 国产欧美性爱网| 全部毛片免费看| 亚洲男人天堂久久| 成人福利在线视频免费观看| 欧美一级夜夜爽| 久久精品人人做人人爽| 天堂网国产| 欧美乱妇高清无乱码免费| 久久国产亚洲偷自| 国内精品视频| 中国一级毛片免费观看| 精品欧美一区二区三区在线| 中文无码日韩精品| 真实国产乱子伦高清| 尤物视频一区| 亚洲国产成人麻豆精品| 日韩精品高清自在线| 免费黄色国产视频| 成人国产小视频| 91黄视频在线观看| 亚洲国产天堂久久综合| 欧美黄色网站在线看| 久久香蕉国产线看观看亚洲片| 久久免费视频6| 国产激爽大片高清在线观看| 久久亚洲高清国产| 久久影院一区二区h| 久久96热在精品国产高清| 伊大人香蕉久久网欧美| 中文成人在线视频| 国产视频你懂得| 久久精品国产国语对白| 精品视频福利| 亚洲毛片一级带毛片基地| 亚洲h视频在线| 色综合狠狠操| 中国国产一级毛片| 国产在线98福利播放视频免费| 久无码久无码av无码| 91久久偷偷做嫩草影院电| 国产jizzjizz视频| 午夜国产在线观看| 日本在线国产| 一区二区欧美日韩高清免费| 免费播放毛片| 911亚洲精品| 97se亚洲| 日韩免费成人| 精品国产91爱| 亚洲 欧美 日韩综合一区| 无码av免费不卡在线观看| 久久久受www免费人成| 99re视频在线| 国产精品999在线| 亚洲制服丝袜第一页| 久夜色精品国产噜噜| аⅴ资源中文在线天堂|