999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向網絡安全不平衡數據的特征學習和分類研究應用

2023-03-15 10:34:08韓鳳董宗學軍何戡連蓮
科學技術與工程 2023年3期
關鍵詞:網絡安全分類特征

韓鳳董,宗學軍*,何戡,連蓮

(1.沈陽化工大學信息工程學院,沈陽 110142;2.遼寧省石油化工行業信息安全重點實驗室,沈陽 110142)

計算機技術高速發展的現代,網絡環境呈現復雜化和多變化的發展趨勢,這也導致了網絡安全事件的多發[1]。網絡環境中的流量和告警日志是進行網絡安全分析的主要依據,對流量和告警日志的統計分析及數據挖掘則成為了分析網絡動態的重要方法[2]。另外,隨著互聯網時代的加速發展,網絡流量呈現指數級增長,通過建立網絡數據流量的主動分類模型,能為網絡監管、故障診斷、態勢感知等領域提供重要的評估和預測手段[3],提升對網絡環境和網絡資產的保護能力。

近年來許多學者在提升數據分類準確率方面提出了方法。劉云等[4]通過使用代價約束算法自動提取少數樣本的特征矩陣,提高了入侵檢測算法對于未知攻擊的識別精度。伍德軍等[5]將集成學習引入入侵檢測,提高了攻擊數據的檢測精度。Fu等[6]為了提高模型的分類準確率和泛化性,提出一種梯度增強的特征融合技術,將特征融合和特征增強相結合,使得模型能更關注與分類相關的有效特征。Panigrahi等[7]使用基于混合決策表和樸素貝葉斯技術構建了基于簽名的入侵檢測分類模型,實驗獲得了較好的分類結果。Alazab等[8]使用飛蛾撲火優化算法為入侵檢測系統生成有效的特征子集,在決策樹模型上進行了驗證,獲得了較好的分類效果。Jiang等[9]將粒子群優化算法與極端梯度提升樹 (extreme gradient boosting,XGBoost)結合,通過優化XGBoost分類模型的參數,在NSL-KDD網絡安全數據集上取得了較好的分類結果。

雖然現有的很多方法能夠提升數據分類準確率,但較少關注樣本不平衡的問題。在真實的網絡環境中,網絡數據流多呈現高維度和類別不平衡的狀態,正常數據流量遠遠大于異常數據流量,因此對于少數類異常流量數據的識別與分類更具有價值。并且,現有模型在數據類不平衡狀態下特征學習效果及分類準確率依舊不是很理想,無法對攻擊類型進行有效的檢測。

針對網絡安全數據樣本不平衡的缺點,現將不平衡數據集的預處理與機器學習模型的優化相結合,提出一種改進SMOTE+GA-XGBoost機器學習數據分類方法。利用改進SMOTE(synthetic minoritye over-sampling technique)對少數類樣本過采樣,并對多數類樣本隨機欠采樣,從而實現了樣本再平衡;為增加模型特征學習的擬合度,將遺傳算法 (genetic algorithm,GA)與XGBoost結合。實驗結果表明,本文方法在網絡安全不平衡數據集上擁有較好的機器學習性能以及分類準確率。

1 模型原理與解析

機器學習算法的應用,本質上是對數據執行分類和回歸的過程,模型性能的提升依賴于數據端的處理和模型端的優化。通過數據端改進SMOTE插值和隨機欠采樣實驗樣本再平衡,模型端采用GA-XGBoost組合優化模型增加擬合度,具體原理解析如下。

1.1 改進SMOTE算法

1.1.1 SMOTE算法原理

SMOTE算法是一種針對不平衡數據中少數類樣本過采樣技術[10],區別于傳統的隨機過采樣來增加樣本,SMOTE通過數據點之間的線性插值“人為”制造出更多的少數類樣本,從而平衡數據集來提升模型的學習能力。其計算表達式為

Snew=S+λ(Si-S),λ∈(0,1)

(1)

式(1)中:Snew表示新生成的樣本;S表示當前取樣的樣本點;Si表示S樣本點周圍K個近鄰中的第i個樣本,通過式(1)在樣本點之間進行線性插值,即可為模型學習少數類樣本提供更多的數據特征。

1.1.2 LOF-SMOTE算法

傳統SMOTE算法在最近鄰插值點的選擇上存在一定的盲目性,一旦選中噪聲點與異常離群點進行插值操作,則會產生更多的冗余樣本,造成樣本邊界的模糊化,降低后續模型的學習能力。

局部離群因子(local outlier factor,LOF)能夠科學地度量樣本之間的離散性,是一種密度計量方法[11]。為增進SMOTE插值的有效性,應用LOF計算樣本點與其領域密度的比值,從而選擇合適的SMOTE插值點。該方法通過對樣本點離群值的有效量化,避免對噪聲點和離群度較高的點進行插值處理,減少了冗余數據的產生,從而有效保證了生成樣本的質量。LOF-SMOTE基本原理,如圖1所示。

圖1 改進SMOTE插值原理圖Fig.1 Schematic diagram of improved SMOTE interpolation

LOF主要計算步驟如下所示。

(2)

(2)則可以得到計算每個樣本的局部可達密度表達式為

(3)

(3)最終可得到每個樣本的局部離群因子量化值表達式為

(4)

通過樣本點離群值的科學量化,表現了樣本點與樣本群體之間的密度關系。若樣本點離群度量值值遠大于1,則表示該樣本點為離群點,應避免對該樣本點進行插值處理,從而可以有效篩選可插值點。

1.2 GA-XGBoost算法

1.2.1 遺傳算法原理

遺傳算法是基于模擬生物遺傳和進化的一種全局概率優化算法,具有良好的適應能力和全局搜索能力,能夠有效尋找模型的全局最優參數[12]。在遺傳算法中,將j維決策空間向量X用j個Xj=[x1,x2,…,xn]組成的符號串表示。將每一個Xj當作一個可遺傳基因,X則組成了問題可行解空間,所以最優化問題的解則是對染色體X的求解過程。

遺傳算法的運算對象為群體M,M由多個個體組成,將第t代迭代群體稱為p(t)。遺傳算法迭代優化的過程主要通過群體p(t)的selection(選擇)、crossover(交叉)和mutation(變異)完成,產生群體p(t+1),在迭代過程中不斷輸出相應的fitness(適應度),從而更新群體p(t)。經過算法不斷的迭代過程,最終確定較優群體以及較優擬合度。具體的遺傳算法迭代過程如流程圖2所示。

圖2 遺傳算法迭代原理Fig.2 Iterative principle of genetic algorithm

1.2.2 XGBoost原理

XGBoost算法由Chen等[13]提出,以分類和回歸樹(classification and regression tree,CART)為基礎,被廣泛應用于回歸和分類問題。XGBoost算法目標函數由損失函數和正則化兩項組成,表達式為

(5)

(6)

將XGBoost目標函數由泰勒公式展開,得到一個凸優化函數,因此為求出使目標函數達到最小值的ωj,對ωj求導并令導函數等于零可得

(7)

(8)

(9)

式(9)中:IL及IR分別表示左、右子樹葉子結點集合。

1.2.3 融合遺傳算法與XGBoost

融合遺傳算法與XGBoost的分類預測模型流程如圖3所示,其迭代原理如圖4所示。

圖3 GA-XGBoost分類預測模型Fig.3 GA-XGBoost classification prediction model

圖4 GA-XGBoost迭代原理圖Fig.4 GA-XGBoost iteration schematic

XGBoost基礎模型超參數眾多,人工調參過程繁瑣。將遺傳算法應用于XGBoost調參過程,經過遺傳算法的不斷迭代優化,能夠解決XGBoost模型擬合度較差、特征學習收斂過慢的問題,有效增加模型的全局搜索能力,避免模型陷入局部最優。通常設定k為GA迭代的總次數,一次迭代需要的時間復雜度為ε,則至少需要k×ε時間復雜度。

1.3 改進SMOTE+GA-XGBoost模型實現

改進SMOTE算法利用過采樣方法解決少數類樣本數據量過少的問題,提升整體樣本的均衡率。將改進SMOTE與GA-XGBoost算法進行組合,從數據和模型層面提升了機器學習對于不平衡數據的分類和檢測能力。本文模型的整體架構主要由預處理模塊、數據再平衡模塊、特征學習模塊組成,如圖5所示。

圖5 數據分類整體架構Fig.5 Overall architecture of data classification

由于原始數據存在較多“異構”數據,所以對于原始數據的預處理是非常必要的。

2 數據集樣本再平衡

為增加實驗的參照性,采用公開的UNSW_NB15數據集,該數據集是綜合性的網絡入侵數據集,挑選的數據集中含有175 432條數據以及45個維度特征[14-16]。

2.1 數據預處理

對數值型數據和字符型數據進行數據清洗工作,處理缺失值和異常值,保證數據的一致性。采用one-hot編碼對字符型數據進行預處理,將字符型特征轉換為數字維度特征。為解決數據極差較大的問題,增加模型處理性能,對數據進行歸一化處理,歸一化公式為

(10)

式(10)中:X為原始數據列;Xmin表示原始數據列中的最小值;Xmax表示原始數據列中的最大值。

為避免處理后數據的維度過高,模型陷入維度詛咒(curse of dimensionality)的問題,使用皮爾遜系數對標簽與數據特征進行相關性分析,計算公式為

(11)

式(11)中:cov(X,Y)表示數據列X與數據列Y樣本之間的協方差;σX與σY分別表示數據列X與數據列Y樣本的標準差;μX與μY分別表示數據列X與數據列Y樣本的平均值;E表示求均值函數。

根據統計的皮爾遜相關系數篩選與標簽相關系數值超過0.3的特征,達到降維的目的,并且避免了重復特征對于機器學習性能的影響。處理好的數據共有81 173條,15個特征維度。經數據預處理后的數據樣本分析表如表1所示。

從表1可知,經過預處理后的UNSW_NB15數據集存在類別不平衡的問題,類別不平衡會導致分類模型偏向多數類樣本,降低了少數類樣本的分類精度,因此需要增加少數類樣本實現樣本的再平衡。

表1 預處理后樣本分析表Table 1 Sample analysis table after pretreatment

2.2 樣本再平衡

將預處理后的數據集劃分為7份訓練集和3份測試集,劃分隨機種子設定為10。訓練集樣本的再平衡如表2所示。

如表2所示,對于樣本量少于300的數據進行自身樣本量5倍的改進SMOTE過采樣。為進一步平衡數據集,對于樣本量在5 000~20 000的數據進行自身數據量0.5倍隨機欠采樣,對于樣本量超過20 000的超量樣本進行0.25倍自身數據量的隨機欠采樣。

表2 訓練集樣本再平衡Table 2 Training set sample rebalancing

3 實驗分析與驗證

3.1 模型擬合

基于參數重要性原則,挑選XGBoost模型中學習率(learning_rate)、基學習器(n_estimators)、樹最大深度(max_depth)、子采樣比例(subsample)、懲罰項(gamma)這5個參數作為優化對象,在梯度提升樹中,這些參數對于模型的性能具有重要影響[17]。

針對遺傳算法的參數設置,編碼方式設置為“BG”(二進制/格雷碼),初始總群數(population_size)設定為10,迭代次數(generations)設定為40,交叉概率(crossover_probability)設定為0.8,變異概率(mutation_probability)設定為0.1。模型使用3折交叉驗證,求解目標為測試集上擬合度較高的函數參數。

將再平衡訓練集輸入GA-XGBoost模型進行參數擬合。為表現擬合效果,輸出遺傳算法優化下XGBoost模型在再平衡訓練集上的擬合情況如圖6所示。

圖6 模型在訓練集上擬合情況Fig.6 Fitness on training set

從圖6可知經過遺傳算法的迭代優化,模型在再平衡訓練集上漸趨波蕩性穩定。列出XGBoost優化后的參數與原默認參數的對比表如表3所示。

表3中各個參數的作用在于,learning_rate控制迭代后更新權重的步長避免欠擬合和過擬合,n_estimators默認為“gbtree”(樹模型),max_depth控制樹最大深度從而限制模型過擬合,subsample通過子采樣率限制模型過擬合,gamma控制節點斐裂最小損失函數下降值限制模型過擬合。從表3可知XGBoost參數的變動較大,默認值顯然不滿足對數據精確的需求,表明經過遺傳算法優化的XGBoost模型擁有更好的擬合參數。

表3 XGBoost默認參數與優化參數對比Table 3 Comparison of XGBoost default parameters and optimization parameters

3.2 模型評估與對比

3.2.1 評估標準

以準確率(accuracy,ACC)、召回率(recall)、查準率(precision)、F1-score以及誤報率((false negative rate,FNR)、漏報率(false positive rate,FPR)作為本文模型的評價標準。在對模型進行評估時,通常將模型的輸出分為4類:真正常類(true positive,TP) 、真異常類(true negative,TN) 、假正常類(false positive,FP)和假異常類(false negative,FN)。則accuracy、recall、precision以及F1-score計算公式為

(12)

(13)

(14)

(15)

對于機器學習分類效果而言,正確率、召回率、查準率、F1-score越大,則分類效果越好。與召回率和查準率相對應的便是漏報率(FNR)和誤報率(FPR),計算公式為

(16)

(17)

漏報率和誤報率越低,則說明模型對于網絡安全數據集的分類效果越好及可靠性越高。

3.2.2 評估結果分析

通過在再平衡訓練集上的擬合,將測試集上的分類結果作為各個模型對比的依據。為控制變量,本文所提其他相關模型的訓練集均為降維后未進行改動的訓練集。

將本文模型與常用多層感知機(multi-layer perceptron,MLP),K近鄰(K-nearest neighbor,KNN)、決策樹、隨機森林 (random forest,RF)以及原XGBoost模型進行比較分析[18],輸出各模型對于各標簽數據的查準率如表4所示。

表4 不同模型查準率對比Table 4 Comparison of accuracy of different models

從表4可知,本文所提出的改進SMOTE+GA-XGBoost模型相對于其他模型對于各標簽查準率最高,性能最平穩。但通過表4也可知,對于進行改進SMOTE插值的樣本數據,只有標簽8的準確率顯著提升,而標簽1的查準率相對于原XGBoost模型依然為0,說明對于標簽1的分類效果并沒有提升,根本原因還是在于樣本量過少的影響,可見現實情況下,大量的數據樣本依然是分類器工作的必然要求。

假設每一個類別數據都是公平存在的,設定總體F1-score和recall均為各個樣本相應計算值和的均值,則輸出各模型的平均召回率、平均F1-score、平均誤報率、平均漏報率以及整體準確率如表5所示。從表5可知,本文提出的改進SMOTE+GA-XGBoost模型在測試集上的平均召回率、F1-score及 總的模型準確率與常用機器算法相比都為最高,并且擁有最小的平均漏報率和平均誤報率。

表5 各模型召回率、F1-score、準確率對比Table 5 Comparison ofrecall,F1-score and accuracy

另外,對比本文方法與SMOTE+XGBoost、隨機欠采樣(random undersampling,RS)+XGBoost等不平衡數據分類方法的機器學習性能,如表6所示。從表6可知,本文方法擁有較好的不平衡數據分類性能。

表6 不平衡數據分類模型對比Table 6 Comparison of unbalanced data classification models

綜上,通過對比常用機器學習分類算法及相關不平衡數據分類方法,表明本文模型對于網絡安全不平衡數據集的分類效果較好,綜合性能較優。

3.3 特征子集的提取

網絡維護人員對網絡環境中的數據流信息進行分析時,需要對數據包的特征對象加強甄別以捕獲網絡威脅[21]。XGBoost作為一種極端梯度提升樹,能夠有效對特征進行重要性評估,輸出訓練集特征重要性得分排序性得分圖如圖7所示。

圖7 各特征重要性得分Fig.7 Importance score of each feature

圖7中,將特征在提升樹中作為分裂節點的次數作為評價標準,剔除得分為0的特征。由特征得分圖7可知,再平衡訓練集中存在10個特征作用于模型最后的準確分類。其中synack(TCP的SYN和SYN_ACK數據包之間的時間)、tcprtt(TCP的“synack”和“ackdat”之和)以及ackdat(SYN_ACK和TCP的ACK數據包之間的時間)為辨別數據為異常攻擊數據時最重要的3個特征。在通信過程中,這3個特征為TCP/IP協議簇正常工作的重要表現形式,表明TCP/IP協議簇對網絡安全運行的重要性。

模型學習能力,一定程度上也受到特征數量的影響,為進一步確定特征子集數量對于總體準確率的影響,對特征重要性進行排序,設置閾值比例輸入模型,輸出總體準確率變化如圖8所示。

圖8 不同子特征數量準確率Fig.8 Accuracy of number of different sub features

從圖8可知,隨著特征子集的增加,模型整體準確率是逐漸提高直至穩定,收斂速度隨著特征子集的增多逐步放緩。在特征子集數量為8時,模型整體準確率達到了初始平衡點,表明這8個特征對網絡數據流的正確分類起到了重要作用。

通過圖8曲線的收斂速度,進一步將這8個特征劃分為4個關鍵特征和4個重要特征,即synack、tcprtt、ackdat、attcak_cat_Exploits(漏洞攻擊)為關鍵特征,attcak_cat_Analysis(分析攻擊)、attcak_cat_Dos(拒絕服務攻擊)、attcak_cat_Normal(正常數據攻擊)、service_dns(域名解析服務)為重要特征。關鍵特征對于網絡數據流的正確分類具有關鍵作用,進一步驗證了上述特征重要性得分的正確性,而attcak_cat_Exploits為操作系統自身的漏洞所導致的攻擊,所以操作系統本身的漏洞處理以及TCP/IP協議簇的穩定運行是網絡安全運行的關鍵因素。重要特征則是外部鏈接或者攻擊行為所產生的數據流信息特征,造成操作系統權限的丟失及破壞正常的DNS(域名解析)服務等,這表明穩固正常的系統服務以及增加網絡防護也至關重要。

3.4 模型的分析與應用

為進一步分析本文算法模型在實際場景數據下應用的有效性,將本文模型與遼寧省石油化工行業信息安全重點實驗室的工業信息安全平臺結合。通過在工業安全平臺控制站中引入木馬程序(該木馬程序通過收集主機注冊表和漏洞信息以及復制重要工控配置文件以數據流的形式在網絡環境傳播),使用wireshark監聽內存和網絡環境中的數據包信息,工業信息安全平臺如圖9所示。

圖9 工業信息安全平臺Fig.9 Industrial information security simulation platform

在該木馬程序運行時間內總計收集1 000條數據,經過特征工程處理后,其中234 條數據標記為異常數據,剩余的766條數據標記為正常數據,正常數據標簽為0,異常數據標簽為1。將數據集劃分7份為訓練集,3份為測試集,計算相應的Acc、F1-score如表7所示。

表7 實際場景應用結果分析Table 7 Analysis of application results in actual scenarios

從表7可知,本文的改進SMOTE+GA-XGBoost模型在實際的二分類數據下依然能夠有效增加模型對于異常數據的檢測率,有較高的單項檢測率以及F1-score,改善了模型對于少數類樣本數據的檢測效果。

4 結論

針對網絡安全數據集多存在樣本不平衡、特征復雜度較高的問題,提出一種改進SMOTE+GA-XGBoost不平衡數據分類方法。基于UNSW_NB15數據集進行樣本多分類實驗,結果表明,對比不同的機器學習分類方法,本文模型擁有較高的分類準確率(97.4%)和平均F1-score(68.8%),符合不平衡網絡安全數據分類的要求。使用本實驗室工業信息安全平臺提取的數據集進行二分類驗證,模型依然有較高的分類準確率(99%)及平均F1-score(98.6%),證明了本文模型的有效性和可行性。另外,通過特征子集提取的研究,得出了影響網絡數據流正確分類的重要表現特征,這為網絡安全運維人員對網絡環境的監控和解決網安安全事件提供了新的方向與途徑。

雖然本文模型提升了整體分類準確率,但對于樣本中某些少數類的識別還未達到理想結果,因此為不平衡網絡安全數據樣本建立更為準確的分類模型,進一步總結攻擊行為的規律將是下一步需要研究的工作。

猜你喜歡
網絡安全分類特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
網絡安全
網絡安全人才培養應“實戰化”
上網時如何注意網絡安全?
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 99久久国产综合精品女同| 亚洲啪啪网| 久青草国产高清在线视频| a毛片在线播放| 欧美19综合中文字幕| 国产91导航| 国产亚洲美日韩AV中文字幕无码成人| 国产麻豆福利av在线播放| 青青草原偷拍视频| 久久黄色视频影| 无套av在线| 香蕉视频国产精品人| 91精品国产综合久久香蕉922| 最新亚洲av女人的天堂| 国产精品 欧美激情 在线播放| 美女被操黄色视频网站| 国产欧美日韩综合在线第一| 亚洲人成网站色7799在线播放| 亚洲精品国产自在现线最新| 青青草原国产一区二区| 欧美啪啪精品| 97在线国产视频| 日韩性网站| 成人av手机在线观看| 国产精品无码影视久久久久久久 | 精品成人一区二区三区电影| 韩日无码在线不卡| 免费观看男人免费桶女人视频| 国产成人91精品免费网址在线| 麻豆精品在线播放| 国产成年女人特黄特色毛片免| 国产午夜无码专区喷水| 久久精品国产在热久久2019| 成人一级黄色毛片| 麻豆精品在线视频| 天天色综合4| 日韩一级毛一欧美一国产| 国产乱码精品一区二区三区中文 | 成年人福利视频| 免费一级全黄少妇性色生活片| 欧美中文字幕一区| 91精品综合| 久久性视频| 日韩欧美成人高清在线观看| 在线观看国产网址你懂的| 欧美精品1区2区| 亚洲精品国产综合99| 亚洲无码高清免费视频亚洲| 日韩小视频网站hq| 三区在线视频| 东京热高清无码精品| 亚洲综合狠狠| 亚洲天堂网2014| 超碰免费91| 成人精品午夜福利在线播放| 国产福利一区二区在线观看| 国产福利免费视频| 中文字幕免费播放| 影音先锋亚洲无码| 波多野结衣一区二区三区AV| 99999久久久久久亚洲| 午夜精品区| 欧美日本一区二区三区免费| 在线色综合| 91伊人国产| 亚洲中文字幕97久久精品少妇| 国产爽妇精品| 国产va在线观看免费| 国产日韩av在线播放| 欧美成人精品在线| 五月天福利视频| 爽爽影院十八禁在线观看| 久久先锋资源| 狠狠亚洲婷婷综合色香| 欧美日本在线播放| 亚洲人成网线在线播放va| 狠狠色综合久久狠狠色综合| 亚洲黄色激情网站| 亚洲欧美一区二区三区图片| 中文字幕乱码二三区免费| 露脸一二三区国语对白| 免费国产高清精品一区在线|