999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測

2024-02-27 06:45:48沈徳松
關(guān)鍵詞:檢測模型

沈徳松

(安徽文達(dá)信息工程學(xué)院,安徽 合肥 231201)

隨著互聯(lián)網(wǎng)的快速發(fā)展和普及,網(wǎng)絡(luò)安全問題日益突出。網(wǎng)絡(luò)異常流量是指在網(wǎng)絡(luò)通信中出現(xiàn)的與正常通信模式不符的數(shù)據(jù)流,可能是由于網(wǎng)絡(luò)攻擊、硬件故障或配置錯(cuò)誤等原因引起的[1-2]。網(wǎng)絡(luò)異常流量的存在給網(wǎng)絡(luò)運(yùn)營商和用戶帶來了嚴(yán)重的安全風(fēng)險(xiǎn)和經(jīng)濟(jì)損失。為了及時(shí)發(fā)現(xiàn)和應(yīng)對網(wǎng)絡(luò)異常流量,網(wǎng)絡(luò)異常流量檢測成為了網(wǎng)絡(luò)安全領(lǐng)域的重要研究方向。機(jī)器學(xué)習(xí)算法能夠通過學(xué)習(xí)大量的網(wǎng)絡(luò)流量數(shù)據(jù),自動(dòng)發(fā)現(xiàn)其中的模式和規(guī)律,并能夠?qū)ξ粗漠惓A髁窟M(jìn)行準(zhǔn)確的分類和識(shí)別。其中,XGBoost作為一種強(qiáng)大的分類模型,以其高效的訓(xùn)練速度和優(yōu)秀的預(yù)測性能,在網(wǎng)絡(luò)異常流量檢測中得到了廣泛的應(yīng)用和研究[3-4]。

本研究基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測,采用XGBoost分類模型,對136.4萬條異常流量樣本的數(shù)據(jù)集進(jìn)行研究和實(shí)驗(yàn)。通過對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行特征提取和預(yù)處理,構(gòu)建合適的特征向量表示,并利用XGBoost模型進(jìn)行訓(xùn)練和預(yù)測,以實(shí)現(xiàn)對網(wǎng)絡(luò)異常流量的準(zhǔn)確檢測和分類,有助于提高網(wǎng)絡(luò)異常流量檢測的準(zhǔn)確性和效率,為網(wǎng)絡(luò)安全領(lǐng)域的相關(guān)研究和實(shí)踐提供有益的參考和借鑒。

1 理論基礎(chǔ)

1.1 XGBoost算法

機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)模式和規(guī)律,從而實(shí)現(xiàn)自主決策和預(yù)測,其基本原理是通過訓(xùn)練算法來構(gòu)建一個(gè)模型,該模型能夠從輸入數(shù)據(jù)中學(xué)習(xí),并根據(jù)學(xué)習(xí)到的知識(shí)對新的未知數(shù)據(jù)進(jìn)行預(yù)測或分類。在監(jiān)督學(xué)習(xí)中,算法通過已標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)輸入和輸出之間的映射關(guān)系,以便對新的輸入數(shù)據(jù)進(jìn)行預(yù)測。

XGBoost是一種基于梯度提升樹的監(jiān)督學(xué)習(xí)算法[5]。其由多個(gè)弱分類器組合構(gòu)建一個(gè)強(qiáng)分類器,其核心思想是通過多輪迭代來逐步優(yōu)化模型的預(yù)測能力。在每一輪迭代中,XGBoost算法通過計(jì)算損失函數(shù)的梯度和二階導(dǎo)數(shù),來確定當(dāng)前模型的殘差和權(quán)重更新方向。接著,使用一棵新的決策樹來擬合殘差,并將其加入到當(dāng)前模型中。通過多次迭代,XGBoost算法逐步減小模型的預(yù)測誤差,提高模型的泛化能力。在XGBoost算法中,對于二分類問題,XGBoost算法的損失函數(shù)采用二元邏輯損失函數(shù)(Logistic Loss);對于多分類問題,常用的損失函數(shù)是多元邏輯損失函數(shù)(Softmax Loss),如式(1)所示:

(1)

1.2 主成分分析

主成分分析(Principal Component Analysis,PCA)用于將高維數(shù)據(jù)轉(zhuǎn)換為低維表示,同時(shí)保留數(shù)據(jù)的主要信息。PCA的原理基于數(shù)據(jù)的協(xié)方差矩陣和特征值分解,包括數(shù)據(jù)標(biāo)準(zhǔn)化、計(jì)算協(xié)方差矩陣、特征值分解、特征值排序和投影。

首先,對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使得每個(gè)特征的均值為0,方差為1,從而消除不同特征之間的量綱差異,確保每個(gè)特征對降維的貢獻(xiàn)度相同。協(xié)方差矩陣反映了不同特征之間的相關(guān)性,因此計(jì)算標(biāo)準(zhǔn)化后的數(shù)據(jù)的協(xié)方差矩陣。對于一個(gè)d維數(shù)據(jù)集,協(xié)方差矩陣的大小為d×d。接著,對協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和對應(yīng)的特征向量。特征值表示了數(shù)據(jù)在特征向量方向上的方差,而特征向量則表示了數(shù)據(jù)在新的特征空間中的方向。將特征值按照從大到小的順序進(jìn)行排序,選擇前k個(gè)特征值對應(yīng)的特征向量作為主成分。最后,將原始數(shù)據(jù)投影到選取的主成分上,得到降維后的數(shù)據(jù),如圖1所示。

圖1 PCA降維過程Fig.1 Dimensionality reduction process

(2)

對于標(biāo)準(zhǔn)化后的數(shù)據(jù),計(jì)算協(xié)方差矩陣并進(jìn)行特征值分解,如式(3)所示:

(3)

最終選擇15個(gè)特征值對應(yīng)的特征向量作為主成分,并將原始數(shù)據(jù)投影到選取的主成分上[6],如式(4)所示:

Y=X×Vk

(4)

其中,Y為降維后的數(shù)據(jù);X為原始數(shù)據(jù);Vk為前k個(gè)特征向量組成的矩陣。

1.3 網(wǎng)絡(luò)異常流量

網(wǎng)絡(luò)流量是指在網(wǎng)絡(luò)通信中傳輸?shù)臄?shù)據(jù)量,包括IP數(shù)據(jù)包、TCP/UDP數(shù)據(jù)包、HTTP請求和響應(yīng)、DNS查詢和響應(yīng)、ICMP數(shù)據(jù)包等。網(wǎng)絡(luò)流量來源于用戶設(shè)備、服務(wù)器、網(wǎng)絡(luò)設(shè)備等。如個(gè)人電腦、手機(jī)、平板等用戶終端設(shè)備;提供各種網(wǎng)絡(luò)服務(wù)的服務(wù)器,如網(wǎng)站服務(wù)器、郵件服務(wù)器;路由器、交換機(jī)、防火墻等網(wǎng)絡(luò)設(shè)備。

網(wǎng)絡(luò)異常流量具體表現(xiàn)[7]:網(wǎng)絡(luò)流量突然大幅增加,超過正常范圍;網(wǎng)絡(luò)通信的延遲明顯增加,導(dǎo)致數(shù)據(jù)傳輸速度變慢;網(wǎng)絡(luò)服務(wù)無法正常提供,如網(wǎng)站無法訪問、郵件無法發(fā)送等;網(wǎng)絡(luò)中出現(xiàn)異常的數(shù)據(jù)包,如異常的IP數(shù)據(jù)包、TCP/UDP數(shù)據(jù)包等;網(wǎng)絡(luò)中出現(xiàn)大量的連接嘗試,可能是惡意攻擊或掃描行為。網(wǎng)絡(luò)攻擊、硬件故障、軟件錯(cuò)誤和網(wǎng)絡(luò)擁堵都可能造成網(wǎng)絡(luò)異常流量。其中,網(wǎng)絡(luò)攻擊包括DDoS攻擊、惡意軟件、網(wǎng)絡(luò)蠕蟲等,如圖2所示。攻擊者通過大量的請求或惡意代碼導(dǎo)致網(wǎng)絡(luò)流量異常增加;網(wǎng)絡(luò)設(shè)備的故障或配置包括路由器故障、交換機(jī)端口錯(cuò)誤配置;軟件錯(cuò)誤指程序崩潰、內(nèi)存泄漏等;網(wǎng)絡(luò)流量超過網(wǎng)絡(luò)帶寬容量,導(dǎo)致網(wǎng)絡(luò)擁堵,也會(huì)影響正常通信。通過對網(wǎng)絡(luò)異常流量的檢測和分析,可以及時(shí)發(fā)現(xiàn)和應(yīng)對網(wǎng)絡(luò)安全問題,保障網(wǎng)絡(luò)的正常運(yùn)行和數(shù)據(jù)的安全。異常流量檢測通常包括數(shù)據(jù)采集、特征提取、異常檢測算法和異常流量報(bào)警。XGBoost基于梯度提升樹的機(jī)器學(xué)習(xí)算法,在異常網(wǎng)絡(luò)流量檢測中具有高性能、魯棒性、特征重要性評(píng)估和可解釋性的優(yōu)勢,因此被廣泛應(yīng)用于該領(lǐng)域。

圖2 DDos攻擊類型Fig.2 Type of DDos attack

2 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測

2.1 數(shù)據(jù)預(yù)處理

采用天池阿里云的CICIDS2017數(shù)據(jù)集,樣本量為136.4萬條,有77個(gè)特征列和1個(gè)標(biāo)簽列。特征屬性有Active Std、Active Max、Idle Min、Subflow Fwd Packets、SYN Flag Count等。標(biāo)簽列的取值有8類,即需要構(gòu)建八分類的XGBoost模型,如表1所示。其中,“BENIGN”表示正常網(wǎng)絡(luò)流量,“DoS Hulk”“DDoS”等則表示不同類型的網(wǎng)絡(luò)異常流量。在136.4萬條樣本中,正常網(wǎng)絡(luò)流量的比例為71.08%;DoS Hulk導(dǎo)致的異常流量占比為16.94%;DDoS導(dǎo)致的異常流量占比為9.38%;DoS GoldenEye導(dǎo)致的異常流量占比為0.75%;FTP-Patator導(dǎo)致的異常流量占比為0.58%;FTP-Patator導(dǎo)致的異常流量占比為0.43%;SSH-Patator和DoS Slowhttptest導(dǎo)致的異常流量占比均為0.42%。

表1 樣本分布Table 1 Sample distribution

對136.4萬條網(wǎng)絡(luò)流量進(jìn)行數(shù)據(jù)清洗和檢測,數(shù)據(jù)無缺失值和異常值,即數(shù)據(jù)集的完整性和可用性較高。對77個(gè)特征列做PCA降維處理。將降維后的特征數(shù)量定義在[1,29]范圍內(nèi),循環(huán)遍歷指定主成分的數(shù)量。每次循環(huán)中,將解釋方差比例添加到累積方差貢獻(xiàn)率中,并可視化解釋方差比例與主成分?jǐn)?shù)量之間的關(guān)系,以幫助分析網(wǎng)絡(luò)異常流量數(shù)據(jù),解釋方差比例是衡量主成分所保留的信息量的指標(biāo),表示降維后的數(shù)據(jù)集能夠解釋原始數(shù)據(jù)集中的多少方差。在實(shí)驗(yàn)中,選擇15個(gè)主成分時(shí),解釋方差比例與主成分?jǐn)?shù)量之間的關(guān)系接近100%,即保留了大部分原始數(shù)據(jù)集的信息(圖3)。在網(wǎng)絡(luò)異常流量檢測中,PCA將原始網(wǎng)絡(luò)流量數(shù)據(jù)從高維空間降維到低維空間,同時(shí)保留了網(wǎng)絡(luò)流量數(shù)據(jù)的主要信息。并將降維后的數(shù)據(jù)用于訓(xùn)練XGBoost異常檢測模型。

圖3 解釋方差比例與主成分?jǐn)?shù)量的關(guān)系Fig.3 Explaination of the relationship between the proportion of variance and the number of principal components

2.2 構(gòu)建XGBoost分類模型

將PCA降維后得到的15個(gè)特征維度作為訓(xùn)練和測試特征,并對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行劃分。其中,70%作為訓(xùn)練集,即95.48萬條樣本用于訓(xùn)練XGBoost模型;30%作為測試集,即40.92萬條樣本用于評(píng)估XGBoost模型的性能。

對于XGBoost算法而言,標(biāo)簽必須是數(shù)值型的,而不是字符串。因此,為了將字符串標(biāo)簽轉(zhuǎn)換為數(shù)值型,實(shí)驗(yàn)對8個(gè)類別的標(biāo)簽進(jìn)行one-hot編碼處理。one-hot編碼是將離散特征轉(zhuǎn)換為二進(jìn)制向量的編碼方法。對于每個(gè)可能的取值,one-hot編碼會(huì)創(chuàng)建一個(gè)新的二進(jìn)制特征,該特征只有一個(gè)元素為1,其余元素為0。每個(gè)離散特征就被表示為一個(gè)高維稀疏向量,其中每個(gè)維度對應(yīng)一個(gè)可能的取值。對于網(wǎng)絡(luò)異常流量檢測,one-hot編碼的步驟如下:

(1)確定標(biāo)簽列的所有取值:確定表1中8種網(wǎng)絡(luò)流量類型。

(2)創(chuàng)建全零向量:對于每條網(wǎng)絡(luò)流量樣本,創(chuàng)建一個(gè)與異常類型數(shù)量相等的全零向量。

(3)將對應(yīng)位置為1:對于每條網(wǎng)絡(luò)流量樣本,根據(jù)其異常類型,將對應(yīng)位置的值置為1。

通過上述one-hot編碼將原始的字符串標(biāo)簽轉(zhuǎn)換為稀疏的二進(jìn)制向量,只有一個(gè)位置為1,其余位置都為0。one-hot編碼編碼可以更好地表示不同的異常類型,并作為輸入傳遞給XGBoost模型進(jìn)行訓(xùn)練和預(yù)測。在訓(xùn)練XGBoost模型時(shí),學(xué)習(xí)率、樹的深度和分類器數(shù)量是影響性能的重要參數(shù)。學(xué)習(xí)率控制每棵樹對最終預(yù)測結(jié)果的貢獻(xiàn)程度,較小的學(xué)習(xí)率可以使模型更加穩(wěn)定,但可能需要更多的樹來達(dá)到較高的性能。較大的學(xué)習(xí)率可以加快模型的收斂速度,但可能導(dǎo)致過擬合。通常從較小的學(xué)習(xí)率開始,然后逐漸增加,直到確認(rèn)最終值。樹的深度決定了每棵樹的復(fù)雜度,較深的樹可以更好地?cái)M合訓(xùn)練數(shù)據(jù),但也容易過擬合。較淺的樹可以減少過擬合的風(fēng)險(xiǎn),但可能無法捕捉到復(fù)雜的模式分類器數(shù)量是使用XGBoost進(jìn)行多分類任務(wù)時(shí)的分類器個(gè)數(shù)。較多的分類器可以提高模型的性能,但也會(huì)增加計(jì)算成本。在實(shí)驗(yàn)中,學(xué)習(xí)率和樹的深度均采用網(wǎng)格搜索方式獲得,分類器數(shù)量的則設(shè)置范圍為[120,130,140,150,160,170,180]。

2.3 結(jié)果分析

如圖4所示,采用XGBoost算法作為網(wǎng)絡(luò)異常流量識(shí)別的分類模型,當(dāng)XGBoost算法的分類器設(shè)置為170個(gè)時(shí),分類準(zhǔn)確率最高,達(dá)到了96.32%。當(dāng)分類器數(shù)量小于140個(gè)時(shí),XGBoost算法無法充分學(xué)習(xí)網(wǎng)絡(luò)異常數(shù)據(jù)的復(fù)雜模式,導(dǎo)致欠擬合。隨著分類器數(shù)量由140個(gè)增加到170個(gè),XGBoost可以更好地?cái)M合訓(xùn)練數(shù)據(jù),準(zhǔn)確率隨之增加。然而,當(dāng)分類器數(shù)量超過170個(gè)時(shí),XGBoost算法出現(xiàn)了過度擬合訓(xùn)練數(shù)據(jù),導(dǎo)致在未見過的數(shù)據(jù)上表現(xiàn)不佳,分類準(zhǔn)確率降低。綜上,XGBoost算法對網(wǎng)絡(luò)異常數(shù)據(jù)特征有較高的學(xué)習(xí)能力。同時(shí),增加分類器的數(shù)量并不總是能夠進(jìn)一步提高性能。在分類器數(shù)量超過170個(gè)之后,XGBoost可能已經(jīng)學(xué)習(xí)到了數(shù)據(jù)中的大部分模式和規(guī)律,進(jìn)一步增加分類器的數(shù)量可能只會(huì)引入噪聲和冗余,從而降低分類準(zhǔn)確率。

圖4 基于XGBoost的異常流量檢測準(zhǔn)確率Fig.4 XGBoost-based abnormal traffic detection accuracy

3 結(jié)論

網(wǎng)絡(luò)異常流量可能是網(wǎng)絡(luò)攻擊的跡象,也可能是數(shù)據(jù)泄露的指示,會(huì)導(dǎo)致網(wǎng)絡(luò)擁塞和性能下降。如入侵、惡意軟件傳播或拒絕服務(wù)攻擊、敏感數(shù)據(jù)的傳輸、未經(jīng)授權(quán)的數(shù)據(jù)訪問等。及時(shí)檢測和監(jiān)控網(wǎng)絡(luò)異常流量是保護(hù)網(wǎng)絡(luò)安全、預(yù)防攻擊和數(shù)據(jù)泄露、維護(hù)網(wǎng)絡(luò)性能以及遵守合規(guī)要求的重要手段[8-11]。通過及時(shí)發(fā)現(xiàn)和應(yīng)對異常流量,可以及早發(fā)現(xiàn)并采取相應(yīng)的安全措施,以保護(hù)網(wǎng)絡(luò)免受攻擊,有利于提高網(wǎng)絡(luò)的安全性和可靠性。

基于XGBoost算法的網(wǎng)絡(luò)異常流量檢測是一種有效的方法。對136.4萬條網(wǎng)絡(luò)流量數(shù)據(jù)的檢測實(shí)驗(yàn)中,分類準(zhǔn)確率達(dá)到了96.32%。該指標(biāo)證明了XGBoost在網(wǎng)絡(luò)異常流量檢測中的有效性和優(yōu)勢。XGBoost在網(wǎng)絡(luò)異常流量檢測中仍然有巨大的潛力。未來可以探索更多的特征工程方法,并結(jié)合其他深度學(xué)習(xí)算法,構(gòu)建更加強(qiáng)大和魯棒的網(wǎng)絡(luò)異常流量檢測系統(tǒng),提高模型的性能。對于異常網(wǎng)絡(luò)流量帶來的危害,仍然需要采取關(guān)聯(lián)防范措施來應(yīng)對,包括建立實(shí)時(shí)流量監(jiān)控系統(tǒng),對網(wǎng)絡(luò)流量進(jìn)行持續(xù)監(jiān)測和分析,加強(qiáng)網(wǎng)絡(luò)安全措施,使用防火墻、入侵檢測系統(tǒng)(IDS)和入侵防御系統(tǒng)(IPS)等技術(shù)手段。并定期更新和維護(hù)網(wǎng)絡(luò)設(shè)備和軟件,及時(shí)修復(fù)漏洞和弱點(diǎn)以減少網(wǎng)絡(luò)受到攻擊的風(fēng)險(xiǎn)。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 国产一级无码不卡视频| 中文字幕调教一区二区视频| 日韩美女福利视频| 久久这里只精品国产99热8| 国产精品香蕉| 91久久精品国产| 日韩福利视频导航| 国产成人区在线观看视频| 亚洲成人www| 91久久夜色精品国产网站| 亚洲人成网站色7799在线播放| 亚洲国产成人麻豆精品| 欧美精品v| 一本大道视频精品人妻| 日韩在线第三页| 99国产精品国产| 自拍欧美亚洲| 成人欧美在线观看| 欧美一区二区三区香蕉视| 亚国产欧美在线人成| 秋霞国产在线| 久久国产V一级毛多内射| 国产91成人| 久久公开视频| 亚洲国产午夜精华无码福利| 亚洲天堂在线视频| 无码AV高清毛片中国一级毛片| 亚洲—日韩aV在线| 波多野结衣视频网站| 国产一二三区视频| 美臀人妻中出中文字幕在线| 青草视频网站在线观看| 欧美区一区| 国产精品久久久久久搜索| 伊人久久综在合线亚洲2019| 欧类av怡春院| 日韩午夜福利在线观看| 亚洲色偷偷偷鲁综合| 色久综合在线| 亚洲一级毛片在线观| 成人欧美日韩| 国产精品嫩草影院av| 国产成人久久777777| 91九色国产在线| 最新精品国偷自产在线| 久久福利网| 色妞永久免费视频| 天天激情综合| 一级福利视频| 亚洲av无码专区久久蜜芽| 在线观看国产精美视频| 又污又黄又无遮挡网站| 1级黄色毛片| 男女性午夜福利网站| 国产精品刺激对白在线| 免费大黄网站在线观看| 亚洲精品大秀视频| 欧美亚洲中文精品三区| 狠狠色噜噜狠狠狠狠色综合久| 中国精品久久| 精品视频在线观看你懂的一区| 欧美午夜视频在线| 精品久久人人爽人人玩人人妻| 亚洲无码日韩一区| 在线欧美一区| 不卡的在线视频免费观看| 手机永久AV在线播放| 久久久久免费精品国产| 亚洲三级a| 五月丁香伊人啪啪手机免费观看| 99热这里都是国产精品| 亚洲欧洲日产国产无码AV| a级毛片在线免费观看| 一区二区三区四区精品视频| 丁香婷婷综合激情| 日韩午夜伦| 中文字幕不卡免费高清视频| 中文字幕乱妇无码AV在线| 亚洲日韩久久综合中文字幕| 亚洲一区黄色| 91亚洲精品第一| 精品人妻无码中字系列|