基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常檢測及安全威脅等級預(yù)測研究

2021-03-04 11:36:52瞿迪慶，呂齊，楊懷仁，余侃，吳哲翔

電腦知識與技術(shù) 2021年34期

關(guān)鍵詞：機(jī)器學(xué)習(xí)網(wǎng)絡(luò)安全

瞿迪慶，呂齊，楊懷仁，余侃，吳哲翔

摘要：互聯(lián)網(wǎng)的飛速發(fā)展給人們的生活帶來便利的同時，也給網(wǎng)絡(luò)攻擊者提供了良好的環(huán)境。網(wǎng)絡(luò)安全問題不僅關(guān)乎民生，也關(guān)乎國家安全，因此，網(wǎng)絡(luò)安全問題引起了中央高度重視。為此，學(xué)者們提出了很多應(yīng)對網(wǎng)絡(luò)安全攻擊和網(wǎng)絡(luò)異常檢測的方法，其中機(jī)器學(xué)習(xí)算法占據(jù)重要地位。該文采用多種機(jī)器學(xué)習(xí)方法，首先對數(shù)據(jù)集KDD99進(jìn)行網(wǎng)絡(luò)異常檢測，并預(yù)測其攻擊類型，再對國家電網(wǎng)金華供電公司網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)攻擊威脅預(yù)測及等級分類。研究發(fā)現(xiàn)采用決策樹算法預(yù)測準(zhǔn)確度最高，同時運(yùn)行時間也短，此外，研究揭示KDD99數(shù)據(jù)集中U2R攻擊類型容易被預(yù)測為正常類型。該研究為降低誤報率和提高網(wǎng)絡(luò)安全性能的系統(tǒng)設(shè)計提供參考。

關(guān)鍵詞：網(wǎng)絡(luò)安全;異常檢測;安全威脅等級分類;機(jī)器學(xué)習(xí);國家電網(wǎng)

中圖分類號：TP393? ? ? 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2021）34-0010-03

1 引言

隨著互聯(lián)網(wǎng)與社會生活的日益深入融合，互聯(lián)網(wǎng)正在改變著人們的學(xué)習(xí)和工作方式，同時也面臨著日益嚴(yán)重的安全威脅[1-2]。如2006年“熊貓燒香”病毒傳播事件，短短一個月時間被感染的用戶就超過了幾百萬。再比如近期發(fā)生的以郵件、程序木馬和網(wǎng)頁掛馬為主要傳播形式的“勒索病毒”，給全球帶來了極大的損失[3]。據(jù)CNCERT發(fā)布《2021年上半年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析報告》指出：1）捕獲惡意程序樣本數(shù)量約2307萬個，日均傳播次數(shù)達(dá)582萬余次，涉及惡意程序家族約20.8萬個;2）我國境內(nèi)感染計算機(jī)惡意程序的主機(jī)數(shù)量約446萬臺，同比增長46.8%。位于境外的約4.9萬個計算機(jī)惡意程序控制服務(wù)器控制我國境內(nèi)約410萬臺主機(jī)，境外約1.2萬個IPv6地址控制了我國境內(nèi)約2.3萬臺IPv6地址主機(jī);3）國家信息安全漏洞共享平臺收錄通用型安全漏洞13083個，同比增長18.2%;4）CNCERT監(jiān)測發(fā)現(xiàn)，境內(nèi)目標(biāo)遭受峰值流量超過1Gbps的大流量攻擊事件同比減少17.5%，攻擊時長不超過30分鐘的攻擊事件占比高達(dá)96.6%，比例進(jìn)一步上升，表明攻擊者越來越傾向于利用大流量攻擊瞬間打癱攻擊目標(biāo);5）累計監(jiān)測發(fā)現(xiàn)用于發(fā)起DDoS攻擊的活躍控制端1，455臺，其中位于境外的占比97.1%，主要來自美國、德國和荷蘭等;6）監(jiān)測發(fā)現(xiàn)針對我國境內(nèi)網(wǎng)站仿冒頁面約1.3萬余個，境內(nèi)外8289個IP地址對我國境內(nèi)約1.4萬個網(wǎng)站植入后門，我國境內(nèi)被植入后門的網(wǎng)站數(shù)量較2020年上半年大幅減少62.4%，可以發(fā)現(xiàn)，盡管存在很多應(yīng)對網(wǎng)絡(luò)安全攻擊的方法，但是檢測和降低甚至防止網(wǎng)絡(luò)攻擊，仍是一個亟待解決的關(guān)鍵問題[4]。

關(guān)于網(wǎng)絡(luò)安全檢測和網(wǎng)絡(luò)安全威脅等級預(yù)測，學(xué)者們提出了大量的方法[5-6]。Stevanovic 和 Pedersen列出了一些基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量異常檢測方法，如支持向量機(jī)（support vector machine， SVM）、人工神經(jīng)網(wǎng)絡(luò)（artificial neural networks， ANN）、決策樹和貝葉斯算法，以及一些無監(jiān)督學(xué)習(xí)方法，如 K-means、X-means 等[7]。考慮到傳統(tǒng)機(jī)器學(xué)習(xí)方法只能進(jìn)行淺層的學(xué)習(xí)，學(xué)者使用深度學(xué)習(xí)方法學(xué)習(xí)大量復(fù)雜的輸入數(shù)據(jù)，期望深入挖掘特征與輸入之間的關(guān)聯(lián)關(guān)系。如Suda等學(xué)者利用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）挖掘數(shù)據(jù)包的時間序列特征，研究了車載網(wǎng)絡(luò)的入侵檢測[8]。考慮到傳統(tǒng)的RNN網(wǎng)絡(luò)存在梯度消失或爆炸問題，學(xué)者們提出了長短期記憶（Long Short-Term Memory networks， LSTM）網(wǎng)絡(luò)[9]，后來學(xué)者們提出了更加簡單的網(wǎng)絡(luò)結(jié)構(gòu)，門控循環(huán)單元（Gated Recurrent Unit，GRU）網(wǎng)絡(luò)，GRU網(wǎng)絡(luò)可以進(jìn)一步提升運(yùn)行速度的同時，預(yù)測準(zhǔn)確度不會下降[10]。鑒于傳統(tǒng)的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法依賴于歷史態(tài)勢值的準(zhǔn)確性，并且各種網(wǎng)絡(luò)安全因素之間存在相關(guān)性和重要程度差異性。何春蓉和朱江提出一種基于注意力機(jī)制的GRU編碼預(yù)測方法，該方法利用GRU循環(huán)神經(jīng)網(wǎng)絡(luò)挖掘網(wǎng)絡(luò)安全態(tài)勢數(shù)據(jù)之間的時間相關(guān)性[11]。

文章擬基于KDD99數(shù)據(jù)集[12-13]和國家電網(wǎng)金華供電公司數(shù)據(jù)集，采用幾個傳統(tǒng)的機(jī)器學(xué)習(xí)算法，如支持向量機(jī)SVM、決策樹DecTr、K-近鄰KNN、隨機(jī)森林RF和兩個深度學(xué)習(xí)算法，如多層BP神經(jīng)網(wǎng)絡(luò)[14]和雙向門控循環(huán)控制單元網(wǎng)絡(luò)（Bi-GRU）[15]，研究網(wǎng)絡(luò)數(shù)據(jù)異常檢測和安全威脅等級預(yù)測。

2 數(shù)據(jù)概述與預(yù)處理

2.1 數(shù)據(jù)概述

為了研究筆者的問題，本文采用兩個網(wǎng)絡(luò)流量數(shù)據(jù)集，一種是KDD99數(shù)據(jù)集（KDD CUP 99 dataset[12-13]），另一種是國家電網(wǎng)金華供電公司網(wǎng)絡(luò)數(shù)據(jù)。

KDD99數(shù)據(jù)集為公開數(shù)據(jù)，含有約16.7萬條信息，41個特征，1個標(biāo)簽。標(biāo)簽含有5種類型，分別是normal，DOS攻擊，Probe攻擊，R2L攻擊，U2R攻擊。其中normal為正常類，表示網(wǎng)絡(luò)沒有遭受任何潛在安全威脅。其他幾個異常類型如下：

DOS攻擊：拒絕服務(wù)攻擊，包括back、land、neptune、pod、smurf、teardrop。

Probe攻擊：端口監(jiān)視、探測或掃描，包括ipsweep、nmap、portsweep、satan。

R2L攻擊：來自遠(yuǎn)程主機(jī)的未授權(quán)訪問，包括ftp_write、guess_passwd、imap、multihop、phf、spy、warezclient、warezmaster。

U2R攻擊：未授權(quán)的本地超級用戶特權(quán)訪問，包括buffer overflow、loadmodule、perl、rootkit。

41個特征包括9個TCP連接基本特征，13個TCP連接的內(nèi)容特征，9個基于時間的網(wǎng)絡(luò)流量統(tǒng)計特征，10個基于主機(jī)的網(wǎng)絡(luò)流量統(tǒng)計特征。

因此，對于KDD99數(shù)據(jù)，文章基于這41個特征，預(yù)測某一行為是否存在網(wǎng)絡(luò)安全威脅，并預(yù)測其攻擊類型。

國家電網(wǎng)金華供電公司網(wǎng)絡(luò)數(shù)據(jù)集為2019年4月至2021年2月期間的13萬余條網(wǎng)絡(luò)信息，每條信息包含38個字段。其中與網(wǎng)絡(luò)安全威脅等級預(yù)測相關(guān)的字段有12個，分別為msgtype（消息類型），protocol（協(xié)議類型），direct（威脅方向），acted（對該告警的策略動作），sport（源端口），dport（目的端口），msg（告警描述信息），ds（觸發(fā)告警威脅字段），iscdnip（是否為cdn ip），alert_type（告警類型），attack_dir（攻擊方向），attack_chain（攻擊階段）。標(biāo)簽為alterlevel（威脅等級），分別是1，2，3。

國家電網(wǎng)金華供電公司網(wǎng)絡(luò)異常檢測系統(tǒng)將正常的行為進(jìn)行了過濾，所以只有異常數(shù)據(jù)。因此對于公司數(shù)據(jù)，目的是根據(jù)這12個特征，對某條信息的安全威脅等級進(jìn)行預(yù)測，即預(yù)測標(biāo)簽alterlevel的值。

2.2 數(shù)據(jù)預(yù)處理

將數(shù)據(jù)集數(shù)值化和標(biāo)準(zhǔn)化處理，并隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集占比為60%，驗(yàn)證集占15%，測試集占25%。

數(shù)值類型標(biāo)準(zhǔn)化方法：

每個數(shù)值類型數(shù)據(jù)除以該特征的數(shù)據(jù)最大值，即[xijmax （Xj）]，其中[xij]代表第[j]個屬性的第i個值，[max （Xj）]表示第[j]個屬性的最大值。

字符類型特征數(shù)值化方法：

基于某個特征，找出所有不同的字符串及個數(shù)，將不同字符串用整數(shù)標(biāo)號，最后將整數(shù)標(biāo)準(zhǔn)化處理，即除以該列特征數(shù)據(jù)最大的值。譬如，某個特征有10個不同的值（字符串），那么將這些字符串轉(zhuǎn)化為1至10的數(shù)值，再對每個數(shù)值除以10，這樣就實(shí)現(xiàn)了字符串類型數(shù)值化。

3 數(shù)據(jù)分析與網(wǎng)絡(luò)安全預(yù)測研究

為了預(yù)測網(wǎng)絡(luò)異常攻擊類型和預(yù)測安全威脅等級，采用6種機(jī)器學(xué)習(xí)算法，分別為決策樹算法（DecTr），支持向量機(jī)（SVM）），K最近鄰算法（KNN）），隨機(jī)森林（RF），以及兩個深度學(xué)習(xí)算法，即多層人工神經(jīng)網(wǎng)絡(luò)（BP）和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Bi-GRU）。

這些算法可以從python中的第三方庫直接調(diào)用。對于決策樹算法（DecTr），支持向量機(jī)（SVM），最近鄰算法（KNN），隨機(jī)森林（RF）四種算法，直接用默認(rèn)參數(shù);對于BP和Bi-GRU算法，筆者采用3個隱藏層，每層神經(jīng)元數(shù)量為80個，最后一層采用全連接層。為了減少或避免進(jìn)入局部最優(yōu)解和過擬合，dropout設(shè)為0.2，即隨機(jī)將20%的神經(jīng)元當(dāng)作遺忘。運(yùn)算批量大小batch_size為64，其他采用默認(rèn)參數(shù)。

3.1 KDD99數(shù)據(jù)集分析

筆者將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測試集，比例為4：1，如圖1所示。可以發(fā)現(xiàn)，訓(xùn)練集和測試集中的各類型分布相近，其中正常的占比最高，約占57%，攻擊類型中DOS攻擊類型占比最高，約占42%，U2R在攻擊類型中占比最低，不到0.1%，表明U2R攻擊類型很少出現(xiàn)。

3.2 KDD99數(shù)據(jù)集攻擊類型預(yù)測結(jié)果分析

如圖2所示，文章采用混淆矩陣圖像刻畫各種算法的預(yù)測準(zhǔn)確度。混淆矩陣表示測試集中的數(shù)據(jù)被預(yù)測為各個類型的數(shù)量構(gòu)成的矩陣。如果全在對角線，表明預(yù)測準(zhǔn)確度達(dá)到了100%。

文章在圖3中給出了上述6種算法的預(yù)測準(zhǔn)確度和相應(yīng)算法的運(yùn)行時長。從圖2和圖3可以發(fā)現(xiàn)，從算法準(zhǔn)確度角度看，決策樹算法（DecTr）準(zhǔn)確度最高，約為99.20%，BP算法次之，約為99.03%，最近鄰（KNN）算法約為98.89%，隨機(jī)森林（RF）約為98.68%，Bi-GRU雙向循環(huán)神經(jīng)網(wǎng)絡(luò)算法約為96.83%，而支持向量機(jī)算法SVM準(zhǔn)確度最差，約為94.06%。

綜合運(yùn)行時長分析，可以看出，SVM分類算法不僅準(zhǔn)確度低，運(yùn)行時長也高，而KNN算法盡管準(zhǔn)確度較高，但是預(yù)測時間較長，約為270秒。決策樹算法則在準(zhǔn)確度和時間方面都占據(jù)絕對優(yōu)勢，因此最終選定采用決策樹算法。

為了更為精確地了解預(yù)測結(jié)果，文章采用DecTr算法，進(jìn)一步分析各類攻擊類型的預(yù)測誤報率，圖4結(jié)果表明U2R誤報為“正常”的比例比其他幾種類型要高，約為8%，R2L誤報為“正常”的比例約為7%，其他攻擊類型的誤報率都低于2%。U2R和R2L攻擊類型誤報率較高的原因可能是這兩種攻擊類型樣本很少，如U2R攻擊類型樣本數(shù)不到50。綜上，文章發(fā)現(xiàn)誤報率屬于可接受的范圍，該誤報率預(yù)測結(jié)果為降低U2R和R2L誤報為正常的系統(tǒng)設(shè)計提供參考。

3.3 國家電網(wǎng)金華供電公司數(shù)據(jù)集分析

首先分析該數(shù)據(jù)集標(biāo)簽中的各類型分布，如圖5所示，可以清晰地發(fā)現(xiàn)，威脅等級為1的數(shù)量極少，只占了1.4%的比例，威脅等級為2的數(shù)據(jù)約占了28.5%，而威脅等級為3的比例達(dá)到了70%。

3.4 國家電網(wǎng)金華供電公司數(shù)據(jù)集網(wǎng)絡(luò)安全威脅等級預(yù)測

這里，同樣采用上述6種算法對該數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)安全威脅等級預(yù)測。與KDD99數(shù)據(jù)集結(jié)果有點(diǎn)不同，筆者從圖6的預(yù)測結(jié)果發(fā)現(xiàn)，隨機(jī)森林（RF）、決策樹（DecTr）和KNN三種算法預(yù)測準(zhǔn)確度都能達(dá)到100%。類似地，SVM算法預(yù)測準(zhǔn)確度也是最差，同時SVM和Bi-GRU算法的運(yùn)行時長也很高。RF、DecTr和KNN三種算法不僅預(yù)測非常準(zhǔn)確，運(yùn)行時間還短，尤其是對于DecTr算法，不管是訓(xùn)練時間還是預(yù)測時間，都不到1秒。

綜上，文章發(fā)現(xiàn)，采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法對于網(wǎng)絡(luò)安全異常檢測貌似更有效，Bi-GRU算法在很多領(lǐng)域中預(yù)測準(zhǔn)確度非常高，如自然語言處理，圖像處理等，但是對于所分析的問題Bi-GRU算法預(yù)測準(zhǔn)確度一般，一個可能的原因是Bi-GRU算法主要思想是數(shù)據(jù)集與時間序列有關(guān)，期望基于時間序列學(xué)習(xí)潛在的特征與輸出之間的關(guān)聯(lián)關(guān)系。然而，網(wǎng)絡(luò)異常檢測問題沒有涉及時間序列，所以Bi-GRU算法預(yù)測準(zhǔn)確度較差。

4 結(jié)束語

網(wǎng)絡(luò)安全問題在國防和民生方面占據(jù)著重要地位，準(zhǔn)確對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行異常檢測和安全威脅級別分類具有重要研究意義和實(shí)用價值。文章基于KDD99公開數(shù)據(jù)集和國家電網(wǎng)金華供電公司網(wǎng)絡(luò)數(shù)據(jù)，采用機(jī)器學(xué)習(xí)算法預(yù)測網(wǎng)絡(luò)攻擊類型和安全威脅等級。通過對比幾種常用的機(jī)器學(xué)習(xí)算法的預(yù)測結(jié)果，文章發(fā)現(xiàn)采用決策樹算法不僅預(yù)測更準(zhǔn)確，同時運(yùn)行時間更短。在國家電網(wǎng)金華供電公司網(wǎng)絡(luò)數(shù)據(jù)預(yù)測結(jié)果揭示決策樹算法可以達(dá)到100%的預(yù)測準(zhǔn)確度，同時運(yùn)行時長不到1秒。在KDD99數(shù)據(jù)集上，決策樹算法預(yù)測準(zhǔn)確度也達(dá)到了99.2%。此外，文章發(fā)現(xiàn)兩種攻擊類型，即U2R和R2L攻擊類型的誤報率較高，分別達(dá)到了8%和7%，文章的研究結(jié)果為進(jìn)一步優(yōu)化設(shè)計降低誤報率的系統(tǒng)提供參考。

參考文獻(xiàn)：

[1] 蔣建春，馬恒太，任黨恩，等.網(wǎng)絡(luò)安全入侵檢測：研究綜述[J].軟件學(xué)報，2000，11（11）：1460-1466.

[2] Aftergood S.Cybersecurity：The cold war online[J].Nature，2017，547（7661）：30-31.

[3] 方興東.勒索病毒事件對全球網(wǎng)絡(luò)治理的影響[J].中國信息安全，2017（7）：31-32.

[4] 陶源，黃濤，張墨涵，等.網(wǎng)絡(luò)安全態(tài)勢感知關(guān)鍵技術(shù)研究及發(fā)展趨勢分析[J].信息網(wǎng)絡(luò)安全，2018（8）：79-85.

[5] Xin Y，Kong L S，Liu Z，et al.Machine learning and deep learning methods for cybersecurity[J].IEEE Access，2018，6：35365-35381.

[6] 肖建平，龍春，趙靜，等.于深度學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測研究綜述[J].據(jù)與計算發(fā)展前沿，2021，3（3）：59-74.

[7] Stevanovic M，Pedersen J M.On the use of machine learning for identifying botnet network traffic[J].Journal of Cyber Security and Mobility， 2016，4（2）：1-32.

[8] Suda H，Natsui M，Hanyu T.Systematic intrusion detection technique for an in-vehicle network based on time-series feature extraction[C].Proceedings of the 2018 IEEE 48th International Symposium on Multiple Valued Logic （ISMVL），2018：56-61.

[9] Hochreiter S，Schmidhuber J.Long short-term memory[J].Neural Computation，1997，9（8）：1735-1780.

[10] Chung J，Gulcehre C，Cho K，et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J]. arXiv preprint arXiv：1412.3555，2014.

[11] 何春蓉，朱江.基于注意力機(jī)制的GRU神經(jīng)網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法[J].系統(tǒng)工程與電子技術(shù)，2021，43（1）：258-266.

[12] NSL-KDD dataset[EB/OL].[2021-04-09]. https：//www.unb.ca/cic/datasets/nsl.html.

[13] 張陽玉，呂光宏，李鵬飛.SDN網(wǎng)絡(luò)入侵檢測系統(tǒng)的深度學(xué)習(xí)方法綜述[J].計算機(jī)應(yīng)用，2019，39（S2）：147-151.

[14] Rumelhart D E，Hinton G E，Williams R J.Learning representations by back-propagating errors[J].Nature，1986，323（6088）：533-536.

[15] Lynn H M，Pan S B，Kim P.A deep bidirectional GRU network model for biometric electrocardiogram classification based on recurrent neural networks[J].IEEE Access，2019，7：145395-145405.

【通聯(lián)編輯：謝媛媛】