999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM模型的APT攻擊信道檢測(cè)方法

2022-04-20 11:15:04魏峰張馴
微型電腦應(yīng)用 2022年3期
關(guān)鍵詞:單詞檢測(cè)模型

魏峰, 張馴

(國網(wǎng)甘肅省電力公司, 電力科學(xué)研究院,甘肅, 蘭州 730070)

0 引言

高級(jí)持續(xù)性威脅(APT)攻擊[1]已經(jīng)對(duì)全球范圍內(nèi)的重要企業(yè)和政府機(jī)構(gòu)造成了重大危害,盡管企業(yè)在網(wǎng)絡(luò)安全防護(hù)領(lǐng)域中的能力有所提高,基于特征碼識(shí)別和模式匹配的傳統(tǒng)檢測(cè)系統(tǒng)已經(jīng)可以識(shí)別大部分的網(wǎng)絡(luò)惡意行為,如端口掃描、分布式拒絕服務(wù)攻擊、木馬蠕蟲等,但是對(duì)攻擊技術(shù)高超、持續(xù)時(shí)間持久、隱蔽能力極強(qiáng)的APT攻擊的檢測(cè)效果卻差強(qiáng)人意,因?yàn)楹诳屯ㄟ^流量加密[2]、DGA生成C&C域名[3]、0day漏洞躲避網(wǎng)絡(luò)安防系統(tǒng)的檢測(cè)[4]。

針對(duì)APT攻擊的檢測(cè)與防范,一些全球知名安全公司在對(duì)APT攻擊展開持續(xù)跟蹤和分析后的報(bào)告中指出,雖然在攻擊過程中黑客使用的惡意代碼變化速度快,變異程度高,通過文件特征對(duì)其識(shí)別十分困難,但是黑客在攻擊成功時(shí)操縱受害者與C&C服務(wù)器通信卻存在一定特點(diǎn),黑客為了躲避安防系統(tǒng)中域名黑名單的識(shí)別,往往使用域名生成算法動(dòng)態(tài)生成C&C域名。本文針對(duì)APT攻擊者使用DGA算法生成C&C域名進(jìn)行通信的特點(diǎn),利用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)正常域名和惡意域名建模分類,從域名通信這一環(huán)節(jié)實(shí)現(xiàn)對(duì)APT攻擊的有效檢測(cè)。

1 相關(guān)技術(shù)及方法

1.1 域名生成算法(DGA)

在早期僵尸網(wǎng)絡(luò)領(lǐng)域中,受害主機(jī)通常會(huì)使用輪詢的方式去訪問硬編碼的C&C域名與服務(wù)器建立通信。但是這種方式并不可靠,安全人員可以通過逆向工程得到C&C域名的編碼,并通過域名黑名單有效地屏蔽惡意連接。APT攻擊者為了避免C&C域名被發(fā)現(xiàn),會(huì)使用Domain Flux或者IP Flux技術(shù)快速創(chuàng)建大量的域名和地址[5]。Domain Flux通過不斷變換域名,使多個(gè)域名指向同一個(gè)IP地址;IP Flux不斷變換IP地址,使一個(gè)域名使用多個(gè)IP地址。域名生成算法是一種利用隨機(jī)字符生成C&C域名從而逃避域名黑名單檢測(cè)的技術(shù)手段。APT攻擊者為了防止自己與受害主機(jī)之間的通信被屏蔽,實(shí)現(xiàn)持續(xù)、隱蔽地竊取數(shù)據(jù),也將DGA算法引入進(jìn)來。

在攻擊者端,黑客使用種子通過DGA生成大量域名,出于經(jīng)濟(jì)利益和偽裝隱蔽的目的,黑客一般會(huì)從中隨機(jī)選擇少量的域名進(jìn)行注冊(cè),將注冊(cè)的域名指向C&C服務(wù)器。在受害者端,使用與攻擊者端相同的種子通過DGA生成大量域名,植入受害計(jì)算機(jī)中的惡意代碼將通過域名解析系統(tǒng)遍歷查詢,如果查詢的域名未被注冊(cè),惡意代碼將繼續(xù)查詢其他域名,直到查詢到已經(jīng)注冊(cè)的域名,使用該域名與C&C服務(wù)器建立通信。

DGA可以使用很多類型的數(shù)據(jù)作為生成域名的種子,包括隨機(jī)數(shù)、時(shí)間、字典、熱門話題字符串等,根據(jù)種子可以生成一系列隨機(jī)字符串作為二級(jí)域名,再添加相應(yīng)的一級(jí)域名就能得到最終的域名。DGA的實(shí)現(xiàn)如圖1所示。

圖1 DGA實(shí)現(xiàn)示意圖

根據(jù)DGA輸入的種子是否依賴于時(shí)間,可以將DGA分為2類:依賴于時(shí)間的和不依賴于時(shí)間的。時(shí)間種子可以從受害計(jì)算機(jī)的系統(tǒng)時(shí)間獲取,也可以從網(wǎng)絡(luò)數(shù)據(jù)報(bào)文的日期字段中獲取。DGA輸入種子既可以是確定的,也可以是不確定的。大多數(shù)DGA的種子都是確定的。種子被安全人員獲得后,安全人員可以利用該種子產(chǎn)生DGA生成的域名,搶先注冊(cè)并通過網(wǎng)絡(luò)沉洞技術(shù)[6]劫持分析APT攻擊的通信。

1.2 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)

長(zhǎng)短期記憶網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,解決了傳統(tǒng)RNN模型中存在的梯度爆炸和消失問題[7]。在傳統(tǒng)的RNN模型中,使用時(shí)間反向傳播算法訓(xùn)練模型,當(dāng)訓(xùn)練時(shí)間較長(zhǎng)時(shí),需要回傳的殘差造成指數(shù)下降,導(dǎo)致網(wǎng)絡(luò)權(quán)重更新緩慢,無法體現(xiàn)RNN的長(zhǎng)期記憶的效果,需要一個(gè)存儲(chǔ)單元來存儲(chǔ)記憶,因此學(xué)者基于RNN提出了LSTM模型。

LSTM引入了門控單元和內(nèi)部的自循環(huán)單元(記憶單元)。長(zhǎng)短期記憶網(wǎng)絡(luò)單元示意圖如圖2所示,各單元由輸入門、遺忘門和輸出門等3個(gè)門控單元以及1個(gè)記憶單元組成。LSTM網(wǎng)絡(luò)是由一個(gè)又一個(gè)的LSTM單元構(gòu)成的,通過門控單元就可以對(duì)信息進(jìn)行添加和刪除。當(dāng)一個(gè)信息通過輸入門進(jìn)入LSTM單元中,符合一定規(guī)則的信息會(huì)被留下,反之則通過遺忘門被遺忘,以此來解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中長(zhǎng)序列的依賴問題。總之,LSTM網(wǎng)絡(luò)可以“記住”信息中心比較重要的部分,并且讓此“記憶”保存較長(zhǎng)時(shí)間。

圖2 LSTM 單元示意圖

2 模型搭建及結(jié)果驗(yàn)證

2.1 實(shí)驗(yàn)數(shù)據(jù)

本次實(shí)驗(yàn)的數(shù)據(jù)分為惡意域名樣本和正常域名樣本。惡意樣本通過爬蟲程序?qū)Π踩竟嫉膼阂庥蛎M(jìn)行定期收集,最終得到70萬余條DGA惡意域名,部分安全公司網(wǎng)址見表1。正常樣本來源于Alexa域名信譽(yù)排名的前100萬條記錄。

表1 部分安全公司網(wǎng)址

2.2 數(shù)據(jù)處理

通過對(duì)收集的域名樣本進(jìn)行正則化、數(shù)值化、向量化等操作,統(tǒng)計(jì)域名長(zhǎng)度分布,刪除不適合訓(xùn)練模型的域名,并過濾掉域名中的前綴、后綴,最終得到100萬余條域名樣本。為了訓(xùn)練LSTM模型,需要將域名數(shù)據(jù)轉(zhuǎn)換成向量,將域名中字符以獨(dú)熱編碼的方式進(jìn)行轉(zhuǎn)換。

通過安全公司發(fā)布的安全報(bào)告,可以為數(shù)據(jù)集中的全部樣本匹配攻擊類型并打上標(biāo)簽。經(jīng)過數(shù)據(jù)處理后的樣本分布如圖3所示。

圖3 域名樣本統(tǒng)計(jì)分布

本文從統(tǒng)計(jì)特征、語言特征和結(jié)構(gòu)特征等3個(gè)方面來選取了13類特征值,分別為n元模型的1-gram、2-gram、3-gram、4-gram、5-gram的正則化分?jǐn)?shù);有意義的單詞占比;數(shù)字個(gè)數(shù)占比;元音個(gè)數(shù)占比;不同數(shù)字占比;不同字母占比;域名長(zhǎng)度;域名后綴出現(xiàn)的次數(shù)、字符變換次數(shù)。其中,序號(hào)為1~5的特征值屬于統(tǒng)計(jì)特征,序號(hào)6~10屬于語言特征,第11~13屬于結(jié)構(gòu)特征。

統(tǒng)計(jì)特征部分,n-gram的正則化分?jǐn)?shù)計(jì)算,是利用文獻(xiàn)[8]中提供的10 000個(gè)常用單詞的文件實(shí)現(xiàn)的。逐行讀取文件中的單詞,以單詞“security”為例,1-gram將其劃分為s、e、c等8個(gè)元組,分別對(duì)這8個(gè)字母對(duì)應(yīng)字典中的值加一,2-gram將字符串劃分為se、ec、cu等元組以相同的方式檢測(cè)并統(tǒng)計(jì),以此類推至5-gram,遍歷文件中所有單詞完成統(tǒng)計(jì)處理。用單詞劃分后的字符序列在之前求出的統(tǒng)計(jì)字典中找到對(duì)應(yīng)出現(xiàn)的次數(shù),求和并除以“字符數(shù)-n+1”作為n-gram正則化分?jǐn)?shù)。

語言特征部分,以域名“123 sport”為例,檢索詞典后發(fā)現(xiàn)域名中有意義的單詞為“sport”,則其有意義單詞的占比為單詞的長(zhǎng)度除以域名長(zhǎng)度,即0.625;不重復(fù)的數(shù)字有3個(gè),不重復(fù)的字母有5個(gè),則數(shù)字個(gè)數(shù)占比與不同數(shù)字占比均為0.375;不同字母占比為0.625;元音字母只有1個(gè),則元音個(gè)數(shù)的占比就是0.125。

結(jié)構(gòu)特征部分,域名長(zhǎng)度為8;統(tǒng)計(jì)測(cè)試集中域名后綴,即頂級(jí)域名出現(xiàn)的頻次;域名中字符變換發(fā)生在數(shù)字1與字母s之間,次數(shù)為1。

2.3 模型搭建

從數(shù)據(jù)集中隨機(jī)抽取九十萬條惡意域名樣本和九十萬條良性域名樣本(來自Alexa)構(gòu)建訓(xùn)練集用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,另外再抽取十萬條惡意域名樣本和十萬條良性域名樣本構(gòu)建測(cè)試集驗(yàn)證模型檢測(cè)效果,如表2所示。

表2 實(shí)驗(yàn)樣本分布 單位:條

利用Keras框架搭建LSTM神經(jīng)網(wǎng)絡(luò)模型,LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。首先構(gòu)建一個(gè)基本的LSTM網(wǎng)絡(luò)模型。嵌入層將編碼后的樣本向量轉(zhuǎn)化成固定向量,將輸入的字符轉(zhuǎn)化為128個(gè)浮點(diǎn)數(shù)的向量進(jìn)行輸出。LSTM層是模型訓(xùn)練的核心,可以將其看作是隱式特征提取層,LSTM層的維度大小影響模型對(duì)訓(xùn)練集的學(xué)習(xí)效果,維度越大對(duì)數(shù)據(jù)的學(xué)習(xí)能力也就更全面,將LSTM層的維度設(shè)置為128。為了防止訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型過擬合,使用Dropout層隨機(jī)斷開半數(shù)比例的神經(jīng)元連接。全連接層用來實(shí)現(xiàn)特征的非線性組合,并將學(xué)習(xí)到的特征映射到樣本空間。激活層使用S型函數(shù)作為激活函數(shù),將輸入的實(shí)數(shù)轉(zhuǎn)化到[0,1]之間,實(shí)現(xiàn)將權(quán)值轉(zhuǎn)化為二分類結(jié)果。

圖4 LSTM模型網(wǎng)絡(luò)結(jié)構(gòu)圖

2.4 性能評(píng)估指標(biāo)及結(jié)果

選擇機(jī)器學(xué)習(xí)常用的精確率、召回率和綜合評(píng)價(jià)指標(biāo)作為衡量檢測(cè)模型性能的評(píng)價(jià)指標(biāo)。準(zhǔn)確率體現(xiàn)的是預(yù)測(cè)正確的數(shù)據(jù)占全部數(shù)據(jù)的比值。召回率體現(xiàn)的是所有預(yù)測(cè)為惡意域名的樣本中預(yù)測(cè)正確的比率。綜合評(píng)價(jià)指標(biāo)F1分?jǐn)?shù)則是綜合考慮精確率、召回率后給出的計(jì)算結(jié)果,能夠綜合地代表和體現(xiàn)模型性能。具體評(píng)價(jià)參數(shù)和評(píng)價(jià)指標(biāo)公式如表3和表4所示。

表3 評(píng)價(jià)參數(shù)

表4 評(píng)價(jià)指標(biāo)公式

使用訓(xùn)練好的LSTM模型對(duì)測(cè)試集中的未知域名進(jìn)行預(yù)測(cè),對(duì)LSTM模型性能進(jìn)行評(píng)估,評(píng)估結(jié)果如表5所示。

表5 模型性能

通過表5可以看出,本文提出的LSTM模型對(duì)惡性域名、良性域名均達(dá)到較高的準(zhǔn)確率和召回率,在實(shí)驗(yàn)中訓(xùn)練的LSTM模型對(duì)惡意域名的檢測(cè)具有較好的效果。

3 總結(jié)

根據(jù)國內(nèi)外安全公司對(duì)APT攻擊的報(bào)告分析,針對(duì)APT攻擊中普遍存在與C&C服務(wù)器進(jìn)行通信的特點(diǎn)[9],本文從對(duì)C&C服務(wù)器通信時(shí)使用DGA算法生成的惡意域名的識(shí)別出發(fā),將LSTM神經(jīng)網(wǎng)絡(luò)模型引入進(jìn)來,通過機(jī)器學(xué)習(xí)對(duì)惡意域名進(jìn)行準(zhǔn)確、快速的識(shí)別。通過識(shí)別APT攻擊者為了維持通信而使用DGA算法生成的惡意域名,實(shí)現(xiàn)對(duì)APT攻擊行為的檢測(cè)。

本文的檢測(cè)方法也存在許多不足,因?yàn)镈GA算法生成的惡意域名變化速度很快,本文需要升級(jí)爬蟲程序,定期對(duì)惡意域名進(jìn)行收集,不斷對(duì)LSTM模型進(jìn)行更新,才能對(duì)不斷變化的APT攻擊實(shí)現(xiàn)有效監(jiān)測(cè)。

猜你喜歡
單詞檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
單詞連一連
看圖填單詞
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 在线欧美国产| 妇女自拍偷自拍亚洲精品| 国产亚洲精品97在线观看| 久久国产精品国产自线拍| 一区二区欧美日韩高清免费| 毛片大全免费观看| 亚洲国产亚洲综合在线尤物| 欧美在线视频不卡| 在线观看视频99| 激情亚洲天堂| 久久亚洲国产视频| 国产成人精品优优av| 久久综合色播五月男人的天堂| 97狠狠操| 中文字幕一区二区人妻电影| 国产精品永久在线| 草草线在成年免费视频2| 精品在线免费播放| 久久久久久午夜精品| 国产亚洲精品自在久久不卡 | 伊人中文网| 波多野结衣一区二区三视频 | 中国成人在线视频| 亚洲人成影院在线观看| 色哟哟国产精品一区二区| 一级成人a毛片免费播放| 亚洲天堂网在线观看视频| 在线观看精品自拍视频| 综合久久五月天| 在线亚洲精品自拍| 91人妻在线视频| 国产一区在线观看无码| 日本欧美中文字幕精品亚洲| 无码专区在线观看| 久久久久亚洲av成人网人人软件| 国产真实乱子伦视频播放| 久久精品人人做人人爽| 国产欧美日韩精品第二区| 国产不卡网| 亚洲伊人电影| 国产精品视频观看裸模| 亚洲精选高清无码| 日本a∨在线观看| 国产成人综合久久精品尤物| 亚洲an第二区国产精品| 亚亚洲乱码一二三四区| 国产成人精品一区二区三区| 天天躁夜夜躁狠狠躁图片| 色欲国产一区二区日韩欧美| 六月婷婷精品视频在线观看| 美女毛片在线| 久久久久亚洲AV成人网站软件| 波多野结衣一区二区三视频| 国产无码在线调教| 免费看的一级毛片| 制服丝袜一区| 四虎综合网| 欧美特级AAAAAA视频免费观看| 国产福利一区视频| 欧美综合激情| 亚洲看片网| 精品久久久久久久久久久| 欧日韩在线不卡视频| 国产在线麻豆波多野结衣| 久久精品女人天堂aaa| 亚洲综合精品香蕉久久网| 国产性生交xxxxx免费| 欧洲一区二区三区无码| 国产在线观看99| 天堂网亚洲综合在线| 久久精品91麻豆| 免费jjzz在在线播放国产| 97色伦色在线综合视频| 99视频在线观看免费| 综合网久久| 五月婷婷激情四射| 欧类av怡春院| 免费在线一区| 丁香六月激情综合| 99久久亚洲综合精品TS| 亚洲精品第一页不卡| 亚洲日韩精品综合在线一区二区|