999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學習的小樣本惡意域名檢測

2022-12-30 07:51:32常兆斌
計算機工程與設計 2022年12期
關鍵詞:特征檢測模型

趙 凡,趙 宏,常兆斌

(1.甘肅省科學技術情報研究所 創新平臺中心,甘肅 蘭州 730000;2.蘭州理工大學 計算機與通信學院,甘肅 蘭州 730050)

0 引 言

域名系統(domain name system,DNS)難以實時預判攻擊行為,極易受到攻擊者的關注[1]。攻擊者正是利用域名解析的機制[2,3],將合法訪問的DNS請求映射到攻擊者提前設定的服務器上,并通過命令控制中心C&C(command and control)控制受感染主機[4],竊取受感染主機的信息,導致用戶財產、隱私信息等受到威脅。

傳統的域名檢測方法通過綜合分析域名在構詞、字符統計和網絡結構等方面存在統計特征快速判定惡意域名[5,6]。如文獻[7]通過統計大量合法域名的Bi-Gram特征,并根據待測域名中包含的Bi-Gram頻次,給出待測域名的分類結果。文獻[8]提出了一種結合詞法特征的域名判定方法,通過計算待測域名與歷史數據之間的編輯距離和差異度值,快速做出判定。文獻[9]通過提取28維域名字符特征,并結合粗糙集增量式規則的機器學習分類算法實現惡意域名的分類。利用提取的域名字符特征并結合機器學習分類算法識別惡意域名是一種最直接的檢測方法,但檢測中大多依賴手工設計的特征,且特征維度有限,影響檢測效果。

結合深度學習相關算法快速判定待測域名的合法性,成為近年來的熱點研究。如文獻[10]將可分離卷積引入惡意域名檢測領域,綜合考慮了檢測時間開銷和檢測精度。文獻[11]使用長短時記憶神經網絡LSTM并引入注意力機制構建惡意域名檢測模型,通過實驗驗證了模型的有效性。文獻[12]結合深度學習和自然語言處理技術,構建了一種用于DGA(domains generation algorithm)算法生成的惡意域名檢測模型。文獻[13]在循環神經網絡的基礎上引入注意力機制,提出了一種惡意域名檢測方法,緩解了利用隨機生成模型生成的惡意域名隨機性強而難以檢測的問題。

近年來的研究成果表明,基于深度學習的惡意域名檢測算法檢測性能明顯優于傳統基于字符特征匹配的惡意域名檢測算法[14]。然而隨著檢測方法的增多,新變種、新出現或偽造等域名的類型不斷豐富。現有主流的惡意域名檢測模型對于該類小樣本惡意域名的識別效果不佳。因此設計出一種能夠識別出多種家族多種類型的小樣本惡意域名檢測模型是惡意域名檢測領域的一個重要研究方向。

綜上,針對現有惡意域名檢測模型對新變種、偽造等類型的域名識別精度不高和識別類型較少的問題。首先,通過構造BiLSTM和CNN的組合模型BiLSTM-CNN,并利用數據量充足的多家族惡意域名集進行遷移知識的預訓練;然后,遷移混合模型BiLSTM-CNN的知識到小樣本惡意域名檢測模型中,并利用已有小樣本歷史數據微調提出的BiLSTM-CNN,構造一種小樣本惡意域名檢測算法。

1 算法設計與分析

基于遷移學習的小樣本惡意域名檢測算法分為數據預處理、BiLSTM-CNN模型構造、小樣本遷移模型構造等3個步驟,算法框架如圖1所示。

圖1 算法框架

首先,采用Keras中的Embedding層將規整后的URL(uniform resource locator)映射為數值向量;然后,利用BiLSTM提取多家族URL的全局特征,利用卷積神經網絡CNN在學習BiLSTM網絡提取域名上下文信息的基礎上,進行局部強特征提取,并采用充足的多家族域名數據集進行預訓練;最后,通過遷移BiLSTM-CNN惡意域名檢測模型預訓練的知識參數到小樣本的惡意域名檢測模型中,并利用新變種、新出現等小樣本惡意域名集進行參數微調。

1.1 數據預處理

由于頂級域名數量少、長度短、知名度高、容易識別等原因,很少在域名頂層設計惡意域名[15]。因此,本文模型首先提取第二層域名和其余子域名層,構造惡意域名集和合法域名集。

為了將域名送入到神經網絡中進行特征提取,首先需要對URL中的字符進行向量化。傳統字符向量化存在One-hot編碼和分布式(distributed word representation,DWR)表示等兩種,其中One-hot編碼表示如 [0,0,…,0,1,0], 其中1表示該字符在字典集中的位置,當字典維度較大時,該類編碼方式計算開銷較大,且編碼稀疏,無法表達上下文關聯信息;DWR編碼方式可以將字符映射為定長向量,維度可控,因其出色的上下文信息包含能力被廣泛地應用。因此,本文采用分布式編碼DWR對URL中的每個字符進行數值向量化。URL字符量化前需統計URL中常見的字符個數,本文根據ASCII碼字符集設定映射字典為128維。圖2以甘肅省科學技術情報研究所的主體域名“gsinfo”為例說明量化過程。

圖2 域名向量化

由于神經網絡的輸入為定長的向量,此處設定域名字符串截斷長度為Len。如果字符串長度大于Len,對超出部分的字符或字符串剪切;當字符串長度小于Len時,利用零向量補全,本文Len取值128。具體截斷方式采用式(1)

(1)

式中: F(urli) 為規整后的域名字符串向量;urli為待調整的域名字符串;Vz是零向量。

1.2 BiLSTM-CNN模型

(1)BiLSTM模型

不同家族的域名生成方式和結構特征各不相同,然而,在字符統計特征和語義關聯上仍存在上下文依賴關系[16]。為此,本文利用BiLSTM網絡提取域名字符序列的上下文特征。BiLSTM網絡的結構如圖3所示。

圖3 BiLSTM結構

圖3中, S={V(w1),V(w2),…,V(wn)} 表示域名向量化矩陣,利用BiLSTM進行上下文特征提取,BiLSTM上下文提取計算請參見文獻[17]。

(2)CNN模型

卷積神經網絡CNN是一種前饋神經網絡,近年來被廣泛地應用于時間序列分析[10]。本文采用圖4中的CNN網絡模型在學習BiLSTM提取URL序列的上下文特征的基礎上,進行局部深度特征提取。

圖4 CNN網絡結構

卷積層將BiLSTM的輸出作為輸入,通過CNN的卷積運算提取域名字符序列在空間維度上的深層特征。計算如式(2)所示

ot=f(wd·ht+bt)

(2)

式中:ot為t時刻卷積層的輸出特征;f為縮放指數線性函數Selu,wd表示卷積核的大小,ht表示t時刻BiLSTM的輸出,bt表示偏置。當卷積核計算完成所有BiLSTM的輸出 HBiLSTM={h1,h2,…,ht,…,hn} 后,得到輸出特征Oconv={o1,o2,…,ot,…,on}。

獲得特征序列Oconv后,對其進行池化操作,本文采用平均池化的方法,計算如式(3)所示

pt=ave_pool[Oconv]

(3)

(3)BiLSTM-CNN混合模型

圖5給出了BiLSTM-CNN構造流程。在特征提取階段,首先采用雙向長短時記憶神經網絡BiLSTM提取URL序列的上下文特征;然后,利用卷積神經網絡CNN進行局部深度特征提取;在分類階段,為防止模型過擬合,提升模型的魯棒性,在全連接層之前使用Dropout對神經元隨機丟棄,并將Dropout層的輸出作為Softmax的輸入,計算出分類結果,本文Dropout取值為0.5。

圖5 BiLSTM-CNN網絡結構

1.3 小樣本惡意域名檢測模型

參數遷移的方法能夠實現模型間參數的共享,有效解決因訓練數據樣本嚴重不足的問題。采用域名變換技術或人工生成的方式產生的新變種或新出現的惡意域名由于更新快、數據樣本少和信息不全等原因難以精確檢測。因此,本文采用遷移學習的方法將已訓練好的BiLSTM-CNN混合模型的參數遷移到小樣本惡意域名檢測模型中,并利用有標簽的小樣本數據結合全樣本梯度下降算法完成小樣本惡意域名檢測模型的參數微調。模型參數遷移如圖6所示。

圖6 遷移模型

2 實驗及結果分析

2.1 數據集

本文數據集包含180 000條合法域名和76 000條惡意域名。樣本集詳細信息見表1。

表1 數據集描述

2.2 實驗環境與評價標準

實驗在Intel Core i7/16 GB的Windows 10下進行;模型的實現基于Tensorflow深度學習框架。

為評估模型對于合法域名與惡意域名的識別性能,采用Accuracy、Precision、誤報率FPR和漏報率FNR作為度量指標,通常Accuracy和Precision越高、FPR和FNR越低,表明檢測效果越好。計算如式(4)所示,混淆矩陣見表2。此外,為避免單次實驗結果不穩定的問題,采用多次實驗的平均值作為最終評價結果

表2 混淆矩陣計算

(4)

2.3 超參數設置

本文模型采用2層BiLSTM層、5層卷積層、5層池化層和1層全連接層。模型詳細參數見表3。

表3 參數設置

為防止模型過擬合,在BiLSTM層后加入Dropout層,設定Dropout率為0.5,最后連接一個全連接層,并使用激活函數Softmax完成計算。

2.4 實驗結果分析

基于遷移學習的小樣本惡意域名檢測算法對黑名單集和25種數據量充足的家族惡意域名集的檢測性能見表4。表5給出了對22類小樣本家族惡意的檢測性能。

表4 黑名單集和25種數據量充足的家族惡意域名集的檢測性能/%

表5 小樣本惡意域名檢測結果/%

2.5 同類相關工作性能對比

本文對比分析了文獻[6]基于卷積神經網絡的惡意域名檢測算法、文獻[10]基于可分離卷積的惡意域名檢測算法、文獻[16]基于CNN-BiLSTM并行的惡意域名檢測算法、文獻[20]基于深度學習的惡意DGA域名檢測算法。性能對比結果如圖7和圖8所示。

由圖7可知,本文模型對22類小樣本的家族惡意域名平均檢測準確率均優于當前主流的域名檢測模型。上述數據也進一步驗證了本文模型在小樣本惡意域名集上的高效性;由圖8可知,本文模型在歷史惡意域名和25種數據量充足的常規惡意域名數據集上的平均識別準確率均優于同類主流惡意域名檢測算法。

圖7 5種算法對小樣本的惡意域名檢測準確率

圖8 5種算法對數據量充足的惡意域名集檢測準確率

綜上,本文模型在保持較高檢測精度的基礎上,可以識別出多家族多種類型的惡意域名,具有更廣泛檢測范圍。此外,與同類相關工作對比,本文模型更適合在真實場景中應用。

3 結束語

考慮到在實際網絡環境中檢測惡意域名,需兼顧檢測精度和惡意域名類型,本文提出了一種基于遷移學習的小樣本的惡意域名檢測算法。該算法利用數據量充足的黑名單集和多家族惡意域名集進行BiLSTM-CNN模型參數預訓練,并遷移模型參數至小樣本惡意域名檢測模型,利用當前已有小樣本惡意域名歷史數據微調模型參數。通過在數據量充足的多家族惡意域名集和小樣本惡意域名集上進行實驗,結果表明了該算法在保持較高檢測精度的基礎上,能夠識別多種類型的惡意域名。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久婷婷国产综合尤物精品| 色婷婷亚洲综合五月| 中文字幕在线不卡视频| 久久综合九色综合97婷婷| 亚洲天堂网在线视频| 亚洲综合狠狠| 国产aⅴ无码专区亚洲av综合网| 国产在线91在线电影| 国产av无码日韩av无码网站| 亚洲精品国产精品乱码不卞| 亚洲精品视频在线观看视频| 夜夜操国产| 亚洲精品中文字幕午夜| 免费精品一区二区h| 国产激爽爽爽大片在线观看| 中文字幕调教一区二区视频| 亚洲丝袜中文字幕| 丰满少妇αⅴ无码区| 欧美不卡二区| 99在线国产| 国产一区二区三区在线观看视频| 日韩欧美中文字幕在线精品| 青青草欧美| a毛片基地免费大全| 国内精品91| 国产人成网线在线播放va| 亚洲成a人片77777在线播放| 无码av免费不卡在线观看| 少妇被粗大的猛烈进出免费视频| 欧美性久久久久| 亚洲精品国产自在现线最新| 99精品视频九九精品| 亚洲色图欧美视频| 久久中文无码精品| 婷婷色一二三区波多野衣| 毛片网站在线看| 国产精品分类视频分类一区| 激情午夜婷婷| 国产精品亚洲专区一区| 欧美色伊人| 国产丝袜无码一区二区视频| 毛片免费试看| 一级不卡毛片| 亚洲天堂福利视频| 国产91丝袜在线播放动漫 | 亚洲精品波多野结衣| 亚洲日韩精品无码专区97| 欧美一级一级做性视频| 国产白浆一区二区三区视频在线| a毛片在线播放| 久热中文字幕在线| 国产欧美视频在线观看| 久久a级片| 国产精品自在线拍国产电影 | 日本91在线| 色屁屁一区二区三区视频国产| 亚洲男人在线天堂| 深爱婷婷激情网| 人人91人人澡人人妻人人爽| 9999在线视频| 在线不卡免费视频| 思思热精品在线8| 日韩一区二区三免费高清| 欧美日韩中文国产va另类| 亚洲欧美成人网| 99久久99这里只有免费的精品| 欧美精品成人一区二区视频一| 国产亚洲精| 97国产在线视频| 亚洲精品自在线拍| www成人国产在线观看网站| 99ri国产在线| 五月天丁香婷婷综合久久| 青青青国产视频| 亚洲欧洲国产成人综合不卡| 国产网站免费看| 国产自产视频一区二区三区| 伊人色在线视频| 亚洲免费三区| 久久亚洲欧美综合| 亚洲永久色| 99视频在线观看免费|