




摘 要:針對當前家族惡意域名檢測方法在新出現或新變種惡意域名的檢測方面仍存在精度低、漏報高等問題,提出一種基于層內和層間融合注意力的家族惡意域名檢測的新方法。首先,利用深度自編碼網絡將域名集逐層編碼壓縮到空間特征中,并借助自注意力機制強化域名字符串中關鍵字符的表達能力;其次,利用交叉注意力建立雙分支網絡輸入端的關聯,促進分支間深層信息的交流;最后,計算待測域名映射特征與交互特征集之間的相似度對比。實驗證明所設計方法的準確率為98.21%,該方法對保障網絡安全、預防新型域名入侵攻擊具有重要的現實意義。
關鍵詞:惡意域名檢測;融合注意力;判定規則;層內自注意力;層間交叉注意力
中圖分類號:TP393.0 文獻標識碼:A 文章編號:2096-4706(2024)14-0098-05
Family Malicious Domain Name Detection Based on Intra-layer and Inter-layer Fusion Attention
ZHANG Qing
(Lanzhou Petrochemical University of Vocational Technology, Lanzhou 730060, China)
Abstract: A new method for detecting family malicious domain names based on intra-layer and inter-layer fusion attention is proposed to address the issues of low accuracy and high false positives in the detection of newly emerged or mutated malicious domain names using current methods. Firstly, it uses deep self-encoded networks to compress the domain name set layer by layer into spatial features, and utilizes self-attention mechanisms to enhance the expression ability of key characters in domain name strings. Secondly, it utilizes cross attention to establish associations between the input ends of a dual branch network, promoting the exchange of deep information between branches. Finally, it calculates the similarity comparison between the mapping features of domain name to be tested and the interaction feature set. The experimental results show that the accuracy of the designed method is 98.21%, which is of great practical significance for ensuring network security and preventing new domain name intrusion attacks.
Keywords: malicious domain name detection; fusion attention; judgment rule; intra-layer self-attention; inter-layer cross-attention
0 引 言
互聯網的快速發展給人們的日常生活和工作帶來了極大地便利,其中網絡域名作為人們訪問網站的入口,備受不法分子的關注,給互聯網的安全性和穩定性帶來了巨大威脅。惡意域名不僅用于網絡釣魚、惡意軟件傳播等攻擊行為,還可能偽裝成合法網站,獲取用戶的個人信息或散布虛假信息[1-2]。因此,對惡意域名的及時檢測至關重要,這有助于構建更穩定、和諧的綠色網絡。
近年來,隨著深度學習技術的快速發展,利用深度學習相關技術對域名訪問請求進行合法性判定[3],及時檢測出偽裝、新變種或新出現的惡意域名。如趙宏等[4]從詞法組成與結構方面進行合法性的判定,通過計算待測域名與惡意域名歷史數據集之間的編輯距離值,快速給出判定結果。王甜甜等[5]設計了一種三段式的檢測方法,首先利用Alexa開源網站的域名字符串特征集快速響應合法域名請求,其次利用歷史黑名單數據集快速過濾惡意域名,最后通過構造深度神經網絡對新出現或新變種惡意域名進行建模。吳濤等[6]通過提取域名字符串在時序和空間維度的深層特征表示,構建了時序和空間串行混合模型,并利用檢測結果與真實結果之間的損失設計了一種自反饋機制。類似地,張斌等[7]考慮到域名字符串上下文的時序關聯,提出了一種時序和空間維度并行混合模型的惡意域名檢測方法。姜言波等[8]針對新出現或新變種家族惡意域名集標注樣本少,采用深度自編碼網絡作為主干進行特征提取,并通過聚類不同家族間的特征,構造了一種弱監督的家族惡意域名檢測方法。
上述惡意域名檢測方法從不同角度提升了對新出現或新變種惡意域名的檢測性能,然而,該類方法主要借助時序和空間維度的全局特征表示,忽略了域名字符串字符與字符之間的短距離關聯關系、域名字符串整體間的長距離關聯關系。此外,惡意域名攻擊后才被加入惡意域名黑名單歷史數據集中,導致該類域名的標注信息不能及時利用。為此,設計了一種基于元學習的雙分支網絡結構,包括帶有標注的支持分支和不帶標注的查詢分支,通過在支持分支中學習判定規則,并將其遷移到查詢分支中進行檢測性能的評估,以此來提升模型對未知新變種、新出現或偽裝域名的檢測性能。
1 小樣本惡意域名檢測方法
惡意域名當發生攻擊后,才被加入惡意域名黑名單歷史數據集中,存在一定的時間滯后。因此,傳統利用惡意域名黑名單來構造判定規則的方法無法適應該類新出現、新變種或偽裝惡意域名的檢測任務。在我們的方法中,設計了一種基于元學習網絡結構的雙分支網絡結構,通過在帶有標注信息的支持集上學習檢測規則,并將其遷移到查詢分支中實現未知家族域名的判定。所提出的方法主要包括:特征提取、層內特征自注意力計算、層間特征交叉注意力計算和惡意域名判定四個步驟。其中,特征提取是利用編碼器將雙分支輸入的域名字符串映射到同一深度特征空間;層內特征自注意力計算是在雙分支編碼特征圖上構造自注意力特征圖,強化域名字符串中關鍵信息的表達能力;層間特征交叉注意力計算是利用交叉注意力機制建立雙分支特征間的上下文語義關聯,促進域名字符串間的交互能力,旨在聚焦雙分支輸入域名字符串中的共性語義;惡意域名判定階段采用無參數的余弦相似度,快速計算待測域名特征與交互特征集之間的相似度分數。模型結構如圖1所示。
1.1 特征提取
新出現或新變種惡意域名當發生攻擊后,才被加入惡意域名黑名單數據集中,存在一定的時間滯后,即并非所有的惡意域名都存在明確的標簽信息[9]。為此,采用自監督的深度自編碼網絡將輸入域名字符串編碼到深度特征空間,然后利用編碼特征來恢復出原始域名集,根據恢復后的域名集與原始域名集之間的損失,來優化特征提取過程,提升編碼特征表達的可靠性。具體特征編碼可用式(1)和式(2)所示:
(1)
(2)
其中,Fe表示編碼特征,E(?)表示編碼函數,Sl表示原始域名字符串, 表示解碼后的域名字符串,κ(?)表示損失函數,用于計算編碼前后域名字符串的偏差。
其次,考慮到域名字符串短距離與長距離之間的關聯,采用分層特征編碼的策略構造多尺度特征集,集將編碼特征按照不同尺度下采樣為低層、中間層和高層特征。具體計算式如式(3)所示:
(3)
其中,fel、fem和feh分別表示低層、中間層和高層特征表示。down1-x (Fe)表示對編碼特征進行下采樣操作,且x ∈ {l,m,h}。
1.2 層內特征自注意力計算
為了強化支持分支內每層特征表達的可靠性,在低層、中間層和高層特征圖上分別計算層內自注意力,聚焦域名字符串短距離編碼特征的局部信息。具體計算公式如式(4)所示:
(4)
其中,、 和 分別表示低層、中間層和高層自注意力后的特征,T表示轉置操作。經過自注意力后的特征圖,強化了短距離局部信息的表達能力。
1.3 層間特征交叉注意力計算
為了盡可能檢測出新出現或新變種的家族惡意域名,采用支持分支和查詢分支的雙分支網絡[10],這有助于利用較少標注的支持域名集指導查詢分支中未知類別域名的判定。此處,為了促進支持分支和查詢分支間的信息交流,計算跨分支間的交叉注意力??绶种Ы徊孀⒁饬τ嬎懔鞒倘鐖D2所示。
為了促使模型可以捕獲到查詢分支中待測域名字符串在不同層上的特征表示,以查詢分支的全局編碼特征作為不同層的初始化特征,并與支持分支不同層間的特征計算交叉注意力。此處,支持特征來源于 ,查詢特征可用Fq表示。支持分支和查詢分支層間交叉注意力計算公式如式(5)所示:
(5)
其中,、 和 分別表示分支間低層、中間層和高層的交叉注意力特征。
1.4 惡意域名檢測
為了及時判定待測域名的合法性,采用無參數的度量策略,通過計算查詢分支編碼特征和跨分支融合特征間的相似度,快速給出待測域名的合法性。最后,通過計算待測域名的標簽和真實標簽的損失值來端到端優化網絡模型。具體地,在度量階段采用無參數的余弦相似度[11],計算式如式(6)所示:
(6)
其中,lb表示相似度值,cat(?)表示特征拼接操作。然后,依據查詢特征與融合特征集上每一特征表示的最大相似度值快速定位待測域名,并給出判定性結果。最后,利用交叉熵損失函數計算待測標簽與真實標簽之間的損失,并根據損失值優化網絡參數。具體計算如式(7)所示:
(7)
yp表示預測標簽,yt表示真實標簽。N表示待測試的域名個數。
2 實驗與結果分析
2.1 實驗設定與評價指標
實驗平臺選擇Windows 10操作系統,12核24線程,搭載1T Nas,16 GB運行內存。深度學習框架選擇PyTorch,編程語言采用Python,編輯器為PyCharm。設定訓練初始學習率為0.000 1,迭代次數設定為160次,Batch大小設定為8,優化器選擇Adam。此外,為了評估所設計方法的優越性,選擇準確率(Accuracy)、精準率(Precision)、召回率(Recall)和漏報率(False Negative Rate, FNR)等指標評估所提出方法的性能。計算公式如式(8)所示:
(8)
其中,TP表示正確檢測出的惡意域名總數;FP表示合法域名誤報為惡意域名的個數;FN表示惡意域名漏報為合法域名的個數;TN表示正確檢測出的合法域名總數。
2.2 實驗數據集
模型的訓練與測試數據主要來源于360 Netlab、DGArchive和Alexa,總共收集獲得合法域名10萬條,惡意域名4 200條,并按照8:2的比例劃分為訓練集和測試集。此外,所選取的家族域名集中包含14個小樣本家族域名集,數據集詳細信息如表1所示。
2.3 實驗結果分析
為了驗證所設計方法的優越性,在相同的數據集和評價指標與當前經典方法進行對比實驗,此處以合法域名與惡意域名二分類檢測結果為標準進行對比,具體對比結果如表2所示。
由表2可以看出,所提出方法在四個檢測性能指標上優勢明顯。具體地,在四個評價指標下,相比并行連接的LSTM+CNN混合模型,所提出方法分別實現了1.80%、1.95%、1.40%和2.23%的改進。其次,在測試時間開銷方面,所提出方法比LSTM網絡下降了2秒。
為了進一步驗證所設計方法對多家族惡意域名的細粒度檢測性能,選擇14個家族域名集進行測試,并與當前經典的方法進行對比,具體對比結果如圖3所示。
(a)準確率
(b)精準率
(c)召回率
(d)漏報率
可以看出,在四個指標上,所提出方法的得分均優于對比方法,驗證了所提出方法的優越性,能夠適應實際場景中新變種或新出現多家族惡意域名的檢測。
3 結 論
及時準確的檢測出新變種或新出現的惡意域名,有助于保障網絡安全。本文提出了一種基于層內和層間融合注意力的家族惡意域名檢測方法,該方法采用元學習網絡的雙分支網絡結構,在攜帶標注信息的支持分支中學習檢測規則,并將其遷移到查詢分支中實現未知新變種或新出現家族惡意域名的檢測。通過在合法域名與惡意域名、惡意域名細粒度檢測實驗上驗證了所設計方法的優越性。
未來工作中,將嘗試設計一種自反饋學習機制,進一步優化所設計的網絡模型。
參考文獻:
[1] SHI Y,CHEN G,LI J T. Malicious Domain Name Detection Based on Extreme Machine Learning [J].Neural Processing Letters,2018,48(3):1347-1357.
[2] 盧加奇,呂廣旭,魏先燕,等.基于優化CS-SVM算法的DGA域名檢測研究 [J].現代信息科技,2023,7(11):77-79.
[3] WANG H,TANG Z G,LI H Z,et al. DDOFM: Dynamic Malicious Domain Detection Method Based on Feature Mining [J/OL].Computers & Security,2023,130[2023-12-10].https://www.sciencedirect.com/science/article/abs/pii/S0167404823001700?via%3Dihub.
[4] 趙宏,常兆斌,王樂.基于詞法特征的惡意域名快速檢測算法 [J].計算機應用,2019,39(1):227-231.
[5] 王甜甜,劉雄飛.一種分階段的惡意域名檢測算法 [J].小型微型計算機系統,2022,43(10):2046-2050.
[6] 吳濤,王占海,張健,等.基于CNN-BiLSTM遷移自反饋學習的小樣本惡意域名檢測[J].小型微型計算機系統,2023,44(3):602-607.
[7] 張斌,廖仁杰.基于CNN與LSTM相結合的惡意域名檢測模型 [J].電子與信息學報,2021,43(10):2944-2951.
[8] 姜言波,邵增珍.基于無監督自適應模糊聚類的多家族惡意域名細粒度檢測 [J].中國電子科學研究院學報,2023,18(7):663-670.
[9] KASIM ?. Hybrid Deeper Neural Network Model for Detection of the Domain Name System over Hypertext Markup Language Protocol Traffic Flooding Attacks [J].Soft Computing,2022,27(9):5923-5932.
[10] 張清,張文川,冉興程.基于CNN-BiLSTM和注意力機制的惡意域名檢測 [J].中國電子科學研究院學報,2022,17(9):848-855.
[11] LIANG J B,WANG S X,ZHAO S,et al. FECC: DNS Tunnel Detection Model Based on CNN and Clustering [J/OL].Computers & Security,2023,128[2023-12-11].https://doi.org/10.1016/j.cose.2023.103132.
作者簡介:張清(1986—),女,漢族,四川成都人,講師,碩士研究生,研究方向:網絡與信息安全。
收稿日期:2024-01-04
基金項目:蘭州石化職業技術大學科學研究項目(2023KY-14)
DOI:10.19850/j.cnki.2096-4706.2024.14.020