999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力特征融合網絡的DGA惡意域名檢測方法

2024-03-01 04:29:52郝旭光
網絡安全與數據管理 2024年1期
關鍵詞:分類特征檢測

郝旭光

(山西省政務和公益域名注冊管理中心,山西 太原 030024)

0 引言

域名服務系統(Domain Name System,DNS)是互聯網最基礎的應用系統,通過建立域名和IP地址的對應關系支撐服務其他業務應用,但其開放性和公平性也被惡意軟件利用。僵尸網絡借助域名生成算法(Domain Generation Algorithm,DGA)大量生成DGA域名,通過命令與控制(Command-and-Control,C&C)服務器操控受害者主機,達到逃避安全監控、提高生存和攻擊能力的目的,從而進行大規模的分布式拒絕服務攻擊、發送垃圾郵件、傳播非法信息和釣魚網站、運行勒索軟件等惡意活動。其復雜性和隱蔽性導致傳統的網絡安全防御手段難以有效應對,追蹤控制服務器位置變得更加困難。

如何高效檢測和攔截DGA域名,是近年來網絡安全防護技術研究的熱點方向??v觀當前DGA惡意域名的檢測方法主要包括基于特征提取的機器學習方法檢測、基于無特征提取的深度學習方法檢測和基于附加條件的深度學習方法檢測[1]?;谔卣魈崛〉臋C器學習方法優勢在于可以利用常見特征實現高效檢測,比如借助于人工提取的諸如域名長度、元輔音占比、字符頻率等,以及DNS請求和響應的頻率、時序和地理分布等特征,使用分類器進行域名分類實現快速檢測。基于無特征提取的深度學習方法借助深度學習的自動特征學習能力,既能緩解對人工提取特征的過度依賴又能發現傳統統計方法無法發現的特征,很大程度上解決了特征檢測法實時性差和易被繞開的缺點,提高了DGA惡意域名檢測的準確性。基于附加條件的深度學習方法添加了某種附加條件以提高檢測準確率,例如將注意力集中在域中更重要的子串并改善域的表達,增加域名的多字符隨機性提取方法,通過詞法分析和Web搜索來估計域名隨機性等措施,以提高模型的檢測性能,特別是針對新型DGA域名的檢測。

以上方法雖然在一定范圍內取得了效果,但為了提高生存率,DGA算法也在不斷更新迭代,導致現有檢測方法逐步失效。特征法依賴人工提取字符和流量特征,易受到復雜網絡環境的干擾,攻擊者可以重新設計DGA生成算法繞過檢測,導致此類方法在面對新型DGA域名時,泛化能力和準確率受限。深度學習法在遇到如數據量少的DGA域名家族、新型DGA域名時,無法捕捉到某些關鍵信息,且易受到精心設計的對抗樣本的欺騙,在應對更加智能的DGA域名上的表現不佳。附加條件法在不同的附加機制中,針對一些如短域名、高可讀性域名存在誤判和表現效果不佳的現象。

本文提出了一種注意力特征融合網絡。通過Embedding層、卷積神經網絡(Convolutional Neural Network,CNN)層、注意力模塊和長短時記憶(Long Short Term Memory,LSTM)網絡層集合了各種檢測方法的優勢和長處,顯著提升了對DGA域名檢測的能力。首先,Embedding層使得網絡能夠學習輸入數據的稠密向量表示,從而捕捉更豐富的信息。其次,CNN層和LSTM網絡層的組合實現了層次化特征提取,前者負責提取局部特征,后者捕捉長期依賴關系,增強了模型的泛化能力。第三,注意力模塊的引入有助于關注域名字符間重要的局部特征,進一步解決長距離依賴關系難以捕捉的問題。實驗表明,使用本文方法檢測DGA域名,在準確率、精確率、召回率和綜合性能上都有著明顯的提升。

1 DGA域名及其特征

1.1 DGA域名

DGA域名指通過DGA算法自動生成的域名,通常依賴于一個種子值(如當前日期、特定數值或者內置種子等)和一個預定義的算法。僵尸網絡客戶端通過DGA算法生成大量域名,并且進行查詢,攻擊者在控制端運行同一套DGA算法,生成相同的備選域名列表。當需要發動攻擊的時候,從列表中選擇少量的域名注冊開通便可以建立通信,同時可以利用IP速變技術,實現IP和域名快速變化隱藏C&C服務器,逃避網絡安全設備的監測跟蹤,為僵尸網絡提供一個持續且難以被追蹤的通信連接。

以著名的Conficker僵尸網絡為例,其A/B變種的DGA算法基于當前日期作為種子值,每天生成250個.com域名和250個.net域名。具體的,其使用一個基于時間的種子值,對26個字母進行置換,生成長度不同的域名。而CryptoLocker是一種勒索軟件,其基于種子值和日期,通過一系列的數學運算和映射,生成不同的域名。Banjori是一種惡意軟件,其DGA具有多元遞歸關系,每次都會根據前一個域名生成下一個域名,用加減和取模運算得到下一個域名的前四個字母,同時保持后綴不變。表1展示了這三種惡意軟件中使用DGA所生產的惡意域名以及部分正常的域名。

表1 DGA域名與正常域名示例

1.2 DGA域名特征

DGA域名由算法自動生成,無需人工干預。其具有語義不明確、結構不均衡、長度變化大、存活時間短等特征。可以將DGA域名與正常域名的差異總結為以下三點:

(1)語義性。正常域名通常具有較強的語義性,通常是為了表示實際的公司、組織或產品而創建的。正常域名往往包含有意義的單詞、縮寫或短語,以便用戶能夠輕松地識別和記住。相反,DGA域名通常缺乏語義性,因為由算法自動生成,目的是讓其難以被預測和追蹤。

(2)結構和可讀性。正常域名通常具有較好的結構和可讀性,字符分布較為均衡,可能包含輔音和元音的組合,以及一定比例的數字和特殊字符。而DGA域名的結構和可讀性通常較差,字符分布可能不均衡,字符組合可能顯得更加隨機和無規律。

(3)域名長度。正常域名的長度通常在一定范圍內變化,具有較短的平均長度。而DGA域名的長度可能有很大差異,根據所使用的生成算法,長度可能非常短或非常長。不過部分DGA可能會生成較短的域名,以模仿正常域名的外觀。

雖然這三個方面的差異能夠幫助區分正常域名與DGA域名,但也正因為DGA域名無語義、無規律的特點導致一般方法難以有效檢測。

2 相關工作

基于DGA域名的特征,通過分析其不同的生成算法,研究者設計提出了不同的應對思路和檢測方法,歸納起來主要為以下三類。

2.1 基于特征提取的機器學習方法的檢測

利用合法域名與DGA域名在字符組合上的差異,Ma等人[2]提出了一種輕量化的方法來檢測DGA域名。該方法利用URL的詞法構造特征,如URL的長度、中英文句號的數量和特殊字符的數量等判定DGA域名。Wang和Shirley[3]使用詞語分割從域名中提取標記來檢測惡意域名。所提出的特征空間包括字符數、數字和連字符的數量等。胡鵬程等人[4]從域名中提取了包括隨機性、可讀性、數字與字母分布情況、頂級域名、域名長度在內的多個特征,并使用機器學習算法進行測試。王紅凱等人[5]通過人工提取域名長度、字符信息熵、多類字符比例等特征,使用隨機森林實現DGA域名的檢測。Agyepong等人[6]則通過人工提取的KL散度、Jaccard系數等特征用于訓練模型完成檢測。

通過網絡流量分析并結合上下文特征,韓春雨等人[7]提出了一種基于DNS流量的Fast-flux域名檢測方法,利用DNS流量中的域名語言特征和統計特征來區分Fast-flux域名和正常域名,并使用機器學習模型進行分類。其也引入了量化的地理廣度、國家向量表和時間向量表特征,以加強對Fast-flux域名檢測的針對性。Manasrah等人[8]提出了一種基于DNS流量挖掘的DGA域名檢測方法。該方法使用了多個相關的語言特征,如隨機度、稀有度、打字難度等來衡量域名的特征,在不同類型的DGA域名上實現了高準確率和低誤報率。Wang等人[9]利用DNS流量中的域名統計特征和時間序列特征來區分DGA域名和正常域名,并使用聚類算法來劃分不同類型的DGA域名。該方法使用如域名長度、元音比例、熵、請求頻率和持續時間等特征來描述域名的特征,并在多種DGA家族上實現了良好的檢測效果。Antonakakis等人[10]提出稱為Pleiades的檢測系統。通過提取與NXDOMAIN字符串相關的統計特征,包括n元分布和字符頻率,并使用機器學習算法將NXDOMAIN字符串分成DGA生成和合法兩類,在大規模的DNS流量測試中表現出高檢測率和低誤報率。Silveira等人[11]提出了一種使用被動DNS自動檢測惡意域名的方法,從DNS流量中提取了12類不同的特征,并使用XGboost算法對特征進行學習,在數據集上的AUC達到了0.976。

2.2 基于無特征提取的深度學習方法的檢測

Highnam等人[12]提出了一種混合神經網絡Bilbo,用于分析域名并評分其由字典DGA生成的可能性。該模型在跨不同字典DGA分類任務的泛化性能方面,在AUC、F1分數和準確性方面都能取得較好的成績。Kumar等人[13]提出了一種基于深度神經網絡的增強DGA檢測模型,該模型結合了額外提取的人工特征以及由深度學習模型提取的特征,在DGA域名分類方面的性能優于SVM、RF等現有方法。Yu等人[14]通過將LSTM和CNN用于DGA域名檢測,證明了深度學習方法相比于如隨機森林等機器學習方法在檢測時性能上的優越性。但其同時也發現,傳統深度學習方法的性能容易受到數據不平衡的影響,導致在樣本較少的DGA域名家族上的檢測效果較差。申宋彥[15]通過卷積神經網絡分別提取域名中的字符特征和詞特征,并通過改進的卷積神經網絡實現了對難度較大的惡意域名家族的識別效果提升。Vinayakumar等人[16]比較了RNN、CNN、LSTM等深度學習方法在檢測DAG惡意域名時的性能,發現遞歸神經網絡的架構能夠有效增強深度學習模型的整體檢測能力。還有部分工作[17-19]采用了不同架構的RNN來檢測惡意域名,包括門控循環單元(Gated Recurrent Units,GRU)和雙向循環神經網絡(Bi-directional Long Short-term Memory,Bi-LSTM)等,但這些方法在檢測隨機性較高的DGA域名時無法很好地捕捉到字符之間的序列關系,識別率較低。此外,生成對抗網絡(Generative Adversarial Network,GAN)得益于其建立在博弈論上優秀的網絡訓練機制,在DGA域名識別任務中也得到了使用。如袁辰等人[20]和Anderson等人[21]通過在生成網絡中不斷生成真實度更高的惡意域名,同時在判別網絡中對生成的惡意域名進行檢測,使得判別網絡的識別能力不斷提高。

2.3 基于附加條件的深度學習方法的檢測

隨著DGA域名的算法越來越智能化,采用基于特征和深度學習的檢測方法愈感力不從心。研究者又在此基礎上增加一些附加條件來達到提高檢測率的目標。Chen等人[22]提出了一個結合注意機制的LSTM模型,將注意力集中在域中更重要的子串并改善域的表達,達到了更好的性能,在二元分類中,其誤報率和假陰率分別低至 1.29%和0.76%。陳立皇等[23]也提出了一種基于注意力機制的深度學習模型,不同的是,他們采用一種域名的多字符隨機性提取方法,提升了識別低隨機 DGA 域名的有效性。Satoh 等[24]通過詞法分析和 Web 搜索來估計域名隨機性,但該方法對域名長度較短時,無法區分,不包含在字典中的域名會被誤判。

為了逃避神經網絡的檢測,惡意域名已升級為多個單詞的組合。為此,Curtin等[25]提出了用smash分數來評估DGA域名與英文單詞的相似程度,并設計了遞歸神經網絡架構與域注冊信息的組合模型。雖然實驗在對 matsnu和suppobox像自然域名的家族的檢測效果好,但是在那些不像自然域名DGA系列表現效果欠佳。

綜合分析以上相關DGA域名檢測方法,各種模型算法面對不同的DGA家族在一定時期達到了較高的檢測準確率和較好的網絡防御效果,但在面對不斷升級的DGA算法和一些特殊的結構設計還存在著漏檢和誤檢的情況。隨著新技術的發展,特別是惡意算法對新技術的綜合運用使得惡意域名特征更加難以捕捉,需要綜合利用各種檢測方法的優勢,提升檢測范圍的覆蓋率、準確率。因此,本文集合深度學習模型的優點,引入注意力模塊,提高了DGA域名的檢測能力。

3 注意力特征融合網絡

本文所提出的注意力特征融合網絡模型結構如圖1所示,包括輸入層、Embedding層、卷積網絡層、注意力模塊、長短期記憶網絡層和輸出層。功能分別為:(1)輸入層:負責接收原始的域名數據,作為神經網絡的起始輸入;(2)Embedding層:負責將輸入的離散域名字符映射為稠密向量表示,以便更好地捕捉字符間的相關性;(3)卷積網絡層:負責提取域名序列中的局部特征,如字符的組合模式,有助于識別DGA惡意域名中的模式;(4)注意力模塊:緊接在卷積網絡層之后,負責在處理域名的局部特征時關注更具判別力的局部特征,以提高惡意域名檢測的準確性;(5)長短期記憶網絡層:依據得到的重要性不同的域名局部特征來捕捉域名序列中的長期依賴關系,以便更好地理解字符間的上下文關系;(6)輸出層:負責將神經網絡的預測結果轉化為具體的分類標簽,例如判斷輸入域名是正常域名還是DGA惡意域名。

圖1 注意力特征融合網絡整體結構

3.1 輸入層

接收原始的域名數據,并將其轉換為適合神經網絡處理的格式。作為神經網絡的起始部分,輸入層對數據質量和格式的處理至關重要,因為它們會直接影響網絡的學習效果和性能。

輸入數據通常以域名序列的形式提供,每個域名由一系列字符組成,包括字母、數字和連字符等。為了使神經網絡能夠更好地處理這些離散字符,需要對輸入數據進行預處理。預處理的主要步驟包括:(1)將域名轉換為小寫形式,以消除字符大小寫的影響;(2)統一域名的長度,對較短的域名進行填充或截斷較長的域名,以確保輸入具有相同的維度;(3)將離散字符映射到整數編碼,以便神經網絡能夠處理這些數據。

經過預處理后,輸出的數據為整數編碼的域名序列。例如,給定一個原始域名“example.com”,經過預處理后,輸入層可能輸出一個整數序列,如[5,24,1,13,16,12,5,28,3,15,13]。整數編碼的序列可以被后續的神經網絡層(如Embedding層)接收并處理,進一步提取有助于DGA惡意域名檢測的特征。本文所使用的域名數據中,域名長度集中分布情況如圖2所示。可見,域名長度分布在4~73之間,且集中分布在8~30之間,因此在進行預處理時,將所有域名長度超過32的部分進行截斷,而對長度不足32的域名,則對其序列化后的表示進行補零,使得所有輸入的序列長度都為32。

圖2 域名長度分布圖

3.2 Embedding層

Embedding層將輸入層提供的整數編碼域名序列轉換為稠密向量表示,幫助神經網絡更好地捕捉輸入數據中的相關性和特征,從而提高整體性能。具體的,是將每個整數編碼的字符映射到一個固定長度的連續向量空間。映射過程可以理解為一個查找表操作,其中每個整數編碼都對應一個預先定義的向量。在訓練過程中,Embedding層會通過反向傳播算法更新這些向量,使其能夠更好地捕捉字符之間的相關性。因為本文將以域名中的每個字符作為處理對象,所以Embedding的維度為Rv×e,其中v指的是vocabsize,即出現的所有字符的數量,而e指的是embeddingsize,即每條字符向量的長度。每條域名在經過embedding層的映射之后,其維度會變成Ri×e,其中i指的是inputsize,即輸入域名的長度。因為在預處理中將域名的長度都對齊為32,所以inputsize為32。

3.3 卷積網絡層

卷積網絡層負責提取輸入序列中的局部特征。通過卷積操作,該層能夠捕捉字符之間的鄰近關系,從而識別DGA惡意域名中的特定模式。卷積操作可以被表示為一個滑動窗口在輸入矩陣上按照一定的步長進行掃描。具體而言,給定一個輸入矩陣X,一個卷積核T和一個偏置b,卷積操作可以通過下式計算:

(1)

其中,Yij是輸出矩陣Y的第(i,j)個元素,(m,n)是卷積核T的索引。通過遍歷輸入矩陣上的所有可能位置,可以計算出完整的輸出矩陣Y。在本層中采用了一維卷積(1D-CNN),因為這種形式的卷積能夠更好地處理序列數據。具體的,一維卷積只沿著域名序列的長度方向進行,從而能有效地捕捉字符之間的局部模式。在模型中同時使用了大小為3的多個卷積核,以實現對多種局部特征的提取,從而增強模型的表征能力。在卷積層后,網絡還使用了最大池化層來降低模型的參數,并去除作用不顯著的冗余信息。

3.4 注意力模塊

為輸入序列中的每個元素分配不同的權重,以便在處理序列數據時關注更具判別力的部分。通過注意力機制,神經網絡能夠更好地捕捉長距離依賴關系,提高惡意域名檢測的準確性。本模型中所使用的注意力模塊采用自注意力機制(Self-Attention),其計算過程可以分為三個步驟:(1)計算查詢(Query)、鍵(Key)和值(Value)矩陣;(2)計算注意力分數;(3)計算加權值和。假設輸入矩陣X的維度為(t,d),其中t是序列長度,d是特征維度。首先,計算查詢矩陣Q、鍵矩陣K和值矩陣V:

Q=XWQ,K=XWK,V=XWV

(2)

(3)

最后,計算加權值和:

Y=SV

(4)

此時,輸出矩陣Y的維度與輸入矩陣X相同,但元素的權重經過重新分配,使得網絡更加關注重要部分。

3.5 長短期記憶層

負責處理序列數據中的長期依賴關系。LSTM是一種特殊的遞歸神經網絡,通過引入門控單元來解決傳統RNN中的梯度消失和梯度爆炸問題。LSTM單元包含三個門控單元:輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate),以及一個單元狀態(cell state)。給定一個輸入向量xt和前一時刻的隱藏狀態ht-1,LSTM單元中輸入門、遺忘門、輸出門的計算過程分別如下所示:

it=σ(Wixxt+Wihht-1+bi)

(5)

ft=σ(Wfxxt+Wfhht-1+bf)

(6)

ot=σ(Woxxt+Wohht-1+bo)

(7)

進而單元狀態更新的過程可以表示為:

(8)

ct=ft⊙ct-1+it⊙

(9)

而隱藏狀態更新的過程可以表示為:

ht=ot⊙tanh(ct)

(10)

其中,σ(·)是Sigmoid激活函數,⊙表示按位乘法,W和b是權重矩陣和偏置向量。長短期記憶層位于卷積網絡層和注意力模塊之后,以處理經過局部特征提取和注意力分配的序列數據。通過對序列中的字符進行長期依賴關系建模,LSTM層有助于捕捉DGA域名中的潛在模式,從而提高整個網絡的性能。

3.6 輸出層

將提取的特征映射到目標任務的預測結果。完成兩個任務,判斷一個域名是否為DGA域名(二分類任務)和判斷一個域名為正常或來自特定算法家族的域名(多分類任務)。

在進行二分類任務時,輸出層只包含一個神經元,該神經元使用 Sigmoid激活函數將最后一層的輸出映射到(0,1)區間,得到域名為DGA域名的概率:

P(y=1|x)=σ(Whht+bo)

(11)

其中,Wh和bo是輸出層的權重矩陣和偏置向量,ht是LSTM層的最終隱藏狀態。

在進行多分類任務時,輸出層的神經元數量與類別的數量相等,該層使用softmax函數將輸出層神經元的輸出映射為概率分布:

(12)

其中,Whi和boi分別表示輸出層第i個神經元的權重和偏置。模型最終的預測結果就為概率最大的那一類。

4 實驗與分析

4.1 實驗數據集

本文所使用的數據集由公開的合法域名數據集和DGA域名數據集組合而成。其中合法數據集為Alexa統計的100萬個互聯網中訪問流量最高的網站的域名。DGA域名數據集為360 Netlab發布的42類DGA家族共1 147 770條域名。進一步地,對完整的數據集進行分層采樣,即在每個DGA家族以及正常域名內部按比例進行采樣,然后將采樣的數據合并為訓練集、測試集和驗證集,三者的占比為7∶2∶1。

4.2 實驗指標

在本研究中,選用了以下四項評估指標:平均準確率(Accuracy)、精確率(Precision)、召回率(Recall)及F1值。其中平均準確率的計算方式為:

(13)

精確率的計算方式為:

(14)

召回率的計算方式為:

(15)

F1值的計算方式為:

(16)

在二分類和多分類兩種情況下,四項評估指標中TP、FP、TN、FN的含義為:

(1)真陽性(True Positive,TP)。二分類:正確預測為DGA域名的實例數量。多分類:將屬于該DGA家族的域名成功預測為該DGA家族的實例數。

(2)假陽性(False Positive,FP)。二分類:將正常域名誤判為DGA域名的實例數量。多分類:將其他DGA家族的域名或正常域名錯誤地歸類到該DGA家族的實例數。

(3)真陰性(True Negative,TN)。二分類:正確預測為正常域名的實例數量。多分類:將其他DGA家族的域名和正常域名成功預測為非該DGA家族的實例數。

(4)假陰性(False Negative,FN)。二分類:將DGA域名誤判為正常域名的實例數量。多分類:未能將該DGA家族的域名成功預測為該DGA家族的實例數。

4.3 實驗環境與參數設置

軟件方面,本文的實驗在Windows 10系統下進行,使用的Python版本為3.10,使用的深度學習庫TensorFlow版本為2.10。硬件方面,實驗設備的內存大小為16 GB,CPU為Intel?倕 CoreTMi7-8700K。實驗中的各項參數設置如表2所示。

表2 實驗所使用的具體參數

4.4 實驗結果

實驗對比了傳統的深度學習網絡CNN和LSTM與本文所提出的自注意力特征融合網絡在檢測DGA域名上的效果。三種網絡進行二分類任務時的結果如表3所示。

表3 不同方法在判斷域名是否為DGA域名時的效果

實驗結果表明,本文所提出的方法在所有評價指標上都取得了較高的分數,而且在大多數情況下超過了CNN和LSTM;在平均精度、平均召回率、平均F1分數和平均準確率方面,表現優于其他兩種方法;且在識別DGA域名的精度上相比于CNN和LSTM都有較大提升。盡管LSTM在識別DGA域名的召回率上達到了最高(0.995 8),但在識別正常域名的召回率和精度上,LSTM的表現不如其他兩種方法,導致其平均表現稍弱。結合前文對DGA域名與正常域名在形式上的差異分析,可以說明本文方法所采用的網絡結構能夠更好地學習到域名字符序列中局部特征與長距離依賴,有利于當域名中存在大量隨機與無規律字符時學習到更加準確的域名表征,從而實現檢測效果的提升。

為了直觀體現不同架構的網絡在泛化能力與學習能力上的差異,進一步繪制了二分類情況下訓練過程中不同網絡結構的學習曲線,如圖3~圖5所示。

圖3 CNN在二分類情況下訓練時的學習曲線

圖4 LSTM在二分類情況下訓練時的學習曲線

圖5 本文方法在二分類情況下訓練時的學習曲線

可見,隨著訓練的進行,LSTM在驗證集上的準確率與在訓練集上的準確率差距逐漸增大,且在第12輪訓練時模型在驗證集上的準確率已經開始有了下降的趨勢,證明網絡的性能不僅達到了上限,還即將過擬合,這也說明網絡的泛化能力有限,不能較好地學習到域名序列間字符的局部關系。而CNN隨著訓練的進行,其在驗證集上的準確率出現了大幅度的波動與下降,說明模型的泛化能力較差,且出現了較嚴重的過擬合現象,也說明模型無法學習到字符間的長期依賴關系將導致性能有著較大地下降。而本文所提出的方法隨著訓練的進行,其在訓練集和驗證集上的準確率變化都十分平穩,且在驗證集上的準確率沒有發生下降,說明本模型有著更好的學習能力,能夠有效對域名序列中的特征進行學習。

三種網絡進行多分類任務時的效果如表4所示。需要說明的是,數據集在去除樣本個數少于2的DGA類別后,共有38個不同的DGA類以及1個正常類。其中,表格中在對每一類域名分類時效果最好的方法的結果進行了加粗顯示。

表4 不同方法在判斷域名所屬具體類別時的效果

通過對數據分析,發現本文所提出的方法在所有39類域名中的21類取得了最好的識別效果,在其中的13類上與其他方法同時取得了最好的效果,僅僅在其中5類上的效果落后于其他模型,由此可見本網絡在同時檢測多類DGA域名時的有效性。結果中的平均F1值為根據各方法在各類域名上的F1值與該類域名在數據集中的占比進行加權平均得來的,可以發現本文方法取得了最好的效果,以此也說明了本文方法在學習域名字符間的局部特征以及長期依賴關系上的有效性。特別需要注意的是,本文所提出的方法不僅能夠在CNN與LSTM已有較好檢測效果的特定DGA家族(如Necurs、Suppobox和Padcrypt)上實現進一步的效果提升,還能夠對CNN與LSTM幾乎無法檢測的特定DGA家族(如Proslikefan、Matsnu)實現檢測,說明本文方法不僅有著更好的泛化性能,還能夠學習到傳統網絡無法學習到的特征。

更進一步地,繪制在多分類情況下不同網絡結構的學習曲線,如圖6~圖8所示。

圖6 CNN在多分類情況下訓練時的學習曲線

圖7 LSTM在多分類情況下訓練時的學習曲線

圖8 本文方法在多分類情況下訓練時的學習曲線

可見,在多分類情況下,隨著訓練的進行CNN在驗證集上的準確性首先平緩上升,然后出現了下降的趨勢,說明模型即將過擬合。而LSTM隨著訓練的進行,在驗證集上的準確率上升并不平緩,而是有所波動。雖然其在訓練終止時并沒有出現過擬合現象,但因其收斂速度過于緩慢,其在驗證集上的結果始終都低于另外兩個模型。而本文方法兼具收斂快速與泛化能力強的特點,使其隨著訓練的進行,在驗證集上的準確率穩步提升,且沒有出現過擬合的現象。

5 結論

本文針對網絡安全領域中的DGA惡意域名檢測問題,提出了一種基于注意力機制的特征融合網絡。該方法結合了Embedding層、卷積神經網絡層、注意力模塊和長短時記憶網絡層,旨在實現更精確和高效的域名分類。實驗結果表明,所提出的方法在各項評價指標上均優于傳統深度學習方法,具有較強的泛化能力。未來研究將進一步探討更高效的神經網絡結構、結合多源信息以及在實際網絡環境中的部署和應用,以實現更全面和實時的DGA惡意域名檢測。

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 午夜小视频在线| 精品久久久久无码| 精品91自产拍在线| 少妇人妻无码首页| 欧美精品成人| 美女免费精品高清毛片在线视| 专干老肥熟女视频网站| 少妇高潮惨叫久久久久久| 一本大道AV人久久综合| 亚洲欧美在线精品一区二区| 成人91在线| 欧美yw精品日本国产精品| 亚洲精品少妇熟女| 国产日产欧美精品| 天天做天天爱夜夜爽毛片毛片| 香蕉久人久人青草青草| 亚洲欧美国产五月天综合| 啪啪啪亚洲无码| 亚洲午夜久久久精品电影院| 国产成人亚洲精品蜜芽影院| 国产麻豆91网在线看| 最新国产精品鲁鲁免费视频| 亚洲网综合| 国产精品夜夜嗨视频免费视频| 中文无码日韩精品| 97se综合| 国产精品999在线| 欧美不卡在线视频| 久久精品欧美一区二区| 成人精品在线观看| 无码有码中文字幕| 欧美一区二区福利视频| 精品无码视频在线观看| 国产91成人| 在线观看国产黄色| 国产一区二区三区精品久久呦| 中日韩一区二区三区中文免费视频| 激情综合五月网| 狠狠v日韩v欧美v| 六月婷婷综合| 国产在线精品99一区不卡| 99这里只有精品在线| a亚洲天堂| 永久免费av网站可以直接看的| 制服丝袜国产精品| 色爽网免费视频| 欧美激情一区二区三区成人| 免费可以看的无遮挡av无码| 在线免费亚洲无码视频| 国产福利观看| 国产无码性爱一区二区三区| 99久久国产综合精品2020| 亚洲精品777| 在线播放国产一区| 精品视频一区二区观看| 综合色亚洲| 国产麻豆另类AV| 玖玖精品视频在线观看| 亚洲第一黄色网址| 国产香蕉在线视频| 91在线播放国产| 日本高清在线看免费观看| 国产美女自慰在线观看| 亚洲中文无码h在线观看| 国产一区二区精品福利| 91亚洲精品国产自在现线| av大片在线无码免费| 尤物精品视频一区二区三区| 国产婬乱a一级毛片多女| 精品国产自| 9啪在线视频| 色香蕉影院| 国产69精品久久久久孕妇大杂乱| 99r在线精品视频在线播放| 国产农村1级毛片| 不卡无码h在线观看| 久久精品国产91久久综合麻豆自制| 亚洲国产精品国自产拍A| 高清免费毛片| 伊人色天堂| 亚洲欧美另类中文字幕| 精品久久国产综合精麻豆|