999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于APCNN和BiGRU-Att的單詞DGA域名檢測方法

2022-01-01 00:00:00黃蔚秋歐毓毅凌捷
計算機應用研究 2022年5期

摘 要: 為了提高對基于單詞的域名生成算法(domain generation algorithm,DGA)生成的惡意域名的檢測準確率,提出了一種結合改進的并行卷積神經網絡(APCNN)和融合簡化注意力機制的雙向門控循環單元(BiGRU-Att)的網絡模型,該模型能充分學習單詞特征、單詞之間的組合關系和關鍵字符信息。實驗結果表明,相比Bilbo和CL模型,APCNN-BiGRU-Att模型的分類準確率和F1值更高,表明該模型具有更好的檢測效果、多分類效果和穩定性。

關鍵詞: 基于單詞的域名生成算法; 域名檢測; 改進的并行卷積神經網絡; 注意力機制

中圖分類號: TP309.2"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-044-1541-05

doi:10.19734/j.issn.1001-3695.2021.10.0452

Word-based DGA domain name detection method based on APCNN and BiGRU-Att

Huang Weiqiu, Ou Yuyi, Ling Jie

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: In order to improve the detection accuracy of malicious domain names generated by the word-based domain generation algorithm (DGA) , this paper proposed a network model combining an improved parallel convolutional neural network (APCNN) and a bi-directional gated recurrent unit (BiGRU-Att) incorporating a simplified attention mechanism. The model could fully learn word features, combinatorial relationships between words and key character information. The experimental results show that the APCN-BiGRU-Att model has higher classification accuracy and F1 values compared with the Bilbo and CL models, indicating that the model has better detection, multi-classification effect and stability.

Key words: word-based domain generation algorithm; domain name detection; improved parallel convolutional neural network; attention mechanism

0 引言

很多惡意軟件(如僵尸網絡和勒索軟件)為了獲取控制命令和文件傳輸,通常使用DNS服務與指揮和控制服務器(Camp;C)進行通信。為此,惡意軟件必須知道Camp;C服務器的連接信息,早期會在惡意軟件中硬編碼這些固定的連接信息(IP地址或域名),但極易被黑名單技術攔截。為了防止Camp;C服務器的域名被攔截,攻擊者通常使用域名生成算法(DGA)周期性地生成大量域名,從中選擇一個或多個有效域名解析IP地址與Camp;C服務器建立通信。

DGA可分為基于隨機字符的和基于單詞字典的兩大類。大多數DGA是基于隨機字符的,如Gameover家族的“14dtuor1aubbmjhgup7915tlinc.net”。盡管有基于哈希算法的DGA,如Bamital家族的“cd8f66549913a78c5a8004c 82bcf6b01.info”,其本質上也是基于隨機字符的。這種域名隨機性強,但在構成上與良性域名有較大差異,易于檢測。

基于單詞字典的DGA最大特點是,生成的域名是從指定的單詞列表中隨機挑選的單詞組成的,即單詞DGA域名的構成既有隨機字符的特征,也有n-gram的特征。常見的單詞DGA家族有Suppobox、Gozi、Nymaim、Matsnu。Suppobox家族有三個內嵌的單詞列表,共有1 152個單詞,每次從這些單詞中隨機挑選兩個單詞組成域名,如“childrencatch.net”。Nymaim家族有兩個內嵌的單詞列表,第一個列表有開頭字母為R-Z的2 450個單詞,第二個列表有開頭字母為C-R的4 387個單詞,生成域名時,先后從兩個列表各抽取一個單詞,兩個單詞之間用空字符或“-”字符連接,如“relevance-pierce.in”。

域名檢測的傳統技術需要手動提取特征,Cucchiarelli等人[1]用Kullback-Leibner散度和Jaccard指數來估計域名中2-grams和3-grams的相似度,并測試了不同的機器學習方法。馬棟林等人[2]先用改進的Relief計算特征權重,再用C5.0分類器進行域名分類。相比之下,深度學習方法能自動提取特征,在降低特征提取難度的同時,有效地提高了檢測性能。Woodbridge等人[3]率先使用LSTM檢測DGA域名,并且與多個傳統方法(HMM、Features和Bigram)進行比較,都取得了最好的檢測效果。裴蘭珍等人[4]比較了25種提取特征的深度學習方法,發現卷積神經網絡(CNN)和循環神經網絡(LSTM/GRU)相結合能有效提升檢測性能,但CNN的過濾器大小需仔細選擇。Hwang等人[5]使用TextCNN提取特征,再結合從域名手動提取的10個特征,對DGA域名進行檢測和分類。王志強等人[6]使用字符嵌入和單詞嵌入混合使用的高級詞嵌入方法,再用動態卷積網絡模型檢測DGA域名。Huang等人[7]提出一種ResBlock網絡堆疊的神經網絡模型Helios。Ren等人[8]將注意力機制、CNN和LSTM相結合,提出了Att-CNN-BiLSTM模型。Namgung等人[9]使用并行卷積神經網絡(PCNN),結合基于注意力機制的BiLSTM,使模型能同時學習域名序列的局部和全局信息。王甜甜等人[10]先利用黑名單和白名單技術過濾域名,再用BiLSTM-CNN模型進一步檢測DGA域名。以上這些方法主要是對基于隨機字符的DGA域名進行檢測,而專門針對單詞字典的DGA域名的檢測較少,于是有研究者設計針對基于單詞字典的DGA的檢測實驗。Highnam等人[11]提出了CNN與LSTM并行使用的Bilbo模型,該模型使用具有五個不同卷積核的PCNN,用于提取域名中的n-gram特征,與LSTM并行使用來檢測基于單詞字典的DGA。張永斌等人[12]驗證了基于隨機字符的DGA域名在字符組成和分布上與基于單詞字典的DGA域名、良性域名有明顯區別,認為Bilbo模型并行使用CNN和LSTM,弱化了域名組成單詞之間的上下文關系。因此,提出一種CNN與LSTM串行使用的網絡模型CL,先用CNN提取單詞域名中的n-gram特征,再輸入到LSTM中學習n-gram之間的上下文關系,通過學習單詞DGA域名中的單詞特征和單詞之間的組合關系來檢測DGA域名。

綜上所述,針對單詞字典DGA域名的檢測可從兩方面進行。首先,單詞字典DGA域名是由英文單詞構成的,需要提取域名中的單詞特征和單詞之間的組合關系;另一方面,單詞字典DGA域名本質還是由英文字母組成的,所以還需要學習域名組成字符之間的關系。本文提出一種改進的PCNN模型,先用注意力機制為輸入矩陣分配權重,通過不同大小的卷積核提取不同長度的單詞特征,用最大池化層學習最突出的單詞特征。CL模型在卷積層后使用LSTM學習單詞之間的上下文關系,但單詞DGA域名中的單詞是隨機挑選的,無明顯的順序特征,因此在PCNN的基礎上增加了平均池化層,代替LSTM來學習組成單詞之間的關系。此外使用融合注意力機制的BiGRU,以便學習域名中的全局字符之間的關系。最后將學習到的單詞特征、單詞之間的關系和字符信息連接起來,轉換為對應的域名標簽,以期實現更有效地對單詞字典DGA域名的檢測。

1 APCNN-BiGRU-Att模型

模型的整體框架如圖1所示,分為域名數據預處理、嵌入層、特征提取層和輸出層。

1.1 域名數據預處理

DGA生成域名的頂級域名(TLD)都是指定的,Suppobox家族的TLD只有“net”和“ru”,Gozi家族的TLD有“com”和“ru”,Gameover家族的TLD有“com”“org”“biz”和“net”。不管是DGA域名還是良性域名,這些域名中的頂級域名都是有固定組合的。DGA生成的隨機字符組合或隨機單詞組合,再附加一個頂級域名,就是一個完整的DGA域名。因此,DGA動態生成域名的隨機性在二級域名(SLD)中,而其中的頂級域名與DGA檢測問題無關,本文的域名數據都將去除域名中的頂級域名。

首先對域名數據進行預處理,去除數據集中所有域名的頂級域名,如“google.com”,刪除“.com”,只保留“google”,并將域名中的大寫字符全部轉換為小寫字符,刪除重復的域名數據。然后為每個域名添加標簽y,對于二分類任務,惡意域名標簽為1,良性域名為0。對于多分類任務,y∈[0,1,2,3,4]。

最后,將域名轉換為輸入序列{g,o,o,g,l,e},并填充域名長度。如圖2所示,本文實驗用到的域名數據的長度絕大部分小于30,因此設定長度l=30。如果輸入的域名長度大于30,則長度超過30的部分將被截斷;當輸入字符串長度小于30時,域名長度將被填充至30。

2.4 實驗對比

本文采用的對比模型有CL[12]、Bilbo[11]、LSTM+Att[13]和PCNN模型,其中PCNN的卷積核組合設置為最常見的2、3、4、5。

2.4.1 消融實驗

為了驗證模型組件的有效性,本文用四個家族二分類的數據集進行消融實驗,實驗結果如表3所示。

實驗結果表明,單獨使用APCNN模型和BiGRU+Att模型時,準確率分別是93.79%和94.37%,說明了兩個模型都能學習到域名的有效特征。當兩個模型結合使用時,準確率達到了94.71%,在準確率上分別提升了0.92%和0.34%,說明了本文模型的合理性和有效性。

2.4.2 模型檢測能力實驗一

本實驗數據包括四個基于隨機字符的DGA家族(Tinba、Dircrypt、Locky、Pykspa)域名各30 000個、四個基于單詞字典的DGA家族各30 000個和良性域名240 000個。實驗結果如表4所示。

實驗結果表明:在基于隨機字符的DGA域名數據的干擾下,五個模型均能達到很好的檢測效果,本文模型的準確率相比Bilbo提升了0.97%,比CL模型提升了0.63%。

2.4.3 模型檢測能力實驗二

三個和四個家族的二分類實驗結果如表5、6所示。

實驗結果表明:在三個家族的二分類實驗中,本文模型的準確率達到了97.09%,F1分數達到了0.971 0,相比較Bilbo模型提升了0.67%和0.006 6,較CL模型提升了0.35%和0.003 4。在四個家族的二分類實驗中,雖然各個模型的檢測能力都有所下降,但本文模型仍保持著最佳檢測效果,相較于Bilbo模型,準確率提升了1.37%,較CL模型提升了0.61%。

此外,在四個家族二分類實驗中,無論是準確率,還是F1分數,表5中的APCNN和BiGRU+Att模型相比于表6中的PCNN和LSTM+Att都有所提升,進一步說明了模型改進的有效性。

2.4.4 模型穩定性實驗

不同家族組合二分類的實驗結果如圖6和7所示。

從圖6和7中可以看出,隨著基于單詞的DGA家族數量的增加,各個模型的檢測能力都有所下降。在一個家族的實驗中,所有模型都有很高的準確率和F1值。在其他三個實驗中,本文模型保持著最佳檢測效果,且曲線下降的斜率最小,說明指標下降得較少,模型的穩定性更強。

2.4.5 模型多分類能力實驗

四個家族的多分類實驗結果如表7所示。

recall值代表對于某一標簽樣本,模型能夠正確檢測出的數量比例。從表7分析得知,除了Gozi家族外,本文模型在其余四個單詞DGA家族和良性域名中有最高的recall值,在Nymaim家族中,相比較CL模型提升了1.45%,在Matsnu家族中,較Bilbo模型提升了0.97%。說明本文模型有更好的多分類能力,能將更多的惡意域名劃分到其對應的DGA家族中。Gozi家族的最好效果是PCNN模型的95.78%。

2.5 實驗分析

經過一系列二分類和多分類實驗的結果對比分析,APCNN-BiGRU-Att模型均有更高的準確率和F1值,對單詞DGA域名有更好的檢測效果。相比于Bilbo和CL模型,APCNN-BiGRU-Att模型引入了簡化的全局注意力機制,增加了關鍵字符序列特征在雙向字符序列關系特征中的占比,也增加了域名有效字符在嵌入矩陣中的占比,使模型能聚焦于關鍵信息。同時增加了平均池化層,以提取域名組成單詞之間的組合關系特征。模型結合了BiGRU-Att和APCNN所提取到的兩部分特征,更貼合單詞DGA域名的特點。

3 結束語

本文提出一種結合APCNN和BiGRU-Att的神經網絡模型來檢測基于單詞字典的DGA域名,APCNN能提取單詞特征和單詞之間的組合關系,BiGRU-Att能提取域名中字符的關鍵信息。通過六個實驗的測試驗證,APCNN-BiGRU-Att模型對基于單詞字典的DGA域名有更好的檢測能力和穩定性,即使在基于隨機字符的DGA域名數據的干擾下,APCNN-BiGRU-Att模型也有更好的檢測效果。下一步研究應該提升模型的多分類能力,同時考慮改變卷積結構和全連接層結構,設計更輕量化的網絡模型,減少訓練參數,提高單詞DGA域名檢測的實時性。

參考文獻:

[1]Cucchiarelli A, Morbidoni C, Spalazzi L, et al. Algorithmically ge-nerated malicious domain names detection based on n-grams features[J].Expert Systems with Applications,2021,170(5):article ID 114551.

[2]馬棟林,張澍寰,趙宏.改進Relief-C5.0的惡意域名檢測算法[J/OL].計算機工程與應用.(2021-04-16)[2021-10-20].http://kns.cnki.net/kcms/detail/11.2127.TP.20210416.1010.006.html.(Ma Donglin, Zhang Shuhuan, Zhao Hong. Malicious domain names detection by improved Relief-C5.0[J/OL].Computer Engineering and Applications.(2021-04-16)[2021-10-20].http://kns.cnki.net/kcms/detail/11.2127.TP.20210416.1010.006.html.)

[3]Woodbridge J, Anderson H S, Ahuja A, et al. Predicting domain generation algorithms with long short-term memory networks[EB/OL].(2016-11-02)[2021-10-20].http://arxiv.org/abs/1611.00791.

[4]裴蘭珍,趙英俊,王哲,等.采用深度學習的DGA域名檢測模型比較[J].計算機科學,2019,46(5):111-115.(Pei Lanzhen, Zhao Yingjun, Wang Zhe, et al. Comparison of DGA domain detection models using deep learning[J].Computer Science,2019,46(5):111-115.)

[5]Hwang C, Kim H, Lee H, et al. Effective DGA-domain detection and classification with TextCNN and additional features[J].Electro-nics,2020,9(7):article No.1017.

[6]王志強, 李舒豪, 池亞平, 等. 基于深度學習的惡意DGA域名檢測[J].計算機工程與設計,2021,42(3):601-606.(Wang Zhiqiang, Li Shuhao, Chi Yaping, et al. Deep learning based detection of DGA domain names[J].Computer Engineering and Design,2021,42(3):601-606.)

[7]Huang Ji, Wang Pei, Zang Tianning, et al. Detecting domain generation algorithms with convolutional neural language models[C]//Proc of the 17th IEEE International Conference on Trust, Security and Privacy in Computing and Communications/the 12th IEEE International Conference on Big Data Science and Engineering.Piscataway,NJ:IEEE Press,2018:1360-1367.

[8]Ren Fangli, Jiang Zhengwei, Wang Xuren, et al. A DGA domain names detection modeling method based on integrating an attention mechanism and deep neural network[J].Cybersecurity,2020,3(1):article No.4.

[9]Namgung J, Son S, Moon Y S. Efficient deep learning models for DGA domain detection[J].Security and Communication Networks,2021,2021(2):1-15.

[10]王甜甜,劉雄飛.一種分階段的惡意域名檢測算法[J/OL].小型微型計算機系統.(2021-08-18)[2021-10-20].http://kns.cnki.net/kcms/detail/21.1106.TP.20210818.1358.051.html.(Wang Tiantian, Liu Xiongfei. Staged malicious domain names detection algorithm[J/OL].Journal of Chinese Computer Systems.(2021-08-18)[2021-10-20].http://kns.cnki.net/kcms/detail/21.1106.TP.20210818.1358.051.html.)

[11]Highnam K, Puzio D, Luo Song, et al. Real-time detection of dictionary DGA network traffic using deep learning[J].SN Computer Science,2021,2:article No.110.

[12]張永斌,常文欣,孫連山,等.基于字典的域名生成算法生成域名的檢測方法[J].計算機應用,2021,41(9):2609-2614.(Zhang Yongbin, Chang Wenxin, Sun Lianshan, et al. Detection method of domains generated by dictionary-based domain generation algorithm[J].Journal of Computer Applications,2021,41(9):2609-2614.)

[13]Qiao Yanchen, Zhang Bin, Zhang Weizhe, et al. DGA domain name classification method based on long short-term memory with attention mechanism[J].Applied Sciences,2019,9(20):article No.4205.

[14]Yang Luhui, Liu Guangjie, Dai Yuewei, et al. Detecting stealthy domain generation algorithms using heterogeneous deep neural network framework[J].IEEE Access,2020,8:82876-82889.

[15]Zago M, Gil P M, Marínez P G. UMUDGA: a dataset for profiling DGA-based botnet[J].Computers amp; Security,2020,92(5):article ID 101719.

[16]Le Pochat V, Van Goethem T, Tajalizadehkhoob S, et al. Tranco: a research-oriented top sites ranking hardened against manipulation[C]//Proc of the 26th Annual Network and Distributed System Security Symposium.2019.

主站蜘蛛池模板: 中文字幕1区2区| 国产视频大全| 免费一级α片在线观看| 亚洲男人在线| 欧美激情视频二区三区| 国产精品一区在线麻豆| 国产成人精品亚洲日本对白优播| 狠狠色狠狠色综合久久第一次| 国产农村妇女精品一二区| 国产黑丝视频在线观看| 久久五月天国产自| 久久久久无码精品国产免费| 91精品在线视频观看| 亚洲综合在线最大成人| 青青青国产精品国产精品美女| 亚洲天堂精品在线观看| 依依成人精品无v国产| 亚洲AV无码乱码在线观看代蜜桃| 国产视频久久久久| 亚洲成人手机在线| 亚洲国产成人精品青青草原| 一级全黄毛片| 国产三级视频网站| 国内嫩模私拍精品视频| 99热这里只有精品5| 激情综合五月网| 伊人久久青草青青综合| 国产亚洲第一页| 日韩第九页| 91尤物国产尤物福利在线| 亚洲精品免费网站| 亚洲水蜜桃久久综合网站| 呦女精品网站| 日韩天堂视频| 精品天海翼一区二区| 午夜国产理论| 影音先锋亚洲无码| 亚洲香蕉久久| 免费一级成人毛片| 久久黄色视频影| 在线中文字幕日韩| 操美女免费网站| 中文字幕 欧美日韩| 亚洲精品在线观看91| 亚洲色图欧美| 九九热精品视频在线| 国产嫩草在线观看| 日本草草视频在线观看| 99热这里只有免费国产精品 | 久久青草精品一区二区三区| 国产乱论视频| 在线免费观看AV| 国产SUV精品一区二区| 不卡午夜视频| 国产成人a在线观看视频| 午夜久久影院| 久久不卡国产精品无码| 国产午夜在线观看视频| 成人综合在线观看| 毛片在线播放a| 亚洲国产精品日韩欧美一区| 日本精品视频| 亚洲AV人人澡人人双人| 成年午夜精品久久精品| 九色在线观看视频| 国内精品久久九九国产精品| 免费高清a毛片| 免费国产黄线在线观看| 思思99思思久久最新精品| 欧美在线中文字幕| 青青草综合网| 国产精品久久久久久影院| www.狠狠| 内射人妻无套中出无码| 手机在线免费不卡一区二| 五月婷婷丁香综合| 中文字幕日韩久久综合影院| 老司机午夜精品网站在线观看| 久久中文电影| 国产精品自在在线午夜区app| 国模粉嫩小泬视频在线观看| 久久这里只有精品23|