999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯信息提取的惡意域名檢測方法

2021-11-14 08:23:22張斌廖仁杰
通信學報 2021年10期
關鍵詞:關聯檢測信息

張斌,廖仁杰

(1.信息工程大學密碼工程學院,河南 鄭州 450001;2.河南省信息安全重點實驗室,河南 鄭州 450001)

1 引言

惡意域名通常采用IP-Flux、Domain-Flux 等技術動態變換域名字符串構成和IP 的映射關系,具有較強的欺騙性和隱蔽性[1-2],如何有效檢測惡意域名已成為網絡安全領域的研究熱點之一。

目前,基于域關聯信息的惡意域名檢測方法按提取關聯信息的不同分為三類。第一類是基于域名請求時間關聯的惡意域名檢測方法,如基于固定時間窗分析域名請求時間相似性的域名檢測方法[3-4]、基于同類別域名請求呈伴隨關系的域名檢測方法[5]等。此類檢測方法的出發點是同類別域名在請求時間上呈聚集出現的特點,對并發訪問的惡意域名檢測效果較好,并能檢測大部分域名,檢測樣本覆蓋率較高,但易受主機產生的合法域名請求和觀測時間窗口大小設置的干擾,還需結合域名的其他信息以提高此類方法的穩健性。第二類是基于置信度傳播(BP,belief propagation)算法[6]的惡意域名檢測方法。此類檢測方法基于圖模型挖掘域名之間的關聯關系,首先,提取域名系統(DNS,domain name system)流量中域名解析IP 地址、訪問域名主機等信息構成圖模型,如域名-主機二部圖[7]、域名-IP地址二部圖[8-9]、域名傳播圖[10]、別名圖[11]等;然后結合已有黑白名單標記圖中部分節點,采用BP算法或圖聚類方法對圖中域名節點進行標記。此類方法基于圖中存在邊連接的域名節點具有同質性的特點進行節點標記,可在已知標簽數據較少的情況下對未知屬性域名節點進行檢測,但由于僅利用DNS 流量中單一類型域名信息構成圖模型,導致域名信息利用率較低,檢測效果不佳。第三類是基于異質信息網絡(HIN,heterogeneous information network)[12]的惡意域名檢測方法。此類檢測方法依據與惡意域名、攻擊者掌控IP 地址存在聯系的域名大概率為惡意域名的假設,首先將DNS 流量中多種信息,如域名、IP 地址、訪問主機等映射為HIN中的節點,然后采用網絡表示學習方法將HIN 中域名節點間的關聯信息向量化,使具有關聯的域名向量在特征空間中聚類出現,所得域名向量可結合分類算法實現域名檢測,如結合域名請求主機、域名解析IP 地址和域名請求時間信息,采用LINE(large-scale information network embedding)[13]進行域名表示學習的域名檢測方法[14-15],結合HIN 與直推式分類器的域名檢測方法[16],采用圖卷積網絡[17]進行域名節點表示學習的檢測方法[18-19]以及結合IP 地址信息、被動DNS 特征和域名字符串特征的檢測方法[20]。此類方法采用HIN 表示域名相關信息,提高了DNS 流量中域名信息利用率,并通過表示學習方法將HIN 中域名節點向量化,為惡意域名檢測提供區分性強的訓練數據,檢測準確率較第二類方法有較大提升,但此類方法存在以下不足:1) 由域名信息構造而成的HIN 中存在弱連接域名,此類節點與其他節點不存在邊連接,導致無法從HIN 中挖掘關聯解析信息實現檢測,檢測樣本覆蓋率較低;2) 采用矩陣乘法操作提取HIN 中域名節點之間關聯解析信息,時間復雜度較高。

為提高基于域名關聯信息檢測惡意域名的樣本覆蓋率和檢測準確率,本文考慮結合第一類方法具有較高檢測樣本覆蓋率和第三類檢測方法中采用HIN 表示域名解析信息具有較高檢測準確率的特點,提出一種結合域名解析IP 地址、別名記錄和請求時間進行關聯信息挖掘的惡意域名檢測方法。

本文主要的研究工作如下。

1) 將DNS流量中域名解析信息映射為HIN中的節點和邊,彌補由于采用同質網絡無法同時表示域名與IP 地址之間的解析關系和域名之間別名關系的不足,提高域名信息利用率;給出描述域名之間關聯信息的元路徑定義,同時提出一種用于提取域名關聯信息的網絡遍歷方法,避免采用矩陣乘法操作提取元路徑關聯信息計算復雜度較高的問題。

2) 提出基于請求時間的弱連接域名關聯信息挖掘方法,根據較小時間窗內發起請求的域名之間屬性相似的特點,從請求時間角度挖掘弱連接域名的關聯信息,解決弱連接域名因元路徑關聯信息缺失而無法被檢測的問題,提高檢測樣本覆蓋率。

3) 提出一種域名表示學習方法,通過基于元路徑的域名關聯解析信息與基于請求時間的域名關聯信息進行差異學習,將域名映射為特征空間的數值向量,通過向量間歐氏距離反映域名之間關聯程度,為用于惡意域名檢測的有監督分類器提供區分性較強的訓練數據,獲得較高的檢測準確率。

2 方法設計

基于域名關聯信息進行惡意域名檢測的依據如下。1) 惡意域名解析信息存在關聯關系:由于攻擊者掌握的IP 資源有限,不同惡意程序所使用域名的解析IP 地址存在交集,可通過分析域名IP 共享機制發現惡意域名家族[10,12]。2) 惡意域名在請求時間上存在關聯關系:由于感染惡意程序的主機以固定時間周期發送域名請求以驗證控制服務器狀態和獲取攻擊命令,安全人員可在DNS 記錄中發現感染主機對惡意域名周期性訪問的現象[2,4]。由于攻擊者可通過劫持合法域名進行攻擊活動,并在對惡意域名發起查詢的同時,隨機發送大量合法域名請求以隱藏惡意域名請求,若僅依靠單一類型關聯信息進行域名檢測易產生較多誤報與漏報[1]。綜上所述,本文結合域名解析信息與請求時間信息進行惡意域名檢測,以提高基于域名關聯信息的惡意域名檢測結果可靠性。

基于解析信息與請求時間相結合的惡意域名檢測方法(MDND-RIQT,malicious domain name detection based on resolution information and query time),同時利用域名解析信息與請求時間關聯信息進行域名檢測:采用異質信息網絡挖掘域名解析信息中存在的關聯信息;根據固定時間窗提取域名請求時間關聯信息;設計域名表示學習算法,將未知域名與已知合法/惡意域名的關聯程度量化為向量間歐氏距離,所得數值向量作為域名特征,并結合有監督分類器實現域名檢測。MDND-RIQT 整體流程如圖1 所示,包括域名異質信息網絡(DN-HIN,domain name heterogeneous information network)構建、基于關聯信息的域名對提取、域名表示學習和域名分類器的訓練與測試。

圖1 MDND-RIQT 整體流程

DN-HIN構建是將DNS流量中解析記錄表征為異質信息網絡,為挖掘域名關聯解析信息提供數據表示。基于關聯信息的域名對提取圍繞域名基于元路徑的關聯解析信息和基于請求時間關聯信息展開,將存在關聯信息的2 個域名記為一個域名對。域名表示學習自動融合不同類別的域名關聯信息,將域名映射為數值向量,通過向量間歐氏距離量化域名之間關聯程度,最后通過已知標簽的域名向量訓練有監督分類器用于未知標簽域名檢測。

2.1 DN-HIN 構建

對于網絡G=(V,E),其中V和E分別代表網絡G中的節點和邊,G中存在節點類型的映射關系φ:V→A,使 ?v∈V,φ(v)∈A,以及邊連接的映射關系φ:E→R,使 ?e∈E,φ(e)∈R,A和R分別代表節點類型集合和邊連接類型集合。若>2,則稱G為異質信息網絡。異質信息網絡已廣泛應用于信息檢索和數據挖掘領域[12]。

在網絡通信中,主機發起對某一域名的查詢請求后,可通過本地緩存或解析服務器遞歸查詢獲得查詢結果。DNS 流量中A 和AAAA 類型記錄包含域名與 IP 地址一對一或一對多的解析關系、CNAME 類型記錄包含域名的別名關系。為充分挖掘域名與IP 地址、域名與域名之間的關聯信息用于惡意域名檢測,選取HIN 表示不同類型的域名解析信息,構成DN-HIN。DN-HIN 包含2 種節點(即域名節點ND、IP 地址節點NIP)和2 種邊連接關系(即ND與NIP之間的解析關系RResolve、別名記錄構成的CNAME 關系RCNAME)。采用2 個鄰接矩陣存儲DN-HIN 中節點之間RResolve和RCNAME邊連接關系,分別記為MResolve和MCNAME,并根據DNS 流量中的域名信息對矩陣進行賦值,矩陣賦值如下

2.2 基于元路徑的域名關聯解析信息提取

異質信息網絡中2 個節點可通過不同路徑建立連接,不同的路徑代表節點間不同的語義關系,這樣的路徑稱為元路徑[12]。為挖掘DN-HIN 中域名節點之間的連接關系用于惡意域名檢測,定義以下5 種類型的域名元路徑(MetaP,meta-path),其中,d代表域名,IP 代表域名解析IP 地址。

1) MetaP1:域名(d1)-IP 地址(IP1)-域名(d2)。有限的IP 地址資源導致不同域名的解析IP 地址存在交集,并且解析到同一IP 地址的域名之間具有較強的同質性。例如,同一公司的多個域名通常解析為同一個IP 地址;惡意程序采用域名生成算法產生的大量惡意域名往往指向同一個IP 地址,以確保感染主機被攻擊者同時管控。

2) MetaP2:域名(d1)-CNAME-域名(d2)。CNAME 表示域名的別名記錄。若域名d1的查詢結果為CNAME 記錄,將繼續對別名域名d2發起查詢,最終獲得域名d1的解析IP 地址。網絡攻擊者通過設置CNAME 記錄將感染主機發起的對惡意域名的查詢轉移到跳板主機,并可靈活更換跳板主機以提高網絡攻擊事件中的通信隱蔽性[10]。

3) MetaP3:域名(d1)-IP 地址(IP1)-域名(d2)-IP地址(IP2)-域名(d3)。考慮到域名解析的負載均衡問題,在實際設置中通常為同一個域名配置多個解析IP 地址,并且每個IP 地址也可作為多個域名的解析地址,從而出現MetaP3 表示的域名解析IP 地址共享機制。文獻[21]中指出,僵尸網絡控制者為尋求更高的經濟利益,開始為其他惡意程序提供服務,出現同一惡意域名在不同時間被不同惡意程序家族使用的Baas(botnet as a service)模式,并且為躲避監管,所使用惡意域名的解析IP 地址會在不同國家和托管平臺之間遷移。

4) MetaP4 :域 名(d1)-CNAME-域 名(d2)-CNAME-域名(d3)。域名d1的查詢結果為別名為域名d2的CNAME 記錄,繼續發起對域名d2的查詢,返回一條別名記錄為域名d3的CNAME 記錄,最終由域名d3的查詢結果得到解析IP 地址并將此IP 地址作為域名d1的解析結果。此類域名利用方式常用于采用動態域名解析服務的釣魚網站和網絡詐騙[10],具有較高隱蔽性。

5) MetaP5:域名(d1)-IP 地址(IP1)-域名(d2)-CNAME-域名(d3)。MetaP5 在MetaP1 和MetaP2 的基礎進行拓展。對于同時存在A 類型和CNAME 類型查詢結果的域名d2,可將域名d2作為中間節點,使域名d1與域名d3建立長距離關聯關系。

以上5 種元路徑以合法/惡意網絡活動中域名、IP 地址之間的聯系為基礎,通過不同長度、不同連接關系的元路徑提高域名關聯解析信息挖掘的全面性,并用于推理域名節點的屬性:若域名節點在DN-HIN 中與已知惡意域名節點或攻擊者掌控的IP地址節點存在元路徑聯系,則該域名傾向為惡意。

通過統計DN-HIN 中域名節點的出度可知,域名節點的出度為1~6,從而由式(1)所得的鄰接矩陣為稀疏矩陣。已有研究采用鄰接矩陣相乘操作挖掘域名節點之間不同的元路徑關聯信息,此過程受元路徑種類數、元路徑長度、鄰接矩陣大小等因素影響,具有較大的計算開銷[16]。為提高在DN-HIN 中提取域名節點之間元路徑關聯信息的效率,設計基于元路徑的網絡遍歷算法(NTA-M,network traversal algorithm based on meta-path),該算法以DN-HIN 中域名節點作為遍歷起點,以廣度優先原則搜尋DN-HIN 中滿足5 種元路徑的下一跳節點,最終輸出與元路徑匹配的域名節點序列,具體描述如算法1 所示。

算法1基于元路徑的網絡遍歷算法

輸入鄰接矩陣MResolve和MCNAME,域名集合DN_Set,元路徑遍歷匹配項MetaP3、MetaP4 和MetaP5

輸出滿足元路徑關系的域名節點序列集合Traversal_Result

設鄰接矩陣MResolve大小為n×m、MCNAME大小為n×n,其中,n為域名數量,m為IP 地址數量。若采用矩陣相乘操作提取基于MetaP3(最長元路徑)的域名節點序列,算法復雜度為O(n3m)。設DN-HIN 中節點最大出度為l,則NTA-M 在最壞情況下(DN-HIN 中所有節點出度均為l,元路徑均為MetaP3)的算法復雜度為O(nl4)。由于l的數量級遠小于m或n的數量級,則NTA-M 具有較小的算法復雜度。此外,采用矩陣相乘操作來提取域名關聯信息需保存矩陣相乘的結果,該矩陣為n×n的稀疏矩陣,具有較大存儲空間開銷。NTA-M 所得結果僅需保存與元路徑匹配的節點序列。綜上,NTA-M 比基于矩陣乘法的元路徑信息提取方法具有更小的時間與空間開銷。

由于MetaP3、MetaP4、MetaP5 包含MetaP1與MetaP2,NTA-M 僅考慮MetaP3、MetaP4 與MetaP5 用于域名元路徑信息提取,所得域名節點序列如圖2(a)所示(均以域名D1作為遍歷起點),D代表域名節點、IP 代表IP 地址節點、Resolve 和CNAME 分別對應域名解析關系和域名別名關系。為進一步提取域名之間元路徑關聯信息用于域名檢測,將域名節點序列中的邊連接信息和IP 地址節點刪除,并劃分為5 種不同類型的域名對集合,如圖2(b)所示,域名對將用于后續域名表示學習。

圖2 基于NTA-M 提取域名對示意

受DNS 流量采集時長、網絡環境等因素影響,弱連接域名在DN-HIN 中無法提取到任何元路徑關聯信息用于檢測。為此,引入域名請求時間關聯信息,用于提取與弱連接域名存在請求時間關聯的域名對。

2.3 基于請求時間的弱連接域名關聯信息挖掘

當用戶瀏覽合法或惡意網站時,瀏覽器在較短的時間內會向不同域名發起的DNS 查詢請求,以獲取網頁中的文字、圖片等內容,在此過程中被發起請求的部分域名之間雖不存在解析信息關聯,但出現在同一網頁瀏覽事件中,所發起請求的域名具有較大概率為同一類別(合法或惡意)。此外,惡意程序中通過域名生成算法產生的惡意域名在請求時間上呈集中請求的特點。由此,在較小時間窗內發起請求的域名具有較大概率屬于同一類別,基于域名請求時間的關聯信息可用于惡意域名檢測[2-4]。為彌補DN-HIN 中弱連接域名由于缺少元路徑關聯信息無法被檢測的不足,本文提出基于域名請求時間的關聯信息提取方法(AIEM-DNQT,associatedinformation extraction method based on domain namequery time),該方法通過提取域名請求時間關聯信息有效檢測弱連接域名。

設Dataset 為N臺主機的域名請求記錄集合,Dateset={D1,D2,…,DN},其 中Di=代表主機i在時刻發起對域名的查詢,Li代表Di的域名請求總數;WDN_List={WDN1,WDN2,…,WDNN′}為弱連接域名構成的集合,N′為弱連接域名數量。令τ為請求時間判別閾值,若域名與弱連接域名的請求時間間隔小于τ,則判別2 個域名之間存在請求時間關聯關系。AIEM-DNQT 具體描述如算法2 所示。

算法2基于域名請求時間的關聯信息提取算法

輸入主機域名請求記錄集合Dataset,弱連接域名集合WDN_List,判別閾值τ

輸出弱連接域名基于請求時間關聯的域名對集合Rquery

算法2 分為2 個階段。1) 弱連接域名請求記錄遍歷,設Dataset 中每個弱連接域名請求記錄數為Q,以弱連接域名為中心,大小為2τ的時間窗內平均域名請求記錄數為Nav,則得到所有弱連接域名的域名對時間復雜度為O(QWNav);2) 域名對排序,設每個弱連接域名的平均域名對數量為P,則算法2 的時間復雜度為O(QWNavlbP)。算法2 中步驟8) 選擇出現頻次較高的域名對作為最終結果,通過頻次統計降低主觀設置τ值和主機后臺程序發起的合法域名請求帶來的干擾。Rquery將用于后續域名表示學習。

2.4 基于域名關聯信息的域名表示學習方法

借鑒Skip-Gram 模型可在保持字、詞語義關系的前提下,基于文本向量化的思想[22],將通過NTA-M 和AIEM-DNQT 分別得到基于元路徑和基于請求時間關聯信息的域名對理解為自然語言處理的詞組,輸入Skip-Gram 模型,將每個域名轉化為維度固定的數值向量。域名向量間歐氏距離反映域名之間的關聯程度,域名向量之間距離越小說明域名之間關聯越緊密。

Skip-Gram 模型訓練需建立 2 個大小均為M×Dim 的矩陣,分別記為域名向量矩陣W和關聯域名向量矩陣W′,其中,M為域名樣本總數,Dim為域名向量維度,Dim?M。通過Skip-Gram 模型學習域名向量的目標是對于任意存在關聯關系的域名對(di,dj)(i,j∈{1,2,…,M},i≠j),使條件概率P(dj|di,θ)最大化,P(dj|di,θ)采 用Softmax 函數進行衡量。

其中,θ為W與W′所包含的參數,vi為域名di的數值向量(矩陣W中第i行對應的數值向量),和為域名dj和dk在矩陣W′中的數值向量。

推論 1令R={RMetaP1,RMetaP2,RMetaP3,RMetaP4,RMetaP5,Rquery}為包含6 種關聯關系域名對的集合,若采用R中域名對作為Skip-Gram 模型的訓練數據,那么域名表示學習的目標函數可表示為

其中,wr為關聯關系Rr的權值,σ(x)=1 (1+e-x),Pn(v)為域名負樣本(與域名di不存在任意關聯關系的域名)的概率分布,Nk為負樣本采樣數。

證明考慮式(2)的分母項需對所有樣本進行計算,計算開銷較大的問題,采用負采樣技術[22]將式(2)轉化為區分R中所有域名與di是否存在關聯關系的邏輯回歸任務,即

參數θ更新需考慮R中不同關聯關系的域名對,并且不同關聯關系的域名對滿足相互獨立,通過取最大似然得到域名表示學習的目標函數為

考慮式(5)連續乘法操作計算開銷較大的問題,對式(5)等號兩側同取log 函數,令L=logO,可得

考慮到R中不同關聯關系域名對參數θ更新存在差異性影響[16,19],在式(6)中為不同的關聯關系引入權重因子,令Weight={wMetaP1,wMetaP2,wMetaP3,wMetaP4,wMetaP5,wquery}為所有域名關聯關系的權重集合,最終可得基于關聯信息權重自適應的域名表示學習的優化目標函數

其中,wr∈Weight,wr在訓練過程中根據損失值自適應調整,推論1 證畢。

采用小批量樣本的隨機梯度下降法對式(7)中參數θ和Weight 進行交替更新,即完成Nθ次θ參數更新后,進行一次Weight 參數更新,避免Weight中部分權重因頻繁調整而取值過大,提高參數更新穩定性。令rθ和rW分別為參數θ和Weight 的更新學習率,Nb為小批量樣本數量,參數更新具體步驟如下。

步驟1初始化θ與Weight。

步驟2從R中每個關聯關系域名對集合隨機選擇Nb個域名對,采用式(7)進行誤差計算。

步驟3若已完成Nθ次θ參數更新,以學習率為rW的隨機梯度上升法對權重Weight 進行更新;否則,轉到步驟4。

步驟4采用學習率為rθ的梯度下降法對θ進行更新。

步驟5若未達到最大迭代次數,回到步驟2;否則,輸出θ與Weight。

采用梯度上升法更新Weight 的原因如下。對于任意wr∈Weight,若wr的更新梯度值較大則說明式(7) 中Rr類別的計算結果,即的值較大,從而可通過增大Rr類別域名對的權重wr以獲得更大的更新梯度,加快參數θ更新速度。

考慮所得的域名數值向量在特征空間分布上呈現關聯性較強的2 個域名向量距離較近的同類聚集特點,選取支持向量機(SVM,support vector machine)和隨機森林(RF,random forest)作為域名分類器[23]。惡意域名檢測器訓練與測試流程如下:首先,通過已知域名黑白名單對域名數值向量進行標注;其次,隨機選取部分帶標簽數據用于域名檢測器訓練;最后,通過訓練完成的域名檢測器檢測未知標簽域名。

3 實驗與分析

3.1 實驗環境與數據

實驗環境如下:Windows 7 64 位操作系統,CPU為Intel Xeon Silver4114 2.2 GHz,64 GB RAM,GPU 為NVIDIA GeForce RTX 2080 SUPER,選取Python 3.6 實現所提算法。

實驗數據來源于 Malware Capture Facility Project,該項目在真實的主機和網絡環境中采集僵尸網絡、木馬等惡意程序運行過程中產生的惡意流量數據和正常用戶產生的合法流量數據。為驗證所提方法進行惡意域名檢測的有效性,篩選數據集中DNS 流量作為實驗數據,并采用惡意軟件測試平臺VirusTotal 對所有域名進行標簽標注。

3.2 實驗參數與評價指標設置

AIEM-DNQT 算法中請求時間判別閾值τ為5 s。域名表示學習參數設置如下:域名數值向量維度設置為60,rθ設置為5,rW設置為0.05,每輪迭代負樣本數Nk為80。SVM 參數設置如下:懲罰系數C通過預實驗確定為5,核函數采用徑向基函數;RF中決策樹數量通過預實驗確定為100,其余參數為默認設置。

TP(true positive)為被正確判別為惡意域名的樣本數;FP(false positive)為被錯誤判別為惡意域名的樣本數;TN(true negative)為被正確判別為合法域名的樣本數;FN(false negative)為被錯誤判別為合法域名的樣本數。主要參考的判別標準如下。

檢測樣本覆蓋率(C-rate,coverage rate),即檢測方法能檢測的樣本數與樣本總數的比值。

3.3 域名表示學習方法對比

為驗證所提域名表示學習方法的有效性,并分析域名數值向量在特征空間中的分布特點,分別采用式(6)和式(7)進行域名表示學習,并采用t-SNE[24]將域名向量降至2 維進行可視化分析,結果如圖3所示。

圖3 域名向量2 維可視化

圖3(a)為式(7)所得域名向量的2 維空間分布,域名向量呈現部分聚集的情況,并且位于同一聚集區域中的域名具有相同屬性。由t-SNE 的降維原理可知,在降維后的特征空間中處于同一個類簇的域名在原特征空間中也呈現聚類分布的特點。由圖3(c)與圖3(d)可知,采用式(7)進行域名表示學習可使存在關聯關系的域名在高維特征空間中具有較小距離,不存在關聯關系的域名間距離較大,并且不同類別的域名數值向量具有較好的可區分性。圖3(b)為采用式(6)進行域名表示學習所得的域名向量可視化結果,仍存在部分同類別的域名向量呈聚類的特點,但通過分析圖3(e)和圖3(f)中黑色框線內的樣本分布可知,不同類別域名向量區分性不強,這將降低后續域名檢測器性能,產生較高誤報率。

3.4 域名檢測器檢測性能對比與漏報分析

按照不同比例將樣本集劃分為訓練集與測試集,其中訓練集用于訓練SVM 和RF 分類器,測試集用于獲得分類評價指標。表1 給出了不同訓練集占比下不同分類器的實驗結果,實驗結果為進行10 次實驗所得平均值,其中訓練集占比為訓練集樣本數與數據集樣本總數的比值。

表1 不同訓練集占比下SVM、RF 檢測性能對比

由表1 可知,在相同的訓練集占比下,SVM 的F1 分數與準確率均優于RF,主要是因為通過2.4 節所得的域名向量在特征空間中具有較好的區分性,使通過SVM 學習得到的支持向量能較好區分不同類別域名向量,在檢測效果上優于基于特征選擇實現集成決策的RF。此外,在訓練集占比僅為30%時,SVM 的 F1 分數可達到 0.921,說明MDND-RIQT 通過學習DN-HIN 中元路徑關聯信息和請求時間關聯信息得到區分性較好的域名向量,并結合SVM 的小樣本學習能力,取得較好檢測效果。

采用SVM 可獲得較優的檢測指標,但由于存在漏報,各項指標還有一定提升空間,所提檢測方法產生漏報的主要原因是部分惡意域名與合法域名存在關聯關系,主要包含以下2 種情況:1) 攻擊者將惡意服務器部署到云/VPS 平臺,使惡意域名的解析IP 地址與部署在同平臺的合法域名存在關聯,從而造成此類惡意域名的數值向量與合法域名具有相似的數值向量分布,進而被域名檢測器誤判為合法域名;2) 攻擊者通過滲透手段掌握部分站點控制權進行惡意活動,如上傳惡意篡改軟件供用戶下載、在網頁中掛載惡意程序等,由于此類攻擊事件中的域名只存在與其他合法域名的關聯信息,導致所提方法無法檢出此類惡意域名利用方式,將此類域名誤判為合法。為減少以上兩類漏報產生,還需針對惡意域名的利用方式進行分析,以提高檢測方法穩健性。

3.5 不同關聯信息和表示學習方法的檢測性能對比

采用控制變量法設計對比實驗,以檢驗不同關聯信息與表示學習方法對檢測結果的影響,所得對比結果如表2 所示,MDND-RI 代表未采用域名請求時間關聯信息的 MDND-RIQT 方法,MDND-RIQT-Equal 為采用式(6)進行域名表示學習的MDND-RIQT 方法。對比實驗中域名檢測器均為SVM,訓練集占比均為70%。

表2 不同實驗設置的檢測性能對比

由表2 可知,Malshoot 的C-Rate 和檢測準確率最低,其主要原因為Malshoot 僅提取域名解析IP地址的二階相似度用于域名表示學習,導致大量域名因缺乏基于IP 地址的關聯信息而無法被檢測;MDND-RI 采用2.2 節提出的5 種元路徑關聯信息進行域名檢測,檢測指標較Malshoot 均有提升,其中C-Rate 增長明顯,但仍有19.1%的域名由于關聯解析信息缺失無法被檢測;MDND-RIQT-Equal 方法結合域名解析信息和請求時間兩方面的關聯信息,C-Rate 達到最高,但在將關聯信息轉化為數值向量過程中,未能區分不同域名關聯關系對目標函數優化的差異性影響,導致部分域名向量更新不足,所得F1 分數較低。MDND-RIQT 通過結合域名元路徑和請求時間關聯信息,并采用域名關聯信息權重自適應的域名向量學習方法進行域名檢測,各項指標均為最優。

域名數值向量包含域名基于元路徑與基于請求時間的關聯信息,域名向量維度的設置影響后續域名檢測的性能。為說明域名向量維度的設置對檢測效果的影響,設置不同維度進行實驗,實驗結果如圖4 所示。

圖4 域名向量維度對檢測性能的影響

由圖4 可知,隨著域名向量維度增加,F1 分數與準確率均增加并最終穩定在一定范圍內。當維度設置為12,由于向量維度過小,無法有效表征域名之間豐富關聯信息,F1 分數和準確率取值最低;當維度設置為72 或84 時,檢測指標略微降低,說明維度設置過大存在一定過擬合風險;當維度分別設置為36、48 或60 時,檢測指標受維度調整引起的波動較小,從而在參數調整過程中能較快取得檢測指標較優的向量維度設置。

3.6 與基于BP 算法的惡意域名檢測方法對比

基于圖模型的惡意域名檢測研究通常基于BP算法進行惡意域名檢測[5-11],此類方法能在僅有少量域名節點帶有標簽的情況下,通過節點間消息傳遞的方式為對未知標簽域名節點進行標記,降低惡意域名檢測中對大量標簽數據的依賴。將所提方法與基于BP 的惡意域名檢測方法[10]進行對比,采用不同訓練集占比進行實驗,所得F1 分數對比情況如圖5 所示,其中閾值用于判定域名標簽,當BP算法迭代收斂后,若域名標簽數值大于閾值,判別為惡意域名。由于初始標簽設置為0.5,分別選擇0.49 和0.51 作為閾值,以檢驗閾值設置對檢測結果的影響。

由圖5 可知,隨著訓練集占比增加,BP 算法的F1 分數逐漸增加并最終保持穩定。當訓練集占比小于70%,BP 算法的F1 分數受閾值設置影響較大,其主要原因如下:1) 當訓練集占比較小時,域名圖中大量域名節點初始標簽為0.5,導致采用BP算法進行節點標簽更新后,其標簽仍為0.5;2) 由于樣本集中合法域名數量遠多于惡意域名數量,當閾值設定為0.51,標簽為0.5 的域名被判為正常域名,導致樣本集中少數惡意域名因標簽為0.5 被誤判為合法域名,此時檢測誤報率較低,從而具有較高的F1 分數;當閾值設置為0.49,導致大量標簽為0.5 的合法域名被誤判為惡意,產生較多誤報,所得F1 分數較小。與BP 算法相比,所提方法可在已知標簽數據較少的情況取得較高的F1 分數。

圖5 所提方法與BP 算法對比

4 結束語

本文提出一種結合域名解析IP 地址、別名記錄和請求時間關聯信息的惡意域名檢測方法。該方法采用HIN 表示域名解析信息,設計了基于元路徑的網絡遍歷方法,以提高域名關聯解析信息提取效率。引入請求時間關聯信息有效檢測弱連接域名,提高了檢測方法的樣本覆蓋率。設計了域名表示學習方法融合不同關聯信息,通過向量間歐氏距離量化域名關聯程度。實驗結果表明,所提方法在已知標簽數據較少的情況下域名檢測效果較優。下一步研究將引入域名注冊信息、WHOIS 信息用于域名關聯信息挖掘,進一步提高檢測精度。

猜你喜歡
關聯檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
奇趣搭配
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
智趣
讀者(2017年5期)2017-02-15 18:04:18
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語言學與修辭學:關聯與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
主站蜘蛛池模板: 99在线视频精品| 午夜视频在线观看免费网站| 国产精品所毛片视频| 亚洲日本中文字幕乱码中文| 欧美亚洲激情| 国产精品护士| 一区二区在线视频免费观看| 在线欧美a| 免费无遮挡AV| 久久网欧美| 精品精品国产高清A毛片| 国产福利一区视频| 国产主播喷水| 欧美日韩高清在线| 91视频日本| 欧美一区二区啪啪| 国产美女在线免费观看| 久久国产精品夜色| 国产日本欧美在线观看| 国产一级二级在线观看| 国产精品99久久久| 无码中文字幕乱码免费2| 自拍偷拍欧美| 亚洲欧美精品日韩欧美| 国产成人永久免费视频| 日韩无码视频网站| 国模极品一区二区三区| 2021精品国产自在现线看| 依依成人精品无v国产| 国产精品美女免费视频大全| 欧美日本在线| 久久天天躁狠狠躁夜夜2020一| 婷婷亚洲天堂| 色天天综合| 香蕉综合在线视频91| 久久成人18免费| 亚洲成人在线免费| 欧美日韩第二页| 国产综合亚洲欧洲区精品无码| 色一情一乱一伦一区二区三区小说| 幺女国产一级毛片| WWW丫丫国产成人精品| 国产亚洲欧美在线人成aaaa| 日韩在线视频网站| 一级一毛片a级毛片| 欧美成人怡春院在线激情| 秋霞一区二区三区| 福利在线一区| 538国产在线| 97色伦色在线综合视频| 伊人色综合久久天天| 亚洲综合久久成人AV| 国产欧美日韩视频一区二区三区| 91毛片网| 国产jizz| 日本成人一区| 波多野结衣一区二区三区88| 国产91在线免费视频| 国产精品999在线| 99精品视频九九精品| 国产视频入口| 无码啪啪精品天堂浪潮av| 草草影院国产第一页| 久视频免费精品6| 国产无码精品在线播放| 亚洲精品福利视频| 欧美在线黄| 亚洲欧洲日产国码无码av喷潮| 五月综合色婷婷| 免费无码一区二区| 欧洲高清无码在线| 日韩精品成人在线| 欧美在线三级| 婷婷成人综合| 国产91精品最新在线播放| 国产精品免费入口视频| 欧美啪啪网| 久久99国产综合精品女同| 免费女人18毛片a级毛片视频| 久久人午夜亚洲精品无码区| 亚洲日韩精品伊甸| 久久久久亚洲av成人网人人软件|