收稿日期:2021-11-10;修回日期:2021-12-27" 基金項目:國家自然科學基金資助項目(62072208,61772229)
作者簡介:孫一丁(1997-),男,吉林長春人,碩士研究生,主要研究方向為入侵檢測、神經網絡;李強(1975-),男,吉林長春人,教授,博導,博士,主要研究方向為入侵檢測、聯邦學習、隱私保護(sunyd19@mails.jlu.edu.cn).
摘 要:高級持續性威脅(APT)給企業、政府等組織帶來沉重的損失。然而大多數檢測方法沒有同時考慮到APT攻擊本質上的兩個特性,即時間性和空間性。被入侵主機的行為模式與被入侵之前相比會產生一系列時序性的異常。在空間性方面,受損主機往往會繼續滲透其他主機。因此,提出一種基于時空特性檢測APT受損主機的方法。該方法針對APT攻擊中必不可少的身份驗證行為進行檢測,構建主機認證圖,從圖中提取特征,利用LSTM學習主機的時序性特征,建立主機關聯圖,利用GAT提取主機間的空間特征。該方法利用神經網絡提取特征,無須人工的特征選擇。該方法在公共數據LANL上進行實驗,F1得分達到了0.979。
關鍵詞:高級持續性威脅;時空性分析;身份驗證;神經網絡
中圖分類號:TP393.04"" 文獻標志碼:A
文章編號:1001-3695(2022)06-045-1860-05
doi:10.19734/j.issn.1001-3695.2021.11.0598
Towards discovering compromised hosts with temporal-spatial behaviors in
advanced persistent threats
Sun Yiding,Li Qiang
(College of Computer Science amp; Technology,Jilin University,Changchun 130012,China)
Abstract:APT has caused great damage to enterprises and government.However,most detection methods do not take into account the two characteristics,that is temporal and spatial.The invaded host will produce temporal abnormal behaviors different from the usual.In terms of spatial,the invaded host will often continue to infiltrate other hosts.Therefore,this paper proposed the method to detect APT compromised hosts based on temporal- spatial characteristics.This method targeted the abnormal authentication behavior in APT.It constructed the host authentication graph,and extracted some important features from the graph.This method used LSTM to extract the temporal-based features of the host,built the host association graph and used GAT to obtain the spatial features and relationships between the hosts.It used neural network to extract features without manual feature selection.The method is tested on public data LANL,and the F1 score reaches 0.979.
Key words:advanced persistent threats(APT);temporal-spatial analysis;authentication;neural networks
0 引言
近些年來,高級持續性威脅已經給國家、企業、個體帶來了巨大的安全問題。攻擊者往往是有組織有目的地達到竊取受害者信息甚至破壞相應設備的目的。文獻[1]根據APT報告將高級持續性威脅總結為初始偵查、建立立足點、橫向移動/避免檢測、滲透/破壞、消息傳遞五個階段。如著名的APT攻擊Hydrq[2]在2009年對商業公司發起攻擊,使用多個惡意組件協調攻擊,完成初始入侵后,在受害者系統中建立后門,長時間潛伏,收集用戶名以及口令,不斷提升特權,最終利用Camp;C通道傳回數據。在Night Drago[3]中,攻擊者通過SQL注入攻擊連接到Web服務器,掃描其他服務器和PC。隨后,攻擊者以高權限入侵AD服務器和敏感主機,并繼續使用被盜的賬戶憑據來達到滲透和維護的目的,最終,攻擊者在系統中植入惡意代碼,并安裝遠程控制工具,建立直連通道竊取信息。
APT攻擊本質上就是時間性和空間性上的攻擊。在時間性方面,雖然攻擊者會在系統環境內長時間潛伏,但一旦發起攻擊,攻擊者是沒有辦法完全模仿主機正常行為模式的。如在APT18[4]中,攻擊者從受害者的機器收集系統信息,并使用合法憑據登錄到外部遠程服務器,會導致主機與其他主機的登錄行為增加。在APT39[5]中,攻擊者使用暴力攻擊破解本地管理員密碼,試圖訪問服務器,會使攻擊者所在主機的身份驗證出度和服務器的身份驗證入度增加。而隨著APT攻擊的進行,在時序上會表現出攻擊行為與正常行為的差異,如被初始入侵之后,會表現出異常行為;而在潛伏階段又表現為正常行為;在滲透和橫向移動時,又與正常行為不同。在空間上,APT攻擊會在系統內部橫向移動,從目標薄弱處開始,逐漸接近具有更高權限的實體,滲透和攻陷更多的PC和服務器,如Night Drago中利用Web服務器作為跳板入侵其他服務器。那么一臺受損主機極有可能是由其他受損主機滲透而來,并且繼續入侵到其他主機,即一臺受損主機更容易與其他受損主機聯系到一起,考慮主機間的空間聯系是有必要的。
近期針對APT的檢測方法大多為基于異常的檢測方法,這些方法利用機器學習方法、圖方法對系統內實體或者行為進行分析。如文獻[6~8]利用圖方法分析DNS服務器的連接行為來檢測Camp;C通道。文獻[9~11]提取DNS或網絡流量特征,并利用機器學習或深度學習發現數據傳輸中的異常情況。文獻[12~15]分析用戶行為,以低級實體或主機為節點建立關聯圖,通過規則匹配、特征分析、惡意得分、相似度分析、攻擊重構等方法來檢測攻擊。文獻[16,17]利用機器學習分別對身份驗證特征和監測器警報來檢測和預測APT行為。文獻[18,19]利用圖方法和神經網絡相結合的方法,對同構或異構的實體建模,進行元路徑分析或圖匹配神經網絡判定異常行為。這些方法都有可取之處,但是它們沒有考慮到APT攻擊中的時序性,只是針對某一時刻的特定狀態進行實體分析或特征提取,忽略了主機或用戶在時間序列上行為模式的變化,而這種變化恰恰是攻擊者難以逃避和繞過的。
Han等人[20]建立起源圖來學習系統的正常行為,將特征歸納為直方圖,之后構建系統的執行,并使用相同步驟創建草圖進行比較以檢測攻擊。Liu等人[21]采用10條規則構造用戶行為異構圖,并挖掘入侵用戶的日常行為與平時的不同,最后使用聚類判斷日志條目數量的方式檢測異常。Shen等人[22]利用神經網絡的長期記憶來處理和預測事件,利用充足的樣本訓練來對罕見事件進行預測。上述方法注意到并分析主機或用戶時間上行為的變化,但是缺少主機之間空間性聯系的考量,這會損失許多鄰居的邊緣信息。
本文方法基于身份驗證行為檢測,APT攻擊通常伴隨著大量的身份驗證行為,這些身份驗證行為用來進行多量滲透和無聲入侵,因為一旦攻擊者廣泛地使用大量惡意代碼和軟件,IDS(入侵檢測系統)將很容易捕獲攻擊,所以,APT需要跳板和認證行為。由此,本文基于APT攻擊的時空行為來檢測受損主機。首先創建一個主機身份驗證圖,并從驗證圖中提取特征,這有助于基于異常的分析主機和用戶身份驗證行為模式。LSTM用于以天為單位提取主機用戶行為特征的抽象形式,從而自動學習主機認證行為模式的變化和相應特征的重要性。為了考慮主機間的空間聯系,本文建立了主機關聯圖,并利用GAT(graph attention network)分析相鄰節點間的影響。基于神經網絡的特征提取也避免了人工選擇特征的誤差。
1 研究方法
首先,對日志條目進行預處理,根據身份驗證關系構建主機身份驗證圖,隨后提取主機每日的身份驗證行為特征和主機特征;然后利用LSTM[23]學習和提取日志的時序性特征,即用戶的日常表現與異常行為變化;隨后建立主機關聯圖以表示主機間的空間聯系,將LSTM中學習到的時序性特征與主機特征結合起來,一種特殊的圖神經網絡GAT[24]被用來整合和考量主機與其鄰居之間的特征影響;最后,通過分類器檢查哪些屬于APT受損主機。圖1介紹了本文方法的框架,包括數據處理、圖創建、特征選擇、神經網絡搭建、異常檢測等,神經網絡是由LSTM和GAT構成的,具體細節將在本章的后續文段中介紹。
1.1 數據預處理與主機驗證圖
本文方法旨在關注主機身份驗證的異常行為。首先對身份驗證日志進行預處理。對于每條身份驗證日志條目,將其簡化并構造成四元組〈T,user,srchost,dsthost〉 ,T表示發起身份認證事件的時間,user表示發起身份驗證事件的用戶,srchost表示發起身份認證的源主機,dsthost表示接收身份認證的目標主機。本文方法構造了一個有向圖主機驗證圖G={N,E},其中N作為節點表示四元結構中的源主機或目標主機;E代表節點之間的有向邊,表示主機之間的登錄關系。如果存在源主機N1和目標主機N2的四元組,則會在N1和N2之間創建一條有向邊。無論N1和N2之間有一條或多條邊,都將這些記錄為〈T,user〉。本文方法關注主機的每日身份驗證行為,因此使用D=T/86 400處理上述信息,D表示身份驗證事件發生的日期。這表示了每天主機以及主機中的用戶間身份驗證行為是如何進行的,以便通過后續的特征提取挖掘主機的身份驗證行為模式。圖2展示了一部分四元組和主機身份驗證圖的示例,圖2中為基于四元組創建的主機身份驗證圖,圖2右側為基于天數的主機之間的用戶身份驗證時間顯示。
1.2 特征選擇
本節介紹基于主機驗證圖并作相應處理后所提取的特征。本文方法將選擇的功能分為兩部分。一部分是主機每天的身份驗證行為特征,這些特征將應用于LSTM以了解主機在一段時間內的身份驗證行為模式的變化。本文利用圖神經網絡來考慮主機節點的鄰居時,另一部分的主機特征會與LSTM訓練過的時序性特征結合起來,共同作為空間性特征的考量。特征的選取是基于已有工作進行的,這些方法中的特征提取大多是基于出度和入度的,代表著主機或用戶發起登錄和被登錄的次數。這些看似簡單的特征,經過一定的轉換和選擇,恰恰可以反映主機、用戶之間的認證習慣和模式。這種低緯度的特征,恰恰是攻擊者很難模仿和繞過的。
本文根據建立的主機關聯圖,獲取主機之間的登錄和被登錄數據,即出入度次數。這些行為本質上是由主機上的用戶完成的,用戶的登錄行為也是必須考慮的。所以本文關注主機與其他主機、用戶、特定主機上用戶的關系。特定主機上的用戶指的是同一用戶存在于不同主機上,那么同一用戶對其他主機的身份驗證行為就有了不同的含義。選擇特征的方法和論據主要參考了已有的工作[16]以及之前一些工作,如圖方法[25]和評分系統[26]中所提出的特征。特征選擇不是此次工作的重點,接下來將簡要介紹方法選擇的特征以及選擇特征的原因。
a)在攻擊的橫向移動階段,攻擊者可以使用竊取的憑據或進行多次嘗試來登錄到其他用戶和主機,這導致主機間交互的用戶數量發生變化。因此,對于每個主機,本文考慮每天發起和接受主機、用戶、主機上的用戶登錄和被登錄的用戶數。
b)攻擊者將通過暴力破解、惡意登錄等方式攻擊系統中的其他主機,這將改變主機、用戶之間的身份驗證次數。考慮到惡意事件可能隱藏在大量的良性事件中,本文計算每個主機每天針對主機進行身份驗證的平均用戶數。受損主機很難實現與受損主機之前相同的平均用戶身份驗證數量。對于每個主機,本文方法考慮發起和接受與其他用戶、主機和主機上的用戶身份驗證事件的平均數量。
c)考慮到合法用戶具有經常性登錄某一對象的特質而惡意登錄用戶只需要較少的登錄。還需要考慮用戶登錄的標準偏差,對于每個主機,該方法考慮主機、用戶發起和接受其他用戶、主機、主機上的用戶的登錄次數的標準差。
同樣地,本文用相似的方法和原因來提取主機的特征,并且考慮主機的以下特征:主機上與主機具有身份驗證關系的用戶、主機和用戶的總數。主機上所有用戶在所有天中與用戶、主機和主機上的用戶進行身份驗證的平均次數。主機上的用戶對主機上的用戶、主機和用戶的每日平均身份驗證事件數的標準偏差。特征的表示和描述如表1所示。
1.3 基于LSTM的時間特征提取
LSTM解決了傳統RNN在處理距離當前信息較長的信息時,會失去獲取先驗知識能力的問題。該算法引入了門的概念,允許信息有選擇地通過sigmoid神經層和位乘法運算,從而可以長期保存重要的信息。
LSTM的可記憶性和對于時序特征處理的能力為捕捉主機行為模式的變化提供了幫助。正常的企業、政府內主機每天的主機行為大致是規律的,而主機一旦被入侵,在后續利用盜竊的憑證繼續滲透、特權提升的特征過程中,會產生與原主機行為不同的異常行為。LSTM被用來學習主機的日常行為模式,并且捕捉異常行為產生時發生的變化和與正常行為的差距。
本文方法遵循上述特征選擇方法,基于天數提取18個主機身份驗證時間特征。對于一些沒有相應特征的主機,將其填充為0。經過歸一化后將這些特征輸入到LSTM。本文將每天的18維特征輸入LSTM進行學習,神經網絡根據當天的特征選擇記住或忘記重要和不重要的信息。帶有標簽的受損主機受到攻擊后,異常行為將被捕獲并被神經網絡記住,神經網絡將記住并學習這種變化如何使主機被標記為異常。該模型從長期依賴關系中學習正常和異常主機身份驗證行為。經過LSTM訓練決定不同特征的權重,并通過神經網絡著重記憶會引起狀態變化的異常行為,以捕捉主機行為在時序上的多天依賴性,這些抽象的行為特征成為判斷主機是否異常的重要依據。LSTM的示意圖如圖3所示。
1.4 主機關聯圖與圖神經網絡
本文使用主機關聯圖和圖神經網絡提供更多的邊緣信息來探索APT行為的空間性質。基于APT身份驗證的攻擊不是單一的、暫時的,而是持續的、連接的。在獲得主機和用戶的權限后,攻擊者將滲透至系統內其他主機,如在APT32[27]中,攻擊者利用Mimikatz工具獲取憑證來感染更多機器。所以如果一個主機與其他惡性主機有關聯,那么它作為惡性主機的概率也會增大,對于惡性主機在空間上考慮其鄰居節點的相應特征對于檢測效果的提升也是有幫助的。因此,本文建立了主機關聯圖來分析主機和其鄰居的特質,以進一步考慮主機之間的空間行為,并提高檢測的準確性。本文建立主機關聯圖來確定主機與哪些良性或惡意主機相關聯,該圖是一個有向無權圖,以主體為頂點。如果兩個主機u和v具有登錄關系,即在四元組中存在[srchost=u,dsthost=v]的主機對,則在節點u和v之間建立一條由u指向v的有向邊(u,v),主機關聯圖如圖4所示。本文方法不在主機關聯圖的邊上設計權重,因為使用圖神經網絡的目的是發現宿主與其鄰居之間的潛在影響,黑白特征的差異性是由頂點特征提供的。
圖神經網絡具有很強的解決問題的能力,可以將問題轉換成節點和圖。GNN可以建模圖節點之間的依賴關系。圖中每個節點的特征由其自身特征和其相鄰節點的特征決定。通過GNN,可以了解主機在主機關聯圖中的嵌入狀態,最終的hv通過多次迭代表示主機之間的潛在連接和交互,如式(1)所示。
hv=f(Xv,Xco[v],hne[v],Xne[v])(1)
其中:f表示局部變換函數;hv表示節點v的狀態向量;Xv表示節點v的特征向量;Xco[v]表示節點v鄰接邊的特征向量;hne[v]表示節點v鄰居節點的狀態向量;Xne[v]表示鄰居節點的特征向量。
在圖神經網絡的選擇方面,首先考慮到方法中需要處理的是有向圖,有向圖的方向性表示登錄的方向,與無向圖相比,它可以表示主機和用戶間的驗證關系。此外,本文建立的主機關聯圖統計了一段時間內的主機關聯,這將使主機的鄰居數量相對嘈雜,最好應該區分主機節點這些鄰居的影響。考慮到這一點,本文利用了一種改進的圖神經網絡GAT。這種算法不僅可以很好地處理有向圖,還提出了一種注意力機制,用于區分主機鄰居對主機狀態影響的貢獻度,即通過學習不同鄰居對主機的影響被賦予了不同的注意力參數。 這樣,一些對主機有高影響的鄰居主機如一些惡性主機的影響在嘈雜的鄰居中被放大,而影響較小的主機被忽略。GAT中注意力系數的定義如式(2)所示。
αij=exp(LeakyReLU(aT[whi‖whj]))∑k∈Niexp(LeakyReLU(aT[whi‖whk]))(2)
其中:w是權重矩陣;aT是權重向量;Ni是圖中節點i的一些鄰域。
由此,節點的狀態向量由節點及其鄰居的狀態向量和注意力參數確定,如式(3)所示。GAT不依賴于特定的網絡結構,而是依賴于相鄰節點,這適用于方法中可能面臨的多圖問題。通過GAT訓練可以輸出主機節點的最終嵌入特征。
h′i=σ(∑j∈Niαijwhj)(3)
在應用過程中,GAT的使用包括圖結構表示和特征輸入兩部分。該方法利用鄰接矩陣表示主機關聯圖,作為GAT的圖結構,即若u和v具有身份驗證關系,對于鄰接矩陣A,將A[u][v]置為1,其他的置0。 特征輸入方面,將經過LSTM時序性處理的18維特征與歸一化后的18維主機特征拼接在一起,與鄰接矩陣一同輸入至GAT中,最后得到分類結果。
1.5 神經網絡結構
如前所述,本文方法使用基于天數的主機特征輸入LSTM,并將其與標準化主機功能組合作為GAT的輸入。圖5顯示了神經網絡結構。應該注意的是,在輸出LSTM訓練的抽象特征后,沒有立即訓練圖形神經網絡。相反,神經網絡是由LSTM和圖形神經網絡連接在一起進行訓練,以便在參數更新過程中具有更好的完整性。本文方法通過交叉熵損失函數和梯度下降來更新參數,通過softmax可以得到最終的分類結果。
2 實驗評估
2.1 數據集
本文實驗的數據是基于洛斯阿拉莫斯國家實驗室(LANL)[28]收集的,該實驗室廣泛用于網絡攻擊的檢測和預測。LANL數據集包括身份驗證日志、流日志、DNS日志和進程日志。本文實驗利用了數據集中的身份驗證日志和redteam事件。LANL數據集的身份驗證日志包含超過4.5億臺主機之間58天的身份驗證事件。這些事件來自17 684個主機和12 425個用戶。同時,redteam中記錄了749 455個已確認的惡意登錄事件。實驗統計了redteam中描述的460個源主機和目標主機,并將與這些主機相關的日志條目添加到數據集中;同時,實驗還隨機選擇了一些其他主機,并將與這些主機相關的日志條目添加到數據集中,用以保持了數據的完整性和健壯性。
2.2 實驗結果和評價
關于本文方法的實驗在Python 3.5和TensorFlow 1.15.0的環境下完成。實驗包括日志數據集的預處理、主機認證圖和主機關聯圖的建立、特征的提取、神經網絡的構建和模型的訓練。本文使用準確率、召回率和F1分數來評估模型。精確率(precision rate)表示正確預測的惡意主機數占預測為惡意的主機數的比例;召回率(recall rate)表示正確預測的惡意主機數與所有實際惡意主機數的比例;F1分數(F1 score)代表精確性和召回率的加權處理,可用于以更平衡的方式衡量模型的準確性。精確率、召回率和F1分數的具體表達為
precision=TPTP+FP,recall=TPTP+FN (4)
F1=2×precision×recallprecision+recall(5)
其中:TP(真陽性)表示被識別為正常主機的正常主機數;FP(假陽性)表示被錯誤識別為正常主機的受損主機數;FN(假陰性)表示被錯誤識別為受損主機的正常主機數。
實驗部分以三種形式進行,分別討論時間和空間因素對檢測結果的影響。在實驗的第一部分僅將提取的主機特征作為網絡圖的輸入,而不考慮主機的時間特征。提取的18個主機特征和主機關聯圖的鄰接矩陣作為GAT的輸入,經過訓練和測試得到檢測結果。在實驗的第二部分僅考慮主機身份驗證行為的時序性特征,將處理58天的18維時間特征添加到LSTM中進行訓練和測試,以獲得分類結果。在第三部分中部署了本文方法的完整實驗,同時考慮了主機認證行為的時空特征。實驗中進行神經網絡的連接;在LSTM層之后,對宿主特征進行歸一化并進行特征拼接,然后一起輸入GAT得到檢測結果。實驗在精確性、召回率和F1分數的評價指標下的結果如表2所示。同時表中也給出了三次實驗在處理器為Intel Core i7-6700 CPU@3.40 GHz;RAM為16 GB,顯卡為NIVIDIA GeForce GTX 745,64位操作系統的環境下,對以2 500數目的樣本為一批次的平均檢測時間。
從實驗結果可以看出,僅使用GAT的實驗檢測結果與其他兩個實驗的檢測結果相差甚遠。原因可能是方法中提取的主機特征之間的行為差異不敏感。這些特定的主機功能需要基于時間的學習,以便準確了解主機節點的行為模式。這也證明了時間特征提取能夠發現受損主機的深層次行為特征變化,這對于在APT中發現主機的認證異常有很大幫助。僅使用LSTM所進行的實驗也取得了較好的效果,說明即使只考慮主機行為的時間特性也可以得到良好的結果,證明了使用LSTM考慮主機的時間行為可以得到主機的隱藏行為模式,以及更好地區分這些不同的行為模式。完整的實驗結果在所有指標上都取得了最好的結果,這表明同時考慮了主機行為的時間和空間特性的方法,能夠最全面地分析主機自身和主機之間的認證行為。與僅使用LSTM的實驗相比,主機間的空間性可以進一步捕捉在時序性中因為表現不明顯而錯過的邊緣信息,驗證了空間分析對于檢測結果的提升。對于時間性和空間性的分析是完全針對APT性質的,攻擊者無法通過改變某一特定攻擊手段來逃脫檢測。
在檢測時長方面,實驗結果表明使用GAT考慮主機空間特征的時間最短,LSTM考慮主機空間性的檢測時間稍長,原因在于GAT處理的空間特征僅主機在一段時間內的18維身份驗證特征,而LSTM需要分析58天多個維度的特征以及其變化。而利用LSTM和GAT考慮時空性,為兩部分神經網絡的拼接,檢測時間相對較長,但是與前兩次實驗相比檢測時間在同一數量級且相差不大,雖然在檢測時長上有所提高,但在提高檢測指標方面是可以接受的。
2.3 對比實驗
本節比較了現有使用身份驗證日志來檢測APT攻擊的工作,證明本文方法在時間和空間上考慮主機身份驗證行為的方法是有意義的,并且具有優勢。文獻[16]從認證日志和網絡流中提取特征,通過特征工程降低特征維度,并通過與各種機器學習分類器進行比較和實驗,確定基于認證日志的17個特征是最優的。在文獻[16]中,特征選擇是其重點,基于相同特征的比較是不公平的。然而,在此次實驗中的特征選擇參考了文獻[16]中的特征選擇,相比其經過實驗得出最優的17個特征選擇,本文方法在特征的選擇方面與該方法相比不是最優的,但本文方法在各種指標上取得了更好的結果。經過實驗對比和結果顯示,本文方法的精度提高了2.53%,召回率提高了為3.38%,F1成績提高了0.029。實驗結果如表3和圖6所示。
實驗表明,即使本文方法使用比文獻[16]更低級別的特征,仍然可以詳細捕獲主機之間的身份驗證行為模式,從而區分異常主機。此外,在文獻[16]中使用了大量的實驗來比較和選擇特征、機器學習模型以及如何減少特征之間的相關性。然而,所有這些選擇都是人工提取和實驗的結果,因此很難找到最優解,難以適應多變的APT特性。本文方法具有更大優勢的原因在于使用了神經網絡自動選擇特征,時間性的學習也獲得更多的隱藏信息,并將其與空間特性結合在一起。
Tireses是較早使用遞歸神經網絡檢測APT的方法。該方法提取每個主機的所有事件,并將這些事件輸入LSTM,通過LSTM的訓練來預測和確定即將發生的事件。因為該方法中使用的數據和處理方法與此次實驗完全不同。在對比實驗中,將此次實驗的日常特征作為事件本身來預測某一天主機的狀態。表3和圖6顯示了Tireses與本文方法之間的對比結果。Tiresies僅對主機事件和行為的訓練和預測,缺乏主機間的空間性考量。相比而言,本文方法在精度和F1分數方面均有進步。
對比實驗結果證明,利用神經網絡挖掘主機身份驗證行為時空性的方法在針對復雜多變的APT惡意攻擊方面有提升效果,可以對缺乏時間性或空間性考量的圖方法和機器學習方法有提升。
3 結束語
本文提出了一種基于時空特性檢測APT受損主機的方法。該方法建立了一個主機認證圖,根據天數提取主機的時間特征,并挖掘主機的行為模式;建立了一個主機關聯圖,并利用圖神經網絡來考慮主機之間的關系和影響。本文分別進行了時間、空間、時空特征的實驗,并與已有相關工作進行了對比實驗,結果證明,使用神經網絡分析時間和空間特性有利于APT的檢測。本文方法只關注主機的認證行為,沒有考慮使用惡意代碼和軟件對系統的惡意攻擊,因此也需要進一步改進。未來工作還應該考慮增加對惡意軟件的檢測,這有助于建立完整的攻擊鏈。本文方法相對依賴于強大的信息支持,在算法的實時性和效率方面也需改進。
參考文獻:
[1]Alshamrani A,Myneni S,Chowdhary A,et al.A survey on advanced persistent threats:techniques,solutions,challenges,and research opportunities[J].IEEE Communications Surveys amp; Tutorials,2019,21(2):1851-1877.
[2]Ferrer Z,Ferrer M C.In-depth analysis of Hydraq[EB/OL].(2013-10-15).https://www.docin.com/p-711775576.html.
[3]McAfee Foundstone Professional Services and McAfee Labs.Global energy cyberattacks:“Night Dragon”[EB/OL].(2013-09-21).https://www.mcafee.com/wp-content/uploads/2011/02/McAfee_NightDragon_wp_draft_to_customersv1-1.pdf.
[4]Harlan C.Where you AT? Indicators of lateral movement using at.exe on Windows 7 systems[EB/OL](2014)[2021-01-30].https://www.secureworks.com/blog/where-you-at-indicators-of-lateral-movement-using-at-exe-on-windows-7-systems.
[5]Johnson A L.Iran-based attackers use back door threats to spy on Middle Eastern targets[EB/OL].(2015)[2021-01-30].https://community.broadcom.com/symantecenterprise/communities/community-home/librarydocuments/viewdocument?DocumentKey=4eccc5e0-b5f3-44fe-bc5c-81eaf95f2118amp;CommunityKey=1ecf5f55-9545-44d6-b0f4-4e4a7f5f5e68amp;tab=librarydocuments.
[6]Rahbarinia B,Perdisci R,Antonakakis M.Efficient and accurate behavior-based tracking of malware-control domains in large ISP networks[J].ACM Trans on Privacy amp; Security,2016,19(2):1-31.
[7]Zhauniarovich Y,Khalil I,Yu Ting,et al.A survey on malicious domains detection through DNS data analysis[J].ACM Computing Surveys,2018,51(4):1-36.
[8]Shi Yong,Chen Gong,Li Juntao.Malicious domain name detection based on extreme machine learning[J].Neural Processing Letters,2018,48(3):1347-1357.
[9]Manasrah A M,Domi W B,Suppiah N N.Botnet detection based on DNS traffic similarity[J].International Journal of Advanced Intelligence Paradigms,2020,15(4):357-387.
[10]Lee J,Lee H.GMAD:graph-based malware activity detection by DNS traffic analysis[J].Computer Communications,2014,49:33-47.
[11]方圓,李明,王萍,等.基于混合卷積神經網絡和循環神經網絡的入侵檢測模型[J].計算機應用,2018,38(10):2903-2907,2917.(Fang Yuan,Li Ming,Wang Ping,et al.Intrusion detection model based on hybrid convolutional neural network and recurrent neural network[J].Journal of Computer Application,2018,38(10):2903-2907,2917.)
[12]Milajerdi S M,Gjomemo R,Eshete B,et al.HOLMES:real-time APT detection through correlation of suspicious information flows[C]//Proc of IEEE Symposium on Security and Privacy.Piscataway,NJ:IEEE Press,2019:1137-1152.
[13]賴建華,唐敏.用戶異常行為分析方法研究與應用[J].軟件導刊,2019,18(8):181-185.(Lai Jianhua,Tang Min.Research and application of user abnormal behavior analysis method[J].Software Guide,2019,18(8):181-185.)
[14]Pei Kexin,Gu Zhongshu,Saltaformaggio B,et al.Hercule:attack story reconstruction via community discovery on correlated log graph[C]//Proc of the 32nd Annual Conference on Computer Security Applications.2016:583-595.
[15]Powell B A.Detecting malicious logins as graph anomalies[J].Journal of Information Security and Applications,2020,54:102557.
[16]Bian Haibo,Bai T,Salahuddin M A,et al.Host in danger? Detecting network intrusions from authentication logs[C]//Proc of the 15th International Conference on Network and Service Management.2019:1-9.
[17]Ghafir I,Hammoudeh M,Prenosil V,et al.Detection of advanced persistent threat using machine-learning correlation analysis[J].Future Generation Computer Systems,2018,89:349-359.
[18]Bowman B,Laprade C,Ji Yuede,et al.Detecting lateral movement in enterprise computer networks with unsupervised graph AI[C]//Proc of the 23rd International Symposium on Research in Attacks,Intrusions and Defenses.2020:257-268.
[19]Wang Shen,Chen Zhengzhang,Yu Xiao,et al.Heterogeneous graph matching networks[EB/OL].(2019-10-17).https://arxiv.org/abs/1910.08074.
[20]Han Xueyuan,Pasquier T,Bates A,et al.UNICORN:runtime provenance-based detector for advanced persistent threats[EB/OL].(2020-01-06).https://arxiv.org/abs/2001.01525.
[21]Liu Fucheng,Wen Yu,Zhang Dongxue,et al.log2vec:a hetero-geneous graph embedding based approach for detecting cyber threats within enterprise[C]//Proc of ACM SIGSAC Conference on Compu-ter and Communications Security.New York:ACM Press,2019:1777-1794.
[22]Shen Yun,Mariconti E,Vervier P A,et al.Tiresias:predicting security events through deep learning[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security.2018:592-605.
[23]Graves A,Mohamed A,Hinton G.Speech recognition with deep recurrent neural networks[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.2013:6645-6649.
[24]Velicˇkovic′ P,Cucurull G,Casanova A,et al.Graph attention networks[EB/OL].(2017-10-30).https://arxiv.org/abs/1710.10903.
[25]Powell B A.Detecting malicious logins as graph anomalies[J].Journal of Information Security and Applications,2020,54(10):102557.
[26]Bohara A,Noureddine M A,Fawaz A,et al.An unsupervised multi-detector approach for identifying malicious lateral movement[C]//Proc of the 36th Symposium on Reliable Distributed Systems.Piscataway,NJ:IEEE Press,2017:224-233.
[27]Dahan A.Operation cobalt Kitty:a large-scale APT in Asia carried out by the OceanLotus Group[EB/OL].(2017)[2021-01-30].https://www.cybereason.com/blog/operation-cobalt-kitty-apt.
[28]Kent A D.Cyber security data sources for dynamic network research[M]//Adams N,Heard N.Dynamic Networks and Cyber-Security.[S.l.]:World Scientific,2016:37-65.