999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的用戶與實(shí)體行為分析技術(shù)綜述

2022-02-24 05:06:12崔景洋陳振國田立勤張光華
計(jì)算機(jī)工程 2022年2期
關(guān)鍵詞:監(jiān)督分析檢測(cè)

崔景洋,陳振國,田立勤,張光華

(1.河北科技大學(xué) 信息科學(xué)與工程學(xué)院,石家莊 050018;2.北京天融信網(wǎng)絡(luò)安全技術(shù)有限公司,北京 100085;3.華北科技學(xué)院河北省物聯(lián)網(wǎng)監(jiān)控工程技術(shù)研究中心,河北廊坊 065201)

0 概述

隨著計(jì)算機(jī)與網(wǎng)絡(luò)的快速發(fā)展,機(jī)器學(xué)習(xí)技術(shù)在人們的生活與工作中起著越來越重要的作用,并在興趣推薦[1-2]、人臉識(shí)別[3]、路徑規(guī)劃[4]等領(lǐng)域得到廣泛應(yīng)用。然而,機(jī)器學(xué)習(xí)技術(shù)在給人們生活帶來便利的同時(shí)也產(chǎn)生了一系列風(fēng)險(xiǎn)問題,例如,信息的過度分析使得人們的生活日益透明化,計(jì)算機(jī)視覺技術(shù)的廣泛應(yīng)用使得圖片驗(yàn)證碼防御作用下降等[5]。一方面,計(jì)算機(jī)性能的增強(qiáng)以及技術(shù)的不斷發(fā)展使得網(wǎng)絡(luò)攻擊者的攻擊方式更加成熟、趨于隱蔽,難以通過傳統(tǒng)威脅檢測(cè)系統(tǒng)進(jìn)行檢測(cè)與防御[6]。另一方面,網(wǎng)絡(luò)流量數(shù)據(jù)、設(shè)備日志數(shù)據(jù)量快速增長也提高了對(duì)檢測(cè)性能的要求[7]。

為更好地檢測(cè)潛在威脅并及時(shí)準(zhǔn)確地發(fā)現(xiàn)安全問題,用戶與實(shí)體行為分析(User and Entity Behavior Analytics,UEBA)技術(shù)應(yīng)運(yùn)而生,在用戶行為分析(User and Behavior Analytics,UBA)以及安全信息和事件管理(Security Information and Event Management,SIEM)的基礎(chǔ)上發(fā)展而來[8],是一種針對(duì)內(nèi)外網(wǎng)威脅進(jìn)行分析并通過多維度對(duì)系統(tǒng)所面臨的風(fēng)險(xiǎn)進(jìn)行綜合評(píng)價(jià)的威脅檢測(cè)方法[9],其中增加的實(shí)體(Entity)概念強(qiáng)調(diào)了設(shè)備行為在網(wǎng)絡(luò)攻擊與威脅檢測(cè)中的作用。與傳統(tǒng)檢測(cè)方法相比,UEBA 進(jìn)一步提高了威脅檢測(cè)的精度與效率,增加了風(fēng)險(xiǎn)判斷的表述功能,有利于系統(tǒng)發(fā)現(xiàn)未知風(fēng)險(xiǎn),增強(qiáng)系統(tǒng)安全性[10]。

根據(jù)用戶和實(shí)體行為建立基線,找出用戶以及實(shí)體的異常行為,不僅可以實(shí)現(xiàn)企業(yè)內(nèi)部行為檢測(cè),還可以解決外部網(wǎng)絡(luò)安全問題[11]。因此,用戶與實(shí)體行為分析技術(shù)已被廣泛應(yīng)用于企業(yè)內(nèi)部行為分析[12]、主機(jī)入侵檢測(cè)[10,13]、用戶畫像研究[14-15]、復(fù)雜行為建模[16]、推薦系統(tǒng)[17-18]等任務(wù)。本文從統(tǒng)計(jì)學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等3 個(gè)角度出發(fā)對(duì)機(jī)器學(xué)習(xí)在用戶與實(shí)體行為分析技術(shù)中的研究與應(yīng)用進(jìn)行介紹,并討論相關(guān)分析方法的局限性與發(fā)展趨勢(shì)。

1 用戶與實(shí)體行為分析

用戶與實(shí)體行為分析由Gartner公司[19]于2015年在《Market Guide for User and Entity Behavior Analytics》調(diào)查報(bào)告中提出,該報(bào)告詳細(xì)介紹了UEBA 的定義、使用范圍、應(yīng)用意義等。UEBA 是一類用來追蹤監(jiān)視用戶、IP 地址、主機(jī)等異常行為的模型,可以通過行為的上下文關(guān)聯(lián)進(jìn)行潛在惡意活動(dòng)分析[9]。與SIEM 和UBA 相比,UEBA 覆蓋的分析范圍更廣,利用的數(shù)據(jù)種類更多,三者在不同角度的對(duì)比情況如表1 所示。

表1 SIEM、UBA 和UEBA 的對(duì)比Table 1 Comparison of SIEM,UBA and UEBA

自20 世紀(jì)90 年代以來,學(xué)者們就開始分析用戶的網(wǎng)絡(luò)行為[20],由于當(dāng)時(shí)攻擊手段單一、檢測(cè)能力有限,因此威脅檢測(cè)的目標(biāo)多以實(shí)時(shí)防御為主[21]、手段多以專家經(jīng)驗(yàn)所轉(zhuǎn)換的識(shí)別邏輯檢測(cè)為主[22]、結(jié)果多以“正?!焙汀爱惓!眱煞N狀態(tài)為主。之后,新的攻擊方式不斷增加、新的威脅類型不斷出現(xiàn),傳統(tǒng)方法在面對(duì)新威脅時(shí)的檢測(cè)效果有限,學(xué)者們開始使用進(jìn)化算法識(shí)別未知威脅[23]。21 世紀(jì)初期,支持向量機(jī)(Support Vector Machine,SVM)得到了快速發(fā)展與廣泛流行,作為傳統(tǒng)機(jī)器學(xué)習(xí)算法的里程碑,該算法衍化出一系列變種形式[24],在威脅檢測(cè)方面也有不錯(cuò)的效果。目前,行為分析與入侵檢測(cè)方法多數(shù)屬于人工智能范疇,以傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法為主。隨著設(shè)備算力的提高與深度學(xué)習(xí)的發(fā)展,學(xué)者們開始廣泛采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行檢測(cè),以深度學(xué)習(xí)為主的檢測(cè)方法在未來的研究中可能會(huì)成為主流。此外,知識(shí)圖譜等復(fù)雜數(shù)據(jù)類型在攻擊路徑方面有較強(qiáng)的表述能力,因此也有一部分學(xué)者使用知識(shí)圖譜進(jìn)行入侵檢測(cè)研究[25]。整個(gè)UEBA 技術(shù)的發(fā)展歷程呈現(xiàn)由簡單到復(fù)雜的趨勢(shì),各個(gè)發(fā)展階段中具有一定代表性的研究成果如圖1 所示。

圖1 UEBA 發(fā)展趨勢(shì)圖Fig.1 Development trend chart of UEBA

UEBA 的分析對(duì)象包括用戶行為與實(shí)體行為。用戶行為指的是用戶在終端設(shè)備的操作[26],例如使用應(yīng)用程序、與數(shù)據(jù)的交互、點(diǎn)擊行為、鼠標(biāo)移動(dòng)、執(zhí)行命令行語句等。實(shí)體行為主要指無法與真實(shí)用戶產(chǎn)生直接關(guān)聯(lián)的行為[27],例如某些APP 自身的運(yùn)行日志、病毒木馬的動(dòng)作記錄以及一些高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)[28]的行為軌跡等。

根據(jù)行為產(chǎn)生路徑與方向的不同,UEBA 的研究內(nèi)容主要包含內(nèi)部威脅分析及外部入侵檢測(cè)兩個(gè)方面。內(nèi)部威脅分析主要解決企業(yè)內(nèi)部違規(guī)操作所引起的安全問題,從內(nèi)向外所延展出的異常事件復(fù)雜多變的形式是內(nèi)部行為分析中的研究難點(diǎn),對(duì)于員工行為進(jìn)行分析、發(fā)現(xiàn)其中的異常點(diǎn),可以降低企業(yè)風(fēng)險(xiǎn),提高企業(yè)管理效率,避免從內(nèi)部產(chǎn)生攻擊。外部入侵檢測(cè)同樣也是UEBA 技術(shù)中不可或缺的一環(huán),例如防火墻(Firewall)、入侵檢測(cè)系統(tǒng)(Intrusion Detection System,IDS)、入侵防御系統(tǒng)(Intrusion Prevention System,IPS)以及Web 應(yīng)用防火墻(Web Application Firewall,WAF)等[29],這幾種外部檢測(cè)方法是目前各研究領(lǐng)域的熱點(diǎn),在實(shí)際應(yīng)用中均有不錯(cuò)效果。

2 基于統(tǒng)計(jì)學(xué)習(xí)的UEBA 技術(shù)

本節(jié)將討論統(tǒng)計(jì)學(xué)習(xí)方法在UEBA 技術(shù)中的應(yīng)用。統(tǒng)計(jì)學(xué)習(xí)是基于統(tǒng)計(jì)方法對(duì)數(shù)據(jù)規(guī)律進(jìn)行總結(jié)的一種關(guān)鍵技術(shù),根據(jù)類別標(biāo)簽的使用方式不同,統(tǒng)計(jì)學(xué)習(xí)由監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等研究類別組成[30],其中:監(jiān)督學(xué)習(xí)指的是使用帶有類別標(biāo)簽的數(shù)據(jù)進(jìn)行模型建立的過程,主要用于解決分類、回歸等問題[31];無監(jiān)督學(xué)習(xí)是指有數(shù)據(jù)但沒有標(biāo)簽的情況,主要應(yīng)用于聚類分析、異常值檢測(cè)等任務(wù)[32];半監(jiān)督學(xué)習(xí)是指訓(xùn)練數(shù)據(jù)中只含有小部分標(biāo)簽,根據(jù)實(shí)際情況在醫(yī)療診斷、物聯(lián)網(wǎng)設(shè)備分析、工業(yè)故障分析、流量異常檢測(cè)等領(lǐng)域中[33]有廣泛應(yīng)用。

2.1 基于有監(jiān)督統(tǒng)計(jì)學(xué)習(xí)的UEBA 技術(shù)

監(jiān)督學(xué)習(xí)的建模過程一般是構(gòu)建預(yù)測(cè)器的過程。監(jiān)督學(xué)習(xí)使用帶有已知的類別標(biāo)簽訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型建立完成后再對(duì)待檢測(cè)樣本進(jìn)行預(yù)測(cè),無論是對(duì)于離散變量的分類還是對(duì)于連續(xù)變量的回歸,都需要模型給出一個(gè)預(yù)測(cè)值。監(jiān)督學(xué)習(xí)的代表算法有KNN、SVM、邏輯斯諦回歸、線性回歸、決策樹等[34],在UEBA 中,基于監(jiān)督學(xué)習(xí)的算法可以根據(jù)先驗(yàn)數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,并對(duì)新樣本進(jìn)行預(yù)測(cè),從而判斷新樣本的異常程度或者對(duì)新樣本按照不同的攻擊類型進(jìn)行多分類和二分類。

基于規(guī)則的檢測(cè)方法在入侵檢測(cè)系統(tǒng)中具有廣泛應(yīng)用。文獻(xiàn)[35]根據(jù)經(jīng)驗(yàn)設(shè)計(jì)檢測(cè)邏輯對(duì)SQL 注入行為進(jìn)行檢測(cè),模型利用SQL 語句規(guī)范來定義Web 應(yīng)用程序生成和執(zhí)行SQL 查詢時(shí)預(yù)期的語法結(jié)構(gòu),建立SQL 語句有效性檢測(cè)模塊,并使用事件監(jiān)控模塊檢測(cè)違反規(guī)范的查詢行為,符合預(yù)期結(jié)構(gòu)的語句才能正常在數(shù)據(jù)庫內(nèi)執(zhí)行,實(shí)時(shí)檢測(cè)SQL 注入攻擊。之后將檢測(cè)的結(jié)果記錄到日志中以便后續(xù)檢測(cè)過程中檢測(cè)結(jié)構(gòu)的建立,其中準(zhǔn)確率(Accuracy)和召回率(Recall)達(dá)到100%,具體的檢測(cè)過程如圖2所示。

圖2 通過人工經(jīng)驗(yàn)轉(zhuǎn)換的規(guī)則檢測(cè)SRL 注入語句的流程Fig.2 Procedure of detecting SRL injection sentences through the rules of human experience conversion

文獻(xiàn)[36]研究無人機(jī)(Unmanned Aerial Vehicles,UAV)的安全問題,根據(jù)無線數(shù)據(jù)攻擊的鏈路特征以及其他影響因素建立攻擊檢測(cè)規(guī)則,增強(qiáng)了無人機(jī)系統(tǒng)的安全性,其準(zhǔn)確率為97.4%。文獻(xiàn)[37]建立基于預(yù)定義事件簽名的Web 應(yīng)用入侵檢測(cè)系統(tǒng),通過簽名知識(shí)庫進(jìn)行行為分析與異常檢測(cè)。但上述基于規(guī)則的檢測(cè)方法難以應(yīng)對(duì)未知威脅,不能夠?qū)ο鄳?yīng)的系統(tǒng)進(jìn)行動(dòng)態(tài)防護(hù)[38]。

回歸方法在檢測(cè)過程中多應(yīng)用于連續(xù)異常值的檢測(cè),大部分帶有時(shí)序性特征。文獻(xiàn)[39]對(duì)用戶的登錄時(shí)間、登錄間隔、在線時(shí)長、會(huì)話時(shí)長等行為特征進(jìn)行回歸分析,建立用戶習(xí)慣畫像進(jìn)行異常識(shí)別并及時(shí)調(diào)整網(wǎng)絡(luò)負(fù)載。學(xué)者們還使用3σ 準(zhǔn)則、自回歸(Autoregressive,AR)模 型、自回歸移動(dòng)平 均(Autoregressive Moving Average,ARMA)模 型等[40]將歷史行為基線與預(yù)測(cè)值進(jìn)行比較,如果預(yù)測(cè)值與行為基線相差較大,則會(huì)被標(biāo)注為異常值。

針對(duì)有類別標(biāo)記的行為數(shù)據(jù),可以直接使用算法構(gòu)建模型。文獻(xiàn)[41]使用KNN 算法對(duì)用戶行為數(shù)據(jù)進(jìn)行分析,建立針對(duì)“偽裝者”數(shù)據(jù)的分類模型。監(jiān)督學(xué)習(xí)算法的性能瓶頸在于訓(xùn)練數(shù)據(jù)集中類別標(biāo)簽的正確率,由于很多數(shù)據(jù)集樣本的標(biāo)簽都已經(jīng)固定,因此一些學(xué)者也采用多算法結(jié)合的方式提升異常檢測(cè)的正確率。文獻(xiàn)[42]基于KNN 構(gòu)建一種云環(huán)境下的入侵檢測(cè)系統(tǒng),該系統(tǒng)參考了智能體(Agent)與聚類算法的特性提高了入侵檢測(cè)的效率,系統(tǒng)的準(zhǔn)確率與召回率分別為92.23%與88.07%,在實(shí)際應(yīng)用中取得了不錯(cuò)的效果。此外,決策樹算法的檢測(cè)方式簡單、邏輯清晰、可解釋性強(qiáng),也大范圍應(yīng)用于異常檢測(cè)領(lǐng)域[43]。為減少建模時(shí)間,提升模型檢測(cè)效 果,文 獻(xiàn)[44]使 用SMOTE(Synthetic Minority Oversampling Technique)采樣方法對(duì)高度不平衡的數(shù)據(jù)進(jìn)行預(yù)處理,之后分別使用Hellinger距離以及K-L 散度對(duì)構(gòu)造過程進(jìn)行改進(jìn),建立了惰性決策樹(LazyDT)提高算法性能。

基于監(jiān)督學(xué)習(xí)的行為分析與異常檢測(cè)的優(yōu)勢(shì)在于可以使用先驗(yàn)知識(shí)進(jìn)行建模,在從一定程度上提高了檢測(cè)精度,但檢測(cè)流程過于依賴樣本標(biāo)簽。在實(shí)際應(yīng)用中:一方面,樣本標(biāo)簽的質(zhì)量會(huì)對(duì)檢測(cè)模型的構(gòu)建起到非常大的影響;另一方面,對(duì)數(shù)據(jù)樣本進(jìn)行標(biāo)注同樣也會(huì)消耗大量人力成本與時(shí)間成本。因此,在使用監(jiān)督學(xué)習(xí)算法建立異常識(shí)別模型時(shí),還需要注意在建模過程中訓(xùn)練成本與檢測(cè)效率之間的平衡問題。

2.2 基于無監(jiān)督統(tǒng)計(jì)學(xué)習(xí)的UEBA 技術(shù)

在實(shí)際入侵檢測(cè)與行為分析中,數(shù)據(jù)在產(chǎn)生時(shí)往往并不帶有標(biāo)簽,而采用一些方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)注會(huì)耗費(fèi)一定的資源。無監(jiān)督學(xué)習(xí)可以從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)一定的規(guī)律,并使用這些規(guī)律對(duì)新數(shù)據(jù)進(jìn)行分析。無監(jiān)督學(xué)習(xí)的代表算法有K 均值(K-Means)、基于密度的聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、主成分分 析(Principal Component Analysis,PCA)等[45]。在UEBA中使用聚類等無監(jiān)督學(xué)習(xí)方法進(jìn)行威脅識(shí)別時(shí),一般會(huì)對(duì)大部分?jǐn)?shù)據(jù)樣本的代表性特征進(jìn)行學(xué)習(xí),并根據(jù)數(shù)據(jù)自身的特性進(jìn)行分類,最終針對(duì)偏離群體的數(shù)據(jù)樣本進(jìn)行分析,判斷其是否為異常點(diǎn)。近年來,各種類型的網(wǎng)絡(luò)設(shè)備與數(shù)量均呈現(xiàn)增長趨勢(shì),所產(chǎn)生的海量數(shù)據(jù)難以標(biāo)記,因此無監(jiān)督威脅檢測(cè)算法的研究是未來的重點(diǎn)之一。

K 均值算法的訓(xùn)練速度快、可解釋性強(qiáng),廣泛用于異常識(shí)別。文獻(xiàn)[46]基于K 均值算法構(gòu)建一種多層次入侵檢測(cè)模型,通過分批進(jìn)行小規(guī)模訓(xùn)練的方式減少模型的迭代時(shí)間,借鑒支持向量機(jī)的思想來優(yōu)化檢測(cè)流程,準(zhǔn)確率為95.75%,F(xiàn)PR 為1.87%,取得了不錯(cuò)的效果。文獻(xiàn)[47]基于K 均值算法按照特征對(duì)流量數(shù)據(jù)進(jìn)行分組,在調(diào)參的同時(shí)盡可能地保留分組信息,該方法可以顯著降低訓(xùn)練模型所需的特征數(shù)從而提高檢測(cè)效率,其準(zhǔn)確率達(dá)到了99.73%。與K 均值算法相比,DBSCAN 算法不僅更適合識(shí)別不規(guī)則形狀的聚類簇,還能在一定程度上減少噪聲數(shù)據(jù)在建模過程中的干擾[48]。文獻(xiàn)[49]構(gòu)建一種自適應(yīng)DBSCAN 算法,該算法首先分析流量數(shù)據(jù)的特征值,之后對(duì)聚類簇內(nèi)數(shù)據(jù)與噪聲數(shù)據(jù)分別進(jìn)行處理,并建立對(duì)應(yīng)的余弦相似性計(jì)算過程。該處理方式降低了噪聲數(shù)據(jù)對(duì)于模型準(zhǔn)確度的影響,增強(qiáng)了模型的魯棒性。由于采取了對(duì)噪聲值單獨(dú)處理的建模思路,因此該模型可以更加細(xì)致地檢測(cè)出隱蔽的DoS 攻擊,其準(zhǔn)確率達(dá)到了99.96%,具體建模過程如圖3 所示。

圖3 通過對(duì)簇內(nèi)數(shù)據(jù)與噪聲數(shù)據(jù)分別建模檢測(cè)異常的流程Fig.3 Procedure of anomaly detection through modeling for data in cluster and noise data respectively

在實(shí)際異常檢測(cè)過程中,有時(shí)不需要獲得確定性的聚類結(jié)果。對(duì)用戶及實(shí)體行為進(jìn)行模糊聚類[50],可以使得一個(gè)實(shí)體包含在若干聚類簇內(nèi),從一定程度上可以避免遺漏異常行為,降低了異常檢測(cè)算法的漏報(bào)率。主成分分析方法主要用于建模前數(shù)據(jù)的降維處理,文獻(xiàn)[51]使用PCA 算法處理了數(shù)據(jù)庫操作行為日志,降低了行為數(shù)據(jù)維度,提高了建模速度。同時(shí),主成分分析也可以直接用于異常檢測(cè),文獻(xiàn)[52]設(shè)計(jì)一種基于PCA 算法的無監(jiān)督自動(dòng)化異常檢測(cè)方法,通過計(jì)算降維后源空間與低維空間映射點(diǎn)的直接距離,檢測(cè)主機(jī)操作日志映射過程失衡的情況,進(jìn)行異常點(diǎn)的判斷。

隨著設(shè)備數(shù)據(jù)產(chǎn)出量的不斷擴(kuò)大,樣本的標(biāo)記工作也變得愈發(fā)困難,基于無監(jiān)督的異常檢測(cè)方法在UEBA 研究領(lǐng)域?qū)⒊蔀闊狳c(diǎn)方向,無監(jiān)督算法可以減少數(shù)據(jù)樣本對(duì)標(biāo)簽的依賴,一方面可以降低類別標(biāo)注的成本,另一方面能從未被標(biāo)簽束縛的樣本中學(xué)到新規(guī)則,解決一定的未知風(fēng)險(xiǎn)識(shí)別問題。但不足之處在于無監(jiān)督學(xué)習(xí)算法往往都需要大量的計(jì)算資源,如何降低計(jì)算開銷解決大規(guī)模數(shù)據(jù)處理問題,是無監(jiān)督異常檢測(cè)算法一個(gè)重要的研究方向。

2.3 基于半監(jiān)督統(tǒng)計(jì)學(xué)習(xí)的UEBA 技術(shù)

半監(jiān)督學(xué)習(xí)因其所使用的訓(xùn)練數(shù)據(jù)只含有部分標(biāo)簽,所以名為半監(jiān)督學(xué)習(xí)[53]。盡管對(duì)每條網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行標(biāo)注需要付出一定的代價(jià),但在各網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)探針或者監(jiān)測(cè)系統(tǒng)中獲得少部分帶有標(biāo)簽的數(shù)據(jù)相對(duì)比較容易。半監(jiān)督學(xué)習(xí)能夠?qū)⑸倭繋?biāo)簽與大量無標(biāo)簽數(shù)據(jù)相結(jié)合構(gòu)成訓(xùn)練集完成建模過程,通常半監(jiān)督學(xué)習(xí)可以獲得比無監(jiān)督聚類更好的檢測(cè)效果[54]。半監(jiān)督學(xué)習(xí)算法包括半監(jiān)督聚類、半監(jiān)督分類、半監(jiān)督降維、半監(jiān)督集成等算法[55]。在UEBA 中半監(jiān)督算法可以在一定程度上解決實(shí)際流量數(shù)據(jù)、行為數(shù)據(jù)異常樣本與正常樣本的不平衡分布問題,比較適合應(yīng)用于當(dāng)前形勢(shì)下的工業(yè)安全防御體系。

聚類作為異常檢測(cè)的主要手段在現(xiàn)階段研究中占有較大比重,半監(jiān)督聚類是無監(jiān)督聚類的升級(jí)版本,結(jié)合有監(jiān)督與無監(jiān)督學(xué)習(xí)過程的優(yōu)勢(shì),優(yōu)化異常檢測(cè)與行為分析的效果。文獻(xiàn)[56]提出一種基于協(xié)同聚類的半監(jiān)督DDoS 檢測(cè)算法,該算法中無監(jiān)督的部分可以剔除與DDoS 檢測(cè)無關(guān)的流量數(shù)據(jù),從而減少誤報(bào)率,提高準(zhǔn)確性,最終準(zhǔn)確率為98.23%、FPR 為0.33%。文獻(xiàn)[57]提出一種基于K-Means 的半監(jiān)督算法,該算法能夠通過改進(jìn)聚類初始中心的選擇解決孤立點(diǎn)和局部最優(yōu)的問題,優(yōu)化DDoS 檢測(cè)的結(jié)果,其準(zhǔn)確率為99.68%,效果優(yōu)于文獻(xiàn)[56]的檢測(cè)模型。半監(jiān)督分類同樣也有不少研究成果,文獻(xiàn)[58]設(shè)計(jì)一種半監(jiān)督支持向量機(jī),可以充分利用未標(biāo)記樣本數(shù)據(jù)的潛在信息,優(yōu)化分類過程,最終構(gòu)建在線分類器。在實(shí)際威脅檢測(cè)與行為分析中,由于數(shù)據(jù)樣本的維度過高,通常需要將特征降維后再進(jìn)行建模,針對(duì)不平衡樣本分布情況,可以使用文獻(xiàn)[59]提出的降維算法,專門應(yīng)對(duì)稀疏樣本問題,該算法通過保留矩陣局部投影的方式處理未標(biāo)記信息,之后再對(duì)其他未標(biāo)記信息進(jìn)行處理,分析其K 近鄰的幾何結(jié)果,適合異常檢測(cè)問題的數(shù)據(jù)處理。除此之外,半監(jiān)督集成也是當(dāng)前的一個(gè)研究熱點(diǎn)[60],可以先將未標(biāo)記的樣本通過自我訓(xùn)練的方式組成若干小的分類器,之后將這些小分類器集成為一個(gè)整體進(jìn)行預(yù)測(cè),解決了標(biāo)記樣本數(shù)據(jù)過少的問題。

無論是對(duì)于企業(yè)內(nèi)部用戶行為分析還是外部入侵檢測(cè),最大的問題仍然是數(shù)據(jù)樣本難以標(biāo)注。與監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)標(biāo)注比例沒有特定要求;與同一算法的無監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)往往能取得更好的檢測(cè)效果。但由于樣本標(biāo)簽的特殊性,半監(jiān)督學(xué)習(xí)需要更復(fù)雜的處理流程與更長的訓(xùn)練時(shí)間。此外,在半監(jiān)督算法的設(shè)計(jì)過程中,一般都只針對(duì)一種類型的問題進(jìn)行優(yōu)化,同一個(gè)半監(jiān)督算法難以推廣到其他應(yīng)用場(chǎng)景。例如,文獻(xiàn)[56-57]均專門針對(duì)DDoS 場(chǎng)景進(jìn)行設(shè)計(jì),不能檢測(cè)其他類型的威脅或者異常情況。

2.4 統(tǒng)計(jì)學(xué)習(xí)模型性能對(duì)比及分析

基于統(tǒng)計(jì)學(xué)習(xí)方法對(duì)內(nèi)部人員進(jìn)行行為分析、外部網(wǎng)絡(luò)異常進(jìn)行檢測(cè)的技術(shù)手段發(fā)展比較成熟,側(cè)重點(diǎn)在于根據(jù)樣本標(biāo)注進(jìn)行各類別數(shù)據(jù)中的規(guī)律學(xué)習(xí),在計(jì)算效率與計(jì)算結(jié)果的可解釋性方面要優(yōu)于深度學(xué)習(xí)方法。由于訓(xùn)練過程較為清晰,因此異常行為鏈的全過程呈現(xiàn)方面與深度學(xué)習(xí)相比具有較大的優(yōu)勢(shì)。表2給出了部分統(tǒng)計(jì)學(xué)習(xí)算法的對(duì)比情況,其中:N/A 表示原文獻(xiàn)未體現(xiàn)相關(guān)指標(biāo);性能評(píng)價(jià)數(shù)據(jù)來自原文獻(xiàn),可能存在實(shí)驗(yàn)環(huán)境及參數(shù)的不同。基于傳統(tǒng)機(jī)器學(xué)習(xí)的異常檢測(cè)多為二分類算法,即判斷一個(gè)樣本是否為異常樣本。相較多分類任務(wù),二分類任務(wù)在模型訓(xùn)練成本以及預(yù)測(cè)準(zhǔn)確度評(píng)價(jià)方面具有一定優(yōu)勢(shì),因此在整體性能表現(xiàn)上要優(yōu)于深度學(xué)習(xí)方法。

表2 部分統(tǒng)計(jì)學(xué)習(xí)算法的性能評(píng)價(jià)對(duì)比Table 2 Comparison of performance evaluation of some statistical learning algorithms

在實(shí)際應(yīng)用中,樣本標(biāo)注仍然是當(dāng)前所面臨的主要問題之一。對(duì)于有監(jiān)督學(xué)習(xí)而言,盡管可以通過設(shè)置合適的參數(shù)、選取恰當(dāng)?shù)哪P偷确椒ǖ玫讲诲e(cuò)的模型表現(xiàn),甚至能夠達(dá)到100%的預(yù)測(cè)準(zhǔn)確率,但只局限于實(shí)驗(yàn)環(huán)境。在企業(yè)應(yīng)用中由于樣本標(biāo)注成本問題,半監(jiān)督學(xué)習(xí)在未來會(huì)更具發(fā)展前景。

3 基于深度學(xué)習(xí)的UEBA 技術(shù)

以往神經(jīng)網(wǎng)絡(luò)受限于計(jì)算能力不足,應(yīng)用范圍不如統(tǒng)計(jì)學(xué)習(xí)方法廣泛,但自從21 世紀(jì)初設(shè)備算力逐步提高,神經(jīng)網(wǎng)絡(luò)的研究取得了革命性進(jìn)展,尤其在最近10 年間,對(duì)于神經(jīng)網(wǎng)絡(luò)的研究與使用成為當(dāng)下最主流的研究方向之一。深度學(xué)習(xí)通過神經(jīng)網(wǎng)絡(luò)從連續(xù)的神經(jīng)層中學(xué)習(xí)參數(shù),構(gòu)建預(yù)測(cè)模型。深度學(xué)習(xí)與傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法在特征與權(quán)重的處理方式上有著明顯不同,尤其神經(jīng)網(wǎng)絡(luò)非線性權(quán)重模型在特征選擇方面表現(xiàn)優(yōu)異。隨著當(dāng)前安全數(shù)據(jù)規(guī)模的不斷擴(kuò)大,特征的種類也變得越來越多,傳統(tǒng)機(jī)器學(xué)習(xí)手段在進(jìn)行復(fù)雜特征選擇方面的優(yōu)勢(shì)不足,而深度學(xué)習(xí)方法可以進(jìn)行自動(dòng)特征選擇,更適合目前的情況。在實(shí)際應(yīng)用中,深度學(xué)習(xí)模型主要包括自編碼器(Auto Encoder,AE)、多層感知神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、生成式對(duì)抗網(wǎng)絡(luò)等。

3.1 基于自編碼器的UEBA 技術(shù)

自編碼器是一種可以學(xué)到輸入數(shù)據(jù)高效表示的神經(jīng)網(wǎng)絡(luò),對(duì)監(jiān)督信息不敏感,一般包含編碼器(Encoder)與解碼器(Decoder)兩個(gè)部分。常用的自編碼數(shù)據(jù)異常檢測(cè)模型有自編碼模型和變分自編碼(Variational Auto Encoder,VAE)模型兩種。

文獻(xiàn)[61]基于自編碼模型建立一種稀疏數(shù)據(jù)表示框架,針對(duì)大規(guī)模高維數(shù)據(jù)可以起到降維的作用,同時(shí)能夠提取比手動(dòng)處理更高級(jí)的特征,最終F1 值(F1-Score)達(dá)到了0.812 0。有些自編碼器需要學(xué)者們提供不包含異常的干凈數(shù)據(jù)才能正常建模,而有些魯棒性較強(qiáng)的自編碼器[62]可以直接使用包含異常的數(shù)據(jù),并從中識(shí)別出異常值和噪聲,但其準(zhǔn)確率與召回率均只有65%。但在無監(jiān)督特征抽取、復(fù)雜任務(wù)處理、異常實(shí)時(shí)檢測(cè)等方面,自編碼器效果有限,因此學(xué)者們也會(huì)采用與其他方法結(jié)合的形式進(jìn)行異常檢測(cè)。文獻(xiàn)[63]在使用編碼器的過程中發(fā)現(xiàn)在嘗試將輸出數(shù)據(jù)盡量還原成對(duì)應(yīng)輸入的過程中,隱藏層的數(shù)據(jù)流動(dòng)會(huì)產(chǎn)生壓縮,基于此原理提出一種基于密度估計(jì)的自編碼異常檢測(cè)模型,解決了自編碼器在訓(xùn)練集上重建異常數(shù)據(jù)能力差的問題。在訓(xùn)練階段,自編碼器首先在一個(gè)正常的訓(xùn)練集上進(jìn)行訓(xùn)練,得到初步訓(xùn)練完成的模型,隨后使用訓(xùn)練集進(jìn)行訓(xùn)練并將訓(xùn)練數(shù)據(jù)壓縮至隱藏層,通過設(shè)置密度閾值的方式調(diào)節(jié)壓縮尺度,采用質(zhì)心密度估計(jì)和核密度估計(jì)(Kernel Density Estimation,KDE)兩種方法來建立密度估計(jì)模型,從而解決異常點(diǎn)檢測(cè)問題,建模過程如圖4 所示。

圖4 基于密度估計(jì)的自編碼異常檢測(cè)流程Fig.4 Procedure of auto encoding anomaly detection based on density estimation

3.2 基于多層感知神經(jīng)網(wǎng)絡(luò)的UEBA 技術(shù)

多層感知(Multi-Layer Perceptron,MLP)神經(jīng)網(wǎng)絡(luò)是一種基礎(chǔ)神經(jīng)網(wǎng)絡(luò),由一個(gè)輸入層、一個(gè)輸出層和多個(gè)隱藏層組成。在多層感知神經(jīng)網(wǎng)絡(luò)中,各層網(wǎng)絡(luò)之間通過全連接的方式構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu),在各神經(jīng)元中可以設(shè)置激活函數(shù)實(shí)現(xiàn)非線性函數(shù)參數(shù)的學(xué)習(xí),常用的激活函數(shù)有tanh、sigmoid、relu 等,MLP 可以構(gòu)成最簡單的分類器,實(shí)現(xiàn)softmax邏輯回歸。文獻(xiàn)[64]利用MLP進(jìn)行KDD CUP 99 數(shù)據(jù)的分類處理,在某些類別的攻擊上的檢測(cè)效果優(yōu)于SVM 算法。但由于多層感知神經(jīng)網(wǎng)絡(luò)的構(gòu)造比較簡單,因此直接應(yīng)用于數(shù)據(jù)中取得的效果往往較有限,其在UEBA 中多與其他算法進(jìn)行聯(lián)合使用。文獻(xiàn)[65]利用Apriori算法進(jìn)行樣本特征的處理,挖掘出樣本中關(guān)聯(lián)規(guī)則較強(qiáng)的特征后再使用多個(gè)MLP 進(jìn)行分類,并使用AdaBoost算法集成得到最終結(jié)果,其準(zhǔn)確率達(dá)到了99.55%。總體而言,盡管多層感知神經(jīng)網(wǎng)絡(luò)只有簡單的結(jié)構(gòu)形式,但仍然可以學(xué)習(xí)出數(shù)據(jù)內(nèi)的非線性信息,因此在簡單數(shù)據(jù)分類上一般要優(yōu)于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)算法。

3.3 基于卷積神經(jīng)網(wǎng)絡(luò)的UEBA 技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)主要基于卷積層和池化層的往復(fù)作用實(shí)現(xiàn)特征抽取,最終通過全連接層實(shí)現(xiàn)分類。在多次卷積和池化的過程中,數(shù)據(jù)的特征被很好學(xué)習(xí)。一般在處理數(shù)據(jù)的過程中,需要將樣本數(shù)據(jù)轉(zhuǎn)換為圖像的形式才能進(jìn)行檢測(cè)。在流量分析中,可以使用二進(jìn)制表示的流量數(shù)據(jù),將數(shù)據(jù)串進(jìn)行分割處理,按照字節(jié)進(jìn)行裁剪,之后將每個(gè)字節(jié)都轉(zhuǎn)換成二進(jìn)制值,再轉(zhuǎn)換成像素點(diǎn)。然后通過對(duì)多個(gè)像素點(diǎn)進(jìn)行整合,可以將某一串流量數(shù)據(jù)轉(zhuǎn)換為灰度圖片。

文獻(xiàn)[66]整理了多個(gè)將流量數(shù)據(jù)轉(zhuǎn)換為相應(yīng)圖像的方式,不需要手工抽取設(shè)計(jì)特征,減少了主觀因素在異常檢測(cè)過程中的影響,之后使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)流量數(shù)據(jù)的圖片形式進(jìn)行處理,識(shí)別其中的異常軟件流量。針對(duì)基礎(chǔ)設(shè)施的工業(yè)控制系統(tǒng)(Industrial Control System,ICS)的異常檢測(cè)問題,文獻(xiàn)[67]結(jié)合主成分分析法與卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一種1D 卷積網(wǎng)絡(luò),其準(zhǔn)確率、召回率與F1 值分別為98.02%、98.39% 和0.980 5。文獻(xiàn)[68]注意到當(dāng)前ICS 數(shù)據(jù)有限,只使用工業(yè)數(shù)據(jù)進(jìn)行異常檢測(cè)的效果不佳,于是采用傳統(tǒng)IT 數(shù)據(jù)與ICS 數(shù)據(jù)相結(jié)合的形式合成一個(gè)新的訓(xùn)練數(shù)據(jù)集,隨后使用CNN 進(jìn)行檢測(cè),效果要優(yōu)于只使用工業(yè)數(shù)據(jù)的情況,其準(zhǔn)確率為86.37%,召回率為67.67%。

使用卷積神經(jīng)網(wǎng)絡(luò)處理流量進(jìn)行威脅行為檢測(cè)問題的主要難點(diǎn)在于如何進(jìn)行前期數(shù)據(jù)處理工作使其適用于CNN 的網(wǎng)絡(luò)結(jié)構(gòu)。對(duì)于特征處理及抽取的方法將直接影響檢測(cè)效果。與常見的全連接神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于可以處理更高維度的數(shù)據(jù),而且使用者完全不用關(guān)心每一層特征的具體表現(xiàn)形式,其缺點(diǎn)是過程不透明,可解釋性較差,只給出了檢測(cè)結(jié)果,很難對(duì)檢測(cè)過程的細(xì)節(jié)進(jìn)行分析。

3.4 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的UEBA 技術(shù)

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類用來處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。基礎(chǔ)神經(jīng)網(wǎng)絡(luò)只在層與層之間建立連接,而RNN 可以在本層處理單元內(nèi)部之間進(jìn)行連接。從作用上看,這是一種帶有記憶功能的反饋系統(tǒng),當(dāng)前神經(jīng)元狀態(tài)與上一時(shí)刻的神經(jīng)元狀態(tài)密切相關(guān)。因此,RNN 在具有序列屬性的數(shù)據(jù)上表現(xiàn)尤其優(yōu)異,無論是流量分析還是用戶行為檢測(cè),均能夠挖掘出數(shù)據(jù)中所包含的時(shí)序信息及行為意圖。

基于循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)Linux 系統(tǒng)內(nèi)的實(shí)體行為進(jìn)行分析,利用RNN 對(duì)特征的敏感性抽取行為特征可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)日志中的高級(jí)網(wǎng)絡(luò)威脅進(jìn)行檢測(cè)[69-70]。文獻(xiàn)[71]基于CNN 與RNN 提出兩個(gè)有效的載荷分類方法,可以在無需特征工程的情況下,快速完成分類并顯著提高分類準(zhǔn)確率,該方法在NSL-KDD 數(shù)據(jù)集上的表現(xiàn)尤為突出,其準(zhǔn)確率、召回率和F1 值分別達(dá)到99.36%、99.81%和0.993 8。文獻(xiàn)[72]將模糊C 均值聚類與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,采用先聚類后神經(jīng)網(wǎng)絡(luò)分類的方式對(duì)流量數(shù)據(jù)進(jìn)行處理,解決了云環(huán)境中入侵檢測(cè)系統(tǒng)效率低下的問題。長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),尤其解決了長序列訓(xùn)練過程中的梯度爆炸或梯度消失問題。文獻(xiàn)[73]將三層LSTM 堆疊在一起分層抽取流量數(shù)據(jù)的不同深度特征,每通過一次LSTM 層,數(shù)據(jù)特征增加一階,最終將一階、二階、三階特征與原始數(shù)據(jù)進(jìn)行合并,再基于殘差神經(jīng)網(wǎng)絡(luò)對(duì)其中的異常數(shù)據(jù)進(jìn)行識(shí)別,模型準(zhǔn)確率、召回率與F1 值分別為90.78%、94.61%、0.925。

循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中需要計(jì)算網(wǎng)絡(luò)梯度數(shù)值,而梯度又與神經(jīng)元權(quán)重密切相關(guān),很容易造成梯度過大過小的問題,這是RNN 模型應(yīng)用中最值得注意的一點(diǎn),在長序列分析時(shí)尤其明顯。因此,在使用RNN 進(jìn)行用戶或?qū)嶓w的行為序列分析時(shí),應(yīng)盡量減少序列輸入規(guī)?;蛘咴诮Y(jié)構(gòu)上進(jìn)行改進(jìn)。

3.5 基于生成式對(duì)抗網(wǎng)絡(luò)的UEBA 技術(shù)

生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[74]自2014 提出以來受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,是一種無監(jiān)督方法,至少包括生成(Generative,G)模型和判別(Discriminative,D)模型兩個(gè)部分,通過兩個(gè)模型相互博弈進(jìn)行模型訓(xùn)練,判別模型根據(jù)生成數(shù)據(jù)判斷數(shù)據(jù)類型,生成模型根據(jù)給定數(shù)據(jù)生成新的數(shù)據(jù)。在博弈過程中,為了得到更好的結(jié)果,這兩個(gè)模型會(huì)不斷提高自己的判別效率與生成效率。在進(jìn)行異常檢測(cè)時(shí),經(jīng)常存在數(shù)據(jù)分布極度不平衡的問題,正常樣本遠(yuǎn)大于異常樣本。直接對(duì)不平衡數(shù)據(jù)建模分析容易造成模型有偏,進(jìn)一步影響模型的準(zhǔn)確率。GAN 可以生成具有真實(shí)樣本分布的數(shù)據(jù),解決數(shù)據(jù)有偏問題,因此通常學(xué)者們更關(guān)注GAN 模型的生成部分。

文獻(xiàn)[75]基于TensorFlow 框架使用GAN 及高斯判別分析對(duì)異常樣本進(jìn)行擴(kuò)充,提高了異常檢測(cè)的準(zhǔn)確率,另外還并行訓(xùn)練模型,實(shí)現(xiàn)準(zhǔn)確實(shí)時(shí)異常檢測(cè),適用于工業(yè)界的大數(shù)據(jù)環(huán)境中的數(shù)據(jù)增強(qiáng)和不平衡樣本分類。還有學(xué)者在研究中發(fā)現(xiàn)某些異常樣本會(huì)對(duì)模型的性能產(chǎn)生影響,甚至能夠作為系統(tǒng)防御漏洞被黑客攻擊,于是開始研究使用GAN 生成的異常數(shù)據(jù)與檢測(cè)模型優(yōu)化IDS 的防御效果。文獻(xiàn)[76]將GAN 作為IDS 的前置處理單元,使用生成模型對(duì)流量數(shù)據(jù)中的非功能特征進(jìn)行處理得到生成特征,并結(jié)合流量數(shù)據(jù)中的功能特征構(gòu)建新的流量數(shù)據(jù)。將這些生成的流量數(shù)據(jù)作為異常樣本輸入到判別模型中,往復(fù)進(jìn)行訓(xùn)練確保D 模型能夠?qū)W習(xí)到假的流量示例,將D 模型作為IDS 的前置單元一方面能夠甄別可能存在的黑客通過偽造流量而產(chǎn)生攻擊行為,另一方面也可能增強(qiáng)IDS的識(shí)別能力,增加其在流量數(shù)據(jù)處理過程中應(yīng)對(duì)未知威脅的能力,具體的建模過程如圖5 所示。文獻(xiàn)[77]使用自編碼器將數(shù)據(jù)從原始空間映射到潛在空間,之后使用生成對(duì)抗網(wǎng)絡(luò)精確估計(jì)潛在分布的概率表示,利用潛在空間的概率分布作為輸入數(shù)據(jù),建立異常檢測(cè)模型。文獻(xiàn)[78]先使用蒙特卡洛搜索樹算法擴(kuò)充跨站腳本攻擊(Cross-Site Scripting,XSS)樣本解決數(shù)據(jù)有偏問題,之后建立基于GAN 的XSS 檢測(cè)系統(tǒng),著重利用判別部分對(duì)異常流量進(jìn)行檢測(cè)。文獻(xiàn)[79]建立基于GAN 的入侵檢測(cè)系統(tǒng),結(jié)合自編碼器改善IDS 性能并提高檢測(cè)穩(wěn)定性,系統(tǒng)在召回率上表現(xiàn)優(yōu)異,達(dá)到了91.15%。

圖5 基于對(duì)抗樣本生成的GAN 異常檢測(cè)流程Fig.5 Procedure of GAN anomaly detection based on adversarial example generation

學(xué)者們主要使用GAN 來解決數(shù)據(jù)中的不平衡問題,在實(shí)際使用中需要結(jié)合其他算法才能完成用戶或?qū)嶓w的行為分析過程。相比其他生成模型或者抽樣進(jìn)行樣本擴(kuò)充的方法,GAN 能夠生成更真實(shí)的樣本數(shù)據(jù),更能優(yōu)化模型的檢測(cè)結(jié)果。由于GAN 能夠采用無監(jiān)督的方式訓(xùn)練,在當(dāng)前的異常檢測(cè)與行為分析領(lǐng)域應(yīng)用廣泛。但在實(shí)際應(yīng)用過程中,GAN 也可能出現(xiàn)模式崩潰的問題,而且生成過程對(duì)于使用者而言不透明,因此在神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)節(jié)時(shí)面臨一定的困難。

3.6 深度學(xué)習(xí)模型性能對(duì)比及分析

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,各種類型神經(jīng)網(wǎng)絡(luò)的應(yīng)用為UEBA 提供了新思路。神經(jīng)網(wǎng)絡(luò)應(yīng)用于多分類任務(wù)時(shí)的性能優(yōu)于統(tǒng)計(jì)學(xué)習(xí)方法,但檢測(cè)過程的可解釋較差,難以還原攻擊行為的過程。表3給出了部分深度學(xué)習(xí)算法的性能對(duì)比情況,其中:N/A 表示原文獻(xiàn)未體現(xiàn)相關(guān)指標(biāo);性能評(píng)價(jià)數(shù)據(jù)來自原文獻(xiàn),可能存在實(shí)驗(yàn)環(huán)境及參數(shù)的不同。任務(wù)類別以多分類為主,整體性能表現(xiàn)略遜于統(tǒng)計(jì)學(xué)習(xí)算法。一方面,對(duì)于多分類任務(wù)而言,分類結(jié)果為某種具體的攻擊類型,比二分類任務(wù)結(jié)果更為細(xì)化,因此在算法性能評(píng)價(jià)時(shí)可能存在一定的劣勢(shì)。另一方面,多分類結(jié)果對(duì)于后續(xù)異常行為分析過程而言,可參考性更高,網(wǎng)絡(luò)管理者能夠從多分類結(jié)果中得到更多有用的信息。在檢測(cè)性能相差不大的情況下,多分類結(jié)果比二分類結(jié)果更有意義,例如在文獻(xiàn)[71]的CNN 與RNN 使用過程中,不但實(shí)現(xiàn)了樣本的多分類,而且具有良好的性能表現(xiàn),適合實(shí)際應(yīng)用。

表3 部分深度學(xué)習(xí)算法的性能評(píng)價(jià)對(duì)比Table 3 Comparison of performance evaluation of some deep learning algorithms

4 基于強(qiáng)化學(xué)習(xí)的UEBA 技術(shù)

強(qiáng)化學(xué)習(xí)又被稱為增強(qiáng)學(xué)習(xí),在模型訓(xùn)練過程中不需要數(shù)據(jù)樣本的標(biāo)簽,主要通過Agent與環(huán)境交互的方式進(jìn)行模型訓(xùn)練,目標(biāo)是使得Agent獲取最大收益。強(qiáng)化學(xué)習(xí)受行為主義心理學(xué)的啟發(fā),強(qiáng)調(diào)的是“再”學(xué)習(xí)的過程。與其他統(tǒng)計(jì)學(xué)習(xí)方法相比,強(qiáng)化學(xué)習(xí)可以不參考給定的類別標(biāo)簽,而是通過結(jié)果給予模型的回饋來更新所需參數(shù)[80]。通常而言,強(qiáng)化學(xué)習(xí)有很強(qiáng)的時(shí)序性,每次的結(jié)果都極大依賴上一步中智能體的狀態(tài)。強(qiáng)化學(xué)習(xí)的代表算法包括Q-Learning、狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)-狀態(tài)-動(dòng)作(State-Action-Reward-State-Action,SARSA)、深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)以及深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)等算法[81]。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要組成部分,但目前UEBA 中的強(qiáng)化學(xué)習(xí)技術(shù)還應(yīng)用較少,未來還有很大的發(fā)展空間。

惡意實(shí)體作為高級(jí)可持續(xù)威脅攻擊的一種,常常隱匿在系統(tǒng)中不容易被發(fā)現(xiàn),行為序列特征與運(yùn)行環(huán)境的交互方式適合使用強(qiáng)化學(xué)習(xí)進(jìn)行檢測(cè)。在文獻(xiàn)[82-83]研究中,強(qiáng)化學(xué)習(xí)用于處理惡意實(shí)體的行為序列,篩選惡意行為的特征并根據(jù)結(jié)果反饋動(dòng)態(tài)調(diào)整檢測(cè)模型。XIAO 等[84]研究網(wǎng)絡(luò)游戲環(huán)境中的高級(jí)可持續(xù)威脅,建立一種基于策略的強(qiáng)化學(xué)習(xí)算法,通過策略爬坡(Policy Hill-Climbing,PHC)方式增加了策略的不確定性,動(dòng)態(tài)引誘持續(xù)威脅實(shí)體暴露自身意圖。XIAO 等[85]還結(jié)合邊緣計(jì)算與強(qiáng)化學(xué)習(xí)設(shè)計(jì)一種區(qū)塊鏈信任機(jī)制,可以處理邊緣攻擊并識(shí)別偽造的實(shí)體記錄。在工業(yè)互聯(lián)網(wǎng)安全方面,文獻(xiàn)[86]針對(duì)電力系統(tǒng)的錯(cuò)誤數(shù)據(jù)注入(False Data Injection,F(xiàn)DI)問題,設(shè)計(jì)一種帶有短期記憶功能的Q 學(xué)習(xí)算法保證自動(dòng)電壓控制系統(tǒng)的正常運(yùn)行。

強(qiáng)化學(xué)習(xí)與其他類型的機(jī)器學(xué)習(xí)方法不同,訓(xùn)練數(shù)據(jù)主要來自與環(huán)境的各種交互。強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)在于其獎(jiǎng)勵(lì)與懲罰機(jī)制簡單,訓(xùn)練邏輯也不復(fù)雜,可以對(duì)環(huán)境信息做出快速反應(yīng)。隨著深度學(xué)習(xí)的不斷發(fā)展,深度強(qiáng)化學(xué)習(xí)也逐漸成為領(lǐng)域內(nèi)的研究熱點(diǎn)。深度強(qiáng)化學(xué)習(xí)繼承了深度學(xué)習(xí)注意力機(jī)制在特征處理方面的優(yōu)點(diǎn),同樣適合處理時(shí)序數(shù)據(jù),基于時(shí)序數(shù)據(jù)進(jìn)行分析不僅可以更好地總結(jié)歷史行為規(guī)律,而且能夠挖掘更多異常場(chǎng)景,從而應(yīng)對(duì)部分未知威脅。

5 UEBA 公共數(shù)據(jù)集與特征工程

5.1 公共數(shù)據(jù)集

5.1.1 KDD CUP 99 數(shù)據(jù)集

KDD CUP 99 數(shù)據(jù)集是1999 年KDD[87]競(jìng)賽所使用的數(shù)據(jù)集,在異常檢測(cè)領(lǐng)域被廣泛使用,數(shù)據(jù)集攻擊類型主要分為4 個(gè)大類和39 個(gè)小類,訓(xùn)練集包含22 種攻擊,測(cè)試集包含17種攻擊,具體類別情況如表4所示。

表4 KDD CUP 99 數(shù)據(jù)集攻擊類別Table 4 Attack categories of KDD CUP 99 dataset

KDD CUP 99 數(shù)據(jù)集中的每個(gè)連接的前41 項(xiàng)為屬性值,最后1 項(xiàng)為類別標(biāo)簽,具體特征含義在數(shù)據(jù)集kddcup_names.txt 文件中進(jìn)行了描述。

KDD CUP 99 數(shù)據(jù)集由美國國防部高級(jí)研究計(jì)劃局(DARPA)于1998 年在麻省理工學(xué)院林肯實(shí)驗(yàn)室所進(jìn)行的一個(gè)網(wǎng)絡(luò)安全滲透測(cè)試評(píng)估項(xiàng)目相關(guān)數(shù)據(jù)抽取收集而來,經(jīng)哥倫比亞大學(xué)的Sal Stolfo 教授和北卡羅來納州立大學(xué)的Wenke Lee教授經(jīng)過分析處理后得到。DARPA 在MIT 的項(xiàng)目模擬了美國空軍局域網(wǎng)的一個(gè)網(wǎng)絡(luò)環(huán)境,收集了9 周的網(wǎng)絡(luò)連接和系統(tǒng)審計(jì)數(shù)據(jù),仿真各種用戶類型、網(wǎng)絡(luò)流量及攻擊手段,并在1998年[88]、1999 年[89]、2000 年[90]公開發(fā)布過3 次數(shù)據(jù)集,均廣泛用于異常檢測(cè)領(lǐng)域。歷次數(shù)據(jù)內(nèi)容基本不變,1999 版數(shù)據(jù)集在1998 版數(shù)據(jù)集的基礎(chǔ)上,增加了攻擊類型和對(duì)于Windows NT 系統(tǒng)的操作,而2000 版本的數(shù)據(jù)集則將攻擊類型擴(kuò)充至58 種。

NSL-KDD[91]是KDD CUP 99 數(shù)據(jù)集的改進(jìn) 版本,解決了KDD CUP 99 數(shù)據(jù)集中數(shù)據(jù)冗余、測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)重復(fù)、正負(fù)樣本比例失衡等問題,同樣廣泛作為UEBA 的benchmark 數(shù)據(jù)集。

5.1.2 UNSW-NB15 數(shù)據(jù)集

UNSW-NB15 數(shù)據(jù)集[92]由新南威爾士大學(xué)Cyber Range 實(shí)驗(yàn)室在2015 年利用PerfectStorm 工具創(chuàng)建,整個(gè)數(shù)據(jù)集包含F(xiàn)uzzers、Analysis、Backdoors、DoS、exploit、Generic、Reconnaissance、Shellcode、Worms 等9 種攻擊大類,并未進(jìn)行細(xì)致劃分。每個(gè)樣本有49 個(gè)特征,在UNSW-NB15_features.csv 文件中進(jìn)行了描述。

5.1.3 CIC-IDS 2017 數(shù)據(jù)集

CIC-IDS 2017 數(shù)據(jù)集[93]是加拿大網(wǎng)絡(luò)安全研究所公開的IDS 模擬數(shù)據(jù)集,解決了之前公共異常檢測(cè)數(shù)據(jù)集中攻擊手段陳舊、流量多樣性差、攻擊樣本數(shù)量少等問題。CIC-IDS 2017 數(shù)據(jù)集包含大量新型攻擊手段,且更接近于真實(shí)企業(yè)環(huán)境,除了流量數(shù)據(jù)之外,還包含一部分經(jīng)過IDS 分析后的結(jié)果,實(shí)現(xiàn)了包 括暴力FTP、暴力SSH、DoS、Heartbleed、Web 攻擊、SQL 注入、僵尸網(wǎng)絡(luò)、DDoS 等8 種攻擊。

該數(shù)據(jù)集還有CIC-IDS 2012[94]、CIC-IDS 2018[95]等其他版本,CIC-IDS 2018 同樣是目前應(yīng)用范圍較廣的網(wǎng)絡(luò)安全數(shù)據(jù)集。加拿大網(wǎng)絡(luò)安全研究所還有各類安全設(shè)備日志、主機(jī)操作記錄、軟件運(yùn)行日志等其他類型的UEBA 數(shù)據(jù)集[96],能夠提供學(xué)者們進(jìn)一步對(duì)各類用戶與實(shí)體的威脅行為進(jìn)行識(shí)別。

5.1.4 Masquerading User Data 數(shù)據(jù)集

DUMOUCHEL 等[97]研究內(nèi)部人員操作行為對(duì)整個(gè)系統(tǒng)安全性的影響,構(gòu)建偽裝者用戶數(shù)據(jù)(Masquerading User Data,MUD),共包括50 個(gè)文件,每個(gè)文件都是一個(gè)用戶的Unix 系統(tǒng)的操作數(shù)據(jù)。每個(gè)文件都有15 000條數(shù)據(jù),前5 000條為正常用戶操作數(shù)據(jù),后10 000 條中包括隨機(jī)的異常數(shù)據(jù)。DUMOUCHEL等為用戶操作數(shù)據(jù)提供了標(biāo)注,將每100 條數(shù)據(jù)看作一個(gè)序列,同時(shí)用0 和1 對(duì)序列進(jìn)行標(biāo)注,0 代表正常,1 代表該序列存在偽裝者行為。該數(shù)據(jù)集作為為數(shù)不多的用戶行為異常檢測(cè)公共數(shù)據(jù)集得到了廣泛應(yīng)用。

5.2 用戶特征工程

特征工程是整個(gè)UEBA 過程中的關(guān)鍵一環(huán),對(duì)整個(gè)分析模型的最終效果起著至關(guān)重要的作用。部分特征工程方法比較如表5 所示。

表5 部分特征工程方法對(duì)比Table 5 Comparison of some feature engineering methods

在進(jìn)行實(shí)體行為數(shù)據(jù)分析的過程中,面臨安全設(shè)備種類多、屬性特征繁雜等問題,因此標(biāo)準(zhǔn)化、歸一化方法使用較多。由于部分?jǐn)?shù)據(jù)的字符屬性沒有先后順序或者大小區(qū)別,因此使用獨(dú)熱編碼編譯字符屬性也是常用手段。同時(shí),學(xué)者們還通過考察同一類型數(shù)據(jù)在不同數(shù)據(jù)集中的特征抽取方式來完善已有數(shù)據(jù),例如參考各類公共數(shù)據(jù)集中對(duì)時(shí)間串的處理方法,將其進(jìn)行細(xì)化分割為季度、月、周等特征。

用戶行為數(shù)據(jù)的特征相對(duì)流量數(shù)據(jù)而言更匱乏,在實(shí)際企業(yè)環(huán)境下內(nèi)網(wǎng)主機(jī)安裝的通常都是Unix 類的系統(tǒng),主機(jī)命令有限。在進(jìn)行用戶行為分析時(shí),行為種類少、數(shù)據(jù)維度低,很難對(duì)各類行為進(jìn)行區(qū)別,很大程度上會(huì)影響最終的檢測(cè)結(jié)果。筆者在研究數(shù)據(jù)的過程中,發(fā)現(xiàn)有以下兩種方式可以增強(qiáng)用戶及實(shí)體行為表述準(zhǔn)確性:

1)使用“操作行為”與“操作對(duì)象”結(jié)合的方式細(xì)化動(dòng)作,例如“cd Download”動(dòng)作要比“cd”的表述性強(qiáng)。較少的主機(jī)指令與各類文件名、對(duì)象名以及指令參數(shù)等結(jié)合后,能夠使得行為集合指數(shù)級(jí)擴(kuò)充。此外,還可以引入詞頻-逆文檔頻度(Term Frequency-Inverse Document Frequency,TF-IDF)加權(quán)技術(shù)對(duì)行為頻次做進(jìn)一步處理以增強(qiáng)不同用戶或?qū)嶓w行為間的差別度量。

2)參考其他數(shù)據(jù)集特征對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行改進(jìn)。例如,KDD CUP 99 數(shù)據(jù)集中TCP 連接基本特征中的連接持續(xù)時(shí)間(duration)、是否連接同一主機(jī)(land)、登錄失敗次數(shù)(num_failed_logins)等參數(shù)可以作為目標(biāo)特征從而對(duì)已有數(shù)據(jù)進(jìn)行處理。從原始數(shù)據(jù)中挖掘信息是特征維度提升的重要手段,表6給出了特征處理的部分樣例。

表6 主機(jī)行為特征處理部分樣例Table 6 Some examples of host behavior feature processing

具體的特征構(gòu)造方法要視情況而定,例如一般日志中的操作時(shí)間記錄為一個(gè)時(shí)間字符串,很難發(fā)現(xiàn)其中的規(guī)律。如果將該時(shí)間串轉(zhuǎn)換為年、月、日、時(shí)、分、季度、周幾、是否為下班時(shí)間、是否為工作日等特征,可以增加原始數(shù)據(jù)的維度,便于后續(xù)算法分析。對(duì)于“是否為工作日”特征,可以根據(jù)取值的不同建立“工作日行為模型”與“非工作日行為模型”,通常分別處理比混合建模效果更好。

6 UEBA 技術(shù)的局限性與發(fā)展方向

6.1 內(nèi)部威脅分析的局限性

內(nèi)部威脅分析的數(shù)據(jù)源以主機(jī)操作、數(shù)據(jù)庫、堡壘機(jī)、服務(wù)器等日志文件為主。這類數(shù)據(jù)帶有一定的時(shí)序特征,通過上下文行為關(guān)聯(lián)可以還原事件的真實(shí)情況,在對(duì)于威脅的細(xì)粒度分析中具有關(guān)鍵價(jià)值。內(nèi)部行為日志威脅分析的難點(diǎn)主要包括以下3 個(gè)方面:

1)多源異構(gòu)數(shù)據(jù)融合。數(shù)據(jù)質(zhì)量低的問題主要源自企業(yè)內(nèi)部設(shè)備環(huán)境復(fù)雜、系統(tǒng)版本雜亂。在企業(yè)中,員工工作場(chǎng)景下所使用的設(shè)備多種多樣,連接內(nèi)網(wǎng)服務(wù)器的方式也較為靈活,不利于記錄員工個(gè)人主機(jī)的行為數(shù)據(jù)以及內(nèi)網(wǎng)服務(wù)器操作數(shù)據(jù)。除了員工個(gè)人設(shè)備直連服務(wù)器主機(jī)外,由于涉密或者數(shù)據(jù)保護(hù)的需要,部分企業(yè)采用審計(jì)系統(tǒng)實(shí)現(xiàn)服務(wù)器訪問認(rèn)證的3A 原則[98]管控員工的資源登錄認(rèn)證過程,但認(rèn)證的安全性與記錄操作行為的簡便性存在一定負(fù)相關(guān)關(guān)系,越安全的系統(tǒng)可能越復(fù)雜,復(fù)雜系統(tǒng)不利于便捷記錄員工的操作行為。

2)用戶與實(shí)體行為序列的上下文關(guān)聯(lián)。用戶的某一行為不是孤立存在的,而是需要根據(jù)上下文行為確定該行為屬性。如果一次攻擊樣本呈現(xiàn)帶有時(shí)序性的攻擊序列狀態(tài),那么在對(duì)用戶行為分析時(shí)也需要確定一個(gè)事件窗口。用戶行為被事件窗口切割后,會(huì)保留一條完整的證據(jù)鏈,從開始嘗試入侵到入侵結(jié)束的一系列行為都應(yīng)該被包含在事件窗口中,而實(shí)際環(huán)境下很難判斷威脅行為開始的時(shí)間。

3)用戶與實(shí)體行為類別標(biāo)簽。用戶在操作過程中,系統(tǒng)難以通過動(dòng)作判斷其行為屬性,因此樣本標(biāo)簽較少。無論是二分類問題還是多分類問題,樣本標(biāo)簽的質(zhì)量都直接影響分類結(jié)果的優(yōu)劣。無監(jiān)督數(shù)據(jù)意味著用于異常行為識(shí)別的可選模型較少,很難在模型端進(jìn)行改進(jìn)。

6.2 外部入侵檢測(cè)的局限性

近幾年互聯(lián)網(wǎng)高速發(fā)展,網(wǎng)絡(luò)技術(shù)水平也不斷提高,企業(yè)的網(wǎng)絡(luò)安全意識(shí)不斷完善。外部威脅包括黑客攻擊、病毒入侵、安全漏洞等方面。目前,外部威脅分析的難點(diǎn)主要包括以下3 個(gè)方面:

1)監(jiān)控手段單一、設(shè)備智能化程度不夠。IDS、IPS、WAF、網(wǎng)絡(luò)探針等各類網(wǎng)絡(luò)安全設(shè)備在實(shí)際企業(yè)的網(wǎng)絡(luò)安全外部威脅防御中占有重要比重,但其中的多數(shù)通過網(wǎng)絡(luò)安全策略對(duì)流量數(shù)據(jù)進(jìn)行管控,安全策略采用規(guī)則匹配方式對(duì)流量進(jìn)行處理,檢測(cè)效果有限,規(guī)則更新滯后。

2)數(shù)據(jù)量大。科技發(fā)展迅猛,網(wǎng)絡(luò)設(shè)備無論是數(shù)量上還是質(zhì)量上都突飛猛進(jìn),單位時(shí)間內(nèi)產(chǎn)出的各種網(wǎng)絡(luò)設(shè)備、流量等日志呈現(xiàn)指數(shù)增長趨勢(shì)。越來越多的流量數(shù)據(jù)在硬盤內(nèi)大量堆積,無論是在線處理還是離線分析都會(huì)占用大量的計(jì)算資源。數(shù)據(jù)量大也會(huì)導(dǎo)致分析時(shí)間的增加,檢測(cè)結(jié)果更為滯后,系統(tǒng)暴露在風(fēng)險(xiǎn)下的時(shí)間更長。

3)樣本數(shù)據(jù)分布不平衡。在模型訓(xùn)練過程中,很多算法通常有數(shù)據(jù)均勻分布這樣一個(gè)基本假設(shè)。少量攻擊流量數(shù)據(jù)摻雜在大量正常數(shù)據(jù)中,如果采取正常模型訓(xùn)練模式,則可能會(huì)導(dǎo)致不準(zhǔn)確的模型結(jié)果。在樣本較少的情況下,盡管也能從中學(xué)習(xí)到相應(yīng)的檢測(cè)規(guī)則,但結(jié)果可能會(huì)存在一定的過擬合現(xiàn)象,僅針對(duì)某些場(chǎng)景有效果,缺少普適性,難以應(yīng)對(duì)未知威脅。

6.3 UEBA 技術(shù)的發(fā)展方向

UEBA 作為人工智能產(chǎn)業(yè)在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用之一,具有廣闊的發(fā)展前景。從發(fā)展趨勢(shì)來看,在早期研究中,以數(shù)據(jù)集擴(kuò)充、實(shí)驗(yàn)擴(kuò)充和增加模型能夠識(shí)別的威脅行為種類為主,更加注重從數(shù)據(jù)量、威脅類型等方面對(duì)模型進(jìn)行優(yōu)化。在中期研究中,學(xué)者們開始考慮模型性能與系統(tǒng)的運(yùn)行效率,積極優(yōu)化模型檢測(cè)速度。在近期研究中,學(xué)者們更加注重檢測(cè)質(zhì)量,準(zhǔn)備通過特征優(yōu)化、檢測(cè)過程可視化等方式對(duì)模型進(jìn)行改進(jìn)??傮w而言,整個(gè)UEBA 研究重點(diǎn)具有明顯的“分析數(shù)量-分析速度-分析質(zhì)量”發(fā)展趨向。

UEBA 技術(shù)與各行各業(yè)深度融合的同時(shí),也暴露出一定的缺陷。典型異常檢測(cè)算法的對(duì)比分析如表7 所示。

表7 典型異常檢測(cè)算法對(duì)比Table 7 Comparison of typical anomaly detection algorithms

當(dāng)前研究方法的缺陷主要集中在:1)易陷入局部最優(yōu);2)標(biāo)簽質(zhì)量對(duì)結(jié)果的影響大;3)噪聲數(shù)據(jù)對(duì)結(jié)果的影響大;4)未知行為判斷不足。缺陷1 不僅出現(xiàn)在UEBA 領(lǐng)域,在整個(gè)計(jì)算機(jī)行業(yè)內(nèi)都是如此,模型陷入局部最優(yōu)可能在健壯性與檢測(cè)準(zhǔn)確度方面均表現(xiàn)不佳。缺陷2 和缺陷3 主要涉及數(shù)據(jù)質(zhì)量問題,需要對(duì)原始數(shù)據(jù)進(jìn)行處理。針對(duì)缺陷4 應(yīng)增加模型泛化能力,保證其更好地學(xué)習(xí)到異常行為規(guī)律。

考慮到UEBA 的發(fā)展趨勢(shì)以及當(dāng)前存在的缺陷,將針對(duì)以下問題做進(jìn)一步研究:

1)未知威脅識(shí)別問題。根據(jù)先驗(yàn)知識(shí)建立威脅識(shí)別模型,一般在面對(duì)未知異常行為時(shí)的表現(xiàn)性能不佳,而未知威脅給系統(tǒng)帶來的潛在風(fēng)險(xiǎn)更為突出,因此未來將建立面向未知威脅的異常檢測(cè)算法。

2)數(shù)據(jù)有偏問題。無論是內(nèi)部風(fēng)險(xiǎn)還是外部威脅,往往是少量異常樣本摻雜在大量正常樣本中,很多算法極易受到有偏樣本分布的影響,因此未來將解決數(shù)據(jù)有偏分布問題,建立適應(yīng)性更強(qiáng)的UEBA方法。

3)行為序列劃分問題。在現(xiàn)有行為數(shù)據(jù)的分析模型中,很多模型利用時(shí)間、會(huì)話ID 等屬性進(jìn)行硬劃分。這種劃分方法在時(shí)間維度上割裂了異常事件的前后關(guān)聯(lián),不利于威脅鏈條的完整呈現(xiàn)。因此,未來將解決行為序列的劃分問題,在保證其時(shí)序性完整的同時(shí),避免多序列劃分可能帶來的算法復(fù)雜度增加問題。

4)局部最優(yōu)問題。在異常檢測(cè)任務(wù)中,陷入局部最優(yōu)意味著判別模型的準(zhǔn)確率較低,對(duì)于流量數(shù)據(jù)的錯(cuò)誤判斷會(huì)對(duì)正常業(yè)務(wù)產(chǎn)生極大影響。因此,未來將建立收斂于全局最優(yōu)的異常檢測(cè)模型,以獲得更加準(zhǔn)確的預(yù)測(cè)效果。

7 結(jié)束語

本文闡述基于機(jī)器學(xué)習(xí)的UEBA 技術(shù)研究進(jìn)展,對(duì)統(tǒng)計(jì)學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)中的典型算法進(jìn)行對(duì)比分析,介紹被廣泛使用的經(jīng)典數(shù)據(jù)集并討論如何通過特征工程手段生成新的可利用特征,隨后分析UEBA 技術(shù)在數(shù)據(jù)處理、行為關(guān)聯(lián)、類別確定、智能分析等方面的局限性和需要解決的問題,從使用方法、算法性能、關(guān)鍵技術(shù)等角度出發(fā)對(duì)典型異常檢測(cè)方法的優(yōu)劣勢(shì)進(jìn)行歸納總結(jié)。由于網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,設(shè)備類型多樣化、數(shù)據(jù)類型復(fù)雜化使得機(jī)器學(xué)習(xí)模型在用戶與實(shí)體行為分析領(lǐng)域的應(yīng)用范圍越來越廣,結(jié)合的緊密程度也逐步加深。盡管現(xiàn)有UEBA 技術(shù)在實(shí)際異常檢測(cè)中取得了較好的效果,但在攻擊行為全過程解析方面還存在不足,多數(shù)分析方法只能找到異常點(diǎn)而不能找出異常序列,但有些持續(xù)性威脅并非只在某一點(diǎn)產(chǎn)生異常,必須通過完整的行為鏈條進(jìn)行判斷,并且隨著網(wǎng)絡(luò)技術(shù)發(fā)展加快,攻擊技術(shù)在越來越趨于隱蔽的同時(shí),也呈現(xiàn)出多樣化態(tài)勢(shì)。因此,在日趨復(fù)雜的安全形勢(shì)、不斷進(jìn)化的攻擊手段等背景下,后續(xù)將針對(duì)未知威脅識(shí)別、入侵事件還原等問題對(duì)用戶與實(shí)體行為分析技術(shù)進(jìn)行更深入的研究,進(jìn)一步提高用戶與實(shí)體行為分析模型的處理效率與檢測(cè)質(zhì)量。

猜你喜歡
監(jiān)督分析檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
隱蔽失效適航要求符合性驗(yàn)證分析
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
監(jiān)督見成效 舊貌換新顏
夯實(shí)監(jiān)督之基
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 久久国产精品麻豆系列| 亚洲欧美日韩高清综合678| 欧美a级完整在线观看| 午夜福利视频一区| 日本成人在线不卡视频| 欧美中出一区二区| 强奷白丝美女在线观看| 91精品国产情侣高潮露脸| 亚洲 欧美 中文 AⅤ在线视频| 亚洲无码在线午夜电影| 日韩高清无码免费| 无码精油按摩潮喷在线播放| 九九九国产| 亚洲免费三区| 一级不卡毛片| 在线观看国产精品一区| 国产乱码精品一区二区三区中文| 制服丝袜国产精品| 日本国产精品一区久久久| 一级毛片在线播放免费观看| 97人妻精品专区久久久久| 日本人真淫视频一区二区三区| 成人夜夜嗨| 伊人成人在线视频| 久久久久亚洲精品成人网| 国产青榴视频| 操国产美女| 99热这里只有精品久久免费| 亚洲日本中文字幕乱码中文| 久久精品人人做人人爽电影蜜月 | 亚洲国产成人麻豆精品| 欧美国产日韩在线| 日韩一区精品视频一区二区| 色悠久久综合| 欧美69视频在线| 国产幂在线无码精品| 一区二区无码在线视频| 国产成人久视频免费| 无遮挡国产高潮视频免费观看| 中文字幕人成人乱码亚洲电影| 久久婷婷色综合老司机| 精品成人一区二区三区电影| www成人国产在线观看网站| 91原创视频在线| 九色视频线上播放| 亚洲成人动漫在线| 日本亚洲最大的色成网站www| 亚洲AV无码久久精品色欲| 婷婷中文在线| 国产资源免费观看| 最新国产网站| 无码精油按摩潮喷在线播放 | 欧美色图第一页| 欧美色亚洲| 114级毛片免费观看| 欧美成人精品在线| 岛国精品一区免费视频在线观看| 免费人成又黄又爽的视频网站| 亚洲福利视频网址| 一本大道视频精品人妻| 日本高清免费不卡视频| 国产在线自乱拍播放| 国产杨幂丝袜av在线播放| 色综合五月| 欧美日韩另类国产| 在线日韩日本国产亚洲| 91福利免费视频| 免费黄色国产视频| 国产欧美在线| 99热这里只有精品在线播放| 日韩小视频在线播放| 亚洲黄网在线| 高h视频在线| 亚洲欧美日韩综合二区三区| 色综合久久88| 欧美一级99在线观看国产| 国产 日韩 欧美 第二页| 亚卅精品无码久久毛片乌克兰| 在线播放真实国产乱子伦| 亚洲综合狠狠| 欧美啪啪网| 直接黄91麻豆网站|