霍躍華,吳文昊,趙法起,王 強(qiáng)
(1.中國(guó)礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院,北京 100083;2.中國(guó)礦業(yè)大學(xué)(北京) 網(wǎng)絡(luò)與信息中心,北京 100083;3.中國(guó)科學(xué)院 信息工程研究所,北京 100084;4.中國(guó)科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100049)
隨著加密技術(shù)發(fā)展[1-2],網(wǎng)絡(luò)加密流量呈現(xiàn)爆發(fā)式增長(zhǎng),各大網(wǎng)站和軟件在流量傳輸中采用加密技術(shù)保護(hù)通信。Google透明度報(bào)告[3]指出,所有Google產(chǎn)品和服務(wù)中的加密流量占比已達(dá)95%;Chrome平臺(tái)中加密網(wǎng)頁(yè)占比從2016年的約50%增長(zhǎng)到2022年的約99%。與此同時(shí),越來(lái)越多的惡意流量也采用加密技術(shù)逃避檢測(cè),對(duì)網(wǎng)絡(luò)安全構(gòu)成嚴(yán)峻挑戰(zhàn)。惡意流量主要由惡意軟件產(chǎn)生[4],GALLAGHER在2021年5月的報(bào)告指出,約46%的惡意軟件在Internet通信中采用傳輸層安全協(xié)議(Transport Layer Security,TLS)進(jìn)行加密[5],而在2020年這個(gè)比例還是23%,同比增長(zhǎng)了1倍。因此加密惡意流量檢測(cè)研究具有重要意義。
現(xiàn)階段,針對(duì)加密惡意流量檢測(cè)主要有解密技術(shù)和非解密技術(shù)兩種。解密技術(shù)開(kāi)銷(xiāo)大、安全性低、應(yīng)用前景小。非解密技術(shù)主要包括JA3指紋技術(shù)、證書(shū)技術(shù)及機(jī)器學(xué)習(xí)(Machine Learning,ML)[6-8]技術(shù)。基于JA3技術(shù)和證書(shū)技術(shù)的加密惡意流量檢測(cè)方法只采取少數(shù)特征進(jìn)行檢測(cè),容易被惡意軟件規(guī)避;基于機(jī)器學(xué)習(xí)的加密惡意流量檢測(cè)方法依靠大量標(biāo)注樣本和多個(gè)特征進(jìn)行訓(xùn)練,現(xiàn)有文獻(xiàn)表明能夠取得較好的檢測(cè)效果[9-10],但是嚴(yán)重依賴(lài)于標(biāo)注樣本數(shù)量和質(zhì)量[11],因此現(xiàn)實(shí)環(huán)境中由標(biāo)注代價(jià)高引起的標(biāo)注樣本缺乏問(wèn)題制約著基于機(jī)器學(xué)習(xí)方法的應(yīng)用。在加密流量具有較高的概念漂移,惡意軟件家族更新迭代較快等問(wèn)題限制傳統(tǒng)檢測(cè)方法應(yīng)用的情況下,基于半監(jiān)督學(xué)習(xí)的方法能在小規(guī)模標(biāo)注樣本的條件下挖掘隱藏在大量無(wú)標(biāo)注樣本內(nèi)部潛在的規(guī)律,實(shí)現(xiàn)無(wú)標(biāo)注樣本的有效利用,減少對(duì)標(biāo)注樣本的依賴(lài)。因此研究基于半監(jiān)督學(xué)習(xí)的TLS加密惡意流量檢測(cè)方法具有重要價(jià)值。
針對(duì)現(xiàn)有基于機(jī)器學(xué)習(xí)的加密惡意流量檢測(cè)方法對(duì)標(biāo)注樣本依賴(lài)度高的問(wèn)題,文中提取TLS加密流量的流元數(shù)據(jù)特征和TLS證書(shū)特征,分別利用流元數(shù)據(jù)特征和TLS證書(shū)特征構(gòu)建協(xié)同訓(xùn)練的兩個(gè)視圖,采用XGBoost分類(lèi)器和隨機(jī)森林(Random Forest,RF)分類(lèi)器分別作為視圖1和視圖2的分類(lèi)器,協(xié)同兩個(gè)分類(lèi)器構(gòu)建基于半監(jiān)督學(xué)習(xí)的多視圖協(xié)同訓(xùn)練分類(lèi)器(Multi-view Co-training Classifier,MCC)檢測(cè)模型,通過(guò)隨機(jī)抽取樣本進(jìn)行標(biāo)注的方式得到小規(guī)模的標(biāo)注樣本,結(jié)合大量無(wú)標(biāo)注樣本實(shí)現(xiàn)高效的TLS加密惡意流量檢測(cè)。

圖1 TLS握手過(guò)程

圖2 TLS加密惡意流量檢測(cè)過(guò)程
TLS握手過(guò)程是客戶(hù)端與服務(wù)端建立加密信道的過(guò)程,包含建立連接和交換驗(yàn)證信息兩個(gè)部分。建立連接過(guò)程首先由客戶(hù)端向服務(wù)端發(fā)送TLS版本、服務(wù)器名以及支持的拓展等;然后由服務(wù)端向客戶(hù)端發(fā)送TLS證書(shū)鏈、密鑰交換方法等。交換驗(yàn)證信息部分用于創(chuàng)建密鑰算法和握手過(guò)程加密算法[12]。TLS握手過(guò)程如圖1所示。鄒潔等[13]采用C4.5決策樹(shù)算法,通過(guò)選取加密流在網(wǎng)絡(luò)中傳輸?shù)牧髟獢?shù)據(jù)特征實(shí)現(xiàn)了加密流量分類(lèi)。TORROLEDO等[14]將TLS證書(shū)信息輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和檢測(cè),證明了證書(shū)信息的可用性。
特征工程是針對(duì)特征屬性值進(jìn)行的處理,主要用于匹配模型輸入要求和提升模型性能。YU等[15]對(duì)惡意軟件進(jìn)行的研究表明,特征工程能夠有效提高分類(lèi)模型檢測(cè)性能。特征選擇是特征工程的一部分,通過(guò)減少特征維度或數(shù)量的方式提高模型的性能。受HUO等[16]啟發(fā),人為選擇的特征存在多重共線(xiàn)性,不能直接進(jìn)行訓(xùn)練,需要通過(guò)特征工程避免特征共線(xiàn)性問(wèn)題,進(jìn)而提升檢測(cè)模型性能。
半監(jiān)督方法通過(guò)小規(guī)模標(biāo)注樣本和大量無(wú)標(biāo)注樣本進(jìn)行訓(xùn)練,對(duì)標(biāo)注樣本需求量低,能夠有效減少基于機(jī)器學(xué)習(xí)的加密惡意流量檢測(cè)方法對(duì)標(biāo)注樣本的依賴(lài)性。
協(xié)同訓(xùn)練方法是半監(jiān)督方法的一種,又稱(chēng)基于分歧的方法[17],能夠綜合考慮同一對(duì)象不同視圖的特征,通過(guò)多次迭代減少不同視圖分類(lèi)器分類(lèi)結(jié)果的不一致性,得到更優(yōu)的訓(xùn)練模型參數(shù)來(lái)提升性能。當(dāng)兩個(gè)視圖具有較強(qiáng)獨(dú)立性時(shí),采用協(xié)同訓(xùn)練方法能夠有效利用無(wú)標(biāo)注樣本信息提升分類(lèi)效果。盧宛芝等[18]提出了一種半監(jiān)督協(xié)同訓(xùn)練模型,利用協(xié)同訓(xùn)練策略組合了原始字節(jié)流特征和網(wǎng)絡(luò)流統(tǒng)計(jì)特征實(shí)現(xiàn)了惡意流量分類(lèi),但該方法采用同質(zhì)的極端隨機(jī)樹(shù)分類(lèi)器,對(duì)不同視圖適配性差,并且沒(méi)有針對(duì)加密流量,應(yīng)用于加密流量檢測(cè)會(huì)造成準(zhǔn)確性下降。ABDELGAYED等[19]提出一種SSML(Semi-Supervised Machine Learning)模型,采用異質(zhì)的決策樹(shù)分類(lèi)器和K近鄰分類(lèi)器進(jìn)行協(xié)同,構(gòu)造檢測(cè)模型進(jìn)行檢測(cè)。ILIYASU等[20]提出一種DCGAN(Deep Convolutional Generative Adversarial Network)模型,利用DCGAN模型生成的樣本以及無(wú)標(biāo)注的樣本提高在小規(guī)模標(biāo)注樣本下訓(xùn)練的分類(lèi)器的性能。
網(wǎng)絡(luò)中的信息是以流的形式傳輸?shù)?網(wǎng)絡(luò)流量數(shù)量龐大,特征多樣,而且具有較高的概念漂移。因此對(duì)基于機(jī)器學(xué)習(xí)的方法而言,數(shù)據(jù)集的質(zhì)量決定著模型在真實(shí)環(huán)境下的性能。半監(jiān)督學(xué)習(xí)可以在小規(guī)模標(biāo)注樣本的條件下實(shí)現(xiàn)高效的檢測(cè)效果。為了驗(yàn)證MCC檢測(cè)模型的性能,文中使用CTU-13[21]數(shù)據(jù)集,該數(shù)據(jù)集包含單獨(dú)運(yùn)行13種惡意軟件所產(chǎn)生并捕獲的惡意流量和正常情況下捕獲的良性流量,并以pcap流量包的形式進(jìn)行存儲(chǔ)。選擇數(shù)據(jù)集中具有單一類(lèi)別惡意軟件的惡意流量包6個(gè)和良性流量包1個(gè),并篩選出其中的TLS加密流量構(gòu)成樣本集,如表1所示。

表1 CTU-13數(shù)據(jù)集 條
將原始pcap流量包進(jìn)行合并與清洗后,使用Zeek工具[22]進(jìn)行特征提取,得到流特征、連接特征及TLS證書(shū)特征。流特征與連接特征同屬流元數(shù)據(jù)特征[23],表征的是流的建立與傳輸過(guò)程,描述的是流的行為側(cè)的交互特征,獨(dú)立性較弱;TLS證書(shū)特征表征的是認(rèn)證過(guò)程中握手行為和報(bào)頭的屬性,與流元數(shù)據(jù)特征間具有較強(qiáng)獨(dú)立性。采用具有較強(qiáng)獨(dú)立性的視圖進(jìn)行協(xié)同訓(xùn)練能夠增強(qiáng)特征對(duì)加密流量的表示能力,從而輔助增強(qiáng)檢測(cè)效果。同時(shí),采用加密流量中獨(dú)立性強(qiáng)的特征能夠解決特征多重共線(xiàn)性問(wèn)題,進(jìn)而降低對(duì)檢測(cè)模型的影響。
(1) 流元數(shù)據(jù)特征由流特征和連接特征組合而成,包含數(shù)據(jù)傳輸過(guò)程中的數(shù)據(jù)包大小、字節(jié)分布和上下文等80個(gè)統(tǒng)計(jì)特征,能夠表示通信建立連接的過(guò)程和連接后的流量行為。
(2) TLS證書(shū)特征包含TLS握手過(guò)程和相關(guān)證書(shū)特征,文中選取了certificate issuer,certificate subject,cipher[24]。其中,certificate issuer表示證書(shū)簽名的簽發(fā)者,certificate subject表示證書(shū)的主體,cipher表示采用的加密算法套件。
(1) 視圖1。流元數(shù)據(jù)特征中特征的屬性值為數(shù)值型,為消除數(shù)據(jù)量綱不同對(duì)分類(lèi)結(jié)果造成的影響,對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理:
(1)

(2) 視圖2。TLS證書(shū)特征中特征的屬性值重復(fù)性比較高,直接編碼容易造成維度災(zāi)難。因此采用詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)編碼[25]。TF-IDF編碼是一種根據(jù)詞頻數(shù)進(jìn)行編碼的方法,認(rèn)為詞頻越小的單詞區(qū)分能力越大,該方法能夠提取關(guān)鍵詞,更好地處理重復(fù)性高的特征。此外,由于編碼后的數(shù)據(jù)是原來(lái)數(shù)據(jù)的高維映射,維度的提升會(huì)造成計(jì)算資源的浪費(fèi)。主成分分析(Principal Component Analysis,PCA)法[26]是一種無(wú)監(jiān)督的降維方法,通過(guò)投影找出全新的相互正交的特征,快速實(shí)現(xiàn)對(duì)原特征的降維。因此,選擇PCA法對(duì)編碼后的特征進(jìn)行降維,根據(jù)特征貢獻(xiàn)率選擇前58個(gè)主成分,進(jìn)而構(gòu)建視圖2。
視圖1在構(gòu)建過(guò)程中存在部分關(guān)鍵屬性值缺失的問(wèn)題。XGBoost分類(lèi)器能夠自動(dòng)處理缺失數(shù)據(jù),并能通過(guò)雙向剪枝,降低模型過(guò)擬合風(fēng)險(xiǎn)。因此,選擇XGBoost分類(lèi)器作為視圖1的分類(lèi)器。
針對(duì)視圖2,在TF-IDF編碼和PCA降維的過(guò)程中會(huì)生成新的特征映射關(guān)系,但這種映射會(huì)導(dǎo)致原有信息缺失。由于隨機(jī)森林分類(lèi)器對(duì)缺失數(shù)據(jù)不敏感,且能夠?qū)δP偷恼`差產(chǎn)生無(wú)偏估計(jì)。因此,選擇隨機(jī)森林分類(lèi)器作為視圖2的分類(lèi)器。
利用視圖1和視圖2獨(dú)立性強(qiáng)、相關(guān)性低的特點(diǎn),通過(guò)協(xié)同訓(xùn)練策略構(gòu)建MCC檢測(cè)模型對(duì)TLS加密惡意流量進(jìn)行檢測(cè)。MCC檢測(cè)模型的算法思想如算法1所示。
算法1MCC檢測(cè)模型算法思想。
輸入:標(biāo)注樣本集L;無(wú)標(biāo)注樣本集U
輸出:flag
① 從U中選擇u個(gè)未標(biāo)注的樣本構(gòu)成樣本池U′
② 迭代k次:
使用L中第一視圖訓(xùn)練分類(lèi)器C1
使用L中第二視圖訓(xùn)練分類(lèi)器C2
C1從U′中標(biāo)注p個(gè)正樣本和n個(gè)負(fù)樣本
C2從U′中標(biāo)注p個(gè)正樣本和n個(gè)負(fù)樣本
添加2p+2n個(gè)標(biāo)注樣本至L
隨機(jī)從U中抽2p+2n個(gè)樣本到U′
③ 將待檢測(cè)加密流量樣本輸入到模型中進(jìn)行預(yù)測(cè),得到每一個(gè)樣本的標(biāo)簽值flag
④ 判斷flag值,1表示惡意流量,0表示良性流量
其中,MCC檢測(cè)模型工作過(guò)程為:先根據(jù)標(biāo)注樣本進(jìn)行模型預(yù)訓(xùn)練,進(jìn)一步根據(jù)預(yù)訓(xùn)練的模型對(duì)未標(biāo)注樣本進(jìn)行預(yù)測(cè),并輸出每個(gè)未標(biāo)注樣本被預(yù)測(cè)為良性或惡意標(biāo)簽的概率;預(yù)測(cè)概率值越大的樣本置信度越高。從協(xié)同分類(lèi)器標(biāo)注的樣本中挑選出置信度高的2p+2n個(gè)樣本進(jìn)行標(biāo)注,將已標(biāo)注樣本添加至L中,為保證樣本池U′中樣本量與初始樣本量一致,從U中補(bǔ)充2p+2n個(gè)樣本至樣本池U′中,參與下一輪迭代。最后將測(cè)試集樣本輸入模型進(jìn)行分類(lèi)。筆者所提出的基于MCC檢測(cè)模型的TLS加密惡意流量檢測(cè)過(guò)程如圖2所示。
4.1.1 實(shí)驗(yàn)環(huán)境
研究基于Python3.9搭建了實(shí)驗(yàn)環(huán)境,實(shí)驗(yàn)所使用的硬件設(shè)備為64位Windows 10操作系統(tǒng),采用Inter? Xeno? Gold 5210 CPU @2.20 GHz 2.19 GHz 雙處理器,內(nèi)存32 GB。
4.1.2 評(píng)價(jià)指標(biāo)
為了驗(yàn)證所提利用協(xié)同訓(xùn)練的多視圖加密惡意流量檢測(cè)方法的有效性,采用準(zhǔn)確度(Acc),召回率(Rec)和誤報(bào)率(FPR)3個(gè)指標(biāo)對(duì)檢測(cè)結(jié)果進(jìn)行評(píng)估:
(2)
(3)
(4)
其中,TP表示惡意樣本被正確識(shí)別為惡意樣本的數(shù)量,TN表示良性樣本被正確識(shí)別為良性樣本的數(shù)量,FP表示惡意樣本被錯(cuò)誤識(shí)別為良性樣本的數(shù)量,FN表示良性樣本被錯(cuò)誤識(shí)別為惡意樣本的數(shù)量。
4.2.1 視圖1和XGBoost分類(lèi)器
選取了特征重要性值最大的前6個(gè)特征構(gòu)成視圖1,如表2所示。將視圖1輸入XGBoost分類(lèi)器中,采用網(wǎng)格搜索法,確定分類(lèi)器參數(shù):樹(shù)的最大深度為4,迭代次數(shù)為100。

表2 特征重要性最大的前6個(gè)特征
4.2.2 視圖2和RF分類(lèi)器
選取特征貢獻(xiàn)率閾值為0.9[26],保留前58個(gè)主成分,構(gòu)成視圖2。并通過(guò)網(wǎng)格搜索法確定RF分類(lèi)器參數(shù):樹(shù)的最大深度為9,森林中樹(shù)的數(shù)量為30。
在保證惡意流量與良性流量樣本數(shù)量比例一致的前提下,將樣本集按照7∶3的比例劃分為訓(xùn)練集與測(cè)試集。訓(xùn)練集用于訓(xùn)練模型,包括隨機(jī)挑選訓(xùn)練集中小規(guī)模樣本進(jìn)行標(biāo)注構(gòu)成的標(biāo)注樣本集,訓(xùn)練集剩余樣本構(gòu)成的無(wú)標(biāo)注樣本集;測(cè)試集用于檢驗(yàn)所檢測(cè)算法的性能。
4.3.1 與單視圖模型的檢測(cè)結(jié)果對(duì)比
為了探究MCC檢測(cè)模型在小規(guī)模標(biāo)注樣本下的檢測(cè)效果,在全標(biāo)注條件下,針對(duì)單視圖分別進(jìn)行對(duì)比試驗(yàn),每組實(shí)驗(yàn)重復(fù)10次,取其平均值如表3所示,其中,MCC/100指的是MCC檢測(cè)模型在100個(gè)標(biāo)注樣本條件下的性能。

表3 與單視圖模型對(duì)比的性能 %
在單視圖條件下,XGBoost分類(lèi)器在視圖1下的分類(lèi)平均準(zhǔn)確率達(dá)到了99.90%,平均召回率達(dá)到了99.86%,平均誤報(bào)率低于0.07%。RF分類(lèi)器在視圖2 下的分類(lèi)平均準(zhǔn)確率達(dá)到了98.70%,平均召回率達(dá)到了99.28%,平均誤報(bào)率則低于1.9%。相比之下,MCC檢測(cè)模型在100個(gè)標(biāo)注樣本情況下的平均準(zhǔn)確率為99.17%,平均召回率為98.54%,平均誤報(bào)率為0.04%。
由結(jié)果可知,MCC檢測(cè)模型在平均準(zhǔn)確率和平均召回率上基本達(dá)到全標(biāo)注條件下的性能;在平均誤報(bào)率上優(yōu)于單視圖模型所取得的效果。實(shí)驗(yàn)結(jié)果表明,基于MCC檢測(cè)模型的TLS加密流量檢測(cè)算法能夠有效利用小規(guī)模標(biāo)注樣本實(shí)現(xiàn)全監(jiān)督學(xué)習(xí)下的檢測(cè)效果,能夠有效對(duì)加密惡意流量進(jìn)行識(shí)別,減少基于機(jī)器學(xué)習(xí)的檢測(cè)方法對(duì)標(biāo)注樣本的依賴(lài)。
4.3.2 MCC檢測(cè)模型檢測(cè)結(jié)果分析
為了進(jìn)一步探究所提的MCC檢測(cè)模型在不同標(biāo)注樣本數(shù)量下的性能,并探尋樣本標(biāo)注代價(jià)與檢測(cè)性能的平衡,文中在其他條件相同的情況下,在20~100的標(biāo)注樣本區(qū)間上設(shè)置了9組實(shí)驗(yàn)對(duì)標(biāo)注代價(jià)與檢測(cè)性能的平衡進(jìn)行了檢驗(yàn)。實(shí)驗(yàn)結(jié)果如表4所示。

表4 不同標(biāo)注樣本下MCC檢測(cè)模型性能
由表4可得,在僅有20個(gè)標(biāo)注樣本的條件下,MCC檢測(cè)模型的平均準(zhǔn)確率和平均召回率分別為96.88%和95.37%,平均誤報(bào)率低于1.57%。而將標(biāo)注樣本的數(shù)量增加至100個(gè)后,MCC檢測(cè)模型的平均準(zhǔn)確率和平均召回率分別達(dá)到99.17%和98.54%,較20個(gè)標(biāo)注樣本的條件有2.29%和3.17%的提升,平均誤報(bào)率降至0.04%。如圖3和圖4所示,隨著標(biāo)注樣本數(shù)量的逐步增加,MCC檢測(cè)模型的平均準(zhǔn)確率和平均召回率呈上升趨勢(shì),平均誤報(bào)率呈下降趨勢(shì)。但是,在標(biāo)注樣本數(shù)量達(dá)到60個(gè)以后,隨著標(biāo)注樣本數(shù)量的增加,MCC檢測(cè)模型的性能沒(méi)有明顯的提升。該結(jié)果說(shuō)明在一定標(biāo)注樣本數(shù)量的范圍內(nèi),隨著標(biāo)注樣本數(shù)量的增加,檢測(cè)模型性能提升效果顯著,但當(dāng)標(biāo)注樣本達(dá)到一定數(shù)量時(shí),再增加標(biāo)注樣本數(shù)量,對(duì)檢測(cè)模型性能的提升效果不再顯著。

圖3 MCC檢測(cè)模型Acc和Rec變化圖

圖4 MCC檢測(cè)模型FPR變化圖
4.3.3 與先進(jìn)算法對(duì)比
為了驗(yàn)證所提模型的優(yōu)越性,將提出的MCC檢測(cè)模型與基于協(xié)同訓(xùn)練策略的文獻(xiàn)[18]、SSML[19]檢測(cè)模型和基于生成對(duì)抗網(wǎng)絡(luò)的DCGAN[20]檢測(cè)模型進(jìn)行對(duì)比。在節(jié)3.1.1所述實(shí)驗(yàn)環(huán)境下,MCC檢測(cè)模型的參數(shù)如節(jié)3.2所述;文獻(xiàn)[18]檢測(cè)模型中的極端隨機(jī)樹(shù)分類(lèi)器采用默認(rèn)參數(shù);SSML檢測(cè)模型中的決策樹(shù)分類(lèi)器和K近鄰分類(lèi)器均采用默認(rèn)參數(shù);按照節(jié)3.3.2所述的標(biāo)注樣本數(shù)量設(shè)置進(jìn)行實(shí)驗(yàn),DCGAN模型參數(shù)設(shè)置為源文獻(xiàn)中參數(shù)。實(shí)驗(yàn)結(jié)果如圖5和圖6所示。

圖5 4種模型Acc結(jié)果對(duì)比

圖6 4種模型Rec結(jié)果對(duì)比
文中所提出的MCC檢測(cè)模型效果在平均準(zhǔn)確率和平均誤報(bào)率上均優(yōu)于其他3種檢測(cè)模型。相較于文獻(xiàn)[18]和SSML兩個(gè)檢測(cè)模型,在平均準(zhǔn)確率上分別提升了約2.08%和8.40%,在平均召回率上分別提升了約4.87%和17.16%。相較于DCGAN檢測(cè)模型,在平均準(zhǔn)確率上提高了約38.42%,在平均召回率上提高了約68.46%。實(shí)驗(yàn)結(jié)果表明,文中所提出的MCC檢測(cè)模型不僅較現(xiàn)有基于協(xié)同訓(xùn)練的模型具有較大的性能提升,相較于基于生成對(duì)抗網(wǎng)絡(luò)的模型具有更大的性能提升,驗(yàn)證了MCC檢測(cè)模型的優(yōu)越性。
研究針對(duì)現(xiàn)有加密惡意流量機(jī)器學(xué)習(xí)檢測(cè)方法高度依賴(lài)標(biāo)注樣本的問(wèn)題,提出了一種使用半監(jiān)督學(xué)習(xí)的加密惡意流量識(shí)別的多視圖協(xié)同訓(xùn)練方法,建立了基于協(xié)同訓(xùn)練的高效分類(lèi)器,結(jié)合加密流量的流量行為元數(shù)據(jù)特征和流量交互初始的證書(shū)特征,利用少量標(biāo)注樣本和大規(guī)模無(wú)標(biāo)注樣本對(duì)所提模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該檢測(cè)模型以少量標(biāo)注代價(jià)達(dá)到全標(biāo)注條件下的惡意流量識(shí)別效能,能夠有效緩解流量識(shí)別任務(wù)的標(biāo)簽數(shù)據(jù)依賴(lài)?yán)щy;通過(guò)試驗(yàn)得到標(biāo)注樣本的需求規(guī)模,結(jié)合人機(jī)協(xié)同的工程設(shè)計(jì)方案,提升了惡意流量檢測(cè)模型泛化性和迭代速率。實(shí)驗(yàn)表明,文中提出的方案優(yōu)于現(xiàn)有半監(jiān)督學(xué)習(xí)流量檢測(cè)方法。本文提出多視圖加密惡意流量檢測(cè)方法能夠以少量的標(biāo)注代價(jià)實(shí)現(xiàn)TLS加密惡意流量的高效檢測(cè),有效緩解了加密流量領(lǐng)域惡意樣本演進(jìn)迅速、人工安全知識(shí)依賴(lài)的現(xiàn)狀,能夠投入實(shí)際的工業(yè)界實(shí)際檢測(cè)任務(wù)應(yīng)用。下一步將就檢測(cè)模型的魯棒性進(jìn)行多場(chǎng)景驗(yàn)證和改進(jìn)。