基于機(jī)器學(xué)習(xí)的TLS惡意加密流量檢測(cè)方案

2020-04-15 03:46:58駱子銘許書(shū)彬劉曉東

網(wǎng)絡(luò)與信息安全學(xué)報(bào) 2020年1期

駱子銘，許書(shū)彬，劉曉東

駱子銘1,2，許書(shū)彬1，劉曉東1

（1. 中國(guó)電子科技集團(tuán)公司第五十四研究所，河北石家莊 050081；2. 石家莊通信測(cè)控技術(shù)研究所，河北石家莊 050081）

首先介紹了安全傳輸層（TLS，transport layer security）協(xié)議的特點(diǎn)、流量識(shí)別方法；然后給出了一種基于機(jī)器學(xué)習(xí)的分布式自動(dòng)化的惡意加密流量檢測(cè)體系；進(jìn)而從TLS特征、數(shù)據(jù)元特征、上下文數(shù)據(jù)特征3個(gè)方面分析了惡意加密流量的特征；最后，通過(guò)實(shí)驗(yàn)對(duì)幾種常見(jiàn)機(jī)器學(xué)習(xí)算法的性能進(jìn)行對(duì)比，實(shí)現(xiàn)了對(duì)惡意加密流量的高效檢測(cè)。

安全傳輸層；惡意加密流量；機(jī)器學(xué)習(xí)

1 引言

隨著安全傳輸層（TLS）協(xié)議的廣泛使用，網(wǎng)絡(luò)中的加密流量越來(lái)越多，識(shí)別這些加密的流量是否安全可靠，給網(wǎng)絡(luò)安全防御帶來(lái)了巨大挑戰(zhàn)。傳統(tǒng)的流量識(shí)別方法，如基于深度包檢測(cè)或者模式匹配等方法都對(duì)加密流量束手無(wú)策，因此識(shí)別網(wǎng)絡(luò)加密流量中包含的威脅是一項(xiàng)具有挑戰(zhàn)性的工作[1]。

由于網(wǎng)絡(luò)基礎(chǔ)設(shè)施安全的重要性，其對(duì)檢測(cè)的準(zhǔn)確率和誤報(bào)率有較高的要求。同時(shí)，僵尸網(wǎng)絡(luò)、網(wǎng)絡(luò)入侵、惡意加密流量等網(wǎng)絡(luò)攻擊，具有攻擊量大、形式多樣化的特點(diǎn)，對(duì)于該類(lèi)攻擊檢測(cè)需要能夠做出快速實(shí)時(shí)地響應(yīng)。基于機(jī)器學(xué)習(xí)的惡意加密流量檢測(cè)，一直是近年來(lái)網(wǎng)絡(luò)安全領(lǐng)域的研究熱點(diǎn)[2]。

目前惡意加密流量檢測(cè)研究，主要側(cè)重于加密流量特征分析[3]，以及機(jī)器學(xué)習(xí)算法的選擇問(wèn)題[4]，缺乏成熟的惡意加密流量檢測(cè)體系。通過(guò)合理的檢測(cè)體系，構(gòu)建具有代表性的樣本數(shù)據(jù)庫(kù)，實(shí)時(shí)動(dòng)態(tài)檢測(cè)分析惡意加密流量攻擊，將能夠快速實(shí)施響應(yīng)并采取防御措施。本文所討論的加密流量限于采用TLS協(xié)議進(jìn)行加密的網(wǎng)絡(luò)流量，故文中提到的“惡意加密流量”和“TLS惡意流量”均代指采用TLS協(xié)議加密的惡意流量。

2 TLS協(xié)議

安全傳輸層協(xié)議位于傳輸層和應(yīng)用層之間，是一種在兩個(gè)通信應(yīng)用程序之間提供安全通信的協(xié)議，保證了網(wǎng)絡(luò)通信數(shù)據(jù)的完整性和保密性[5]。TLS協(xié)議是由握手協(xié)議、記錄協(xié)議、更改密文協(xié)議和警報(bào)協(xié)議組成的。

2.1 TLS握手協(xié)議

握手協(xié)議是TLS協(xié)議中十分重要的協(xié)議，客戶(hù)端和服務(wù)端一旦都同意使用TLS協(xié)議，需要通過(guò)握手協(xié)議協(xié)商出一個(gè)有狀態(tài)的連接以傳輸數(shù)據(jù)。通過(guò)握手過(guò)程，通信雙方需要確認(rèn)使用的密鑰和算法，除此之外，還包括數(shù)據(jù)壓縮算法、信息摘要算法等一些數(shù)據(jù)傳輸?shù)倪^(guò)程中需要使用的其他信息。當(dāng)握手協(xié)議完成以后，通信雙方開(kāi)始加密數(shù)據(jù)傳輸。

2.2 TLS流量識(shí)別

由于TLS握手協(xié)議通過(guò)明文傳輸，其可以捕獲PCAP文件并解析數(shù)據(jù)包的頭部信息，通過(guò)比較不同的頭部信息及對(duì)比不同消息的報(bào)文結(jié)構(gòu)，可以判定當(dāng)前的數(shù)據(jù)包是否為T(mén)LS握手協(xié)議的某一特定消息類(lèi)型。一個(gè)完整的TLS會(huì)話(huà)過(guò)程一定包含以下類(lèi)型的消息：ClientHello、ServerHello、ServerHelloDone、ClientKeyExchange、Change CipherSpec。如果在某個(gè)數(shù)據(jù)流中沒(méi)有檢測(cè)到以上消息，那么可以判定其為非TLS流。如果只檢測(cè)到其中一部分消息，則有兩種可能性：一是由于TLS握手過(guò)程不完整導(dǎo)致了連接建立失敗；二是抓包不完整，此數(shù)據(jù)流是TLS流，但由于抓包過(guò)程中存在網(wǎng)絡(luò)延遲等原因，從而導(dǎo)致丟包。在判定過(guò)程中，如果數(shù)據(jù)流中沒(méi)有包含以上提到的5種消息，則將該數(shù)據(jù)流判定為非TLS流，否則，將其判定為一個(gè)TLS流。

3 TLS惡意加密流量特征分析

惡意加密流量的特征一般分為以下3類(lèi)：內(nèi)容特征、數(shù)據(jù)流統(tǒng)計(jì)特征和網(wǎng)絡(luò)連接行為特征[6]。針對(duì)采用TLS協(xié)議的惡意加密流量，本文從TLS特征、數(shù)據(jù)元統(tǒng)計(jì)特征、上下文數(shù)據(jù)特征3個(gè)方面來(lái)分析其特征要素。

3.1 TLS特征

惡意加密流量和良性流量具有非常明顯的TLS特征差異，如表1所示。這些差異主要表現(xiàn)在：提供的密碼組、客戶(hù)端公鑰長(zhǎng)度、TLS擴(kuò)展和服務(wù)器證書(shū)收集所采用的密碼套件等。在流量采集過(guò)程中，可以從客戶(hù)端發(fā)送的請(qǐng)求中獲取TLS版本、密碼套件列表和支持的TLS擴(kuò)展列表。若分別用向量表示客戶(hù)端提供的密碼套件列表和TLS擴(kuò)展列表，可以從服務(wù)器發(fā)送的確認(rèn)包中的信息確定兩組向量的值。同時(shí)從密鑰交換的數(shù)據(jù)包中，得到密鑰的長(zhǎng)度。

3.2 數(shù)據(jù)元統(tǒng)計(jì)特征

惡意流量與良性流量的統(tǒng)計(jì)特征差別主要表現(xiàn)在數(shù)據(jù)包的大小、到達(dá)時(shí)間序列和字節(jié)分布。數(shù)據(jù)包的長(zhǎng)度受UDP、TCP或者ICMP協(xié)議中數(shù)據(jù)包的有效載荷大小影響，如果數(shù)據(jù)包不屬于以上協(xié)議，則被設(shè)置為IP數(shù)據(jù)包的大小。因到達(dá)時(shí)間以毫秒分隔，故數(shù)據(jù)包長(zhǎng)度和到達(dá)時(shí)間序列，可以模擬為馬爾科夫鏈，構(gòu)成馬爾科夫狀態(tài)轉(zhuǎn)移矩陣，從而統(tǒng)計(jì)分析數(shù)據(jù)包在時(shí)序上的特征。

表1 TLS特征

3.3 上下文數(shù)據(jù)特征

上下文數(shù)據(jù)包括HTTP數(shù)據(jù)和DNS數(shù)據(jù)。過(guò)濾掉TLS流中的加密部分，可以得到HTTP流，具體包括出入站的HTTP字段、Content-Type、User-Agent、Accept-Language、Server、HTTP響應(yīng)碼。DNS數(shù)據(jù)包括DNS響應(yīng)中域名的長(zhǎng)度、數(shù)字以及非數(shù)字字符的長(zhǎng)度、TTL值、DNS響應(yīng)返回的IP地址數(shù)、域名在Alexa中的排名。

4 分布式自動(dòng)化惡意加密流量檢測(cè)體系

傳統(tǒng)的安全產(chǎn)品已無(wú)法滿(mǎn)足現(xiàn)有的安全態(tài)勢(shì)需求，如何利用機(jī)器學(xué)習(xí)快速檢測(cè)未知威脅，并盡快做出響應(yīng)，是網(wǎng)絡(luò)安全態(tài)勢(shì)感知中的關(guān)鍵問(wèn)題。利用本文提出的惡意加密流量檢測(cè)方法，進(jìn)一步訓(xùn)練并標(biāo)記分類(lèi)惡意加密流量家族樣本，建立增量式學(xué)習(xí)數(shù)據(jù)庫(kù)，進(jìn)而可以構(gòu)建自動(dòng)化惡意加密流量檢測(cè)體系，有利于更好地降低未知惡意加密流量帶來(lái)的危害。

表2 7個(gè)惡意軟件家族的TLS特征

4.1 惡意流量家族

惡意軟件雖然層出不窮，但大部分惡意軟件是某個(gè)惡意家族的變種。在惡意加密流量檢測(cè)的二分類(lèi)問(wèn)題中，將惡意加密流量提取出來(lái)并對(duì)所屬家族進(jìn)行標(biāo)記，然后重新進(jìn)行訓(xùn)練，將惡意加密流量檢測(cè)轉(zhuǎn)換為通過(guò)流量特征判斷其所屬家族的多分類(lèi)問(wèn)題。獲得訓(xùn)練的數(shù)據(jù)后，需對(duì)分類(lèi)的結(jié)果進(jìn)行分析討論，并盡量減小誤報(bào)率。

表2選取了在TLS特征中，7個(gè)惡意軟件家族的不同表現(xiàn)。除了表中展示的3種特征外，其他特征還包括TLS客戶(hù)端、證書(shū)主題特征，借助這些不同的特征通過(guò)機(jī)器學(xué)習(xí)算法訓(xùn)練，可以有效幫助區(qū)分惡意軟件的家族種類(lèi)。

4.2 增量式學(xué)習(xí)數(shù)據(jù)庫(kù)

在當(dāng)今網(wǎng)絡(luò)環(huán)境下，惡意軟件更新迭代層出不窮，為了保持惡意加密流量檢測(cè)系統(tǒng)的準(zhǔn)確性，系統(tǒng)應(yīng)具有增量式學(xué)習(xí)的能力。

增量式學(xué)習(xí)是指系統(tǒng)在不斷從新的樣本學(xué)習(xí)新的知識(shí)的同時(shí)，還能保存大部分以前已學(xué)習(xí)的知識(shí)。增量式學(xué)習(xí)類(lèi)似于人類(lèi)自身的學(xué)習(xí)模式，這種學(xué)習(xí)的特性，非常適合用于網(wǎng)絡(luò)安全中的惡意軟件檢測(cè)。建立增量式學(xué)習(xí)能力，首先需具有增量式學(xué)習(xí)能力的機(jī)器學(xué)習(xí)算法，其次建立惡意軟件數(shù)據(jù)庫(kù)。

建立惡意軟件數(shù)據(jù)庫(kù)，需從客戶(hù)端和服務(wù)端兩個(gè)角度進(jìn)行數(shù)據(jù)庫(kù)的建立研究。服務(wù)端：實(shí)時(shí)收集新生的惡意軟件產(chǎn)生的流量，并進(jìn)行定期的訓(xùn)練后將特征添加到系統(tǒng)中，實(shí)現(xiàn)增量式學(xué)習(xí)。客戶(hù)端：當(dāng)檢測(cè)到可疑流量時(shí)，分類(lèi)器判定為其他類(lèi)別后，首先需將其上傳至服務(wù)器端，同時(shí)在本地進(jìn)行更新。

4.3 分布式惡意加密流量檢測(cè)體系

利用上文給出的惡意流量檢測(cè)方法，搭建分布式自動(dòng)化惡意流量檢測(cè)體系，如圖1所示。

圖1 分布式自動(dòng)化惡意流量檢測(cè)體系

Figure 1 Distributed automated malicious traffic detection system

搭建的分布式自動(dòng)化惡意流量檢測(cè)體系的算法流程如圖2所示。

步驟1 IDS Agent負(fù)責(zé)采集或收集客戶(hù)端和服務(wù)端需鑒定的文件，計(jì)算文件的 MD5[7]值與File-Hash緩存對(duì)比，如果存在則直接判定為惡意軟件流量，并附上家族標(biāo)簽，否則緩存文件并進(jìn)入下一步。

步驟2 對(duì)象存儲(chǔ)（公有云IAAS組件、OSS）負(fù)責(zé)文件緩存，便于處理海量的鑒定文件，當(dāng)存儲(chǔ)完成后，發(fā)送kafka topic消息。

步驟3 主程序采用多線(xiàn)程方式啟用多個(gè)處理單元，收到kafka消息后，從消息中獲得OSS文件路徑，下載文件到本地并發(fā)送給各個(gè)類(lèi)型的檢測(cè)引擎，如惡意加密流量檢測(cè)、動(dòng)態(tài)/靜態(tài)文件檢測(cè)、Webshell檢測(cè)等。

圖2 分布式自動(dòng)化惡意流量檢測(cè)體系的算法流程

Figure 2 Algorithm flow of distributed automated malicious traffic detection system

步驟4 惡意加密流量檢測(cè)引擎接收文件后，從文件中提取網(wǎng)絡(luò)流量相關(guān)數(shù)據(jù)，并根據(jù)TLS特征、數(shù)據(jù)元統(tǒng)計(jì)特征、上下文數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，然后經(jīng)過(guò)分類(lèi)器進(jìn)行分類(lèi)，將分類(lèi)結(jié)果發(fā)往決策中心。

步驟5 決策中心收到各類(lèi)檢測(cè)結(jié)果后，根據(jù)多類(lèi)決策樹(shù)判斷，并將最終結(jié)果發(fā)往惡意軟件家族分類(lèi)器。

步驟6 形成惡意軟件家族分類(lèi)和未知的惡意分類(lèi)，存儲(chǔ)到Elastic Search以提供給前端用戶(hù)展示。

對(duì)于系統(tǒng)中的機(jī)器學(xué)習(xí)部分，所提交的需要保存的樣本均通過(guò)流量的形式發(fā)送到kafka并存儲(chǔ)到HIVE中，然后導(dǎo)入Spark Mlib進(jìn)行模型計(jì)算，其他通過(guò)公網(wǎng)添加的黑白樣本也通過(guò)同樣的方式加入系統(tǒng)進(jìn)行循環(huán)。在系統(tǒng)資源有限的情況下，大約一周更新一次分類(lèi)模型。

通過(guò)構(gòu)建分布式自動(dòng)化惡意加密流量檢測(cè)體系可以快速高效地獲取加密網(wǎng)絡(luò)數(shù)據(jù)流量，對(duì)數(shù)據(jù)進(jìn)行科學(xué)分析與存儲(chǔ)，縮短檢測(cè)時(shí)間的同時(shí)獲得更準(zhǔn)確的檢測(cè)結(jié)果，并預(yù)測(cè)未知威脅，實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢(shì)感知。

5 TLS惡意流量識(shí)別方法

加密網(wǎng)絡(luò)流量給網(wǎng)絡(luò)安全防御帶來(lái)了巨大的挑戰(zhàn)，在不加解密的基礎(chǔ)上識(shí)別加密流量中包含的威脅具有十分重要的意義。通過(guò)對(duì)惡意加密流量的特征進(jìn)行深入的研究，進(jìn)而探索惡意加密流量與正常流量的特征。然后通過(guò)機(jī)器學(xué)習(xí)的方法來(lái)學(xué)習(xí)這些特征，最終能夠?qū)崟r(shí)動(dòng)態(tài)的區(qū)分網(wǎng)絡(luò)中的惡意與良性流量，檢測(cè)到惡意威脅。

惡意加密流量識(shí)別分為4步：①數(shù)據(jù)采集；②數(shù)據(jù)預(yù)處理；③模型訓(xùn)練；④評(píng)價(jià)驗(yàn)證。

5.1 數(shù)據(jù)采集

數(shù)據(jù)集可以通過(guò)Wireshark從公共網(wǎng)絡(luò)進(jìn)行采集，過(guò)濾掉黑名單上的惡意IP地址流量，默認(rèn)采集到的均為良性流量，而惡意加密流量可以通過(guò)沙箱環(huán)境模擬并采集。以往很多研究采用手工采集的方式或使用公司的私有數(shù)據(jù)集，在某種程度上會(huì)影響檢測(cè)結(jié)果的可信度，所以本文采用公開(kāi)的數(shù)據(jù)集ISCX2012[8]、ISCX VPN-non VPN[9]等。

5.2 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)預(yù)處理階段，因流量數(shù)據(jù)維度較大，本文采用Relief算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。將收集到的數(shù)據(jù)包按照網(wǎng)絡(luò)流的定義進(jìn)行特征提取，降低數(shù)據(jù)維度，可減小后續(xù)分類(lèi)器的錯(cuò)誤率。Relief算法是一種特征權(quán)重算法（feature weighting algorithm），可以根據(jù)特征和類(lèi)別的相關(guān)性賦予不同權(quán)重，當(dāng)權(quán)重小于某個(gè)閾值時(shí)，該特征將被移除。網(wǎng)絡(luò)流是指在一定的時(shí)間內(nèi)，所有的具有相同五元組（源IP地址、源端口號(hào)、目的IP地址、目的端口號(hào)、協(xié)議字段）的網(wǎng)絡(luò)數(shù)據(jù)包所攜帶的數(shù)據(jù)特征總和[10]。源IP地址、源端口號(hào)和目的IP地址、目的端口號(hào)可以互換，從而標(biāo)記一個(gè)雙向的網(wǎng)絡(luò)流。

5.3 模型訓(xùn)練

采集完樣本，首先將一個(gè)網(wǎng)絡(luò)流視為一個(gè)樣本并提取相關(guān)流量特征，將TLS特征、數(shù)據(jù)元統(tǒng)計(jì)特征和上下文數(shù)據(jù)特征建模為行向量作為特征取值，列向量為不同TLS流的矩陣。

擬采用3種機(jī)器學(xué)習(xí)算法分別對(duì)分類(lèi)模型進(jìn)行訓(xùn)練，本文選取支持向量機(jī)（SVM，support vector machine）、隨機(jī)森林（RF，random forest）和極端梯度提升（XGBoost，extreme gradient boosting）算法對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)理論的機(jī)器學(xué)習(xí)算法，其策略為結(jié)構(gòu)風(fēng)險(xiǎn)最小化[11]。它較好地解決了當(dāng)樣本數(shù)量較少時(shí)過(guò)擬合的問(wèn)題，有優(yōu)秀的泛化能力。隨機(jī)森林算法是基于bagging思想的決策樹(shù)模型，隨機(jī)森林中包含很多棵決策樹(shù)，這些決策樹(shù)集成起來(lái)構(gòu)造分類(lèi)器，通過(guò)組合學(xué)習(xí)的方式來(lái)提高整體效果。而且隨機(jī)森林算法具有可高度并行化，能夠處理高維度的數(shù)據(jù)，訓(xùn)練后的模型方差小，及泛化能力強(qiáng)等優(yōu)點(diǎn)[12]。XGBoost算法是把很多樹(shù)模型集成在一起，從而形成一個(gè)強(qiáng)大的分類(lèi)器。它是把速度和效率充分發(fā)揮到極致的GBDT算法，具有計(jì)算復(fù)雜度低、算法的效率高的優(yōu)點(diǎn)[13]。惡意加密流量檢測(cè)模型的訓(xùn)練如圖3所示。

為了避免測(cè)試的偶然性，本文采用十折交叉驗(yàn)證方法，首先把數(shù)據(jù)分成10份，輪流選取其中的9份作為訓(xùn)練數(shù)據(jù)，剩余的1份用作驗(yàn)證數(shù)據(jù)進(jìn)行試驗(yàn)，最后將每次實(shí)驗(yàn)得到的正確率取平均值作為最終精度。

5.4 評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于訓(xùn)練產(chǎn)生的分類(lèi)模型，需按照一定的指標(biāo)進(jìn)行評(píng)估測(cè)試，來(lái)評(píng)價(jià)分類(lèi)器的精準(zhǔn)度。本文將惡意加密流量定為正例，良性流量視為負(fù)例。各種指標(biāo)中相關(guān)參數(shù)如表3所示。

圖3 惡意加密流量檢測(cè)模型訓(xùn)練

Figure 3 Training of encrypted malware traffic identification model

表3 評(píng)價(jià)標(biāo)準(zhǔn)相關(guān)參數(shù)定義

準(zhǔn)確率（Accuracy）的表達(dá)式如式(1)所示。

查準(zhǔn)率（Precision）和查全率（Recall）的定義如式(2)、式(3)所示。

綜合評(píng)價(jià)的定義如式(4)所示。

5.4 實(shí)驗(yàn)結(jié)果

首先評(píng)估了3種機(jī)器學(xué)習(xí)算法對(duì)于4種惡意加密流量中6對(duì)兩兩組合的惡意軟件家族流量的檢測(cè)性能；然后，評(píng)估了3種機(jī)器學(xué)習(xí)算法對(duì)于包含全部4種惡意軟件家族流量的準(zhǔn)確率。最后，對(duì)分類(lèi)器應(yīng)用不同算法時(shí)的查準(zhǔn)率與查全率進(jìn)行了比較。

通過(guò)準(zhǔn)確率比較的二分類(lèi)時(shí)不同機(jī)器學(xué)習(xí)算法對(duì)于4種惡意軟件家族流量?jī)蓛山M合的檢測(cè)效果，如圖4所示。

圖4 惡意軟件家族分類(lèi)準(zhǔn)確率比較

Figure 4 Accuracy comparison of malicious families classification

從圖4可以看到，在絕大多數(shù)情況下，隨機(jī)森林的性能要優(yōu)于SVM和 XGBoost，與XGBoost相比，僅HttpDoS與Infiltrating案例XGBoost準(zhǔn)確率略高，但每個(gè)測(cè)試樣例的差異都不是很大。因此，隨機(jī)森林在當(dāng)前實(shí)驗(yàn)中表現(xiàn)最優(yōu)。

本文還對(duì)多分類(lèi)模型進(jìn)行了實(shí)驗(yàn)，即使用正常流量以及4個(gè)惡意家族的流量數(shù)據(jù)一起訓(xùn)練檢測(cè)模型，結(jié)果如圖5所示。可以看到隨機(jī)森林表現(xiàn)最佳，但僅比XGBoost稍好一點(diǎn)，而SVM相對(duì)較差。實(shí)驗(yàn)結(jié)果表明，盡管惡意家族的流量彼此之間有很大的不同，惡意與良性流量之間的差異通常要更明顯。這表明可以使用一個(gè)檢測(cè)模型過(guò)濾網(wǎng)絡(luò)中的流量，而不需要為某種惡意加密流量單獨(dú)構(gòu)建檢測(cè)模型。因此，基于機(jī)器學(xué)習(xí)的檢測(cè)模型在現(xiàn)網(wǎng)中是比較實(shí)用的。

3種機(jī)器學(xué)習(xí)算法的準(zhǔn)確率的對(duì)比如圖6所示。結(jié)果可以看到，隨機(jī)森林可以得到比XGBoost和SVM更精確和穩(wěn)健的多分類(lèi)結(jié)果，隨機(jī)森林的1值為0.97，優(yōu)于其他兩種機(jī)器學(xué)習(xí)算法。在分類(lèi)準(zhǔn)確率方面，相較XGBoost和SVM，分別提高了為4％和1％。綜上所述，本文搭建的基于機(jī)器學(xué)習(xí)的分布式自動(dòng)化惡意加密流量檢測(cè)體系能夠準(zhǔn)確地對(duì)加密流量進(jìn)行分類(lèi)與異常檢測(cè)。

圖5 機(jī)器學(xué)習(xí)算法性能對(duì)比

Figure 5 Comparison of machine learning algorithms performance

圖6 多分類(lèi)檢測(cè)的準(zhǔn)確率

Figure 6 Accuracy of the multiclass detection

6 結(jié)束語(yǔ)

本文基于TLS握手協(xié)議的特點(diǎn)，分析了惡意加密流量的識(shí)別特征，通過(guò)對(duì)3類(lèi)特征的具體分析，給出了一種基于機(jī)器學(xué)習(xí)的TLS惡意加密流量檢測(cè)方法，并結(jié)合惡意軟件家族樣本分類(lèi)，最終構(gòu)建了一個(gè)分布式自動(dòng)化惡意加密流量檢測(cè)體系，后續(xù)通過(guò)實(shí)驗(yàn)進(jìn)行機(jī)器學(xué)習(xí)算法對(duì)比與驗(yàn)證，為進(jìn)一步提高惡意加密流量的檢測(cè)效果做出了一些探索。

[1] 張蕾, 崔勇, 劉靜, 等. 機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)空間安全研究中的應(yīng)用[J]. 計(jì)算機(jī)學(xué)報(bào), 2018(9): 1943-1975.

ZHANG L, CUI Y, LIU J, et al. Application of machine learning in cyberspace security research[J]. Journal of Computer, 2018(9): 1943-1975.

[2] 王偉. 基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量分類(lèi)及異常檢測(cè)方法研究[D].合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2018.

WANG W. Deep learning for network traffic classification and anomaly detection[D]. Hefei: University of Science and Technology of China, 2018

[3] ANDERSON B, MCGREW, D. Identifying encrypted malware traffic with contextual flow data[C]//ACM Workshop on Artificial Intelligence & Security. 2016:36-41.

[4] ANDERSON B, MCGREW D. Machine learning for encrypted malware traffic classification: accounting for noisy labels and non-stationarity[C]//The 23rd ACM SIGKDD International Conference. 2017: 1725-1729.

[5] 王琳, 封化民, 劉飚, 等. 基于混合方法的SSL VPN加密流量識(shí)別研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2019, 36(2): 321-328.

WANG L, FENG H M, LIU B, et al. SSL VPN encrypted traffic identification based on hybrid method[J]. Computer Applications and Software, 2019, 36(2): 321-328.

[6] 魯剛, 郭榮華, 周穎, 等. 惡意流量特征提取綜述[J]. 信息網(wǎng)絡(luò)安全, 2018, 213(9): 7-15.

LU G, GUO R H, ZHOU Y, et al. Review of malicious traffic feature extration[J]. Netinfo Security, 2018, 213(9): 7-15.

[7] 王可. MD5算法研究[J]. 中文信息，2002(2): 78-81.

WANG K. A research on MD5[J]. Chinese Information, 2002(2): 78-81.

[8] SHIRAVI A, SHIRACI H, TAVALLAEE M, et al. Toward developing a systematic approach to generate benchmark datasets for intrusion detection[J]. Computers & Security, 2012, 31(3): 357-374.

[9] LASHKARI A H, DRAPER-GIL G, MAMUN M S I, et al. Characterization of encrypted and VPN traffic using time-related features[C]//International Conference on Information Systems Security & Privacy. 2016：407-414.

[10] 樸楊, 鶴然, 任俊玲. 基于Stacking的惡意網(wǎng)頁(yè)集成檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(4): 153-160.

PIAO Y, HE R, REN J L. Malicious webpage integrated detection method based on stacking ensemble algorithm[J]. Journal of Computer Applications, 2019, 39(4):153-160.

[11]劉銘, 吳朝霞. 支持向量機(jī)理論與應(yīng)用[J]. 科技視界, 2018, 245(23): 73-74.

LIU M, WU Z X. Theory and application of support vector machine[J]. Science and Technology Vision, 2018, 245(23): 73-74.

[12] BREIMAN L. Random forest[J]. Machine Learning, 2001:1-33.

[13] CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system[C]//The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016.

Scheme for identifying malware traffic with TLS data based on machine learning

LUO Ziming1,2, XU Shubin1, LIU Xiaodong1

1. The 54th Research Institute of China Electronics Technology Group Corporation, Shijiazhuang 050081, China 2. Shijiazhuang Communication Observation and Control Technology Institute, Shijiazhuang 050081, China

Based on analyzing the characteristics of transport layer security (TLS) protocol, a distributed automation malicious traffic detecting system based on machine learning was designed. The characteristics of encrypted malware traffic from TLS data, observable metadata and contextual flow data was extracted. Support vector machine, random forest and extreme gradient boosting were used to compare the performance of the mainstream malicious encryption traffic identification which realized the efficient detection of malicious encryption traffic, and verified the validity of the detection system of malicious encryption traffic.

transport layer security, encrypted malware traffic, machine learning

s: The National Key R&D Program of China (No.2016YFB0800302), Foundation of Science and Technology on Information Assurance Laboratory (No.614211203020717)

TP393

10.11959/j.issn.2096?109x.2020008

駱子銘（1993? ），女，河北石家莊人，石家莊通信測(cè)控技術(shù)研究所碩士生，主要研究方向?yàn)榫W(wǎng)絡(luò)安全。

許書(shū)彬（1981? ），男，河北石家莊人，中國(guó)電子科技集團(tuán)公司第五十四研究所研究員，主要研究方向?yàn)榫W(wǎng)絡(luò)安全。

劉曉東（1983? ），男，河北滄州人，中國(guó)電子科技集團(tuán)公司第五十四研究所高級(jí)工程師，主要研究方向?yàn)榫W(wǎng)絡(luò)安全。

2019?12?03；

2020?01?21

駱子銘，1042984406@qq.com

國(guó)家重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目（No.2016YFB0800302）；信息保障技術(shù)重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目（No.614211203020717）

論文引用格式：駱子銘, 許書(shū)彬, 劉曉東. 基于機(jī)器學(xué)習(xí)的TLS惡意加密流量檢測(cè)方案[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(1): 77-83.

LUO Z M, XU S B, LIU X D. Scheme for identifying malware traffic with TLS data based on machine learning[J]. Chinese Journal of Network and Information Security, 2020, 6(1): 77-83.