999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種針對(duì)木馬流量的特征選擇方法

2021-01-28 03:20:56劉曉潔李貝貝
關(guān)鍵詞:重要性特征評(píng)價(jià)

張 瑜, 劉曉潔, 李貝貝

(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院, 成都 610065)

1 引 言

網(wǎng)絡(luò)攻擊中,木馬作為一種十分隱蔽的惡意程序,常被攻擊者用來(lái)竊取信息、遠(yuǎn)程控制他人主機(jī)并借此構(gòu)建僵尸網(wǎng)絡(luò)來(lái)發(fā)動(dòng)大規(guī)模的攻擊,其中遠(yuǎn)程控制型木馬危害較大,其大多對(duì)通信數(shù)據(jù)進(jìn)行加密,在目標(biāo)機(jī)器上通過(guò)多種方式隱藏自身,檢測(cè)難度較高.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心在《2018年中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告》中指出,2018年境內(nèi)共有659208個(gè)IP地址的主機(jī)被植入木馬或僵尸程序,給網(wǎng)民、企業(yè)以至國(guó)家造成了巨大損失[1].

通過(guò)網(wǎng)絡(luò)會(huì)話流的異常行為識(shí)別木馬是當(dāng)前的研究熱點(diǎn),通過(guò)采集木馬流量并統(tǒng)計(jì)特征來(lái)構(gòu)建異常檢測(cè)模型,部署在網(wǎng)絡(luò)出口節(jié)點(diǎn)上,從而實(shí)現(xiàn)對(duì)未知木馬的檢測(cè),此方式避免了對(duì)加密流量載荷的分析,同時(shí)克服了基于主機(jī)行為的特征碼檢測(cè)方式[2-3]的滯后性.目前,對(duì)木馬通信流量進(jìn)行異常檢測(cè)的研究工作主要集中在以下兩方面.

(1) 對(duì)于木馬會(huì)話流特征提取階段的改進(jìn):李巍等[4]將木馬通信過(guò)程劃分成建立連接、命令交互、保持連接三個(gè)階段,分別提取出代表性特征后建模驗(yàn)證特征的有效性. Jiang等[5]提出一種在木馬通信早期階段進(jìn)行檢測(cè)的方法,將會(huì)話從TCP三次連接開始到數(shù)據(jù)包間隔大于1 s這段時(shí)期定義為流的早期階段,通過(guò)提取該階段的特征進(jìn)行模型構(gòu)建及識(shí)別.但UDP會(huì)話無(wú)法劃定早期階段,且該研究選擇的特征不夠具有代表性.胥攀等[6]在時(shí)間維度上對(duì)木馬通信流進(jìn)行聚類生成通信流簇,在簇上提取特征能夠更精確地描述木馬流量.該方法需要對(duì)提取到的數(shù)據(jù)聚合多次,增加了計(jì)算代價(jià)且損失了實(shí)時(shí)性.

(2) 對(duì)于檢測(cè)階段的改進(jìn):蘭景宏等[7]提出一種木馬流量檢測(cè)集成分類模型以增加分類精度和泛化能力,先對(duì)旋轉(zhuǎn)隨機(jī)森林算法中的主成分變換進(jìn)行均值化改進(jìn),接著采用此旋轉(zhuǎn)森林算法對(duì)原始數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)處理,再選取樸素貝葉斯、C4.5決策樹和支持向量機(jī)構(gòu)建集成分類模型.張兆林等[8]引入人臉識(shí)別領(lǐng)域的Adaboost算法模型,選擇支持向量機(jī)、C4.5決策樹和神經(jīng)網(wǎng)絡(luò)建立集成分類模型,提高了單一算法的檢測(cè)效果.汪潔等[9]提出多層集成分類器的方法檢測(cè)惡意流量,首先采用無(wú)監(jiān)督學(xué)習(xí)框架對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并將其聚成不同的簇,并對(duì)每一個(gè)簇進(jìn)行噪音處理,然后使用隨機(jī)森林、bagging和Adaboost構(gòu)建三層分類器進(jìn)行檢測(cè),達(dá)到了較好的檢測(cè)效果.此類方法[10-11]選擇的特征較少,代表性不足,且存在特征間信息冗余的缺點(diǎn).

針對(duì)以上問(wèn)題,本文提出一種子集規(guī)模自適應(yīng)特征選擇方法.在提取并派生出充分的特征后,先對(duì)提取的特征計(jì)算重要性評(píng)價(jià)系數(shù),接著在每一輪迭代中更新特征的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù),同時(shí)做出排序,使得篩選后的特征具有足夠的代表性,并減小子集中特征的冗余,最后選擇另外兩種特征選擇算法在真實(shí)木馬流量上采用樸素貝葉斯、支持向量機(jī)兩種分類算法進(jìn)行對(duì)比實(shí)驗(yàn).

2 木馬通信行為分析

木馬大多采用C-S架構(gòu)部署,服務(wù)端運(yùn)行在受控主機(jī)上,客戶端運(yùn)行在控制主機(jī)上,這種木馬稱為遠(yuǎn)程控制型木馬.在Windows平臺(tái)上,木馬具有以下行為:磁盤文件操作,包括遠(yuǎn)程運(yùn)行、刪除、修改、上傳及下載;注冊(cè)表讀寫操作;進(jìn)程管理操作;屏幕監(jiān)控和鼠標(biāo)控制;鍵盤記錄及遠(yuǎn)程操作;遠(yuǎn)程執(zhí)行CMD命令;攝像頭及聲音設(shè)備控制.這些行為從網(wǎng)絡(luò)流的角度可以劃分成四類:下行短數(shù)據(jù)流(如控制命令)、上行短數(shù)據(jù)流(如命令執(zhí)行結(jié)果)、下行長(zhǎng)數(shù)據(jù)流(如文件傳輸)、上行長(zhǎng)數(shù)據(jù)流(如屏幕監(jiān)控),這里的上行指服務(wù)端向客戶端發(fā)送的方向,下行則是指客戶端向服務(wù)端發(fā)送的方向,長(zhǎng)短表示流的持續(xù)時(shí)間.在程序通信中,網(wǎng)絡(luò)數(shù)據(jù)流指按照五元組(源IP、目的IP、源端口、目的端口、協(xié)議)對(duì)數(shù)據(jù)包劃分后得到的數(shù)據(jù)包集合,本文將一條網(wǎng)絡(luò)數(shù)據(jù)流定義為一條會(huì)話,通過(guò)對(duì)多種木馬運(yùn)行并分析其會(huì)話數(shù)據(jù)后,劃分以下5類會(huì)話屬性,共提取43個(gè)會(huì)話特征作為初選特征集,用以描述木馬流量與正常流量的差異.

2.1 上下行流特征

相比于正常應(yīng)用程序,木馬服務(wù)端作為受控端,提供竊取信息和執(zhí)行命令的功能,而正常應(yīng)用程序的網(wǎng)絡(luò)行為是獲取信息和發(fā)送請(qǐng)求,反映在流量統(tǒng)計(jì)上則是上行流量遠(yuǎn)高于下行流量,例如攻擊者在下載服務(wù)端上的文件或監(jiān)控服務(wù)端主機(jī)的屏幕時(shí).例如采集到的正常通信流和木馬流在上下行數(shù)據(jù)量比上的取值分布統(tǒng)計(jì)對(duì)比(如圖1所示),從圖1可以看出木馬流量和正常流量的分布差異.本文在此屬性上派生出的6個(gè)會(huì)話特征見表1.

圖1 上下行流量比值差異

2.2 上下行數(shù)據(jù)包特征

在木馬連接和通信過(guò)程中,控制端會(huì)發(fā)送大量的命令到服務(wù)端執(zhí)行,服務(wù)端會(huì)返回執(zhí)行結(jié)果,而命令數(shù)據(jù)大多是較短指令構(gòu)成的小數(shù)據(jù)包(100字節(jié)內(nèi)),返回的內(nèi)容大多是大數(shù)據(jù)包(文件、CMD返回內(nèi)容、音視頻數(shù)據(jù)),例如正常流量與木馬流量在上行大包數(shù)量上的差異如圖2所示,本文在此屬性上派生出的12個(gè)會(huì)話特征見表2.

表1 上下行流特征

圖2 上行大包數(shù)量差異

表2 上下行數(shù)據(jù)包特征

2.3 流標(biāo)志位特征

木馬服務(wù)端在通過(guò)DNS解析到客戶端IP后,會(huì)向該地址不斷發(fā)送連接請(qǐng)求,直到成功連接到客戶端,在這一過(guò)程中,服務(wù)端會(huì)發(fā)起大量的TCP連接請(qǐng)求,產(chǎn)生了大量的帶有SYN標(biāo)志位的數(shù)據(jù)包.同時(shí)為了使兩端的通信延遲更小,發(fā)送方會(huì)在發(fā)送控制數(shù)據(jù)時(shí)將該次連接的PSH標(biāo)志位置1,這樣接收方便會(huì)在執(zhí)行完成后立即返回結(jié)果數(shù)據(jù),而不必等待其他數(shù)據(jù),這也使得會(huì)話中帶有PSH標(biāo)志位的數(shù)據(jù)包占比較正常會(huì)話高,本文在此屬性上提取的兩個(gè)會(huì)話特征見表3.

表3 流標(biāo)志位特征

2.4 數(shù)據(jù)包間隔特征

受害主機(jī)在接收到客戶端發(fā)送的控制命令后,需要執(zhí)行指定的命令,執(zhí)行完成后再將結(jié)果返回給客戶端,攻擊者在收到數(shù)據(jù)后,也需要在分析結(jié)果后給出下一步攻擊命令,這樣就帶來(lái)了較大的數(shù)據(jù)包處理間隔.而正常通信流量的數(shù)據(jù)包間隔往往較小且更穩(wěn)定,如圖3所示,流下行包最大間隔差異,本文在此屬性上派生出14個(gè)特征以描述會(huì)話流,如表4所示.

圖3 流下行包最大間隔差異

表4 數(shù)據(jù)包間隔特征

2.5 會(huì)話流基本特征

由于木馬攻擊活動(dòng)具有持續(xù)性,因此其部分通信連接會(huì)保存較長(zhǎng)的時(shí)間,而正常應(yīng)用程序出于減小服務(wù)器負(fù)載的目的會(huì)在完成信息傳輸后斷開連接,釋放資源,因此大部分正常連接持續(xù)時(shí)間都短于木馬流.同時(shí)為了衡量數(shù)據(jù)流在時(shí)間維度上的差異,本文增加了9個(gè)會(huì)話流基本特征,如表5所示.

表5會(huì)話流基本特征

3 子集規(guī)模自適應(yīng)特征選擇算法

在模式識(shí)別中,特征選擇作為一種降維方法一直是研究的熱點(diǎn)[12-16],考慮到特征對(duì)模型預(yù)測(cè)能力的影響以及特征間的相關(guān)性,通過(guò)某種方法從原始特征集合中選擇更優(yōu)的特征子集后,能夠在后續(xù)機(jī)器學(xué)習(xí)模型中得到更好的預(yù)測(cè)效果,同時(shí)降低在大規(guī)模數(shù)據(jù)下的計(jì)算代價(jià).

按照搜索策略來(lái)劃分特征選擇方法,可以分為采用全局最優(yōu)搜索的特征選擇算法、采用隨機(jī)搜索策略的特征選擇算法和采用序列搜索策略的特征選擇算法三類.其中采用全局最優(yōu)搜索可以找到最優(yōu)子集,但計(jì)算代價(jià)也是最大的,目前使用較廣泛的是后兩者[17-19].若按照特征子集評(píng)價(jià)標(biāo)準(zhǔn)來(lái)劃分特征選擇方法,主要分為Filter(過(guò)濾法)和Wrapper(包裝法).其中,F(xiàn)ilter方法獨(dú)立于后續(xù)機(jī)器學(xué)習(xí)算法的結(jié)果,通過(guò)某些統(tǒng)計(jì)指標(biāo)來(lái)衡量選擇的優(yōu)劣,使用較廣泛的指標(biāo)有特征間距離、特征信息熵等;而Wrapper方法將后續(xù)采用的機(jī)器學(xué)習(xí)算法的結(jié)果作為指標(biāo)來(lái)衡量特征選擇的優(yōu)劣,這種方法與算法結(jié)合得更加緊密,但也損失了特征選擇的一般性.

本文采用序列搜索中的后向選擇策略和Filter式的評(píng)價(jià)標(biāo)準(zhǔn)構(gòu)造特征選擇算法.

3.1 特征重要性及聯(lián)合相關(guān)性度量

本文在后向選擇策略的基礎(chǔ)上,定義特征重要性評(píng)價(jià)系數(shù)以及特征的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù).基于這兩系數(shù),本節(jié)提出一種特征子集自適應(yīng)選擇算法(Adaptive Feature Subset Selection Algorithm, AFSA),AFSA算法通過(guò)每一輪迭代計(jì)算特征間的組合效應(yīng),選出最優(yōu)特征,且能自適應(yīng)地確定特征數(shù)量.

3.1.1 改進(jìn)的重要性及聯(lián)合相關(guān)性評(píng)價(jià)系數(shù) 特征的重要性評(píng)價(jià)系數(shù)指通過(guò)該特征識(shí)別出某類C的能力強(qiáng)弱,重要性評(píng)價(jià)系數(shù)越大,說(shuō)明通過(guò)該特征能夠更好地區(qū)分類C與其他類.根據(jù)香農(nóng)信息熵理論,若某特征f在類C上的取值范圍較集中,表示其不確定性較小,在類C上具有較強(qiáng)代表性,同時(shí),若特征f在類C1和C2上的取值分布范圍重合區(qū)間較小,表示該特征在此兩類上分布差異較大,通過(guò)特征f能夠很好地區(qū)分類C1和C2.特征重要性評(píng)價(jià)系數(shù)結(jié)合了特征f的取值集中程度和在不同類上的分布差異.

特征的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)則用來(lái)衡量特征f與剩余特征集合的相關(guān)性關(guān)系,本文采用標(biāo)準(zhǔn)化互信息來(lái)計(jì)算兩兩特征間的相關(guān)性,若特征f與剩余特征相關(guān)性較高,且在去除該特征后剩余特征集合內(nèi)相關(guān)性較低,則表明該特征給特征集合帶來(lái)了較大的冗余信息.基于以上分析,本節(jié)給出以下的定義.

假定有木馬流量數(shù)據(jù)集S,包含M條數(shù)據(jù),每條數(shù)據(jù)由N個(gè)特征值和一個(gè)類別標(biāo)簽構(gòu)成,廣義上有兩種類別:木馬流量和正常流量,但正常流量間具有差異性,因此本文先對(duì)正常流量通過(guò)K-Means聚類后,根據(jù)結(jié)果更新正常流量這一類別,同時(shí)本文采用Z-score方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化以消除不同量綱的影響.

定義1特征集中度Pim,表示特征fi在Cm類上的分布集中度.

Pim=1/(Zmax-Zmin)Vs

(1)

其中,Zmax、Zmin為標(biāo)準(zhǔn)化后特征最大、最小值;Vs表示特征取值的離散系數(shù).

定義2特征值分布差異Dimn.

Dimn=nim·nin/nimn2

(2)

從圖1~圖3可以看出,同一特征在兩類上取值分布具有差異,其中,nimn表示兩類在同一特征上取值重合區(qū)間內(nèi)樣本數(shù);nim、nin分別表示兩類的樣本總數(shù).

定義3特征重要性評(píng)價(jià)系數(shù)Ii.

(3)

特征重要性評(píng)價(jià)系數(shù)衡量了特征f在木馬類別上取值集中程度及與其他類的分布差異,該值越大,表示特征在選擇時(shí)權(quán)重越大.

定義4特征聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)Ei.

該評(píng)價(jià)系數(shù)的思想來(lái)源于圖像關(guān)聯(lián)分析中的關(guān)聯(lián)信息熵[20],是一種度量信息冗余的指標(biāo),文獻(xiàn)[13]引入該思想到特征選擇中,相較于文獻(xiàn)[13]中提出的關(guān)聯(lián)信息熵公式,本文采用特征間標(biāo)準(zhǔn)化互信息作為矩陣元素,更好地度量特征集整體的相關(guān)性.設(shè)有原始木馬流量特征集合F={f1,f2,f3, ... ,fN},從中選擇特征fk后剩余特征子集F/fk,基于特征間的相關(guān)關(guān)系,構(gòu)造以下相關(guān)性模型Hk,形式為

(4)

例如F={f1,f2,f3,f4,f5}時(shí)f2的相關(guān)性模型H2的形式如下.

(5)

Hk為一個(gè)N-1階方陣,矩陣元素NMIij為兩個(gè)特征間的標(biāo)準(zhǔn)化互信息:

(6)

其中,I(X;Y)為X和Y的互信息;H(X)和H(Y)為X和Y的熵,根據(jù)性質(zhì)知0≤NMIij≤1,NMIij=NMIji,那么Hk為實(shí)對(duì)稱方陣.對(duì)稱方陣進(jìn)行特征分解得到的特征值表示在各個(gè)特征向量上矩陣的信息量,而每個(gè)特征對(duì)相關(guān)性影響可以用其特征值表示,假定Hk存在K個(gè)正特征值ek,定義特征聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)為

(7)

當(dāng)特征fk與其他特征完全相關(guān),且特征子集間相互無(wú)關(guān)時(shí),矩陣Hk成為單位矩陣I,單位矩陣的特征值均為1,根據(jù)式(7)可以計(jì)算出Ei為1,這時(shí)將特征fk視為帶來(lái)較大不確定性的特征,在后續(xù)選擇中權(quán)重較低,若特征fk與其他特征不相關(guān),此時(shí)Ei為0,將該特征視為帶來(lái)較小不確定性的特征,后續(xù)選擇中權(quán)重更高,因此該系數(shù)滿足特征選擇的要求.

3.2 子集規(guī)模自適應(yīng)后向特征選擇算法

通過(guò)3.1節(jié)定義的兩個(gè)評(píng)價(jià)系數(shù),本文設(shè)計(jì)了基于序列后向選擇的子集規(guī)模自適應(yīng)特征選擇算法,特征選擇中如何確定移除的特征數(shù)量是一個(gè)研究熱點(diǎn),而人工設(shè)定數(shù)量的方式不夠靈活,本文算法通過(guò)以下策略對(duì)子集規(guī)模進(jìn)行控制,如算法1所示.

算法1 特征子集自適應(yīng)后向選擇算法-AFSA

輸入原始特征集合F,數(shù)據(jù)集,類別C.

輸出終選特征子集S.

1) 遍歷F,計(jì)算特征f重要性評(píng)價(jià)系數(shù)If;

2) 計(jì)算重要性評(píng)價(jià)系數(shù)均值Ie,將低于均值的特征放到預(yù)移除特征集合Fd中,剩余特征為集合Fr,F(xiàn)=Fd+Fr;

3) 計(jì)算F的特征間標(biāo)準(zhǔn)化互信息NMIij;

4) 遍歷Fr,計(jì)算每個(gè)特征相對(duì)于Fr的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)Eri,同時(shí)計(jì)算Fr聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)均值和重要性評(píng)價(jià)系數(shù)均值的比值Rri作為參照值,以Fr中特征的系數(shù)比值最小值作為適應(yīng)值;

5) 遍歷Fd,計(jì)算每個(gè)特征相對(duì)于Fd+Fr的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)Edi,計(jì)算聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)均值和重要性評(píng)價(jià)系數(shù)均值的比Rdi后做升序排序;

6) 若Fd中末尾特征flast的Rd大于參照值Rri,則在Fd中移除特征flast,否則結(jié)束,若第一輪比較時(shí)無(wú)可移除特征,那么令Rri為步驟4)中的適應(yīng)值;

7) 若Fd為空,算法結(jié)束,否則回到步驟5);

8) 結(jié)束后輸出特征選擇結(jié)果Fd+Fr.

由于上述步驟6)第一次移除時(shí),可能出現(xiàn)無(wú)法移除特征的情況,本文的目標(biāo)是盡可能移除較差作用特征,因此算法考慮對(duì)參照值Rri作一定范圍調(diào)整,即以Fr中特征的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)和重要性評(píng)價(jià)系數(shù)比的最小值作為參照值Rri,若仍然無(wú)可移除特征,算法終止,表明原始特征集合較為優(yōu)異.

3.3 算法復(fù)雜度分析

盡管特征選擇在整個(gè)檢測(cè)系統(tǒng)只需進(jìn)行一次,但算法的計(jì)算代價(jià)也需要盡可能的低.按照3.1節(jié)中所述,設(shè)有N維特征,M個(gè)類別,k條樣本數(shù)據(jù),3.2節(jié)算法中計(jì)算特征重要性評(píng)價(jià)系數(shù)代價(jià)為O(NMk),兩兩特征計(jì)算NMI的計(jì)算代價(jià)為O(k2),最壞情況下迭代次數(shù)為Fd,此時(shí)總的相關(guān)性評(píng)價(jià)系數(shù)計(jì)算代價(jià)為O(N3×N),由于N?k,那么算法時(shí)間復(fù)雜度為O(k2),相較于經(jīng)典的mRMR算法[21]的O(N2k2),本算法計(jì)算代價(jià)更低.

4 實(shí)驗(yàn)測(cè)試及分析

為了驗(yàn)證本文提出方法的有效性,本文設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn):(1) 將本文初選特征集和終選特征集與文獻(xiàn)[7]中16個(gè)特征基于相同分類器做實(shí)驗(yàn)對(duì)比,驗(yàn)證特征提取和特征選擇的有效性;(2) 與常用基于信息熵的特征選擇算法作對(duì)比,驗(yàn)證本文特征選擇算法的改進(jìn)效果.實(shí)驗(yàn)均使用相同的訓(xùn)練集和測(cè)試集,采用樸素貝葉斯分類算法和支持向量機(jī)分類算法.這兩種算法在相關(guān)研究[6-7,10-11]中多被采用,且屬于分類算法中原理差異較大的代表性算法,能夠衡量特征集合的效果.為了得到更為準(zhǔn)確的檢測(cè)效果,本文采用10折交叉驗(yàn)證方法來(lái)計(jì)算評(píng)估指標(biāo).

4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)樣本

本文在四川大學(xué)某實(shí)驗(yàn)室局域網(wǎng)出口搭建了木馬流量檢測(cè)系統(tǒng),測(cè)試局域網(wǎng)共有主機(jī)35臺(tái),其中30臺(tái)為正常使用機(jī)器,用于生成正常流量,5臺(tái)為目標(biāo)機(jī)器用于生成木馬流量,在局域網(wǎng)外設(shè)置一臺(tái)控制主機(jī),用于控制木馬,通過(guò)設(shè)置端口白名單的方式來(lái)保證流量的純凈,網(wǎng)絡(luò)拓?fù)淙鐖D4所示.實(shí)驗(yàn)收集了惡意軟件社區(qū)(VirusShare、Github、MalShare)中上傳的木馬樣本,選擇后帶有控制端的可用木馬共42款.

圖4 木馬流量檢測(cè)系統(tǒng)網(wǎng)絡(luò)環(huán)境

在持續(xù)一周的流量采集中,共捕捉到正常流量32 GB、木馬流量5 GB,在經(jīng)過(guò)流量清洗后,共得到正常會(huì)話流26 778條,木馬流量4 261條.

4.2 實(shí)驗(yàn)評(píng)估指標(biāo)

取木馬流量為Positive,正常流量為Negative.本文使用精確率、召回率和F1值三個(gè)指標(biāo)來(lái)評(píng)價(jià)檢測(cè)效果,定義如下.

精確率: Prec=TP/(FP+TP)

(8)

召回率: Recall=TP/(TP+FN)

(9)

(10)

4.3 實(shí)驗(yàn)及結(jié)果分析

用于對(duì)比的特征選擇算法為快速相關(guān)性過(guò)濾[17](FCBF)和信息增益法(IG),均為基于信息熵的特征選擇方法.其中IG算法以特征的信息增益為指標(biāo),計(jì)算各個(gè)特征的信息增益并作排序,移除信息增益較低的特征,為了更準(zhǔn)確地比較,其移除的數(shù)量設(shè)置與AFSA相同.FCBF算法步驟如算法2所示.

算法2 快速相關(guān)性過(guò)濾算法-FCBF

輸入特征集合F,數(shù)據(jù)集,閾值T,類別C.

輸出特征子集S.

1) 遍歷F,計(jì)算特征fi與類別的標(biāo)準(zhǔn)化互信息SUic;

2) 保留SUic大于閾值T的特征并排序;

3) 以剩余特征中SUi值最大者為主特征,計(jì)算其他特征fj與它的標(biāo)準(zhǔn)化互信息SUij;

4) 將SUij與fj的SUjc值比較,若大于SUjc則移除特征fj;

5) 回到步驟3),在剩余特征中繼續(xù)選擇主特征,直到剩余特征數(shù)為1,輸出子集.

實(shí)驗(yàn)后各算法移除的特征如表6所示.

表6 三種特征選擇算法移除的特征

特征選擇有效性驗(yàn)證結(jié)果見表7和表8,相對(duì)于文獻(xiàn)[7]的特征集,本文初選特征集使用樸素貝葉斯分類時(shí)的精確率和召回率提升分別為0.31%、12.24%,使用SVM時(shí)的提升分別為0.55%、5.2%.通過(guò)本文特征選擇算法得到的終選特征集,使用樸素貝葉斯分類時(shí)的精確率提升為0.88%,召回率提升為2.12%,使用SVM時(shí)的精確率、召回率提升分別為1.25%、1.4%.

表7 樸素貝葉斯分類時(shí)特征選擇有效性驗(yàn)證結(jié)果

表8 支持向量機(jī)分類時(shí)特征選擇有效性驗(yàn)證結(jié)果

總體在召回率上的提升高于精確率上的提升,由于漏報(bào)的危害性大,即召回率的提升更為重要,在SVM分類算法上召回率提升總體小于在樸素貝葉斯分類上的提升,原因是本文特征選擇中一部分影響是聯(lián)合相關(guān)性系數(shù)帶來(lái)的,而樸素貝葉斯對(duì)特征獨(dú)立的強(qiáng)假設(shè)使得本方法帶來(lái)的增益更高.

本文特征選擇算法優(yōu)異性驗(yàn)證結(jié)果如表9和表10所示,在召回率上本文終選特征集較優(yōu),使用樸素貝葉斯分類時(shí)達(dá)到了最高96.92%,F(xiàn)CBF所選的特征集合在精確率上稍高于AFSA算法,但其F1值仍然低于本文終選特征集;且SVM分類時(shí)本文終選特征集達(dá)到最高99.03%的精確率,簡(jiǎn)單使用信息增益的IG算法得到的特征子集檢測(cè)效果最差,召回率與文獻(xiàn)[7]特征集的結(jié)果接近.

表9 樸素貝葉斯分類時(shí)本文算法優(yōu)異性驗(yàn)證結(jié)果

表10 支持向量機(jī)分類時(shí)本文算法優(yōu)異性驗(yàn)證結(jié)果

結(jié)合以上實(shí)驗(yàn)數(shù)據(jù),對(duì)表6特征選擇結(jié)果進(jìn)一步分析.FCBF算法移除的特征與本文AFSA算法移除的特征有一定的重合,在對(duì)算法的每一輪計(jì)算結(jié)果進(jìn)行對(duì)比后發(fā)現(xiàn),其未移除的特征中每秒流的數(shù)據(jù)包數(shù)、總下行包數(shù)量均被劃分到保留特征中,即它們與類別的標(biāo)準(zhǔn)化互信息值較大,但在AFSA移除過(guò)程中,這兩個(gè)特征分別在第2輪、第5輪被移除,它們的重要性評(píng)價(jià)系數(shù)差別并不明顯,但聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)均較大,正是它們給總體特征集合帶來(lái)較大冗余而被移除.同時(shí)FCBF未做特征重要性度量,被其移除的發(fā)送包最大間隔和發(fā)送包間隔均值兩個(gè)特征在AFSA中屬于重要性評(píng)價(jià)系數(shù)較高而保留的特征.該算法需要設(shè)置閾值也給特征選擇帶來(lái)更多的工作和不確定性.

IG算法僅考慮單一特征與類別的相關(guān)程度,忽略了特征間的相關(guān)性,其移除的特征與前兩者差異較大,其中部分特征的重要性評(píng)價(jià)系數(shù)較大,如發(fā)送包最大間隔、數(shù)據(jù)包平均長(zhǎng)度,另外總上行包長(zhǎng)度、下行包間隔總和兩個(gè)特征在AFSA中計(jì)算的聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)較小,但在IG中表現(xiàn)為與類別關(guān)聯(lián)較弱而移除,最終造成較差的實(shí)驗(yàn)結(jié)果.本文算法通過(guò)重要性評(píng)價(jià)系數(shù)預(yù)先劃分一次特征,接著通過(guò)每一輪迭代計(jì)算聯(lián)合相關(guān)性評(píng)價(jià)系數(shù)來(lái)綜合評(píng)價(jià)特征,充分考慮了特征與整體集合的相關(guān)性,得到更優(yōu)的特征子集.

同時(shí)繪制出三種特征選擇算法得到特征集合使用樸素貝葉斯分類結(jié)果的實(shí)驗(yàn)接收者操作特征曲線(Receiver Operating Characteristic, ROC),如圖5所示.

圖5 樸素貝葉斯分類下ROC曲線

計(jì)算三條ROC曲線的AUC(Area Under Curve)值,見表11.

表11 AUC值

圖5及表11也證明本文特征選擇算法相比對(duì)照算法的優(yōu)異性.

5 結(jié) 論

現(xiàn)有基于通信流量的木馬檢測(cè)方法中存在所用特征的代表性不足、特征間信息冗余的問(wèn)題,本文通過(guò)流量分析在一定規(guī)模的真實(shí)數(shù)據(jù)上充分提取木馬會(huì)話特征,通過(guò)定義改進(jìn)的特征重要性評(píng)價(jià)系數(shù)和聯(lián)合相關(guān)性評(píng)價(jià)系數(shù),基于此設(shè)計(jì)一種特征子集自適應(yīng)選擇算法(AFSA).實(shí)驗(yàn)結(jié)果表明,本文算法選擇后特征集合能有效提升木馬檢測(cè)效果.后續(xù)研究將集中于檢測(cè)模型的選擇與實(shí)時(shí)環(huán)境下系統(tǒng)的構(gòu)建.

猜你喜歡
重要性特征評(píng)價(jià)
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
讀《邊疆的重要性》有感
基于Moodle的學(xué)習(xí)評(píng)價(jià)
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 四虎国产在线观看| 国产精品久久久久久久伊一| 亚洲一级无毛片无码在线免费视频| 1769国产精品视频免费观看| 日韩av高清无码一区二区三区| 9丨情侣偷在线精品国产| 色呦呦手机在线精品| 国产第二十一页| 国产av一码二码三码无码| 亚洲无码精彩视频在线观看| jijzzizz老师出水喷水喷出| 黄色福利在线| 熟妇人妻无乱码中文字幕真矢织江| 中文字幕中文字字幕码一二区| 亚洲综合精品第一页| 亚洲精品手机在线| 在线观看欧美国产| 青青草国产免费国产| 欧美一区精品| 欧美久久网| 九九视频免费在线观看| 欧美成人A视频| 亚洲天堂2014| 青青国产视频| 91国内外精品自在线播放| 国产主播在线观看| 精品视频第一页| a级毛片免费网站| 好吊色国产欧美日韩免费观看| 自拍偷拍欧美| 成人国产精品一级毛片天堂| 在线观看免费AV网| 国产精品亚洲а∨天堂免下载| 亚洲欧美国产五月天综合| 国产在线视频自拍| 日韩福利在线观看| 欧美国产精品不卡在线观看| 欧美一级黄片一区2区| jizz国产视频| 亚洲综合色婷婷| 大陆国产精品视频| 精品五夜婷香蕉国产线看观看| 欧美日本在线播放| 91久久青青草原精品国产| 国产精品国产主播在线观看| 精品91视频| 亚洲精品无码人妻无码| 国产视频一区二区在线观看| 91青青草视频| 国产自在自线午夜精品视频| 成人va亚洲va欧美天堂| 亚洲欧美人成电影在线观看| 一本大道香蕉中文日本不卡高清二区| 91网红精品在线观看| 国产日韩欧美黄色片免费观看| 超薄丝袜足j国产在线视频| 国产网站免费看| 久久久久久尹人网香蕉| 99人妻碰碰碰久久久久禁片| 人禽伦免费交视频网页播放| 91小视频在线| 狠狠久久综合伊人不卡| 国产99视频精品免费视频7 | 欧美日韩一区二区三区四区在线观看 | 无码中文AⅤ在线观看| 国产精品手机视频一区二区| 欧美特黄一级大黄录像| 欧美国产在线看| 91九色国产在线| 亚洲av无码人妻| 大乳丰满人妻中文字幕日本| 毛片在线播放网址| 天天摸夜夜操| 97青草最新免费精品视频| 毛片网站在线播放| 国产香蕉一区二区在线网站| 被公侵犯人妻少妇一区二区三区| 国产99热| 亚洲色精品国产一区二区三区| 亚洲欧美日韩天堂| 九色综合视频网| 美女一区二区在线观看|