999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)粗糙集屬性約簡(jiǎn)結(jié)合K-means聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法

2020-08-06 08:28:44
計(jì)算機(jī)應(yīng)用 2020年7期
關(guān)鍵詞:分類(lèi)特征檢測(cè)

王 磊

(蘇州大學(xué)信息化建設(shè)與管理中心,江蘇蘇州215006)(*通信作者電子郵箱wanglei01005@163.com)

0 引言

網(wǎng)絡(luò)安全問(wèn)題一直是全社會(huì)關(guān)注的焦點(diǎn),隨著網(wǎng)絡(luò)環(huán)境的日益復(fù)雜,包括防火墻、安全路由及數(shù)據(jù)加密等靜態(tài)網(wǎng)絡(luò)安全保護(hù)方法已很難滿足人們對(duì)于網(wǎng)絡(luò)安全性能的需求。

入侵檢測(cè)系統(tǒng)(Intrusion Detection System,IDS)作為一種網(wǎng)絡(luò)安全主動(dòng)防御技術(shù),能夠?qū)Ψ阑饓Φ葌鹘y(tǒng)安全保護(hù)體系起到輔助作用[1],通過(guò)監(jiān)控流經(jīng)某個(gè)節(jié)點(diǎn)的流量,實(shí)現(xiàn)對(duì)入侵行為的檢測(cè),并生成報(bào)警信號(hào)發(fā)送至系統(tǒng)管理員,典型的IDS通常包括事件采集、事件分析和事件響應(yīng)三個(gè)核心環(huán)節(jié),其檢測(cè)方法主要可分為兩種類(lèi)型:誤用IDS 和異常IDS。現(xiàn)有IDS均或多或少存在有效性低、適應(yīng)性不強(qiáng)、誤報(bào)率高以及可擴(kuò)展性不高等問(wèn)題。其中:誤用IDS 根據(jù)已知攻擊和系統(tǒng)弱點(diǎn)的參數(shù)識(shí)別入侵,然而它無(wú)法識(shí)別新的或不熟悉的攻擊類(lèi)型;異常IDS 則基于正常行為的參數(shù),并使用它們來(lái)識(shí)別任何與正常行為相差甚遠(yuǎn)的行為[2]。誤用入侵檢測(cè)的機(jī)制是訓(xùn)練現(xiàn)有的入侵模式,并將考慮用于檢查的數(shù)據(jù),與先前的模式相匹配,以識(shí)別入侵。IDS 一般掛接在所有所關(guān)注流量都必須流經(jīng)的鏈路上,而所關(guān)注流量則是指來(lái)自高危網(wǎng)絡(luò)區(qū)域的訪問(wèn)數(shù)據(jù)和需要進(jìn)行統(tǒng)計(jì)、監(jiān)視的網(wǎng)絡(luò)報(bào)文數(shù)據(jù)。即無(wú)論是誤用IDS還是異常IDS,都離不開(kāi)對(duì)數(shù)據(jù)的挖掘與處理。

利用數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)的IDS 通常具有檢測(cè)網(wǎng)絡(luò)入侵的優(yōu)異性能和泛化能力,從而使其具有高效的入侵檢測(cè)性能。然而,實(shí)現(xiàn)和安裝這種系統(tǒng)的過(guò)程是復(fù)雜的,系統(tǒng)的固有復(fù)雜性可以根據(jù)準(zhǔn)確性、能力和可用性的參數(shù),組織成單獨(dú)的問(wèn)題集[3]。與使用數(shù)據(jù)挖掘技術(shù)構(gòu)建的IDS 相關(guān)聯(lián)的一個(gè)關(guān)鍵問(wèn)題主要是基于異常檢測(cè)的那些技術(shù),與先前基于手工簽名的檢測(cè)技術(shù)相比,其誤報(bào)率更高[4]。因此,對(duì)于這些技術(shù)來(lái)說(shuō),審計(jì)數(shù)據(jù)的處理和在線入侵的檢測(cè)比較困難,并且需要大量的訓(xùn)練數(shù)據(jù)。文獻(xiàn)[5]提出了一種結(jié)合了統(tǒng)計(jì)技術(shù)和自組織映射來(lái)檢測(cè)網(wǎng)絡(luò)中異常的分類(lèi)方法(Statistical Techniques and Self-organizing Maps,STSM),其中主成分分析(Principal Component Analysis,PCA)和Fisher判別比用于特征選擇和噪聲消除,概率自組織映射用于將網(wǎng)絡(luò)事務(wù)分類(lèi)為正常或異常。文獻(xiàn)[6]提出了一種結(jié)合數(shù)據(jù)挖掘方法的混合技術(shù)(Hybrid Technique that combines Data Mining Approaches,HT-DMA)。該方法中,K-means聚類(lèi)算法用于減少與每個(gè)數(shù)據(jù)點(diǎn)相關(guān)聯(lián)屬性的數(shù)量,再將支持向量機(jī)(Support Vector Machine,SVM)的徑向基函數(shù)(Radial Basis Function,RBF)用于異常網(wǎng)絡(luò)入侵檢測(cè)。文獻(xiàn)[7]提出了基于距離和的SVM 混合學(xué)習(xí)(Distance Sum-based SVM,DSSVM)方法,用于建模有效的IDS。在DSSVM中,獲得基于每個(gè)數(shù)據(jù)樣本與數(shù)據(jù)集中的聚類(lèi)中心特征維度之間的相關(guān)性的距離和,并將SVM用作分類(lèi)器。

然而現(xiàn)有方法需要大量的訓(xùn)練數(shù)據(jù),并且與系統(tǒng)的學(xué)習(xí)過(guò)程相關(guān)的復(fù)雜性很高。因此提出一種基于改進(jìn)粗糙集屬性約簡(jiǎn)和K-means 聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法(Improved Rough Set Attribute Reduction and optimizedK-means Clustering Approach for Network Intrusion Detection,IRSAR-KCANID)。所提方法首先基于改進(jìn)模糊粗糙集屬性約簡(jiǎn)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,優(yōu)化異常的入侵檢測(cè)特征,然后利用改進(jìn)K-means 聚類(lèi)算法進(jìn)行入侵檢測(cè)特征分析和入侵范圍估計(jì)閾值估計(jì),并對(duì)網(wǎng)絡(luò)特征進(jìn)行分類(lèi);再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度,形成特征關(guān)聯(lián)影響量(Feature Association Impact Scale,F(xiàn)AIS)表,完成對(duì)異常網(wǎng)絡(luò)入侵的快速準(zhǔn)確檢測(cè)。主要?jiǎng)?chuàng)新體現(xiàn)在以下幾個(gè)方面:

1)現(xiàn)有方法在入侵檢測(cè)數(shù)據(jù)訓(xùn)練方面耗時(shí)較多,提出的方法利用改進(jìn)模糊粗糙集屬性約簡(jiǎn)對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理,優(yōu)化異常的入侵檢測(cè)特征,避免了對(duì)大量數(shù)據(jù)的訓(xùn)練,縮短了入侵檢測(cè)時(shí)間;

2)現(xiàn)有大多數(shù)入侵檢測(cè)方法僅僅是發(fā)現(xiàn)攻擊行為,沒(méi)有對(duì)攻擊進(jìn)行有效的分類(lèi),提出的方法在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,利用改進(jìn)K-means 聚類(lèi)算法進(jìn)行入侵檢測(cè)特征分析和入侵范圍估計(jì)閾值估計(jì),并對(duì)網(wǎng)絡(luò)特征進(jìn)行分類(lèi)。

3)在聚類(lèi)結(jié)果的基礎(chǔ)上,根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度形成關(guān)聯(lián)影響量表,從而完成對(duì)異常網(wǎng)絡(luò)入侵的檢測(cè)。

特征相關(guān)性實(shí)驗(yàn)結(jié)果表明,特征優(yōu)化聚類(lèi)后的最小化測(cè)量特征關(guān)聯(lián)影響量表能在保證最大預(yù)測(cè)精度的前提下,最小化入侵檢測(cè)過(guò)程的復(fù)雜度并縮短完成時(shí)間。

1 基于改進(jìn)粗糙集屬性約簡(jiǎn)的數(shù)據(jù)集預(yù)處理

由于原始數(shù)據(jù)往往包含隱含信息[8-9],本文利用改進(jìn)粗糙集屬性約簡(jiǎn)(Improved Rough Set Attribute Reduction,IRSAR)將這些隱含信息提取出來(lái),在保留原始特征的同時(shí)更好地表現(xiàn)數(shù)據(jù)特征。將網(wǎng)絡(luò)連接記錄表示為四元組FS=(U,At,V,f),其中:U為整個(gè)網(wǎng)絡(luò)數(shù)據(jù)集;At是一個(gè)非空的有限屬性集,t表示屬性集數(shù)量;表示屬性a域 集合;f=U×At表示信息函數(shù)。

由于傳統(tǒng)的粗糙集理論只能處理離散屬性集,無(wú)法很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)[10-11],因此引入模糊理論,利用模糊粗糙集的信息增益率對(duì)網(wǎng)絡(luò)連接數(shù)據(jù)特征進(jìn)行自動(dòng)選取。

將引入模糊理論的網(wǎng)絡(luò)連接記錄表示為FIS=(U,C∪D,V,f),設(shè)B?C,?a∈C-B,C為條件屬性集,B為約簡(jiǎn)的屬性集,D為決策屬性集,屬性a的信息增益率為:

其中,GainRatlo表示增益率,GainRatlo(a,B,D)可用于衡量屬性a的重要程度,可以通過(guò)每次選擇增益率最大的特征進(jìn)行屬性選取,最終獲得的屬性集即為約簡(jiǎn)的本征屬性集。IRSAR 的數(shù)據(jù)集預(yù)處理主要步驟如下,其中輸入為數(shù)據(jù)集X、條件屬性集C、決策屬性集D,輸出為約簡(jiǎn)的屬性集B:

1)清空B集合,計(jì)算GainRatlo(a,B,D),并篩選其最大值;

2)如 果 maxGainRatlo(a,B,D) >0,則B←B∪{a},返回1);

3)集合B為屬性約簡(jiǎn)后的屬性集合。

模糊等價(jià)關(guān)系是模糊粗糙集的核心,假如給定非空有限數(shù)據(jù)集X,X上的模糊等價(jià)關(guān)系R可以用關(guān)系矩陣Mr表示為:

其中rij∈[0,1]是xi與xj的關(guān)聯(lián)值;xi和xj分別表示不同數(shù)據(jù)在同一屬性上的值,xi,xj∈X,模糊等價(jià)關(guān)系需要滿足自反、對(duì)稱和傳遞性,能夠?qū)崿F(xiàn)信息增益率對(duì)網(wǎng)絡(luò)連接數(shù)據(jù)特征屬性集進(jìn)行自動(dòng)篩選,以獲得約簡(jiǎn)的本征屬性集,從而有效提高入侵檢測(cè)算法的穩(wěn)定性。相較于經(jīng)典粗糙集理論只能處理離散屬性集的短板,改進(jìn)粗糙集屬性能夠獲得保留原始特征辨別能力的屬性子集,能夠很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)。

2 特征分析與影響尺度閾值估計(jì)方法

2.1 K-means 聚類(lèi)及其改進(jìn)

K-means 聚類(lèi)算法采用評(píng)價(jià)指標(biāo)來(lái)度量距離的相似性[12-13],其主要思想體現(xiàn)為以下三點(diǎn):

1)在樣本數(shù)據(jù)中,樣本數(shù)量為k,且為任意設(shè)設(shè)定,設(shè)定的樣本代表一個(gè)簇的初始中心或者均值;

2)數(shù)據(jù)樣本與每個(gè)聚類(lèi)中心之間的距離通常用歐氏距離公式計(jì)算,每個(gè)數(shù)據(jù)樣本根據(jù)計(jì)算結(jié)果被分配到最近的類(lèi);

3)調(diào)整聚類(lèi)中心并對(duì)得到的新類(lèi)進(jìn)行再次計(jì)算,聚類(lèi)準(zhǔn)則函數(shù)收斂的條件是聚類(lèi)中心不再變化,即可終止對(duì)樣本數(shù)據(jù)的聚類(lèi)調(diào)整,從而結(jié)束算法。

改進(jìn)K-means 算法則針對(duì)初值選取敏感問(wèn)題,算法中簇心的初始位置在算法開(kāi)始時(shí)通過(guò)臨時(shí)指定,再通過(guò)樣本數(shù)據(jù)各維度的最大值和最小值計(jì)算,結(jié)合多次迭代來(lái)選取最佳的簇心,期間采用隨機(jī)梯度下降的方法來(lái)取代批量梯度下降以防止K-means 算法陷入局部最優(yōu)。假定h(θ)為所需要擬合的函數(shù),J(θ)為損失函數(shù),其函數(shù)形式分別表示為:其中:m表示訓(xùn)練集的數(shù)量,θ表示多次迭代計(jì)算所需要求取的值,X和Y為數(shù)據(jù)集,i表示迭代計(jì)數(shù),t為損失因子,參數(shù)個(gè)數(shù)表示為j。當(dāng)求解出θ時(shí)最終要擬合的函數(shù)h(θ)的值也相應(yīng)求得。

損失函數(shù)也可以改寫(xiě)為:

其中cost(θ,(xt,yi))可表示為:

此處損失函數(shù)所對(duì)應(yīng)的辨識(shí)訓(xùn)練集中每個(gè)樣本數(shù)據(jù)的隸屬度,對(duì)于每個(gè)樣本數(shù)據(jù)的損失函數(shù),通過(guò)對(duì)θ求偏導(dǎo)可以求出相應(yīng)的梯度,其中θ可以根據(jù)以下公式更新:

在計(jì)算過(guò)程中θ可以通過(guò)迭代計(jì)算不斷更新,但如果學(xué)習(xí)效率設(shè)置過(guò)高則可能導(dǎo)致振蕩現(xiàn)象。因此可以引進(jìn)學(xué)習(xí)率α進(jìn)行改進(jìn),若假設(shè)f(α)=h(xk+αdk),其中當(dāng)前樣本點(diǎn)設(shè)置為xk,搜索方向設(shè)置為dk,則可得隨機(jī)梯度下降過(guò)程所尋找的f(α)最小值為:

對(duì)學(xué)習(xí)率的函數(shù)導(dǎo)數(shù)的分析:若α=0,則有

下降方向dk可以選負(fù)梯度方向dk=-?h(xk),從而使f'(0) >0。假如找到的α足夠大,并且使得f'(a)>0,則一定存在某個(gè)α,使得f'(α*) >0,其中α*即為改進(jìn)設(shè)置的學(xué)習(xí)率。

改進(jìn)K-means 聚類(lèi)算法工作步驟如下,輸入k(簇?cái)?shù)),輸出標(biāo)記好的k個(gè)簇集合。

1)手動(dòng)設(shè)定k個(gè)臨時(shí)簇心;

2)在樣本數(shù)據(jù)每個(gè)向量的維度以及各自維度最大值和最小值選取簇心;

3)根據(jù)選取的樣本數(shù)據(jù)Xi找出距離它最近的簇心,并把簇心向Xi方向移動(dòng);

4)每次移動(dòng)數(shù)據(jù)項(xiàng)時(shí)都乘以學(xué)習(xí)率α,其變化趨勢(shì)隨迭代次數(shù)增加而不斷減小;

5)返回步驟2);

6)對(duì)簇心進(jìn)行更新;

7)直到簇心位置固定不變;

8)根據(jù)數(shù)量以及標(biāo)記判別該簇正常與否。

改進(jìn)后的K-means 算法對(duì)于初值選取要求有所降低,相較于原始算法簇心的初始位置可以在算法開(kāi)始時(shí)臨時(shí)指定,無(wú)需進(jìn)行繁瑣的初值整定;此外,改進(jìn)算法在穩(wěn)定性方面也有一定的提升,因?yàn)閷W(xué)習(xí)率α的設(shè)置改進(jìn),可以避免因?qū)W習(xí)效率設(shè)置過(guò)高而導(dǎo)致的振蕩現(xiàn)象。

2.2 入侵檢測(cè)特征分析與特征關(guān)聯(lián)影響尺度閾值估計(jì)

2.2.1 入侵檢測(cè)特征分析

網(wǎng)絡(luò)事務(wù)集包含的42 個(gè)特征可以分為連續(xù)和分類(lèi)的值,為了便于優(yōu)化,需要將所有最初字母及連續(xù)數(shù)值轉(zhuǎn)換為分類(lèi)。預(yù)處理的一組網(wǎng)絡(luò)事務(wù)根據(jù)其標(biāo)簽進(jìn)行分區(qū),使得正常事務(wù)是一組,拒絕服務(wù)(Denial of Service,DoS)攻擊事務(wù)是另一組。

將字母數(shù)字值表示為數(shù)值,并將聯(lián)系續(xù)值表示為分類(lèi)值,其具體步驟如下:

1)考慮具有字母數(shù)字值的每個(gè)要素,然后列出所有可能的唯一值,并使用從1開(kāi)始的增量索引列出它們;

2)用適當(dāng)?shù)乃饕鎿Q值;

3)考慮具有連續(xù)值的每個(gè)要素,然后將它們劃分為一組具有最小值和最大值的范圍,以便事件在所有這些范圍內(nèi)均勻分布。

考慮結(jié)果正常交易集(Normal Trade Set,NTS)中的每個(gè)特征值集合fiv(NTS) 及其覆蓋百分比為fiv={fi(v1,c1),fi(v2,c2),…,fi(vj,cj)},v,c為特征量,然后,可以按照以下步驟中的描述執(zhí)行每個(gè)攻擊A的特征優(yōu)化:

1)考慮交易集ts(Ak)表示攻擊類(lèi)型Ak(假設(shè)為DoS攻擊)。

2)對(duì)于每個(gè)特征fi(Ak),將所有值視為集合fiv(Ak)。創(chuàng)建大小為的空集,并根據(jù)其覆蓋百分比填充中的值,使得表示的特征值集的大小。

4)此過(guò)程應(yīng)適用于攻擊Ak的網(wǎng)絡(luò)事務(wù)中設(shè)置的所有特征值。

5)找出fiv(Ak)和之間的典型相關(guān)性。如果得到的典型相關(guān)性小于給定閾值或零,那么特征fi(Ak)可以被認(rèn)為是評(píng)估入侵范圍規(guī)模的最佳值。

根據(jù)上述步驟中說(shuō)明的過(guò)程,可以識(shí)別特定攻擊Ak的最佳特征。

2.2.2 特征關(guān)聯(lián)影響尺度閾值估計(jì)

通過(guò)聚合A的每一行來(lái)找到特權(quán)權(quán)重(將形成表示特權(quán)權(quán)重v),再通過(guò)A和v之間的乘法找到樞軸權(quán)重:

u=A×v(10)

那么特征分類(lèi)值fivj的尺度閾值fas可以通過(guò)如下公式計(jì)算:

特征分類(lèi)值fivj和fi'vj'之間的fas可以表示為:

其中:tvsk表示k交易價(jià)值集,|STVS|表示事務(wù)值集的總數(shù)。

另外,每個(gè)交易價(jià)值集tvsi的特征關(guān)聯(lián)影響量表fais和faist閾值可以分別表示為:

其中:valj∈V表示特征差值。

每個(gè)交易價(jià)值faist的標(biāo)準(zhǔn)差需要進(jìn)一步測(cè)量集合,以估計(jì)faist閾值的上下限和挑戰(zhàn)黑洞(Challenge Collapsar,CC)閾值范圍。其中,cc閾值是faist的一個(gè)臨界值;下限為cc平均值與cc 標(biāo)準(zhǔn)差之間的差值,上限為cc 平均值與cc 標(biāo)準(zhǔn)差之和。閾值設(shè)定的目的在于對(duì)以上三種范圍進(jìn)行閾值額定,與此對(duì)應(yīng)的范圍分別為不相關(guān)性、弱相似性和強(qiáng)相似性。發(fā)現(xiàn)的正常記錄總數(shù)為測(cè)試數(shù)據(jù)記錄的總和,估算標(biāo)準(zhǔn)偏差表示如下:

faist系列可以探索范圍如下:

faist范圍的下限是:

faist范圍的上限是:

當(dāng)且僅當(dāng)fais(nt)<faistl時(shí),網(wǎng)絡(luò)事務(wù)nt可以說(shuō)是安全的。

通過(guò)對(duì)網(wǎng)絡(luò)中不同標(biāo)注下數(shù)據(jù)進(jìn)行處理,結(jié)合模糊等價(jià)關(guān)系矩陣,可獲得輸入信號(hào)參數(shù)入侵特征閾值的參考指標(biāo)集如下:

通過(guò)上式構(gòu)建Mg關(guān)聯(lián)模型,并通過(guò)不斷訓(xùn)練改變參數(shù)個(gè)數(shù)與入侵特征閾值,獲取異常度量關(guān)聯(lián)矩陣:

其中m表示參數(shù)個(gè)數(shù),則有入侵檢測(cè)特征關(guān)聯(lián)影響閾值為:

2.3 數(shù)據(jù)集特征相關(guān)性分析并聚類(lèi)

考慮兩個(gè)多維數(shù)據(jù)集X和Y,并且利用基于標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)的典型相關(guān)分析(Canonical Correlation Analysis,CCA),利用二階的自協(xié)方差和互協(xié)方差矩陣,建立數(shù)據(jù)集之間的線性關(guān)系。該技術(shù)基于兩個(gè)基礎(chǔ),每個(gè)基礎(chǔ)用于數(shù)據(jù)集X和Y,其中互相關(guān)矩陣變?yōu)閷?duì)角線,并且對(duì)角線的相關(guān)性最大化。

研究用于實(shí)現(xiàn)規(guī)范相關(guān)的參數(shù),其中,X和Y應(yīng)該相等;然而,假設(shè)平均值為零,數(shù)據(jù)向量x∈X和y∈Y可以具有變化的尺寸。使用特征向量方程求解規(guī)范相關(guān)計(jì)算:

這里,Cxx、Cxy、Cyy、Cyx均為交叉協(xié)方差矩陣,其中r2本征值是規(guī)范相關(guān)的平方,wx和wy是歸一化CCA 基矢量。方程的解等價(jià)于非零值,其數(shù)量等于x和y,表示考慮具有較小維數(shù)值的數(shù)據(jù)向量。當(dāng)時(shí),式(21)被轉(zhuǎn)換為:

這些方程描述了交叉協(xié)方差矩陣Cxy的奇異值分解:

這里U和V表示包括奇異向量ui和vi的正交平方矩陣。wx和wy表示傳遞規(guī)范相關(guān)性的基礎(chǔ)向量。矩陣U和V以及ui和vi的向量維度通常根據(jù)x和y數(shù)據(jù)向量的維度變化而變化。

偽對(duì)角矩陣Q由對(duì)角矩陣D和附加零矩陣構(gòu)建,這將使得矩陣Q與x,y各維度兼容。如果Cxy具有滿秩,則非零奇異值基本上是非零規(guī)范相關(guān),其數(shù)量小于x和y數(shù)據(jù)矢量維度中的任何一個(gè)。

3 特征關(guān)聯(lián)影響量表的入侵檢測(cè)

測(cè)量特征關(guān)聯(lián)支持度量的方法是將給定訓(xùn)練集的網(wǎng)絡(luò)事務(wù)記錄和在這些網(wǎng)絡(luò)事務(wù)中使用的特征分類(lèi)值視為兩個(gè)獨(dú)立集合,并進(jìn)一步構(gòu)建這兩者之間的雙工圖[14]。所提入侵檢測(cè)基于以下理想性假設(shè)和操作步驟實(shí)施。

3.1 理想性假設(shè)

特征{f1,f2,…,fn?fi={fiv1,fiv2,…,fivm}}是對(duì)特定攻擊Ak是最佳的分類(lèi)值,通過(guò)應(yīng)用于網(wǎng)絡(luò)事務(wù)集T(Ak)的典型相關(guān)分析來(lái)選擇。這里T(Ak)是給定訓(xùn)練集的特定攻擊Ak的網(wǎng)絡(luò)事務(wù)記錄集,使 得 :T={t1,t2,…,tn?ti={val(f1),val(f2),…,val(fi),val(fi+1),…,val(fn)}}屬于每個(gè)網(wǎng)絡(luò)事務(wù)特征的分類(lèi)值集合,稱為事務(wù)值集合tvs,并且將所有事務(wù)值集合稱為STVS。在上面的描述中,val(fi)可以被定義為val(fi)∈{fiv1,fiv2,…,fivm},此后,術(shù)語(yǔ)特征指的是特征的當(dāng)前分類(lèi)值。當(dāng)且僅當(dāng)(val(fi),val(fj))∈tvsk時(shí),對(duì)于兩個(gè)特征val(fi)和val(fj),val(fi)與val(fj)連接。

3.2 方法與步驟

本文通過(guò)示例探索該過(guò)程,將STVS要素的發(fā)散向量表示為V={val1,val2,…,val8}。在 表1 和 圖2中,每個(gè)元素{val1,val2,…,val8}可以是fivj,使得{fivj?i∈[1,2,…,n] ∧j∈[1,2,…,m]}。

在檢測(cè)valk的每個(gè)特征分類(lèi)值fivj與網(wǎng)絡(luò)事務(wù)記錄的關(guān)聯(lián)過(guò)程中,需要在STVS和特征分類(lèi)值之間建立雙工圖。

形成雙重圖可認(rèn)為圖關(guān)系是二分的,并且在特征和事務(wù)值集之間形成邊。此圖中的每個(gè)關(guān)系都表示特征對(duì)網(wǎng)絡(luò)事務(wù)的作用[15]。當(dāng)且僅當(dāng)該特征f是tvs的一部分時(shí),交易值集合tvs和特征f之間的邊緣才存在可能,這可以表示為etvs←f?f∈tvs。

表1 STVS和特征分類(lèi)值之間關(guān)聯(lián)的二進(jìn)制表示Tab.1 Binary representation of correlation between STVS and feature classification value

圖1 所示為加權(quán)無(wú)向圖,其中特征值作為特征值之間的頂點(diǎn)和邊。

圖1 計(jì)數(shù)為8的分類(lèi)值集示例加權(quán)圖Fig.1 Weighted graph example of classification value set with counting of 8

任意兩個(gè)特征val(f1),val(f2)之間的邊將按如下方式加權(quán):

在上面的等式中,ctvs表示事務(wù)計(jì)數(shù),其中包含兩個(gè)特征val(f1)、val(f2)。然后特征val(f1)、val(f2)之間的邊緣重量可以如下測(cè)量:

在構(gòu)建加權(quán)圖的過(guò)程中,本文認(rèn)為當(dāng)且僅當(dāng)ctvs≥1時(shí),任何兩個(gè)特征之間存在邊際。

在如圖2 所示的雙工圖中,虛線表示連接元素屬于雙工圖的相同級(jí)別,實(shí)線表示特征值和事務(wù)值集之間的關(guān)系。

圖2 STVS和V之間的雙工圖Fig.2 Duplex diagram between STVS and V

如果在tvs1中存在稱為val1的特征分類(lèi)值fivj,則val1和tvs1之間的連接的權(quán)重將是val1與在加權(quán)中定義的tvs1的每個(gè)特征分類(lèi)值{fivj?fivj∈tvs1}之間邊的權(quán)重的總和圖形[16]。

此外,將形成矩陣A,表示交易值集和特征分類(lèi)值之間的雙重圖的邊緣權(quán)重。然后獲得A',表示矩陣A的轉(zhuǎn)置[17]。

將STVS視為數(shù)據(jù)庫(kù),并將其描述為雙工圖而不會(huì)丟失信息。設(shè)STVS={tvs1,tvs2,…,tvs6}是事務(wù)值集的列表,V={val1,val2,…,val8}是相應(yīng)的特征集分類(lèi)值。那么,顯然STVS相當(dāng)于雙工圖DG=(STVS,V,E)。其中,特征值分類(lèi)值能夠跟隨通道業(yè)務(wù)變化而動(dòng)態(tài)調(diào)整,從而達(dá)到辨識(shí)策略的修正,實(shí)現(xiàn)通信網(wǎng)絡(luò)入侵的在線監(jiān)測(cè)。

這里,E={tvsi,vali):vali∈tvsi,tvsi∈STVS,vali∈V}。

假設(shè)給定雙工圖的交易值集,作為樞軸并且特征分類(lèi)值作為純特權(quán),則可以測(cè)量樞軸和特權(quán)值[18-19]。如果在交易值集合中存在特征分類(lèi)值val1,那么val1和tvs1之間的連接的權(quán)重,將是val1與電視的每個(gè)特征分類(lèi)值{vali?vali∈tvs1}之間的邊緣權(quán)重的總和。這些權(quán)重是邊緣權(quán)重,用加權(quán)圖(Weighted Graph,WG)表示。根據(jù)2.2 節(jié)所述入侵范圍估計(jì)方法,對(duì)特征關(guān)聯(lián)影響尺度閾值進(jìn)行估計(jì)。

所提方法首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,優(yōu)化異常的入侵檢測(cè)特征,然后利用改進(jìn)K-means 聚類(lèi)算法估計(jì)入侵范圍閾值并對(duì)網(wǎng)絡(luò)特征進(jìn)行最終分類(lèi);再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索特征關(guān)聯(lián)影響尺度,形成特征關(guān)聯(lián)影響量表,完成對(duì)異常網(wǎng)絡(luò)入侵的檢測(cè)。其具體流程如圖3所示。

圖3 基于改進(jìn)K-means結(jié)合關(guān)聯(lián)影響尺度分析的入侵檢測(cè)方法流程Fig.3 Flowchart of intrusion detection method based on improved K-means and association impact scale analysis

4 實(shí)驗(yàn)結(jié)果與分析

入侵檢測(cè)評(píng)估程序生成的數(shù)據(jù)用于構(gòu)建原始KDD-99 數(shù)據(jù)集,包含接近4 900 000 個(gè)唯一連接向量,其中每個(gè)連接向量由41個(gè)特征組成,34個(gè)是連續(xù)特征,7個(gè)是離散的特征。此外,本文還利用CICIDS2017 通用數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn),CICIDS2017 數(shù)據(jù)集是加拿大網(wǎng)絡(luò)安全研究所于2017 年開(kāi)源的入侵檢測(cè)和入侵預(yù)防數(shù)據(jù)集,通過(guò)攻擊本地網(wǎng)絡(luò)來(lái)收集流量數(shù)據(jù),在一段時(shí)間內(nèi)收集正常流量和常見(jiàn)的攻擊流量,設(shè)計(jì)真實(shí)攻擊場(chǎng)景,具有一定的通用性和應(yīng)用性。在本文的實(shí)驗(yàn)中模擬的攻擊屬于下面描述的四種類(lèi)型中的任何一種。

1)DoS。DoS 攻擊是一種攻擊類(lèi)型,攻擊者通過(guò)消耗計(jì)算機(jī)或內(nèi)存資源來(lái)阻止對(duì)有效用戶的訪問(wèn),從而使系統(tǒng)無(wú)法處理有效請(qǐng)求。DoS 攻擊的例子很多,如:teardrop、neptune、ping of death(pod)、mail bomb、back、smurf和land。

2)用戶到根式攻擊(Users-to-Root attack,U2R)。根攻擊是一種攻擊類(lèi)型,攻擊者可以訪問(wèn)系統(tǒng)中的有效用戶賬戶,并根據(jù)現(xiàn)有的系統(tǒng)弱點(diǎn)獲取對(duì)系統(tǒng)根組件的訪問(wèn)權(quán)限。有幾種類(lèi)型的U2R攻擊,例如:負(fù)載模塊、緩沖區(qū)溢出、rootkit、purl。

3)遠(yuǎn)程到本地攻擊(Remote-to-Local attack,R2L)。遠(yuǎn)程到本地攻擊是一種攻擊,其中沒(méi)有賬戶的攻擊者根據(jù)現(xiàn)有的計(jì)算機(jī)漏洞在本地訪問(wèn)合法用戶賬戶。R2L 攻擊類(lèi)型有:phf、warezmaster、warezclient、spy、imap、ftp_write、multihop 和guess_passwd。

4)探測(cè)攻擊(Probing attack,PROBE)。探測(cè)攻擊是一種攻擊類(lèi)型,攻擊者會(huì)避開(kāi)安防系統(tǒng)收集網(wǎng)絡(luò)中計(jì)算機(jī)上的數(shù)據(jù)。PROBE 攻擊類(lèi)型有:nmap、satan、ipsweep 和portsweep。在NSL-KDD數(shù)據(jù)集中,考慮的協(xié)議是TCP、UDP和ICMP。

本實(shí)驗(yàn)基于Intel Core i5-5430M CPU @ 2.70 GB,4 GB RAM 計(jì)算機(jī)平臺(tái),并在Linux 系統(tǒng)中采用C 程序?qū)?shù)據(jù)集進(jìn)行預(yù)處理操作,同時(shí)采用Java執(zhí)行數(shù)據(jù)分類(lèi)和入侵檢測(cè),采用粗糙集工具RSES(Rough Set Exploration System)。實(shí)驗(yàn)通過(guò)與文獻(xiàn)[5]和文獻(xiàn)[7]所提方法(即STSM 和DSSVM)進(jìn)行對(duì)比,從入侵檢測(cè)精度以及檢測(cè)完成時(shí)間等方面比較了所提入侵檢測(cè)方法的可行性和先進(jìn)性。同時(shí)在原始KDD-99 數(shù)據(jù)集實(shí)驗(yàn)基礎(chǔ)上,增加了CICIDS2017 通用數(shù)據(jù)集的對(duì)照實(shí)驗(yàn),以驗(yàn)證所提方法的普適性。其中,假設(shè)網(wǎng)絡(luò)中發(fā)生的真實(shí)的攻擊事件數(shù)量M,IDS漏報(bào)的事件數(shù)量為N,在基于原始KDD-99數(shù)據(jù)集的實(shí)驗(yàn)中,通過(guò)數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為54 675條,測(cè)試記錄24 533 條;基于CICIDS2017 通用數(shù)據(jù)集的實(shí)驗(yàn)中,通過(guò)數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為53 687 條,測(cè)試記錄23 645 條,實(shí)驗(yàn)數(shù)據(jù)分布類(lèi)型和結(jié)果通過(guò)多次處理和測(cè)試得到。衡量系統(tǒng)性能最為重要的因素有檢測(cè)率(True Positive,TP)、誤報(bào)率(False Positive,F(xiàn)P)和漏報(bào)率(False Negative,F(xiàn)N)。異常網(wǎng)絡(luò)入侵檢測(cè)精度(Precision)是入侵檢測(cè)方法的主要度量指標(biāo),分析得出了入侵檢測(cè)的精確度度量方法:

其中:TP為正確識(shí)別為入侵事件與所有入侵的事件數(shù)的比值,F(xiàn)P為錯(cuò)誤識(shí)別為入侵事件與所有非入侵的事件數(shù)的比值,F(xiàn)N為存在漏報(bào)的事件數(shù)與所有非入侵的事件數(shù)的比值。

實(shí)驗(yàn)將提出的方法與STSM 和DSSVM 在KDD-99 數(shù)據(jù)集上進(jìn)行了對(duì)比,其結(jié)果如圖4所示。

圖4 KDD-99數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測(cè)精度的性能分析Fig.4 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on KDD-99 dataset

從圖4中可以看出,提出的方法在閾值下限和臨界閾值附近對(duì)異常網(wǎng)絡(luò)入侵的檢測(cè)精度優(yōu)于STSM 和DSSVM 方法,其檢測(cè)精度均在97%以上,但在閾值上限處的精度則比另外兩種方法稍差。

同時(shí),在同樣的實(shí)驗(yàn)條件下,將所提方法與STSM 和DSSVM在CICIDS2017數(shù)據(jù)集上也進(jìn)行對(duì)比,三者的閾值設(shè)定為各自在訓(xùn)練集重構(gòu)誤差的均值。

由圖5 可知,在閾值下限附近所提方法對(duì)入侵檢測(cè)精度明顯優(yōu)于STSM 和DSSVM 方法,且在臨界閾值條件下也保持了較好的精度優(yōu)勢(shì),在閾值上限條件下,三種方法大體相同,均在99%以上。

圖5 CICIDS2017數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測(cè)精度的性能分析Fig.5 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on CICIDS2017 dataset

在不同標(biāo)記下的不同場(chǎng)景典型相關(guān)性實(shí)驗(yàn)中,對(duì)時(shí)間復(fù)雜度進(jìn)行了實(shí)驗(yàn)分析,提出的方法實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 在不同的典型相關(guān)閾值下IRSAR-KCANID的入侵檢測(cè)完成時(shí)間Fig.6 Intrusion detection completion time of IRSAR-KCANID under different typical correlation thresholds

由圖6可知,由于cc閾值存在變化,所需要的時(shí)間復(fù)雜度也是可縮放的。當(dāng)cc 閾值較小時(shí),所需要的完成時(shí)間較少,如cc 閾值為0.03時(shí),僅需2.209 s便可完成入侵檢測(cè);隨著cc閾值逐漸增大,所需要的完成時(shí)間逐漸延長(zhǎng),當(dāng)cc 閾值接近0.047時(shí),完成時(shí)間趨于穩(wěn)定時(shí)間11.6 s左右。

此外,實(shí)驗(yàn)將所提方法與STSM 與DSSVM 在不同數(shù)據(jù)集中的不同屬性數(shù)量下入侵檢測(cè)時(shí)間復(fù)雜度方面的對(duì)比,其實(shí)驗(yàn)結(jié)果如表2所示。

如表2 所示,在不同數(shù)據(jù)集的同一屬性數(shù)量水平下,不同數(shù)據(jù)集對(duì)入侵檢測(cè)完成時(shí)間幾乎沒(méi)有影響。以KDD-99 為例,STSM 與DSSVM 方法比所提的IRSAR-KCANID 方法入侵檢測(cè)時(shí)間更長(zhǎng)。當(dāng)屬性數(shù)量為90時(shí),STSM 與DSSVM 方法時(shí)間分別為0.115 s 和0.095 s,而提出的方法僅為0.06 s;當(dāng)屬性數(shù)量為250時(shí),STSM 與DSSVM 方法時(shí)間分別為0.945 s 和0.935 s,提出的方法為0.324 s,大約節(jié)省60%的網(wǎng)絡(luò)入侵檢測(cè)時(shí)間;在CICIDS2017 數(shù)據(jù)集中,當(dāng)屬性數(shù)量為70時(shí),STSM方法時(shí)間為0.077 s,DSSVM 與所提方法的時(shí)間為0.033 s;當(dāng)屬性數(shù)量為230時(shí),STSM 與DSSVM 方法時(shí)間分別為0.943 s和0.893 s,而所提方法所需時(shí)間僅為0.535 s,相比于較快的DSSVM 方法能節(jié)省大約0.0363 s 入侵檢測(cè)時(shí)間。由此可見(jiàn),在不同的數(shù)據(jù)集中,入侵檢測(cè)方法在屬性數(shù)量越大時(shí),所需要的入侵檢測(cè)事例越多,所提方法相對(duì)于其他方法在不同數(shù)據(jù)集中對(duì)于入侵檢測(cè)所節(jié)約的時(shí)間成本越明顯。

表2 不同屬性數(shù)量下入侵檢測(cè)完成時(shí)間對(duì)比 單位:sTab.2 Comparison of intrusion detection completion time complexity with different attribute numbers unit:s

5 結(jié)語(yǔ)

本文提出的IRSAR-KCANID 簡(jiǎn)化了特征分析過(guò)程,使用基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),同時(shí)引入IRSAR 對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,采用改進(jìn)K-means 聚類(lèi)方法對(duì)數(shù)據(jù)特征進(jìn)行聚類(lèi)分析。實(shí)驗(yàn)結(jié)果表明,規(guī)范相關(guān)分析對(duì)于選擇用于訓(xùn)練的網(wǎng)絡(luò)事務(wù)的最優(yōu)屬性十分重要,提出的方法在特征相關(guān)聚類(lèi)的基礎(chǔ)上,結(jié)合關(guān)聯(lián)影響尺度進(jìn)行入侵檢測(cè),在保證最大化檢測(cè)精度的前提下,最小化了過(guò)程復(fù)雜性和完成時(shí)間;但在cc 閾值上限情況下,提出的方法檢測(cè)精度比其他方法略差,因此提出的方法在適用性方面還有待進(jìn)一步拓展。

猜你喜歡
分類(lèi)特征檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
分類(lèi)算一算
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
抓住特征巧觀察
主站蜘蛛池模板: 亚洲欧洲免费视频| 在线日韩日本国产亚洲| swag国产精品| 亚洲第一中文字幕| 国产一级小视频| 亚洲大尺码专区影院| 国产不卡一级毛片视频| 精品久久高清| 午夜天堂视频| 日本欧美一二三区色视频| 一级一级一片免费| 国产哺乳奶水91在线播放| 亚洲精品少妇熟女| 少妇极品熟妇人妻专区视频| 久久精品亚洲专区| 日本国产精品一区久久久| 亚洲三级电影在线播放| 精品国产毛片| 亚洲精品中文字幕午夜| 日本欧美视频在线观看| 久久国产精品娇妻素人| 国产极品美女在线播放| 亚洲第一页在线观看| 免费不卡在线观看av| 成人午夜视频免费看欧美| 亚洲国产欧洲精品路线久久| 天天综合网色中文字幕| 日韩一区精品视频一区二区| 成人国产免费| 久久精品只有这里有| 爱做久久久久久| 久久久久夜色精品波多野结衣| 啪啪国产视频| 一级一级特黄女人精品毛片| 国产91视频免费观看| 国产青榴视频在线观看网站| 奇米精品一区二区三区在线观看| 亚洲AV无码乱码在线观看裸奔| 91青草视频| 制服丝袜国产精品| 亚洲欧美另类日本| 亚洲婷婷在线视频| 国产免费看久久久| 国产偷国产偷在线高清| 在线观看网站国产| 欧美精品亚洲二区| 色首页AV在线| 日韩免费毛片| 亚洲天堂高清| 久久精品这里只有精99品| 国产成人区在线观看视频| 99视频在线免费观看| 国产国产人成免费视频77777| 亚洲αv毛片| 欧美一级特黄aaaaaa在线看片| 日韩av在线直播| 欧美精品成人一区二区视频一| 91精品综合| 欧美成人一区午夜福利在线| 久久综合丝袜日本网| 成人福利在线免费观看| 久久永久视频| 狠狠久久综合伊人不卡| 国产真实乱子伦视频播放| 亚洲免费三区| a级毛片免费在线观看| 亚洲侵犯无码网址在线观看| 日韩在线欧美在线| 日韩 欧美 小说 综合网 另类| 亚洲国产成人久久77| 老司机精品99在线播放| 亚洲一区网站| 国产69精品久久久久妇女| 国产欧美日本在线观看| 日本福利视频网站| 国产毛片久久国产| 手机在线免费毛片| 美女扒开下面流白浆在线试听| 久久黄色小视频| 亚洲男人在线| 亚洲欧美日韩另类在线一| 欧美日本不卡|