改進(jìn)粗糙集屬性約簡(jiǎn)結(jié)合K-means聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法

2020-08-06 08:28:44王磊

計(jì)算機(jī)應(yīng)用 2020年7期

王磊

（蘇州大學(xué)信息化建設(shè)與管理中心，江蘇蘇州215006）（*通信作者電子郵箱wanglei01005@163.com）

0 引言

網(wǎng)絡(luò)安全問(wèn)題一直是全社會(huì)關(guān)注的焦點(diǎn)，隨著網(wǎng)絡(luò)環(huán)境的日益復(fù)雜，包括防火墻、安全路由及數(shù)據(jù)加密等靜態(tài)網(wǎng)絡(luò)安全保護(hù)方法已很難滿足人們對(duì)于網(wǎng)絡(luò)安全性能的需求。

入侵檢測(cè)系統(tǒng)（Intrusion Detection System，IDS）作為一種網(wǎng)絡(luò)安全主動(dòng)防御技術(shù)，能夠?qū)Ψ阑饓Φ葌鹘y(tǒng)安全保護(hù)體系起到輔助作用［1］，通過(guò)監(jiān)控流經(jīng)某個(gè)節(jié)點(diǎn)的流量，實(shí)現(xiàn)對(duì)入侵行為的檢測(cè)，并生成報(bào)警信號(hào)發(fā)送至系統(tǒng)管理員，典型的IDS通常包括事件采集、事件分析和事件響應(yīng)三個(gè)核心環(huán)節(jié)，其檢測(cè)方法主要可分為兩種類(lèi)型：誤用IDS 和異常IDS。現(xiàn)有IDS均或多或少存在有效性低、適應(yīng)性不強(qiáng)、誤報(bào)率高以及可擴(kuò)展性不高等問(wèn)題。其中：誤用IDS 根據(jù)已知攻擊和系統(tǒng)弱點(diǎn)的參數(shù)識(shí)別入侵，然而它無(wú)法識(shí)別新的或不熟悉的攻擊類(lèi)型；異常IDS 則基于正常行為的參數(shù)，并使用它們來(lái)識(shí)別任何與正常行為相差甚遠(yuǎn)的行為［2］。誤用入侵檢測(cè)的機(jī)制是訓(xùn)練現(xiàn)有的入侵模式，并將考慮用于檢查的數(shù)據(jù)，與先前的模式相匹配，以識(shí)別入侵。IDS 一般掛接在所有所關(guān)注流量都必須流經(jīng)的鏈路上，而所關(guān)注流量則是指來(lái)自高危網(wǎng)絡(luò)區(qū)域的訪問(wèn)數(shù)據(jù)和需要進(jìn)行統(tǒng)計(jì)、監(jiān)視的網(wǎng)絡(luò)報(bào)文數(shù)據(jù)。即無(wú)論是誤用IDS還是異常IDS，都離不開(kāi)對(duì)數(shù)據(jù)的挖掘與處理。

利用數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)的IDS 通常具有檢測(cè)網(wǎng)絡(luò)入侵的優(yōu)異性能和泛化能力，從而使其具有高效的入侵檢測(cè)性能。然而，實(shí)現(xiàn)和安裝這種系統(tǒng)的過(guò)程是復(fù)雜的，系統(tǒng)的固有復(fù)雜性可以根據(jù)準(zhǔn)確性、能力和可用性的參數(shù)，組織成單獨(dú)的問(wèn)題集［3］。與使用數(shù)據(jù)挖掘技術(shù)構(gòu)建的IDS 相關(guān)聯(lián)的一個(gè)關(guān)鍵問(wèn)題主要是基于異常檢測(cè)的那些技術(shù)，與先前基于手工簽名的檢測(cè)技術(shù)相比，其誤報(bào)率更高［4］。因此，對(duì)于這些技術(shù)來(lái)說(shuō)，審計(jì)數(shù)據(jù)的處理和在線入侵的檢測(cè)比較困難，并且需要大量的訓(xùn)練數(shù)據(jù)。文獻(xiàn)［5］提出了一種結(jié)合了統(tǒng)計(jì)技術(shù)和自組織映射來(lái)檢測(cè)網(wǎng)絡(luò)中異常的分類(lèi)方法（Statistical Techniques and Self-organizing Maps，STSM），其中主成分分析（Principal Component Analysis，PCA）和Fisher判別比用于特征選擇和噪聲消除，概率自組織映射用于將網(wǎng)絡(luò)事務(wù)分類(lèi)為正常或異常。文獻(xiàn)［6］提出了一種結(jié)合數(shù)據(jù)挖掘方法的混合技術(shù)（Hybrid Technique that combines Data Mining Approaches，HT-DMA）。該方法中，K-means聚類(lèi)算法用于減少與每個(gè)數(shù)據(jù)點(diǎn)相關(guān)聯(lián)屬性的數(shù)量，再將支持向量機(jī)（Support Vector Machine，SVM）的徑向基函數(shù)（Radial Basis Function，RBF）用于異常網(wǎng)絡(luò)入侵檢測(cè)。文獻(xiàn)［7］提出了基于距離和的SVM 混合學(xué)習(xí)（Distance Sum-based SVM，DSSVM）方法，用于建模有效的IDS。在DSSVM中，獲得基于每個(gè)數(shù)據(jù)樣本與數(shù)據(jù)集中的聚類(lèi)中心特征維度之間的相關(guān)性的距離和，并將SVM用作分類(lèi)器。

然而現(xiàn)有方法需要大量的訓(xùn)練數(shù)據(jù)，并且與系統(tǒng)的學(xué)習(xí)過(guò)程相關(guān)的復(fù)雜性很高。因此提出一種基于改進(jìn)粗糙集屬性約簡(jiǎn)和K-means 聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法（Improved Rough Set Attribute Reduction and optimizedK-means Clustering Approach for Network Intrusion Detection，IRSAR-KCANID）。所提方法首先基于改進(jìn)模糊粗糙集屬性約簡(jiǎn)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理，優(yōu)化異常的入侵檢測(cè)特征，然后利用改進(jìn)K-means 聚類(lèi)算法進(jìn)行入侵檢測(cè)特征分析和入侵范圍估計(jì)閾值估計(jì)，并對(duì)網(wǎng)絡(luò)特征進(jìn)行分類(lèi)；再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性，從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度，形成特征關(guān)聯(lián)影響量（Feature Association Impact Scale，F(xiàn)AIS）表，完成對(duì)異常網(wǎng)絡(luò)入侵的快速準(zhǔn)確檢測(cè)。主要?jiǎng)?chuàng)新體現(xiàn)在以下幾個(gè)方面：

1）現(xiàn)有方法在入侵檢測(cè)數(shù)據(jù)訓(xùn)練方面耗時(shí)較多，提出的方法利用改進(jìn)模糊粗糙集屬性約簡(jiǎn)對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理，優(yōu)化異常的入侵檢測(cè)特征，避免了對(duì)大量數(shù)據(jù)的訓(xùn)練，縮短了入侵檢測(cè)時(shí)間；

2）現(xiàn)有大多數(shù)入侵檢測(cè)方法僅僅是發(fā)現(xiàn)攻擊行為，沒(méi)有對(duì)攻擊進(jìn)行有效的分類(lèi)，提出的方法在數(shù)據(jù)預(yù)處理的基礎(chǔ)上，利用改進(jìn)K-means 聚類(lèi)算法進(jìn)行入侵檢測(cè)特征分析和入侵范圍估計(jì)閾值估計(jì)，并對(duì)網(wǎng)絡(luò)特征進(jìn)行分類(lèi)。

3）在聚類(lèi)結(jié)果的基礎(chǔ)上，根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性，從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度形成關(guān)聯(lián)影響量表，從而完成對(duì)異常網(wǎng)絡(luò)入侵的檢測(cè)。

特征相關(guān)性實(shí)驗(yàn)結(jié)果表明，特征優(yōu)化聚類(lèi)后的最小化測(cè)量特征關(guān)聯(lián)影響量表能在保證最大預(yù)測(cè)精度的前提下，最小化入侵檢測(cè)過(guò)程的復(fù)雜度并縮短完成時(shí)間。

1 基于改進(jìn)粗糙集屬性約簡(jiǎn)的數(shù)據(jù)集預(yù)處理

由于原始數(shù)據(jù)往往包含隱含信息［8-9］，本文利用改進(jìn)粗糙集屬性約簡(jiǎn)（Improved Rough Set Attribute Reduction，IRSAR）將這些隱含信息提取出來(lái)，在保留原始特征的同時(shí)更好地表現(xiàn)數(shù)據(jù)特征。將網(wǎng)絡(luò)連接記錄表示為四元組FS=(U，At，V，f)，其中：U為整個(gè)網(wǎng)絡(luò)數(shù)據(jù)集；At是一個(gè)非空的有限屬性集，t表示屬性集數(shù)量；表示屬性a域集合；f=U×At表示信息函數(shù)。

由于傳統(tǒng)的粗糙集理論只能處理離散屬性集，無(wú)法很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)［10-11］，因此引入模糊理論，利用模糊粗糙集的信息增益率對(duì)網(wǎng)絡(luò)連接數(shù)據(jù)特征進(jìn)行自動(dòng)選取。

將引入模糊理論的網(wǎng)絡(luò)連接記錄表示為FIS=(U，C∪D，V，f)，設(shè)B?C，?a∈C-B，C為條件屬性集，B為約簡(jiǎn)的屬性集，D為決策屬性集，屬性a的信息增益率為：

其中，GainRatlo表示增益率，GainRatlo(a，B，D)可用于衡量屬性a的重要程度，可以通過(guò)每次選擇增益率最大的特征進(jìn)行屬性選取，最終獲得的屬性集即為約簡(jiǎn)的本征屬性集。IRSAR 的數(shù)據(jù)集預(yù)處理主要步驟如下，其中輸入為數(shù)據(jù)集X、條件屬性集C、決策屬性集D，輸出為約簡(jiǎn)的屬性集B：

1）清空B集合，計(jì)算GainRatlo(a，B，D)，并篩選其最大值；

2）如果 maxGainRatlo(a，B，D) ＞0，則B←B∪{a}，返回1）；

3）集合B為屬性約簡(jiǎn)后的屬性集合。

模糊等價(jià)關(guān)系是模糊粗糙集的核心，假如給定非空有限數(shù)據(jù)集X，X上的模糊等價(jià)關(guān)系R可以用關(guān)系矩陣Mr表示為：

其中rij∈[0，1]是xi與xj的關(guān)聯(lián)值；xi和xj分別表示不同數(shù)據(jù)在同一屬性上的值，xi，xj∈X，模糊等價(jià)關(guān)系需要滿足自反、對(duì)稱和傳遞性，能夠?qū)崿F(xiàn)信息增益率對(duì)網(wǎng)絡(luò)連接數(shù)據(jù)特征屬性集進(jìn)行自動(dòng)篩選，以獲得約簡(jiǎn)的本征屬性集，從而有效提高入侵檢測(cè)算法的穩(wěn)定性。相較于經(jīng)典粗糙集理論只能處理離散屬性集的短板，改進(jìn)粗糙集屬性能夠獲得保留原始特征辨別能力的屬性子集，能夠很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)。

2 特征分析與影響尺度閾值估計(jì)方法

2.1 K-means 聚類(lèi)及其改進(jìn)

K-means 聚類(lèi)算法采用評(píng)價(jià)指標(biāo)來(lái)度量距離的相似性［12-13］，其主要思想體現(xiàn)為以下三點(diǎn)：

1）在樣本數(shù)據(jù)中，樣本數(shù)量為k，且為任意設(shè)設(shè)定，設(shè)定的樣本代表一個(gè)簇的初始中心或者均值；

2）數(shù)據(jù)樣本與每個(gè)聚類(lèi)中心之間的距離通常用歐氏距離公式計(jì)算，每個(gè)數(shù)據(jù)樣本根據(jù)計(jì)算結(jié)果被分配到最近的類(lèi)；

3）調(diào)整聚類(lèi)中心并對(duì)得到的新類(lèi)進(jìn)行再次計(jì)算，聚類(lèi)準(zhǔn)則函數(shù)收斂的條件是聚類(lèi)中心不再變化，即可終止對(duì)樣本數(shù)據(jù)的聚類(lèi)調(diào)整，從而結(jié)束算法。

改進(jìn)K-means 算法則針對(duì)初值選取敏感問(wèn)題，算法中簇心的初始位置在算法開(kāi)始時(shí)通過(guò)臨時(shí)指定，再通過(guò)樣本數(shù)據(jù)各維度的最大值和最小值計(jì)算，結(jié)合多次迭代來(lái)選取最佳的簇心，期間采用隨機(jī)梯度下降的方法來(lái)取代批量梯度下降以防止K-means 算法陷入局部最優(yōu)。假定h（θ）為所需要擬合的函數(shù)，J（θ）為損失函數(shù)，其函數(shù)形式分別表示為：其中：m表示訓(xùn)練集的數(shù)量，θ表示多次迭代計(jì)算所需要求取的值，X和Y為數(shù)據(jù)集，i表示迭代計(jì)數(shù)，t為損失因子，參數(shù)個(gè)數(shù)表示為j。當(dāng)求解出θ時(shí)最終要擬合的函數(shù)h（θ）的值也相應(yīng)求得。

損失函數(shù)也可以改寫(xiě)為：

其中cost(θ，(xt，yi))可表示為：

此處損失函數(shù)所對(duì)應(yīng)的辨識(shí)訓(xùn)練集中每個(gè)樣本數(shù)據(jù)的隸屬度，對(duì)于每個(gè)樣本數(shù)據(jù)的損失函數(shù)，通過(guò)對(duì)θ求偏導(dǎo)可以求出相應(yīng)的梯度，其中θ可以根據(jù)以下公式更新：

在計(jì)算過(guò)程中θ可以通過(guò)迭代計(jì)算不斷更新，但如果學(xué)習(xí)效率設(shè)置過(guò)高則可能導(dǎo)致振蕩現(xiàn)象。因此可以引進(jìn)學(xué)習(xí)率α進(jìn)行改進(jìn)，若假設(shè)f(α)=h(xk+αdk)，其中當(dāng)前樣本點(diǎn)設(shè)置為xk，搜索方向設(shè)置為dk，則可得隨機(jī)梯度下降過(guò)程所尋找的f(α)最小值為：

對(duì)學(xué)習(xí)率的函數(shù)導(dǎo)數(shù)的分析：若α=0，則有

下降方向dk可以選負(fù)梯度方向dk=-?h(xk)，從而使f'(0) ＞0。假如找到的α足夠大，并且使得f'(a)＞0，則一定存在某個(gè)α，使得f'(α*) ＞0，其中α*即為改進(jìn)設(shè)置的學(xué)習(xí)率。

改進(jìn)K-means 聚類(lèi)算法工作步驟如下，輸入k（簇?cái)?shù)），輸出標(biāo)記好的k個(gè)簇集合。

1）手動(dòng)設(shè)定k個(gè)臨時(shí)簇心；

2）在樣本數(shù)據(jù)每個(gè)向量的維度以及各自維度最大值和最小值選取簇心；

3）根據(jù)選取的樣本數(shù)據(jù)Xi找出距離它最近的簇心，并把簇心向Xi方向移動(dòng)；

4）每次移動(dòng)數(shù)據(jù)項(xiàng)時(shí)都乘以學(xué)習(xí)率α，其變化趨勢(shì)隨迭代次數(shù)增加而不斷減小；

5）返回步驟2）；

6）對(duì)簇心進(jìn)行更新；

7）直到簇心位置固定不變；

8）根據(jù)數(shù)量以及標(biāo)記判別該簇正常與否。

改進(jìn)后的K-means 算法對(duì)于初值選取要求有所降低，相較于原始算法簇心的初始位置可以在算法開(kāi)始時(shí)臨時(shí)指定，無(wú)需進(jìn)行繁瑣的初值整定；此外，改進(jìn)算法在穩(wěn)定性方面也有一定的提升，因?yàn)閷W(xué)習(xí)率α的設(shè)置改進(jìn)，可以避免因?qū)W習(xí)效率設(shè)置過(guò)高而導(dǎo)致的振蕩現(xiàn)象。

2.2 入侵檢測(cè)特征分析與特征關(guān)聯(lián)影響尺度閾值估計(jì)

2.2.1 入侵檢測(cè)特征分析

網(wǎng)絡(luò)事務(wù)集包含的42 個(gè)特征可以分為連續(xù)和分類(lèi)的值，為了便于優(yōu)化，需要將所有最初字母及連續(xù)數(shù)值轉(zhuǎn)換為分類(lèi)。預(yù)處理的一組網(wǎng)絡(luò)事務(wù)根據(jù)其標(biāo)簽進(jìn)行分區(qū)，使得正常事務(wù)是一組，拒絕服務(wù)（Denial of Service，DoS）攻擊事務(wù)是另一組。

將字母數(shù)字值表示為數(shù)值，并將聯(lián)系續(xù)值表示為分類(lèi)值，其具體步驟如下：

1）考慮具有字母數(shù)字值的每個(gè)要素，然后列出所有可能的唯一值，并使用從1開(kāi)始的增量索引列出它們；

2）用適當(dāng)?shù)乃饕鎿Q值；

3）考慮具有連續(xù)值的每個(gè)要素，然后將它們劃分為一組具有最小值和最大值的范圍，以便事件在所有這些范圍內(nèi)均勻分布。

考慮結(jié)果正常交易集(Normal Trade Set，NTS)中的每個(gè)特征值集合fiv(NTS) 及其覆蓋百分比為fiv={fi(v1，c1)，fi(v2，c2)，…，fi(vj，cj)}，v，c為特征量，然后，可以按照以下步驟中的描述執(zhí)行每個(gè)攻擊A的特征優(yōu)化：

1）考慮交易集ts(Ak)表示攻擊類(lèi)型Ak（假設(shè)為DoS攻擊）。

2）對(duì)于每個(gè)特征fi(Ak)，將所有值視為集合fiv(Ak)。創(chuàng)建大小為的空集，并根據(jù)其覆蓋百分比填充中的值，使得表示的特征值集的大小。

4）此過(guò)程應(yīng)適用于攻擊Ak的網(wǎng)絡(luò)事務(wù)中設(shè)置的所有特征值。

5）找出fiv(Ak)和之間的典型相關(guān)性。如果得到的典型相關(guān)性小于給定閾值或零，那么特征fi(Ak)可以被認(rèn)為是評(píng)估入侵范圍規(guī)模的最佳值。

根據(jù)上述步驟中說(shuō)明的過(guò)程，可以識(shí)別特定攻擊Ak的最佳特征。

2.2.2 特征關(guān)聯(lián)影響尺度閾值估計(jì)

通過(guò)聚合A的每一行來(lái)找到特權(quán)權(quán)重（將形成表示特權(quán)權(quán)重v），再通過(guò)A和v之間的乘法找到樞軸權(quán)重：

u=A×v（10）

那么特征分類(lèi)值fivj的尺度閾值fas可以通過(guò)如下公式計(jì)算：

特征分類(lèi)值fivj和fi'vj'之間的fas可以表示為：

其中：tvsk表示k交易價(jià)值集，|STVS|表示事務(wù)值集的總數(shù)。

另外，每個(gè)交易價(jià)值集tvsi的特征關(guān)聯(lián)影響量表fais和faist閾值可以分別表示為：

其中：valj∈V表示特征差值。

每個(gè)交易價(jià)值faist的標(biāo)準(zhǔn)差需要進(jìn)一步測(cè)量集合，以估計(jì)faist閾值的上下限和挑戰(zhàn)黑洞（Challenge Collapsar，CC）閾值范圍。其中，cc閾值是faist的一個(gè)臨界值；下限為cc平均值與cc 標(biāo)準(zhǔn)差之間的差值，上限為cc 平均值與cc 標(biāo)準(zhǔn)差之和。閾值設(shè)定的目的在于對(duì)以上三種范圍進(jìn)行閾值額定，與此對(duì)應(yīng)的范圍分別為不相關(guān)性、弱相似性和強(qiáng)相似性。發(fā)現(xiàn)的正常記錄總數(shù)為測(cè)試數(shù)據(jù)記錄的總和，估算標(biāo)準(zhǔn)偏差表示如下：

faist系列可以探索范圍如下：

faist范圍的下限是：

faist范圍的上限是：

當(dāng)且僅當(dāng)fais(nt)＜faistl時(shí)，網(wǎng)絡(luò)事務(wù)nt可以說(shuō)是安全的。

通過(guò)對(duì)網(wǎng)絡(luò)中不同標(biāo)注下數(shù)據(jù)進(jìn)行處理，結(jié)合模糊等價(jià)關(guān)系矩陣，可獲得輸入信號(hào)參數(shù)入侵特征閾值的參考指標(biāo)集如下：

通過(guò)上式構(gòu)建Mg關(guān)聯(lián)模型，并通過(guò)不斷訓(xùn)練改變參數(shù)個(gè)數(shù)與入侵特征閾值，獲取異常度量關(guān)聯(lián)矩陣：

其中m表示參數(shù)個(gè)數(shù)，則有入侵檢測(cè)特征關(guān)聯(lián)影響閾值為：

2.3 數(shù)據(jù)集特征相關(guān)性分析并聚類(lèi)

考慮兩個(gè)多維數(shù)據(jù)集X和Y，并且利用基于標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)的典型相關(guān)分析（Canonical Correlation Analysis，CCA），利用二階的自協(xié)方差和互協(xié)方差矩陣，建立數(shù)據(jù)集之間的線性關(guān)系。該技術(shù)基于兩個(gè)基礎(chǔ)，每個(gè)基礎(chǔ)用于數(shù)據(jù)集X和Y，其中互相關(guān)矩陣變?yōu)閷?duì)角線，并且對(duì)角線的相關(guān)性最大化。

研究用于實(shí)現(xiàn)規(guī)范相關(guān)的參數(shù)，其中，X和Y應(yīng)該相等；然而，假設(shè)平均值為零，數(shù)據(jù)向量x∈X和y∈Y可以具有變化的尺寸。使用特征向量方程求解規(guī)范相關(guān)計(jì)算：

這里，Cxx、Cxy、Cyy、Cyx均為交叉協(xié)方差矩陣，其中r2本征值是規(guī)范相關(guān)的平方，wx和wy是歸一化CCA 基矢量。方程的解等價(jià)于非零值，其數(shù)量等于x和y，表示考慮具有較小維數(shù)值的數(shù)據(jù)向量。當(dāng)時(shí)，式（21）被轉(zhuǎn)換為：

這些方程描述了交叉協(xié)方差矩陣Cxy的奇異值分解：

這里U和V表示包括奇異向量ui和vi的正交平方矩陣。wx和wy表示傳遞規(guī)范相關(guān)性的基礎(chǔ)向量。矩陣U和V以及ui和vi的向量維度通常根據(jù)x和y數(shù)據(jù)向量的維度變化而變化。

偽對(duì)角矩陣Q由對(duì)角矩陣D和附加零矩陣構(gòu)建，這將使得矩陣Q與x，y各維度兼容。如果Cxy具有滿秩，則非零奇異值基本上是非零規(guī)范相關(guān)，其數(shù)量小于x和y數(shù)據(jù)矢量維度中的任何一個(gè)。

3 特征關(guān)聯(lián)影響量表的入侵檢測(cè)

測(cè)量特征關(guān)聯(lián)支持度量的方法是將給定訓(xùn)練集的網(wǎng)絡(luò)事務(wù)記錄和在這些網(wǎng)絡(luò)事務(wù)中使用的特征分類(lèi)值視為兩個(gè)獨(dú)立集合，并進(jìn)一步構(gòu)建這兩者之間的雙工圖［14］。所提入侵檢測(cè)基于以下理想性假設(shè)和操作步驟實(shí)施。

3.1 理想性假設(shè)

特征{f1，f2，…，fn?fi={fiv1，fiv2，…，fivm}}是對(duì)特定攻擊Ak是最佳的分類(lèi)值，通過(guò)應(yīng)用于網(wǎng)絡(luò)事務(wù)集T(Ak)的典型相關(guān)分析來(lái)選擇。這里T(Ak)是給定訓(xùn)練集的特定攻擊Ak的網(wǎng)絡(luò)事務(wù)記錄集，使得：T={t1，t2，…，tn?ti={val(f1)，val(f2)，…，val(fi)，val(fi+1)，…，val(fn)}}屬于每個(gè)網(wǎng)絡(luò)事務(wù)特征的分類(lèi)值集合，稱為事務(wù)值集合tvs，并且將所有事務(wù)值集合稱為STVS。在上面的描述中，val(fi)可以被定義為val(fi)∈{fiv1，fiv2，…，fivm}，此后，術(shù)語(yǔ)特征指的是特征的當(dāng)前分類(lèi)值。當(dāng)且僅當(dāng)(val(fi)，val(fj))∈tvsk時(shí)，對(duì)于兩個(gè)特征val(fi)和val(fj)，val(fi)與val(fj)連接。

3.2 方法與步驟

本文通過(guò)示例探索該過(guò)程，將STVS要素的發(fā)散向量表示為V={val1，val2，…，val8}。在表1 和圖2中，每個(gè)元素{val1，val2，…，val8}可以是fivj，使得{fivj?i∈[1，2，…，n] ∧j∈[1，2，…，m]}。

在檢測(cè)valk的每個(gè)特征分類(lèi)值fivj與網(wǎng)絡(luò)事務(wù)記錄的關(guān)聯(lián)過(guò)程中，需要在STVS和特征分類(lèi)值之間建立雙工圖。

形成雙重圖可認(rèn)為圖關(guān)系是二分的，并且在特征和事務(wù)值集之間形成邊。此圖中的每個(gè)關(guān)系都表示特征對(duì)網(wǎng)絡(luò)事務(wù)的作用［15］。當(dāng)且僅當(dāng)該特征f是tvs的一部分時(shí)，交易值集合tvs和特征f之間的邊緣才存在可能，這可以表示為etvs←f?f∈tvs。

表1 STVS和特征分類(lèi)值之間關(guān)聯(lián)的二進(jìn)制表示Tab.1 Binary representation of correlation between STVS and feature classification value

圖1 所示為加權(quán)無(wú)向圖，其中特征值作為特征值之間的頂點(diǎn)和邊。

圖1 計(jì)數(shù)為8的分類(lèi)值集示例加權(quán)圖Fig.1 Weighted graph example of classification value set with counting of 8

任意兩個(gè)特征val(f1)，val(f2)之間的邊將按如下方式加權(quán)：

在上面的等式中，ctvs表示事務(wù)計(jì)數(shù)，其中包含兩個(gè)特征val(f1)、val(f2)。然后特征val(f1)、val(f2)之間的邊緣重量可以如下測(cè)量：

在構(gòu)建加權(quán)圖的過(guò)程中，本文認(rèn)為當(dāng)且僅當(dāng)ctvs≥1時(shí)，任何兩個(gè)特征之間存在邊際。

在如圖2 所示的雙工圖中，虛線表示連接元素屬于雙工圖的相同級(jí)別，實(shí)線表示特征值和事務(wù)值集之間的關(guān)系。

圖2 STVS和V之間的雙工圖Fig.2 Duplex diagram between STVS and V

如果在tvs1中存在稱為val1的特征分類(lèi)值fivj，則val1和tvs1之間的連接的權(quán)重將是val1與在加權(quán)中定義的tvs1的每個(gè)特征分類(lèi)值{fivj?fivj∈tvs1}之間邊的權(quán)重的總和圖形［16］。

此外，將形成矩陣A，表示交易值集和特征分類(lèi)值之間的雙重圖的邊緣權(quán)重。然后獲得A'，表示矩陣A的轉(zhuǎn)置［17］。

將STVS視為數(shù)據(jù)庫(kù)，并將其描述為雙工圖而不會(huì)丟失信息。設(shè)STVS={tvs1，tvs2，…，tvs6}是事務(wù)值集的列表，V={val1，val2，…，val8}是相應(yīng)的特征集分類(lèi)值。那么，顯然STVS相當(dāng)于雙工圖DG=(STVS，V，E)。其中，特征值分類(lèi)值能夠跟隨通道業(yè)務(wù)變化而動(dòng)態(tài)調(diào)整，從而達(dá)到辨識(shí)策略的修正，實(shí)現(xiàn)通信網(wǎng)絡(luò)入侵的在線監(jiān)測(cè)。

這里，E={tvsi，vali)：vali∈tvsi，tvsi∈STVS，vali∈V}。

假設(shè)給定雙工圖的交易值集，作為樞軸并且特征分類(lèi)值作為純特權(quán)，則可以測(cè)量樞軸和特權(quán)值［18-19］。如果在交易值集合中存在特征分類(lèi)值val1，那么val1和tvs1之間的連接的權(quán)重，將是val1與電視的每個(gè)特征分類(lèi)值{vali?vali∈tvs1}之間的邊緣權(quán)重的總和。這些權(quán)重是邊緣權(quán)重，用加權(quán)圖（Weighted Graph，WG）表示。根據(jù)2.2 節(jié)所述入侵范圍估計(jì)方法，對(duì)特征關(guān)聯(lián)影響尺度閾值進(jìn)行估計(jì)。

所提方法首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理，優(yōu)化異常的入侵檢測(cè)特征，然后利用改進(jìn)K-means 聚類(lèi)算法估計(jì)入侵范圍閾值并對(duì)網(wǎng)絡(luò)特征進(jìn)行最終分類(lèi)；再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性，從所選擇的最優(yōu)特征探索特征關(guān)聯(lián)影響尺度，形成特征關(guān)聯(lián)影響量表，完成對(duì)異常網(wǎng)絡(luò)入侵的檢測(cè)。其具體流程如圖3所示。

圖3 基于改進(jìn)K-means結(jié)合關(guān)聯(lián)影響尺度分析的入侵檢測(cè)方法流程Fig.3 Flowchart of intrusion detection method based on improved K-means and association impact scale analysis

4 實(shí)驗(yàn)結(jié)果與分析

入侵檢測(cè)評(píng)估程序生成的數(shù)據(jù)用于構(gòu)建原始KDD-99 數(shù)據(jù)集，包含接近4 900 000 個(gè)唯一連接向量，其中每個(gè)連接向量由41個(gè)特征組成，34個(gè)是連續(xù)特征，7個(gè)是離散的特征。此外，本文還利用CICIDS2017 通用數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn)，CICIDS2017 數(shù)據(jù)集是加拿大網(wǎng)絡(luò)安全研究所于2017 年開(kāi)源的入侵檢測(cè)和入侵預(yù)防數(shù)據(jù)集，通過(guò)攻擊本地網(wǎng)絡(luò)來(lái)收集流量數(shù)據(jù)，在一段時(shí)間內(nèi)收集正常流量和常見(jiàn)的攻擊流量，設(shè)計(jì)真實(shí)攻擊場(chǎng)景，具有一定的通用性和應(yīng)用性。在本文的實(shí)驗(yàn)中模擬的攻擊屬于下面描述的四種類(lèi)型中的任何一種。

1）DoS。DoS 攻擊是一種攻擊類(lèi)型，攻擊者通過(guò)消耗計(jì)算機(jī)或內(nèi)存資源來(lái)阻止對(duì)有效用戶的訪問(wèn)，從而使系統(tǒng)無(wú)法處理有效請(qǐng)求。DoS 攻擊的例子很多，如：teardrop、neptune、ping of death（pod）、mail bomb、back、smurf和land。

2）用戶到根式攻擊（Users-to-Root attack，U2R）。根攻擊是一種攻擊類(lèi)型，攻擊者可以訪問(wèn)系統(tǒng)中的有效用戶賬戶，并根據(jù)現(xiàn)有的系統(tǒng)弱點(diǎn)獲取對(duì)系統(tǒng)根組件的訪問(wèn)權(quán)限。有幾種類(lèi)型的U2R攻擊，例如：負(fù)載模塊、緩沖區(qū)溢出、rootkit、purl。

3）遠(yuǎn)程到本地攻擊（Remote-to-Local attack，R2L）。遠(yuǎn)程到本地攻擊是一種攻擊，其中沒(méi)有賬戶的攻擊者根據(jù)現(xiàn)有的計(jì)算機(jī)漏洞在本地訪問(wèn)合法用戶賬戶。R2L 攻擊類(lèi)型有：phf、warezmaster、warezclient、spy、imap、ftp_write、multihop 和guess_passwd。

4）探測(cè)攻擊（Probing attack，PROBE）。探測(cè)攻擊是一種攻擊類(lèi)型，攻擊者會(huì)避開(kāi)安防系統(tǒng)收集網(wǎng)絡(luò)中計(jì)算機(jī)上的數(shù)據(jù)。PROBE 攻擊類(lèi)型有：nmap、satan、ipsweep 和portsweep。在NSL-KDD數(shù)據(jù)集中，考慮的協(xié)議是TCP、UDP和ICMP。

本實(shí)驗(yàn)基于Intel Core i5-5430M CPU @ 2.70 GB，4 GB RAM 計(jì)算機(jī)平臺(tái)，并在Linux 系統(tǒng)中采用C 程序?qū)?shù)據(jù)集進(jìn)行預(yù)處理操作，同時(shí)采用Java執(zhí)行數(shù)據(jù)分類(lèi)和入侵檢測(cè)，采用粗糙集工具RSES（Rough Set Exploration System）。實(shí)驗(yàn)通過(guò)與文獻(xiàn)［5］和文獻(xiàn)［7］所提方法（即STSM 和DSSVM）進(jìn)行對(duì)比，從入侵檢測(cè)精度以及檢測(cè)完成時(shí)間等方面比較了所提入侵檢測(cè)方法的可行性和先進(jìn)性。同時(shí)在原始KDD-99 數(shù)據(jù)集實(shí)驗(yàn)基礎(chǔ)上，增加了CICIDS2017 通用數(shù)據(jù)集的對(duì)照實(shí)驗(yàn)，以驗(yàn)證所提方法的普適性。其中，假設(shè)網(wǎng)絡(luò)中發(fā)生的真實(shí)的攻擊事件數(shù)量M，IDS漏報(bào)的事件數(shù)量為N，在基于原始KDD-99數(shù)據(jù)集的實(shí)驗(yàn)中，通過(guò)數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為54 675條，測(cè)試記錄24 533 條；基于CICIDS2017 通用數(shù)據(jù)集的實(shí)驗(yàn)中，通過(guò)數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為53 687 條，測(cè)試記錄23 645 條，實(shí)驗(yàn)數(shù)據(jù)分布類(lèi)型和結(jié)果通過(guò)多次處理和測(cè)試得到。衡量系統(tǒng)性能最為重要的因素有檢測(cè)率（True Positive，TP）、誤報(bào)率（False Positive，F(xiàn)P）和漏報(bào)率（False Negative，F(xiàn)N）。異常網(wǎng)絡(luò)入侵檢測(cè)精度（Precision）是入侵檢測(cè)方法的主要度量指標(biāo)，分析得出了入侵檢測(cè)的精確度度量方法：

其中：TP為正確識(shí)別為入侵事件與所有入侵的事件數(shù)的比值，F(xiàn)P為錯(cuò)誤識(shí)別為入侵事件與所有非入侵的事件數(shù)的比值，F(xiàn)N為存在漏報(bào)的事件數(shù)與所有非入侵的事件數(shù)的比值。

實(shí)驗(yàn)將提出的方法與STSM 和DSSVM 在KDD-99 數(shù)據(jù)集上進(jìn)行了對(duì)比，其結(jié)果如圖4所示。

圖4 KDD-99數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測(cè)精度的性能分析Fig.4 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on KDD-99 dataset

從圖4中可以看出，提出的方法在閾值下限和臨界閾值附近對(duì)異常網(wǎng)絡(luò)入侵的檢測(cè)精度優(yōu)于STSM 和DSSVM 方法，其檢測(cè)精度均在97%以上，但在閾值上限處的精度則比另外兩種方法稍差。

同時(shí)，在同樣的實(shí)驗(yàn)條件下，將所提方法與STSM 和DSSVM在CICIDS2017數(shù)據(jù)集上也進(jìn)行對(duì)比，三者的閾值設(shè)定為各自在訓(xùn)練集重構(gòu)誤差的均值。

由圖5 可知，在閾值下限附近所提方法對(duì)入侵檢測(cè)精度明顯優(yōu)于STSM 和DSSVM 方法，且在臨界閾值條件下也保持了較好的精度優(yōu)勢(shì)，在閾值上限條件下，三種方法大體相同，均在99%以上。

圖5 CICIDS2017數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測(cè)精度的性能分析Fig.5 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on CICIDS2017 dataset

在不同標(biāo)記下的不同場(chǎng)景典型相關(guān)性實(shí)驗(yàn)中，對(duì)時(shí)間復(fù)雜度進(jìn)行了實(shí)驗(yàn)分析，提出的方法實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 在不同的典型相關(guān)閾值下IRSAR-KCANID的入侵檢測(cè)完成時(shí)間Fig.6 Intrusion detection completion time of IRSAR-KCANID under different typical correlation thresholds

由圖6可知，由于cc閾值存在變化，所需要的時(shí)間復(fù)雜度也是可縮放的。當(dāng)cc 閾值較小時(shí)，所需要的完成時(shí)間較少，如cc 閾值為0.03時(shí)，僅需2.209 s便可完成入侵檢測(cè)；隨著cc閾值逐漸增大，所需要的完成時(shí)間逐漸延長(zhǎng)，當(dāng)cc 閾值接近0.047時(shí)，完成時(shí)間趨于穩(wěn)定時(shí)間11.6 s左右。

此外，實(shí)驗(yàn)將所提方法與STSM 與DSSVM 在不同數(shù)據(jù)集中的不同屬性數(shù)量下入侵檢測(cè)時(shí)間復(fù)雜度方面的對(duì)比，其實(shí)驗(yàn)結(jié)果如表2所示。

如表2 所示，在不同數(shù)據(jù)集的同一屬性數(shù)量水平下，不同數(shù)據(jù)集對(duì)入侵檢測(cè)完成時(shí)間幾乎沒(méi)有影響。以KDD-99 為例，STSM 與DSSVM 方法比所提的IRSAR-KCANID 方法入侵檢測(cè)時(shí)間更長(zhǎng)。當(dāng)屬性數(shù)量為90時(shí)，STSM 與DSSVM 方法時(shí)間分別為0.115 s 和0.095 s，而提出的方法僅為0.06 s；當(dāng)屬性數(shù)量為250時(shí)，STSM 與DSSVM 方法時(shí)間分別為0.945 s 和0.935 s，提出的方法為0.324 s，大約節(jié)省60%的網(wǎng)絡(luò)入侵檢測(cè)時(shí)間；在CICIDS2017 數(shù)據(jù)集中，當(dāng)屬性數(shù)量為70時(shí)，STSM方法時(shí)間為0.077 s，DSSVM 與所提方法的時(shí)間為0.033 s；當(dāng)屬性數(shù)量為230時(shí)，STSM 與DSSVM 方法時(shí)間分別為0.943 s和0.893 s，而所提方法所需時(shí)間僅為0.535 s，相比于較快的DSSVM 方法能節(jié)省大約0.0363 s 入侵檢測(cè)時(shí)間。由此可見(jiàn)，在不同的數(shù)據(jù)集中，入侵檢測(cè)方法在屬性數(shù)量越大時(shí)，所需要的入侵檢測(cè)事例越多，所提方法相對(duì)于其他方法在不同數(shù)據(jù)集中對(duì)于入侵檢測(cè)所節(jié)約的時(shí)間成本越明顯。

表2 不同屬性數(shù)量下入侵檢測(cè)完成時(shí)間對(duì)比單位：sTab.2 Comparison of intrusion detection completion time complexity with different attribute numbers unit：s

5 結(jié)語(yǔ)

本文提出的IRSAR-KCANID 簡(jiǎn)化了特征分析過(guò)程，使用基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，同時(shí)引入IRSAR 對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理，采用改進(jìn)K-means 聚類(lèi)方法對(duì)數(shù)據(jù)特征進(jìn)行聚類(lèi)分析。實(shí)驗(yàn)結(jié)果表明，規(guī)范相關(guān)分析對(duì)于選擇用于訓(xùn)練的網(wǎng)絡(luò)事務(wù)的最優(yōu)屬性十分重要，提出的方法在特征相關(guān)聚類(lèi)的基礎(chǔ)上，結(jié)合關(guān)聯(lián)影響尺度進(jìn)行入侵檢測(cè)，在保證最大化檢測(cè)精度的前提下，最小化了過(guò)程復(fù)雜性和完成時(shí)間；但在cc 閾值上限情況下，提出的方法檢測(cè)精度比其他方法略差，因此提出的方法在適用性方面還有待進(jìn)一步拓展。