王興柱 顏君彪 曾慶懷
1(湖南文理學院芙蓉學院 湖南 常德 415000)2(湖南文理學院現代教育技術中心 湖南 常德 415000)
?
基于熵重要測度權重粗糙集的阿爾法多層凝聚入侵分類
王興柱1顏君彪1曾慶懷2
1(湖南文理學院芙蓉學院湖南 常德 415000)2(湖南文理學院現代教育技術中心湖南 常德 415000)
針對入侵檢測數據量大,而文獻[1]提出的α核心集的多層凝聚算法計算復雜度過高,影響實際應用的問題,提出一種基于熵重要測度權重粗糙集的α核心集多層凝聚入侵分類算法。首先,基于熵重要測度權重方法利用粗糙集對入侵檢測數據進行預處理和屬性約簡,降低數據維數防止算法陷入“維數陷阱”;其次,用熵重要測度權重距離代替阿爾法多層凝聚算法的歐式距離計算個體相似度,并實現粗糙集輸出數據與阿爾法多層凝聚算法的有效對接。通過實驗表明,基于熵重要測度權重粗糙集的α核心集多層凝聚入侵分類算法能夠更加有效對KDDCUP99標準數據庫進行檢測分類。
熵重要測度權重粗糙集多層凝聚入侵檢測
入侵檢測系統(IDS)是對網絡中入侵行為進行檢測的自動系統,作為入侵安全防范的前提已在許多安全系統中得到廣泛應用[1,2]。二十一世紀,網絡逐漸成為獲取資訊最常用的工具之一,人們對于網絡的依賴程度也逐漸增加。如何構建高效的入侵攻擊防御系統,對于保障信息安全、維持正常生產、生活秩序意義非凡[3]。
為進一步提高入侵檢測算法的整體性能,許多學者致力于入侵檢測算法方面的研究。文獻[4]基于SVM算法在非線性識別中的特點,提出一種SVM入侵檢測算法,去除了機器學習算法的局限性。文獻[5]基于神經網絡在非線性逼近方面的優勢,對特征提取后的入侵攻擊行為進行檢測。文獻[6]基于k-Means算法來降低訓練樣本量,提高其學習性能和計算效率,通過反向傳播學習機制對入侵攻擊進行檢測。文獻[7]基于CACC對算法進行離散化,以此提高數據表達能力,然后基于樸素貝葉斯和k-Means聚類進行入侵估計檢測等。
學者馬儒寧在文獻[1]中闡述了一種新的基于α核心集指標的分層次聚類方法(MULCA),稱之為多層凝聚算法。有關定義如下:
定義1該定義根據高斯距離概念,給出(入侵)數據xi與xj間的相似性形式如下:
(1)
式中,σ=σ0d,d為數據集的直徑。
定義2文獻[1]采用α核心集概念,此處給出多層凝聚算法的首要核心集概念。如果對于任意數據集X中的任何一點x*都滿足式(2)所述的要求:
(2)
則稱任意點x*為任意數據集X的首要核心點。
定義3α個依次首要核心點可定義形式如下:
(3)

定義4數據集X的α核心凝聚矩陣可由式(4)獲得:
(4)
從定義4給出的凝聚矩陣計算公式可以看出,該矩陣PX~Xα能夠反映出數據集X與其α核心集Xα的相關程度。
定義5Xα的加權相似性矩陣形式如下:
(5)

根據定義5,可依次定義得到原數據集X,在凝聚粗化分層過程中,每一層提取結果的α核心集的相似性加權矩陣,形式可定義如下:
(6)
根據定義1-定義5,可獲得文獻[1]提出的多層凝聚算法的兩階段計算(粗化與細化)過程步驟,如圖1所示。

圖1 多層凝聚算法過程
MULCA算法由于牽涉到凝聚粗化和凝聚細化兩個階段,導致算法計算復雜度的提高,特別是針對如入侵檢測系統這種大數據量的分類問題時,如何降低算法的計算復雜度關乎算法的實際應用價值。下面將借助粗糙集熵屬性約簡來對分類數據進行預處理,以期達到降低算法計算復雜度,提高分類精度的目的[8,9]。
定義6(等價關系族)假設P、Q在集合U中為等價的,Q的P正域可表述為:
(7)

(8)

Gain(A)=I(S1,…,Sm)-E(A)
(9)

sig(C)=rP(C)-rP-Q(C)
(10)
定義9(熵測度權重距離)假設有K個屬性,則對于其屬性j∈K,其重要性權值可根據定義8表述如下:
(11)
則熵測度權重距離可定義如下:
(12)
利用該熵測度權重距離可以對冗余屬性進行刪減,從而可以有效地降低計算數據量,并可仿真算法陷入“維度陷阱”,粗糙集熵屬性約簡步驟如下:
步驟1輸入n個對象的數據庫,及輸出簇的數量k;
步驟2數據初始化,令γΦ=0,Φ→red;
步驟3對任意屬性ai∈A-red,計算重要測度:
sig(ai,red,D)=γred∪a(D)-γred(D)
(13)
步驟4選擇最重要測度的屬性ak,滿足下式:
sig(ak,red,D)=max(sig(ai,red,D))
(14)
步驟5若sig(ak,red,D)>0,則更新red集合:red∪ak→red,否則返回步驟4;
步驟6利用上述得到的K維數據庫根據定義9計算red集中的個體屬性權重ωj;
步驟7任意k個屬性對象作為簇中心;
式中,Wx表示相x的質量分數,Ix為積分強度,KxA和KiA可以在JCPDS(Joint Committee on Powder Diffraction Standards,粉末衍射標準聯合委員會)的PDF卡片中得到.
步驟8循環執行下列步驟:
(1) 根據簇對象均值,將對象劃歸到類似簇中;
(2) 更新簇均值和簇中對象均值;
(3) 計算熵測度權重距離d(xk,ci),直到d(xk,ci)值穩定為止;
步驟9輸出red、屬性簇及d(xk,ci)。
多層凝聚算法由于獨特的算法結構導致算法的計算復雜度增加,因此,對于大數據量的入侵數據檢測,降低數據冗余對于算法的實際應用意義非凡[10]。第1、2節著重介紹了α核心集的多層凝聚算法以及粗糙集熵屬性約簡的有關定義和算法步驟,本節主要思想是基于粗糙集熵屬性約簡的數據預處理并結合α核心集的多層凝聚算法實現入侵數據的有效檢測。基于改進MULCA算法的入侵數據檢測算法框架如圖2所示。

圖2 入侵檢測算法過程
基于改進MULCA算法的入侵數據檢測步驟如下:
步驟1輸入待分類的入侵數據集X及所需要聚類的個數K;
步驟3利用熵測度權重距離d(xi,xj)取代定義1相似度定義,令μ(xi,xj)=d(xi,xj),利用粗糙集熵屬性約簡后的數據集作為多層凝聚算法的輸入數據集X′;

步驟5參照第1節有關定義執行細化過程,對數據集進行分類,輸出最終的入侵數據分類結果C={C1,C2,…,Cm}。
4.1算法測試
仿真對比實驗,選取文獻[11]PROCLUS算法、文獻[12]EWKM算法、文獻[13]FWKM算法和文獻[14]FCS四種算法作為對比算法。本文對比實驗采用文獻[11]使用的數據合成方法進行實驗數據生成。


表1 仿真數據集實驗參數
由表2對比結果可以看出,RSMULCA算法在四種對比測試數據上的識別精度式中最高。作為對比算法在某些數據集上識別精度接近于RSMULCA算法,如FCS算法在數據集DB1和DB4上的聚類識別精度,在個別數據集上其算法性能受制于參數影響,如在數據集DB2上,α=2.1上FCS算法的識別精度為0.9582,但是當α=3.0時,識別精度降為0.8846,在其他數據集上參數依賴程度不大。從表2對比數據中可看出,PROCLUS、EWKM和FWKM三種算法也有不同程度的參數依賴性,相比RSMULCA算法對實驗的自適應能力要強于對比算法。

表2 聚類識別精度對比
因為PROCLUS算法是基于數據抽樣的,仿真過程中算法每次運行結果都不同。EWKM、FWKM和FCS算法不會出現此情況。對于同一實驗數據,5種算法各運行20次取平均性能。
下面主要測試算法聚類時間及數據點數、維數和簇數三個參數對RSMULCA算法運行時間的影響程度,仿真結果如圖3所示。

圖3 運行時間對比結果
圖3給出幾種對比算法的運行時間對比情況,從中可以看出,RSMULCA算法在運行時間上要優于所采用的對比算法,主要原因是RSMULCA算法采用粗糙集熵屬性約簡算法有助于降低分類數據的計算數據量。其他幾種算法運行時間情況是:PROCLUS優于FCS算法,兩者優于EWKM和FWKM算法,而FWKM要優于EWKM算法,主要原因是EWKM算法參數確定需要較復雜的計算步驟。
4.2入侵檢測實驗分析
在以往入侵分類算法的文獻報道中,KDDCUP99數據庫[15,16]是常用到的實驗對象,為了方便與相關文獻算法的對比,這里依然沿用其他文獻的做法,以KDDCUP99數據庫作為實驗對象。該數據庫最具有代表性的主要有4種網絡入侵數據:DOS、Probe、U2R和U2L。這四種類型網絡入侵數據信息如表3所示。

表3 測試數據選取數量
在對入侵檢測算法進行評價時,常用到的評價指標主要有檢測率和錯檢率。所謂檢測率指的是算法檢測出的入侵數據個數與入侵數據總數的比值;錯檢率指的是被誤報為入侵的正常數據數量與正常數據總數的比值。對于表3選取的測試數據集,分別選取RSMULCA算法、PIDE[10]算法和KTID算法[15]的入侵檢測分類結果進行比較如表4所示。

表4 分類結果對比(%)
檢測率如式(15)所示,錯檢率如式(16)所示[13]:

(15)

(16)
表4所示分別為RSMULCA、PIDE和KTID三種算法在標準測試數據庫上,根據式(15)、式(16)的實驗對比數據。從該對比數據可以看出,在DOS、U2R、U2L和Probe四種數據分類中,RSMULCA算法在檢測率和錯檢率上的識別性能均要比PIDE和KTID算法更優異。PIDE與KTID相比,前者在U2L和U2R兩種網絡入侵數據上的識別效果要優于KTID算法。在錯檢率方面,PIDE算法在U2L和DOS兩種入侵數據上的識別效果要優于KTID算法。總體上,PIDE入侵檢測算法和KTID入侵檢測算法的性能各有千秋。通過數據對比可以得到這樣的結論,本文所提RSMULCA入侵檢測算法是可行的,能夠有效地提高入侵檢測的識別率,降低錯檢率。
為進一步驗證RSMULCA算法的入侵數據識別性能優勢,分別選取MULCA和UMID[17]兩種算法進行對比。標準測試數據庫仍選用KDDCUP99,入侵數據數量如表3所示,仿真對比結果如圖4、圖5所示。

圖4 三種算法的檢測率對比

圖5 三種算法的錯測率對比
圖4給出RSMULCA、MULCA和UMID三種算法的檢測率對比結果。可以看出,RSMULCA算法在DOS、U2R、U2L和Probe四種入侵數據上的檢測準確率性能均要比MULCA和UMID兩種對比算法優秀。而后兩種算法,在DOS和U2R兩種入侵方式中,MULCA算法的入侵數據檢測率優于UMID算法,在U2L和Probe兩種入侵方式中,UMID算法的入侵數據檢測率優于MULCA算法。圖5給出RSMULCA、MULCA和UMID三種算法的錯檢率對比結果。可以看出,RSMULCA算法在四種入侵數據上的檢測錯誤率要低于另外兩種對比算法,其中在U2R、Probe和U2L三種攻擊方式中MULCA算法的入侵數據錯檢率要高于UMID算法。綜上所述,實驗結果表明RSMULCA算法對入侵數據檢測是可行和高效的。
從提高入侵檢測系統對新的入侵數據檢出率的角度,結合文獻[1]提出的α核心集的多層凝聚算法設計了無監督的入侵檢測分類系統,并且為了解決多層凝聚算法計算復雜度過高的問題,采用基于熵重要測度權重粗糙集對入侵數據進行預處理,并和多層凝聚算法實現有效對接,降低數據維數防止“維數陷阱”,提高了分類的準確率。
[1] 馬儒寧,王秀麗,丁軍娣.多層核心集凝聚算法[J].軟件學報,2013,24(3):490-505.
[2]ChiragM,DhirenP,BhaveshB.Asurveyofintrusiondetectiontechniquesincloud[J].JournalofNetworkandComputerApplications,2013,36(1):42-57.
[3]FaraounKM,BoukelifA.InternationalJournalofComputationalIntelligence[J].NeuralNetworksLearningImprovementusingtheClusteringAlgorithmtoDetectNetworkIntrusions,2007,3(2):161-168.
[4]BoppanaRV,SuX.OntheEffectivenessofMonitoringforIntrusionDetectioninMobileAdHocNetworks[J].IEEETransactionsonMobileComputing,2011,10(8):1162-1174.
[5]MaLC,MinY,PeiQQ.ADynamicIntrusionDetectionMechanismBasedonSmartAgentsinDistributedCognitiveRadioNetworks[J].GeneticandEvolutionaryComputing,2014,238(2):283-290.
[6] 楊雅輝,黃海珍,沈晴霓.基于增量式GHSOM神經網絡模型的入侵檢測研究[J].計算機學報,2014,37(5):1216-1224.
[7]ValenzuelaJ,WangJH,BissingerN.Real-timeintrusiondetectioninpowersystemoperations[J].IEEETransactionsonPowerSystems,2013,28(2):1052-1062.
[8]AnilKB,BipanT,JayashriR.OptimizationofSensorArrayinElectronicNose:ARoughSet-BasedApproach[J].IEEESensorsJournal,2011,11(11):3001-3008.
[9] 唐繼勇,宋華,孫浩.基于粗糙集理論與核匹配追蹤的入侵檢測[J].計算機應用,2010,30(5):1202-1205.
[10]FungCJ,ZhangJ,BoutabaR.EffectiveAcquaintanceManagementbasedonBayesianLearningforDistributedIntrusionDetectionNetworks[J].IEEETransactionsonNetworkandServiceManagement,2012,9(3):320-332.
[11]AggarwalCC,ProcopiucC,WolfJL.Fastalgorithmforprojectedclustering[C]//Proc.oftheACM.SIGMOD.NewYork:ACMPress,1999:61-71.
[12]JingL,NgMK,HuangJZ.Anentropyweightingk-meansalgorithmforsubspaceclusteringofhighdimensinoalsparesedata[J].IEEETransonKnowledgeandDataEngineering,2007,19(8):1-16.
[13]HnangJZ,NgMK,RongH.Automatedvariableweightingink-meanstypeclustering[J].IEEETransonPatternAnalysisandMachineIntelligence,2005,27(5):657-668.
[14]GaoG,WuJ,YangZ.Afuzzysubspaceclusteringalgorithmforclusteringhighdimensionaldata[J].LectureNotesinComputerScience,2006,24(3):271-278.
[15]MengYX,LiWJ.Towardsadaptivecharacterfrequency-basedexclusivesignaturematchingschemeanditsapplicationsindistributedintrusiondetection[J].ComputerNetworks,2013,57(17):3630-3640.
[16]HassanzadehA,XuZY,RaduS.PRIDE:PracticalIntrusionDetectioninResourceConstrainedWirelessMeshNetworks[J].InformationandCommunicationsSecurity,2013,23(3):213-228.
[17]ShakshukiEM,SheltamiTR.EAACK—ASecureIntrusion-DetectionSystemforMANETs[J].IEEETransactionsonIndustrialElectronics,2013,60(3):1089-1098.
INTRUSIONCLASSIFICATIONFORALPHAMULTILEVELAGGREGATIONBASEDONROUGHSETWITHENTROPYIMPORTANTMEASUREMENTWEIGHT
WangXingzhu1YanJunbiao1ZengQinghuai2
1(Furong College,Hunan University of Arts and Science,Changde 415000,Hunan,China)2(Modern Educational Technology Center,Hunan University of Arts and Science,Changde 415000,Hunan,China)
Intrusiondetectionhaslargedataamount,andthemultilevelaggregationclusteringalgorithmofαcore-setpresentedbyliterature[1]hastoohighcomputationalcomplexity,whichaffectsthepracticalapplication.Aimingatthisproblem,weproposedanintrusionclassificationalgorithmforαcore-setmultilevelaggregationclustering,whichisbasedonroughsetwithentropyimportantmeasurementweight.First,basedonentropyimportantmeasurementweightmethoditusestheroughsettocarryoutpretreatmentandattributereductiononintrusiondetectiondata,andtodecreasedatadimensionforpreventingthealgorithmfromfallinginto"dimensiontrap";Secondly,itreplacestheEuclideandistanceofalphamultilevelaggregationclusteringalgorithmwithentropyimportantmeasurementweightdistancetocomputetheindividualsimilarity,andimplementstheeffectivedockingofoutputdataofroughsetandalphamultilevelaggregationclusteringalgorithm;Finally,itwasdemonstratedthroughexperimentsthattheproposedalgorithmcouldmoreeffectivelydothedetectionandclassificationonKDDCUP99standarddatabase.
EntropyImportantmeasurementWeightRoughsetMultilevelaggregationclusteringIntrusiondetection
2014-11-23。湖南省自然科學基金項目(14JJ2124)。王興柱,副教授,主研領域:網絡與信息安全,現代教育技術。顏君彪,教授。曾慶懷,副教授。
TP311
ADOI:10.3969/j.issn.1000-386x.2016.03.075