盧明星 陳恩慶
1(河南護理職業學院公共學科部 河南 安陽 455000)2(鄭州大學信息工程學院 河南 鄭州 450000)
隨著無線傳感器的廣泛使用和物聯網(Internet of things,IOT)技術[1]的快速發展,越來越多地使用無線傳感器網絡(Wireless Sensor Network,WSN)集成物聯網的概念,以滿足監測智能電網、智能微電網或者生產制造資產等基礎設施[2]的需求。無線傳感器網絡由多種類型的傳感器通過無線通信鏈路相互通信所組成,用于監測系統的不同方面,比如壓力和溫度[3]。在長期持續監測這些關鍵的基礎設施中,WSN面臨多種多樣的安全威脅[4],而檢測這些惡意入侵活動已變得極為重要。由于WSN的局限性,傳統的入侵檢測技術不能直接應用于WSN環境中。因此,在聚合大量的傳感器數據時,必須采用有效的入侵檢測系統(Intrusion Detection System,IDS)來保護聚合數據不受已知和未知的攻擊。
任何IDS的主要目標都是檢測異常活動并報警,以保證網絡的安全。計算智能,包括機器學習、模糊邏輯和人工神經網絡,都是識別網絡中異常活動的有效方法[5-7]。由于機器學習具有的人工智能特性,近年來,更多地將機器學習算法引入到網絡入侵檢測系統中,并探索其可行性和有效性,來提高入侵檢測系統的整體性能。文獻[8]針對入侵檢測系統不再為已知的攻擊類型提供簡單模式識別功能的問題,提出了一種自適應和自動化的測試范例來充分地驗證無法通過其他方法進行有效測試的入侵檢測系統。文獻[9]提出了一種分布式計算機網絡入侵檢測系統的自適應模型,檢測系統的基礎由多種數據挖掘方法組成,并使用從網絡中提取的多種屬性將網絡交互劃分為正常或者異常。文獻[10]提出了基于異常的入侵檢測的理論方法,并通過實現檢測率、能量消耗和誤報率之間的平衡,實現輕量級的異常檢測。文獻[11]提出一種多級半監督入侵檢測模型框架,使用一種類別劃分方法來應對不同類型的攻擊,并引入了“純聚類”的概念,采用基于聚類的方法進行網絡異常的檢測,提高了總體精度和各種網絡攻擊行為的檢測效果。
現有的入侵檢測方法大都是針對已知的攻擊類型,檢測率較高,但面對未知類型的網絡威脅,加之復雜多變的應用場景,往往由于環境惡劣而使得檢測結果誤報率高、精度低。針對WSN中存在的已知的和未知的入侵行為,提出一種自適應監督和聚類混合的入侵檢測系統(Adaptively Supervised and Clustered Hybrid Intrusion Detection System,AC-IDS)。該機制將傳感器聚合數據分類后導入到基于機器學習的誤用檢測子系統(Misuse Detection Subsystem,MDS)和異常檢測子系統(Anomaly Detection subsystem,ADS),其中:MDS使用基于隨機森林的分類器來檢測已知攻擊,將感知流量與從訓練數據中識別出的入侵行為的模式進行比較;ADS采用了基于密度的聚類分類器,通過將訓練數據集中檢測到的數據與正常數據進行比較來檢測未知攻擊。實驗結果表明,AC-IDS能夠較好地提高準確率和入侵檢出率。
系統模型中的符號表示意義如表1所示。

表1 系統模型中符號表示意義

續表1
分簇WSN由N個簇組成,每個簇又由C個傳感器節點組成。每個簇中,簇頭的作用是將傳感器節點轉發的數據進行聚合,在此基礎上,簇頭轉發數據至中心服務器,那里部署了網絡入侵檢測。系統模型框圖如圖1所示。

圖1 系統模型框圖
和聚類分層混合的入侵檢測系統(Clustered Hierarchical Hybrid-IDS,CHH-IDS)一樣,AC-IDS也采用了加權簇頭選擇算法,其中簇頭的選擇是基于每個傳感器節點與簇內其他節點比較后的權值。在簇頭選舉過程中,每個傳感器分配一個權值,該權值是代表它的度數,接收信號強度RSS和移動性的函數。選舉方法根據以下步驟進行:
1) 找到每個傳感器節點dn的度數,代表的是鄰居傳感器的數量。
2) 計算差值Δn的度數。
3) 計算節點n的RSS和SRSSn。
4) 計算每個傳感器節點的移動因子Mn。
5) 計算累計時間τn,代表自n被指派為簇頭以來經歷的時間(累計時間)。
6) 計算綜合傳感器權重Wn,綜合傳感器節點權重公式如下:
(1)
式中:ω1、ω2、ω3、ω4分別是系統參數的權重因子,ω1表示節點n度數差,ω2表示SRSSn的權重因子,ω3表示節點移動性,ω4表示節點累積時間,Δn=|dn-δ|,dn是節點n的度數,δ代表簇頭能夠處理的節點數量,Δn是節點n的度數差;|1/SRSSn|是歸一化RSS總和。每個傳感器估計它自己的權值,廣播它的ID并和鄰居節點的權值比較。具有最小權值的節點被選為簇頭。

(2)
在CHH-IDS中,聚合的流量經過兩個并行的入侵檢測子系統,即未知攻擊的ADSs和已知攻擊的MDSs,稱為混合系統。CHH-IDS的ADSs運行基于應用空間聚類的增強密度的噪聲算法(E-DBSCAN),DBSCAN是一個密度分簇算法,它將簇作為數據空間中對象的密集區域,用低密度對象的區域來劃分。該方法采用隨機森林算法作為控制分類方法,分兩階段進行:訓練和分類階段。它基本上是一個由樹結構分類器集合組成的分類算法,其中每棵樹在每次輸入時都為最常見的類發送一個單元投票。
AC-IDS旨在跟蹤誤用和異常檢測子系統的受試者工作特征的變化,并自適應地調整轉發給這兩個子系統之一的感知數據的比例。AC-IDS單次決策過程流程如圖2所示。

圖2 ASCH-IDS單次決策過程流程
ADSs和MDSs在時刻t的真陽性(TP)和假陽性(FP)的比值分別表示為:
(3)
(4)
由于AC-IDS用于實時操作,TP/FP比值被跟蹤為一個運行平均值,時間步長Δt如式(5)和式(6)所示。值得注意的是Δt=ti+1-ti。
(5)
(6)
當得到兩個子系統在時間步長Δt內的受試者工作特征(ROC),每個子系統的總體ROC行為可以計算為當前總體ROC行為與時間步長的加權和,如式(7)和式(8)所示。式中:α表示迄今為止計算的總TP/FP值和前邊描述的在時間步長Δt內的TP/FP值的權重;ti+1=ti+Δt。
M1(ti+1)=αM1(ti)+(1-α)M1(Δt)
(7)
M2(ti+1)=αM2(ti)+(1-α)M2(Δt)
(8)
除了各子系統的ROC行為外,AC-IDS也記錄兩個子系統在任意時間ti的相對運行平均ROC行為。為此,引入了一個指標I(ti):
(9)
利用兩個子系統的相對ROC行為轉發聚合傳感數據的決策如下:在時間ti,如果I(ti)I(ti),AC-IDS增加M1的感知數據比例,減少M2的感知數據比例,如式(10)-式(11)所示,ΔR代表每個子系統的感知數據的比例調整。
Rα(ti+1)=Rα(ti)±ΔR
(10)
Rm(ti+1)=Rm(ti)±ΔR
(11)
值得注意的是,流程中呈現的是連續的決策過程圖來調整每個子系統中的感知數據比例。
為了驗證提出的AC-IDS在分簇WSN網絡中的有效性,實驗仿真了不同網絡區域大小、不同節點數和不同簇數等多種不同場景。每個場景模擬10次,并取十次平均值作為最終的仿真結果。表2列出了初始場景仿真參數的詳細描述。

表2 初始場景仿真參數
使用知識發現和數據檢索即KDD CPU99數據集來驗證提出的AC-IDS系統的有效性。攻擊被分為以下四類:DoS,Probe,U2R,R2L。KDD CPU99數據集包含三個部分,如表3所示。KDD10%數據集用作訓練數據集,涵蓋22種攻擊類型,代表整個KDD數據集的子集版本。校正KDD數據集涵蓋14種額外攻擊。

表3 KDD數據集描述
本實驗使用準確率、檢測率和受試者工作特征曲線三個度量來比較不同方法的性能。
準確率(AR)可反映系統的總體檢測性能,由式(12)計算得到,其中:TP和TN分別為真陽性和真陰性,FN和FP分別為假陰性和假陽性。
(12)
在不同場景中追蹤AR,呈現不同的數據速率下系統的性能。圖3展示了CHH-IDS中異常檢測子系統和誤用檢測子系統的Rα和Rm分別固定為0.75和0.25,0.25和0.75和0.5和0.5,AC-IDS的ΔR=0.25時的AR。如圖,提出的自適應方法AR最高可達99.76%。最佳AR是在增加異常檢測子系統的數據比例同時減少誤用檢測子系統中感知數據比例情況下得到,此時ΔR=0.25%。

圖3 系統準確率
檢測率(DR)代表真正被識別為入侵的傳感器行為的比例,即代表真陽性TP的比例。追蹤不同數據比例場景的DR來顯示系統性能,如圖4所示。
(13)

圖4 系統檢測率
圖4展示了CHH-IDS中異常檢測子系統和誤用檢測子系統的Rα和Rm分別固定為0.75和0.25,0.25和0.75和0.5和0.5,AC-IDS的ΔR=0.25時的DR值。提出的AC-IDS作為自適應決策的結果,通過跟蹤各子系統的ROC行為導致在檢測具有入侵行為的傳感器時候,與每一個單獨的異常檢測子系統和誤用檢測子系統相比,能夠獲得最高的DR。從圖4得出,通過增加異常檢測子系統數據比例,同時降低流向誤用檢測子系統中數據比例,導致DR性能下降。
受試者工作特征曲線(ROC)描述了真陽性TP和假陽性FP之間折中的一種圖形化方法。圖5繪制了不同情景下的ROC曲線。

圖5 不同的ΔR下的ROC曲線
在ROC曲線中x軸為假陽性概率,即被錯誤分類為異常的正常樣本,y軸為真陽性概率,即被正確分類的異常樣本比例,取值范圍均為(0,1),其中(0,0)表示將每個實例均預測為正常的模型,(1,1)表示將每個實例預測為異常的模型。通過ROC曲線看出,越靠近圖的左上角,系統的性能越好,即得出結論在ΔR=0.25時,能有效改善整體性能。
為了驗證所提系統的合理性和適應性,分別對不同場景條件下系統性能進行驗證,不同場景條件包括:不同區域大小、不同節點數和不同簇數,系統的準確率和檢測率性能如表4和表5所示。

表4 系統準確率(%)

表5 系統檢測率(%)
結果顯示,提出的自適應監督和聚類混合的入侵檢測系統AC-IDS在不同場景條件下準確率和檢測率較高且較穩定,具有較好的普適性。
針對在無線傳感器網絡的關鍵性基礎設施中存在的攻擊和威脅,提出了自適應監督和聚類混合的入侵檢測系統AC-IDS。該系統由誤用檢測子系統和異常檢測子系統組成,并根據保持跟蹤的各子系統的ROC行為這個指標來動態調整指向兩個子系統的感知數據的比例。采用自適應的方法解決了入侵問題,并分別通過無監督和監督的機器學習技術,調整在ADS和MDS系統中不同的數據比例來動態檢測已知和未知入侵。通過仿真驗證了AC-IDS的性能并證明了該方法的有效性,在WSN中已知和未知的惡意攻擊的檢出率高達99%,準確性約為99.80%。未來工作在于研究子系統之間在不同的條件下如何建立優化模型及異構的集群大小對提出的解決方案性能的影響。