999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯網絡EM算法模型的工控蜜罐識別

2022-08-23 07:25:48張立芳顏培志
計算機技術與發展 2022年8期
關鍵詞:特征模型

張立芳,王 鋼,顏培志,姚 旭,孫 葉

(1.內蒙古工業大學 信息工程學院,內蒙古 呼和浩特 010051;2.內蒙古工業大學 信息化建設與管理中心,內蒙古 呼和浩特 010051)

0 引 言

工業互聯網時代下,大數據、人工智能的發展使得越來越多原本處于孤立環境中的工業控制設備暴露于公共互聯網,遭到來自互聯網的攻擊威脅[1]。工業控制系統(ICS)的安全問題變得越來越普遍,蜜罐和反蜜罐作為ICS安全的重要組成部分已經成為攻防對抗的重點,隨著蜜罐技術的不斷完善發展,針對蜜罐的識別技術也在相應的提高。工業控制系統蜜罐技術[2]作為主動誘捕手段之一,能夠有效捕獲針對工業控制系統發起的網絡攻擊,保護真實工控資產設備。安全研究者為了完善蜜罐技術,開始從攻擊者角度出發,研究蜜罐識別技術[3]。

傳統蜜罐識別都是針對單一特征,Sebek是一種基于內核的數據捕獲機制,常用于構建高交互蜜罐,因此,識別出Sebek機制就可以確定目標設備是蜜罐。朱一帥[4]針對Sebek機制進行研究與分析,對于識別蜜罐有重要意義。近幾年,人工智能和機器學習的廣泛應用,使得研究人員開始從這個角度研究蜜罐識別技術,北京郵電大學的程卓提出基于隨機森林模型的工業控制系統蜜罐識別,解決了單一特征識別的局限性問題[5]。從目前的情況看,對工控蜜罐的識別技術仍相對教少,大部分研究的是對蜜罐的識別,因此該文提出專門針對工控蜜罐的識別方法。

從目前了解的研究情況看,沒有專家將貝葉斯網絡用于工業控制蜜罐識別的研究上,針對蜜罐捕獲的攻擊數據及數據的分析問題,有研究人員采用動態貝葉斯網絡的方法,分析蜜罐獲取的數據,根據貝葉斯的遞推公式對攻擊行為進行預測,并將它應用于數據的分析[6]。攻擊類型有很多種,在面對未知攻擊時,有學者提出采用貝葉斯網絡推理算法分析和判斷蜜罐中的未知攻擊[7]。貝葉斯與蜜罐結合使用能夠解決一些實際問題。工控蜜罐識別面臨不確定性,與貝葉斯網絡應用問題相符合。作為不確定性分析的重要工具,用貝葉斯網絡進行蜜罐識別可行,因此將貝葉斯網絡運用于工控蜜罐識別研究上很有意義。

1 貝葉斯網絡介紹

1.1 基本概念

貝葉斯網絡是一種基于概率的不確定性推理方法,對不確定性問題具有強大的處理能力和自我學習更新能力。貝葉斯網絡是Judea Pearl于1988年提出的一種基于概率推理的圖形化網絡[8],它將若干具有因果關系或概率相關性的事件以網絡形式表示出來,然后在不同的事件中根據先驗概率進行推理計算,獲得各種事件發生的概率值。

貝葉斯網絡是一個有向無環圖(DAG),由代表變量節點及連接這些節點的有向邊構成。節點代表隨機變量,節點間的有向邊代表了節點間的因果關系,用條件概率表達關系強度[9],條件概率表(conditional probability table,CPT)是反映變量之間關聯性的局部概率分布,即概率參數,適用于表達和分析不確定性和概率性的事件。

(1)

公式(1)就是著名的貝葉斯公式。其中P(A1),P(A2),…,P(An)稱為先驗概率。事件B發生時,由于這個新情況的出現,對于事件A1…An發生的可能性有了新的認識,即在事件B發生的條件下事件A發生的情況稱為事件A的后驗概率。綜合了先驗信息和提供的新信息,形成了關于Ai發生概率的新認識。這個由先驗信息到后驗信息的轉化,是貝葉斯統計的特征。

1.2 貝葉斯網絡用于蜜罐識別的優勢

貝葉斯方法基于概率推理,用來解決不確定性問題,與該文識別蜜罐所面臨的不確定性一致。因此,貝葉斯網絡用于蜜罐識別具有一系列的優勢[10]:①貝葉斯網絡的評估結果不僅反映了當前的信息,而且綜合了歷史和先驗知識,能夠更加準確地預測蜜罐;②貝葉斯網絡能夠處理各種不確定性信息和不完備數據集,與完成蜜罐識別所采用數據集相符;③貝葉斯網絡與一般表示方法不同的是對于問題域的建模,當條件或行為等發生變化時,不用對模型進行修正;④采用貝葉斯網絡參數建模EM算法和貝葉斯聯結樹推理算法,提高了蜜罐識別準確率。

2 參數建模與推理算法

2.1 數 據

智能的蜜罐識別技術方法的主要挑戰是數據,Shodan[11]是著名的網絡空間搜索引擎,用于搜索網絡設備,這個平臺已經標記了許多已知的蜜罐服務器以及大量的工業控制系統資產設備,從平臺上獲取蜜罐及工控系統數據作為數據集,用來構建BN(貝葉斯網絡)。該數據庫包含各種用來判斷蜜罐的特征屬性(port、serial number of module、PLC name、module name),這些數據作為實驗研究的數據集是可靠的。除了從Shodan下載的數據之外,還部署了一些工控蜜罐,利用Nmap掃描工具對部署的蜜罐進行腳本掃描,獲取一些OS的指紋數據。

從Shodan下載的數據為json格式,為方便完成BN建模,一般需要將數據格式轉換為csv。依據工控蜜罐特征分析提取相關特征列,使與貝葉斯網絡模型節點相對應,作為模型訓練和測試數據集。該文收集了1 053條數據,蜜罐記錄數量為307,實際設備數量為746,數據集如表1所示。

表1 實驗數據集

2.2 參數建模

2.2.1 貝葉斯網絡結構搭建

基于貝葉斯網絡進行蜜罐識別,需按照一定的方法和原則,構建一個合理的網絡,主要有以下3個步驟[12]:①確定節點,貝葉斯網絡由節點組成,節點對應不同的事件,首先必須確定存在哪些可以識別為蜜罐的特征,即確定出現哪些特征可以判定是蜜罐。②確定節點關系即事件之間的因果關聯,由于選定的節點均為蜜罐特征,它們的出現將用來判斷是否為蜜罐,因果關系明確。③概率分配,對于沒有父節點的事件指定先驗概率,即P(Ai);對于有父節點的事件指定條件概率,即P(Ai|pa(Ai))。

根據以上3個步驟,很容易構建出貝葉斯網絡結構模型。

2.2.2 參數學習EM算法

參數學習的定位角色是在已知初始化模型的基礎上,包括初始化的結構和初始化的參數,基于實時獲取的新數據,通過參數學習來優化更新模型,解決實時性問題。通常貝葉斯網絡中變量的許多概率分布是未知的,希望從數據(即通過實驗、文獻或其他來源獲得的一系列觀察數據)中了解這些概率(參數)。一種被稱為EM(估計最大化)算法的算法對這種參數學習特別有用。EM試圖從觀測(但往往是不完整的)中找到網絡的模型參數(概率分布)。適用于給定貝葉斯網絡的結構和樣本數據,在已知先驗的情況下,根據貝葉斯推理計算模擬樣本缺失的概率,利用計算所得的期望補全缺失的數據集,重新對當前的網絡參數進行學習。一般收集的實驗數據存在缺值,EM算法用來解決數據不完整的參數估計問題,選擇EM算法作為缺值數據的BN參數學習算法是合適的。

EM算法由兩個步驟組成,求期望的E步和求最大似然估計的M步[13]。E步驟:根據參數初始值或上一次迭代的模型參數計算隱變量的后驗概率即隱變量的期望。

Qi(z(i))=P(z(i)|x(i),θ)

(2)

M步驟:將似然函數最大化以修正新的參數值:

(3)

不斷的迭代,就可以得到使似然函數L(θ)最大化的參數θ。

2.3 推 理

2.3.1 推理算法

聯結樹算法是Hugin Expert工具默認的推理算法,是一種精確的推理算法,目前速度最快。貝葉斯網絡(BN)是在聯結樹的二級結構(SS)中進行推理的[14]。

聯結樹推理算法的基本思想是,將BN轉化為一種SS,再通過對SS推理得到BN推理的精確結果。二級結構SS=(JT,PP),JT=(C,S)為聯結樹,C為BN中的團(clique)也是聯結樹的節點,聯結樹的節點之間的連接為S,稱為JT的邊,是收集證據和分配證據的通信通道。PP為團和邊相關的概率勢(probability potential),從每個團中變量的聯合概率分布計算得到。

聯結樹推理算法基本步驟為:

①將貝葉斯網絡轉化為聯結樹;找出BN中每一個節點的父節點,并將它們用無向邊兩兩相連,同時將所有BN的有向邊改為無向邊,建立BN的Moral圖,在Moral圖中添加一些無向邊,將每一個等于或大于4的環的兩個非相鄰節點連接起來,完成Moral圖的三角化。對三角化后的Moral圖,找到構成聯結樹的所有團。在找到的團中添加一些邊構造一棵聯結樹,樹中連接任意兩個團的邊的所有團節點必須包含兩個團節點的交集。

②初始化;為聯結樹的所有節點指定參數。

③消息傳遞;通過各團節點之間的消息傳遞,使聯結樹達到穩態。向內消息傳遞,消息從聯結樹的葉子發送到樹的根部,即收集證據。向外消息傳遞,其中消息從樹的根部向葉子發送,即分配證據。

④概率計算;找到任意一個包含變量V的團節點C,通過公式(4)計算變量V的分布。

(4)

其中,τi代表Ci的分布函數。

⑤加入證據;在新的證據加入時,要重新收集證據和分配證據,直到聯結樹達到穩態。對任意的團節點C有:

τC=P(C,e)

(5)

其中,e表示加入的證據。計算變量V的概率分布,首先找到任意一個包含變量V的團節點C,計算公式(6),再根據條件概率公式,計算變量V的概率分布。

(6)

2.3.2 推理過程

BN結構固定,父節點是一系列特征,子節點是蜜罐特征。BN節點特征和數據集的屬性對應,在對數據分析后,通過出現的具體特征狀態來預測蜜罐概率。BN模型的目標是通過特征來預測判斷蜜罐的概率大小,作為攻擊方,通過攻擊手段獲取到目標設備的信息,根據獲取的特征,使用建模完的模型進行預測。當BN切換到運行模式,激活自帶的推理算法─聯結樹算法,通過輸入證據,調用算法得出預測概率。

BN的結果標簽honeypot有1和0兩種狀態,在沒有輸入證據之前,honeypot標簽的狀態概率固定。當輸入特征證據,證據通過消息傳遞,調用聯結樹算法,計算相應honeypot標簽狀態概率。當有多個特征證據同時輸入,經過聯結樹算法的推理,計算出最終honeypot標簽狀態概率,honeypot為1的狀態是預測為蜜罐的概率。

3 貝葉斯網絡模型用于蜜罐識別實例分析

3.1 蜜罐識別BN的構建與分析

蜜罐基于爬蟲技術,具有良好的欺騙性能,蜜罐識別需要考慮區別于ICS設備的多個特征。該文考慮的主要特征包括:端口號、設備的串行序列號、系統名、設備名稱。根據主要蜜罐特征結合以上網絡構建的步驟,完成用于蜜罐識別的貝葉斯網絡模型,如圖1 所示。

圖1 蜜罐識別貝葉斯網絡模型

其中:port為端口,PLC_name為系統名,s_id為設備串行序列號,Module_name為設備名稱,Honeypot為蜜罐。模型中的變量狀態集合如下:

端口(port):port=102、502、21、47808、1962、20547、2002

系統名(PLC_name):PLC_name=Technodrome、ET 200S station_1、12172306、GDV570、SIMATIC 300(1)、SIMATIC 300、SAAP7-SERVER、BASE DIR R61.2、VENT、CPU 314C、Production Management, H、Central Pump、S7300/ET200M station_2

設備串行序列號(s_id):s_id=88111222、100194、S C-C2UR28922012、S Q-DNU118252013、S C-BOVM84702011、S C-E4UL21922014、S C-A6TD27832010、S C-W8V004032008、S C- D8U562202013

設備名稱(Module_name):Module_name=Siemens, SIMATIC, S7-200、CPU 314C-2 DP、CPU 314C-2 PN/DP、CPU 315-2 PN/DP、CPU 315-2 DP、CPU 314、TrilKantel、Energy, Water, Climate C、Pump Control Unit、PLC_1。

蜜罐(Honeypot):Honeypot=1、0

在實際應用中,每個特征會有多種取值,該文從簡單的角度出發,只選取了所用數據集中的一些狀態特征。

3.2 節點概率分配

網絡構造完成,下一個任務就是生成條件概率表。這些概率可以通過專家的經驗獲得,也可以通過計算機對原有數據進行統計學習獲得,或是兩者的有機結合。本例中需要指定的先驗概率包括P(port)、P(s_id)、P(PLC_name)、P(Module_name),由于沒有專家經驗,設4類特征的狀態出現的可能性均等,例如表2中s_id 的先驗概率。

表2 s_id特征的先驗概率

已知各節點先驗概率和條件概率后,使用搭建好的結構模型采用EM參數學習算法對各節點的參數更新,經過多次迭代,參數最終保持不變。參數建模完成后,4類特征的狀態參數改變,對應s_id特征狀態的參數如表2中后驗概率所示。

3.3 評價方法

模型評估是實驗成敗的關鍵,目的是評估最終模型的準確程度。文中采用精確率、召回率、F1 score、ROC曲線和AUC值作為評價指標,如公式(7)到公式(9)所示。

(7)

(8)

(9)

其中,TP為預測為蜜罐真實也為蜜罐的數量;TN為預測為非蜜罐真實也為非蜜罐的數量;FP為預測為蜜罐真實為非蜜罐的數量;FN為預測為非蜜罐真實為蜜罐的數量。

召回率為正確分類為蜜罐的所有樣本與真實為蜜罐的所有樣本比例;準確率為正確分類為蜜罐的所有樣本與預測為蜜罐的所有樣本比例。ROC由TPR和FPR構成,TPR是正確分類為蜜罐的所有樣本與真實為蜜罐的所有樣本的比例,如公式(10)所示;FPR是錯誤預測為蜜罐的樣本與真實為非蜜罐所有樣本的比例,如公式(11)所示。ROC曲線中,X軸為FPR,Y軸為TPR。

(10)

(11)

ROC曲線在(0,0)和(1,1)之間的對角線上方,表明模型的性能是可以接受的,為了更直觀評估模型,研究人員通常使用AUC指標來衡量模型的整體效率,AUC為ROC曲線下的面積,AUC的值越接近1,模型的效果越好。

3.4 實 驗

研究貝葉斯網絡EM算法訓練模型的模型性能與其他幾種機器學習算法訓練模型性能的對比優勢,和貝葉斯推理算法對預測蜜罐結果的準確性。在實驗中,使用scikit-learn庫完成機器學習模型的訓練,計算過程在i5-7200 CPU,12 GB內存的計算機上運行。EM算法模型訓練借助Hugin貝葉斯工具。

3.4.1 對比實驗

未經比較的結果是不可靠的,文中設計了這種比較實驗,以突出文中方法的優勢。回顧一些機器學習的研究[15],選擇了SVM、KNN、隨機森林和Native bayes作為貝葉斯參數學習EM算法的比較對象。將對比的所有機器學習算法用在同一數據集上分別訓練4個模型,對每個模型列出它們的精確率、召回率、準確率和F1score,且在同一坐標系中繪制它們各自的ROC曲線,模型的性能一目了然。文中采用的算法也在相同的數據集上進行訓練,列出精確率、召回率、準確率、F1 score 且單獨畫出ROC曲線,對比4種機器學習算法。

3.4.2 實驗結果

表3是4種機器學習算法和EM算法在同一數據集下所訓練模型的召回率、精確率、準確率和F1 score。圖2是四種機器學習算法的ROC曲線。圖3是文中采用算法的ROC曲線。圖2虛點線是隨機森林算法的ROC曲線,AUC值為0.955 6,實線是SVM算法的ROC曲線,AUC值為0.933 3,點線是KNN算法的ROC曲線,AUC值為0.933 3,虛線是Native bayes算法的ROC曲線,AUC值為0.955 6。圖3是文中算法借助工具完成的ROC曲線圖。通過兩圖對比,對于解決蜜罐識別所用的數據集,明顯文中采用的EM算法效果更好,AUC值為0.963 8。表3中,文中所采用算法訓練模型的召回率是0.979,準確率是0.979,精確率是0.97,F1 score是0.979,對比其他算法的模型指標性能更好。使用貝葉斯參數學習EM算法所訓練模型的ROC曲線和模型評估指標證明了最終模型具有較高的檢測率和良好的泛化能力。

圖2 四種機器學習算法的ROC曲線

圖3 貝葉斯網絡參數學習EM算法ROC曲線

表3 模型的召回率、精確率、F1 score、準確率

根據AUC值的判斷標準,AUC值越接近1,模型的效果越好。文中采用EM算法 模型的AUC值為0.963 8,高于其他機器學習算法訓練的模型,模型性能較好。

3.5 預 測

完成參數建模及模型評估后,使用聯結樹推理算法完成貝葉斯網絡的計算推理。參數建模后的貝葉斯網絡模型固定,借助貝葉斯推理算法進行蜜罐的識別預測。假設輸入證據s_id狀態為88111222,經過聯結樹推理算法的計算, 此時honeypot標簽狀態為1的概率由原來的62.7%變為67.91%,說明當出現此特征狀態時,預測為工控蜜罐的概率是67.91%。同時輸入證據s_id狀態為88111222和PLC_name狀態為Technodrome,此時honeypot標簽狀態為1的概率由原來的62.7%變為79.1%。當同時出現這兩個狀態時,預測為工控蜜罐概率的可能性增加。

根據獲取到的特征狀態,來預測工控蜜罐的概率。判斷是否是蜜罐有一個閾值,在完成參數建模之后,此時的honeypot標簽狀態為1的概率是62.7%,以此值作為閾值。當輸入證據后,通過推理算法計算得出honeypot狀態為1的輸出概率值大于62.7%,預測蜜罐的概率為輸出值;當輸入證據后,計算得出的輸出概率值小于honeypot狀態為1的閾值時,判斷不是蜜罐。概率值的大小反應判定是蜜罐的可能性。表4所示為一些蜜罐的預測概率結果。

表4 蜜罐識別的預測概率

4 結束語

文中提出一種基于貝葉斯網絡EM算法的工控蜜罐識別方法,該方法首先使用Shodan上收集的數據,采用EM算法訓練穩定的模型,然后基于Hugin自帶的推理算法完成預測識別。貝葉斯網絡對于不確定性事件的概率推測,與該文對蜜罐識別的不確定性問題相符合,對于處理識別蜜罐的不確定性具有特殊的優勢。作為攻擊方對于目標系統或設備是否是蜜罐未知,結合一些蜜罐特征使用貝葉斯網絡模型預測出現某個特征導致是蜜罐的概率,以便更加精確地識別蜜罐。相對于預測為蜜罐概率是100%,67.91%更準確,因為本質上并不知道目標設備是否確定為蜜罐。實驗結果表明,對比其他模型,文中采用的EM算法模型性能更優秀?;谪惾~斯網絡模型結合貝葉斯推理算法來預測,提高了蜜罐識別的準確性。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人午夜久久| 天天色天天操综合网| 久热这里只有精品6| 久久久久国产精品嫩草影院| 亚洲欧美在线综合图区| 国产成人1024精品下载| 久久青草精品一区二区三区| 国产精品深爱在线| 久久综合色88| 国产国拍精品视频免费看| 在线国产91| 国产精品免费久久久久影院无码| 日韩av电影一区二区三区四区| 日本一区二区三区精品国产| 在线亚洲精品自拍| 直接黄91麻豆网站| 国产福利一区在线| 青青青亚洲精品国产| 久久精品亚洲专区| 亚洲二区视频| 精品久久国产综合精麻豆| 女人爽到高潮免费视频大全| 色亚洲成人| 伊人久久综在合线亚洲2019| 亚洲一区二区约美女探花| 午夜福利网址| 亚国产欧美在线人成| 亚洲成人在线免费| 国产无码网站在线观看| 一级毛片基地| 欧美另类图片视频无弹跳第一页| 日本精品一在线观看视频| 国模私拍一区二区三区| 亚洲人成在线精品| 亚洲一区二区无码视频| 日韩精品毛片| 久久综合色天堂av| 青青国产视频| 国产黄网永久免费| 国内精品伊人久久久久7777人| 亚洲视频影院| 国产精品成人久久| 日韩成人午夜| 欧美在线国产| 久久香蕉国产线看精品| 欧美精品v欧洲精品| 国产精品丝袜视频| 日本福利视频网站| 亚洲国产黄色| 日韩无码精品人妻| 中文毛片无遮挡播放免费| 亚洲AV一二三区无码AV蜜桃| 亚洲开心婷婷中文字幕| 中文字幕亚洲电影| 国产福利影院在线观看| 日韩在线2020专区| 亚国产欧美在线人成| 无码AV日韩一二三区| 国产激爽大片高清在线观看| 国产国语一级毛片在线视频| 91精品国产91久久久久久三级| 日韩毛片免费| 亚洲人视频在线观看| 亚洲第一区欧美国产综合| 国产精品污视频| m男亚洲一区中文字幕| 亚洲女同欧美在线| 国产自视频| 亚洲天堂成人在线观看| 国产精品3p视频| 欧美日韩成人在线观看| 成·人免费午夜无码视频在线观看 | 国产va免费精品观看| 国产日本视频91| 无码中字出轨中文人妻中文中| 在线日韩一区二区| 欧美日本在线| 黄片一区二区三区| 亚洲男女天堂| 一本大道视频精品人妻| 91破解版在线亚洲| 日本一本在线视频|