999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時機博弈的網絡安全防御決策方法

2023-01-09 14:28:38孫鵬宇張恒巍譚晶磊李晨蔚馬軍強王晉東
計算機工程 2022年11期
關鍵詞:策略實驗模型

孫鵬宇,張恒巍,譚晶磊,李晨蔚,馬軍強,王晉東

(1.中國人民解放軍戰略支援部隊信息工程大學 三院,鄭州 450001;2.中國人民解放軍91451 部隊,河北 邯鄲 056000)

0 概述

近年來,隨著信息技術的飛速發展,網絡攻擊事件頻繁發生[1],大到國際戰略、國家安全,小到公司利益、個人隱私,普遍受到來自黑客攻擊、蠕蟲病毒、木馬程序等網絡安全威脅。此外,隨著計算機技術的快速發展,網絡安全威脅和攻擊的手段越來越靈活[2-3],現有的漏洞檢測、防火墻、病毒防護等靜態防御技術已難以應對隱蔽性強、變化快的網絡攻擊。因此,提高網絡安全威脅防控能力,增強網絡防御效能已成為亟待解決的問題。

網絡安全的本質在于對抗,對抗的本質在于攻防兩端能力的較量[4]。在網絡攻防對抗中,雙方行動彼此制衡、相互影響,對抗結果由雙方策略共同決定,針對特定的攻擊手段,不同的防御策略會產生不同的安全收益[5]。由于網絡攻防對抗中的基本特征與博弈理論相似,攻防雙方的對抗過程可以抽象為雙人博弈的過程,因此應用博弈模型分析網絡攻防行為成為網絡安全領域的熱點研究方向[6-7],已有諸多學者取得了較好的研究成果。

基于博弈模型分析網絡攻防行為主要取決于決策行動的具體內容(即行為策略)及決策行動的時間(即時間策略)?;谛袨椴呗缘墓シ啦┺哪P统晒^多,行為策略的研究經歷了由靜態到動態、由完全信息到不完全信息、由完全理性到不完全理性的發展過程。近年來,研究人員陸續提出適用于不同網絡場景的防御決策模型,主要包括攻防信號博弈模型[8-10]、攻防微分博弈模型[11-12]、攻防隨機博弈模型[13-15]以及攻防演化博弈模型[16-17],但在現有成果中,對時間策略展開深入研究的網絡攻防博弈模型則相對較少,而時間策略的選取對網絡防御決策意義重大,因為即使選取的行為策略正確,但如果行動時機錯誤,依然會影響防御效能,給網絡系統造成巨大的損失。

基于時間博弈[18-19]的網絡防御決策方法適用于描述對公共資源控制權交替變換的情況,優點是模型的拓展性較強,可以和現有的行為策略模型相結合,更好地貼合網絡攻防實際場景,有效提高網絡攻防策略的準確性和時效性,協助網絡管理者作出最優決策。文獻[18]提出FlipIt 博弈,這是一種經典的時間博弈方法,能夠有效應對具有隱蔽性、針對性的攻擊行為,以時間維度選取策略進行建模,動態刻畫攻防雙方對安全目標控制權的爭奪過程,為研究安全策略最優時機問題提供了理論工具[20]。此后,相關技術成果及擴展研究相繼出現[21-23]。

本文以FlipIt博弈為基礎,參考SIR 傳染病模型[24]對網絡安全狀態進行演化分析,將網絡資源節點抽象為SIR 模型中的個體,并把網絡節點安全狀態擴展為正常狀態N(Normal)、感染狀態I(Infected)、修復狀態R(Restored)、受損狀態M(Malfunctioned)NIRM4 種狀態,在此基礎上建立微分方程,用于描述網絡安全狀態演化過程。此外,借鑒FlipIt 博弈方法,構建攻防時機博弈模型研究網絡對抗過程,并綜合分析時機選取策略對攻防收益變化的影響,提出攻防決策收益函數,并以納什均衡策略為依據設計最優防御策略選取算法。

1 網絡攻防時機博弈模型分析

為應對網絡攻擊行為快速、隱蔽的特點,在攻防對抗中贏得主動,本文構建一種基于FlipIt 模型的防御時機決策模型,分析攻防雙方決策與行動時機的關系。FlipIt 博弈的特點在于行動的隱蔽性,即雙方可以隨時發起行動控制資源且不被對方發現,并且只有在對方行動之后,才能知道系統資源的當前狀態(攻擊或防御),攻防雙方決策則根據博弈過程中反饋的信息確定。因此,本文從不完全信息角度構建基于時機博弈的攻防策略選取模型。

1.1 基于SIR 模型的攻防過程演化分析

SIR 模型是傳播動力學中描述信息傳遞或行為傳播的經典模型,主要應用于分析傳染病在人群中的流行規律及其內在的動力學過程。模型將人群分為易感者、感染者和恢復者3 類,并設置總人口恒定,其感染機制可以描述如下:流行病毒是傳染的源頭,通過一定的速率感染易感者,此時易感者變成感染者,成為新的傳染源頭;感染者可以通過治療變成恢復者,同時獲得免疫能力,使自身既不會感染病毒也不會傳播病毒。

通過對SIR 模型進行定量分析和數據模擬,能夠預測傳染病傳播趨勢并制定有效的防御措施。SIR 模型具體表述如下:在初始階段所有的節點均為易感節點,當接收到外界傳遞的信息后,相應的節點受到傳染變成感染節點,緊接著感染節點繼續傳遞信息給其他易感節點,同時有部分感染節點轉為免疫節點,信息傳遞行為在免疫節點處終止。

在網絡攻防對抗中,攻擊方利用網絡系統內部潛在的漏洞,對部分節點發起攻擊,并滲透到網絡系統中的其他節點,企圖破壞整個網絡系統。攻防行為的交互對抗,導致網絡系統的安全狀態發生遷移,相應狀態網絡節點的數量也隨之動態變化,整個攻防過程與傳染病的傳播過程類似。本文借鑒SIR 傳染病模型模擬網絡攻防過程,將網絡資源節點抽象為SIR 模型中的個體并擴展為NIRM 4 種狀態,動態刻畫網絡節點的安全狀態演化過程。本文用xN(t)、xI(t)、xR(t)、xM(t)分別表示在t時刻下正常節點N、感染節點I、免疫節點R和受損節點M的數量。

假設網絡中節點總數量Q保持不變,則?t∈[t0,T],有xN(t)+xI(t)+xR(t)+xM(t)=Q。4 種網絡節點的狀態轉移路徑具體如下所示:

1)N→I:網絡節點處于正常工作狀態,由于遭受到網絡病毒入侵,被病毒成功入侵的網絡節點將轉變為感染節點I。

2)N→R:網絡節點處于正常工作狀態,當網絡病毒開始入侵時,就立即被防御系統成功捕捉病毒信息并對其進行查殺,此時網絡節點轉變為對網絡病毒免疫的節點R。

3)I→R:網絡節點成功被病毒入侵并感染,防御系統采取定期系統檢測或病毒篩查手段,有效識別并清除已感染的節點,成功修復安全漏洞,此時網絡節點轉變為對網絡病毒免疫的節點R。

4)I→M:網絡節點成功被病毒入侵并感染,防御系統利用病毒檢測、系統升級等方法進行修復后,仍未能有效清除已感染的節點,導致節點受損嚴重,終止服務,并且無法繼續感染其他節點,此時網絡節點轉變為終止服務的受損節點M。

4 種網絡節點的狀態轉換示意圖如圖1 所示。

圖1 網絡節點狀態轉換示意圖Fig.1 Schematic diagram of network node state transition

根據上述網絡節點狀態的轉移情況,本文重點圍繞正常節點N和感染節點I進行分析,網絡安全狀態變化的微分方程可以表示為:

假設網絡病毒的傳播只能感染滲透相鄰的網絡節點,不能感染其他網絡節點。網絡節點以密度σ進行分布,va為感染速率,大小與網絡中感染節點所占比例有關,vd為修復速率,大小與網絡中正常節點和免疫節點所占的比例有關。

本節在改進SIR 模型的基礎上,構造描述網絡安全狀態變化的微分方程,實現對安全狀態的實時度量,為后面時機博弈模型的構建與攻防收益的量化計算提供分析基礎和度量方法的支撐。

1.2 基于時機博弈的最優防御策略模型

本文在1.1 節的基礎上構建攻防時機博弈模型,該模型為非自適應連續博弈模型,其中攻防雙方均采用具有隨機階段的周期性策略,攻防雙方的行動由博弈期間接收到的反饋確定。

定義1攻防時機博弈模型(Attack-Defense Time Game,ADTG)可以表示為一個6 元組AADTG=(N,T,x(t),B,P,U),并滿足如下條件:

1)N=(NA,ND)是攻防博弈的參與人集合,NA代表攻擊方,ND代表防御方。

2)T=TA+TD∈[0,+∞)是攻防博弈的總時間,表示攻擊方與防御方控制系統資源的總時間,其中TA為攻擊方控制系統資源的總時間,TD為防御方控制系統資源的總時間。

3)x(t)={(xN(t),xI(t),xR(t),xM(t))}是網絡系統的狀態變量。xN(t)、xI(t)、xR(t)、xM(t)分別表示t時刻網絡系統中4 種狀態的節點數量,Q代表節點總數量,Q=xN(t)+xI(t)+xR(t)+xM(t)。

4)B=(AS,DS)是攻防雙方的行動空間,其中,AS=(β1,β2,…,βj),DS=(δ1,δ2,…,δk)分別表示攻擊方和防御方的行動集合,雙方的行動次數均不小于1,即j,k≥1。在任意t時刻,攻防雙方都有可能采取行動控制資源。

5)P=(PA,PD)是攻防雙方的周期策略空間,其中,PA表示攻擊方時間策略,代表連續2 次攻擊行動的時間間隔,PA={PA(t)|PA(t)=((t)),1 ≤j≤m}為 攻擊方的時間策略集合。同理,PD表示防御方時間策略,PD={PD(t)|PD(t)=((t)),1 ≤k≤n}表示防御方的時間策略集合。

6)U=(UA,UD)是攻防雙方的收益函數集合,其中,UA和UD分別表示攻擊方和防御方的收益函數。

1.3 收益量化與計算方法

收益量化是求解博弈均衡并進行定量計算的基礎,其作為攻防時機博弈模型ADTG 的輸入,直接影響攻防時機的選取結果,進而影響最優攻防策略的輸出。這里將收益量化分為兩部分,包括網絡攻防對抗導致網絡節點狀態變化產生的收益及攻防雙方實施行為策略消耗的成本。為有效計算攻防收益,本文將攻防雙方控制目標資源的總時長作為收益的唯一指標,相關參數的定義、符號名稱及具體含義如表1 所示。

表1 相關符號的定義Table 1 Definition of relevant symbols

為簡化計算,將攻防行為的回報率和收益率進行歸一化處理,即r=rAR+rDR=1,ω=ωAU+ωDU,其中,攻擊方收益率防御方收益率

根據博弈論[25]可知,在給定的攻防時機博弈模型AADTG=(N,T,x(t),B,P,U)中,由于攻防雙方的策略相互依存,存在最優的攻防策略組合使攻防雙方達到博弈平衡,滿足:

根據定義1 的周期性博弈可知,攻防雙方的行動是隱蔽的,無法準確掌握對手行動時間的完整信息,雙方采取的博弈策略為非適應性策略,策略的時機選取是隨機的。因此,本文借鑒FlipIt 博弈方法,將相位隨機化引入到周期性策略中,即攻防雙方均采用具有隨機特征的周期性策略,雙方的行動時間在區間[0,P]中隨機選擇,雙方的周期性策略僅根據行動頻率的大小確定。在此將收益計算分為以下2 種情況:

根據文獻[18]理論推導的結果可知,在給定的攻防時機博弈模型AADTG=(N,T,x(t),B,P,U)中,雙方都采用隨機階段的周期性策略,達到如下納什均衡:

2 最優防御策略選取算法

依據博弈基本理論,納什均衡是博弈過程能夠達到的最優穩定解[26]。因此,根據式(7)求解得到的納什均衡策略可認定為攻防雙方的最優策略,任何一方背離均衡策略,都會導致其博弈收益降低。依據納什均衡策略,本文設計的攻防時機博弈的最優防御策略選取算法如下。

算法1攻防時機博弈的最優防御策略選取算法

3 實驗結果與分析

3.1 實驗環境

通過仿真實驗驗證本文ADTG 模型的可行性和有效性。本節搭建了如圖2 所示的實驗網絡拓撲環境。

圖2 仿真系統拓撲圖Fig.2 Topology diagram of simulation system

本文實驗環境分為內部網絡和外部網絡2 個部分,攻擊主機位于外部網絡,能夠通過外網入侵內網中的任意節點,目標信息系統為交換網絡和用戶主機。內部網絡包括4 臺服務器,分別為FTP 服務器、Web 服務器、File 服務器和數據庫服務器。根據防火墻的規則,攻擊方只能訪問DMZ 區的服務器,DMZ區的服務器可以訪問數據庫服務器,但是無法訪問局域網內用戶主機。本文假設攻擊方試圖竊取數據庫中儲存的內部涉密敏感信息。根據國家信息安全漏洞庫數據信息獲得服務器和主機存在的漏洞信息,如表2 所示。

表2 服務器漏洞信息Table 2 Vulnerability information of server

參考林肯實驗室攻防行為數據庫[27],設計本文攻擊和防御行為信息,如表3 和表4 所示。

表3 攻擊行為信息Table 3 Attack behavior information

表4 防御行為信息Table 4 Defense behavior information

3.2 防御收益的定量分析

本文通過設定不同參數,仿真網絡節點不同的初始狀態,并分析節點狀態的演化過程,進而對防御收益進行定量分析。由于博弈模型為不完全信息博弈,攻防雙方在行動之前都沒有任何關于對手行為的信息,攻防收益僅與雙方選取的策略有關。根據式(3)~式(6),將雙方收益轉化為行動頻率,考慮到攻防雙方的行動頻率由行動成本決定,本文從行動周期和行動成本入手,進行仿真實驗。設常量參數PA、PD、CA、CD,其中:PA、PD分別為攻防雙方的周期性策略,用于計算攻防博弈中的攻防回報;CA、CD分別為攻防策略的成本,用于計算執行策略付出的代價,詳細分析見1.3 節。

本文依托Matlab 軟件為實驗平臺,驗證所提出的最優防御策略選取算法。下面重點從求解最優防御收益入手,分析防御收益UD與攻防周期PA、PD以及防御成本CD之間的關系。為簡化計算,將攻擊成本CA設定為1,采用有限離散博弈時間,攻防雙方的周期策略以0.5 s 為最小行動時間單位進行實驗。

圖3 所示為面對不同攻擊周期時,防御收益UD與防御周期PD的關系。

圖3 防御收益與攻防周期的關系Fig.3 Relationship between defense benefit and attack defense cycle

假設防御成本CD=1,由圖3 可知,當PA=PD時,防御收益UD隨著攻防周期區間的增大而增加;當PA<PD時,防御收益UD隨著攻擊周期區間PA的增大呈現上升趨勢,隨著防御周期區間PD的增大,防御收益UD繼續保持上升;當PA>PD時,防御收益UD隨著攻擊周期區間PA的增大同樣呈現上升趨勢,隨著防御周期區間PD的增大,防御收益UD變化情況為先上升后下降。觀察實驗數據可得,當攻擊周期PA=3時,防御方的最佳防御周期=2.5,防御收益=0.183;當攻擊周期PA=5 時,防御方的最佳防御周期=3,此時防御收益=0.367。綜合實驗結果不難發現,此時的防御收益既是局部最優解,又是全局最優解,說明面對不同攻擊周期PA時,存在與之對應的最優防御周期使得防御收益最大。以上實驗驗證了模型的合理性。

圖4 所示是在防御周期PD一定的情況下,防御收益UD與攻擊周期PA和防御成本CD的關系。

圖4 防御收益與攻擊周期和防御成本的關系Fig.4 Relationship between defense benefit,attack cycle and defense cost

假設防御周期PD=5,由圖4 可知,防御收益UD隨著行動成本CD的增加而減小,說明行動成本是制約防御收益UD的1 個關鍵因素。隨著攻擊周期區間PA的增大,防御收益UD總體呈現上升趨勢,當PA≤5 時,防御收益UD與攻擊周期PA成正比;當PA>5 時,防御收益UD雖持續保持增長態勢,但增長速度逐漸變緩,這是由于當攻防周期PA=PD時,防御收益UD會發生跳變,具體分析見式(4)和式(6),這側面說明動態調整防御策略PD對抵御不同類型的攻擊周期PA起到了關鍵作用。

圖5 所示是攻擊周期PA在一定條件下,防御收益UD與防御周期PD和防御成本CD的關系。

圖5 防御收益與防御周期和防御成本的關系Fig.5 Relationship between defense benefit,defense cycle and defense cost

假設攻擊周期PA=5,由圖5 可知,防御收益UD與防御成本CD呈反比關系,隨著防御周期區間PD的增大,防御收益UD呈現先上升后下降趨勢,這再次驗證了當攻擊周期PA一定,且付出的防御成本CD相同時,存在最優防御策略使防御收益最大化。

由上述仿真結果數據的分析可以發現,防御周期和攻防成本是決定防御收益的主要因素。

3.3 對比實驗與分析

現有的網絡安全防御決策研究主要針對攻防行為策略進行分析建模,忽視了行動時機對系統安全的重要影響,且系統設定的防御時機策略一般為固定的周期策略,如軟件的定期殺毒、密碼重置、密鑰定期更新等,但靜態被動的時間防御策略不能及時有效地抵御網絡攻擊行為。為此,將本文方法與已有的固定先驗周期的防御方法進行對比,分析當攻擊方的行動周期PA固定時,不同的防御策略PD對防御收益UD的影響。由前述實驗可知,成本是制約防御收益UD的主要因素,為方便驗證實驗結論,排除其他無關干擾因素,本文假設每次攻防的行動成本均為1 s(即行動成本為控制網絡目標節點1 s 的所有權),實驗收益設定為雙方控制資源的總時間(s)減去行動的總次數(次數即秒數)。本文以攻擊方固定周期策略PA=3 和PA=5 為例進行對比實驗,探究當攻擊周期PA固定時,改變不同的防御周期策略PD對防御收益UD的影響,實驗結果如圖6和圖7 所示。

圖6 攻擊周期與防御收益隨時間的變化關系(PA=3)Fig.6 Relationship between attack cycle and defense benefit over time(PA=3)

圖7 攻擊周期與防御收益隨時間的變化關系(PA=5)Fig.7 Relationship between attack cycle and defense benefit over time(PA=5)

圖6 和圖7 分別表示當攻擊周期固定為PA=3 和PA=5 時,通過調整不同的防御策略PD,防御收益UD隨時間t的變化情況。由圖可知,當攻防雙方均采取周期策略時,產生的收益情況也呈現周期性變化。設定攻擊方采取固定周期策略PA=3,當防御方采取防御策略PD=1 時,防御收益UD為負;當防御策略PD=2,2.5,3,4 時,防御收益UD均為正,特別的,當防御策略PD=2.5 時,防御收益UD達到最大。設定攻擊方采取固定周期策略PA=5,當防御方采取防御策略PD=1 時,防御收益UD仍為負;當防御策略PD=2.5,3,4.5,6 時,防御收益UD持續增加,且當防御策略PD=3 時,防御收益UD最大。

由此說明,當攻擊策略PA一定時,選取不同的防御策略PD會產生不同的防御收益UD。如果防御策略PD很小(即行動周期短),可能會因行動次數的增加導致防御收益UD為負;隨著防御策略PD逐漸增大,防御收益UD先增加后減小,而且隨著時間t的增加,不同防御策略PD產生的防御收益UD之間的差距也愈加明顯,即存在最優的防御策略和最佳防御收益。對比實驗結果與仿真實驗所得結果一致。以圖6 為例,當攻擊策略一定時,采用固定防御策略的平均收益為0.21,動態調整防御策略的平均收益為0.26,防御收益提高了23.81%。實驗數據表明相較于先驗的固定周期防御策略,實時動態調整防御策略才是更有效的安全防御手段,驗證了本文模型和算法有效且可行。

4 結束語

本文從網絡攻防時機角度模擬攻防雙方控制目標資源的狀態,并基于FlipIt 時間博弈理論,結合SIR模型傳播規律,對實時變化的網絡系統狀態進行分析研究,最終構建攻防時機博弈模型。提出博弈雙方收益計算方法、均衡求解方法和最優防御策略選取算法,從理論分析和數值仿真實驗兩方面驗證本文模型和算法的有效性和科學性。在此基礎上,與現有固定周期的防御方法進行對比,進一步說明動態調整時間策略的必要性。實驗結果表明,當攻擊策略一定時,使用本文方法動態選擇最優防御策略的平均收益為0.26,相比傳統固定防御方法,平均防御收益提高了23.81%。下一步將通過應用復雜網絡理論,分析傳播動力學模型在真實網絡環境中的傳播規律,從而設計應用于現實環境中大規模復雜網絡的實時防御決策方法。

猜你喜歡
策略實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
做個怪怪長實驗
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产激爽爽爽大片在线观看| av尤物免费在线观看| 伊人激情综合网| 毛片网站免费在线观看| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲第一成人在线| 色婷婷狠狠干| 国产91色在线| 中国一级毛片免费观看| 精品国产欧美精品v| 日韩精品一区二区三区中文无码 | 国产精品所毛片视频| 国产亚洲视频中文字幕视频| 9啪在线视频| 国产成人精品亚洲日本对白优播| 99视频在线免费看| av大片在线无码免费| 毛片在线播放a| 国产精品主播| 亚洲无码免费黄色网址| 曰AV在线无码| 中文无码精品a∨在线观看| 亚洲无码日韩一区| 日韩精品成人网页视频在线| 六月婷婷激情综合| 国产久草视频| 国产资源站| 欧美色99| 亚洲毛片一级带毛片基地| 中文字幕欧美日韩高清| 婷婷激情五月网| 国产真实乱子伦视频播放| 中文字幕调教一区二区视频| 国产日本视频91| 亚洲成人精品久久| 久久精品午夜视频| 亚洲av片在线免费观看| 综合久久久久久久综合网| 亚洲第一成人在线| 久草性视频| 免费人成黄页在线观看国产| 精品午夜国产福利观看| 亚洲av无码人妻| 亚洲精品在线观看91| 精品视频一区二区三区在线播| 在线观看国产精美视频| 欧美日韩另类国产| 国产亚洲视频播放9000| 亚洲三级色| 国产无码在线调教| 亚洲综合二区| 91啪在线| 91麻豆精品国产91久久久久| 国产第一页屁屁影院| 午夜少妇精品视频小电影| 亚洲资源站av无码网址| 成人亚洲国产| 99ri国产在线| 欧美日韩国产在线人| 日韩欧美网址| 日本高清有码人妻| 五月婷婷精品| 高清乱码精品福利在线视频| av在线人妻熟妇| 欧美狠狠干| 午夜精品久久久久久久无码软件| 久久人午夜亚洲精品无码区| 亚洲一区二区三区在线视频| 国产伦精品一区二区三区视频优播| a级毛片免费在线观看| 欧美精品啪啪一区二区三区| 99在线观看视频免费| 久久久亚洲色| 69视频国产| 在线精品亚洲一区二区古装| 欧美日韩成人在线观看 | 亚洲国产亚洲综合在线尤物| 国产精品55夜色66夜色| 欧美综合区自拍亚洲综合绿色 | 手机在线免费不卡一区二| 亚洲欧美成人影院| 97视频在线精品国自产拍|