采用雙異質(zhì)群體演化博弈的網(wǎng)絡(luò)安全防御決策方法

2021-09-10 08:54:36張恩寧王剛馬潤年伍維甲嚴(yán)麗娜

西安交通大學(xué)學(xué)報 2021年9期

關(guān)鍵詞：策略模型

張恩寧,王剛,馬潤年,伍維甲,嚴(yán)麗娜

(1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,710077,西安;2.國防科技大學(xué)信息通信學(xué)院試驗訓(xùn)練基地,710106,西安)

5G和區(qū)塊鏈等信息網(wǎng)絡(luò)技術(shù)加速了信息化向智能化發(fā)展的步伐,與此同時,以高級可持續(xù)威脅為代表的隱蔽、高效和針對性網(wǎng)絡(luò)攻擊使得網(wǎng)絡(luò)安全態(tài)勢和防御決策日趨復(fù)雜[1]。網(wǎng)絡(luò)安全防御決策是網(wǎng)絡(luò)防御技戰(zhàn)術(shù)運用的前提和關(guān)鍵環(huán)節(jié),建立在對網(wǎng)絡(luò)攻防行動特點和網(wǎng)絡(luò)業(yè)務(wù)負(fù)載動態(tài)需求等要素的準(zhǔn)確掌控上[1]。在現(xiàn)實環(huán)境中,網(wǎng)絡(luò)態(tài)勢信息的不完整性和決策者的有限理性使得網(wǎng)絡(luò)攻防雙方很難完全知悉對手的準(zhǔn)確實時信息,在不完全信息條件下,攻防雙方認(rèn)知和決策模式的不同,導(dǎo)致攻防行為的差異性和攻防決策的異質(zhì)群體演化博弈特征[2]。

演化博弈中的群體源于生物學(xué)中的種群概念。生物學(xué)中,同一物種的不同種群因為生存環(huán)境的不同而存在性狀上的差異,在研究過程中需要將對象區(qū)分為異質(zhì)種群。在學(xué)術(shù)領(lǐng)域,生物學(xué)中的種群映射為博弈理論中的群體,不同群體在博弈中代表的是屬性類型相同但決策方式不同的博弈參與方。在一些網(wǎng)絡(luò)攻防博弈情境中,博弈雙方可設(shè)定為有限理性博弈參與者,但是其決策方式存在一定差異性。例如,在決策標(biāo)準(zhǔn)方面,防御方要權(quán)衡防護(hù)節(jié)點的資源重要程度,安防部署成本和防御操作代價,而攻擊方則需要考慮攻擊成本、攻擊收益等因素[3]。因此,設(shè)定博弈參與方采用相同決策方式的傳統(tǒng)演化博弈本質(zhì)上屬于同質(zhì)群體演化博弈。相對而言,異質(zhì)群體演化博弈能更好地體現(xiàn)出博弈參與方不同的決策方式對博弈均衡的影響,依據(jù)攻防雙方收益函數(shù)不同的網(wǎng)絡(luò)攻防博弈,屬于雙異質(zhì)群體演化博弈。

決策差異性是網(wǎng)絡(luò)攻防博弈中需重點關(guān)注的問題。對于具體決策,網(wǎng)絡(luò)攻防雙方很難完全知悉對手的準(zhǔn)確實時信息,決策的可信度相對不足,攻防雙方認(rèn)知和決策模式的不同,同步導(dǎo)致攻防決策的差異性,這種差異性客觀上使得基于防御方收益信息的預(yù)測分析很難實現(xiàn)精確性決策[3]。此外,對于決策者和執(zhí)行單元,單次防御行為應(yīng)是確定性的和基于純策略的,經(jīng)典納什均衡解固有的多重性使得策略取舍成為網(wǎng)絡(luò)攻防博弈決策的難題,基于智能算法的網(wǎng)絡(luò)防御混合策略無法從根本上解決這一問題[2]。

博弈論和行為經(jīng)濟(jì)學(xué)中對于參與人目標(biāo)對立、策略依存和非合作型關(guān)系的建模符合網(wǎng)絡(luò)對抗的基本特征規(guī)律[4-5]。零和博弈、信號博弈、微分博弈、貝葉斯均衡博弈、馬爾可夫博弈及演化博弈等模型被相繼運用到網(wǎng)絡(luò)攻防對抗的行為建模中[6-9]。其中,演化博弈模型可以在不完全信息條件下模擬網(wǎng)絡(luò)攻防雙方策略的互動演化過程,得到穩(wěn)定的納什均衡策略,為優(yōu)選網(wǎng)絡(luò)防御策略提供參考[10]。目前,相關(guān)研究主要集中在3個領(lǐng)域。一是演化博弈模型對決策的動態(tài)影響。在多階段博弈中,有限理性的博弈雙方會根據(jù)初始博弈信息改變策略選擇傾向,最終達(dá)成混合策略的納什均衡。文獻(xiàn)[11]建立了物聯(lián)網(wǎng)系統(tǒng)多級非對稱信息攻防模型,分析了進(jìn)攻型策略和防御型策略的收益變化;文獻(xiàn)[12]結(jié)合現(xiàn)實生活中銀行現(xiàn)金轉(zhuǎn)運案例,建立多目標(biāo)混合遺傳算法,得到距離和風(fēng)險最小化、利潤最大化、車輛油耗最小化、時間最小化或最大化等多種目標(biāo)下的演化博弈最優(yōu)混合策略,對多目標(biāo)網(wǎng)絡(luò)安全防御決策具有很高的參考價值。二是環(huán)境對演化博弈模型中系統(tǒng)動力學(xué)方程的影響,結(jié)合實際環(huán)境改進(jìn)復(fù)制動態(tài)方程,提升模型的精確性。文獻(xiàn)[13-14]針對攻防博弈系統(tǒng)中存在各類隨機干擾因素的問題,借鑒高斯白噪聲的概念,建立隨機復(fù)制動態(tài)微分方程,分析了系統(tǒng)環(huán)境、策略變化等各類隨機干擾因素對攻防策略選取演化速率和傾向的影響;文獻(xiàn)[15]考慮同一博弈方之間策略的相互影響,引入激勵系數(shù),改進(jìn)傳統(tǒng)復(fù)制動態(tài)方程,完善復(fù)制動態(tài)速率計算方法,分析了同一博弈方之間策略的促進(jìn)和抑制作用;文獻(xiàn)[16]引入學(xué)習(xí)機制和第三方懲罰機制,構(gòu)建了網(wǎng)絡(luò)攻防演化博弈系統(tǒng)動力學(xué)模型,發(fā)現(xiàn)通過第三方監(jiān)管部門,采取對攻擊者收益的動態(tài)懲罰策略,對攻防雙方的惡化混合策略的偏移有重要影響。三是策略的可行性和決策方法。傳統(tǒng)演化博弈模型得到的演化均衡解是混合策略,現(xiàn)實中以概率形式進(jìn)行防御策略選取并不可取,以純策略為基礎(chǔ)進(jìn)行決策更符合客觀規(guī)律[17]。文獻(xiàn)[18]結(jié)合動態(tài)目標(biāo)防御理論,使用精煉貝葉斯均衡求解算法和先驗信念修正,提出移動目標(biāo)防御策略的跳變周期、差異性和先驗知識是影響決策效果的3個關(guān)鍵因素;文獻(xiàn)[19]將多階段演化博弈和馬爾可夫決策方法相結(jié)合,提出多階段多狀態(tài)下最優(yōu)防御策略選取方法;針對復(fù)雜網(wǎng)絡(luò)中攻擊方和防御方可用資源的差異性,文獻(xiàn)[20]提出了復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對策略選擇的制約影響關(guān)系。

隨著近年來網(wǎng)絡(luò)攻防技戰(zhàn)術(shù)的快速發(fā)展和實踐應(yīng)用,網(wǎng)絡(luò)安全防御決策領(lǐng)域凸顯了一些新的難題:①決策主體的差異性和基于主體差異性的防御行為模式突破了經(jīng)典研究中對攻防博弈雙方均為同質(zhì)群體的假設(shè),需要克服基于這種假設(shè)導(dǎo)致的最優(yōu)防御策略事實偏差;②現(xiàn)實多階段博弈中的防御決策,應(yīng)充分考慮經(jīng)驗的參考價值和決策行為的智能化需求,在決策過程中引入反思機制和對應(yīng)的可信支撐模型;③網(wǎng)絡(luò)安全防御單次決策的確定性需求和傳統(tǒng)納什均衡解的局限性存在固有矛盾,傳統(tǒng)納什均衡解的多重性和混合納什均衡的不確定性無法滿足單次決策中防御行為的可行性要求,需要從模型求解等方面尋求新的突破。

針對這些問題,本文開展了基于異質(zhì)群體演化博弈的決策方法研究。結(jié)合生物學(xué)中的種群概念,在博弈中將攻防雙方區(qū)分為不同群體,提出雙異質(zhì)群體演化博弈模型,克服經(jīng)典模型中最優(yōu)防御策略的事實偏差。引入策略反思機制,將博弈主體對于博弈歷史經(jīng)驗反饋模型化,改進(jìn)復(fù)制動態(tài)方程以提升演化結(jié)果的精確性。在模型中引入勢函數(shù),突破傳統(tǒng)納什均衡解的局限性,使模型解穩(wěn)定收斂于可行策略,滿足網(wǎng)絡(luò)安全防御決策的確定性需求。最后,通過理論分析和仿真,驗證了所提模型和決策方法的有效性和先進(jìn)性。

1 雙異質(zhì)群體演化博弈模型構(gòu)建

1.1 雙異質(zhì)群體演化博弈模型

基于博弈雙方?jīng)Q策行為標(biāo)準(zhǔn)的差異性分析,引入生物學(xué)種群概念,將攻防雙方區(qū)分為不同博弈群體,參考經(jīng)典演化博弈模型的定義[14-15],提出了網(wǎng)絡(luò)安全防御的雙異質(zhì)群體演化博弈模型。

定義1網(wǎng)絡(luò)攻防博弈是對稱博弈,所有博弈參與者根據(jù)其自身屬性分為網(wǎng)絡(luò)攻擊方和網(wǎng)絡(luò)防御方。

定義2網(wǎng)絡(luò)攻防博弈是多階段博弈,在后一階段,每個博弈參與方對前一階段的博弈策略進(jìn)行模仿。在每一個階段,博弈參與方的自然出生率為β(β≥0)、自然死亡率為δ(δ≥0),以此代表博弈參與方對于該階段環(huán)境的適應(yīng)性,即網(wǎng)絡(luò)攻防雙方在階段前和階段中因斷網(wǎng)掉線等不可抗因素退出博弈的概率。

定義3將生物學(xué)中的概念映射到博弈模型中。博弈模型中群體代表同一類別個體的集合,即種群。子群體代表具有同樣特征的個體的集合,即具備同樣性狀的個體集合,子群體隸屬于群體。

定義4每一階段的博弈是從每個博弈方子群體中隨機抽取一個人進(jìn)行博弈。

定義5雙異質(zhì)群體演化博弈模型可表示為4元有序組(N,S,P,U),其中N=(N1,N2,…,Nm)為異質(zhì)群體參與者空間。

結(jié)合定義1,可設(shè)定N=(NA,ND)。其中:NA是攻擊方參與者總空間,NA=(NA1,NA2,…,NAj),NA1,NA2,…,NAj是攻擊方參與者子群體;ND是防御方參與者總空間,ND=(ND1,ND2,…,NDi),ND1,ND2,…,NDi是防御方參與者子群體。

S=(SA,SB)為攻防博弈參與者群體的混合策略空間。其中:SA是攻擊方參與者純策略總空間,SA=(SA1,SA2,…,SAj),SA1,SA2,…,SAj是攻擊方參與者子群體選擇的純策略;SD是防御方參與者純策略總空間,SD=(SD1,SD2,…,SDi),SD1,SD2,…,SDi是防御方參與者子群體選擇的純策略。

P=(PA,PD)為博弈信念集合。其中:PA是攻擊方博弈信念集合,PA=(PA1,PA2,…,PAj),PAj是選擇策略SAi的概率;PD是攻擊方博弈信念集合,PD=(PD1,PD2,…,PDi),PDi是選擇策略sDi的概率。

演化博弈是多階段的動態(tài)博弈過程,每一個階段的博弈結(jié)果都會對后一階段的博弈產(chǎn)生影響。結(jié)合定義2和4,t時刻子群體NDi(t)的時間導(dǎo)數(shù)為

(1)

結(jié)合博弈信念集合定義,可得在任意時刻t有

PDi(t)ND(t)=NDi(t)

(2)

式(2)兩邊同時對t求導(dǎo),整理可得

(3)

1.2 關(guān)鍵參數(shù)與收益計算

參照文獻(xiàn)[17-18]的攻防收益計算方法,定義本文中收益量化的關(guān)鍵參數(shù)和計算公式。

定義6資源重要程度Cr,指在一次完整的攻防過程中,攻擊方目標(biāo)資源的重要程度。

定義7操作代價Ocost,指防御方為使攻擊方攻擊無效做出針對性調(diào)整所需付出的代價。例如,系統(tǒng)開銷增大、服務(wù)質(zhì)量下降等。

定義8攻擊成本Acost,攻擊者進(jìn)行攻擊時所付出的代價。例如,攻擊的時間成本、風(fēng)險成本等。本文中攻擊成本與漏洞的威脅級別有關(guān),漏洞的威脅級別越高,攻擊成本就越低。

定義9感染概率λ,指攻擊方成功利用漏洞感染防御方的概率。

定義10防御效果γ,指防御方利用防御動作成功清除病毒的概率。

結(jié)合定義6～10可知,某一階段博弈中,防御方的收益可表示為

UD=γCr-Ocost

(4)

攻擊者收益源于感染平臺后得到的收益,與感染概率有關(guān)。攻擊收益可表示為

UA=λCr-Acost

(5)

2 改進(jìn)復(fù)制動態(tài)方程和決策方法

2.1 策略“反思-學(xué)習(xí)”機制

在多階段博弈中,博弈雙方通常不會滿意當(dāng)前階段博弈策略的收益,認(rèn)為存在更優(yōu)策略。在這種假設(shè)下,博弈雙方會尋求其他策略進(jìn)行學(xué)習(xí),在下一個階段博弈中采用新的策略,這也就是策略“反思-學(xué)習(xí)”機制[2]。顯然,現(xiàn)實網(wǎng)絡(luò)攻防博弈決策本質(zhì)上應(yīng)是基于“反思-學(xué)習(xí)”機制的。在每一階段博弈結(jié)束后,攻防雙方的每一個子群體,都從群體中隨機抽取一個其他子群體作為反思對象進(jìn)行策略學(xué)習(xí)。這種“反思-學(xué)習(xí)”機制可結(jié)合建模分析,建立與之相一致的演化博弈模型和系統(tǒng)動力學(xué)方程。在有限理性條件下,網(wǎng)絡(luò)攻防子群體基于“反思-學(xué)習(xí)”機制的策略調(diào)整行為,可視為獨立的累計隨機事件發(fā)生次數(shù)的增量過程,即泊松過程[2]。子群體的“反思-學(xué)習(xí)”時間可近似為泊松過程的到達(dá)時間,泊松過程到達(dá)率即為平均反思率Rs。假設(shè)子群體的泊松分布在統(tǒng)計上是相互獨立的,則采取防御策略SD的子群體“反思-學(xué)習(xí)”時間之和是一個泊松過程,其到達(dá)率為

Parrive=PDiRs(NDi)

(6)

(7)

根據(jù)大數(shù)定律,設(shè)群體隨機過程為確定性的流,則子群體NDi來自選擇防御策略SDj的子群體NDj的流入Pin為

(8)

子群體NDi的流出Pout為

(9)

防御策略的博弈信念PDi變?yōu)?/p>

(10)

若群體中策略不成功的子群體的反思率高于策略更成功的子群體的反思率,就會出現(xiàn)收益嚴(yán)格單調(diào)遞減的選擇動態(tài)。引入ρ(x)[2],設(shè)勢函數(shù)ρ(x)在其自變量x上嚴(yán)格單調(diào)遞減,則平均反思率表示為

Rs(NDi)=ρ(UDi)

(11)

防御策略SDi的選取概率PDi可表示為

(12)

設(shè)子群體的反思率在其當(dāng)前收益上是線性遞減的,則

ρ(UDi)=a-bUDi(a,b∈R)

(13)

設(shè)反思率Rs(NDi)非負(fù),則

(14)

2.2 最優(yōu)防御純策略選取方法設(shè)計

按照2.1小節(jié)的防御決策理論,結(jié)合網(wǎng)絡(luò)安全防御行為特點,設(shè)計最優(yōu)防御純策略選擇方法,偽代碼如下。

輸入:雙異質(zhì)群體演化博弈模型

輸出:最優(yōu)防御純策略SDi

BEGIN

1 初始化P,U,S,b;

2 定義T,function;

3 for (k=1;k≤T;k++)

6 ode45(function,T,P);

7 WhenPDi=1

8 ReturnSDi;

9 Else

10 Return 0;

11 end

END

本文方法對應(yīng)的時間復(fù)雜度為O(k(m+n)2)。在實際網(wǎng)絡(luò)攻防中,博弈參與方的數(shù)量增加只會導(dǎo)致相應(yīng)的攻防策略數(shù)量也增加,該方法復(fù)雜度仍處于同一量級,理論上能夠滿足網(wǎng)絡(luò)攻防的時敏需求[17]。

2.3 模型及方法對比

對照文獻(xiàn)[11,15-17],從博弈類型、復(fù)制動態(tài)速率準(zhǔn)確性和策略選取應(yīng)用價值共3個方面分析本文模型和決策方法,結(jié)果如表1所示。

表1 相關(guān)工作比較

在博弈類型方面,文獻(xiàn)[11,15-17]均以同質(zhì)群體演化博弈理論為基礎(chǔ),不能體現(xiàn)出攻防雙方差異性。在復(fù)制動態(tài)速率準(zhǔn)確性方面,文獻(xiàn)[11,16]考慮不完全信息條件,結(jié)合動態(tài)演化思想,突破傳統(tǒng)演化博弈模型單階段完全信息博弈的局限性,提出使用系統(tǒng)動力學(xué)方程來表示過程的動態(tài)演化特點,至于策略之間的相互影響還有待進(jìn)一步挖掘。文獻(xiàn)[15]引入激勵系數(shù)刻畫同一博弈方之間的策略激勵與抑制作用,但并未能給出激勵系數(shù)的求解過程。在策略選取應(yīng)用價值方面,文獻(xiàn)[11,15]并未區(qū)分純策略和混合策略在實際應(yīng)用中的價值高低,文獻(xiàn)[16]考慮了第三方懲罰策略對防御策略選取的影響,但第三方懲罰策略有其自身局限性,一定程度上降低了模型求解的穩(wěn)定性。文獻(xiàn)[17]結(jié)合軍事信息網(wǎng)絡(luò)特點,給出了軍事信息網(wǎng)絡(luò)最優(yōu)純策略的選取辦法,滿足了網(wǎng)絡(luò)安全防御確定性決策的需求,但是有待進(jìn)一步研究可行策略的穩(wěn)定性問題。

對比分析表明,所提模型和決策方法考慮攻防雙方的差異性提出了雙異質(zhì)群體演化博弈模型,改進(jìn)復(fù)制動態(tài)方程以提升模型求解的準(zhǔn)確性,求解穩(wěn)定可行的純策略提升了策略的實際應(yīng)用價值。

3 穩(wěn)定性分析

3.1 數(shù)理證明

首先引入演化穩(wěn)定和最優(yōu)策略集合的定義。

定義11對于博弈參與方的不同混合策略Sx、Sy,若存在εy∈(0,1)滿足不等式U(Sx,Sω)≥u(Sy,Sω)對所有的ε∈(0,εy)都成立,那么Sx是演化穩(wěn)定策略。其中,Sω=εSy+(1-ε)Sx是混合策略Sy入侵原有混合策略空間后形成的新混合策略,Sy是入侵策略Sy在博弈中的被選取概率,U(Sx,Sω)是原策略空間被策略Sy入侵后的收益,U(Sy,Sω)是入侵策略的收益。

定理1異質(zhì)群體N演化穩(wěn)定的充要條件是N存在嚴(yán)格納什均衡。

(2)必要性。設(shè)異質(zhì)群體N存在嚴(yán)格納什均衡,固定博弈參與者在博弈總空間中的位置為Ni且令Sy≠Sx。對于任意i有U(Sxi,S-xi)=U(Sxi)>U(Syi,S-xi),由于收益U(Sxi)是連續(xù)函數(shù),必存在εy∈(0,1)使得對任何ε∈(0,εy)和Sω=εSy+(1-ε)Sx都有U(Sxi,S-ω)>U(Syi,S-ω),即異質(zhì)群體N是演化穩(wěn)定的。證畢。

由定理1的分析證明可知,Rs的形式?jīng)Q定了方程是否有漸進(jìn)穩(wěn)定的演化均衡解。博弈模型中,不穩(wěn)定的演化均衡解無法形成可行可信的優(yōu)選策略。因此,引入勢博弈和勢函數(shù)概念[21],即如果每個子群體的策略改變是單調(diào)的,并且能夠映射到一個全局單調(diào)函數(shù)中,則這個全局單調(diào)函數(shù)就是勢函數(shù),此類博弈必存在嚴(yán)格納什均衡。因此,將勢函數(shù)引入式(12)可以使異質(zhì)群體演化博弈模型得到演化穩(wěn)定解,從而實現(xiàn)防御的有效精確決策。

引理1每個勢博弈均有純策略演化穩(wěn)定解。

異質(zhì)群體參與者空間N=(N1,N2,…,Nm),函數(shù)ρ是異質(zhì)群體博弈的勢函數(shù),因此Ni的演化穩(wěn)定解可映射到N(ρ(i))中,當(dāng)且僅當(dāng)U(ρ(i))≥U(-ρ(i))時成立。由于勢函數(shù)單調(diào),因此N(ρ(i))存在純策略演化穩(wěn)定解,Ni存在純策略演化穩(wěn)定解。

3.2 算例分析

以2×2攻防對稱博弈為例,演繹演化均衡解求解過程。攻防雙方各含有兩個子群體NA1、NA2,ND1、ND2,對應(yīng)純策略為SA1、SA2,SD1、SD2。以博弈防御方為例,收益矩陣可以表示為

(15)

式中:D是標(biāo)準(zhǔn)化矩陣,減少了需要觀察的變量數(shù);u1是攻擊方采取純策略SA1時防御方采取純策略SD1獲得的相對收益;u2是攻擊方采取純策略SA2時防御方采取純策略SD2獲得的相對收益。將u1、u2代入式(14),可得對應(yīng)防御方和攻擊方的復(fù)制動態(tài)方程

(16)

運用MATLAB分析博弈演化穩(wěn)定解的穩(wěn)定性。由式(15)可知:u1、u2的正負(fù)會影響博弈的演化趨勢,u1、u2的數(shù)值不影響博弈的演化趨勢;b的數(shù)值會影響博弈的演化速率。實驗中,對u1、u2及b的取值進(jìn)行多次調(diào)整,發(fā)現(xiàn)并不影響演化穩(wěn)定解的收斂結(jié)果。參考文獻(xiàn)[10],設(shè)定|u1|=0.4,|u2|=0.6,b=1,初始博弈信念PA1、PD1為(0,1)間的隨機數(shù)。圖1為500次蒙特卡羅仿真實驗得到的本文模型演化穩(wěn)定解的收斂軌跡。圖中,藍(lán)色標(biāo)記點是純策略解收斂點,紅色標(biāo)記點是混合策略解收斂點。

分析圖1b和1d可知:當(dāng)u1u2<0時,博弈信念在狀態(tài)空間內(nèi)不改變符號,從狀態(tài)空間內(nèi)部任意初始位置開始,博弈雙方的總體狀態(tài)都會收斂到嚴(yán)格占優(yōu)純策略,即當(dāng)u1=0.4、u2=-0.6時,攻擊方采取純策略SA1,防御方采取純策略SD1;當(dāng)u1=-0.4、u2=0.6時,攻擊方采取純策略SA2,防御方采取純策略SD2。

(a)u1=0.4,u2=0.6

(b)u1=0.4,u2=-0.6

(c)u1=-0.4,u2=-0.6

(d)u1=-0.4,u2=0.6圖1 本文模型演化穩(wěn)定解的收斂軌跡Fig.1 Converging tracks of evolutionary equilibrium of the proposed model

分析圖1a和1c可知:當(dāng)u1u2>0時,博弈有兩個嚴(yán)格純策略納什均衡和一個混合策略納什均衡。結(jié)合式(16)可知,當(dāng)博弈收斂到混合策略納什均衡時,PA1=u2/(u1+u2),PD1=u2/(u1+u2)。博弈的混合策略納什均衡點不穩(wěn)定,會隨著u1u2的變化而發(fā)生改變。因此,當(dāng)u1u2>0時,博弈僅有兩個穩(wěn)定的嚴(yán)格純策略納什均衡。進(jìn)一步分析圖1a可知,混合策略納什均衡是一個鞍點,除了通過鞍點的曲線外,其他的解軌跡都會收斂到兩個穩(wěn)定的純策略納什均衡,即當(dāng)u1=0.4、u2=0.6時,攻擊方采取純策略SA1、防御方采取純策略SD1,或者攻擊方采取純策略SA2、防御方采取純策略SD2。進(jìn)一步分析圖1c可知,攻防博弈雙方的博弈策略會收斂到更極端的情況,即當(dāng)u1=-0.4、u2=0.6時,攻擊方采取純策略SA1、防御方采取純策略SD2,或者攻擊方采取純策略SA2、防御方采取純策略SD1。

對比其他相關(guān)文獻(xiàn)可知,雙同質(zhì)群體演化博弈模型中,2×2對稱博弈模型的混合策略演化穩(wěn)定解是穩(wěn)定的,可作為最優(yōu)防御策略的參考[10,15],但在雙異質(zhì)群體博弈模型中,2×2對稱博弈模型的混合策略演化穩(wěn)定解是鞍點,并不是嚴(yán)格穩(wěn)定的。這也符合實際博弈過程的特點,即當(dāng)博弈發(fā)生在兩個有區(qū)別的群體中時,行為上會呈現(xiàn)極端化的趨勢,決策會越來越偏向某一種單一策略[22]。

為體現(xiàn)模型及方法克服事實偏差的能力,設(shè)置對比實驗。經(jīng)典模型中復(fù)制動態(tài)方程[2,10]為

(17)

對比式(16)(17)可知,經(jīng)典模型中攻防雙方的策略調(diào)整并未考慮對方的博弈策略變化,而是通過自身收益變化調(diào)整策略選擇。但是,現(xiàn)實網(wǎng)絡(luò)攻防博弈是常和博弈,攻防雙方收益的衡量方式并不相同。運用經(jīng)典模型選擇最優(yōu)防御策略,可能會受到攻擊方欺騙性策略的誘導(dǎo),產(chǎn)生錯誤的策略參考結(jié)果。為證明這一點,保持|u1|=0.4、|u2|=0.6不變,初始博弈信念PA1、PD1為(0,1)間的隨機數(shù)。圖2為500次蒙特卡羅仿真得到的經(jīng)典模型演化穩(wěn)定解的收斂軌跡。

(a)u1=0.4,u2=0.6

(b)u1=0.4,u2=-0.6

(c)u1=-0.4,u2=-0.6

(d)u1=-0.4,u2=0.6圖2 經(jīng)典模型演化穩(wěn)定解的收斂軌跡 Fig.2 Traditonal converging tracks of evolutionary equilibrium

分析圖2a可知,當(dāng)u1>0、u2>0時,博弈結(jié)果和初始博弈信念PA1、PD1的數(shù)值有關(guān),無法實現(xiàn)策略的優(yōu)選。分析圖2c可知,當(dāng)u1<0、u2<0時,博弈收斂至混合策略納什均衡點(0.6,0.6),此時博弈結(jié)果以概率形式出現(xiàn),不利于現(xiàn)實中決策的確定性需求。對比分析圖1b、1d和圖2b、2d可知,當(dāng)u1u2<0時,經(jīng)典模型和雙異質(zhì)演化博弈模型的演化穩(wěn)定解相同。需要說明的是,由于經(jīng)典模型中防御策略演化并未考慮攻擊方博弈信念的變化,攻擊方完全可以利用這一漏洞設(shè)計欺騙策略來誤導(dǎo)防御方。綜合分析可知,經(jīng)典模型有50%的概率不能實現(xiàn)防御策略的確定性優(yōu)選,相對而言,本文提出的模型及克服經(jīng)典模型中同質(zhì)群體假設(shè)帶來的事實偏差,為網(wǎng)絡(luò)安全防御提供可信的防御決策參考。

4 仿真分析

4.1 實驗環(huán)境

借鑒經(jīng)典網(wǎng)絡(luò)信息系統(tǒng)設(shè)計理念和相關(guān)文獻(xiàn)的實驗設(shè)計[15,17,23],部署一個簡單的網(wǎng)絡(luò)信息系統(tǒng)進(jìn)行仿真實驗。該網(wǎng)絡(luò)信息系統(tǒng)的拓?fù)洵h(huán)境見圖3。

圖3 網(wǎng)絡(luò)信息系統(tǒng)的拓?fù)浣Y(jié)構(gòu)Fig.3 Topological structure of network information system

防火墻和網(wǎng)關(guān)將網(wǎng)絡(luò)分為攻擊方所在的外網(wǎng)區(qū)、實驗進(jìn)行的隔離區(qū)(DMZ)和防御方(用戶)所在的內(nèi)網(wǎng)區(qū)。防火墻的訪問控制策略是非內(nèi)網(wǎng)主機只能訪問DMZ區(qū)的FTP服務(wù)器、Web服務(wù)器、E-MAIL服務(wù)器和堡壘主機H,DMZ區(qū)中的3個服務(wù)器都是思科服務(wù)器。使用Nessus工具掃描實驗網(wǎng)絡(luò)信息系統(tǒng),結(jié)合國家信息安全漏洞庫(CNNVD)提供的漏洞信息[24]及姜偉等關(guān)于網(wǎng)絡(luò)防御策略及操作代價的定義[25],本文實驗使用原子攻擊策略和原子防御策略,分別如表2和表3所示。

表2 原子攻擊策略

表3 原子防御策略

攻擊方利用高評分漏洞進(jìn)行攻擊,短期內(nèi)收益見效快,但不利于長期持有后收益升值(典例為零日漏洞)。選擇低評分漏洞為目標(biāo),攻擊成本高,單次收益低[3]。本文將利用高評分漏洞設(shè)定為冒險型進(jìn)攻策略SA1=(a1,a2,a3),利用低評分漏洞設(shè)定為保守型進(jìn)攻策略SA2=(a4,a5)。

防御方的策略收益主要取決于操作代價,操作代價低的防御策略往往有效性較差。因此,本文將使用高操作代價策略設(shè)為冒險型防御策略SD1=(b4,b5),使用低操作代價策略設(shè)為保守型防御策略SD2=(b1,b2)。結(jié)合收益計算式(4)(5),設(shè)資源重要程度Cr=1,可得攻防策略收益,如表4所示。

表4 攻防策略收益

計算策略收益時,認(rèn)為策略收益等于策略所包含的原子攻防動作的平均收益。結(jié)合式(15),給出攻防雙方的收益量化矩陣

(18)

(19)

4.2 模型及算法仿真驗證

4.2.1 攻防策略選取概率變化趨勢結(jié)合式(18)(19),設(shè)置控制變量b=1,研究實驗條件下演化穩(wěn)定策略的收斂情況。設(shè)置初始博弈信念(PA1,PD1)={(0.5,0,5),(0.7,0.3),(0.3,0.7),(0.6,0.4)}分別代表攻防雙方無策略選取傾向,攻擊方傾向于選取策略SA1、御方傾向于選擇策略SD2,攻擊方傾向于選取策略SA2、防御方傾向于選擇策略SD1,攻擊方傾向于選取策略SA1、防御方傾向于選擇策略SD1共4種不同情況。圖4給出了攻防雙方策略選取概率變化趨勢的仿真結(jié)果。

(a)攻擊策略選取概率

(b)防御策略選取概率圖4 攻防雙方策略選取概率變化趨勢Fig.4 Changing trend of strategy selection probability of attack and defense

分析圖4a、4b可知:對應(yīng)不同的初始博弈信念(PA1,PD1)={(0.5,0,5),(0.7,0.3),(0.3,0.7),(0.6,0.4)},PA1始終收斂至1,PA2始終收斂至0;PD1始終收斂至1,PD2始終收斂至0。結(jié)合實驗條件A、D的數(shù)值進(jìn)一步分析可知,在冒險型策略的相對收益u1遠(yuǎn)大于保守型策略的相對收益u2的情況下,無論攻防雙方在博弈開始前有無策略選取傾向,網(wǎng)絡(luò)攻防雙方最終都會選擇冒險型策略。

4.2.2 反思能力b對攻防策略選取的影響保持u1、u2不變,設(shè)定初始博弈信念(PA1,PD1)=(0.7,0.3),分別取b=0.5,1,1.5,研究參數(shù)b對于博弈結(jié)果的影響。圖5給出了b不同取值下攻防雙方策略選取概率變化趨勢的仿真結(jié)果。

(a)攻擊策略選取概率

(b)防御策略選取概率圖5 不同b取值下攻防雙方策略選取概率變化趨勢Fig.5 Changing trend of strategy selection probability of attack and defense for different b values

分析圖5可知:當(dāng)b=0.5,1,1.5時,PA1達(dá)到演化穩(wěn)定所需的演化次數(shù)分別為36、15、7次;PD1達(dá)到演化穩(wěn)定所需的演化次數(shù)分別為117、59、39次。以b=1為基準(zhǔn):當(dāng)b=0.5時,防御方博弈群體決策趨于穩(wěn)定的速率減緩了198%;當(dāng)b=1.5時,防御方博弈群體決策趨于穩(wěn)定的速率提升了151%。由此可見,反思能力b可以影響博弈結(jié)果的求解速度。現(xiàn)實意義在于,反思能力較弱的子群體(b<1)需要更多時間適應(yīng)環(huán)境才能做出決策;反思能力較強的子群體(b>1)對環(huán)境適應(yīng)性較強,決策反應(yīng)較快。理論上合理調(diào)整參數(shù)b,使其對應(yīng)每次博弈的時間窗口,可提升博弈結(jié)果的時敏性。

5 結(jié) 論

本文根據(jù)網(wǎng)絡(luò)攻防雙方?jīng)Q策差異性特征,結(jié)合生物學(xué)種群概念,提出了雙異質(zhì)群體演化博弈模型。設(shè)計了基于策略反思機制的最優(yōu)防御策略選取算法,結(jié)合模擬網(wǎng)絡(luò)攻防實驗環(huán)境,開展了仿真驗證。本文主要結(jié)論如下。

(1)相比傳統(tǒng)的演化博弈模型,所提雙異質(zhì)群體演化博弈模型可以突破對稱博弈假設(shè),凸顯攻防雙方的效用特征,得出的演化均衡策略更符合實際網(wǎng)絡(luò)攻防的行為差異性特點。

(2)在非對稱演化博弈中,引入恰當(dāng)?shù)膭莺瘮?shù)能夠證明演化均衡穩(wěn)定存在,確保博弈模型所得策略的穩(wěn)定性和可信性。

(3)反思能力會影響模型和方法求解的速度,表明在不同信息交互機制的群體中最優(yōu)策略的演化速率不同。由此,可設(shè)計網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的信息交互機制,更好地對應(yīng)攻防博弈的時間窗口,提升時敏性。

本文在模型求解和算例分析中,假設(shè)可選擇策略數(shù)為2,后期可考慮多維博弈策略空間的情況下雙異質(zhì)群體演化博弈模型的穩(wěn)定性和適用性,以及當(dāng)攻防雙方認(rèn)知信息錯誤時博弈模型的優(yōu)化問題。