劉 榮,王鳳蘭,王 非
(空軍工程大學基礎部,西安 710051)
隨著計算機的功能不斷增強,信息安全隱患問題隨之不斷暴露出來。信息安全領域的研究越來越受到重視。目前博弈理論[1-3]在各領域的應用研究已成為熱點[4-7]。其理論的演化博弈模型為信息安全領域的研究提供了重要的理論參考。文獻[8]建立了攻防演化博弈模型,采用系統動力學方法進行了攻防策略穩定性分析,但是博弈模型較簡單;文獻[9]研究了攻防復制動態方程及演化穩定策略,但是模型建立在確定性攻防條件下,適用范圍有限;文獻[10]針對現實中攻防雙方的有限理性條件和攻防過程的動態變化特征,研究了最優防御策略選取算法。但沒有對不同情形的參數進行具體分析;文獻[11]對文獻[10]的模型進行了改進,引入了激勵系數,但是激勵系數的量化不確定,形成的結論不夠具體;文獻[12]借鑒了高斯白噪聲的概念,構建了隨機攻防演化博弈模型,根據隨機微分方程穩定性判別定理對攻防策略選取進行了穩定性分析,但是對攻防對抗中實際隨機因素的分析不夠。為了提高模型的有效性和準確性,對于網絡信息安全問題中攻防沖突行為的博弈現象,本文根據攻防雙方沖突的實際背景,將攻防雙方在兩種不同策略下的收益進行了詳細量化,使得演化博弈模型更精確,最后根據演化穩定策略的性質,分類分析了納什均衡策略的穩定性,為現實社會中的網絡信息安全問題提供了理論參考。
演化博弈理論[13-17]以有限理性博弈方作為理論分析的基礎,刻畫攻防雙方不斷改進行為策略的緩慢調整問題,其符合攻防沖突動態演化的現實,能夠增強利用博弈理論分析網絡對抗行為的準確性[10]。
定義1攻防演化博弈模型ADEGM(attack-defense evolutionary game model)可以表示為4元組,ADEGM=(N,S,P,U)。
(1)N=(ND,NA),其中ND為防御參與方,NA為攻擊參與方,N表示參與方空間。
(2)S=(SD,SA),其中SD為防御策略集合,SA為攻擊策略集合,S表示參與主體策略空間。
(3)P=(p,q),其中p為選取防御策略的概率集,q表示選取攻擊策略的概率集,P為混合策略集合。
(4)C=(a,b)是收益函數集合,表示參與者的博弈收益,其中a為攻擊者收益,b為防御者收益。
根據攻防雙方沖突的實際背景,假設攻防雙方的可選策略集分別為SD={強防御策略D1,弱防御策略D2};SA={強攻擊策略A1,弱攻擊策略A2}。對應的攻防博弈樹如圖1所示。圖1中,aij、bij為攻防收益值。該博弈的收益矩陣如表1所示。

圖1 網絡攻防博弈樹

表1 網絡攻防博弈收益矩陣
表1中,V表示防御方本身所擁有的信息資產能夠帶來的固定收益;c1表示防御方選取強防御策略D1時所需的防御成本;c2表示防御方選取弱防御策略D2時所需的防御成本,且c1>c2;d1表示攻擊方選取強攻擊策略A1時所需的攻擊成本;d2表示攻擊方選取弱攻擊策略A2時所需的攻擊成本,且d1>d2;R表示防御方選取強防御策略D1時,攻擊方選取強攻擊策略A1能夠獲得的攻擊收益;M表示防御方選取弱防御策略D2時,攻擊方選取強攻擊策略A1能夠獲得的攻擊收益;N表示防御方選取強防御策略D1時,攻擊方選取弱攻擊策略A2能夠獲得的攻擊收益;J表示防御方選取弱防御策略D2時,攻擊方選取弱攻擊策略A2能夠獲得的攻擊收益。
為了便于分析,將攻防雙方收益做簡化整理,令:T=V-c1-N,t1=R-N>0;S=V-c2-J,t2=M-J>0;Q=M-d1,m1=M-R>0;Z=J-d2,m2=J-N>0。
進一步可得:
t1-t2=R-N-M+J=m2-m1
(1)
令t1-t2=R-N-M+J=m2-m1=α,收益改進矩陣如表2所示。

表2 網絡攻防博弈收益改進矩陣
根據表2分別計算攻防雙方不同策略的期望收益函數U1、U2和u3、u4以及平均收益函數ED、EA。有:U1=q(T-t1)+(1-q)T=T-qt1,U2=q(S-t2)+(1-q)S=S-qt2,ED=pU1+(1-p)U2,u3=p(Q-m1)+(1-p)Q=Q-pm1,u4=p(Z-m2)+(1-p)Z=Z-pm2,EA=qu3+(1-q)u4。 則防御主體的強防御策略復制動態方程以及攻擊主體的強攻擊策略復制動態方程分別如式(2)、式(3)所示:
p[U1-pU1-(1-p)U2]=
p(1-p)(U1-U2)=
p(1-p)[-αq+T-S]
(2)
q[u3-qu3-(1-q)u4)]=
q(1-q)(u3-u4)=
q(1-q)[αp+Q-Z]
(3)
聯立雙方的復制動態方程,即
(4)
計算方程組式(4)可求得均衡解:
(5)
根據演化穩定策略的均衡理論[12]知,E1、E2、E3、E4為鞍點,E5為中心點。由于t1-t2=m2-m1=α,說明在演化過程中收益指標Z-Q、T-S對攻防穩定產生很大的影響。
根據式(5)的5個均衡點,通過采用雅克比矩陣的局部穩定性分析法[13]分析演化均衡點的穩定性。由方程組式(4)構成的博弈動態系統的雅克比矩陣為
(6)
計算式(5)矩陣的行列式和跡,分別如式(7)、式(8)所示:
detJ=(1-2p)(1-2q)[-αq-+T-S]×
[αp+Q-Z]+pq(1-p)(1-q)α2
(7)
trJ=(1-2p)[-αq+T-S]+(1-2q)×
[αp+Q-Z]
(8)
然后,將所有可能納什均衡點代入式(7)、式(8),分別計算其對應的雅克比矩陣的行列式detJ和跡trJ,如表3所示。
由表3可知,博弈矩陣的收益指標Z-Q,T-S取值不同,則對應雅克比矩陣的行列式detJ和跡trJ的正負符號就會不同,表4給出了均衡點的類型判別。

表3 不同均衡點對應的雅克比矩陣的行列式和跡

表4 均衡點類型判別
將所有結果進行分類分析。
(1)當α=0,即m1=m2,t1=t2時,攻防系統式(4)具有4個均衡點E1、E2、E3、E4。將其代入表3中對應的雅克比矩陣的行列式detJ和跡trJ,進而根據判別表4的準則,得到攻防博弈系統在T>S,Q>Z;T>S,Q

通過對本文模型和其他文獻比較,目前文獻[10-11]及本文模型均是演化博弈模型,其行為理性都是不完全理性,比較結果如表5所示。雖然文獻[10]給出了收益矩陣,并沒有對收益進行詳細量化,所得結論僅是在理論的基礎上進行討論,導致分析策略穩定性的效率不高。文獻[11]引入了激勵系數,但是激勵系數的量化不確定,形成的結論不夠具體。本文方法是根據問題的實際背景,建立起收益矩陣,得到t1-t2=R-N-M+J=m2-m1,此結論提高了分析策略穩定性的效率,分類分析情況(1)時,比文獻[10-11]討論攻防博弈系統演化均衡解的類型少兩種,當情況(2)時,p、q的選取只依賴于3個量:Z-Q、T-S及t1-t2=m2-m1,也可以提高對于分析策略穩定性的效率。所以本文方法對于網絡攻防問題具有更強的針對性,為現實社會中的網絡信息安全問題提供的理論參考具有更好的指導意義。

表5 各方法結論比較
實驗環境為MATLAB R2016a,實驗中取R-N-M+J=10,通過設置不同的S-T、Q-Z來驗證本文模型。實驗分別對采取強防御策略或弱防御策略的防御方和采取強攻擊策略或弱攻擊策略的攻擊方進行仿真。圖2為防御方復制動態方程變化的曲線。

圖2 防御方復制動態方程變化



圖3 攻擊方復制動態方程變化
對于網絡信息安全問題中攻防沖突行為的博弈現象,從演化博弈論的角度對網絡攻防問題進行了分析,根據攻防雙方沖突的實際背景,利用演化博弈理論的基本原理,對雙方策略進行了穩定性分析,得到防御方選取強防御策略(D1)時與攻擊方的收益N、J有關選取弱防御策略(D2)時與攻擊方的收益M、J有關。以MATLAB為實驗平臺,選取滿足不同情形的參數,分析了策略穩定性,用以驗證模型的準確性,為現實社會中的網絡信息安全問題提供了一定理論參考。在下一步的研究中將考慮如何在攻防問題中調整收益函數,進而有效控制網絡攻擊。