基于多階段網(wǎng)絡(luò)欺騙博弈的主動防御研究

2020-09-08 11:56:50胡永進馬駿郭淵博張晗

通信學(xué)報 2020年8期

胡永進，馬駿，郭淵博，張晗,2

（1.信息工程大學(xué)密碼工程學(xué)院，河南鄭州 450001；2.鄭州大學(xué)軟件學(xué)院，河南鄭州 450001）

1 引言

隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展，人類已經(jīng)步入“互聯(lián)網(wǎng)+”時代，互聯(lián)網(wǎng)的應(yīng)用給人類社會帶來了極大的便利，網(wǎng)絡(luò)安全問題也逐漸成為影響信息社會發(fā)展的關(guān)鍵因素，網(wǎng)絡(luò)安全問題已經(jīng)成為網(wǎng)絡(luò)信息領(lǐng)域亟需解決的核心問題[1]。針對傳統(tǒng)網(wǎng)絡(luò)攻防過程中防御者往往處于被動狀態(tài)[2]，學(xué)者們采用蜜罐[3]等網(wǎng)絡(luò)欺騙技術(shù)使防御者變被動為主動。通過構(gòu)建虛假或其他類型的蜜罐網(wǎng)絡(luò)引誘攻擊者進行錯誤攻擊，從而達到保護目標(biāo)網(wǎng)絡(luò)的目的，實現(xiàn)網(wǎng)絡(luò)安全主動防御。

網(wǎng)絡(luò)欺騙[4]是指將具有欺騙性的防御策略應(yīng)用于網(wǎng)絡(luò)安全防御過程中，這是根據(jù)蜜罐的思想演進而產(chǎn)生的一種網(wǎng)絡(luò)防御機制，其核心思想是防御者通過釋放防御欺騙信號來干擾攻擊者進行攻擊策略選取[5]。在具有對抗性策略的對局中，獲勝并不意味著必須成為一般意義上的強者，采取迷惑對手的行動往往也能夠取得較好的效果[6]。在網(wǎng)絡(luò)攻防過程中，防御者利用網(wǎng)絡(luò)欺騙技術(shù)一方面可以打破網(wǎng)絡(luò)系統(tǒng)的確定性、靜態(tài)性與同構(gòu)性，影響攻擊者對目標(biāo)系統(tǒng)信息的判斷；另一方面可將攻擊者引入一個“虛假”的網(wǎng)絡(luò)環(huán)境中，使攻擊者對自身攻擊效果處于一種未知狀態(tài)，且防御者能夠?qū)粽叩墓粜袨檫M行數(shù)據(jù)分析[7]。

Springer出版社于2016年出版了介紹網(wǎng)絡(luò)欺騙研究的著作Cyber Deception[8]，該書匯集了關(guān)于網(wǎng)絡(luò)欺騙的研究工作。此外，Pang 等[9]從攻擊者的角度出發(fā)，對網(wǎng)絡(luò)欺騙進行分析研究，但缺少對防御角度的網(wǎng)絡(luò)欺騙研究。張恒巍等[10]將信號博弈理論應(yīng)用于網(wǎng)絡(luò)攻防分析，用于網(wǎng)絡(luò)防御策略選取，但未考慮網(wǎng)絡(luò)攻防過程中信息的不對稱及信號傳遞的作用，且僅是單階段網(wǎng)絡(luò)欺騙研究，即在模型中攻防雙方的策略選擇和對抗過程限制僅為一個回合，這與網(wǎng)絡(luò)攻防的動態(tài)演化過程不符。當(dāng)前，網(wǎng)絡(luò)欺騙研究總體來說還不夠系統(tǒng)化。

基于此，本文充分利用信號博弈中的信號機制，通過構(gòu)建多階段網(wǎng)絡(luò)欺騙博弈模型，從防御者角度對網(wǎng)絡(luò)攻防過程中存在的信號欺騙機制進行深入研究，充分考慮網(wǎng)絡(luò)欺騙信號的衰減作用，實現(xiàn)多階段網(wǎng)絡(luò)攻防對抗的動態(tài)分析推演。利用虛假信息干擾攻擊者的認知來影響攻擊者對攻擊策略的選取，在攻擊者實施網(wǎng)絡(luò)攻擊時，使防御者的損失達到最小甚至免受攻擊。

2 網(wǎng)絡(luò)欺騙博弈模型的構(gòu)建

2.1 網(wǎng)絡(luò)欺騙博弈過程分析

在傳統(tǒng)網(wǎng)絡(luò)攻防過程中，攻擊者主要利用網(wǎng)絡(luò)攻擊或探測等手段對目標(biāo)網(wǎng)絡(luò)進行信息獲取[11]，從而實現(xiàn)對目標(biāo)系統(tǒng)脆弱性的分析及滲透，最終找到最合適的網(wǎng)絡(luò)攻擊策略，使網(wǎng)絡(luò)攻擊效益最優(yōu)。由于網(wǎng)絡(luò)攻擊過程存在天然不對稱性，攻擊者能夠主動獲取目標(biāo)網(wǎng)絡(luò)的信息并隨時實施網(wǎng)絡(luò)攻擊，而防御者往往處于被動防御狀態(tài)[12]。為改變被動防御的局面，防御者可充分利用網(wǎng)絡(luò)欺騙技術(shù)，有針對性地向網(wǎng)絡(luò)攻擊者主動釋放真實與虛假2 種不同的防御信號[13]，使網(wǎng)絡(luò)攻擊者無法判斷信息的真?zhèn)危瑥亩绊懝粽邔舨呗缘倪x取，使網(wǎng)絡(luò)防御變被動為主動。

在博弈初始階段，防御者通過釋放虛假防御信號，使攻擊者無法獲得目標(biāo)系統(tǒng)的真實狀態(tài)，從而達到欺騙、限制攻擊者的目的[14]；攻擊者結(jié)合前期對目標(biāo)系統(tǒng)的探測結(jié)果，綜合形成對防御者類型的先驗判斷P1。然后根據(jù)防御者釋放的防御信號，采用貝葉斯法則進行計算得出防御者類型的后驗概率，選取最優(yōu)網(wǎng)絡(luò)攻擊策略，從而完成博弈初始過程。在博弈初始階段結(jié)束后，防御者再次釋放適合本階段的欺騙信號，并選取相應(yīng)的最優(yōu)防御策略。攻擊者基于博弈初始階段的學(xué)習(xí)經(jīng)驗，使防御欺騙信號效能存在一定的衰減，通過衰減因子δi（0＜δi＜ 1）表示。攻擊者將后驗概率作為下一階段的先驗概率，即令，并結(jié)合該階段接收到的防御信號，得出該階段防御者類型的后驗概率，選取最優(yōu)攻擊策略進行網(wǎng)絡(luò)攻擊，并隨時間重復(fù)此過程。具體過程如圖1 所示。

圖1 多階段網(wǎng)絡(luò)欺騙博弈過程

2.2 單階段網(wǎng)絡(luò)欺騙博弈模型的構(gòu)建

基于2.1 節(jié)網(wǎng)絡(luò)欺騙博弈過程分析可知，網(wǎng)絡(luò)攻防過程由多個獨立且相似的單階段博弈構(gòu)成，本文首先對單階段網(wǎng)絡(luò)欺騙博弈過程進行建模分析。

定義1單階段網(wǎng)絡(luò)欺騙博弈模型（CDGM,cyber deception game model）為六元組，即CDGM=(N,S,T,M,P,U)，具體如下。

2.3 多階段網(wǎng)絡(luò)欺騙博弈模型的構(gòu)建

基于單階段網(wǎng)絡(luò)欺騙博弈分析，結(jié)合攻防實際應(yīng)用，構(gòu)建多階段網(wǎng)絡(luò)欺騙博弈模型，具體如下。

定義2多階段網(wǎng)絡(luò)欺騙博弈模型（MCDGM,multi-stage cyber deception game model）為八元組MCDGM=(N,K,S,T,M,δ,P,U)，具體如下。

圖2 單階段網(wǎng)絡(luò)欺騙攻防博弈樹

2.4 博弈收益量化

將博弈理論應(yīng)用于網(wǎng)絡(luò)攻防分析具有天然的優(yōu)越性，但博弈收益的量化是決定最終博弈結(jié)果準(zhǔn)確性的關(guān)鍵。結(jié)合文獻[9,16]，本文對MCDGM 進行攻防收益量化并改進其相應(yīng)的收益計算方法。

系統(tǒng)損失代價（SDC,system damage cost）、攻擊成本（AC,attack cost）、防御成本（DC,defense cost）、攻擊致命度（AL,attack lethality）等定義已經(jīng)在文獻[9]中給出，本文不再贅述。

定義3網(wǎng)絡(luò)欺騙成本（CDC,cyber deception cost）[16]表示防御者通過釋放虛假信號欺騙攻擊者所需耗費的代價，當(dāng)且僅當(dāng)防御者釋放信號與自身防御類型不同時產(chǎn)生。

在網(wǎng)絡(luò)攻防過程中，攻擊者以攻擊成本最低且造成系統(tǒng)損失代價最大為目標(biāo)，防御者以防御成本、網(wǎng)絡(luò)欺騙成本及系統(tǒng)損失代價最低為目標(biāo)。基于文獻[9,16]的收益量化方法，本文對攻防期望收益的計算方法進行改進，具體如式(2)和式(3)所示。

3 博弈均衡求解與最優(yōu)網(wǎng)絡(luò)欺騙防御

基于MCDGM，結(jié)合網(wǎng)絡(luò)攻防與博弈均衡求解過程[17]，利用精煉貝葉斯均衡求解方法對此博弈模型進行分析求解。

3.1 精煉貝葉斯均衡求解

針對上述構(gòu)建的網(wǎng)絡(luò)欺騙博弈模型，具體求解過程如下。

3.2 多階段網(wǎng)絡(luò)欺騙博弈均衡求解

針對多階段網(wǎng)絡(luò)攻防博弈過程，分別求出每個博弈階段的最優(yōu)網(wǎng)絡(luò)防御策略[19]，所有最優(yōu)網(wǎng)絡(luò)防御策略構(gòu)成多階段網(wǎng)絡(luò)欺騙博弈均衡解。

1) 第一階段網(wǎng)絡(luò)欺騙博弈均衡求解第一階段的最優(yōu)防御策略。

2) 第二階段網(wǎng)絡(luò)欺騙博弈均衡求解

3) 第k階段網(wǎng)絡(luò)欺騙博弈均衡求解

在博弈過程中，由于0＜δ＜1，當(dāng)博弈階段數(shù)k趨于較大甚至無窮且防御者釋放虛假信號次數(shù)較多時，滿足δk?r?1≈ 0，其中r表示防御者釋放真實防御信號的階段數(shù)。此時，防御欺騙信號無法對攻擊者進行網(wǎng)絡(luò)欺騙，博弈階段G(k) 變?yōu)椴煌耆畔㈧o態(tài)博弈，如圖4 所示。不完全信息靜態(tài)博弈求解方法可參考文獻[20]，本文不再贅述。

圖4 第k 階段網(wǎng)絡(luò)攻防博弈樹

綜上，求出所有k個博弈階段的精煉貝葉斯均衡解，所有博弈階段的最優(yōu)網(wǎng)絡(luò)防御策略構(gòu)成整個攻防博弈過程的最優(yōu)防御策略，即

3.3 算法設(shè)計與分析

基于上述多階段網(wǎng)絡(luò)欺騙博弈的分析與求解過程，設(shè)計最優(yōu)防御策略選取算法，具體如下。

算法多階段網(wǎng)絡(luò)欺騙博弈的最優(yōu)防御策略選取算法

結(jié)束

基于3.1 節(jié)精煉貝葉斯均衡求解分析可知，上述算法的時間復(fù)雜度為O(k(m+n)2)，主要集中于精煉貝葉斯均衡求解；空間復(fù)雜度為O(knm)，主要集中于收益值和均衡求解中間結(jié)果的存儲[21]。

將本文構(gòu)建的MCDGM 及策略選取方法與文獻[6-7,9,12]中的博弈模型進行比較，具體結(jié)果如表1所示。博弈類型分為靜態(tài)博弈類型和動態(tài)博弈類型，由于實際應(yīng)用中網(wǎng)絡(luò)攻防屬于動態(tài)對抗的過程，因此，動態(tài)博弈模型更加符合網(wǎng)絡(luò)攻防實際。文獻[6-7]將博弈論應(yīng)用于網(wǎng)絡(luò)安全分析，采用靜態(tài)博弈，這種方法具有算法復(fù)雜度低的特點，但與網(wǎng)絡(luò)攻防過程中的動態(tài)屬性不符。動態(tài)博弈過程是指博弈模型是否具備分析多階段攻防過程的能力，具備這一能力的博弈模型更加符合實際需求，對防御決策的指導(dǎo)作用更強。文獻[6-7,9]均是單階段網(wǎng)絡(luò)攻防分析，降低了博弈模型的應(yīng)用性。博弈模型的通用性是指模型中類型集合和策略集合是否可以擴展至n。若可以，說明模型的通用性較好；若不可以，則說明僅適用于特殊情況，推廣應(yīng)用性較差。文獻[6-7]中博弈者和策略集合均采用2；文獻[9,12]將博弈策略擴展為n，但未對博弈者進行擴展研究，使模型通用性不夠。均衡求解是指博弈模型是否給出了精煉博弈均衡解的計算方法，由于動態(tài)博弈的求解相比靜態(tài)博弈更加困難，尤其是動態(tài)多階段博弈的求解過程更復(fù)雜，如果沒有詳細的求解方法會削弱實用性。本文從防御者角度出發(fā)，依據(jù)防御者主動釋放的信息或其行為透露的各種信息來構(gòu)建MCDGM，從防御者角度重點突出利用防御欺騙信號提升防御效能的研究，通過釋放各類虛假信息，能夠有效抵御攻擊者實施網(wǎng)絡(luò)攻擊，從而達到網(wǎng)絡(luò)安全主動防御的目的。

4 仿真實驗與分析

4.1 實驗環(huán)境描述

基于本文提出的MCDGM 及策略選取方法，通過構(gòu)建如圖5 所示的信息系統(tǒng)，對本文模型和方法進行實驗驗證。該系統(tǒng)主要由網(wǎng)絡(luò)防御設(shè)備、網(wǎng)絡(luò)服務(wù)器、文件服務(wù)器、數(shù)據(jù)庫服務(wù)器、客戶端服務(wù)器等組成，主要安裝Windows、Linux 等操作系統(tǒng)。安全防御規(guī)則為限制系統(tǒng)外主機（包括攻擊者）的訪問請求，規(guī)定其只能訪問網(wǎng)絡(luò)服務(wù)器；應(yīng)用服務(wù)器和網(wǎng)絡(luò)服務(wù)器允許訪問數(shù)據(jù)庫服務(wù)器。但是，借助于多步攻擊過程，攻擊者能夠取得訪問應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器的權(quán)限。

圖5 信息系統(tǒng)結(jié)構(gòu)

4.2 博弈收益計算

基于文獻[12]中分析路由文件、漏洞數(shù)據(jù)庫及防御策略的方法，結(jié)合文獻[9]給出的原子攻擊信息，利用Nessus 掃描實驗信息系統(tǒng)，參考麻省理工學(xué)院林肯實驗室攻防分類方法[22]及國家信息安全漏洞庫[23]，給出攻防原子策略描述，具體如表2 和表3 所示。

表1 幾種博弈模型對比結(jié)果

表2 原子攻擊策略

表3 原子防御策略

針對系統(tǒng)仿真實驗，不同的攻防策略對系統(tǒng)服務(wù)質(zhì)量（QoS,quality of service）[25]的影響不同，可以采用平均服務(wù)時延率（SDP,service delay percent）[26]用于量化不同防御策略下的系統(tǒng)服務(wù)質(zhì)量下降情況，SDP 越大，表明信息系統(tǒng)損失越大。基于此，本文將使用頻率較高的Web 瀏覽、FTP 下載、在線視頻這3 種服務(wù)進行QoS 性能分析，利用服務(wù)平均時延率對信息系統(tǒng)損失代價進行衡量。上述3 種服務(wù)針對不同博弈階段分別進行20 次實驗，將平均完成時間與信息系統(tǒng)受攻擊之前的完成時間進行對比，獲得平均時延率，用以衡量不同防御策略下系統(tǒng)穩(wěn)定性情況。具體如圖6 所示。

4.3 博弈均衡求解及防御策略選取

基于上述博弈收益計算方法，對本文的多階段網(wǎng)絡(luò)欺騙博弈進行均衡求解，并求得最優(yōu)網(wǎng)絡(luò)欺騙防御策略。

1) 博弈第一階段均衡求解

根據(jù)式(4)計算出最優(yōu)攻擊策略為

防御者最優(yōu)防御信號選擇為

基于此，結(jié)合貝葉斯法則對上一階段中的先驗概率進行修正，從而得出后驗概率，具體計算式如式(13)和式(14)所示。

圖6 攻防信號博弈樹

當(dāng)防御者類型為TDL時，通過釋放欺騙防御信號mH，攻擊者選用相應(yīng)的攻擊策略SA1，此時防御平均收益為?3 197，系統(tǒng)服務(wù)平均時延率為4.8 s。

2) 博弈第二階段均衡求解

基于上一階段求出后驗概率(αH,βH)=(0.46,0.54)，并將其作為本階段攻擊者判別防御者類型的先驗概率。針對攻擊者的學(xué)習(xí)經(jīng)驗，令δ=0.7，通過計算得出不同信息集上構(gòu)造的后驗推斷為(αH,βH)=(0.33,0.78)。

通過計算得出第二階段均衡解為[(TDH,TDL)→(mH,mL) →(SA1,SA1),αH=0.24,βH=0.88]。當(dāng)防御者類型為TDH時，通過釋放防御信號mH，攻擊者選用相應(yīng)的攻擊策略SA1；當(dāng)防御者類型為TDL時，通過釋放防御信號mL，攻擊者選用相應(yīng)的攻擊策略SA1。

3) 博弈第k階段均衡求解

隨著博弈的進行，當(dāng)k取值較大時，信號衰減因子滿足δk?1≈ 0，從而導(dǎo)致網(wǎng)絡(luò)欺騙信號無法對網(wǎng)絡(luò)攻擊者進行欺騙，使博弈第k階段演變?yōu)椴煌耆畔㈧o態(tài)博弈，具體博弈樹如圖7 所示。采用Lebg-plex 算法[27]可以進行求解（具體求解過程見文獻[12]，本文不再贅述），最終得出攻防博弈均衡策略為(SD2,SA2)。

圖7 不完全信息靜態(tài)博弈樹

4.4 實驗分析

由上述實驗可知，在多階段網(wǎng)絡(luò)欺騙博弈過程中，防御欺騙信號在前期博弈階段能夠達到較好的欺騙效果，但隨著博弈的進行，防御欺騙信號對攻擊者的欺騙效用不斷降低，使網(wǎng)絡(luò)欺騙博弈最終演變?yōu)椴煌耆畔㈧o態(tài)博弈，并能得出以下結(jié)論。

1) 防御者利用網(wǎng)絡(luò)欺騙博弈能夠達到對攻擊者的欺騙、威懾作用。在傳統(tǒng)網(wǎng)絡(luò)攻防過程中，攻擊者通過前期對信息系統(tǒng)進行試探、檢測，能夠獲取較多的網(wǎng)絡(luò)防御信息，而防御者往往處于被動防御的狀態(tài)，這種攻防過程為信息非對稱博弈。通過實驗對比發(fā)現(xiàn)，基于信號博弈，防御者可以利用攻擊者對防御信息了解的不完全性，通過主動選擇及釋放針對性欺騙信號，在攻防信息獲取和認知領(lǐng)域?qū)W(wǎng)絡(luò)攻擊者進行欺騙與迷惑，削減攻擊者的信息優(yōu)勢，讓其無法準(zhǔn)確地實施攻擊策略，從而達到欺騙、威懾網(wǎng)絡(luò)攻擊者的目的，有效提升主動防御能力。例如，當(dāng)防御者為低等級防御類型TDL時，通過釋放高等級防御信號mH，能夠達到欺騙攻擊者的目的，使攻擊者不敢輕易實施攻擊，從而獲得保護。

2) 網(wǎng)絡(luò)欺騙博弈中的防御欺騙信號主要作用于博弈的前期階段。針對多階段網(wǎng)絡(luò)欺騙博弈，由于攻擊者會根據(jù)先驗概率、防御者釋放的防御信號及各階段的博弈結(jié)果使用貝葉斯法則計算相應(yīng)的后驗概率，從而對自身策略進行調(diào)整，使防御欺騙信號在前期博弈階段效果最優(yōu)。防御者在第二階段的防御收益比第一階段的防御收益普遍要低，且服務(wù)平均時延率更長（SDP越長，表明信息系統(tǒng)損失越大）。基于此，防御者必須充分利用前期的網(wǎng)絡(luò)欺騙效用，及時調(diào)整網(wǎng)絡(luò)防御策略，基于信號機制影響攻擊者后驗推斷的形成，從而提高防御者在攻防對抗過程中的主動性。

3) 低等級防御者可利用信號機制釋放欺騙信號增強防御效果。在實際網(wǎng)絡(luò)攻防對抗過程中，并非所有的防御者都具有較強的防御能力。利用網(wǎng)絡(luò)欺騙博弈的特點，低等級防御者可以通過偽裝成高等級防御者，使攻擊者無法準(zhǔn)確地辨析防御者的真實情況，導(dǎo)致攻擊者出于自身利益，采取保守的試探攻擊，這在一定程度上能夠起到主動防御的效果，從而提高防御收益。如圖6所示，當(dāng)防御者為弱防御類型時，選擇強防御信號所獲收益(?3507 ?3177,?2947)要高于選擇弱防御信號所獲收益(?4107,?3777,?3547)，表明低等級防御者可利用信號機制釋放欺騙信號，從而帶來更高收益。

4) 提高防御能力是解決信息安全問題的核心舉措。有效的防御信號選擇和釋放機制能夠提高主動防御效能，使防御者達到更好的防御效果。但由于每個博弈階段之間都會存在一定的信號衰減，使信號欺騙并不能從根本上解決網(wǎng)絡(luò)信息安全問題。加大網(wǎng)絡(luò)防御投入，提高網(wǎng)絡(luò)防御能力是規(guī)避重大安全損失的必然選擇。由圖6 可知，當(dāng)防御者為弱防御類型時，不論其釋放何種防御信號，其對應(yīng)的防御收益均小于強防御者類型的收益。這說明通過加大網(wǎng)絡(luò)安全投入以提高網(wǎng)絡(luò)防御能力，是目前防止發(fā)生重大網(wǎng)絡(luò)安全事故的基本措施。

5 結(jié)束語

針對網(wǎng)絡(luò)攻擊一般需要依據(jù)網(wǎng)絡(luò)偵查獲取的信息來決定下一步動作，本文將非合作信號博弈理論應(yīng)用于網(wǎng)絡(luò)攻防分析，充分利用防御“虛假”信號對攻擊者進行迷惑與威懾，構(gòu)建多階段網(wǎng)絡(luò)欺騙博弈模型，對網(wǎng)絡(luò)攻防過程中存在的信號欺騙機制進行深入研究。研究成果能夠為網(wǎng)絡(luò)攻防對抗研究提供有效的模型方法，并為防御欺騙在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用提供理論指導(dǎo)。但針對博弈期間存在的信號衰減問題，下一步需進一步考慮如何調(diào)整防御策略，使網(wǎng)絡(luò)欺騙信號達到更好的欺騙效果。