基于M-FlipIt博弈模型的擬態(tài)防御策略評(píng)估

2020-08-02 05:10:18丁紹虎齊寧郭義偉

通信學(xué)報(bào) 2020年7期

丁紹虎，齊寧，郭義偉

（1.信息工程大學(xué)信息技術(shù)研究所，河南鄭州 450002；2.河南信大網(wǎng)御科技有限公司研發(fā)部，河南鄭州 450002）

1 引言

當(dāng)前網(wǎng)絡(luò)空間安全存在著易攻難守的問題，根本原因在于未知漏洞的數(shù)量較多且隱蔽性較強(qiáng)。在這種情形下，攻擊者相比于防御者，處于更容易發(fā)現(xiàn)并利用漏洞開展攻擊的有利地位。針對(duì)這種現(xiàn)狀，不少研究者提出了新型防御技術(shù)用于提升網(wǎng)絡(luò)空間安全性，包括美國國家安全戰(zhàn)略大力支持發(fā)展的可定制信賴網(wǎng)絡(luò)空間、移動(dòng)目標(biāo)防御、內(nèi)在安全等為代表的“有望改變攻防游戲規(guī)則”的革命性技術(shù)[1]，以及N-變體系統(tǒng)[2]、生物啟發(fā)的安全技術(shù)[3]、軟件定義安全[4]等。2013 年，鄔江興院士團(tuán)隊(duì)提出了“變結(jié)構(gòu)提升系統(tǒng)安全性”的網(wǎng)絡(luò)空間擬態(tài)防御（CMD,cyberspace mimic defense）[5]，其基本原理是在功能等價(jià)條件下，利用異構(gòu)冗余和動(dòng)態(tài)反饋機(jī)制改變系統(tǒng)自身架構(gòu)或執(zhí)行環(huán)境，從而在不依賴傳統(tǒng)安全手段的情況下，對(duì)擬態(tài)界內(nèi)基于已知或未知漏洞后門等安全威脅實(shí)現(xiàn)普遍而顯著的防御效果。

目前，擬態(tài)防御技術(shù)已在Web 服務(wù)器、路由器等原型系統(tǒng)研制中展現(xiàn)出其可行性，不少研究工作對(duì)擬態(tài)防御技術(shù)進(jìn)行了理論、仿真和實(shí)驗(yàn)等不同方面的分析驗(yàn)證。雖然已有工作對(duì)擬態(tài)防御技術(shù)的安全性和有效性進(jìn)行了評(píng)估，然而不同的擬態(tài)防御系統(tǒng)通常根據(jù)業(yè)務(wù)需求制定特定場景下的防御策略，理論層面的具有普遍適用性的策略優(yōu)化研究工作較少，不利于指導(dǎo)擬態(tài)防御系統(tǒng)的設(shè)計(jì)和多場景下的應(yīng)用部署，因此需要開展關(guān)于擬態(tài)防御策略的優(yōu)化研究。擬態(tài)防御技術(shù)的特點(diǎn)使系統(tǒng)能夠抵御低水平攻擊，當(dāng)今網(wǎng)絡(luò)空間面臨著嚴(yán)峻的高級(jí)持續(xù)性威脅（APT,advanced persistent threat），現(xiàn)有的擬態(tài)防御安全性評(píng)估通常局限于低風(fēng)險(xiǎn)的普通攻擊，缺少APT 攻擊場景下的策略分析和優(yōu)化工作。本文以擬態(tài)防御系統(tǒng)應(yīng)對(duì)APT 攻擊作為研究背景，提出了一種改進(jìn)的FlipIt 博弈模型——M-FlipIt（mimic defense FlipIt）。對(duì)不同的異構(gòu)性條件下的擬態(tài)防御動(dòng)態(tài)策略進(jìn)行評(píng)估分析，并設(shè)計(jì)仿真案例，提出擬態(tài)防御在不同異構(gòu)性條件下的動(dòng)態(tài)策略制定建議。本文主要貢獻(xiàn)如下。

1) 提出改進(jìn)的FlipIt 模型，建立博弈雙方的策略和收益表。通過改進(jìn)的博弈模型，在單次博弈和連續(xù)博弈下，分析了攻擊者的收益變化以及防御者成功防御攻擊的可能性。

2) 基于改進(jìn)的FlipIt 模型進(jìn)行了案例分析。結(jié)合真實(shí)攻防情景，對(duì)博弈中的參數(shù)進(jìn)行假設(shè)分析防御者收益變化。在連續(xù)博弈場景中，針對(duì)完全異構(gòu)的輪換策略和有限異構(gòu)的輪換策略，分析對(duì)比了防御者不同的輪換方式下收益的大小，提出擬態(tài)防御系統(tǒng)的部署和策略優(yōu)化建議。

2 相關(guān)研究

擬態(tài)防御技術(shù)的提出是基于網(wǎng)絡(luò)空間安全“易攻難守”的安全現(xiàn)狀。擬態(tài)防御技術(shù)的動(dòng)態(tài)異構(gòu)冗余（DHR,dynamical heterogeneous redundant）架構(gòu)融合了異構(gòu)、冗余、動(dòng)態(tài)特性，使擬態(tài)防御系統(tǒng)具有內(nèi)生安全的特性。目前，已實(shí)現(xiàn)了擬態(tài)防御Web服務(wù)器、擬態(tài)防御路由器等多種類型的原型驗(yàn)證系統(tǒng)[5]，這些系統(tǒng)的測試與評(píng)估工作顯示了擬態(tài)防御技術(shù)的有效性和可行性。實(shí)際系統(tǒng)的測試驗(yàn)證通常受限于特定的應(yīng)用場景，評(píng)估方法缺乏通用性。也有不少文獻(xiàn)對(duì)擬態(tài)防御系統(tǒng)進(jìn)行了基于仿真和模型分析的評(píng)估。文獻(xiàn)[6]采用廣義隨機(jī)Petri 網(wǎng)對(duì)擬態(tài)防御域名服務(wù)系統(tǒng)在不同場景下的安全性和可用性進(jìn)行建模分析，同時(shí)考慮了不同的擬態(tài)防御策略對(duì)域名服務(wù)系統(tǒng)性能和代價(jià)的影響，提出了對(duì)擬態(tài)防御系統(tǒng)部署策略的建議，但未對(duì)APT 威脅場景下的擬態(tài)防御策略進(jìn)行分析。文獻(xiàn)[7]基于概率分析和仿真實(shí)驗(yàn)驗(yàn)證了擬態(tài)防御DHR 架構(gòu)的安全性，并評(píng)估了其性能，但重點(diǎn)集中于異構(gòu)性方面，缺乏對(duì)動(dòng)態(tài)性策略的分析。文獻(xiàn)[8-9]分別提出了擬態(tài)構(gòu)造Web 服務(wù)器的異構(gòu)性和服務(wù)質(zhì)量量化評(píng)估方法，在此基礎(chǔ)上，文獻(xiàn)[10]提出了兼顧安全性與服務(wù)質(zhì)量的執(zhí)行體調(diào)度算法，但這一系列工作主要通過量化方法對(duì)擬態(tài)防御系統(tǒng)進(jìn)行評(píng)估，未提出擬態(tài)防御策略的優(yōu)化技術(shù)。文獻(xiàn)[11]將網(wǎng)絡(luò)態(tài)勢感知技術(shù)融入擬態(tài)防御架構(gòu)中，提出一種改進(jìn)的Web 威脅態(tài)勢分析方法，通過感知技術(shù)的融入進(jìn)一步提高安全性，但擬態(tài)防御策略本身依然存在可優(yōu)化的空間。

博弈論模型作為一種經(jīng)濟(jì)學(xué)分析模型，在網(wǎng)絡(luò)空間安全的模型分析中也具有顯著價(jià)值。由于網(wǎng)絡(luò)對(duì)抗行為最終是人與人之間的對(duì)抗，因此博弈論模型適用于網(wǎng)絡(luò)攻防的分析。已有的應(yīng)用于網(wǎng)絡(luò)空間安全分析的博弈模型有多種，包括靜態(tài)的囚徒困境博弈、零和博弈、斯塔克伯格博弈、聯(lián)合博弈和進(jìn)化博弈等[12]。文獻(xiàn)[13]建立了馬爾可夫博弈模型，在軟件定義網(wǎng)絡(luò)場景下對(duì)擬態(tài)防御技術(shù)的異構(gòu)性、冗余性和動(dòng)態(tài)性進(jìn)行分析，通過求解模型中的非線性規(guī)劃問題得到最佳防御策略。文獻(xiàn)[14]提出了一種基于Stackelberg 博弈的擬態(tài)網(wǎng)絡(luò)操作系統(tǒng)安全評(píng)估方法，文獻(xiàn)[15]通過博弈論論證了基于擬態(tài)防御機(jī)制的軟件定義網(wǎng)絡(luò)（SDN,software defined network）虛擬蜜網(wǎng)的有效性。然而，上述研究均未將攻擊場景具體化到APT 攻擊下進(jìn)行深入分析。擬態(tài)防御技術(shù)的內(nèi)生安全性決定了普通攻擊難以成功，且APT 攻擊已成為網(wǎng)絡(luò)空間安全的主要威脅之一，因此對(duì)擬態(tài)防御的分析和評(píng)估應(yīng)更側(cè)重于APT攻擊的場景。近年來提出的FlipIt 博弈模型[16]是針對(duì)高級(jí)持續(xù)性威脅提出的一種分析模型，在分析APT 攻擊場景下的攻防行為具有顯著的適用性。

現(xiàn)有的網(wǎng)絡(luò)環(huán)境下，即使是最安全和隱蔽的網(wǎng)絡(luò)和系統(tǒng)也會(huì)受到有動(dòng)機(jī)和有策略的攻擊者的破壞，并且這樣的攻擊結(jié)果可能不會(huì)被系統(tǒng)所有者立即檢測到，這種威脅以APT 攻擊為典型代表。文獻(xiàn)[16]提出了FlipIt 博弈模型來研究APT 攻擊的影響。在FlipIt博弈中，博弈雙方為防御者和攻擊者，雙方的博弈目標(biāo)是爭奪單一共享資源的控制權(quán)。博弈的任何一方都可以在任何時(shí)候通過“搶占”行為獲取資源的控制權(quán)，然而，除此之外，雙方無法得知任意時(shí)刻下資源的控制權(quán)被哪一方掌握。博弈雙方采取搶占行為的代價(jià)是獨(dú)立的，代價(jià)的大小是博弈的主要參數(shù)。當(dāng)博弈一方進(jìn)行搶占，他會(huì)立即獲得對(duì)資源的控制權(quán)（如果已經(jīng)擁有控制權(quán)，則保留對(duì)資源的控制權(quán)）。每個(gè)玩家的效用即他們控制資源的時(shí)間減去所有搶占動(dòng)作的代價(jià)。FlipIt 博弈過程如圖1 所示。對(duì)于一個(gè)FlipIt 博弈，攻擊者和防御者隨時(shí)可以發(fā)起搶占，搶占動(dòng)作瞬間完成并假設(shè)雙方不同時(shí)進(jìn)行搶占。搶占行為伴隨著資源控制權(quán)的轉(zhuǎn)移或者保留。在模型假設(shè)上，本文提出的M-FlipIt 模型保留了上述FlipIt 博弈的基本過程，其他FlipIt 模型中的假設(shè)條件暫不作考慮。

圖1 FlipIt 博弈過程示意

研究者對(duì)FlipIt 模型進(jìn)行了多種角度的擴(kuò)展研究。在基本的FlipIt 博弈中，攻擊者和防御者爭奪單個(gè)資源。然而，在實(shí)踐中系統(tǒng)通常由多個(gè)可以被瞄準(zhǔn)的資源組成。文獻(xiàn)[17]提出了FlipThem 模型，它是FlipIt 對(duì)多個(gè)資源的抽象模型。為了形式化博弈者的目標(biāo)和最佳策略，該研究引入了2 種控制模型：在“與”模型中，攻擊者必須占領(lǐng)所有資源才能接管整個(gè)系統(tǒng)；在“或”模型中，攻擊者只需占領(lǐng)一個(gè)資源。該研究的分析和數(shù)值結(jié)果為多個(gè)資源的防御策略提供優(yōu)化方法。擬態(tài)防御系統(tǒng)中雖然存在多執(zhí)行體，類似于多資源模型，然而，表決機(jī)制取消了多執(zhí)行體的獨(dú)立性，且對(duì)擬態(tài)防御系統(tǒng)的“占領(lǐng)”行為也不等同于多執(zhí)行體的同時(shí)“占領(lǐng)”，因此FlipThem 模型不適用于擬態(tài)防御系統(tǒng)的分析。文獻(xiàn)[18]關(guān)注攻擊者的隱蔽性需求，即攻擊者通常不希望已經(jīng)成功的攻擊被發(fā)現(xiàn)，例如網(wǎng)絡(luò)間諜、僵尸網(wǎng)絡(luò)等，攻擊者不希望目標(biāo)主機(jī)發(fā)現(xiàn)已被入侵或感染。基于該問題，研究者利用FlipIt 模型研究了不同類型的攻擊者行為模式下攻防雙方的最優(yōu)反應(yīng)，并提出防御者的防御策略建議。該研究主要改進(jìn)了FlipIt 模型中的攻擊者行為分析，防御者的行為模式延用普通的單節(jié)點(diǎn)靜態(tài)系統(tǒng)。文獻(xiàn)[19]利用FlipIt 模型討論了防御者能夠探測當(dāng)前資源占領(lǐng)狀態(tài)的情形下，防御者的收益增益以及防御者的最優(yōu)探測策略。該研究側(cè)重于對(duì)探測策略的分析，而本文研究側(cè)重于無檢測機(jī)制介入下的策略分析。文獻(xiàn)[20]改進(jìn)了FlipIt 模型，提出PLADD（probabilistic learning attacker,dynamic defender）模型，探討了移動(dòng)目標(biāo)防御系統(tǒng)的攻防雙方博弈策略和收益，但缺少對(duì)輪換前后系統(tǒng)異構(gòu)性的考慮，忽略了異構(gòu)性對(duì)博弈雙方收益可能造成的影響。

本文在FlipIt 模型的基礎(chǔ)上，針對(duì)擬態(tài)防御系統(tǒng)應(yīng)對(duì)APT 攻擊的場景，提出改進(jìn)的模型M-FlipIt，主要改進(jìn)內(nèi)容包括：1) 具有更能反映真實(shí)攻防行為的博弈雙方行為分析；2) 多個(gè)不同防御策略的攻防博弈進(jìn)程；3) 映射博弈到擬態(tài)防御系統(tǒng)場景；4) 利用博弈的結(jié)果改進(jìn)、優(yōu)化防御者策略。

3 基于FLIPIT 的擬態(tài)防御改進(jìn)模型

3.1 M-FlipIt 博弈雙方行為

基于FlipIt 模型，本文針對(duì)擬態(tài)防御系統(tǒng)的攻防博弈場景提出改進(jìn)模型M-FlipIt，用于分析擬態(tài)防御系統(tǒng)在不同的異構(gòu)性條件下對(duì)策略機(jī)制的要求。相較于FlipIt，M-FlipIt 中博弈雙方仍為攻擊者和防御者，不同之處主要發(fā)生在博弈行為和收益上。由于防御方具備的異構(gòu)性和動(dòng)態(tài)性，M-FlipIt的博弈進(jìn)程中連續(xù)博弈進(jìn)程中的收益成為分析重點(diǎn)。本文分析了防御方不同的異構(gòu)性屬性造成的收益期望變化，并據(jù)此制定動(dòng)態(tài)策略。連續(xù)博弈中每輪博弈不完全獨(dú)立，與防御者的異構(gòu)性緊密相關(guān)，因此收益期望的計(jì)算方法不同于FlipIt 模型。

3.1.1 防御者行為分析

典型擬態(tài)防御系統(tǒng)結(jié)構(gòu)如圖2 所示。用戶發(fā)送的請(qǐng)求消息通過輸入代理器進(jìn)行復(fù)制，并分發(fā)到m個(gè)異構(gòu)的功能等價(jià)體上，每個(gè)功能等價(jià)體處理完以后，將輸出匯總到輸出裁決器，由裁決器輸出唯一相對(duì)正確的響應(yīng)返回給用戶。當(dāng)裁決中發(fā)現(xiàn)異常結(jié)果時(shí)，將異常信息報(bào)告給反饋控制器，由反饋控制器按照一定的調(diào)度策略動(dòng)態(tài)輪換異構(gòu)功能等價(jià)體，并修改輸入代理器的相關(guān)調(diào)度策略配置。

圖2 典型擬態(tài)防御系統(tǒng)結(jié)構(gòu)

從擬態(tài)防御系統(tǒng)的系統(tǒng)結(jié)構(gòu)中可以發(fā)現(xiàn)，決定系統(tǒng)安全性的重要因素在于功能等價(jià)體的異構(gòu)性。理想情況下，完全異構(gòu)的功能等價(jià)體能夠避免相同漏洞出現(xiàn)在多個(gè)等價(jià)體上。然而，現(xiàn)有的軟硬件無法達(dá)到完全異構(gòu)性，因此動(dòng)態(tài)調(diào)度策略的實(shí)現(xiàn)能夠在一定程度上彌補(bǔ)異構(gòu)性的不足所帶來的安全性的隱患。當(dāng)系統(tǒng)由于功能等價(jià)體共模漏洞的出現(xiàn)而被攻擊時(shí)，反饋控制器可以通過調(diào)度相似的功能等價(jià)體下線，重新上線其他的功能等價(jià)體來排除共模漏洞的可利用性。實(shí)際情況中，擬態(tài)防御系統(tǒng)中的功能等價(jià)體是存在多種未知漏洞的，即使經(jīng)過挑選的異構(gòu)等價(jià)體，也存在著“相似”的可能性。未知的共模漏洞一旦出現(xiàn)，防御者將很難發(fā)現(xiàn)，因此在沒有動(dòng)態(tài)調(diào)度機(jī)制的條件下，擬態(tài)防御系統(tǒng)難以保證充分的安全性。

對(duì)于靜態(tài)的擬態(tài)防御系統(tǒng)，即使在網(wǎng)絡(luò)安全易攻難守的情形下，攻擊依然難以順利實(shí)施，因此擬態(tài)防御系統(tǒng)在動(dòng)態(tài)調(diào)度策略上可以采取簡單策略。在簡單策略下，擬態(tài)防御系統(tǒng)可以采取固定周期調(diào)度功能等價(jià)體的策略，一方面，避免為了發(fā)現(xiàn)攻擊而增大系統(tǒng)自身的復(fù)雜性；另一方面，固定周期的調(diào)度有利于系統(tǒng)定時(shí)的狀態(tài)清洗和凈化，以排除可能的未被發(fā)現(xiàn)的攻擊的影響。在本文評(píng)估分析中，主要針對(duì)固定調(diào)度周期的擬態(tài)防御系統(tǒng)進(jìn)行評(píng)估。在FlipIt 模型中，防御者在一次博弈中既可以進(jìn)行調(diào)度，也可以不進(jìn)行調(diào)度；而在M-FlipIt 博弈中，以防御者的一個(gè)調(diào)度周期為一個(gè)博弈周期，防御者采取固定策略，即博弈開始時(shí)（或結(jié)束時(shí)）發(fā)生一次調(diào)度，在此基礎(chǔ)上分析攻擊者的行為。

3.1.2 攻擊者行為分析

對(duì)于以擬態(tài)防御系統(tǒng)為攻擊目標(biāo)的攻擊者而言，可以通過不斷探測、挖掘系統(tǒng)的指紋信息等來增大其發(fā)現(xiàn)共模漏洞并成功利用漏洞的概率。雖然異構(gòu)的功能等價(jià)體難以被發(fā)現(xiàn)其共模漏洞，然而現(xiàn)實(shí)條件下很難構(gòu)造完全異構(gòu)的功能等價(jià)體，即使看似不同開發(fā)者開發(fā)維護(hù)的不同軟件，也難以排除這些軟件不同版本中存在相同漏洞的可能性，尤其在軟件繼承、軟件架構(gòu)模型有限的條件下，共模漏洞具有一定的出現(xiàn)概率。這種現(xiàn)狀為攻擊者提供了一定的成功的可能性。因此，假設(shè)靜態(tài)的擬態(tài)防御系統(tǒng)能夠被攻擊者以一定的概率攻擊成功，同時(shí)系統(tǒng)無法發(fā)現(xiàn)異常。擬態(tài)防御系統(tǒng)僅能夠通過動(dòng)態(tài)調(diào)度清除已發(fā)生的攻擊使系統(tǒng)恢復(fù)安全狀態(tài)。攻擊成功的概率應(yīng)隨時(shí)間而變化，時(shí)間不斷增長的情形下，攻擊成功的概率也不斷增長，設(shè)攻擊成功的概率密度函數(shù)為f(t)，t表示時(shí)間，f(t) ＞0 。同時(shí)，假設(shè)系統(tǒng)發(fā)生異構(gòu)化的調(diào)度以后，攻擊者需重新開始攻擊嘗試和探索新上線的功能等價(jià)體組合，攻擊成功概率的概率密度函數(shù)依然為f(t) 。由于前期積累的攻擊經(jīng)驗(yàn)對(duì)新上線的等價(jià)體組合不可用，因此攻擊時(shí)間也從0 開始。當(dāng)擬態(tài)防御系統(tǒng)上線了重復(fù)的功能等價(jià)體組合時(shí)，攻擊者能夠基于已有的對(duì)該組合的探測經(jīng)驗(yàn)開展進(jìn)一步的攻擊行為，該種情形下，攻擊難度在一定程度上降低了。假設(shè)在第一輪博弈中，對(duì)第一次出現(xiàn)的功能等價(jià)體組合的攻擊成功，攻擊成功時(shí)間為t0，即從攻擊開始到攻擊完成所用時(shí)間，則在該組合第k次出現(xiàn)時(shí)攻擊首次成功的時(shí)間為tk，攻擊成功概率的概率密度函數(shù)依然為f(t)，然而在計(jì)算攻擊成功概率時(shí)，應(yīng)累計(jì)上攻擊者在前k-1 次的探測和挖掘時(shí)間，因此攻擊成功概率為

在一個(gè)博弈周期中，攻擊者可以采取攻擊和不攻擊2 種策略，而對(duì)于防御者而言，分析攻擊者在攻擊策略下的收益更有助于制定防御策略，降低攻擊者收益，甚至將攻擊者“驅(qū)逐”，即迫使攻擊者采取不攻擊策略。

3.2 M-FlipIt 博弈過程

在單次博弈中，攻擊者發(fā)起攻擊并攻擊成功時(shí)，開始獲得系統(tǒng)的資源占有權(quán)。單次博弈如圖3所示。博弈開始時(shí)，以防御者擁有資源占有權(quán)為起點(diǎn)，在實(shí)際情形下該種假設(shè)是合理的，因?yàn)榉烙邽橹鲃?dòng)上線，攻擊者在發(fā)現(xiàn)系統(tǒng)時(shí)對(duì)系統(tǒng)的各種信息處于未知狀態(tài)，系統(tǒng)也處于未受攻擊的狀態(tài)，可以認(rèn)為此時(shí)的資源占有權(quán)在防御者手中。為了簡化博弈過程，認(rèn)為博弈開始的同時(shí)，攻擊者開始發(fā)動(dòng)攻擊。當(dāng)攻擊成功時(shí)，認(rèn)為攻擊者成功搶占資源。無論攻擊是否成功，防御者都在輪換周期到達(dá)時(shí)，進(jìn)行一次搶占，在防御者發(fā)起下一次搶占時(shí)，博弈結(jié)束。防御者下一次搶占發(fā)生以后，攻擊者和防御者開始新一輪的博弈。對(duì)于以固定周期T輪換的擬態(tài)防御系統(tǒng)，每一輪博弈的時(shí)間即為輪換周期T。在擬態(tài)防御系統(tǒng)無監(jiān)督運(yùn)行的情況下，攻防雙方的行為可描述為連續(xù)博弈。

圖3 單次博弈示意

在單次博弈過程中，攻擊者付出的代價(jià)主要存在于攻擊代價(jià)，且攻擊代價(jià)與時(shí)間相關(guān)。因?yàn)楣艉馁M(fèi)的時(shí)間越長，攻擊者耗費(fèi)的攻擊資源越高，假設(shè)發(fā)起一次攻擊的代價(jià)為CA(t)，CA(t) ＞ 0，且為遞增函數(shù)。為了便于計(jì)算，令攻擊代價(jià)以時(shí)間為單位，若攻擊者在t=t0時(shí)刻攻擊成功，則攻擊者收益可計(jì)算為uA=-CA(t0)+T-t0，0≤t0≤T。

防御者付出的代價(jià)主要為一次輪換的代價(jià)，在單次博弈中，由于假設(shè)了防御者采取固定策略，因此防御者的收益是固定的。擬態(tài)防御系統(tǒng)的輪換周期T影響著一次博弈的時(shí)長，也決定了攻擊者在博弈中搶占到資源的可能性和攻擊者占有資源的時(shí)長。理論上，輪換周期T越短，攻擊者成功的概率越小，即使攻擊成功，其占有資源的時(shí)長比例也較短。但對(duì)于防御者而言，單位時(shí)間付出的代價(jià)就越高。因此，防御者的收益需要考慮單位時(shí)間的收益。假設(shè)防御者發(fā)起一次搶占的代價(jià)為CD，該代價(jià)與擬態(tài)防御系統(tǒng)具體的實(shí)現(xiàn)相關(guān)，在博弈分析中可以認(rèn)為該代價(jià)為固定值。同時(shí)，為了便于與攻擊者收益進(jìn)行比較，假設(shè)CD以時(shí)間為單位。那么，若攻擊者在t=t0時(shí)刻攻擊成功，防御者在單次博弈中的收益為uD=-CD+t0，0≤t0≤T。

根據(jù)上述分析，單次M-FlipIt 博弈下攻擊者采取攻擊策略時(shí)攻防雙方的收益如表1 所示。

表1 單次M-FlipIt 博弈下攻擊者采取攻擊策略時(shí)攻防雙方的收益

3.3 M-FlipIt 連續(xù)博弈場景分析

擬態(tài)防御系統(tǒng)的功能等價(jià)體組合之間也存在異構(gòu)性，不同的組合可以認(rèn)為是對(duì)攻擊者完全異構(gòu)的2 種組合，即攻擊者在面臨異構(gòu)的2 個(gè)組合時(shí)需要重新發(fā)起攻擊，已有的攻擊經(jīng)驗(yàn)不可用，則攻擊成功的概率密度函數(shù)在2 個(gè)異構(gòu)組合面前均為f(t)。當(dāng)擬態(tài)防御系統(tǒng)每次輪換上線的功能等價(jià)體組合均為異構(gòu)時(shí)，則攻防博弈轉(zhuǎn)換為以T為周期的獨(dú)立的連續(xù)博弈。

實(shí)際的擬態(tài)防御系統(tǒng)實(shí)現(xiàn)中不能保證每次輪換上線的功能等價(jià)體組合都是全新的、未出現(xiàn)過的組合，因此存在一定的重復(fù)上線的可能性，這就為攻擊者提供了降低攻擊難度的可能性，從而縮短攻擊成功時(shí)間。在這種情形下，攻防雙方的多次博弈依然為連續(xù)博弈，但前后不同的博弈之間可能存在依賴性。

3.3.1 完全異構(gòu)的輪換

在完全異構(gòu)的輪換情景下，根據(jù)攻擊者攻擊成功的概率密度函數(shù)假設(shè)，可以將攻擊者的收益期望E(uA)具體計(jì)算為

從防御者的角度考慮，防御周期應(yīng)盡可能長，減少不必要的輪換代價(jià)。攻擊者的收益預(yù)期應(yīng)滿足E(uA) ≤ 0，在這樣的收益預(yù)期下，攻擊者可能不采取攻擊行動(dòng)。對(duì)E(uA)關(guān)于T進(jìn)行求導(dǎo)，可得

由于f(t) ≥ 0，且t0≥ 0，可知E(uA)為單調(diào)遞增函數(shù)，攻擊者的收益預(yù)期隨著防御周期T的增大而增大。，而。根據(jù)中值定理，存在T=T0，使E(uA)=0，且對(duì)于T≤T0，有E(uA) ≤ 0。在輪換周期時(shí)，攻擊者的收益為負(fù)值，該收益預(yù)期下，在博弈中理性的攻擊者不會(huì)發(fā)動(dòng)攻擊。

3.3.2 有限異構(gòu)的輪換

實(shí)際情況中，擬態(tài)防御系統(tǒng)可用于輪換的功能等價(jià)體組合是有限的，因此在運(yùn)行時(shí)間足夠長的情況下，會(huì)出現(xiàn)重復(fù)的組合上線工作，此時(shí)對(duì)于攻擊者而言，可以借助以往對(duì)該組合的探測挖掘經(jīng)驗(yàn)繼續(xù)開展攻擊，從而縮短攻擊成功時(shí)間，提高攻擊成功的概率。出現(xiàn)重復(fù)的組合時(shí)，攻擊成功概率相比于未重復(fù)的組合增大，且重復(fù)次數(shù)越多，概率越高，當(dāng)某一個(gè)執(zhí)行體組合第k次出現(xiàn)時(shí)，假設(shè)攻擊成功時(shí)間為tk。若該組合在前k-1 輪博弈中已被成功攻擊過，則在第k次出現(xiàn)時(shí)，攻擊成功概率為1。為了不失一般性，本節(jié)探討在第k次重復(fù)上線時(shí)攻擊首次成功的情形。

依據(jù)前文假設(shè)，等價(jià)體組合前k-1 次的重復(fù)出現(xiàn)為攻擊者提供了(k-1)T的時(shí)間用于探測系統(tǒng)的組成和漏洞，每多一次重復(fù)，攻擊者積累的經(jīng)驗(yàn)就在前期重復(fù)的基礎(chǔ)上累加，因此，在第k次重復(fù)上線時(shí)，攻防博弈時(shí)間雖然從0 開始計(jì)算，但對(duì)于攻擊者成功概率而言，則應(yīng)累計(jì)(k-1)T的經(jīng)驗(yàn)時(shí)間；與此同時(shí)，第k次重復(fù)上線時(shí)的攻擊代價(jià)值需要計(jì)算本輪所用代價(jià)，即為CA(tk)，則攻擊者的收益期望可計(jì)算為

在第k次重復(fù)的組合上線時(shí)，攻擊者的收益預(yù)期出現(xiàn)一定的變化，通過對(duì)T求導(dǎo)，得到，該結(jié)果說明攻擊者的收益依然為遞增函數(shù)，隨著防御周期的增大而增大。通過比較Ek(uA)和E(uA)的大小，可以看出攻擊者收益期望在出現(xiàn)重復(fù)組合時(shí)的變化情況。

由于CA(t)為遞增函數(shù)，且t0≥tk，因此CA(t0)-CA(tk) ≥ 0，進(jìn)而可以得出Ek(uA) -E(uA) ≥ 0的結(jié)論。也就是說，當(dāng)?shù)葍r(jià)體組合重復(fù)上線時(shí)，攻防博弈向有利于攻擊者的方向發(fā)展。在足夠長的博弈輪次下，攻擊者能夠越來越輕松地攻破系統(tǒng)。因此，對(duì)于擬態(tài)防御系統(tǒng)而言，在輪換調(diào)度中保證每次上線組合的異構(gòu)性與制定恰當(dāng)?shù)妮啌Q周期同樣重要。

4 案例研究

為了進(jìn)一步探究M-FlipIt 博弈下攻方雙方具體策略對(duì)博弈結(jié)果的影響，本節(jié)對(duì)具體的攻防雙方策略進(jìn)行假設(shè)，通過仿真分析，評(píng)估對(duì)比攻擊者不同的成功概率對(duì)防御者的輪換周期的影響，并評(píng)估在有限異構(gòu)的場景下，防御者不同輪換周期和不同異構(gòu)性對(duì)擬態(tài)防御系統(tǒng)的安全性的影響。

4.1 完全異構(gòu)的輪換

首先，假設(shè)攻擊者的成功概率P(t) 的概率密度函數(shù)服從于指數(shù)分布，即，則成功概率

為了簡化分析模型，在不違背前述分析結(jié)論的條件下，假設(shè)CA(t)=αt(α＞ 0)，即攻擊代價(jià)與時(shí)間呈線性關(guān)系。當(dāng)攻擊的成功概率達(dá)到X時(shí)，如X=80%，則認(rèn)為攻擊極有可能成功，此時(shí)對(duì)應(yīng)的時(shí)刻t0即作為攻擊成功時(shí)間。

由P≤X，可得，解得

對(duì)于防御者而言，t0指示了一個(gè)動(dòng)態(tài)調(diào)度周期的臨界值，在動(dòng)態(tài)調(diào)度周期T≥t0的情形下，系統(tǒng)將處于極有可能被攻擊成功的狀態(tài)。在完全異構(gòu)的場景下，令E(uA) ≤ 0，即E(-CA(t0)+T-t0) ≤ 0，得到的臨界取值下，計(jì)算得到也就是說當(dāng)調(diào)度周期符合該條件時(shí)，能夠達(dá)到不被攻擊成功的預(yù)期結(jié)果。影響到調(diào)度周期的主要因素在于λ和α，這2 個(gè)參數(shù)均與攻擊者相關(guān)，因此在評(píng)估調(diào)度周期時(shí)需要對(duì)攻擊者有較明確的掌握。

對(duì)于擬態(tài)防御系統(tǒng)而言，普通的攻擊難以攻破系統(tǒng)，攻擊者需要對(duì)系統(tǒng)進(jìn)行持久的探測和攻擊嘗試，甚至?xí)r間可能長達(dá)數(shù)年。為了模擬這種APT類型的攻擊行為，取一天為單位時(shí)間。假設(shè)P=80%時(shí)，令λ的取值范圍為[0.01,0.05]，則攻擊者持續(xù)探測時(shí)間需要達(dá)到30～160 天。同時(shí)，攻擊代價(jià)的計(jì)算由α決定，令α∈[0.1,2]，在該范圍內(nèi)研究攻擊者代價(jià)較低和較高的情形。由于采用的度量衡均為時(shí)間，因此α的取值范圍足以為結(jié)果提供足夠的分析空間。不同的λ取值下f(t) 的圖像如圖4 所示，調(diào)度周期T隨代價(jià)參數(shù)α和攻擊概率密度參數(shù)λ的變化如圖5 所示。

結(jié)合圖4 和圖5 可以發(fā)現(xiàn)，當(dāng)λ較小時(shí)，也就是攻擊成功概率達(dá)到P=80%耗時(shí)較長時(shí)，調(diào)度周期T的下限值較大，允許擬態(tài)防御系統(tǒng)在較長時(shí)間內(nèi)保持靜態(tài)性，同時(shí)被攻擊風(fēng)險(xiǎn)較低。代價(jià)參數(shù)α較小時(shí)，即單位攻擊代價(jià)較低時(shí)，調(diào)度周期則隨λ變化較小。說明當(dāng)攻擊者對(duì)系統(tǒng)發(fā)起單位代價(jià)較低，且能在較短時(shí)間內(nèi)成功的攻擊時(shí)，擬態(tài)防御系統(tǒng)的調(diào)度周期需設(shè)置為較小值。在本文假設(shè)的參數(shù)取值范圍內(nèi)，調(diào)度周期最小值約為72 天，而攻擊成功概率達(dá)到80%所需的時(shí)間約為32 天。在博弈的情景中，攻防雙方均假設(shè)為理性人，因此攻擊時(shí)間雖然短于調(diào)度周期，由于攻擊代價(jià)的存在，在調(diào)度周期T＜72 天時(shí)，攻擊者會(huì)選擇不攻擊的策略來保證攻擊不會(huì)出現(xiàn)負(fù)收益。

圖4 不同的λ 取值下的 f(t)

圖5 調(diào)度周期T 隨代價(jià)參數(shù)α 和攻擊概率密度參數(shù)λ 的變化

4.2 有限異構(gòu)的輪換

上述情形為無重復(fù)組合上線的單輪博弈結(jié)果，當(dāng)擬態(tài)防御系統(tǒng)中出現(xiàn)了重復(fù)組合上線的情形時(shí)，攻防雙方的博弈結(jié)果會(huì)放生變化。仍然采用4.1 中的假設(shè)條件進(jìn)行分析。

在某一組合第k次重復(fù)上線時(shí)，Ek(uA)=。在該輪博弈中，攻擊成功的概率函數(shù)為。由P′≤X，得由于分析中僅對(duì)調(diào)度周期的臨界值進(jìn)行分析，因此令T=tk，可求解得到。若令攻擊者收益E(uA) ≤ 0，即。在P′=X的臨界取值下，調(diào)度周期需滿足，T=tk滿足該條件。根據(jù)以上計(jì)算結(jié)果，發(fā)現(xiàn)調(diào)度周期相比于完全異構(gòu)的輪換情形下大幅縮減了。

因此，在有限異構(gòu)的輪換情形下，調(diào)度周期隨重復(fù)組合上線次數(shù)而變化，固定的調(diào)度周期并非最有效的調(diào)度方式，可以采用動(dòng)態(tài)的變化周期。在沒有重復(fù)組合上線時(shí)，采用T=t0的周期；隨著等價(jià)體組合的重復(fù)上線次數(shù)增加，依據(jù)組合的平均重復(fù)上線次數(shù)修改調(diào)度周期為

無論是完全異構(gòu)的場景，還是有限異構(gòu)的場景，周期的計(jì)算結(jié)果均為使攻擊失敗的周期設(shè)定，且滿足攻擊者收益E(uA) ≤ 0和 Ek(uA) ≤ 0，理性的攻擊者在該種情形下不會(huì)發(fā)起攻擊。因此研究防御者的收益變化。對(duì)于每一輪次的博弈而言，假設(shè)該輪次的調(diào)度周期為 'T，則防御者在該輪次的收益為

那么m為正整數(shù)，表示周期為t0時(shí)全部組合重復(fù)上線的最大次數(shù)。

2) 對(duì)于有限異構(gòu)且固定調(diào)度周期的情形，假設(shè)β表示有限異構(gòu)輪換時(shí)異構(gòu)等價(jià)體組合的數(shù)量，異構(gòu)的等價(jià)體組合按照一定的順序輪換，全部輪換一次構(gòu)成一個(gè)β輪次的博弈過程；當(dāng)最大重復(fù)次數(shù)為maxk，則調(diào)度周期設(shè)定為在所有組合均完成了第maxk次上線的情況下，博弈次數(shù)總計(jì)為n2=maxkβ。防御者的單位時(shí)間收益maxk βt0，單位時(shí)間收益為

3) 對(duì)于有限異構(gòu)而變周期的情形，調(diào)度周期是變化的。沿用2) 中關(guān)于β的假設(shè)，則在第一個(gè)包含β輪次博弈的過程中，T=t0；第l個(gè)包含β輪次博弈的過程中。依然假設(shè)最大重復(fù)上線次數(shù)為maxk，在所有組合均完成了第maxk次上線的情況下，博弈次數(shù)總計(jì)為n3=maxkβ。防御者總收益U3=∑E(uD)=，單位時(shí)間收益為

取X=80%，λ=0.01，則-100ln0.2，在1≤k≤ 10，0＜CD≤ 1的變化范圍內(nèi)，得到3 種情形下單位時(shí)間收益的變化圖像，如圖6 所示。

由圖6 可以看出，平均收益u1≥u3≥u2，說明完全異構(gòu)場景在防御攻擊者重復(fù)攻擊方面最理想，有限的異構(gòu)性會(huì)降低防御者收益，且定周期須采用最小周期才能夠保證攻擊者收益始終為負(fù)值，因此該策略防御者收益衰減最大，然而通過調(diào)節(jié)動(dòng)態(tài)調(diào)度的周期（文中假設(shè)情形為逐漸減小調(diào)度周期），能夠減輕防御者收益的衰減。該結(jié)果說明，等價(jià)體組合異構(gòu)性的不足可以通過動(dòng)態(tài)性的增強(qiáng)進(jìn)行補(bǔ)充，不僅采用動(dòng)態(tài)調(diào)度，同時(shí)采用動(dòng)態(tài)的調(diào)度周期。而最終，異構(gòu)性是擬態(tài)防御系統(tǒng)的根本追求目標(biāo)，在完全異構(gòu)的場景下，防御者收益相對(duì)而言最高且隨著博弈輪次的增加衰減最小，動(dòng)態(tài)性雖然能夠彌補(bǔ)異構(gòu)性的不足，卻無法避免防御者收益的相對(duì)減弱。在實(shí)際的擬態(tài)防御系統(tǒng)設(shè)計(jì)中，可以結(jié)合異構(gòu)性和動(dòng)態(tài)性進(jìn)行權(quán)衡。

圖6 3 種情形下防御者單位時(shí)間內(nèi)平均收益的變化

5 結(jié)束語

動(dòng)態(tài)異構(gòu)冗余的特性使擬態(tài)防御具有防御基于漏洞和后門攻擊的先天優(yōu)勢與內(nèi)生防御效應(yīng)。本文基于FlipIt 模型，提出了針對(duì)擬態(tài)防御系統(tǒng)的攻防博弈場景改進(jìn)模型M-FlipIt，以分析在高級(jí)持續(xù)性威脅的場景下擬態(tài)防御系統(tǒng)的安全性表現(xiàn)。通過分別討論在完全異構(gòu)和有限異構(gòu)條件下，防御者和攻擊者的收益變化情況，提出了擬態(tài)防御在不同異構(gòu)性條件下，應(yīng)結(jié)合異構(gòu)性和動(dòng)態(tài)性進(jìn)行權(quán)衡以制定動(dòng)態(tài)策略。下一步，將在實(shí)際應(yīng)用環(huán)境中驗(yàn)證M-FlipIt 模型的有效性，在明確攻擊模式的前提下研究擬態(tài)防御系統(tǒng)輪換周期的最優(yōu)解，進(jìn)一步提高模型的實(shí)際應(yīng)用效力，并提出基于實(shí)際應(yīng)用環(huán)境的動(dòng)態(tài)策略。