基于專家系統(tǒng)的高級持續(xù)性威脅云端檢測博弈

2017-11-07 10:11:26呂世超石志強孫利民

計算機研究與發(fā)展 2017年10期

胡晴呂世超石志強孫利民肖亮

1(中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院北京 100049) 2(物聯(lián)網(wǎng)信息安全技術(shù)北京市重點實驗室(中國科學(xué)院信息工程研究所) 北京 100093) 3(廈門大學(xué)通信工程系福建廈門 361005) (huqing@iie．a(chǎn)c．cn)

2017-06-10；

2017-08-01

國家重點研發(fā)計劃項目(2016YFB0800202)；國防基礎(chǔ)科研計劃項目(JCKY2016602B001)；國家自然科學(xué)基金項目(U1636120，61671396)；北京市科委科技計劃專項項目(Z161100002616032)；CCF啟明星辰鴻雁基金項目(2016-010) This work was supported by the National Key Research and Development Program of China (2016YFB0800202), the National Defense Basic Scientific Research Program of China (JCKY2016602B001), the National Natural Science Foundation of China (U1636120, 61671396), Beijing Municipal Science and Technology Commission Program (Z161100002616032), and the CCF-Venustech Hongyan Research Initiative (2016-010).

石志強(shizhiqiang@iie.ac.cn)

基于專家系統(tǒng)的高級持續(xù)性威脅云端檢測博弈

胡晴1,2呂世超1,2石志強1,2孫利民1,2肖亮3

1(中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院北京 100049)2(物聯(lián)網(wǎng)信息安全技術(shù)北京市重點實驗室(中國科學(xué)院信息工程研究所) 北京 100093)3(廈門大學(xué)通信工程系福建廈門 361005) (huqing@iie．a(chǎn)c．cn)

云計算系統(tǒng)是高級持續(xù)性威脅(advanced persistent threats, APT)的重要攻擊目標(biāo).自動化的APT檢測器很難準確發(fā)現(xiàn)APT攻擊，用專家系統(tǒng)對可疑行為進行二次檢測可以減少檢測錯誤.但是專家系統(tǒng)完成二次檢測需要花費一段額外的時間，可能導(dǎo)致防御響應(yīng)延遲，而且專家系統(tǒng)本身也會產(chǎn)生誤判.在綜合考慮APT檢測器和專家系統(tǒng)的虛警率和漏報率的基礎(chǔ)上，用博弈論方法討論在云計算系統(tǒng)的APT檢測和防御中，利用專家系統(tǒng)進行二次檢測的必要性.設(shè)計了一個基于專家系統(tǒng)的APT檢測方案，并提出一個ES -APT檢測博弈模型，推導(dǎo)其納什均衡，據(jù)此研究了專家系統(tǒng)對云計算系統(tǒng)安全性能的改善作用.此外，當(dāng)無法獲得APT攻擊模型時，提出了一種利用強化學(xué)習(xí)算法獲取最優(yōu)防御策略的方案.仿真結(jié)果表明：基于WoLF-PHC算法的動態(tài)ES -APT檢測方案較之其他對照方案能夠提高防御者的效用和云計算系統(tǒng)的安全性.

高級持續(xù)性威脅；云安全；專家系統(tǒng)；博弈論；強化學(xué)習(xí)

隨著云計算技術(shù)的發(fā)展，越來越多的數(shù)據(jù)被上傳到云端，其中不乏金融、醫(yī)療、政務(wù)、通信、工業(yè)、農(nóng)業(yè)等關(guān)系到國計民生的重要數(shù)據(jù)，導(dǎo)致云計算系統(tǒng)成為高級持續(xù)性威脅(advanced persistent threats, APT)的主要攻擊目標(biāo).針對云計算系統(tǒng)的APT攻擊主要是為了竊取機密信息.在達到目的之前，APT攻擊者會反復(fù)嘗試，搜集大量目標(biāo)系統(tǒng)的資料，并根據(jù)目標(biāo)系統(tǒng)的防御情況不斷調(diào)整攻擊方案，直至成功[1].近年來，人們在APT防御方面做了大量研究.但實際情況表明，由于APT攻擊不斷嘗試新的攻擊手段、大量利用0day漏洞且擅于隱藏和擦除痕跡，很難準確檢測到APT攻擊.尤其是自動化的APT檢測器，在工作過程中都會產(chǎn)生大量的虛警和漏報.虛警會導(dǎo)致錯誤的防御，給APT防御者帶來人力、物力、財力以及時間上的損失.漏報更是為APT攻擊繼續(xù)深入提供便利，增加了攻擊者竊密或?qū)崿F(xiàn)其他攻擊目的的機會.

為了緩解APT檢測器的不準確性帶來的危害，本文提出一種基于專家系統(tǒng)(expert system, ES)的APT攻擊檢測方案，簡稱ES -APT檢測方案.專家系統(tǒng)一般是指計算機程序系統(tǒng)，用人工智能技術(shù)和計算機技術(shù)來模擬人類專家解決專業(yè)領(lǐng)域問題[2].本文的專家系統(tǒng)是由計算機專家系統(tǒng)和多個人類信息安全專家組成的多專家協(xié)作系統(tǒng).在ES -APT檢測方案中，APT防御者借助APT檢測器和專家系統(tǒng)對目標(biāo)系統(tǒng)進行檢測.APT檢測器持續(xù)掃描云計算系統(tǒng)，并根據(jù)防御者設(shè)置的時間間隔對所收集到的信息進行綜合分析.當(dāng)APT檢測器報警時，觸發(fā)專家系統(tǒng)進行二次檢測，如果專家系統(tǒng)確認報警正確，則防御者采取措施阻斷APT攻擊，并修復(fù)由攻擊造成的損失.從APT檢測器報警到專家系統(tǒng)給出判斷所經(jīng)歷的時間稱為響應(yīng)時間.在實際運行中，專家系統(tǒng)的判斷也可能出錯.

針對已知攻擊模型的APT攻擊，本文根據(jù)ES -APT檢測方案提出一種ES -APT檢測博弈模型，以APT攻擊者和云計算系統(tǒng)的防御者為博弈的參與方.在該模型中，APT檢測器和專家系統(tǒng)的虛警率和漏報率是公共知識.APT攻擊者的策略是選擇發(fā)動攻擊的時機，防御者的策略是設(shè)置APT檢測器進行綜合分析的時間間隔.求解該模型的納什均衡，可以得到防御者的最優(yōu)策略.

動態(tài)的ES -APT檢測博弈則用來研究無法獲知APT攻擊的攻擊模型時APT防御者如何進行防御決策.本文提出一種基于WoLF-PHC算法的防御策略優(yōu)化方案，并用模擬仿真驗證了該方案的可行性和提升APT防御者效用的能力.

本文的主要貢獻有3個方面：

1) 提出了一種ES -APT檢測方案來緩解APT檢測器的不準確性帶來的危害，并基于該方案構(gòu)建了一個以APT攻擊者和防御者為參與人的ES -APT檢測博弈模型；

2) 推導(dǎo)了ES -APT檢測博弈的納什均衡，并用數(shù)值分析揭示了APT檢測器和專家系統(tǒng)的虛警率、漏報率，以及專家系統(tǒng)二次檢測造成的防御延遲對博弈雙方效用和云計算系統(tǒng)安全性的影響；

3) 在動態(tài)博弈中，基于WoLF-PHC算法設(shè)計了一種防御策略優(yōu)化方案，用模擬仿真驗證了該方案的可行性，并對比了該方案和其他對照方案的性能.

1 相關(guān)工作

博弈論在網(wǎng)絡(luò)與信息安全相關(guān)領(lǐng)域應(yīng)用廣泛，涉及主動防御[3]、安全協(xié)議[4]、隱私保護[5-6]和攻擊檢測[7]等.在APT檢測與防御方面，大量工作表明：博弈論是一種研究和解決APT攻擊問題的有效方法.

文獻[8]提出了一種防御隱蔽攻擊的重復(fù)博弈框架FlipIt，研究了針對不同攻擊策略的占優(yōu)防御策略；文獻[9]基于FlipIt框架研究了當(dāng)APT攻防雙方的時間、成本等資源受限時的近似最優(yōu)防御策略，還提出了一個以防御者為主導(dǎo)者、攻擊者為追隨者的序貫博弈模型，設(shè)計了基于動態(tài)規(guī)劃來獲取防御者的近似最優(yōu)策略的算法；文獻[10]考慮了隱蔽攻擊者逐步獲取資源而防御者只能部分消除攻擊立足點，且無法彌補任何已經(jīng)發(fā)生的信息泄漏的情形，并構(gòu)建博弈模型推導(dǎo)出最佳防御策略；文獻[11]和文獻[12]用前景理論論述了當(dāng)APT攻防雙方并非完全理性時，他們的主觀程度對雙方?jīng)Q策和效用的影響，設(shè)計了基于Q-learning的動態(tài)防御方案；文獻[13]進一步用累積前景理論對APT攻防博弈進行了討論；文獻[14]分析了內(nèi)部泄密者和APT攻擊者的聯(lián)合威脅，給出了可能存在內(nèi)部泄密者時防御者的最優(yōu)策略；文獻[15]通過雙層博弈模型研究攻擊者與泄密者之間的交易以及攻擊者與防御者之間的博弈，并求解了子博弈完美均衡；文獻[16]用演化博弈論來捕捉長期連續(xù)的APT攻擊行為，通過建立2個離散策略的APT防御博弈模型，研究了攻擊策略和防御策略的動態(tài)穩(wěn)定性.

然而，以上研究均未涉及檢測APT攻擊時可能出現(xiàn)的虛警和漏報.實際應(yīng)用中，在忽略APT檢測的不準確性[17]的情況下做出的防御決策，可能會對防御效能產(chǎn)生負面影響.本文提出ES -APT檢測方案來提升APT檢測的性能，并基于此構(gòu)建APT攻擊者和無法準確檢測到攻擊的防御者之間的博弈模型，從靜態(tài)和動態(tài)2個方面為防御者提供更好的防御策略.

2 系統(tǒng)模型

本節(jié)介紹ES -APT檢測方案以及基于此方案的ES -APT檢測博弈的基本模型，并建立APT攻擊者和防御者的效用函數(shù).

2.1ES-APT檢測方案

ES -APT檢測方案如圖1所示.APT檢測器持續(xù)監(jiān)聽云計算系統(tǒng)的各類信息，并按防御者設(shè)定的檢測時間間隔對這段時間內(nèi)所監(jiān)測到的數(shù)據(jù)進行綜合分析，判斷云計算系統(tǒng)是否已被攻擊.如果檢測器認為系統(tǒng)沒有遭受攻擊，則防御者開始部署下一次檢測時間間隔；反之，檢測器給出告警，同時觸發(fā)專家系統(tǒng).專家系統(tǒng)綜合考量檢測器收集的信息和其他與云計算系統(tǒng)相關(guān)的信息，進一步辨別系統(tǒng)是否安全.只有專家系統(tǒng)確認了攻擊確實發(fā)生，防御者才會采取防御措施對APT攻擊進行阻斷.

Fig. 1 The scheme of detecting APT attacks with an expert system圖1 ES -APT檢測方案

2.2基本模型

ES -APT檢測博弈是一個非合作博弈，有2個參與人：1)手段高明、隱蔽性強的APT攻擊者；2)基于ES -APT檢測方案進行防御的APT防御者.假設(shè)在一次博弈的起始點，云計算系統(tǒng)處于安全狀態(tài).攻擊者和防御者基于對APT檢測器和專家系統(tǒng)的虛警率、漏報率的考慮，在不知道對方如何決策的情況下，分別選擇攻擊時間y和檢測時間間隔x.攻擊者可以選擇y=0，即立刻攻擊，而防御者不能選擇x=0，因為APT檢測器根據(jù)0時間內(nèi)的信息不可能判斷是否存在攻擊.歸一化之后有y∈[0,1]，x∈(0,1].不論攻擊者采用何種手段進行攻擊，從其發(fā)動攻擊到攻擊生效都需要經(jīng)歷一段時間z，且z>0.假設(shè)APT檢測器和專家系統(tǒng)只能發(fā)現(xiàn)已經(jīng)生效的攻擊，其中APT檢測器在檢測時耗費的時間可以忽略不計，專家系統(tǒng)用于二次檢測的耗時記為t.ES -APT檢測博弈中部分可能出現(xiàn)的攻防互動情況如圖2所示.

Fig. 2 Illustration of an ES -APT detection game圖2 ES -APT檢測博弈示意圖

虛警是指系統(tǒng)未遭受攻擊時被認為受到攻擊，漏報則是系統(tǒng)遭受攻擊后依然被認為處于安全狀態(tài).若用S表示系統(tǒng)的真實狀態(tài)，s表示APT檢測器判定的系統(tǒng)狀態(tài)，s′表示專家系統(tǒng)復(fù)檢之后給出的系統(tǒng)狀態(tài)，下角標(biāo)0和1分別指代未受攻擊和受到攻擊，則APT檢測器的虛警率pm和漏報率pf分別為

pm=Pr(s0|S1)，

(1)

pf=Pr(s1|S0).

(2)

(3)

(4)

以上Pr(·|·)為條件概率.

APT攻擊者和防御者所爭奪的云計算系統(tǒng)具有一定的價值，記為C，其大小取決于該系統(tǒng)對攻擊者和防御者而言的重要性.C本為防御者所有，如果博弈的結(jié)局是云計算系統(tǒng)處于受攻擊狀態(tài)，則攻擊者從防御者處奪走這部分價值.

2.3效用函數(shù)

在推導(dǎo)效用函數(shù)之前，先給出一個度量ES -APT檢測博弈性能的指標(biāo)——安全率的定義.

定義1. 安全率.一次博弈中，云計算系統(tǒng)處于未受攻擊狀態(tài)的時間在博弈總時長中所占的比率稱為安全率，記為R.

在ES -APT檢測博弈中，APT防御者的效用由4部分組成：

1) 安全率帶來的收益；

2) 從設(shè)定的檢測時間間隔獲益，間隔越長，APT檢測器收集的信息越多，越有利于APT檢測器和專家系統(tǒng)做出正確判斷，GD表示單位時間的獲益；

3) 修復(fù)云計算系統(tǒng)所需的開銷CR；

4) 如果博弈的最后已生效的APT攻擊沒有被發(fā)現(xiàn)，防御者輸?shù)粼朴嬎阆到y(tǒng)價值C.

攻擊者的效用由3部分組成：

1) 安全率帶來的損失；

2) 發(fā)動攻擊時要付出的攻擊成本CA；

3) 如果博弈的最后APT攻擊生效且沒有被阻斷，攻擊者獲得云計算系統(tǒng)價值C.

為了確定ES -APT檢測博弈中防御方的效用函數(shù)uD和攻擊方的效用函數(shù)uA，我們將所有參數(shù)進行歸一化處理，并分類討論博弈中所有可能出現(xiàn)的情況.從APT檢測器準確性的角度，所有情況可歸為四大類：檢測器正確判定系統(tǒng)未受攻擊、錯誤判定系統(tǒng)受到攻擊、正確判定系統(tǒng)受到攻擊和錯誤判定系統(tǒng)未受攻擊.

1) 檢測器正確判定系統(tǒng)未受攻擊

如圖2中序號為1(即字母下角標(biāo)為1)的博弈所示，該情況出現(xiàn)的前提條件是y+z>x，即在檢測器檢測之前，攻擊尚未生效，其出現(xiàn)的概率是1-pf.此時云計算系統(tǒng)的安全率為1，防御者不需要進行修復(fù)操作，且不會失去C.這種情況下博弈雙方的效用分別為

uD1(x,y)=1+xGD,

(5)

uA1(x,y)=-1-I(y≤x)CA,

(6)

其中,I(·)為指示函數(shù)，括號內(nèi)條件為真時I(·)=1，否則I(·)=0.

2) 檢測器錯誤判定系統(tǒng)受到攻擊

圖2中序號為2的博弈是檢測器錯誤判定系統(tǒng)受到攻擊時，攻防雙方可能的交互情況之一.檢測器錯誤判定系統(tǒng)受攻擊的前提條件是y+z>x，概率為pf.檢測器告警后，專家系統(tǒng)進行復(fù)驗.考慮到專家系統(tǒng)復(fù)驗耗時較長，在其完成驗證之前，原本沒有生效的APT攻擊可能會生效，所以云計算系統(tǒng)的安全率為min((y+z)(x+t)).

(7)

(8)

3) 檢測器正確判定系統(tǒng)受到攻擊

如圖2中序號為3的博弈所示，檢測器正確判定系統(tǒng)受到攻擊的前提條件是y+z≤x，即在檢測器檢測之前，攻擊已經(jīng)生效，其出現(xiàn)的概率是1-pm.此時檢測器會觸發(fā)專家系統(tǒng)進行驗證，考慮到專家系統(tǒng)的響應(yīng)時間，云計算系統(tǒng)的安全率為(y+z)(x+t).專家系統(tǒng)認同檢測器的可能性是1-，否定的可能性是.如果攻擊被確認，防御者將修復(fù)云計算系統(tǒng)；反之，云計算系統(tǒng)得不到修復(fù)，其價值被攻擊者奪走.該情況下防御者和攻擊者的效用分別為

(9)

(10)

4) 檢測器錯誤判定系統(tǒng)未受攻擊

圖2中序號為4的博弈展現(xiàn)的是檢測器錯誤判定系統(tǒng)未受攻擊的情況，其前提條件是y+z≤x，概率為pm.此時APT攻擊被APT檢測器漏掉，云計算系統(tǒng)被攻擊者控制，攻防雙方的效用為

(11)

(12)

綜合以上分析可知，防御者的效用函數(shù)為

uD(x,y)=I(y+z>x)[(1-pf)uD1+pfuD2]+
I(y+z≤x)[(1-pm)uD3+pmuD4],

(13)

攻擊者的效用函數(shù)為

uA(x,y)=I(y+z>x)[(1-pf)uA1+pfuA2]+
I(y+z≤x)[(1-pm)uA3+pmuA4].

(14)

將式(5)(7)(9)(11)代入式(13)，并整理可得:

uD(x,y)=xGD+I(y+z>x){1-pf+

(15)

同樣地，將式(6)(8)(10)(12)代入式(14)，并整理可以得到攻擊者的效用函數(shù)如下：

uA(x,y)=I(y+z>x){(1-pf)[-1-

(16)

類似地，還可以得到安全率的表達式，如式(17)所示：

(17)

3 混合策略ES -APT檢測博弈

混合策略博弈是純策略博弈的擴展.運用混合策略可以增加博弈雙方行為的不確定性，增加對方準確預(yù)測己方行動的難度.本節(jié)詳細介紹混合策略ES -APT檢測博弈中攻防雙方的策略空間，求解混合策略均衡，并通過數(shù)值分析研究混合策略下ES -APT檢測方案的可行性和博弈的性能.

在混合策略ES -APT檢測博弈中，APT防御者從策略空間{mM}1≤m≤M中選擇檢測時間間隔x，APT攻擊者從策略空間{nN}0≤n≤N中選擇攻擊時間間隔y.混合策略是指攻防雙方各自按照一定概率，隨機地從策略空間中選擇一種純策略作為實際的行動[18].因此，防御者的混合策略為α=[αm]1≤m≤M，其中αm=Pr(x=mM)是將APT檢測時間間隔設(shè)為x的概率；攻擊者的混合策略為β=[βn]0≤n≤N，其中βn=Pr(y=nN)是將攻擊時間間隔設(shè)為y的概率.由混合策略的定義知

一般而言，不論防御者還是攻擊者都無法準確估算APT攻擊發(fā)起之后，需要多長時間生效，亦即z是一個隨機值.為簡便起見，以下把z看作常數(shù).

混合策略博弈中的效用函數(shù)為期望效用函數(shù).通過對式(15)和式(16)應(yīng)用期望效用函數(shù)理論，得到防御者與攻擊者的期望效用函數(shù)分別為

(18)

(19)

3.1混合策略納什均衡

用(α*,β*)表示混合策略ES -APT檢測博弈的納什均衡，有:

(20)

定理1. 如果式(21)的解存在，則式(21)中(α*,β*)是混合策略ES -APT檢測博弈的納什均衡:

(21)

其中,1≤m≤M，0≤n≤N，1ζ是一個ζ維的元素全為1的列向量.

證明. 式(20)是一個有約束條件的優(yōu)化問題，其拉格朗日函數(shù)LD表示為

(22)

其卡羅什-庫恩-塔克(Karush-Kuhn-Tucker, KKT)條件為

(23)

將式(23)與式(18)和式(22)聯(lián)立可得:

(24)

求解式(24)即可得到式(21)中的第1行.類似地，運用KKT條件可求得式(21)中的第2行.證畢.

為了使以上結(jié)論更為直觀，我們在引理1中討論了ES -APT檢測博弈混合策略均衡的一個簡單實例.

引理1.M=2，N=1時，當(dāng)且僅當(dāng)條件I1和I2都成立時，式(25)和式(26)給出的(α*,β*)是混合策略ES -APT檢測博弈的唯一納什均衡.

(25)

(26)

條件是:

或：

(27)

或：

(28)

將式(15)(16)代入式(25)(26)求解知，當(dāng)M=2，N=1時，混合策略ES -APT檢測博弈有唯一納什均衡，由式(29)給出：

(29)

其中:

3.2數(shù)值分析

本節(jié)用數(shù)值分析對混合策略ES -APT檢測博弈的性能進行研究，主要關(guān)注3個指標(biāo)：APT防御者的效用、APT攻擊者的效用和云計算系統(tǒng)的安全率.首先研究專家系統(tǒng)不參與決策時，APT檢測器的虛警率、漏報率對以上3個指標(biāo)的影響；然后分析專家系統(tǒng)參與決策時檢測器虛警率、漏報率的影響；最后討論專家系統(tǒng)的響應(yīng)時間、虛警率和漏報率對以上指標(biāo)的影響.為了達到更好的分析效果，本文選取的基本參數(shù)是GD=0.24,C=0.25,CR=0.1,CA=0.82.

Fig. 3 Performance of the static game over error rates of the APT detector without ES圖3 無專家系統(tǒng)時APT檢測器錯誤率對靜態(tài)博弈的影響

圖3顯示了專家系統(tǒng)不參與檢測時，APT檢測器的漏報率和虛警率對混合策略ES -APT檢測博弈性能的影響.如圖3(a)所示，采用混合策略時，APT防御者的效用不受APT檢測器的漏報率影響，但隨檢測器虛警率的增加而降低，如檢測器虛警率從0增加到1時，防御者效用從1.12減少到1.02.圖3(b)表明APT攻擊者的效用不受檢測器虛警率影響，而漏報率的上升能讓攻擊者效用增加，如檢測器的漏報率從0增加到1時，攻擊者的效用增加10.3%.APT檢測器的漏報率和虛警率對云計算系統(tǒng)安全率的影響如圖3(c)所示.當(dāng)漏報率降低、虛警率增加時，安全率降低，尤其當(dāng)漏報率接近0、虛警率接近1時，云計算系統(tǒng)的安全率急劇下降.這是因為，對攻擊者而言，虛警率越高，APT攻擊發(fā)動之后、生效之前，因檢測器虛警而被防御者阻斷的可能性越大.為了盡可能多地竊取信息，APT攻擊者必須加快攻擊速度，讓攻擊盡可能在被檢測器正確發(fā)現(xiàn)之前生效，從而更長時間控制系統(tǒng).對防御者而言，漏報率接近于0、虛警率接近于1意味著幾乎每次檢測時檢測器都會告警.為了減少虛警出現(xiàn)的次數(shù)，防御者會延長檢測周期.也就是說，在漏報率低虛警率高的情況下，攻擊者會加快攻擊速度，而防御者會延長防御周期，從而導(dǎo)致安全率急劇下降.

Fig. 4 Performance difference of the static game over error rates of the APT detector between with and without ES圖4 有無專家系統(tǒng)情況下APT檢測器錯誤率對靜態(tài)博弈影響之差

Fig. 5 Performance of the static game over the response time and error rates of ES圖5 專家系統(tǒng)性能對靜態(tài)博弈的影響

綜上所述，引入專家系統(tǒng)進行二次檢測，可以緩解APT檢測器的虛警和漏報給防御者效用以及云計算系統(tǒng)安全率造成的負面影響，提升防御者效用并減少APT檢測器的虛警和漏報造成的安全率的波動.而為了使專家系統(tǒng)發(fā)揮更好的作用，必須提升專家系統(tǒng)的性能，減少響應(yīng)時間，降低其漏報率和誤報率.因此，在與APT攻擊者的對抗中，專家系統(tǒng)必須不斷學(xué)習(xí)，擴充知識庫，對APT攻擊者的攻擊手段進行深入研究，關(guān)注并預(yù)測新的攻擊方法，盡可能先于攻擊者發(fā)現(xiàn)0day漏洞等.

4 動態(tài)ES -APT檢測博弈

APT攻擊者為了達到攻擊目的會不斷嘗試新的方法.因此，在實際中很多APT攻擊者的攻擊模型是未知的，其攻擊成本、攻擊生效時間等因素也不確定.為了應(yīng)對這種情況，我們用動態(tài)ES -APT檢測博弈來分析攻擊者與防御者之間的行為交互，提出一種基于強化學(xué)習(xí)算法，即贏或加速學(xué)習(xí)策略爬山算法(win or learn faster policy hill-climbing, WoLF-PHC)的最優(yōu)決策方案.在動態(tài)ES -APT檢測博弈中，防御者用基于WoLF-PHC的最優(yōu)決策方案來選擇防御策略.

策略爬山(policy hill-climbing, PHC)算法是Q-learning算法的擴展，提升了其學(xué)習(xí)效率.而WoLF-PHC則通過將贏或加速學(xué)習(xí)(win or learn faster, WoLF)原則用到PHC算法上，進一步提高了算法的收斂性[19].WoLF-PHC和Q-learning一樣是離策略算法，不依賴系統(tǒng)模型，且都通過式(30)更新質(zhì)量矩陣

(30)

其中,s是狀態(tài)，x是防御者的動作，uD表示防御者的瞬時效用.在動態(tài)ES -APT檢測博弈中，用攻擊的整個周期表示系統(tǒng)狀態(tài)，即s=y+z.最大Q值通過ε-greedy算法選取，即:

(31)

其中,ε∈(0,1)，通常是一個很小的正數(shù)，M是防御者策略空間中動作的總個數(shù).

基于WoLF-PHC的動態(tài)ES -APT檢測方案見算法1.

算法1. 基于WoLF-PHC的動態(tài)ES -APT檢測.

2) fork=1,2,3,… do

3) 更新狀態(tài)s，s=y+z；

4) 對應(yīng)s，以概率π(s,x)選擇動作x；

5) 依據(jù)x對云計算系統(tǒng)進行檢測；

6) 觀察uD和接下來的狀態(tài)s，更新狀態(tài)s；

7) 依據(jù)式(30)更新Q；

9) 通過π(s,x)←π(s,x)+Δ更新π(s,x),

10) end for

我們用基于Q-learning的動態(tài)ES -APT檢測方案[20]作為對照，如算法2所示.

算法2. 基于Q-learning的動態(tài)ES -APT檢測.

1) 初始化所有參數(shù)：μ=0.75,γ=0.7,ε=0.1,y+z=0,Q(s,x)←0；

2) fork=1,2,3,… do

3) 更新狀態(tài)s，s=y+z；

4) 通過式(31)選擇動作x；

5) 依據(jù)x對云計算系統(tǒng)進行檢測；

6) 觀察uD和接下來的狀態(tài)s，更新狀態(tài)s；

7) 依據(jù)式(30)更新Q；

8) end for

5 模擬仿真

(32)

仿真結(jié)果如圖6所示.圖6(a)展示的是防御者的效用隨實驗方案運行次數(shù)的變化.基于WoLF-PHC動態(tài)檢測方案，防御者的效用在15次之后收斂到1.125左右，400次的平均效用約為1.116.當(dāng)采用Q-learning方法時，防御者的效用在35次之后收斂到1.075左右，400次的平均效用約為1.064.Q-learning方法的平均效用比WoLF-PHC方法低大約4.9%，收斂速度也明顯較慢.基于ε-greedy算法，防御者的效用一直維持在0.995上下，其平均效用比WoLF-PHC低10.8%.

從圖6(b)可知，當(dāng)防御者基于WoLF-PHC部署動態(tài)的ES -APT檢測方案時，云計算系統(tǒng)的安全率從0.860逐步上升到1，在算法運行大約18次時收斂，整個400次運行過程中安全率的平均值為0.994.基于Q-learning檢測算法，安全率最終能與WoLF-PHC達到同樣水平，400次的平均值為0.993，但是Q-learning算法收斂較慢，在大約30次左右收斂.而基于ε-greedy算法，安全率一開始就能上升到0.90左右，但最終也只能維持在這個水平，其400次的平均值比WoLF-PHC檢測方案低約10%.

Fig. 6 Performance of the dynamic ES -APT detection game圖6 動態(tài)ES -APT檢測博弈性能圖

從圖6結(jié)果可以看出，基于WoLF-PHC的動態(tài)ES -APT檢測方案比Q-learning的收斂性好，而且與2種對照方案相比，能明顯提高防御者的效用和云計算系統(tǒng)的安全率.

6 總結(jié)

本文提出了一種基于專家系統(tǒng)的APT檢測方案，并在此基礎(chǔ)上建立了2種ES -APT檢測博弈，一個靜態(tài)博弈和一個動態(tài)博弈，求解了靜態(tài)博弈的混合策略均衡，并用數(shù)值分析研究了其性能.數(shù)值分析結(jié)果顯示，雖然專家系統(tǒng)的響應(yīng)時間和虛警、漏報率對云計算系統(tǒng)的安全率以及攻擊者的效用有一定的負面影響，但總體來說，基于專家系統(tǒng)的APT檢測方案能夠消除因APT檢測器的不準確性造成的安全率和防御者效用的降低.通過提升專家系統(tǒng)的性能，可以更好地改善云計算系統(tǒng)的安全性能.在動態(tài)博弈中，基于WoLF-PHC算法設(shè)計了一種ES -APT動態(tài)檢測方案，并與基于Q-learning和ε-greedy算法的方法進行了比較.仿真結(jié)果表明：在ES -APT動態(tài)博弈中，基于WoLF-PHC的ES -APT動態(tài)檢測方案能讓防御者優(yōu)化其策略，達到更好的防御效果.與Q-learning相比，WoLF-PHC能讓防御者更快地獲得其最優(yōu)策略.較之Q-learning和ε-greedy，WoLF-PHC能提高防御者的效用，同時也讓云計算系統(tǒng)的安全率更高.

[1] Cole E. Advanced Persistent Threat: Understanding the Danger and How to Protect Your Organization[M]. Rockland, Massachusetts: Syngress Publishing, 2012: 11-36

[2] Coombs M J, Bolc L. Expert System Applications[M]. Berlin: Springer, 1988: 55-63

[3] Lin Wangqun, Wang Hui, Liu Jiahong, et al. Research on active defense technology in network security based on non-cooperative dynamic game theory[J]. Journal of Computer Research and Development, 2011, 48(2): 306-316 (in Chinese)

(林旺群, 王慧, 劉家紅, 等. 基于非合作動態(tài)博弈的網(wǎng)絡(luò)安全主動防御技術(shù)研究[J]. 計算機研究與發(fā)展, 2011, 48(2): 306-316)

[4] Tian Youliang, Peng Changgen, Ma Jianfeng, et al. Game-theoretic mechanism for cryptographic protocol[J]. Journal of Computer Research and Development, 2014, 51(2): 344-352 (in Chinese)

(田有亮, 彭長根, 馬建峰, 等. 安全協(xié)議的博弈論機制[J]. 計算機研究與發(fā)展, 2014, 51(2): 344-352)

[5] He Yunhua, Sun Limin, Yang Weidong, et al. A game theory-based analysis of data privacy in vehicular sensor networks[J]. International Journal of Distributed Sensor Networks, 2014, 10(1): 1-14

[6] He Yunhua, Sun Limin, Yang Weidong, et al. Privacy preserving for node trajectory in VSN: A game-theoretic analysis based approach[J]. Journal of Computer Research and Development, 2014, 51(11): 2483-2492 (in Chinese)

(何云華, 孫利民, 楊衛(wèi)東, 等. 基于博弈分析的車輛感知網(wǎng)絡(luò)節(jié)點軌跡隱私保護機制[J]. 計算機研究與發(fā)展, 2014, 51(11): 2483-2492)

[7] Wang Yichuan, Ma Jianfeng, Lu Di, et al. Game optimization for internal DDoS attack detection in cloud computing[J]. Journal of Computer Research and Development, 2015, 52(8): 1873-1882 (in Chinese)

(王一川, 馬建峰, 盧笛, 等. 面向云環(huán)境內(nèi)部DDoS攻擊檢測的博弈論優(yōu)化[J]. 計算機研究與發(fā)展, 2015, 52(8): 1873-1882)

[8] Marten V D, Ari J, Oprea A, et al. Flipit: The game of stealthy takeover[J]. Journal of Cryptology, 2013, 26(4): 655-713

[9] Zhang Ming, Zheng Zizhan, Shroff N B. A game theoretic model for defending against stealthy attacks with limited resources[C] //Proc of the 6th Decision and Game Theory for Security. Berlin: Springer, 2015: 93-112

[10] Farhang S, Grossklags J. Flipleakage: A game-theoretic approach to protect against stealthy attackers in the presence of information leakage[C] //Proc of the 7th Decision and Game Theory for Security. Berlin: Springer, 2016: 195-214

[11] Xu Dongjin, Li Yanda, Xiao Liang, et al. Prospect theoretic study of cloud storage defense against advanced persistent threats[C] //Proc of the 60th Global Communications Conf. Piscataway, NJ: IEEE, 2017: 1-6

[12] Xiao Liang, Xu Dongjin, Xie Caixia, et al. Cloud storage defense against advanced persistent threats: A prospect theoretic study[J]. IEEE Journal on Selected Areas in Communications, 2017, 35(3): 534-544

[13] Xu Dongjin, Xiao Liang, Mandayam N B, et al. Cumulative prospect theoretic study of a cloud storage defense game against advanced persistent threats[C] //Proc of the 36th IEEE Int Conf on Computer Communications (IEEE INFOCOM WKSHPS 2017). Piscataway, NJ: IEEE, 2017

[14] Hu Pengfei, Li Hongxing, Fu Hao, et al. Dynamic defense strategy against advanced persistent threat with insiders[C] //Proc of the 34th Int Conf on Computer Communications (IEEE INFOCOM 2015). Piscataway, NJ: IEEE, 2015: 747-755

[15] Feng Xiaotao, Zheng Zizhan, Hu Pengfei, et al. Stealthy attacks meets insider threats: A three-player game model[C] //Proc of the 34th Military Communications Conf (IEEE MILCOM 2015). Piscataway, NJ: IEEE 2015: 25-30

[16] Abass A, Xiao Liang, Mandayam N B, et al. Evolutionary game theoretic analysis of advanced persistent threats against cloud storage[J]. IEEE Access, 2017, 5(1): 8482-8491

[17] Xiao Liang, Li Yan, Han Guoan, et al. Phy-layer spoofing detection with reinforcement learning in wireless networks[J]. IEEE Trans on Vehicular Technology, 2016, 65(12): 10037-10047

[18] Osborne M J, Rubinstein A. A Course in Game Theory[M]. Cambridge, Massachusetts: MIT Press, 1994: 29-40

[19] Bowling M, Veloso M. Rational and convergent learning in stochastic games[C] //Proc of the 33rd Int Joint Conf on Artificial Intelligence. San Francisco: Margan Kaufmann, 2001: 1021-1026

[20] Hu Qing, Lü Shichao, Shi Zhiqiang, et al. Defense against advanced persistent threats with expert system for Internet of things[G] //LNCS 10251: Proc of the 12th Int Conf on Wireless Algorithms, Systems, and Applications. Berlin: Springer, 2017: 326-337

AdvancedPersistentThreatsDetectionGamewithExpertSystemforCloud

Hu Qing1,2, Lü Shichao1,2, Shi Zhiqiang1,2, Sun Limin1,2, and Xiao Liang3

1(SchoolofCyberSecurity,UniversityofChineseAcademyofSciences,Beijing100049)2(BeijingKeyLaboratoryofIOTInformationSecurityTechnology(InstituteofInformationEngineering,ChineseAcademyofSciences),Beijing100093)3(DepartmentofCommunicationEngineering,XiamenUniversity,Xiamen,Fujian361005)

Cloud computing systems are under threaten of advanced persistent threats (APT). It is hard for an autonomous detector to discover APT attacks accurately. The expert system (ES)can help to reduce detection errors via double-checking suspicious behaviors. However, it takes an extended period of time for the ES to recheck, which may lead to a defense delay. Besides, the ES makes mistakes too. In this paper, we discuss the necessity of the ES to participate in APT detection and defense for a cloud computing system by game theory, based on the consideration of miss detection rates and false alarm rates of both the APT detector and the ES. The ES -based APT detection method is designed, and the ES -APT game between an APT attacker and a defender is formulated. We derive its Nash equilibrium and analyze how the ES enhances the security of the cloud computing system. Also, the dynamic game is studied, in case that the APT attack model is unknowable. We present a reinforcement learning scheme for the cloud computing system with ES to get the optimal strategy. Simulation results show that, with the knowledge of the ES, both the defender’s utility and the cloud computing system’s security are improved compared with benchmark schemes.

advanced persistent threats (APT); cloud security; expert system (ES); game theory; reinforcement learning

TP393.08

HuQing, born in 1985. PhD candidate. Member of CCF. Her main research interests include advanced persistent threats and IOT security.

LüShichao, born in 1985. PhD candidate, engineer. Member of CCF. His main research interests include wireless communication systems security (lvshichao@iie.ac.cn).

ShiZhiqiang, born in 1970. PhD, senior engineer, PhD supervisor. Senior member of CCF. His main research interests include industrial control system security, cyber security, etc.

SunLiMin, born in 1966. PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include IOT security, cyber security, etc (sunlimin@iie.ac.cn).

XiaoLiang, born in 1980. PhD, professor, PhD supervisor. Senior member of CCF. Her main research interests include network security, wireless communications, smart grids, etc (Lxiao@xmu.edu.cn).

基于專家系統(tǒng)的高級持續(xù)性威脅云端檢測博弈

1 相關(guān)工作

2 系統(tǒng)模型

3 混合策略ES -APT檢測博弈

4 動態(tài)ES -APT檢測博弈

5 模擬仿真

6 總 結(jié)

6 總結(jié)