馮曉萌 孫秋野 王冰玉 高嘉文
隨著電力系統和通信技術的高度耦合[1?2],遠程攻擊者可以利用漏洞入侵信息網絡引起通信故障,進一步導致電力系統連鎖故障.近年來,針對電力系統的攻擊事件頻繁發生,如2019 年3 月,委內瑞拉的古里水電站遭到反派黑客的網絡攻擊.2019年7 月,美國紐約曼哈頓發生了大規模停電事故.因此,電力系統的網絡安全問題逐漸成為研究焦點.
現階段針對電力系統網絡攻擊的相關研究可以根據攻擊階段的不同,分為2 類: 第1 類是在侵入電力系統前,研究針對通信層的攻擊,即遠程攻擊者采取何種網絡攻擊方式入侵通信網絡.這類研究在計算機科學領域已經相對完善,一般采用攻擊樹模型[3]和復雜網絡理論兩種方法對不同種類的攻擊方法進行建模,如蠕蟲攻擊[4]、木馬攻擊和網絡監聽等.這類攻擊不考慮從通信網絡侵入后對電力系統造成的破壞.第2 類是在成功侵入后,研究針對電力層的攻擊,即攻擊者采用何種攻擊行為破壞電力系統.這類研究主要是圍繞如何篡改量測數據,從而躲避檢測機理,對電力系統造成更嚴重破壞展開.主要包括: 虛假數據注入攻擊(False data injection,FDI)[5?7]、負載重分配攻擊(Load redistribution,LR)[8]和拒絕服務攻擊[9]等.這類攻擊不考慮攻擊者利用通信設備上漏洞的難易程度和攻擊代價.上述兩類研究都相對獨立,不能將攻擊者如何侵入系統,和侵入后的攻擊行為兩個階段聯合為一個整體,實現跨空間攻擊過程.為了探索兩個階段攻擊行為的耦合過程,信息物理協同攻擊逐漸受到國內外學者關注.與傳統的網絡或物理攻擊相比,協同攻擊的特點是同時考慮(由于物理攻擊)對電力系統造成的破壞性,和(由于網絡攻擊)對通信數據造成的不準確性(篡改量測數據、開關狀態等)[10].協同攻擊的最新示例是2015 年12 月對烏克蘭電網的攻擊,該攻擊使幾臺斷路器(即物理攻擊)斷開,導致大約225 000 名客戶斷電.在攻擊過程中,針對電力客戶服務的分布式拒絕服務攻擊[11]和KillDisk 服務器擦除(即網絡攻擊)被用來掩蓋緊急情況并延長中斷時間[12].
現階段對信息物理協同攻擊的研究處于初步階段,主要分為2 類: 1) 攻擊者能夠通過網絡攻擊對物理攻擊行為進行遮掩,欺騙檢測機制.例如,通過FDI 攻擊,修改線路的開斷信息和量測數據,從而掩蓋和誤導調度中心錯誤指令.2)攻擊者通過分析信息物理耦合網絡的特征和雙向跨空間級聯故障傳播特性,對耦合系統存在的漏洞進行分析,制定更有效的攻擊方案[13?15].文獻[16]提出了一種電力信息物理協同攻擊分析模型,側重于考慮攻擊者和調度中心的交互關系.文獻[17?18]分別分析了在可觀察和不可觀察條件下攻擊者通過改變拓撲信息來掩蓋物理攻擊行為.文獻[19]提出了一種在攻擊者通過修改PMU (Phasor measurement unit)的量測數據后引起電力系統的狀態估計結果出現誤差的情形下,電力系統的脆弱性評判指標.文獻[20]提出了攻擊者共謀理論,某通信節點的量測數據和與它鄰接的其他通信節點,即共謀者的數據同時被篡改后,更容易避開檢測裝置的檢測機制.
當黑客進行協同攻擊時會根據電力系統的網絡結構、設備特性和破壞情況反饋制定最優的攻擊策略.為了解決求最優解時出現的維度災難、不連續可微函數不可解等問題,引入了人工智能算法[21].因為電力信息物理系統在信息物理協同攻擊下的系統運行狀態符合馬爾科夫決策過程,提出了一種基于Q 學習方法求解的最佳攻擊策略[22].文獻[19]使用馬爾科夫決策過程來模擬在電力信息物理系統中的攻擊風險傳播過程,并分析攻擊者的攻擊路線選擇策略,以獲得最佳的回報效益.此外,從攻防雙方的角度出發,文獻[23?24]建立了基于隨機博弈的攻防模型,能夠給防御資源分配起到指導作用.
類比電力系統中的級聯故障[25],通信網絡中故障的傳播也具有一定的拓撲傳染特性[13].上述研究均假設攻擊者能夠直接對從PMU 采集到的量測數據進行篡改,沒有考慮信息層故障在通信網絡中擴散到指定的量測設備這一階段的拓撲傳染機制,未實現跨空間協同攻擊的耦合建模.因此,本文主要工作如下: 1)本文提出了基于馬爾科夫決策過程的協同攻擊模型,其在傳統的虛假數據注入攻擊的上層首次引入了蠕蟲傳播模型(Susceptible infected recovered model,SIR),實現了通信?電力雙層攻擊的耦合建模.2)在信息層采用漏洞評分標準(Common vulnerability scoring system,CVSS)中的 “漏洞利用難度”字段量化攻擊者對攻擊的難易程度,即攻擊成本.在物理層依據全量測狀態估計的誤差值評定該攻擊行為對電力系統造成的破壞程度,即攻擊收益.3)使用Q 學習方法對該模型下攻擊者最優協同攻擊策略進行求解,目標函數定義為破壞電力設備的攻擊收益和入侵通信層設備的攻擊成本比值的積累獎勵.4)使用網絡模擬器(Network simulator 2,NS2)和MATLAB 進行通信8 節點?電力IEEE 14 節點的聯合仿真實驗,模擬攻擊者跨空間滲透的攻擊過程,并分析了在該最優攻擊策略下相關設備被攻擊的可能性.仿真結果表明,較單層攻擊模式,本文所提的協同攻擊模型攻擊破壞性更強.本文進一步分析了最優攻擊策略下相關設備被攻擊的可能性,能更有效地發現電網薄弱環節.
近年來數例典型電網破壞事件[12, 26]的流程可以概括為: 遠程黑客利用PC 機或可編程邏輯控制器(Programmable logic controller,PLC)中的系統漏洞注入病毒;該病毒在通信設備中級聯滲透;擴散到指定功能的通訊設備或調度中心;隨后通過修改量測數據和控制命令使得電力系統癱瘓.
如圖1 所示,電力信息物理系統由電力系統網架結構和通信網絡組成.量測裝置PMU 將潮流和線路開關狀態信息傳輸給由通信設備(如PLC)組成的通信網絡,接著傳輸至調度中心.調度中心利用狀態估計篩查量測數據,并進行潮流調度.基于此,本文提出了一種信息物理協同攻擊模型,該模型實現了跨空間雙層攻擊的耦合建模,在上層通信層攻擊模型建立為蠕蟲傳播模型,下層電力層采用虛假數據注入的攻擊方式.通信?電力兩層之間以電力母線上裝置的量測裝置PMU與PLC 等通信設備相連接.該協同攻擊的攻擊原理為: 遠程攻擊者發起蠕蟲病毒感染通信網絡中的PLC 等通訊設備.一旦感染成功,被感染的通訊設備所收集到的PMU 量測數據有一定概率被注入虛假數據,進而導致電力系統狀態估計值出現誤差,從而引發連鎖故障.

圖1 電力信息物理協同攻擊示意圖Fig.1 Diagram of electrical cyber-physical cooperative attacks
由此,本節首先對通信層和物理層攻擊模式分層建模.然后根據網絡攻擊從信息系統滲透到物理系統的跨空間傳播方式,提出了一種基于馬爾科夫過程的協同攻擊模型.為了便于表述,在下文中,將通信網絡(C-net)中負責傳輸PMU 量測數據的通信設備定義為信息節點C-n,節點數目為Nc.將電力網絡(G-net)中的母線抽象定義為電力節點Bus-n,節點數目為Ng.
本節使用SIR 傳染病模型對蠕蟲病毒在通信層設備間的傳播機制進行建模,并采用CVSS 漏洞評分標準來定義攻擊者成本函數.
1.1.1 蠕蟲傳播模型
首例工業控制蠕蟲病毒Stuxnet[27]被證實能在邊緣通信設備,如PLC 中單獨傳播,不需要借助任何PC 機.文獻[4]對工控網絡中PLC 病毒傳播機理進行建模,但僅分析了病毒在信息設備的傳播機理.文獻[28]使用元胞自動機建模定性分析了電力信息系統中信息安全風險跨空間傳播的基本原理,但并沒有給出具體模型.本文采用SIR 傳染病模型對蠕蟲病毒在電力通信網絡中的傳播機理進行建模.在該模型下通信設備i的狀態有3種: 1)易感染態 (S): 易感染態也是正常狀態,處于該狀態的設備上存在安全漏洞,但還沒有被感染節點掃描到.2)感染態(I): 此類設備已經成為蠕蟲節點,將會掃描與它拓撲相連的其他易感染態節點并將其感染.3)免疫態(R): 此類節點的安全漏洞已經被修復,在該狀態下對蠕蟲節點的擴散免疫.通信網絡中3種節點的狀態轉移過程如圖2 所示,一旦某通信設備被感染成為蠕蟲節點,那么攻擊者可以獲取該設備的權限,對該設備存儲和傳輸的PMU 量測數據進行篡改.

圖2 通信網絡的SIR 蠕蟲擴散模型狀態轉換圖Fig.2 SIR worm diffusion model state transition diagram of the cyber network
如圖2 所示,通信網絡的設備狀態轉變和前一時刻狀態的關聯度較高.基于本模型的各個通信設備i從t時刻的狀態到t+1 時刻的狀態的狀態轉移概率為

其中,通信設備i在t時刻為易感染態(S)且t+1時刻為感染態(I)時,狀態轉移概率為,其他同理.該轉移概率與通信網絡當前的拓撲結構,數據包傳輸情況以及各個設備當前的感染情況有關.其中拓撲結構與網絡中節點的度有關,本文將定義為信息節點i的度,表示該節點與個信息節點鄰接.第i個信息節點在t時刻狀態轉移概率計算式為

其中,|Θi|代表與信息節點i相連接的蠕蟲節點的個數.η是蠕蟲病毒節點可以在1 s 內掃描的鄰接設備的數量,該參數受限于掃描方法的性能和網絡帶寬.在理想的情況下,一般取實際網絡帶寬的上限.本節假設在同一個通信網絡中全網蠕蟲節點的值相同. ?t表示掃描周期,這里設一般取為秒級.β代表通信設備掃描到一次之后被成功感染的概率.?代表從免疫態(R)到易感染態(S)的恢復率,該參數是由病毒實時更新速度和補丁失效情況決定.同理,ν代表通信設備狀態從感染態(I)轉移到免疫態(R)的移除率,該參數是由漏洞補丁的更新速度和感染區域隔離情況等決定.
在實際情形中,攻擊者通過監聽和流量監測等手段并不能完全掌握觀測到整個信息層設備的狀態,只能掌握部分可觀的網絡結構、蠕蟲節點的總數量和被監聽的節點的連接信息,不能掌握正常節點和蠕蟲節點的拓撲關聯信息.下面對|Θi|進行估算,進而求解狀態轉移概率.本文根據已知參數估計通信網絡的平均度估計各個信息節點的鄰接情況.
通過攻擊者檢測到的相關信息,預估計出的度為k的信息節點的數為其中蠕蟲節點的個數為表示該網絡中的度分布,即節點度的散布情況.也就是說,在網絡中隨機抽取某信息節點的度是k的概率為λc(k).令?k?c代表平均度,可計算為


由此,|Θi|可以表示為

在該模型下可以模擬蠕蟲病毒在通信網絡中的傳播機理.在這種動態的狀態轉化過程中,各個通信設備的攻擊成本也隨著狀態轉移概率動態變化.
1.1.2 攻擊者成本函數
攻擊者的攻擊成本與設備主機上的漏洞的利用難度成正比.某一通信設備的攻擊成本由該設備上最薄弱的漏洞利用難度決定.本文參考漏洞評估系統(CVSS)中網絡漏洞評價指標的 “利用復雜性”分數,對漏洞難度量化.“利用復雜性”值越大,該漏洞被利用的難度就越大.此外,通信設備中的相關漏洞參數由工業互聯網安全響應數據庫[20]中提供.攻擊者在t時刻攻擊第i個通信設備的攻擊成本為


其中,?V(t) 代表暴露給攻擊者的掃描目標集,即攻擊者可以通過當前信息網絡的滲透狀態能夠選擇的下一個階段攻擊的目標節點的集合.本文使用動態攻擊圖G=(?V(t),?E(t)) 來記錄攻擊者的掃描目標集和滲透路徑.?E(t) 代表攻擊者掌握的當前掃描目標集能夠利用的滲透路徑.攻擊圖節點集?V(t)和邊集?E(t) 的初值為攻擊者在最開始時能利用的掃描網絡.當蠕蟲病毒掃描網絡時,只能感染掃描集中的設備.一旦某設備i被感染,那么與其相鄰的節點j,即滿足lc,ij=1,會被加入?V(t),見式(17).同時,節點i和j的連接線將被添加到?E(t) 中.每一次攻擊結束后,更新整個動態攻擊圖的拓撲.
本節定義了電力系統全量測狀態估計遭受FDI攻擊后的錯誤估計結果和原始估計結果的均方誤差(Root mean squared error,RMSE)作為攻擊者攻擊回報函數.分析了攻擊者在篡改量測數據時,要同時更新共謀者的相關數據,以此躲避檢測器檢測機理.
1.2.1 電力系統的FDI 攻擊
無論攻擊者對信息層設備的滲透嚴重程度如何,其最終目標都是通過對量測裝置、相關的控制設備和通信網絡注入錯誤數據,進而導致電力系統狀態估計器產生錯誤的狀態估計結果,最終對電力系統相關應用業務造成危害.
本文采用電力系統全量測狀態估計方法[29],該方法中電力系統狀態估計的量測值包括SCADA量測值和PMU 量測值.從攻擊動機方面,相比于SCADA 量測數據,PMU 量測量誤差更小,精度更高,還包括獨有的相角量測數據,具有很高的攻擊價值.從攻擊難度方面,考慮電力系統調度的分區機制,SCADA 在一區,防御最嚴密,攻入難度較大,而與PMU 量測量相關的通信設備由于在終端,攻入難度相對較小.綜上,PMU 量測量更容易成為攻擊者的攻擊目標[30?31].基于此,針對全量測狀態估計方法的電力系統虛假數據注入攻擊過程如下:
步驟 1.首先使用傳統的狀態估計模型求解,即使用SCADA 量測數據計算加權最小二乘估計方法求解狀態估計結果x(1)=[θ,V]T.
步驟 2.引入PMU 的量測值進行全量測狀態估計

1.2.2 “共謀” 躲避檢測機理
對電力節點j的第l個量測值zjl注入虛假數據后,該錯誤量測數據被檢測器檢測出的概率與檢測算法和該節點周圍鄰接節點的量測值被篡改的個數有關[33].該節點周圍鄰接節點的量測值被篡改的個數越多,對該節點注入惡意數據后被檢測出來的概率越小,即攻擊者共謀理論.本節對這個特性進行定性分析檢測器檢測概率,某個電力節點j數據被篡改后,被檢測出來的概率為
1.2.3 攻擊者回報函數
假設攻擊者某一次的攻擊行為成功地避開了檢測機制,將合適的虛假數據注入系統的量測裝置并且造成估計的狀態結果的偏差,則攻擊者可以通過本次攻擊行為獲得回報.對于某一個電力節點j的數據被篡改之后,攻擊者攻擊回報為電壓偏差和電流偏差,即

其中,Vxj,θxj分別是原始估計結果,而是錯誤的估計結果.針對整個電力網絡,攻擊者的攻擊收益為全局狀態估計結果的均方根誤差,即

攻擊者通過修改部分通信設備的量測值后,使得全局的狀態估計結果和原始估計結果產生的均方根誤差(RMSE)定義為攻擊者的回報函數.
本節通過馬爾科夫決策過程模擬惡意入侵者在動態環境中的攻擊行為和電力信息物理系統的狀態隨時間演變過程.在遭受協同攻擊后,電力信息物理系統在t時刻的系統狀態與t ?1 時刻的系統狀態具有很高的縱向關聯度.也就是說,在協同攻擊下電力信息物理系統的狀態演化過程具有馬爾科夫性,因而本節建立基于馬爾科夫決策過程的電力信息?物理雙層協同攻擊模型.
1.3.1 信息?物理脆弱性鄰接矩陣
如圖3 所示,定義電力信息?物理脆弱性鄰接矩陣L:


圖3 電力信息物理耦合網絡Fig.3 The network of cyber-physical power coupling system
其中,脆弱性鄰接矩陣的元素主要有4 類: 1)通信?通信節點連接矩陣Lc: 其中元素Lc,ij代表攻擊者可以利用信息節點i上的漏洞,并進一步感染信息節點j.2)通信?物理節點連接矩陣Lf:Lf,ij表示母線i和j之間的傳輸線從控制中心向物理設備發送控制命令的過程.3) 物理?物理節點連接矩陣Lg:Lg,ij表示電力母線i和j之間的傳輸線.4)物理?信息節點連接矩陣表示信息節點i可以接收并傳輸物理設備j的相關量測值.當節點i和節點j之間存在傳輸線路時,Lij=1.相反,當節點i和j之間不存在傳輸線路時,Lij=0.
1.3.2 信息?物理雙層耦合建模
如圖4 所示,當前攻擊者可模擬控制中心的功能,進行狀態估計求得獎勵回報值Reward,從而制定更精確更有效的攻擊策略[6,34].由此,針對該類攻擊者的攻擊策略所制定的防御策略更具有研究意義.基于此,本節給出在上文所提出的信息物理協同攻擊下跨空間滲透和反饋決策機理.首先,根據攻擊策略π發動攻擊行為Action,感染相關的通信層設備,使其從正常態S變為感染態I,并在通信網絡中擴散;然后,感染態的信息節點將從PMU中收集到的量測值zg(t) 進行篡改,使其變為錯誤的量測值(t);隨后,狀態估計器使用錯誤的量測值估計出錯誤的狀態量x(2)(t)+exz,計算狀態量的誤差,該誤差值作為獎勵回報值Reward 反饋給攻擊者;最后,攻擊者會根據相應的回報值調整接下來的攻擊行為,通過不斷地模擬,修正策略,最終得到使得目標函數最大的最優攻擊策略.其中,感染態的信息節點對鄰接的PMU 量測值注入虛假數據的函數為

圖4 信息物理協同攻擊下跨空間滲透和反饋決策機理Fig.4 Cross-space penetration and feedback decision mechanism under cyber-physical collaborative attack

由于PMU 的采樣頻率很高,大約為30 次/s,而大多數研究表明攻擊者攻擊間隔 ?t大約是秒級.為了解決注入假數據時刻和PMU 采樣時刻并不一致的問題,本文采用基礎的PMU 緩存的方法,即當攻擊者在t時刻對PMU 量測量注入假數據時,直接選取PMU 緩存器中距離t時刻最近時刻的存儲數據篡改.由此,這里根據攻擊間隔對原本離散的PMU 采樣值進一步離散化.
1.3.3 攻擊者的目標函數
攻擊者的最終目標為: 從初始狀態在時間T內采取策略π后,能夠獲得期望的Reward 值達到最大.即對電力網絡的破壞程度與對通信設備的利用成本的比值的累積和W達到最大,定義其最大值為

電力網絡的約束條件為


信息網絡的約束條件為

其中,B(t)表示攻擊者在時間t的攻擊收益,由式(16)求得.C(t) 表示攻擊者的攻擊成本,定義為C=,其中Ci(t) 由式(8)求得.式(20)~(23)是關于電力系統的約束條件. Γ 是智能電網拓撲的關聯矩陣,D是線路導納的對角矩陣.此外,式(24)和式(25)是網絡設備的限制.由于資源有限,在攻擊持續時間 [ 1:T] 期間只能執行n次攻擊動作,∥π∥0代表策略π的0 范數.攻擊者發動某次攻擊之后信息節點i的攻擊概率為,其概率和為1.該目標函數同時考慮了電力系統和通信網絡的耦合影響.
1.3.4 協同攻擊建模
本節將通信?電力協同攻擊建立成一個四元組(S,A,R,P)的馬爾科夫決策過程.
1) 狀態集合S={sI,sII,sIII: 表示馬爾科夫模型中的狀態集,其中任一狀態s由Nc個通信設備的狀態和Ng個物理設備的狀態兩部分組成,分別用sc和sg表示.sc表示通信設備的狀態,該狀態包括易感染態、感染態和恢復態,見式(1).
2) 動作集合A={aI,aII,aIII,···,aNA}: 表示攻擊者能夠采取攻擊的動作集,針對每一個系統狀態s均有響應的動作集φ(π(s)).攻擊者的某次攻擊動作a是對所有的通信設備的攻擊概率分布,即

其中,不在掃描集?V(t) 中的通信設備的攻擊概率為0.因為在t時刻攻擊者無法直接或間接的掃描到該設備,所以并不能對該設備上的漏洞加以利用.在每個攻擊時間,選擇目標節點i進行攻擊的概率為.
3)狀態轉移概率P: 從t時刻的狀態s轉換到t+1 時刻的狀態s′需要經過一個過渡狀態s?,該狀態表示該時間間隔內信息層設備的病毒擴散過程結束,但該攻擊效果還沒有滲透到物理設備.由式(18)可以得出s?→s′時信息層發生狀態改變后對物理層的滲透影響.處于狀態s的系統采取動作a后狀態轉移到s′的概率定義為P(s′|s,a).P(s′|s,a) 包括兩部分,分別是攻擊行為a造成的通信層設備感染概率P(s?|s,a)和電力層設備注入虛假數據后不能被檢測概率P(s′|s?).值得注意的是,這里s′僅與s? 有關,與a無關.

對受到攻擊者攻擊行為a之后的信息層設備狀態轉移概率和攻擊者攻擊概率求和,分別可由式(1)和式(32)求得

攻擊者發動攻擊后成功避開檢測裝置,即攻擊行為在電力層成功滲透的概率為

4)獎勵回報值R(s,a): 表示系統在t時刻s狀態時采取a行動后轉移到t+1 時刻s′狀態后整個[0,t+1] 時間段內的預期獎勵回報.其定義為這段期間內攻擊者的攻擊成本與攻擊收益的比值累積和,即

本文使用Q 學習求解所提的協同攻擊模型下的最優攻擊策略.首先采用Q-learning 的方法根據攻擊者目標函數求得最優策略.目標函數可由式(19)求得.最后分析在該最優攻擊策略下各個電力設備被攻擊的可能性,由此可以識別電力系統的薄弱節點.
基于Q-learning 的攻擊者最優攻擊路徑求解的基本思路為: 攻擊者根據Reward 獎勵值反饋或懲罰刺激下,逐步修正自己的攻擊策略π,最終求解在有限攻擊資源下最大化預期總獎勵的最優攻擊策略,即

其中,γ為折算因子,γ∈[0,1).由于信息網絡路由選擇概率和網絡延遲等原因,其中求解R(s,π(s))所需要的P(s?|s,a) 不能直接求得,見式(32).所以本文使用NS2 軟件通過蒙特卡洛方法模擬大量的信息網絡狀態過程求得.接下來,在s下最優攻擊策略π?可以通過下式計算:

為了避免局部最優的出現,許多隨機動作序列將被搜索以更新Q 表,在此期間,攻擊者動作序列最終會被修改為最佳攻擊策略,即

其中,α是學習速率.最終,該最優攻擊策略相當于攻擊者的一個預判行為,通過該預判行為可以分析哪些電力元件成為攻擊者攻擊目標的可能性更大,能夠對防御資源的分配起到指導作用.
在制定狀態?動作Q 矩陣時,由于變量之間存在關聯關系,所以許多系統狀態在整個探索過程中均未出現.如果使用傳統的Q 矩陣,隨著變量的增加,狀態集和動作集均會呈指數增長,最終導致運算速率過慢.因此,本文將傳統的靜態稀疏Q 矩陣轉換為動態更新的滿秩Q 矩陣,以加快運算速率并節約存儲空間.
在求得最優策略下,根據各個電力設備被攻擊的可能性,研究相應節點的特性,并指導相關的防御行為.因為馬爾科夫決策過程的狀態轉移概率存在隨機性,所以攻擊者采取相同的攻擊策略時,導致電力信息物理系統的破壞程度也存在隨機性[19].基于此,首先定義在馬爾科夫決策過程中系統狀態為sX時,狀態分布概率為

如圖5 所示,本模型在一個通信8 節點?電力IEEE14 節點的耦合系統上進行測試,該算例系統由兩部分組成,上層通信層由8 個通信設備C-n 組成,下層電力層是IEEE14 節點系統,該通信網絡服務于電力系統的狀態估計功能.當攻擊者發動遠程網絡攻擊時,病毒在通信網絡節點之間以蠕蟲形式傳播,將虛假數據注入通信設備.在該算例系統中,通信網絡使用NS2 軟件仿真,該軟件可以考慮更多實際情況,如鏈路阻塞、丟包等過程,仿真結果更加準確.該算例系統在參數設置時采用UDP 協議和自帶的單播路由協議,并選擇具有代表性的已經公開的PLC 機上的漏洞,相關的通信網絡參數見附錄A,其中移除率和恢復率分別為0.001和0.01(參見文獻[4]).為了使實驗結果更直觀,做出以下假設:

圖5 通信8 節點?電力IEEE14 節點耦合系統Fig.5 Cyber 8-Power IEEE14 node coupling system
假設 1.攻擊者動作集合均采用單層攻擊目標的動作,即攻擊目標為i時,
假設 2.電力節點和信息節點是一一對應的,電壓量測值允許的偏差為±5%,單次修改的虛假數據為原始量測值的±1%.
Q-learning 算法的每一個訓練周期都是從攻擊者發動攻擊開始.在算例系統上進行15 000 次仿真訓練,每次訓練都設置的時間間隔為T=3?t,其中攻擊間隔取值 ?t=1 s[19].其目標是尋找最優攻擊策略,以獲得最大的積累回報值.圖6(a)顯示了每次訓練中采用不同的攻擊策略的累積獎勵.整個搜索的過程可分為3 個部分: 起始狀況、局部最優和全局最優.截止到886 次測試時,攻擊者累積獎勵沒有顯著增加,保持其初始值為1.783.從887 次訓練開始,積累獎勵值從1.783 迅速增加到2.156,即找到了局部最優解.然后在3 962 次訓練時,累積獎勵從2.156 急劇增加到2.242,即找到全局最優解.3 963次訓練之后,獎勵值保持穩定并且仍然是最大值,這意味著確定了最優攻擊策略.同時,隨著訓練次數的增加,圖6(b)顯示經過大量訓練之后Q 值趨于恒定,這表明已經搜索到最優的攻擊策略.

圖6 每個訓練周期的累積收益Fig.6 Accumulated benefit for each trial
在本節的算例仿真中,攻擊者最優策略下的攻擊序列為C-n 4→C-n 2→C-n 1,映射到電力系統中為Bus 7→Bus 4→Bus 2,每一次攻擊行為之后蠕蟲病毒在通信網絡的擴散情況如圖7 所示.

圖7 最優攻擊策略下攻擊者的攻擊序列和病毒擴散序列Fig.7 The attack sequence and virus spreading sequence under the optimal attack strategy
圖8 橫坐標從左到右分別是初始狀況、攻擊者第1 次攻擊動作后、第2 次攻擊動作后和第3 次攻擊動作后.縱坐標表示在最優的攻擊策略下估計狀態值偏差的百分比,即式(16)的值.

圖8 在最優攻擊策略下電壓幅值差百分比Fig.8 Difference percentage in voltage amplitude under optimal attack strategy
可以推斷,如果只修改一個母線的測量值,則可能由檢測機制檢測并且能夠被校正;如果攻擊者同時修改某條母線及其相鄰母線的測量值,就會使估計器無法檢測到錯誤數據,從而使估計誤差變大.在該算例中電力母線4 受到攻擊的可能性最大,是系統中較為薄弱的環節,在防御者進行資源分配的時候應該優先考慮.
為了驗證本文提出的協同攻擊具有更好的攻擊效果,這里對網絡攻擊、物理攻擊和信息物理協同攻擊3種不同攻擊方法的攻擊效果進行仿真實驗,對比結果如表1 所示.其中,n表示發動攻擊的次數.網絡攻擊指的是攻擊者的目標是只考慮信息層攻擊成本最小,不考慮電力系統的破壞程度;物理攻擊指的是傳統的電力系統攻擊研究,即假設在通信層量測設備能夠無差別地被攻擊者篡改的條件下,攻擊者目標是對電力系統破壞程度最大.
從表1 可以看出,協同攻擊在3種攻擊方法中表現最好,物理攻擊次之,網絡攻擊最差.其中,π?表示當前攻擊者的最優攻擊策略,exz表示估計狀態值的誤差,f(?V) 表示電壓幅值偏差百分比的累積量,f(?θ) 表示電壓相位角的偏差百分比的累積量.需要注意的是,當攻擊者采用網絡攻擊時,每個物理節點的攻擊回報值設置為1.隨著攻擊時間的增加,協同攻擊的有效性變得更加顯著.由此可見,當攻擊者只考慮利用信息節點漏洞的利用能力時,雖然受感染的網絡節點數量在短時間內增加,但對電力網絡的影響很小.此外,單純的物理攻擊可能效果不佳,這是因為與某些關鍵電力節點相連接的通信網絡節點在通信層難以得到利用.

表1 考慮不同攻擊方法下的影響Table 1 Attack effect under different attack methods
表2 對比了在協同攻擊和物理攻擊下各個電力設備被攻擊的可能性,概率和為1.由分析可知,當考慮到通信層設備的影響時,與在通信網絡中更脆弱的信息設備相連接的電力設備的脆弱性顯著增加,且邊緣信息設備的脆弱性與該設備在通信網絡中連接度的大小和元件上存在的漏洞的利用難易程度相關.例如: 采用物理攻擊時,母線10 的脆弱性最高,因為連接母線10和母線9 的電力線具有比其他支路更小的電抗.當虛假數據注入母線10 的測量值時,狀態估計器的估計結果將具有更大的誤差.當采用協同攻擊時,母線2 (對應通信設備1)的量測值被篡改的概率急劇增加.主要有兩個原因:1)母線2 是電力網絡中較為關鍵的節點;2)通信設備C-n 1 在通信網絡中具有較大的連接度,當其被成功感染時,其相鄰網絡設備C-n 2和C-n 3 的攻擊概率將顯著增加.隨著時間的推進,與C-n 2和C-n 3鄰接的通信設備將陸續被感染,從而擴散到整個通信網絡.

表2 電力設備被攻擊可能性分析(%)Table 2 The vulnerability analysis of power equipment (%)
本節討論系統的離散程度和注入虛假數據的正負是否對協同攻擊效果有影響.
3.3.1 系統離散程度對攻擊結果的影響
對于算例系統,當各個母線的電壓幅度和角度的離散狀態的數目和的值在4~8 的范圍內發生變化時攻擊效果如表3 所示.
由表3 推斷,當系統狀態離散情況發生變化時,算例系統中每條母線的脆弱性幾乎沒有變化.

表3 系統離散程度不同時電力設備被攻擊的可能性分析Table 3 The vulnerability analysis of power equipment under different discrete degrees of false data
3.3.2 注入虛假數據的正負對攻擊結果的影響
對于算例系統,當ez=[eθ,eV]T的數值取正值、負值或者混合符號數據時,攻擊效果如圖9 所示.
由圖9 推斷,注入的假數據的符號不同對算例系統中每條物理母線脆弱性影響不大.

圖9 注入虛假數據取不同符號下電力設備被攻擊的可能性分析Fig.9 The vulnerability analysis of power equipment under different signs of false data
本文從攻擊者角度出發,提出了一種電力信息物理協同攻擊模型,該模型同時考慮通信層設備的攻擊難易程度以及對電力物理系統的破壞程度兩方面因素.然后,本文結合通信層和電力層設備的特性,制定攻擊成本和攻擊收益函數,并定義攻擊收益與成本的比值為目標函數.隨后,采用Q-learning 求解所提模型下的目標函數最大的最優攻擊策略.最后,利用通信8 節點?電力IEEE14 節點聯合仿真算例對單層網絡攻擊、物理攻擊和協同攻擊方式的攻擊效果進行對比,并分析了元件被攻擊的可能性,得到的結論如下: 1)本文所提出的信息物理雙層協同攻擊模型可以準確地描述攻擊行為在電力信息物理系統中的動態攻擊效果和級聯影響;2)通過算例研究,驗證了相較網絡攻擊和物理攻擊,本文所提的協同攻擊由于同時考慮通信層設備的利用難度和電力設備的破壞程度兩方面因素的耦合影響,所以攻擊效果更好,物理攻擊次之,網絡攻擊效果最差;3)由仿真結果分析可得,由于電力信息物理系統的通信層和電力層設備存在復雜的耦合關系和交互機理,所以通信層元件利用的難易程度和通信網絡結構對電力設備潛在被攻擊的可能性存在顯著影響.
附錄A

表A1 NS2 中通信網絡的參數配置Table A1 The parameters of cyber network in NS2

表A2 每個通信設備上存在的漏洞的CVSS 評分Table A2 The CVSS standards of each cyber node