吳建國,張宇科,盧軍剛,王佳俊,石財祥
(中核核電運行管理有限公司,浙江 海鹽 314300)
DCS系統是分散控制系統(Distributed Control System)的簡稱,也稱集散控制系統。它是一個集合了計算機、通訊、顯示和控制的由過程控制和過程監控的計算機系統。DCS設計的理念是分散控制,集中管理,分級管理,配置靈活,組態方便。在核電廠中,DCS系統是電廠的神經中樞,在保障核電廠的安全、經濟運行方面有著十分重要的作用。
某核電廠已安全運行10多年,隨著運行時間的延長,DCS系統的穩定性能有所下降,缺陷率有所提高,設備的高缺陷率影響了電廠的健康運行。同時,隨著DCS數字化系統的發展,作為已經運行十幾年的DCS系統,在網絡結構設置、智能化、設備性能方面已經同目前的DCS系統有了較大的差距。本文介紹了某核電廠的DCS數字化網絡的結構、配置、存在的問題、改進方式等,重點對交換機網絡廣播風暴及阻斷措施進行了介紹與分析。
某核電廠使用了??怂共_公司的基于Mesh網絡的I/A控制系統,該系統是一款開放型DCS工業控制系統,其通訊網絡是建立在國際標準化組織(ISO)所定義的開放系統互連(OSI)標準基礎上的,并符合IEEE的規范,是按照局域概念構造的標準網。Mesh控制網絡的設計思想是在網絡中任意兩個設備之間提供多重通訊途徑,從而使通訊不受單點乃至多點故障的影響,提高了通訊的冗余性能。Mesh網絡的全光纖通訊線纜的布置,提高了系統通訊中的抗電磁干擾能力[1]。
線形結構由兩臺交換機組成,如圖1。其適用于小型系統,如果選用的交換機有上百個通訊口的話,也可以應用于較大的系統。

圖1 線性結構Fig.1 Linear structure
環形結構適用于3~7個交換機組成的網絡。每個交換機都與鄰近的交換機相連,其中主、備交換機必須相鄰如圖2。

圖2 環形結構Fig.2 Ring structure
倒掛樹結構適合于大型系統。該結構中,所有交換機都按層排列,其中根交換機位于頂層。由于RSTP 協議的限制,倒掛樹結構中的層數最多只有4層。任何一臺交換機必須與上一層中的兩臺交換機相連,以保證通訊的冗余性,如圖3。

圖3 功能圖繪制流程Fig.3 Function diagram drawing process
某核電廠DCS交換機網絡就采用的是倒掛樹結構,如圖4。整個網絡分為3層,最上層為核心交換機8KITS1和8KITS2,中間層為機組級交換機3KIT11、3KIT12、4KIT11、4KIT12、8KSNS1、8KSNS2、8KITS3、8KITS4,最 下 層 為 房 間 級3KIT91-96、3KCOS1-S2、4KIT91-96、4KCOS1-S2。網絡中每個交換機都有與其作用相同的冗余交換機,當某一個交換機故障時不影響整個網絡的信息傳輸,如3KIT11故障后,它與8KITS1和3KIT91-96等交換機的通訊不可用,此時3KIT12與8KITS1和3KIT91-96等交換機的通訊仍然正常進行,3KIT11和3KIT12端口連接相同的設備,整個網絡的通信功能不受影響。故該網絡具備較高的穩定性能,可容忍單一交換機缺陷故障。

圖4 某電廠DCS網絡Fig.4 DCS Network of a power plant
網絡廣播風暴是指由于某種原因導致交換機網絡中會出現大量的數據無序傳輸,占用帶寬,阻塞網絡傳輸,從而大大降低整個網絡的通信性能。網絡廣播風暴是網上廣播的一種消息,該消息導致發送消息包與等待消息包形成死鎖反應,從而使網絡不能正常運行乃至最終癱瘓。每個死鎖反應又導致更多死鎖反應,嚴重的廣播風暴可能封鎖所有網絡通訊, 導致網絡災難甚至全網癱瘓[2]。
2019年1月,某核電廠主控人員發現3號和4號機組的DCS數字化系統的操作員站和工程師站鼠標點擊都無法動作,歷史庫狀態顯示Server#1/2health is BAD報警,且電腦中的參數都無法顯示。檢查一回路狀態正常,一回路相關控制系統正常。由于DCS系統網絡無法正常工作,導致現場一些設備的自動控制功能失去控制,最終觸發反應堆停堆信號,導致機組停堆。
經過調查,事件起因為DCS網絡中的3號機組的交換機3KIT11故障導致了網絡廣播風暴,在缺少阻斷機制的情況下導致網絡癱瘓,引發部分設備控制異常,最終導致4號機組停堆。
對3KIT11故障交換機進行測試分析,發現交換機存在部件老化現象。儲存卡固件可正常加載運行,但交換機底板存在故障,導致運行不穩定,判斷交換機存在硬件故障。在實驗中驗證了生成樹協議失效會導致網絡廣播風暴,但是由于實驗環境同現場有差異,未能完全復現現場故障。
為應對由于交換機故障而引起的廣播風暴突發故障,維修人員制定了相應的應急干預機制,確保在發生此類突發故障時能迅速找到引發廣播風暴的交換機并將其隔離,使剩余網絡能夠正常穩定運行。當廣播風暴發生時,應急干預步驟如下:
1)破壞AB雙環網絡結構,征得主控同意后,斷開B列兩臺機組級交換機3KIT12/4KIT12的電源。
2)若網絡故障未解除,則恢復B列兩臺機組級交換機3KIT12/4KIT12的供電,確認交換機工作指示燈正常后,斷開A列兩臺機組級交換機3KIT11/4KIT11的電源。
3)若網絡故障未解除,則斷開核心交換機8KITS2的電源。
4)若網絡故障未解除,則恢復核心交換機8KITS2的電源,確認交換機工作指示燈正常后,斷開核心交換機8KITS1的電源。
5)若網絡故障未解除,則斷開房間級交換機8KITS3/8KITS4的電源。
6)網絡故障消失后,在網絡監控站軟件中查看各交換機運行情況,確認當前單網運行回路的交換機是否正常,如有不正常的交換機,則切換至另一路后進行該故障交換機的更換。
生成樹協議將網絡中的物理環路,通過一種算法在邏輯上阻塞一些端口,然后生成一個邏輯上的樹形結構,從而阻止廣播幀形成環路和廣播風暴[3]。如圖5所示,3臺交換機構成的環路網絡,使用STP協議后,交換機8KITS1與8KITS2的鏈路的一個端口被協議從邏輯上阻塞,這條鏈路就不能再傳輸數據了,從邏輯上破壞了環路的形成。當正常通信鏈路(如3KIT11和8KITS2)之間的鏈路發生故障時,被邏輯阻塞的鏈端口被重新激活,使數據能從這條鏈路正常傳輸。

圖5 STP示意圖Fig.5 Schematic diagram of STP
某核電廠的交換機網絡使用了生成樹協議STP,使各個交換機在正常運行時沒有形成網絡環路,沒有發生廣播風暴,各交換機之間的信息通訊按照一定的規則測量,穩定運行。當交換機3KIT11發生某種故障時,引發了STP不穩定或失效,導致廣播風暴并最終使全網癱瘓。
虛擬網絡是在整個網絡中通過網絡交換設備建立的虛擬工作組。劃分虛擬局域網(VLAN)可以根據實際應用需求,把同一物理局域網內的不同用戶邏輯地劃分成不同的廣播域,每一個VLAN都包含一組有著相同需求的計算機工作站,與物理上形成的LAN有著相同的屬性。由于它是從邏輯上劃分,而不是從物理上劃分,所以同一個VLAN內的各個工作站沒有限制在同一個物理范圍中,即這些工作站可以在不同物理LAN網段。由 VLAN 的特點可知,一個 VLAN內部的廣播和單播流量都不會轉發到其它VLAN中,從而有助于控制流量,簡化網絡管理,提高網絡的安全性。一旦發生環路,廣播風暴可以被限制在VLAN內部,從而減小受影響設備的范圍,同時也便于故障定位[4]。
在一個合理的網絡構架中,網絡中的交換機能夠以高可靠性和冗余度相互通信。STP協議將網絡中的冗余環路阻斷,形成一個邏輯上的無環路網絡。LDP環路檢測算法在網絡發生不穩定時,提供了一種故障檢測和故障隔離的方法。
環路循環是通過已知的數據路徑及其來源所監測的,為了建立一個已知的路徑,LDP創造了“信標(Beacon)”的概念,信標定期從根交換機向網絡的邊緣交換機發送IGMP數據包,在發生循環的情況下,數據包被轉發回根交換機,當數據包在不應該出現的端口發出時,就可以假設環路循環已經發生且需要采取措施。
具有LDP的控制網絡可以隔離風暴交換機,并允許控制網絡上的通信繼續進行。當檢測到交換機的入口端接收到的信標數量達到7個時,LDP就將關閉該端口來隔離環路,阻止廣播風暴的發生。LDP關閉端口后會導致一個鏈路失效。
部署LDP時,僅在網絡中的根交換機和備份根交換機上啟用“信標(Beacon)”。只有IP地址最低的指定交換機發送“信標”查詢包,備用根交換機作為一個備份,只有在根交換機離線或根交換機和備份根交換機之間發生鏈路丟失時,才會發送“信標”查詢包。
某核電廠DCS網絡的交換機使用的是??怂共_公司的A型和C型交換機,交換機型號較老,無法配置LDP阻斷機制。為了提高交換機阻止廣播風暴的能力,某核電廠將現場A型和C型交換機替換為X型和S型,并按照LDP的要求,對網絡中的兩臺根交換機8KITS1、8KITS2配置時啟用了LDP功能。
某核電站的DCS網絡為兩臺機組共用,該網絡結構的優點是整個DCS的數據可以相互調用,方便兩臺機組之間的數據查看。存在的缺點是兩臺機組網絡不是物理隔離的,耦合度太高,某一臺機組的網絡故障可能會引發兩臺機組的網絡故障,增加發生網絡故障的危害程度。
根據I/A系統的特點以及網絡安全的要求,為避免網絡故障同時對3、4號機組造成影響,依據原供貨商網絡設計的原則進行網絡拆分,將不同機組之間的信息以及不同功能之間的信息通訊進行拆分,保證機組運行時不會因網絡故障產生相關的影響,在物理上徹底阻斷3、4號機組間的影響,阻止單元機組故障蔓延。
某核電廠原有網絡拓撲結構是倒掛樹形Mesh網絡結構,3、4號機組通過共用核心交換機均可訪問KDO、KME和KSN系統,3、4號機組的DCS系統數據彼此可以互相訪問。
結構優化后,將原有的網絡拆分成為4個系統:3號機組KIT/KCO為一個系統,4號機組KIT/KCO為一個系統,KSN為一個系統,KDO/KME為一個系統。在拆分的基礎上,對相關的網絡配置、時鐘系統進行修改,并增加必要的通訊設施、通訊網線和光纜,網絡安全監視設備等。優化后的網絡結構如圖6。

圖6 優化后網絡結構圖Fig.6 Network structure diagram after optimization
本文介紹了某核電廠3、4號機組DCS數字化網絡的基本情況,包括交換機網絡結構、網絡拆分等。廣播風暴故障對DCS網絡和電廠的安全運行有著嚴重危害,核電從業者需對廣播風暴的原理、危害、預防措施有一定的了解,同時建立應急預案。隨著國家層面對網絡安全的重視程度不斷提高,系統漏洞審查、防竊聽、設備國產化等措施在穩步推進,核電廠的DCS網絡安全水平也將上升一個新的臺階。