魏永斌
(中核龍安有限公司,浙江 臺州 317100)
近幾年來,國內多個核電廠發生了運行期間主控室突發全部“黑屏”,即主控室內所有操縱員站同時不可用的異常事件。在國內目前已經應用了數字化儀控系統的核電廠,一般將此類事件歸結為電廠計算機信息和控制系統不可用事件。一旦電廠所有操縱員站同時“黑屏”,電廠將短時進入類似“盲運”的狀態,此時核電廠需要按照其特定的事件響應規程迅速做出響應,并采取措施進行快速修復。
考慮到核設施控制室在安全性和穩定性方面的特殊要求,針對所有核設施,包括核電廠、后處理廠等,在其控制系統設計及開發階段就需考慮防范控制室發生同時“黑屏”事件的措施。本文將參考國內核電廠近期發生的主控室同時“黑屏”事件經驗反饋,結合三代核電機組控制系統設計、調試和運行經驗,從控制系統結構特點出發,分析控制室發生同時“黑屏”事件的情況,并給出建議措施,以用于后續國內核設施控制系統及控制室設計參考。
在國家核安全局2015年組織編制的《運行核電廠數字化儀控系統(DCS)異常專題報告》[1]選取了22起相對重要的電廠計算機信息和控制系統(一般稱KIC系統)典型異常進行了分析。總結近幾年幾起典型的核電廠主控室“黑屏”事件如下:
1)2014年12月,國內某核電廠2號機組由于冗余歷史數據服務器數據同步過程與中央數據服務器數據交換過程疊加,SAR插入操作時因同步數據量大而使CCT超負荷停運,導致主控室操縱員站不可用32min。
2)2015年9月,國內某核電廠CN3 進程使SAR7-STR7-GTW1 服務器CPU消耗過高,導致CCT服務器運行變慢。在重啟電廠計算機信息和控制系統(KIC)備用的中央數據處理服務器CCT1過程中,出現了主控4臺操縱員站同時不可用的事件。
3)2016年5月,國內某核電廠由于DCS時鐘系統中一級母鐘提供的時鐘源信號跳變故障,導致DCS2層與1層的接口服務器離線,進而導致兩臺機組主控突發黑屏事件。
上述電廠的DCS監控層(一般稱KIC系統)基本運行流程如下:來自儀控1層的數據首先進入KIC系統前端處理服務器(CFR),然后傳輸到中央數據處理服務器(CCT)進行處理,處理結果再分別傳輸到實時數據處理服務器(STR)和歷史數據存檔服務器(SAR),操縱員工作站(OWP)則調用實時數據處理服務器(STR)和歷史數據存檔服務器(SAR)中的數據實現電廠監控。KIC系統中的前端處理服務器(CFR)負責連接DCS1層和2層子系統,是1層和2層數據的接口服務器;中央數據處理服務器(CCT)負責所有電廠計算機信息和控制系統(KIC)的數據處理;實時數據處理服務器(STR)負責電廠計算機信息和控制系統(KIC)實時數據處理和儲存;歷史數據存檔服務器(SAR)負責電廠計算機信息和控制系統(KIC)的歷史數據處理和儲存。
分析一些典型事件及KIC系統結構后,總結出了以下幾個可能導致其主控“黑屏”的風險點:
◆ DCS 2層與1層由不同的DCS平臺構建,接口非常關鍵,由于兩層軟硬件由不同的廠家設計和供貨,所以兩層系統之間需要建立數據接口服務器(如CFR)進行數據交互,該數據接口服務器的可靠性直接影響2層系統監控功能的可靠性。
◆ DCS監控層數據處理量大,進程復雜,2層在收到1層數據后,需要通過各種專用服務器對所有數據進行二次運算和處理,各專用服務器運算數據量大,服務器之間的任何數據、進程沖突或異常等都有可能導致2層監控功能喪失。
◆ DCS時鐘系統結構復雜,故障點多,DCS的1層、2層設備分別要與其接口的時鐘服務器對時,同時接口服務器又要逐級與二級母鐘、一級母鐘進行對時,一旦上游時鐘故障,很容易導致兩層系統時鐘混亂并出現服務停運。
目前,國內已經建成或正在新建的新型三代核電機組包括采用美國技術的AP1000、采用法國技術的EPR以及中國自主設計研發的華龍一號等,其中AP1000國內首批建設的4臺機組均已陸續商運,研究分析AP1000機組的控制系統結構特點[2],可以發現:
1)其控制系統2層與1層基于同一個軟硬件平臺構建,故不存在兩層之間設置專用接口的問題。
非安全級控制系統整體基于一個平臺構建,這個平臺覆蓋了控制系統1層(控制與數據處理層)和2層(監控層)所有功能。在該平臺上,所有的電廠人機接口,包括主控區的操縱員站、高級操縱員站、墻面大屏以及主控區以外的工程師站、就地控制站等均作為一個個標準的控制站點,同時“懸掛”在控制系統的高速以太網上。上述這種控制系統1層、2層“渾然一體”的結構,不需要中間數據處理服務器等專用接口設備。因此,不存在由于中間數據接口設備故障而導致主控室操縱員站全部“黑屏”的可能性。
2)其控制系統網絡采用標準的開放式實時數據傳輸網絡,網絡上的所有站點地位平等,獨立工作,單一站點故障并不影響其他站點的正常運行。
非安全級控制系統采用標準的開放式實時數據傳輸網絡,整個網絡為雙層分布式結構,通過一組根交換機(ROOT級)將下層多組擴展交換機(FAN-OUT級)連接從而構成網絡干線,FAN-OUT級則由8組24口的網絡交換機組成,以提供足夠的網絡節點端口。對整個控制系統網絡而言,每個交換機端口對應一個站點,整個控制系統網絡中的所有站點處于同一網段,在該網段內,所有站點端口地位平等,獨立工作,網絡數據可以被任何站點調用,任意某個或幾個站點故障并不影響其他站點的正常工作。因此,不存在一些站點故障進而導致整個主控室操縱員站全部“黑屏”的可能。
3)其控制系統網絡由成熟的商業化的高速以太網設備構建,網絡性能穩定可靠。
控制系統網絡采用標準的基于交換機的快速以太網,優化了網絡負荷,避免出現網絡風暴,整個網絡帶寬達到100MB,可以支持每秒20萬點的實時刷新速度,最大可以支持1000個網絡節點(站點),遠高于電站的實際應用,同時在控制系統軟件設計和開發過程中,設計方針對控制系統網絡實際負荷進行了嚴格限制和工廠測試,保證了控制系統周期性的網絡數據廣播不能超過總帶寬的40%,75%的主控室操縱員站對同一歷史數據的同時請求不能導致系統故障或重啟。控制系統網絡穩定可靠,由于網絡故障導致主控室全部“黑屏”的概率極低。
4)其控制系統全網采用同一套GPS時鐘系統,通過NTP網絡協議自動對時。
控制系統全網所有站點使用唯一的一套GPS時鐘系統,兩臺冗余的GPS時鐘服務器通過各自的天線獲取GPS衛星標準時間,之后通過DCS網絡外部IP交換機接入DCS網絡,作為外部NTP時間服務器向DCS網內所有用戶授時(包括所有DCS網絡站點和交換機),GPS時間服務器與DCS用戶之間不存在其他層級的中間接口,所有站點的對時基準唯一,不存在控制系統1、2層之間由于采用不同的對時服務器而可能導致時間偏差,進而導致系統癱瘓,主控全部“黑屏”的情況。
5)其主控室操縱員站后臺多重冗余設計,可有效避免同時故障。
主控室所有工作站的后臺設備,包括主控室操縱員站、墻面大屏的主機設備,均為數據處理與顯示系統設備,這些設備和其他數據處理與顯示系統設備一起布置在遠離主控室的另外兩個房間。設計上為了避免這些主控室后臺設備同時失效,采取了多重冗余設計,包括:
◆ 物理冗余
主控室所有工作站的后臺主機設備被分為兩組編入了數據處理與顯示系統的兩個冗余序列中,這兩個序列分別布置在兩個計算機房間,設備布置在不同的機柜中,兩個序列的房間僅可以通過一道防火門互通,兩個序列的位置分布有效實現了冗余序列間的物理隔離。
◆ 電源冗余
主控室所有工作站的后臺設備按兩組分布于兩個序列,序列A的電源取自電廠非1E級直流和不間斷電源序列1和4,序列B的電源取自電廠非1E級直流和不間斷電源序列2和3;系統大部分設備采用冗余電源供電的工作模式,包括網絡交換機、服務器等,這些設備同時使用所屬序列的上述兩路電源,主電源使用具有兩小時電池后備能力的UPS電源,次電源使用正常調壓后的電源,兩路電源互為熱備,主次之間可以實現無擾切換,主控室的后臺設備雖然不支持上述冗余電源工作模式,只使用所屬序列的UPS電源一路電源進行工作。
◆ 網絡冗余
如前所述,控制系統網絡采用標準的高速以太網體系,通過冗余網絡配置的方式最大限度地保證了運行期間整個網絡的可靠性。所有網絡設備同樣隸屬于數據處理與顯示系統,并按兩個冗余序列進行冗余網絡硬件配置和冗余電源配置等,主控室后臺設備作為一個個標準工作站,均地位對等地接入控制系統高速網絡中,每個設備具有多個網絡接口,其中配置1個設備網口接入網絡序列A,另一個設備網口接入網絡序列B,并且接入端口分布在不同組的網絡交換機上。
6)其主控室人機接口設備多重冗余設計,可有效避免同時故障。
除了上述主控室后臺設備的多重冗余設計外,對于主控室內的人機接口設備,包括大屏幕、KVM(鼠標顯示器鍵盤)接收器、顯示器鼠標鍵盤等外設,在設計上也同樣采用了多重冗余設計的理念。
◆ 硬件冗余
主控區內布置有3個操縱員臺和1個高級操縱員臺,每個操縱員臺則分別配備了兩套非安全級控制系統人機接口,分別對應控制系統網絡上的兩個工作站,同一個操縱員臺上的兩個工作站的主機在控制系統中分屬兩個序列;主控室內的14塊墻面大屏對應的14臺工作站也同樣分兩組隸屬兩個序列,設備同時失效的可能性極低。
◆ 電源冗余
主控室內的所有人機接口設備按位置分布分為兩個序列,同時這兩個序列設備的工作電源也取自不同的電廠電源序列,其中一組取自電廠非1E級直流和不間斷電源序列1的不間斷電源;另一組取自序列2的不間斷電源,從而有效避免了電廠正常運行甚至電廠短時失電期間,主控室所有人機接口設備同時意外失電進而導致主控室操縱員站全部“黑屏”的發生。
通過以上分析可見,新型核電機組的控制系統在設計上具有諸多顯著特點,采取了多項措施從而降低了主控室操縱員站同時“黑屏”的可能性,但即使設計再完備,也并不能完全避免運行期間發生類似極端事件。結合項目經驗,對于后續采用類似新型控制系統結構的核設施,還需關注一些薄弱點并注意通過長期的技術維護手段來盡量避免發生控制室操縱員站全部“黑屏”或部分功能喪失的事件。
1)關注“咽喉”設備,進行重點監視維護
對于幾處位于系統“咽喉”位置的關鍵設備,保守起見則要同時考慮防止其冗余序列同時失效的措施。包括:①負責整個控制系統網絡主干的根交換機(ROOT級交換機)。
②負責主控人機接口與其后臺主機之間物理連接的KVM路由器。
對于上述設備,建議運行期間,首先要加強設備巡檢頻度,對設備運行狀態進行重點監視;同時在發現單側設備故障后要以最高優先級安排進行糾正性維修以盡快恢復故障序列,確保冗余序列同時正常運行。
2)提前做好籌劃,開展設備日常維護改造
控制系統設備采用了成熟的商業化設備構建,一方面,一旦某些環境條件持續接近或超過設備耐受限值,設備故障率會明顯提高;另一方面,設備本身可靠性[3]會隨著設備壽期逐漸下降,同時要注意部分現場設備型號目前已經停產。
對此建議首先對控制系統設備機房環境進行高標準管控和保守管控;其次要合理規劃預防性維修和維護頻度,對控制系統設備定期檢查和清灰保養;對于廠家已停產或更新的設備,建議在設備故障率達到一定程度后,即考慮提前進行整體升級改造。
3)做好系統維護,加強系統整體安全管理。
控制系統設計上高度集成和統一,一旦出現系統共性軟件缺陷或漏洞,影響面非常廣;同時控制系統存在大量對外接口,這些接口的安全可靠程度也會影響整個控制系統的安全穩定性;整個控制系統以域的形式進行統一的安全管理,在對域的管理操作過程中一旦出現失誤,則很有可能導致整個系統不可用或者可靠性降低。
對此建議采取措施,一是要對系統軟件和病毒防護系統隨時進行補丁升級,提高系統自身“免疫性”;二是對控制系統對外接口進行定期巡檢,嚴格管控端口操作;三是對控制系統域的管理要嚴格謹慎,對全域策略變更前要做好充足的影響評估,保持域的穩定。
通過本文分析可見,國內某些核電廠控制系統的結構特點導致其主控室發生同時“黑屏”事件的可能性增加,而新型核電機組的控制系統的結構設計和軟硬件配置可以有效降低其主控室發生同時“黑屏”事件的可能性。為了進一步提高核設施控制室的安全性和可靠性,以保證控制系統正常運行期間,盡量避免發生控制室工作站同時“黑屏”或部分喪失功能的事件,除了設計采用先進的控制系統結構之外,還需要重點關注控制系統結構和軟硬件體系中存在的薄弱點,并通過日常管理和技術維護手段補足短板。