楊 斌
(中核檢修有限公司陽江分公司)
高可靠性是過程控制系統的第一要求。冗余技術是DCS系統設計中常采用的一種技術,是提高DCS系統可靠性最有效方法之一。為了達到高可靠性和低失效率相統一的目的,我們通常會在控制系統的設計和應用中采用冗余技術。合理的冗余設計將大大提高系統的可靠性,本文簡述冗余技術在核電站DCS平臺的應用,從而驗證了冗余技術的重要性。
冗余技術就是增加多余的設備,以保證系統更加可靠、安全地工作。按照冗余的程度可分為1:1冗余、1:2冗余、1:n冗余等多種。在當前元器件可靠性不斷提高的情況下,和其它形式的冗余方式相比,1:1的部件級熱冗余是一種有效而又相對簡單、配置靈活的冗余技術實現方式,如I/O卡件冗余、電源冗余、主控制器冗余等。因此,目前國內外主流的過程控制系統中大多采用了這種方式。當然,在某些局部設計中也有采用元件級或多種冗余方式組合的成功范例。
目前,DCS系統的部件級熱冗余通常采用并聯結構,如圖1所示。只有當組成系統的并聯部件全部失效時,系統才會停止工作。

圖1
如各個子設備的可靠度分別為R1,R2…Rn,則系統的可靠度Rs可以表示為:Rs=1-(1-R1)(1-R2)…(1-Rn)
假設并聯系統由可靠度為0.70的兩臺裝置組成,按并聯系統的可靠度計算公式可得可靠度為0.91,提高了0.21。
DCS控制系統冗余設計的目的:系統運行不受局部故障的影響,而且故障部件的維護對整個系統的功能實現沒有影響,并可以實現在線維護,使故障部件得到及時的修復。冗余設計會增加系統設計的難度,冗余配置會增加用戶系統的投資,但這種投資換來了系統的可靠性。它提高了整個用戶系統的平均無故障時間,縮短了平均故障修復時間。因此,應用在重要場合的控制系統,冗余是非常必要的。
電源做為設備的動力源,是設備能正常工作的前提。為使控制系統能夠安全、可靠、長期、穩定地運行,必須要保證電源的穩定性。故重要的設備和系統都要求經過多組電源同時冗余供電。
熱備冗余:在2路電源經過一個電源切換控制器后輸出一路電源,當一路電源故障失去時,控制器將自動切換到另一路供電,從而實現電源冗余。此類切換過程會造成短暫的失電,為確保設備和系統不受影響保持正常運行,對電源切換控制器切換的時間要求非常嚴格,基本都在10ms以內。
熱供冗余:兩路冗余電源以并聯方式,同時給下游設備供電。此類方式消除了熱備冗余切換過程中短暫失電的弊端。為防止并聯的2路熱供電源間產生電勢差造成回流,2路電源的正極一般都經過二級管單向導流。DCS控制柜中給電磁閥供電的外部48V電源,均使用熱供冗余方式。
DCS系統電源冗余設計時,必須根據所用電源的功率、可靠性、空開和電纜額定電流以及系統所規定的最短無故障時間等參數考慮電源個數、結構等。如圖2,因1KCP403AR下游電磁閥較多,負荷大。上游LCA 48V電源經TB配電箱給下游1KCP403AR供電時,受限于TB柜每個空開額定電流不能高于15A的原因,每個TB分別引了5路支路給1KCP403AR供電,以分攤負荷。

圖2
所有的DCS系統的供電基本上都是冗余設計,冗余降低了非計劃性失去一路電源的風險,在提高系統持續運行的穩定性外,還保證了上游一路供電電源試驗或維護時,DCS系統能繼續正常運行。
通訊網絡是DCS的基礎骨架,所有DCS都是一種基于網絡的分層、分布式機構,其配置的優劣和可靠性直接影響到DCS系統性能。通訊接口、載體(光纖、網線)等硬件故障率高的特點,要求必須使用冗余技術,提高網絡的可靠性,才能確保DCS系統穩定運行。
以某核電機組DCS IA平臺的MESH網絡為例,采用樹形拓撲結構。如圖3所示,房間級、機組級和全廠級的三層交換機中都設有A、B兩列冗余交換機。FCP控制器經冗余A、B通訊網接入A、B列上游冗余交換機中。整個MESH網滿足多點容錯功能。

圖3
DCS系統控制器基本都采取了冗余配置。兩塊互為冗余的控制器配置完全相同,具有相同的操作系統、組態軟件、控制信息。在冗余邏輯電路的控制下,主控制器處于運行控制狀態,另一個控制器處在熱備狀態。
平臺的FCP控制器使用容錯技術。主FCP負責與I/O卡件數據通訊,進行邏輯運算和控制,同時將信息同步給從FCP,使主、從FCP的組態軟件數據時刻保持一致。FCP具有故障自檢功能,冗余的FCP對之間建有故障信息傳遞和故障判斷機制,當前主FCP故障時,當前從FCP立即接手成為主FCP執行控制功能,從而實現無擾切換和無延滯切換。FCP具有在線熱更換功能,當其中一塊FCP故障時,可直接拔除,更換新的FCP。新更換的FCP將自動同步當前主FCP的組態軟件和系統配置信息。
為降低I/O卡件故障導致信號采集斷開的風險,重要的I/O點都設冗余配置。基本上所有的DCS系統都可以實現I/O冗余。其中I/O冗余卡件主要用到FBM204、208等模擬量采集卡件和FBM231、233等第三方通訊接口卡件。
模擬量采集卡件FBM204、FBM208的冗余設計方式為:FBM的底板上的通訊線,用于交換兩個模塊的狀態信息,并且確定邏輯上的主從關系。兩個FBM都正常時,首先上電的FBM為主,另一個為從。兩個模塊都從現場設備采集數據并實時更新,但是FCP只從主FBM讀取數據。FBM具有自診斷功能,當主采集FBM故障時,發送一個故障信息給FCP,FCP自動從另外一塊FBM讀取數據。
第三方通訊接口卡件FBM231、FBM233的冗余設計方式為:FBM背板上的通訊線,用于交換兩個模塊的狀態信息,并且確定邏輯上的主從關系。兩個FBM都正常時,首先上電的FBM為主,另一個為從。兩個模塊都從現場設備接收數據,但是FCP只從主FBM讀取數據,FCP同時發送數據給主從FBM,兩個FBM都將數據傳遞給現場設備。現場設備必須每隔一段時間發送一個“故障診斷信號”給FBM,FBM以此判斷現場設備的狀態。初始時,兩個FBM都管理一張內容一致的設備列表,當其中一個FBM的設備列表項減少時,說明該FBM有通訊故障,需要解決。通訊故障的FBM將置于故障狀態,不再參與信號采集和控制功能。
GPS時鐘常作為DCS的基準時鐘,為DCS控制器、工作站、服務器定義了同一時間標簽。避免了時鐘偏差造成控制邏輯的時序紊亂,SOE順序事故記錄、趨勢記錄等不能正確記錄事件發生的正確時間等問題。基準時
鐘精度的重要性,使大部分DCS系統的GPS時鐘都實現了冗余配置。
核電站DCS平臺同樣配置了冗余的GPS時鐘。以某核電站機組為例,1MTKHC和2BTKHC工作站裝有GPS時鐘通訊卡,分別接收1路GPS時鐘源,作為KCP系統的冗余的GPS時鐘服務器。工作站和服務器通過網絡時間協議(NTP)同步主時鐘服務器的時鐘,精度達到ms級。控制器的GPS時鐘通過光纖直接同步時鐘服務器的GPS時鐘。2臺冗余的時鐘服務器經HUB將GPS時鐘信號分發送到有IA控制柜的每個電氣房間中的一個控制器機柜,控制柜間再經過光纜相互傳遞GPS時鐘信號。每個電氣房間形成2路冗余的GPS時鐘鏈。
如圖4,A路時鐘從1MTKHC時鐘服務器經HUB通過光纜送到9KCP581AR,再通過柜間光纜傳遞到下一個控制柜直至9KCP588AR;B路時鐘從2BTKHC時鐘服務器經HUB通過光纜送到9KCP588AR,再通過柜間光纜傳遞到下一個控制柜直至9KCP581AR。其中A網的始發控制柜9KCP581AR作為B網的終點控制柜;A網的終點控制柜9KCP588AR作為B網的始發控制柜。這樣2路時鐘倒流的設計,使得其中一個控制柜因斷電或其他故障原因失去2路時鐘,不影響其他控制柜的時鐘同步。如2路時鐘同向傳遞,若其中一個控制柜2路時鐘斷開,將直接導致下游控制柜的時鐘也全部斷開。

圖4
當冗余的2路GPS時鐘都正常時,1臺機組選擇1MTKHC為主時鐘服務器,另外一臺機組選擇2BTKHC為主時鐘服務器。當其中一路時鐘故障或斷開時,工作站或控制器將自動選擇另一路正常的時鐘源為基準時鐘,從而保證了整個系統時鐘標簽的準確性。
工作站/服務器作為DCS人機接口和數據處理單元,每個中、大型控制系統中按功能、監測和操作的需求都會冗余設置多臺。
某核電機組DCS平臺設置了30多臺工作站和服務器,按圖5“IA工作站軟件需求清單”安裝有不同功能軟件,從而分擔一層功能需求。其中一層的API服務器和二層CFR服務器,作為一二層數據處理的接口服務器,設置有冗余的A、B列,每一列可獨立起到完整處理和傳遞一二層數據的功能。正常來說,2-3臺工作站/服務器就可以冗余實現一層的功能,但是實際中卻使用多臺實現,主要原因為:將所有功能軟件高密度安裝于同一臺服務器上,將影響服務器處理性能,降低響應時間;不同系統和工作場合要求獨立的工作站/服務器,以滿足日常操作、和維護工作,如KSN、KDO、KME系統都有相應的工作站/服務器。
另外DCS一層IA工作站/服務器除KDO的ARC1HC、IS1HC兩臺服務器外,其他均裝有IA 8.4.3套件,即都能夠作為工程師站查看、控制DCS一層軟件參數。同時,兩臺機組的一層IA在同一MESH網中,能相互訪問和控制。這一特征在實現多重冗余的便利性外,同時也帶來了機組日常調試、運行期間的跨機組誤操作風險,需做好DCS一層工程站權限控制。

圖5
冗余是一種高級的可靠性設計技術,1:1熱冗余也就是所謂的雙重化,是其中一種有效的冗余方式,但它并不是兩個部件簡單的并聯運行,而是需要硬件、軟件、通訊等協同工作來實現。將互為冗余的兩個部件構成一個有機的整體,通常包括以下多個技術要點:
信息同步是主、備用部件之間實現無擾動(Bumpless)切換技術的前提,只有按控制實時性要求進行高速有效的信息同步,保證主、備用部件步調一致地工作,才能實現冗余部件之間的無擾動切換。如容錯的2個FCP間,主FCP實現系統的數據采集、運算、控制輸出等功能;同時實時將數據更新、同步給從FCP,從而2個FCP的軟件信息時刻保持一致。
為了保證系統在出現故障時及時將冗余部分投入工作,必須有高精確的在線故障檢測技術,實現故障發現、故障定位、故障隔離和故障報警。故障檢測包括電源、微處理器、數據通訊鏈路、數據總線及I/O狀態等。其中故障診斷包括故障自診斷和故障互檢(主、備用卡件之間的相互檢查)
在發現當前主設備故障后,備用設備必須快速、無擾動地接替故障設備的職能,對現場控制不造成任何影響。同時要求切換時間應為毫秒級,甚至是微秒級,這樣就不會因為該部件的故障而造成外部控制對象的失控或檢測信息失效等
冗余技術確保單一故障發生時,系統能夠繼續正常的工作外。還需要及時將故障信息作為報警信號觸發出來,以便通知工程師及時檢修維護,恢復冗余性。在設備發生故障時均能在一層系統監測站(SMON)中觸發報警信息。一層DCS工程師通過日常巡檢查看SMON狀態,可及時發現和檢修故障設備。
為了保證容錯系統具有高可靠性,必須盡量減少系統的平均修復時間MTBR。要做到這一點,在設計上應努力提高單元的獨立性、可修復性、故障可維護性。實現故障部件的在線維護和更換也是冗余技術的重要組成部分,它是實現控制系統故障部件快速修復技術的關鍵。部件的熱插拔功能可以在不中斷系統正常控制功能的情況下增加或更換組件,使系統平穩地運行。如IA系統的FBM和FCP均能熱插拔檢修。
因冗余技術的應用,使核電站機組在調試期間和正常功率運行期間,不再受局部故障的影響,故障部件的維護對整個系統的功能實現沒有影響,并可以實現在線維護,使故障部件得到及時修復。同時保證了各項在引起電源單列失去、網絡單網失去等試驗進行時,機組能正常運行。使冗余技術存在于DCS平臺的必要性再次得到驗證。