高士忠
(廈門國貿中順環保能源股份有限公司,福建廈門361022)
分散控制系統(DCS)于1975年問世,經歷40多年的發展歷程,在各行各業生產過程控制中占據了重要的地位。DCS系統的穩定運行直接關系到企業生產的安全穩定進行,通過同行業的交流、網絡/報紙雜志等的學習可知,在熱電企業生產過程控制中,由于DCS系統自身原因引起熱工保護誤動而造成的機爐電聯跳,在全部熱工保護誤動中占有一定的比例。目前新建、擴建、改建熱電企業的爐外脫硫脫硝、化水控制、輸煤控制系統等均采用和鍋爐主系統相同的控制系統,即DCS系統。主輔系統統一,控制系統單一,備品備件通用性強、管理方便,維護檢修人員的培訓相對較集中,在很大程度上降低了企業的運營成本。隨著DCS系統應用的范圍變廣,DCS系統自身出現的問題概率也就增加了;隨著計算機技術的飛速發展,不斷推動DCS系統的技術革新,其在功能方面逐步強大,但在企業實際生產應用中,DCS系統在投入運行后的管理和運營維護等方面還存在很多問題,具有一定的安全隱患。
我司共兩期工程三臺鍋爐兩臺發電機組,Ⅰ期2×75 t/h循環流化床燃煤鍋爐,配備2×6 MW汽輪發電機,DCS系統采用福大自動化科技有限公司IAP-Pinecontrol系統,自2004年投運以來,截至目前已投入使用14年左右的時間,DCS控制系統基本是不間斷連續可靠運行,硬件基本都沒有更換過。本系統硬件采用的是OMRON-CS1D系列,系統共有五個控制站,每個站都配有雙路CS1D-CPU、雙路ETN21以及各種規格的IO卡件。Ⅱ期1×75 t/h循環流化床燃煤鍋爐項目的控制系統采用和利時HOLLIAS-MACSV5系統,于2013年投運。目前兩套控制系統的操作模式都是獨立運行的(兩套不同品牌的系統),在運行1#鍋爐和3#鍋爐、2#鍋爐和3#鍋爐時(即運行Ⅰ期與Ⅱ期部分爐、機、電的設備時),必須同時要兼顧到兩套系統的操作員站,坐在操作1#、2#鍋爐系統操作員站的人員就無法方便快捷地監控到Ⅱ期設備。根據近幾年的運行情況,我司所投運的這兩套DCS系統相對還是很穩定的。
后按照環保要求,我司于2013年進行爐外脫硫脫硝改造,配套和利時HOLLIAS-MACSV5系統;為了達到超低排放標準,2017年環保設備進一步升級改造(SNCR項目、臭氧脫硝項目),配套和利時HOLLIAS-MACSV6系統。在整個項目實施過程中,為了在MACSV5系統上能監控到MACSV6系統的數據,通過局域網,將MACSV6系統數據并入MACSV5系統進行監控,但也存在一些的問題,出現過雙服務器自身重啟、控制站死機、網絡風暴等危及生產安全的現象。
下面結合我司近幾年來DCS系統運行過程中出現的問題進行簡單分析,希望能給大家提供有益的幫助。
2006年3月28日,Ⅰ期DCS系統運行中,操作員站的監控畫面所有監測點數值狀態顯示“@@@@”符號,操作人員無法監控到現場運行設備情況,也無法進行遠程操控,導致鍋爐、汽機先后聯跳停運。后檢修人員趕到現場發現兩臺服務器CPU處于100%運行狀態,無法進行軟件操作(有死機現象),先后重新啟動服務器后系統恢復正常。
1.1.1 操作員站無法監視原因分析
查詢當時的歷史記錄和報警記錄,發現兩臺服務器在機組聯跳前還有數據存儲和報警記錄,由此可判斷,在兩臺服務器重啟前,服務器還在工作,還在采集數據和處理歷史存儲、報警等任務。后重新啟動服務器這段時間就沒有任何記錄,由此說明數據傳輸層工作正常。問題發生在監視層,各個操作員站和服務器之間通信出現了堵塞和異常,造成操作員站監控畫面無法監視和操控,即操作員站與服務器站失去聯系,通信網絡中斷。
1.1.2 機組聯跳原因分析
經過大量數據分析,在服務器重新啟動前出現鍋爐“MFT”保護動作,接著相關機組設備也聯跳(含停止給煤機),同時數據顯示跳閘的原因是“爐膛溫度低”。DCS系統的邏輯運算控制和運行過程都在控制站進行,與服務器及操作員站無關,因此,服務器和操作員站的停機和異常不會影響邏輯程序的正常運行。根據數據顯示分析,在鍋爐“MFT”動作時,服務器仍然在正常工作采集數據。在操作員站無法監視到機組運行的情況下,操作人員無法準確判斷機組運行狀態,即無法通過操作員站下達操控指令,機組設備運行參數偏離正常的工藝控制參數,導致“爐膛溫度低”熱工保護動作,引起“MFT”動作,導致鍋爐風機大聯鎖動作跳爐。
1.1.3 汽輪機組跳機原因分析
鍋爐風機聯跳,影響整個系統的蒸汽壓力,汽機抽汽壓力低,也就跟著“抽汽壓力低”熱工保護動作聯跳汽機。
1.1.4 服務器死機引起鍋爐跳閘原因分析
首先,當時服務器并沒有死機,仍然在采集、存儲數據和報警,只是和操作員站之間的通信中斷了;其次,服務器和操作員站屬于監控部分,和控制站的邏輯程序控制完全獨立,服務器和操作員站的異常不影響邏輯,更不會引起跳閘。
鍋爐跳閘原因是在操作員站無法監視到機組運行的情況下,操作人員無法準確判斷機組運行狀態,即無法通過操作員站下達操控指令,機組設備運行參數偏離正常的工藝控制參數,導致“爐膛溫度低”熱工保護動作,引起“MFT”動作,導致鍋爐風機大聯鎖動作跳爐。
1.1.5 預防類似情況發生的方法
從各種數據分析,要避免這種情況,方法如下:
一是服務器的CPU負荷不能太高(60%以上持續超過5 min就算高了);
二是拆除了老式針式打印機以及有影響的外部設備(聲卡、U盤等),操作員站禁止運行游戲等和系統無關的程序;
三是服務器和外部系統的數據交換聯系(輸煤系統、CEMS系統、TSI系統等)要嚴格控制,盡量減少與外圍數據有交換聯系的系統(能合并成一個最好),預防數據交換聯系過多,增加服務器本身的不穩定因素;
四是解決DCS系統內部網絡通信數據交換引起的異?,F象,將系統外圍數據采集功能移至操作員站進行數據采集(外圍計算機或者網絡出現異常時,只影響單機操作員站,不影響服務器與其他操作員站間的數據交換),確保整套系統正常運行。
2006年6月16日,Ⅰ期DCS系統2#控制站雙CPU故障指示燈均亮,各操作員站對于2#控制站所含的信號均無法監控操作,監控畫面上的數據點位置顯示“????”符號。
1.2.1 原因分析
檢查現場操作員站顯示及DCS系統對各控制站CPU運行監視情況并進行分析判斷,2#控制站CPU處于故障狀態,無法運行而引起整個控制站癱瘓,導致現場與控制站之間的數據交換中斷,致使操作員站無法監控到現場設備運行數據。在各方面的協調配合下,檢修人員在最短時間內發現2#控制站內部一條機籠間的數據線版本高引起整個控制站出現癱瘓,后經過重新拔插,數據交換正常,CPU運行正常,系統恢復穩定運行,并于機組停運期間更換版本號不一樣的數據通信線,調試好后正常投入運行至今。
1.2.2 預防類似情況發生的方法
在停運檢修期間,與廠家技術人員一起對整套系統所有軟、硬件進行徹底的檢查、試驗、調試,針對2#控制站機籠間數據通信線的軟件版本不配套引起控制站右側CPU故障后自動切換到左側CPU又出現相同問題而癱瘓的事故進一步做了詳細的檢查,發現整套系統就2#控制站出現一條版本不配套的數據通信線,其他控制站機籠間的數據線均正常,自2006年7月1日檢查后正常投運至今。
2010年7月30日,Ⅰ期DCS系統操作員站畫面電動門、風機等各狀態顯示為黑色,數秒后自動恢復正常。
1.3.1 原因分析
通過大量的歷史數據檢查分析,在故障現象發生時間段,服務器1、服務器2歷史數據存儲正常,說明當時服務器數據讀取正常;通過查報警歷史,在這個時間段里出現了多條原來一直存在的報警(相當于報警更新),說明有出現過報警更新,導致報警更新的可能原因有IFIX的開關、網絡切換等;操作員站、服務器在某個時刻出現網絡切換,導致數據在切換過程中出現了丟包現象,造成操作員站畫面出現部分數據無顯示的現象。
導致網絡切換的因素有:控制站CS1W-ETN21網絡數據交換卡出現通信異常自動切換、思科交換機使用年限久、網絡線接頭松動、老化等等。
1.3.2 預防類似情況發生的方法
針對類似情況,為防患于未然,通過對已連續運行5年多的(5個控制站)10個CS1W-ETN21網絡數據交換卡進行重新測試、試驗,針對切換速度滯后、信號燈顯示相對較弱的更換了3個卡件;并將思科交換機S2950更新為S2960版本交換機;為進一步確保系統網絡正常,將整套系統控制站到交換機的10條網絡線進行更新。經過近幾年的運行,類似上述現象再未出現。
爐外脫硫脫硝和利時HOLLIAS-MACSV5系統,整個網絡框架是上雙路下雙路冗余布局,雙服務器,2017年調試運行中出現過雙服務器自身重啟、控制站死機、網絡風暴等危及生產安全的現象。
(1)由于種種原因,爐外脫硫脫硝系統品牌一致、軟硬件版本不一樣,為了將MACSV6數據通過網內通信并入MACSV5系統,在做控制站邏輯算法時,由于低版本要兼容高版本,出現兩臺服務器先后自動重啟現象,操作員站畫面無法監測到生產數據,監控層與服務器網絡通信中斷,給生產帶來了很大的安全隱患,在數據采集工作完成后,整套系統調試好正常投運過程中,再一次出現被掛控制站CPU不運行、SNET等不亮等現象,直到檢修人員只能重新啟動控制站,整套系統才正常運行。和利時系統在進行軟硬件升級時,首先需要考慮到用戶現場實際情況,對于低版本兼容高版本時的不穩定不安全因素,應及時和客戶溝通并告知,因此,在今后新建、擴建、改建時要著重注意整套系統軟硬件的兼容性,否則會給企業生產帶來安全隱患。
(2)在MACSV5系統維護過程中,如在進行邏輯算法程序編譯正常后在線下裝時,時常出現初始化下裝,最終為了確保生產正常運行,直到機組停運時才下裝。MACSV5.2.5系統,服務器在做切換時,時常要切三次以上才能正常切換,給維護檢修人員帶來了極大的不便。后經向廠家技術人員詳細了解,MACSV5.2.5系統本身具有缺陷。
DCS系統是確保我司正常生產過程控制的核心,包含的主要設備多,系統是否穩定運行,大都取決于DCS系統的日常維護檢修工作是否到位,這對我們熱控管理和維護檢修人員提出了更高的要求。因此,我們要建立完善的DCS系統管理規定(軟硬件管理、審批管理、電子間管理等制度);同行業間多進行交流學習,平時出現的現象和處理要做好臺賬記錄,不斷提高維護技能,不斷創新提高自身的維護檢修水平和能力,以進一步保障DCS系統更穩更優地服務于生產過程控制。
我司兩套不同品牌版本不一的DCS系統,監控整個企業生產的設備較多,DCS系統還肩負著第三方數據采集任務(環保、能源計量、碳排放數據采集),在生產運行過程中也會出現不同的缺陷問題,但有些缺陷問題具有相似性,采取適當措施可以預防。筆者能力有限,僅就近幾年參與DCS系統維護檢修生產時遇到的問題在文中進行了闡述,供大家參考。在未來功能逐步強大的DCS系統會更加完善,更加穩定,也將更好地為熱電行業安全穩定生產服務。