吳 江
(陜西清水川能源股份有限公司,陜西 榆林 719400)
一起DCS控制系統“死機”故障的應急處理
吳 江
(陜西清水川能源股份有限公司,陜西 榆林 719400)
介紹了一起DCS控制系統“死機”故障,回顧了故障應急處理過程,指出故障是由服務器B故障引起的,并分析了故障暴露的問題,總結了DCS控制系統的安全防范措施,對提高DCS控制系統的日常維護水平具有一定的促進作用。
DCS控制系統;故障;應急處理;管理制度
某電廠1期工程裝機容量為2×300 MW空冷燃煤發電機組,1,2號機組的DCS系統采用北京和利時系統工程有限公司生產的HOLLiAS MACS V5.2.4控制系統,組成單元機組控制網與公用系統控制網。1,2號機組的DCS系統服務器為冗余配置,在正常情況下主服務器A運行,備用服務器B保持數據同步運行;當主服務器A發生故障時,自動切換至備用服務器B。
2015-12-26T17:34,1號機組負荷300.82 MW,汽輪機轉速3 002.61 r/min;AGC(自動發電控制系統)未投,AVC(自動電壓無功控制系統)投入;磨煤機A,B,C,D,E運行,汽包水位-18.34 mm,汽包壓力17.86 MPa,爐主汽壓力16.34 MPa,爐主汽溫度537.15 ℃,爐膛壓力-10.14 Pa,除氧器水位2 270.22 mm;凝汽器水位1 118.16 mm,真空-77.56 kPa;熱工自動和保護均正常投入。
17:35,1號機組運行監視人員發現正在滿負荷運行的1號機DCS系統所有操作員站“死機”,即所有數據不更新,無法監控和操作參數,立即逐級匯報至值長并聯系熱工人員處理。值長立即安排運行人員就地對1號機組運行中的重要設備進行監控、待命,并將該故障向有關領導匯報。
17:45,熱工人員在工程師站對1號機組DCS系統進行檢查,發現1號機組DCS系統狀態圖顯示:1號機DCS服務器A主控(此時服務器A已出現軟件故障,數據不能進行更新)、服務器B離線;在電子間對1號機組服務器柜進行檢查,發現服務器A在線,服務器B藍屏,其他交換機等設備工作正常。1號機組工程師站及1臺操作員站電腦重啟后,該故障依然存在。
檢查服務器A的運行軟件,發現“New Task Diag”軟件數據異常,點擊該程序“重置”按鈕,重新啟動應用程序。17:51,服務器A恢復正常,1號機組DCS系統數據恢復正常,各操作員站及工程師站電腦均恢復正常。服務器B重啟失敗后,立即打開服務器B機箱對硬件進行檢查,發現該服務器機箱內部SCAS卡件上有1個電容爆漿,隨即對服務器B清灰檢查并更換SCAS卡件。19:17,服務器B重新啟動成功并入系統運行。19:20,切換主、備服務器正常,服務器A主控,服務器B備用。1號機組DCS系統恢復正常。
在DCS控制系統發生“死機”后,熱工檢修人員與公司技術人員溝通后打開1號機組DCS控制系統服務器系統文件,打開DSvr Diagnose記事本,查看服務器A,B切換記錄,隨即發現2015-12-12T08:07:31時曾發生服務器B故障由主機切為從機,服務器A由從機切為主機。
由于在設備日常巡回檢查中未能及時發現服務器B的故障,直接導致2015-12-26T17:35 1號機組DCS控制系統的2臺服務器同時故障,造成DCS系統全部操作員站“死機”的故障,嚴重威脅1號機組的安全運行。
此次DCS控制系統“死機”故障,暴露了該電廠設備管理部門的管理制度落實不到位,仍留有“死角”。設備管理部門對設備巡回檢查制度雖有詳細要求,且多次提醒、反復強調對重要設備的巡回檢查工作,但在執行中的監督考核制度仍存在較大疏漏。此次DCS控制系統“死機”故障充分暴露了熱工人員對設備巡回檢查存在“走過場”現象,對DCS控制系統的安全隱患及其重要性認識不足,造成完全可以消除的安全隱患長期存在,最終導致1號機組DCS控制系統出現“死機”故障。
(1) 熱工專業針對此次DCS控制系統“死機”故障召開了專題分析會,堅持“事故原因沒有查清不放過、事故責任人沒有受到處理不放過、相關人員沒有受到教育不放過、沒有制定整改措施不放過”的“四不放過”原則,汲取教訓,引以為戒,加強落實設備巡回檢查制度,做到每日必檢,且檢查記錄詳實可靠,堅決杜絕日常檢查“走過場”現象的再次發生。
(2) 熱工專業必須清醒認識到DCS控制系統的突發故障或安全隱患將嚴重威脅機組的安全運行,在日常工作中應認真執行《火力發電廠熱工自動化系統檢修運行維護規程》以及《防止電力生產重大事故的二十五項重點要求》,完善DCS與DEH系統故障應急處置預案,提高突發故障的應急處理能力,確保機組的安全穩定運行。
(3) 舉一反三,設備管理部門應對全廠DCS控制系統及其他重要設備進行全面、細致的隱患排查治理工作,發現問題及時處理;對暫時不能消除的設備隱患應進行匯報,并制定操作性強的臨時防范措施。要強化過程管理與監督,徹底消除安全隱患,并做好風險評估工作。
(4) 該電廠DCS控制系統運行時間長達8年,服役時間較長,應盡早制定技術升級方案,對DCS服務器或對DCS系統進行升級,以確保DCS控制系統更加安全可靠。
電廠DCS控制系統雖然具有很高的可靠性,但若故障發生時未及時處理,將會導致嚴重后果,致使整個DCS控制系統崩潰,造成機組停運或設備損壞事故。為避免類似故障的發生,DCS用戶應加強對DCS控制系統管理與維護人員的培訓,減少人為因素對DCS控制系統的影響,提高系統的安全性和可靠性。DCS廠家應定期跟蹤回訪用戶,深入了解DCS產品在實際應用中出現的問題,從硬件和軟件等方面不斷加以完善和改進。
通過這起DCS控制系統“死機”故障的應急處理,電廠再次認識此類故障的嚴重性和危害性,對電廠DCS控制系統的日常生產維護具有一定的借鑒意義。
1 中國電力企業聯合會.DL/T 74—2015火電廠熱工自動化系統檢修運行護規程[S].北京:中國電力出版社,2016.
2 國家電網公司.防止電力生產重大事故的二十五項重點要求[M].北京:中國電力出版社,2013.
3 孫秋生.一起控制系統故障造成跳閘事故的分析[J].電力安全技術,2012,14(11):32-34.
4 董 飛,艾則提.熱控儀表及DCS系統遭受雷擊的分析與防范[J].電力安全技術,2011,13(1):62-64.
2016-09-11。
吳 江(1971-),男,助理工程師,主要從事火力發電廠熱工設備維護、檢修、安裝和調試等工作,email:372163057@ qq.com。