張貴川
摘 要:防汛調度決策系統,作為水電廠的一套重要的基礎系統,對電廠的安全生產和經濟運行有著十分重要的作用。本文針對防汛調度決策系統內網采集服務器出現的一系列故障現象,分析了故障出現的原因和處理過程,以及讓系統恢復正常運行的臨時應急處理措施,為水電廠此類故障的分析、處理及防范提供參考。
關鍵詞:決策系統;采集服務器;數據采集;故障
青溪水電廠防汛調度決策系統是一個集實時數據采集與處理、水務計算與管理、水文資料整編、水庫水文預報、水庫防洪調度、水庫優化調度、防汛業務管理等功能于一體的專用自動化系統。整個系統由數據庫、內網采集、內網通訊、外網通訊、外網web 5臺服務器組成,其中內網采集服務器包含有水情數據采集、機組數據采集、水務計算、數據處理、實時數據處理等功能。
該系統于2007年4月30日投運,設計使用壽命為5年,從2012年底開始,系統故障率明顯增高,由于采集服務器承擔的系統工作任務多,發生故障的概率也高于其他四臺服務器。
1. 故障經過及現象
值班員在值班過程中,發現內網工作站上青溪水電廠的水情數據和機組出力數據中斷。隨后進行遠程桌面連接進行查看,但是從工作站遠程連接內網采集服務器未能成功,且此時工作站的故障現象更加嚴重,所有防汛調度決策系統相關的軟件均無法運行。
隨后,青溪水庫調度班技術員到廠區對服務器進行仔細檢查,經過對5臺服務器進行檢查,除內網采集服務器故障以外,其余四臺服務器運行正常,內網采集服務器故障現象,如圖1所示。
在第1次和第2次對該服務器進行重啟時,系統均順利啟動,但在進行一些操作之后,很快又進入圖1所示畫面狀態。
當第三次重啟時,系統已經無法進入,彈出故障畫面,如圖2所示。
2. 故障原因分析及應對措施
當發現最初的故障時,青溪水電廠水情數據和機組數據同時中斷,水情數據采集軟件(ACSCOMM.EXE)和機組數據采集軟件(CommuniProtocol.exe),均運行在內網采集服務器上,初步判斷是由于該服務器上的數據服務程序(Dbsrv2000.exe)卡死造成以上兩個數據采集軟件均無法正常運行。針對這一故障,進行初步處理:遠程登錄內網采集服務器重啟數據服務程序。但遠程連接失敗。
當工作站上的相關程序均無法打開,無法遠程連接采集服務器,且網絡正常的情況下,可以判斷是采集服務器處于死機狀態。在進入廠區檢查后,對死機狀態下的采集服務器進行重啟,兩次重啟操作,均在進入系統后一段時間后跳到藍屏死機狀態(如圖1),隨即把相關情況匯報給領導,并聯系南瑞技術人員。
在南瑞技術人員的指導下,對采集服務器進行了安全模式下的重啟,但是啟動失敗,并跳到黑屏死機狀態(如圖2)。此時,南瑞技術人員下了初步結論:硬件故障。
采集服務器死機時,硬盤指示燈均不亮,在南瑞技術人員的建議下,檢查硬盤是否出現接觸不良狀況。隨即向領導申請,暫時停掉防汛調度決策系統的一切工作,對5臺服務器實施關機操作。
整個系統停掉后,取出了采集服務器所有硬盤,所有硬盤均被厚厚的灰塵所包裹住,在進行清潔處理后,對采集服務器進行再次重啟,但重啟仍然失敗。
綜上,此次故障的原因為:采集服務器硬件老化,已經超出使用壽命年限;采集服務器運算量大,且對服務器保養不夠到位。
經過多方確認,最終的結論是:采集服務器硬件損壞,已無法啟動。由公司領導、公司技術人員、南瑞技術人員組成的團隊進行了緊急協商,并提出了以下建議和措施:第一,公司必須立即采購防汛調度決策系統新的服務器,并對該系統進行整體改造;第二,防汛調度決策系統作為水力發電廠重要的基礎系統,必須立即采取措施,讓防汛調度決策系統在整體改造前,能夠正常運行,以支持水電廠安全生產的需要。
3 .該重大缺陷應急處理措施
青溪水電廠技術人員與南瑞技術人員充分溝通之后,得出了恢復系統正常運行的應急處理方案:把運行在采集服務器上的所有程序轉移到內網通信服務器或者數據庫服務器上,由于考慮到數據庫及決策系統的安全,最終方案是把采集服務器上的所有程序轉移到內網通信服務器中。具體應急處理措施如下:
第一步,在方案確定后,完成了對涉及采集服務器的所有布線(特別是連接機組監控系統與水情采集系統的布線)的重新梳理,避免在維護過程中因為誤碰導致故障擴大。通過在內網通訊服務器上搭建無線網絡,建立起了南瑞技術人員遠程協助的網絡通道。
第二步,在把之前備份的采集服務器相關文件拷貝到內網通信服務器后,首先進行恢復的是水情數據采集功能,在恢復過程中遇到眾多問題,最典型的問題是水情數據采集軟件無法與采集平臺接通,經過反復調試后發現是由于無線網卡與本地網卡沖突。
第三步,恢復機組數據采集功能,經過多番嘗試,機組數據采集軟件始終無法連接到監控系統,無法正常取數。經過不斷排查,最終發現是由于監控系統端只能識別原采集服務器IP地址發出的取數請求,無法識別內網通訊服務器的IP地址,只有模擬原采集服務器IP環境,才能讓機組數據采集功能正常運行,因此選擇了一臺個人電腦作為臨時采集服務器,把機組數據采集軟件運行到該臨時服務器下,再與決策系統對接,機組數據采集功能恢復。
第四步,把原本運行在采集服務器上的水務計算、數據處理、實時數據處理三個計算程序逐一轉移到內網通訊服務器上運行,經過不斷調試,三個程序均恢復正常運行。
完成以上步驟后,重新啟動整個防汛調度決策系統并投入運行,整個系統運行正常,至此,原本在采集服務器上的三大功能(水情數據采集功能、機組數據采集功能、數據計算功能)恢復正常運行。
4. 結束語
防汛調度決策系統,作為水電廠的一套重要的基礎系統,其運行時的穩定性、可靠性對電廠的安全生產和經濟運行有著十分重要的作用,在日常維護過程中,要求電廠技術人員必須掌握熟練、高超的系統維護水平,能在短時間內恢復系統出現的一切故障。此次重大故障能在短時間內恢復,得益于嚴格按照備份要求,對整個系統進行定期數據、軟件、網絡環境備份,以及電廠相關技術人員對該系統的熟練掌握。在今后的系統維護工作中,必須注重服務器、機柜等設備的保養,并且進一步加強系統備份管理和技能水平提升,以避免出現其他類似故障時,決策系統無法恢復的情況發生。
(作者單位:廣東省粵電青溪發電有限責任公司)