李正家,周奮強
(重慶大唐國際彭水水電開發有限公司,重慶 彭水 409600)
一起水電站監控系統網絡故障的分析與處理
李正家,周奮強
(重慶大唐國際彭水水電開發有限公司,重慶 彭水 409600)
分析了彭水水電站計算機監控系統網絡通訊故障的原因,糾正了其在施工和調試過程中由于疏忽而導致的接線錯誤。可供相似計算機監控系統網絡結構出現通訊故障時作為參考。
計算機監控系統;上位機;網絡;下位機;H IPER-Ring
烏江彭水水電站單機容量為350MW,其計算機監控系統采用100M光纖雙以太環網兩層結構,主交換機采用赫斯曼MACH 3002系列工業級以太網交換機,其余現地LCU采用赫斯曼MICE MS20系列工業以太網交換機。上位機監視終端的NC2000系統啟動時數據接收緩慢,且有滯后;下位機PLC重啟時初始化速度較慢會導致其CPU出現主從切換。
彭水水電站機組檢修期間,對4號機組LCU進行SOE分辨率測試時發現,當信號間隔為2ms時,計算機監控系統上位機一覽表中測試的SOE信息有丟失現象,且時間記錄不對。由于最初進行SOE測試時發現現地LCU柜CPU模件的對時燈SYNC常亮,故對對時回路進行檢查時,計算機監控系統上位機報“4號機組通信故障”,隨后其他運行機組LCU等均報通信故障,接著計算機監控系統上位機無任何數據。并發現4號機組LCU上的赫斯曼小交換機一個燈常亮,一個燈閃爍。
當時臨時處理:
a)將4號機組LCU斷電,再上電,4號機組LCU赫斯曼交換機在初始化過程中,全廠通信恢復;
b)當4號機組LCU交換機初始化完成,剛參與網絡通信,全廠網絡通信再次故障;
c)將4號機組LCU斷電,其他LCU繼續工作,一段時間后全廠網絡又出現一次網絡通信故障;
d)拔掉4號機組LCU赫斯曼交換機上的網線,4號機組LCU上電,全廠通信恢復。
彭水水電站裝機容量為1750MW,電站各機組由重慶市調統一調度,擔當著重慶電網的調峰、調頻、事故備用的功能,在電網中具有舉足輕重的作用。
計算機監控系統發生網絡通訊故障時,存在如下幾點問題:
a)各機組運行參數不能在計算機監控系統中查看;
b)各機組及公用設備的報警信息等不能及時地進行監視及發現,一旦有異常情況,工作人員變得十分被動;
c)機組的有功功率、無功功率的調整必須在現地調速器及勵磁等盤柜旁由專人進行調節,且負荷調節需跟調度實時聯系;
d)由于網絡通訊故障,致使現地控制柜的PLC,CPU模件出現故障,萬一出現程序誤動作、模件誤開出,輕則影響到設備運行,重則影響到電網的安全;
e)電網調度不能對電站的實時負荷、機組狀態等重要參數進行監視。
由于為計算機監控系統的網絡故障,故對計算機監控系統內的環網交換機、網路拓撲結構分析并作了如下處理:
(1)對計算機監控系統進行網絡故障檢查,發現A網(200網段)和B網(201網段)有貫通現象,決定對計算機監控系統的全廠網絡拓撲結構進行檢查。彭水水電站計算機監控系統為雙環網結構,正常時其雙環網應該為獨立的、無物理連接的。
(2)記錄全廠各現地LCU柜上赫斯曼小交換機MAC地址,用網線連接調試終端和交換機任一空閑網口,用Hdiscovery 1.1軟件設置交換機IP地址。面對LCU背面,規定為右邊交換機為A網,左邊交換機為B網,如表1所示。
(3)在4號機組現地LCU柜內的小交換機上,用網線連接調試終端和A網交換機空閑任一網口,用Industrial HiVision 3.10軟件,掃描網絡,得到彭水電站計算機監控系統A網(如圖1)和B網(如圖2)2個網段的拓撲結構。由如下兩個網絡拓撲結構圖可以看出:其A網和B網并沒有直接相連的跡象,即只從單個計算機監控系統來分析,A網與B網是沒有貫通的。

?

圖1 A網拓撲圖

圖2 B網拓撲圖
由于計算機監控系統自身的雙環網之間沒有貫通,而唯一與計算機監控系統網絡連接的就是二次安全防護系統,故需進一步檢查二次安全防護系統與計算機監控系統網絡的連接情況。
(4)在計算機監控系統網絡柜中,用網線連接調試終端和A網主交換機任一空閑網口,同時把二次安全防護系統連接至計算機監控系統B網的網線拔掉,再用命令pingB網設備,發現A網和B網的貫通現象消失。
進一步檢查發現,計算機監控系統A網主交換機一網口用網線接至二次安全防護系統的一區交換機,計算機監控系統B網主交換機一網口用網線接至二次安全防護系統的二區交換機,如圖3。一區交換機可通過防火墻向二區交換機發送UDP數據包,且一區與二區之間允許ICMP數據包的流動,由此導致監控A網和B網出現貫通現象。

圖3 雙環網與二次安全防護連接圖(改線前)
將各網線恢復至正常狀態,即A網交換機連接至一區交換機的網線保持不變,B網交換機至二區交換機的網線改接在一區交換機上,這兩根網線對應的網口通過交換機的配置將其劃分為兩個VLAN將它們隔離開來,且關閉了一區與二區之間的ICMP協議,保證生產控制區的絕對安全,如圖4。雙環網不再貫通。

圖4 雙環網與二次安全防護連接圖(改線后)
(5)采用HiVvision軟件檢測計算機監控系統環網住交換機的通信負載率,記錄如表2。

?
在計算機監控系統廠內終端機上測試發現,當計算機監控系統B網至二次安全防護二區交換機網線接上,在監控系統廠內終端機上重啟監控應用軟件NC2000,發現啟動很慢,啟動后畫面數據刷新滯后;斷開該網線后,NC2000啟動很快,畫面數據能立即刷新。
(6)斷開監控B網至二次安全防護二區交換機網線,恢復4號機組LCU上CPU的網線接至本機柜內交換機,通信正常,此時A網交換機為主,最高通信負荷率1.41%。
(7)進行SOE分辨率測試,沒有出現報文丟失的現象。
在解決雙環網貫通問題后,一天后發生了第二次網絡通訊故障,上位機簡報窗口出現主機1與所有現地LCU柜CPU1通信故障,接著出現主機1與所有現地LCU柜CPU2通信故障,之后與市調通信中斷;上位機畫面數據不刷新;除返回屏LCU外(返回屏LCU未接入環網),其余現地LCU的兩塊CPU的FAULT燈都亮,且A網交換機上的2個光口,一個燈閃爍,一個燈常亮,情況比第一次網絡通訊故障更為嚴重。
臨時恢復處理:
a)解開4號機組LCU交換機至PLCCPU網線。
b)將網絡柜上的A網主交換機斷電重啟,現地LCU網A網交換機2個光口正常閃爍;全廠網絡通信恢復。
c)依次按下各現地LCUCPU上Reset鍵,復位重啟;CPU FAULT燈熄滅,計算機監控系統恢復正常,各參數顯示正常。
由于網絡貫通故障處理后并未徹底解決網絡通訊故障,故需從交換機的軟件配置、硬件設置上來檢查:
(1)利用IE WEB界面登錄到主交換機,檢查發現主交換機構成環網的2個光口在軟件配置中為光口1和光口2,如圖5可以看出,其RingPort1的Opertion為inactive(不活動的),RingPort2的Opertion為 active,信息(information)中顯示為配置失敗(configuration failure),而工程實施時光纖實際接到光口2和光口4,說明其HIPER-Ring未真正形成,所以需要按交換機軟件設置來更改光纖尾纖接線。

圖5 主機換機環網配置(改線前)
Information:
"Redundancy guaranteed"tells you that if one of the lines affected by the function fails,a redundant line will take over the function ofthe failed line.
"Configuration failure"tells you whether the function is configured completelyand correctly.
(2)檢查確認主交換機設為環網中的主站,檢查確認所有LCU小型交換機撥碼設置為環網中的從站。
(3)用IE WEB界面登錄到交換機,將兩臺主交換機和2號機組、5號機組LCU交換機的日志信息和系統信息導出,發送給赫斯曼交換機廠家技術人員,請其協助分析交換機是否存在故障。
(4)制定好監控網絡通信故障應急預案后,先將B網主交換機電源關閉,將光口4上的光纖尾纖換接至其光口1上,然后將B網主交換機通電重啟。同樣,將A網交換機上的光口4上的光纖尾纖換至其光口1上。
(5)按實際光纖接線更改后,再次利用IEWEB界面登錄到主交換機,檢查確認主交換機構成環網的2個光口在軟件設置中為光口1和光口2,如圖6可以看出,其RingPort1的Opertion為 active,RingPort2的 Opertion為active,且信息(information)中顯示為冗余可靠(Redundancyguaranteed),說明雙環網中的軟件配置光口與實際的接線一致,HIPER-Ring已形成。

圖6 主機換機環網配置(改線后)
(6)采用HiViSion軟件分別掃描A網和B網環網結構,得到拓撲結構如圖7、圖8。

圖7 A環網結構圖

圖8 B環網結構圖
(7)根據各交換機日志信息,分析出某些交換機上存在數據丟包現象。
經過檢查、測試和分析,推斷彭水計算機監控系統網絡故障原因有以下三點:
分析計算機監控系統環網上通信負載率發現,A網和B網貫通后也會導致網絡負載加重,同時,B網與二區交換機連接后,二區一些系統的數據流入計算機監控系統網絡,此種情況下,計算機監控系統軟件NC2000啟動緩慢,畫面刷新滯后。赫斯曼交換機廠家技術人員指出,兩個網段的網絡貫通,會使網絡安全級別降低,某種條件下會出現網絡風暴,不推薦在這種方式下運行。A網和B網貫通后,本來在各自網絡上通行的信文會誤發到對方網絡上,應該收到的信文得不到回應,信文丟失現象嚴重,此種情況下,SOE測試時會出現信文丟失的現象,操作員站雙機簡報信息不一致,使用赫斯曼網管軟件掃描網絡時總得不到全部交換機信息。
雙環網主交換機軟件設置的光口1和光口2作為環網的管理接口,實際只使用了光口2,整個網絡只是物理意義上的環網,沒有形成真正意義上的HIPER-Ring環網,管理報文一直在尋找另外一個管理光口,當報文在端口累積到一定程度時,交換機環網端口故障。交換機實際工作在亞健康臨界狀態,只要網絡負荷稍微上升,故障就會發生,計算機監控系統主機與各現地LCU網絡通信中斷,現地LCU CPU頻繁切換主從,造成CPU模件故障。
現場檢查為網線與交換機網口接觸不良所致,重新拔插并緊固網線后,采用ping命令檢測其網絡,丟包現象消失。
由于計算機監控系統網絡在水電站的重要性,其故障時會對電站設備的運行產生較大影響,鑒于此,采取如下措施:
(1)定期使用網管軟件掃描網絡拓撲結構,監視網絡結構、端口負荷率,交換機自診斷信息和系統信息,分析網絡健康狀況;
(2)定期使用ping命令檢查A網和B網有無貫通現象;
(3)定期使用ping檢查設備端口,若有數據丟包現象,檢查相應端口網線接觸狀況。
通過對計算機監控系統各環網交換機的軟件配置、硬件設置的檢查,同時對二次安全防護設備的網絡設備進行梳理,解決了計算機監控系統網絡通訊故障。處理之后的計算機監控系統,其上位機的NC2000啟動接受數據速度恢復至正常,不再滯后;現地LCUCPU重啟后不再主從切換,且初始化速度很快。
[1]計算機網絡技術及應用[M].水利水電出版社,2005.
[2]現代水電廠計算機監控技術與試驗[M].中國電力出版社,2004.
TP393.07
B
1672-5387(2010)03-0026-04
2010-04-28
李正家(1980-),男,助理工程師,從事大型水電站自動化設備管理工作。