王茂春, 褚云龍
(1.國家電網有限公司青海省電力公司, 青海 西寧 810008; 2.國家電網有限公司西北分部, 陜西 西安 710048)
調度數據網是國家電網調度自動化、管理現代化的基礎,是確保電網安全、穩定、經濟運行的重要手段,是電力系統的重要基礎設施,在協調電力系統發、送、變、配、用電等組成部分的聯合運轉及保證電網安全、經濟、穩定、可靠的運行方面發揮了重要的作用。電力調度數據網為電力生產、電力調度、水庫調度、燃料調度、繼電保護、安全自動裝置、遠動、電網調度自動化等通信提供保障,在電力生產及管理中發揮著不可替代的作用[1-2]。
網絡環路導致網絡癱瘓或中斷是在調度數據網運維工作中經常遇到的問題[3-4],但是在規模較大的網絡環境中,這種故障常常具有較強的隱蔽性,無法快速高效地處理。本文針對某500 kV變電站調度數據網的故障,詳細闡述了故障處理的過程,分析了故障發生的原因,為此類故障的處理提供參考[5-6]。
接到國家電網某業務部門反饋,某500 kV變電站調度數據網B平面調度發令業務中斷。國家電網調度數據網網管發現該500 kV變電站調度數據網交換機B無法網管,檢查路由器B,發現OSPF狀態異常。通知現場人員檢查交換機是否正常,現場答復交換機B運行正常。隨后通信運維人員進站處理。查詢調度數據網網管告警時,告警顯示該變電站調度數據網接入層交換機A和B均脫管,路由器A和路由器B與下聯交換機的OSPF狀態均異常,該變電站調度數據網實時業務和非實時業務全部中斷。
500 kV變電站調度數據網拓撲如圖1所示。

圖1 500 kV變電站換調度數據網拓撲圖
通信專業運維人員到達變電站現場后,檢查調度數據網交換機A和交換機B配置的文件,檢查結果為配置文件正常。
隨后跳開II區縱向加密裝置,用網線直連路由器和交換機,ospf狀態依舊為異常狀態。在保存配置后,分別重啟交換機A、交換機B,重啟后,故障狀態依舊。在保存配置后,重啟路由器A,重啟完成后,故障狀態依舊。關閉交換機B,檢查路由器A ospf狀態為異常狀態。關閉交換機A后,檢查路由器B檢查路由器A ospf狀態,ospf狀態為正常狀態,交換機B恢復網管,業務恢復正常。拔除所有連接交換機A的業務網線,只保留II區縱向加密裝置與交換機A的互聯網線,ospf正常建立。網管能遠程管理交換機A,檢查CPU使用率,如圖2所示。
ospf狀態如圖3所示。

圖3 交換機A 的OSPF協議狀態
此時CPU使用率正常,ospf狀態正常。
逐步接入交換機A業務網線,接至網口11在線監測業務時,CPU使用率暴增,如圖4所示。

圖4 交換機A CUP使用率
ospf狀態由正常轉為異常狀態,如圖5所示。

圖5 交換機A OSFP協議狀態
恢復交換機A接入,除交換機A端口11在線監測業務外,其余端口網線均正常接入,CPU使用率正常,如圖6所示。

圖6 交換機A的CUP使用率
ospf狀態恢復正常,如圖7所示。

圖7 交換機A 的OSPF協議狀態
業務恢復正常。
調度數據網交換機A端口11業務為在線監測業務。變電站在線監測裝置拓撲結構,如圖8所示。

圖8 在線監測裝置拓撲結構
在線監測裝置1、在線監測裝置2、在線監測裝置3、在線監測裝置4分別通過3個交換機與在線監測裝置綜合處理單元交換機相連,在線監測裝置綜合處理單元交換機通過Eth1網線將數據上傳至在線監測綜合處理單元主機,在線監測綜合處理單元主機經過Eth3網線橋接在線監測綜合處理單元交換機與調度數據網相連。
在線監測裝置恢復聯網過程中,在綜合處理單元交換機處形成網絡環路,如圖9所示。

圖9 綜合處理單元交換機處形成網絡環路
綜合處理單元交換機二層交換機環回時,連接到調度數據網的交換機A機的11口上產生大量的數據收發,產生廣播風暴,造成鏈路阻塞,占滿整個帶寬,使得調度數據網交換機A機的CPU使用率過高致使設備進程運行緩慢,導致OSPF路由協議中斷,網絡管理不上,其他端口業務不能正常上送。交換機A、B互聯23口(缺省配置)使得廣播風暴直接到達交換機B ,導致交換機B的CPU使用率過高,同樣造成OSPF路由協議起不來,調度交換機B上業務不能正常收發,最終導致調度數據網交換機A和交換機B癱瘓,變電站調度數據網業務全部中斷。
通過某500 kV變電站調度數據網故障處理分析。認真總結經驗,針對調度數據網業務接入制定了更加完善的管理措施和技術措施[7-8],與國家電網其他單位分析此次故障處理經驗,共同保障國家電網電力系統的安全穩定運行。