張詩鵬
(國網福建省電力有限公司檢修分公司,福建 福州350000)
變電站自動化網絡系統對變電站整體運行及遠程監控系統起了重要作用[1],而當變電站自動護網絡系統發生網絡風暴時將危及到變電站正常運行。本文將介紹一起因站控層網絡交換機故障發生網絡風暴導致全站設備通訊中斷的處理過程,分析網絡風暴的異常現象,總結常規變電站網絡風暴處理方法。
2018 年4 月12 日,500kV 某變電站出現了出現部分設備通訊中斷,19 時19 分左右全站數據不刷新,出現大面積通訊中斷,19 時27 分時站內設備通訊逐步恢復,19 時36 分恢復正常。
2018 年4 月16 日,二次檢修人員到該站檢查4 月12 日的異常現象。檢查過程中再次出現的全站設備通訊中斷的現象,本次通訊中斷的持續的時間較4 月12 日故障時間更長,而且沒有自行恢復,隔離聯變35kV 保護小室交換機1 后才逐步恢復正常。
故障發生時觀察到如下現象:一是首先觀察到聯變35kV保護小室的A、B 網交換機1 的網口通訊燈出現不規則閃爍,正常運行時交換機的網口通訊燈應同時閃爍;二是500kV 保護小室的A 網交換機遲于聯變35kV 保護小室交換機出現不規則閃爍;三是故障發生時監控后臺出現卡死,數據無法刷新;四是故障發生后測控裝置面板出現“請等待”卡死畫面,詳見圖1。

圖1 故障時,測控裝置出現卡死畫面
二次檢修人員導出4 月12 日故障發生時的該變電站遠動機上送的報文及設備通訊中斷的事件記錄。通過分析4 月12日通訊中斷事件記錄,詳見表1,發現如下規律:一是19:04:27.220 時出現多臺設備B 網同時中斷,19:05:27.225 時出現多臺設備A 網同時中斷;二是19:04 至19:19 之間出現通訊中斷的設備均為聯變35kV 保護小室內設備;三是通過遠動機報文分析,19:19:24.591 兩臺遠動機均不刷新,故出現了其他保護小室內設備通訊中斷;四是19:28:54.500 時220kV、500kV 保護小室設備通訊陸續恢復正常,19:36:24.484 時最后幾臺設備通訊恢復正常,最后恢復的設備為最早通訊中斷的聯變35kV 保護小室設備。綜上所述,初步判斷某臺站控層交換機故障引起站控層網絡出現網絡風暴,測控裝置CPU 處理不了大量報文,陸續出現通訊中斷,遠動機被大量報文堵塞造成上送數據不刷新,造成全站設備通訊中斷。
4 月16 日,二次檢修人員到站內檢查時發現聯變35kV 保護小室的A、B 網交換機1 的網口燈閃爍異常,懷疑此兩臺交換機異常。13 時54 分,運維人員通知檢修人員站內部分設備通訊中斷。二次檢修人員判斷4 月12 日故障現象再次出現,隨后到各保護小室檢查發現A 網交換機出現不規則閃爍。14 時24 分,該站全站設備A、B 網通訊中斷,數據無法刷新,判斷此時站控層網絡發生了網絡風暴,需要緊急申請隔離部分交換機查找網絡風暴源頭,恢復站內監控,具體處理情況如下:
(1)將站內網絡情況向省調反饋,確認站內上送數據均無法刷新,向省調申請將該站轉就地監控,需要斷開站內斷開各小室交換機查找故障原因。
(2)將相鄰兩臺已卡死的測控裝置分別拔掉A 網、B 網網線,觀察哪臺測控恢復正常來確定網絡風暴發生在A 網還是B網。通過觀察拔掉A 網網線的測控恢復正常,確定網絡風暴發生在A 網。
(3)從220kV 保護小室(一)開始逐臺隔離A 網交換機,觀察站內設備是否恢復恢復正常,隔離聯變35kV 保護小室A 網交換機1 后不久站內裝置通訊恢復正常,至此判定聯變35kV保護小室A 網交換機1 為故障源頭。
(4)15 時03 分站內設備通訊恢復正常,遠動上送數據恢復正常刷新。聯變35kV 保護小室A 網交換機的光纖未插回,處于觀察狀態。檢修人員與運維人員一同檢查了監控后臺顯示通訊恢復正常,數據正常刷新,同時向省調匯報了異常處理情況,確認了遠動機上送數據恢復刷新。

表1 2018 年04 月12 日某變電站通訊中斷事件記錄
通過檢修處理過程分析得出以下結論:
(1)站控層網絡發生了網絡風暴,網絡風暴產生了大量的報文,造成測控裝置及遠動機CPU 無法處理,導致全站設備通訊中斷。
(2)通過分別拔出相鄰兩臺已卡死的測控裝置的A 網、B 網網線,通過觀察拔掉A 網網線的測控恢復正常,確定網絡風暴發生在A 網。
(3)通過逐臺隔離A 網交換機,確認聯變35kV 保護小室A網交換機1 異常導致產生網絡風暴。
變電站出現網絡風暴的原因比較復雜,歸納起來有如下幾種原因:
(1)網卡損壞:如果網絡機器的網卡損壞,也同樣會產生廣播風暴[2]。故障的網卡不停向交換機發送大量的數據包,交換機不斷轉發導致網絡擁堵,最終導致廣播風暴[3]。
(2)網絡環路:一條物理網絡線路的兩端同時接在了一臺網絡設備中將導致網絡環路的產生,導致了網絡性能驟然下降。這種故障,就是典型的網絡環路。在變電站綜自網絡改造過程中如果網絡搭接未先斷開舊的級聯網線就接上新的級聯網絡將導致發生網絡風暴。
(3)網絡病毒:網絡病毒一旦入侵網絡設備,它們便會立即通過網絡進行傳播,會占據大量的網絡帶寬,引起網絡堵塞,進而引起廣播風暴。
(4)黑客軟件的攻擊:網絡黑客利用黑客軟件入侵變電站的內部網絡進行攻擊,也可能產生廣播風暴。
(1)變電站自動化網絡若發生疑似網絡風暴現象,應及時確定是否發生了網絡風暴,可以通過接入站控層網絡交換機進行抓包分析,如果交換機的CPU 利用率較高,且大部分的資源都被"IP Input"進程占用,則基本可以確定網絡中有大流量的數據
(2)迅速定位網絡風暴源頭,根據分別隔離的辦法確認網絡風暴發生站控A 網還是B 網,以便及時查找故障源頭。
(3)分段隔離查找故障點,可以采用局部隔離的辦法迅速鎖定故障點,盡快回復站內自動化網絡。
(4)查找過程中應檢查近期是否有自動化網絡的工作是否可能導致產生網絡環網。
網絡風暴將嚴重影響變電站自動化網絡正常運行,若未及時有效處理將有可能導致站內自動化網絡系統癱瘓。當變電站發生網絡風暴時,應根據異常現象采取正確的方法及時查找出并隔離網絡風暴源頭后消除隱患。