李均強,李鐵成,李宣義,栗會峰,王獻志,王亞軍
(1.國網河北省電力有限公司電力科學研究院,河北 石家莊 050021;2.國網河北省電力有限公司,河北 石家莊 050021)
遠動裝置是電力調度自動化系統的關鍵設備,其穩定可靠運行對于電網調度自動化信號準確上送有著極重要作用[1-4]。目前,遠動裝置廠家、型號較多,軟件版本管理無序,易導致家族性缺陷的發生[5]。
家族性缺陷對電網安全運行帶來很大的隱患,當故障發生時,必須要采取有效措施避免類似問題重復發生。
2019年,河北省南部電網多個變電站遠動裝置在省調前置切換通道后不能建立鏈接,同時面板顯示CPU使用率99%,重啟遠動裝置后通道切換正常,運行一段時間(2~3個月)后相同問題會再次發生。經查,這些變電站均采用同一型號的遠動裝置,并采用同一軟件版本,此次缺陷認定為家族性缺陷。
針對缺陷開展分析定位,首先靶向搭建離線測試環境,在測試環境中對家族性缺陷現象進行復現,然后根據缺陷測試進一步分析,提出程序修改意見。完成新軟件版本開發后對新軟件版本進行離線測試,若新版本測試不合格,需進一步分析原因,對程序進一步優化,直到問題解決。新程序經離線測試合格后,選取1~2個變電站進行試運行。經試一段時間試運行無問題,在管轄區域內相同型號設備進行推廣,流程示意見圖1。
經分析,遠動裝置程序中建立104規約通道鏈接的線程中,存在一個線程鎖的解鎖機制,而對應的上鎖操作在104規約主線程中,該線程鎖操作機制不夠完善。遠動機在多次切換通道后,有一定機率出現線程死鎖并無法繼續進行報文通信,同時CPU利用率達到99%的問題。

圖1 家族性缺陷處理流程示意
對本次家族性缺陷搭建模擬環境,見圖2。設置模擬主站地址為172.20.40.1~172.20.40.8(A電腦)、172.20.50.1~172.20.50.8(B電腦),配置上把172.20.40.N與172.20.50.N的地址設為主備配置,例如把172.20.40.1與172.20.50.1作為主備配置,設置遠動裝置通信地址為172.20.70.2。

圖2 模擬測試環境架構示意
在模擬測試環境下,對存在家族性缺陷的原始程序進行測試,實現缺陷的復現。
3.3.1 多主站IP地址單主模式下的104斷鏈性能測試(單電腦模擬)
測試步驟為:電腦A綁定172.20.50.1~8的8個地址;啟動104主站模擬軟件;順序或隨機啟動模擬主站軟件配置的8路地址的104鏈接;順序或隨機斷開模擬主站軟件配置的8路地址的104鏈接;快速重復啟動、停止100次。
表1為選取的2019年12月15日啟、停2路(172.20.50.1~2)104鏈接部分日志情況。

表1 啟、停104鏈接部分日志
測試結論:遠動裝置的104程序能正確鏈接或斷開。
3.3.2 多主站IP地址主備模式下的104鏈接原理測試(雙電腦模擬)
測試步驟為:電腦A綁定172.20.50.1~8的8個地址并啟動104主站模擬工具;電腦B綁定172.20.40.1~8的8個地址并啟動104主站模擬工具;啟動電腦A/B的模擬主站配置的1~8路地址的104鏈接;啟動電腦B/A的模擬主站配置的對應1~8路備用地址的104鏈接。
測試結論:遠動裝置無法同時鏈接互為主備的主站IP(例如172.20.40.1與172.20.50.1),先與遠動裝置建立鏈路的會被后啟動鏈接的鏈路代替,也就是互為主備的主站IP,永遠一路運行一路備用。
3.3.3 多主站IP地址主備模式下的104通道切換測試(雙電腦模擬)
a.啟動電腦A/B的模擬主站軟件配置的8路地址的104鏈接;
b.啟動電腦B/A的模擬主站軟件配置的8路地址的104鏈接;
c.循環進行步驟a、b。
測試結論:當循環30余次時出現某幾路104通道不再鏈接情況,異常現象如圖3、圖4所示,出現問題與故障現場一致,裝置CPU使用率99%,異常104通道不再鏈接,已鏈接的104通道保持正常。

圖3 遠動裝置資源異常現象

圖4 模擬主站104報文異常現象
優化程序處理機制,把104鏈接的線程中的線程鎖操作機制改成查詢方式。
根據程序修改意見,在存在家族性缺陷的原始程序基礎上進行完善,保證版本迭代升級,避免處理完此問題,又出現其他問題現象發生,實現軟件版本有效管理。
a.多主站IP地址單主模式下的104斷鏈性能測試(單電腦模擬),測試方法同缺陷復現,查看遠動裝置事件得出:遠動裝置的104程序能正確鏈接或斷開。
b.多主站IP地址主備模式下的104鏈接原理測試(雙電腦模擬),測試方法同缺陷復現,查看遠動裝置事件得出:遠動裝置互為主備的主站IP,永遠一路運行一路備用,功能正常。
c.多主站IP地址主備模式下的104通道切換測試(雙電腦模擬),測試方法同缺陷復現,選取的2019年12月16日104通道切換部分日志情況,通道切換測試日志見表2。
經過幾天數千次的切換測試,遠動裝置無現場的異常現象出現,主備地址可以正常切換,CPU使用率正常。
其他常規功能測試情況見表3。
通過測試,發現遠動裝置新程序解決了遠動裝置104通道鏈接異常問題,且其他功能也滿足要求。

表2 通道切換測試日志

表3 遠動裝置常規功能測試情況
選擇發生缺陷的2個變電站的遠動裝置進行新版本程序升級。試運行一個月后,各遠動裝置未發生異常。
遠動裝置程序升級后,經過多次的切換測試,各個通道地址均可以正常切換,CPU使用率正常,其他功能正常,河北省南部電網共有70個變電站采用此型號遠動裝置,在新版本程序試運行穩定情況下,可以進行推廣,將70個變電站的軟件版本都進行更新。
在其他廠站的推廣,解決了此次遠動裝置104通道鏈接異常家族性缺陷。家族性缺陷給電網安全穩定運行帶來很大危害,及時發現并采取有效措施消除家族性缺陷對電網安全穩定運行具有重要意義。