韓 翰,毛正中
(廣東電網有限責任公司廣州供電局,廣東 廣州 510620)
隨著數字信息網絡的普及和應用,技術密集型電網企業的生產建設場所、變電站/所、營業場所及辦公自動化管理區域已被數字傳輸網絡全覆蓋。承載電力運營的數字傳輸網絡系統由多層級、多子網的系統以及數以萬計的物理電子設備和集成模塊分層級構成,其敏感的電子元器件長期受內、外部環境以及主、客觀因素的影響導致網絡故障頻發,造成嚴重的經濟損失和社會影響。因此,預防和阻斷故障迫在眉睫,以某電網企業為例,通過對該企業故障信息的采集、甄別歸類,分析其行為故障、生物環境故障、物理設備故障(邏輯故障)的變化趨向及形態特征,針對性地制定故障的預防方法和控制策略,消除隱患,確保電力系統運行的安全。
信息傳輸網絡故障是指網絡設備或網絡系統不能實現所規定的運行功能,系統的神經網絡或通信設備的部分元器件功能失效,導致危及整個信息組合系統健康運行的故障。
按照故障影響因素歸類,可分為行為故障、生態環境故障和物理設備故障。根據2018—2021年網絡故障類型甄別統計結果,該電網企業共發生各類網絡故障1 077次,其中行為故障438次,占比41 %;生態環境故障335次,占比31 %;物理設備故障304次,占比28 %;年度故障累計依次為232次、250次、278次、317次,各類型故障發生數量均呈現逐年上升趨勢,且所有故障類別中行為因素引發的故障最多。
行為故障泛指人的不安全行為導致的網絡故障。行為故障因素主要包括思想麻痹、心理僥幸、行動冒險等,多表現為在原故障未解除時進行操作,如缺乏防護裝備、缺失警告或在不安全的環境下進行不規范操作、麻痹大意等。行為故障在項目的建設施工、設備安裝、調試、維修或應急故障處理過程中比較多見,如作業不規范、作業流程不嚴謹、作業監控檢查不到位等。也有部分行為故障源于機制,如缺乏工程技術對策、教育對策、法制約束對策等。
1.2.1 氣候環境因素導致故障
從2018—2021年統計數據來看,故障受生態環境因素的影響較大。隨著特殊惡劣天氣變化、季節性氣候變化,不可預見性的自然災害故障頻發,且故障呈季節性特征,其中一季度初、二季度末、三季度初、四季度末均為事故多發時段。
季節性的故障多屬于物理故障,例如強臺風可以襲擊桿塔、摧毀運行網絡,洪水和冰凍可能導致基站設備和線路損壞,陰雨天氣也可能出現鏈路接口松動或轉換器受潮漏電斷電、絕緣破壞或嚴重的電磁干擾等導致故障的情況。
1.2.2 生物環境因素導致故障
電網面臨的環境威脅不僅僅是氣候,田鼠、飛禽、壁虎、蜂窩等生物也會給網絡設備帶來較大的破壞風險,例如田鼠、松鼠、飛禽對集成驅動電子設備(integrated drive electronics, IDE)數據線、排線、光纜的破壞力較大,該企業架設的全介質自承式光纜(all-dielectric self-supporting optical cable, ADSS)就曾因鼠害造成信息網絡中斷高達30余次。
該企業管轄著六大供電區域(A~F),其中A、B供電區域為開發區,C、D為次開發區,E、F為老城區。統計發現,信息網絡故障呈區域性分布特征(見表1),老城區出現的故障最多,其中E區故障為224次,F區為282次,而其他區域故障數量基本為100多次,說明老城區的信息網絡存在嚴重的安全問題。

表1 2018—2021年故障區域分布 單位:次
老城區早期建設的信息網架結構多為環形、星型和總線型、令牌環、光纖分布式數據接口(fiber distributed data interface, FDDI)、異步傳輸模式(asynchronous transfer mode, ATM)網絡構架。環形結構的主要缺陷是穩定性、冗余、容錯能力不足,加上設備運行年數已久,若出現一處故障就會導致全環癱瘓,從而造成老城區的物理故障和邏輯故障頻發,如配電終端遙測數據異常、終端無法正常運行、配電終端遙信數據異常、配電終端遙控失敗、配電終端無法上線、路由端口參數設定及配置錯誤、無法識別遠端地址或子網掩碼錯誤等。
綜上,信息傳輸網絡故障因素既存在于客觀生態環境中,又存在于人的潛意識形態中,并隨著物理設備的使用和網絡技術的自然老化,存在著一定的規律性、季節性特征。若不能及時控制,會劣變蔓延導致更多的故障,使企業遭受更大的經濟損失。因此,對于安全網絡故障,必須予以重視,要做好嚴防預控,及時阻斷、避免和減少故障的發生。
2.1.1 三角控制模型
行為故障是人們在社會生產實踐中因缺乏責任感、安全意識薄弱導致操作控制失誤引發的故障。根據行為故障的特征,按照現代化管理方法,建立控制行為故障的三角模型,以此約束故障行為。該三角控制模型包括行為理念、行為規范、行為能力三大模塊(見圖1)。

圖1 行為故障三角控制模型
1) 行為理念模塊,主要包括安全教育培訓、預防性安全宣傳視頻及其相關的安全活動,如安全警示教育、安全故事會、安全事故演練等影響人們意識行為的內容。
2) 行為規范模塊,主要用制度來規范其行為,涉及法律規章制度、流程標準、安全激勵等。
3) 行為能力模塊,主要涉及勞動者專業技能知識、實際操作能力、生態環境應對能力提升等。
2.1.2 行為故障控制方法
1) 建立完善的安全保證機制、安全激勵機制、故障處理流程及環境作業標準;對于專業技能知識、新設備新技術,舊設備狀態檢測及維修技術,安全理念、責任擔當、職業道德等內容,編制大綱、文字教材和多媒體教材及課件,針對性地提升企業員工的知識和技能。
2) 建立員工能力提升或人才成長的保障機制,保障員工接受培訓的機會和時間,并通過對確定主題的內容和邊緣相關科學的課時培訓和學習實踐來提升其行為能力。只有針對性地將安全教育做細做實,才能真正地改變人的行為能力。
2.2.1 生態環境導致故障的管理控制
1) 常規關系技術模塊。建立抗災通信常規關系技術集成模型,及時獲取抗災常規電網特性數據。
2) 應急業務技術模塊。建立應急信息技術集成模塊,獲取電網故障信息及故障設備的應急信息。
3) 關鍵業務技術模塊。建立關鍵業務技術模塊,收取電力生產、調度、變電站/所、線路保護及配電自動化特性數據信息。
4) 綜合保障方案技術模塊。建立抗災綜合保障方案技術模塊,根據收集的特性數據信息制定通信保障及實施方案。
對于臺風頻發地區,可建立專網基站,系統選擇頻段覆蓋能力大的900 MHz系統設備,對重災地區配置衛星通信;災害頻發的(市)縣可以建立全球無縫寬帶局域網(broadband global area network, BGAN),依托中國北斗衛星監控功能獲取地理信息;故障風險指揮機構可配置北斗指揮遙控機,重災(市)縣可配置普通型北斗中端、導航、定位“報文機”和便攜式無線數字裝備,實現有線無線互補、靈活應對。
對于洪澇、冰災頻發區,可適度提高網絡線路的技術標準,加強網絡線路適應洪澇、冰雪的能力,如提高基站軟硬件設施、光纜專線、纜芯、絕緣套膠以及附屬金具裝備的技術等級等;對己建設的網絡線路進行升級改造,建立在線故障監測預警系統,實時檢測網絡線路健康狀態。
對于雷擊頻發的地區,可對重點保護光纜線路及網絡基礎設施安裝智能激發可控放電避雷裝置,激發上行雷電先導,減少雷電對裸露光纜線路、基站設備裝置的損害,確保網絡系統的安全性。
2.2.2 生物環境導致故障的管理控制
生物環境中的飛禽走獸常給信息傳輸網絡造成破壞,引起鏈路通信中斷或跳閘短路,如田鼠對地下纜線的破壞性極強,飛禽歇落、筑窩對空中纜線造成危害等。在封、擋、堵、粘、藥等傳統滅害方式的基礎上,可采取物理學器械滅鼠法、電子貓微波20~50 Hz強力超聲器滅害法、輸電線感應電壓驅趕等新方法,降低纜線通信故障率。
電網企業的信息傳輸網絡系統由各單位根據自身基礎資源情況建立,該企業的數字信息網主要以電力載波通信、光纖通信(包括準同步/同步數字體系及基于同步數字體系開發的多業務傳統平臺等)、微波通信、無線通信等技術多層級構建,結構復雜,業務種類繁多,設備故障頻發。應對物理設備故障的最好方法是增強物理設備故障的診斷和識別,使其能夠準確地處理故障,同時對原有網絡資源改造升級從而阻斷和減少故障。
2.3.1 硬件故障控制
信息網絡平臺的硬件設備最常見的故障是接口設備損壞、線路折斷,以及路由器、適配器、集成系統設備故障等。硬件故障診斷方法如下。
1) 利用網絡管理工具(包括局域網或廣域網分析儀)及其他故障診斷工具檢測采集的信息。借助各種電子通信儀檢測設備性能及運行狀態特性數據,判斷設備是否存在故障風險;通過監視故障設備報警信號、報警指示燈識別診斷處理故障;通過數據采集與監視控制(supervisory control and data acquisition, SCADA)系統的單元裝置與調度中心間的遠距離信息傳輸獲取設備運行狀態參數等;利用遠端測控單元裝置對現場遠端設備信號進行監控測量與控制;通過系統命令識別故障,對各端口進行狀態檢查;利用show proe命令、show drocmem命令查看路由器運行狀態等。
2) 通過巡檢采錄故障,包括人工現場巡檢和智能無人機巡檢兩種方式。
① 人工現場巡檢。該方式可以實現定期分區、分片巡視檢測,記錄信息網絡設備的脆弱狀態及帶病運行狀態,例如通過人工巡檢可以及時發現傳輸設備因承受溫度過高而導致光纜防護套膠老化脫落、芯線熔斷,以及溫度過低導致光纜套膠緊縮、接頭線盒進水或結冰出現短路、集塵腐蝕的不良現象。因此,通過人工信息采集分析,有利于更直觀、更準確、更快捷地發現并處理故障。
② 智能無人機巡檢。對原野山崗通信基站、長距離光纜的巡檢,可啟用無人機巡航采拍記錄故障信息,特別是冰雪、洪災、滑坡等自然災害引發的設備故障及山區峽谷人工巡線無法到達的高風險區域,可利用無人機的GPS導航技術、航空遙感測量技術等收錄故障信息,以便及時診斷處理。
3) 通過標準化管控分析處理故障。建立標準化的網絡設備狀態監測與管控體系,做好設備維修、設備資產、設備全生命周期的狀態化、精準化管理,網絡設備信息系統故障的統計報表分析,閑置、報廢設備的靜動態綜合數據分析,運維數據、運行時間、故障頻次、關聯資源及運維費用管理分析;建立故障知識庫,歸集緊急維修、狀態維修、定期維修檔案庫,實現系統信息數據資源的共享和故障狀態的快速響應。
2.3.2 軟件系統故障控制
軟件操作系統主要由數據庫應用服務器、系統診斷和性能測試軟件QAPLUS、防火墻軟件PCTOOLS及其他計算機服務軟件等構成。常出現的軟件故障主要有系統端口或運行數列及進程遭到病毒襲擊導致網絡不能正常運行或系統關閉的系統端口故障,以及驅動程序發生錯誤、網絡參數配置不當、網絡通信協議問題等導致的軟件邏輯故障。軟件故障控制方法主要包括以下幾點。
1) 做好軟件系統維護。做好系統終端的防病毒健康性管理,及時清理軟件系統垃圾和睡眠文件;做好系統安全防護,除系統設有橫縱向防火墻隔離外,還須配置系統終端的防毒查殺軟件;對企業重要信息備份或加密、防止數據泄露或外流丟失;定期檢查網絡運行的安全性、異常性問題。
2) 通過系統檢測實現應用數據庫運行的健壯性。借助自動化測試軟件(如DataFactory)開展數據庫系統測試、集成測試、性能測試、容錯性及恢復能力測試、數據項的增刪操作等,以及利用分布式數據庫海量數據存儲開展分析或實施數據的強制管理等來實現數據庫的健壯性。
3) 網絡信息加密技術管理。建立多層的安全防護措施,對于單設備多應用和單通信鏈路多應用的復用技術,可利用密碼開啟對各個應用程序進行保護;實現多層次深度防御,保護多層應用系統的數據安全,采用智能密碼鑰匙、智能集成電路卡、動態令牌、一次一密的方式安全登錄。對于重要數據的保護,利用服務器密碼機等設備加密并計算介質訪問控制(media access control, MAC)后傳輸,確保傳輸、存儲過程中重要數據的保密性和完整性;利用人臉識別或驗簽服務器等技術規避對數據原發、接收行為的責任風險。
因信息網絡基礎設施較為薄弱、設備陳舊,線纜縱橫原野山谷或涉及地下敷設,網絡設備運行受氣候條件和自然環境影響較大,運行故障頻發。對于此類問題,主要采取以下控制方法。
2.4.1 改善設備的性能狀態
配合電網基礎建設對故障頻發的老城區進行重點巡視檢查,及時發現隱患并處理故障;將投運20年的老舊通信設備以及連續運行5年的交換機、服務器、計算機終端等性能脆弱的帶病設備進行定期檢修和更換,確保系統運行的安全性和穩定性。
2.4.2 舊網升級改造
某些城區除了系統設備老舊引起網絡跳線和中斷外,在系統的使用容量上也存在嚴重不足,出現網絡擁堵、運行速度緩慢等現象。該企業使用的SINFOR M5100-S VPN一體化VPN網關技術采用互聯網安全協議(internet protocol security,IPSec)最大的支持并發數為1 500個,SSL支持并發數為200個,用戶端授權數為230個。為滿足企業生產、調度、線損安全管理以及營銷、財務、辦公自動化系統的業務擴展需求,對相關舊網進行升級改造,將終端用戶擴展到1 200個,以此提高系統運行的高效性和安全性。
1) 將VPN網關升級成雙線路運行。將虛擬專用網VPN網關設備升級為SD-WAN廣域網,并新增一路非對稱數字用戶線路,將通信出口路徑與網通出口路徑互為備份。選用SINFOR專利技術的智能數字線路和數字多線路復用技術,與用戶終端創建快速隧道連接,可以在一條線路故障造成通信中斷時迅速切換至另一線路進行連接。該技術不僅對原網絡缺陷進行了彌補,也規避了超載運行的風險,實現VPN與用戶終端信息數據交換的高速運行,提高了運行的可靠性、安全性和穩定性。
2) 將IPSEC授權更改為加密奎接字協議(security sooket layer,SSL)授權。將授權的1/2 IPSEC用戶端(1 200個)轉換至SSL授權,在SSL上生成2 500個用戶終端,并通過SSL約束超時限制。當終端用戶離線1 h或2 h無操作時,約束其自動退出VPN連接,這樣可確保授權用戶充分上線的同時,解決網絡擁堵問題,也可以限制VPN終端用戶訪問權限、設定權限級別或其他可選擇的網絡資源權限,實現安全風險管控。
3) 點網連接拓撲至網網連接。隨著企業規模的不斷壯大,可進行系統網鏈的再生布局,具有220 kV、110 kV變電生產管理的基層用戶也可建立本單位層級的VPN虛擬專用網絡客戶,以此拓撲本單位變電站無人值班控制系統、管理信息系統、辦公自動化系統、配電網故障搶修管理系統等,使本企業的所有計算機都運行起來,再網網互聯到上一層級的VPN中心,實現網絡的規范化、層級化、程序化管理,這樣不僅能滿足應急故障的各業務需要,而且能實現網絡運行的安全穩定。
4) 將企業主干網絡帶寬升級。可采取環型和總線型組網拓撲方式,實現全供電區域信道的高速全覆蓋;將主干網絡帶寬升級到萬兆級單位,實現雙機主備交換,當任意段鏈路出現故障時,網絡信道以毫秒的速度自動切換,以此阻斷和減少故障的發生。
基于該電網企業應對安全風險的實踐經驗,以及行為故障、生態環境故障、物理故障的形態特征分析,針對性地提出了行為故障的三角控制模型、環境故障抗災技術模塊系統及設備潛在故障診斷識別方法及控制策略,并通過優化網絡系統結構來更好地阻斷和減少網絡故障的發生。以上對于網絡故障的管控措施和方法,針對性強、適用性廣,為各單位信息網絡故障預防、控制提供了借鑒。