黃 河
(中國民用航空珠海進近管制中心,廣東珠海 519015)
民航TDM 網是一張用于承載空中交通管制甚高頻語音、雷達和ADS-B 信號、管制專線電話、民航電報的全國性通信網絡,該網絡于2018 年建成,經過測試、優化和業務遷移,于2020~2021 年投產運行。在運行過程中發現eSight 網管檢測機制存在缺陷,中間有光傳輸設備的中繼干線中斷時網管不告警。
民航TDM 網因帶寬需求較大,各運行現場核心機房至外臺大部分不再使用傳統2M 干線,而是使用運營商(或自有光傳輸設備)的MSTP 以太網干線,當承載MSTP 干線的光傳輸設備中間鏈路中斷時(例如:光纜被挖斷、光傳輸設備交叉板故障等),民航TDM 網eSight 網管監控上故障的干線仍保持“綠色正?!保雀删€中斷網管未能有效告警,且不僅不告警,還將故障的干線顯示為“正常狀態”。因此,該現象不僅無益于故障的及時發現,甚至會誤導技術人員的排障工作,是較為嚴重的安全隱患。
案例1:某單位民航TDM 網在正式投產之前進行臺站干線切換測試,當手動將主用的聯通4M MSTP 干線中斷后,備用干線未能切換成功,造成臺站遠端節點掉線,相關承載業務如甚高頻等全部中斷。后經排查,發現備用的電信4M 干線已至少中斷7 d 以上。
案例2:某單位民航TDM 網至外臺有電信和聯通2 條干線,主用為電信,備用為聯通。電信來電通知將進行割接,相關鏈路將中斷,因有2 路干線保障傳輸,因此同意電信實施割接。但割接實施過程中發現臺站遠端節點整體掉線,相關承載業務全部中斷。后經排查,發現備用的聯通鏈路中斷,且未知已中斷多長時間。
案例3:某兩個單位之間進行民航TDM 網干線切換測試,測試時通過斷開民航光傳輸設備中間鏈路的方式(而不是拔網線的方式)中斷主用鏈路,發現雙方民航TDM 網eSight 網管均未產生干線中斷告警,且斷開的鏈路顯示“綠色正常”。后經人工ping 測試,判斷鏈路確已中斷。
前文“案例3”為筆者首次發現該隱患的實際案例,發現該隱患后立即著手進行全面分析,并制定了科學的分析計劃,抽絲剝繭,最終找到問題根源,并使用技術手段加以解決,最后進行技術驗證和測試。故障排查的整體思路:①研究網管檢測機制;②得出網管判定干線故障的變量;③分析變量與實際狀態的差距;④使用技術手段解決變量與實際的差距問題;⑤技術驗證、實測、上線試運行;⑥推廣至其他運行現場進一步測試。
1.4.1 搭建純虛擬化模擬實驗平臺
技術人員使用華為eNSP 模擬配置實操軟件(該軟件一般用于華為網絡工程師培訓)搭建模擬測試平臺,并將實驗平臺的虛擬路由器連接eSight 網管軟件。在這一過程中,同時解決了如何在一臺電腦上搭建“eSight 網管+虛擬路由器”的純虛擬化民航通信網實驗平臺(圖1、圖2)。圖中使用了兩臺HUB 代替光傳輸設備(光傳輸設備可以理解為物理層透傳設備),兩臺HUB 中間的鏈路即為“中間鏈路”,接下來將模擬該中間鏈路中斷情況,以此模擬光傳輸設備中間光纖中斷的情況。

圖1 eNSP 模擬配置實操軟件上制作的實驗拓撲

圖2 虛擬化平臺的eSight 網管
在正常狀態下,eSight 網管通過“LLDP”協議來發現干線,“LLDP”協議是一種鏈路發現協議,當兩端網絡設備均開啟了該協議后,可以自動發現LLDP 鄰居,路由器即可知曉對端網絡設備的詳細信息,包括對端端口號、IP 地址、管理地址、設備型號、固件版本、MAC 地址等(圖3)。

圖3 正常情況下eSight 網管干線發現機制——LLDP 協議
1.4.2 將“中間鏈路”中斷,觀察網管告警情況
將“中間鏈路”中斷,網管未產生任何告警,且網管拓撲圖頁面干線狀態仍顯示“綠色正?!保▓D4)。雙擊“干線”,查看網管識別到的干線狀態正常,但人工測試干線狀態,確定干線確已中斷(圖5、圖6)。

圖4 中間鏈路中斷,網管無告警且顯示錯誤信息

圖5 網管“認為”干線正常但人工測試判斷干線確已中斷

圖6 將AR2 刪除后重新添加進網管,仍自動“識別”了一條干線
1.4.3 將設備從網管側刪除重新添加,觀察是否會產生告警
可以看出,網管仍可識別干線,且干線狀態正常。說明網管系統不僅可以通過LLDP自動發現鏈路,還可以通過其他手段“發現”鏈路。
進一步查找網管智能識別干線并顯示的機制,在eSight網管網頁→系統→網絡管理參數設置→啟用基于30 位掩碼IP(SBS)的鏈路發現,將其取消勾選,再次查看網管拓撲狀態,發現無法發現干線(圖7、圖8)。

圖7 30 位掩碼IP(SBS)鏈路發現功能

圖8 取消圖7 功能勾選后干線消失
1.4.4 進一步測試eSight 網管干線中斷告警機制
將AR1 設備的干線端口shutdown,即關閉端口,模擬拔出網線,造成鏈路物理層中斷,此時網管產生告警。但是僅AR1 產生告警,并帶動干線鏈路的狀態也變為紅色告警,但AR2仍然為“綠色”(圖9)。

圖9 關閉AR1 干線端口,網管產生告警(僅AR1 有告警)
(1)默認設置下,eSight 網管可以通過多種手段智能發現干線,根據前文測試結果,手段包括:LLDP 協議自動發現和根據端口掩碼地址發現。
(2)eSight 網管產生干線中斷告警的機制是:必須端口物理狀態Down 才可告警。在實際中,端口物理狀態Down 只能通過拔網線或shutdown 端口才能實現。
綜上所述,民航TDM 網使用的eSight 網管軟件,其干線狀態的判斷機制存在缺陷,多數情況下無法準確判斷干線狀態,存在較大隱患。
從前文中分析出民航TDM 網使用的eSight 網管軟件,其干線狀態的判斷機制是判斷端口狀態的Up 或Down,通過深入研究各類檢測機制和各種以太網協議,最終發現靜態BFD 技術可以判斷鏈路中斷,并將對應的干線端口狀態自動置為“Down”,在模擬配置實操軟件上進行測試,如圖10 所示。

圖10 靜態BFD 實驗
將“透傳設備”的G0/0/2 端口shutdown,模擬中間鏈路中斷的情況,登錄AR1 查看g0/0/0 端口狀態(圖11)??梢钥吹絞0/0/0 端口的協議狀態變為“UP(BFD status down)”。繼續測試這一狀態是否會被eSight 網管軟件識別(圖12),即eSight 可以識別該狀態,并產生告警,標記鏈路為紅色告警狀態。

圖11 靜態BFD 檢測鏈路中斷后將對應端口狀態變為“BFD status Down”

圖12 eSight 可以識別“BFD status Down”狀態
經模擬實驗環境測試方案可行后,使用多臺AR3260 真機搭建測試平臺,包括網管及軟件、硬件配置均依據行業配置規范進行配置,在實驗平臺實際環境測試(圖13)。

圖13 真機實驗平臺網管監控
經測試發現,該方案能實現eSight 網管檢測到中間鏈路中斷從而產生告警,實測證明方案可行。
珠海進近管制中心協調廣州網絡中心聯合進行“靜態BFD綁定端口狀態”方案測試,將我方民航TDM 網NE20-1 至廣州區管NE40 核心節點干線兩端配置靜態BFD 綁定端口狀態,配置示例見圖14。測試該干線中間鏈路(光傳輸設備)出現鏈路中斷,eSight 監控可識別到鏈路中斷并實時產生相應告警,證實方案可行。

圖14 測試配置示例
通過測試發現靜態BFD 綁定端口狀態可有效解決民航TDM 網eSight 網管鏈路監控的隱患,目前珠海進近民航TDM網與廣州區管、珠海進近內部所有至外臺干線均已使用靜態BFD 技術,已穩定運行近一年時間,可以及時發現各種情況的干線中斷并實時告警。該方案已在民航中南空管局進行全系統推廣應用。
民航TDM 網是一套全新建成使用的覆蓋全國民航系統各單位的大型網絡,是未來較長一段時間內,承載民航雷達、甚高頻、ADS-B、轉報和管制專線電話等核心業務信號的關鍵基礎設施,積極探索如何更好地對民航TDM 網開展運行維護,強化隱患排查治理,杜絕系統性風險是民航TDM 網一線運維部門和相關管理機構的努力方向。針對發現的問題,通過模擬驗證、實驗室環境驗證以及在實際生產網絡中上線試運行等方式,循序漸進,逐步推進,并經過長期的功能性和穩定性檢驗后投入全系統推廣。