陳楠
(民航珠海進近管制中心,廣東珠海,519015)
2021年3月,為進一步推進粵港澳大灣區的空域優化管制服務,民航珠海進近管制中心進行了珠海終端區轉場工作,同時正式啟用了全國民航系統推廣的民航通信網作為重要的地地通信傳輸體系。自轉場完成后,民航珠海進近管制中心民航通信網TDM承載網的eSight監控上長期性斷續出現兩起TDM業務中斷告警,引起了值班人員的關注。通過不斷地進行測試與排查,最終確定引起故障地原因為設備地以太網端口模式不匹配導致。本文通過對實際運行出現地兩起故障案例進行鋪陳介紹,并詳細地介紹了故障分析思路與解決故障實際采取的措施,通過結果反面印證解決方案的有效性,并進一步總結了出現該類以太網端口模式不匹配的可能原因,以供讀者參考。
自2021年3月開始,珠海進近管制中心民航通信網TDM承載網AR3260設備上有一路雷達長期出現頻繁瞬斷現象。通過在民航通信網TDM承載網的eSight監控上設置對該端口的流量性能監控,監控該雷達接口的流入及流出帶寬利用率,并截取一周時間內該端口的性能監測數據曲線,如圖1所示。

圖1 雷達端口性能監測數據
由圖1的雷達端口性能檢測數據曲線可以看出,該端口每天均有數次業務瞬斷的現象發生。若該路雷達長期出現頻繁瞬斷的情況,瞬間變化狀態期間極易對接入該雷達的管制自動化系統的目標點跡融合處理結果產生干擾,影響自動化系統計算得到的飛機航跡的精確度,對管制員的空中交通指揮工作帶來影響。而若將此端口雷達業務進行長期屏蔽處置,則無法有效覆蓋該雷達掃描區域范圍內的飛機,易出現飛機點跡位置偏移,甚至是飛機點跡識別不到的現象,對管制員的空中交通指揮工作帶來不利影響。
2021年3月自珠海終端區轉場完成后,珠海進近管制中心民航通信網TDM承載網AR3260設備節點上長期出現兩路甚高頻超控業務頻繁瞬斷的現象,監控告警提示為“VC狀態Down”告警。這兩路甚高頻超控業務出現該情況的告警頻次較高,且持續時長從十幾秒至幾小時不等。圖2為隨機選取的兩天時間內出現的該告警情況的日志記錄。

圖2 甚高頻超控業務頻繁中斷
甚高頻業務是管制員進行空中交通指揮工作時所使用的地空通信手段,通過甚高頻業務可以完成管制員與飛機機長之間的信息交流通信。甚高頻超控業務是相鄰兩個管制區域內所配備的共用甚高頻業務,超控方管制員使用該甚高頻業務作為應急業務,當原指揮方管制員的甚高頻業務出現異常時,超控方管制員可以在危急情況下使用該甚高頻超控業務指揮飛機進行盤旋、復飛等處置。這兩路甚高頻超控業務長期性出現頻繁中斷的情況,可能會導致甚高頻超控業務在發生緊急情況下不可用,影響管制的空中交通指揮工作和飛機的飛行安全。
對以上兩起故障案例進行原因排查分析,發現“VC狀態Down”告警的直接導致原因是兩個華為AR3260設備節點之間的LDP標簽分發協議的對等體均進入下線狀態,此情況可能為中繼鏈路不通,或中繼鏈路出現路由震蕩等原因導致,但無法直接判斷是由具體何種原因導致。經過持續性地觀察,發現在出現以上兩路甚高頻超控業務“VC狀態Down”告警情況的同時,經常性會伴隨出現該設備節點的上聯干線端口由“全雙工”模式自協商為“半雙工”模式的告警提示信息,如圖3所示。

圖3 “全雙工轉換成半雙工” 提示信息
根據如圖3所示的以太網端口模式的變更情況,對發生以上兩起案例的民航通信網TDM承載網的華為AR3260設備節點的以太網干線端口、業務端口狀態及業務配置情況進行逐一排查。如下圖4為一臺華為AR3260設備以太網干線端口的狀態顯示,可以看出該端口的雙工模式為“半雙工”,自協商功能已使能,對比原先配置的“全雙工”的工作模式,可以看出該業務端口已經被自協商為“半雙工”模式的狀態。

圖4 AR3260設備以太網干線端口協商為“半雙工”模式
經排查所知,民航通信網TDM承載網的配置規范中并未涉及到對端口模式的配置,因此民航TDM承載網AR3260設備節點的各干線端口設置均為默認的“自協商”模式,同時發現部分端口模式自協商為“全雙工”模式,而部分端口模式自協商為“半雙工”模式。而自協商成“半雙工”的情況總結有以下兩種:
(1)華為AR3260設備與交換機之間的端口速率適配問題
華為AR3260設備的端口為百兆速率網口,而交換機端口為千兆速率網口,兩個直連的端口速率不一致,經過端口的速率自協商適配后會偶發性地出現端口協商成“半雙工”的模式,導致業務中斷。
(2)華為AR3260設備與光端設備以太網端口設置協商問題
華為AR3260設備端口初始設置為“自協商”模式,光端設備以太網端口初始設置為“全雙工”模式,但最終華為AR3260設備端口經自協商后變為“半雙工”模式。根據華為官方手冊的說明文檔可知,在兩個節點之間的直連端口,如一端端口為自協商模式,另一端端口為全雙工模式,則模式為自協商的端口將協商為“半雙工模式”[1],導致業務中斷。

圖5 TDM網拓撲圖(含隱患標識)
根據對故障情況進行原因的排查分析可知,以上兩起故障案例所出現的TDM業務瞬斷情況均是由設備節點的以太網端口模式不匹配所致。以太網端口模式主要指以太網端口的連接速率、雙工模式及協商模式[2]。目前在以IP網絡為基礎的網絡設備中,常見的以太網端口的連接速率有10M、100M和1000M三種,雙工模式有半雙工模式和全雙工模式兩種,協商模式有自協商模式和不協商模式。
“半雙工”工作模式表現為允許兩臺設備節點間傳輸的數據在兩個方向上進行,但同時只允許一個方向的數據傳輸。而“全雙工”工作模式在“半雙工”工作模式的基礎上,允許兩個方向的數據同時進行傳輸。若以太網端口工作模式為“半雙工”模式時,在雙方傳輸的業務數據量較小時,業務能正常進行通信,而在業務數據量較大時,就會造成業務的完全中斷現象。實驗證明在流量達到15%及以上時,以太網中會存在沖突、錯包、甚至業務中斷現象[3]。
自協商指鏈路兩端節點自主進行信息交換與協商,通過偵測對端的通告信息,如連接速度、雙工模式等[4],從而相互協商出匹配雙方最好的連接性能。但端口處于自協商階段時,端口出現數據量過大或網絡出現延遲抖動等情況,數據碰撞及丟包現象會增多[5],這些情況可能導致最終協商不成功,一方出現“全雙工”模式,而另一方出現“半雙工”模式的現象,最終引發上述兩個故障案例中的TDM業務中斷現象。
根據實踐結果證明,將民航通信網TDM承載網的AR3260設備上聯以太網干線端口配置手動修改為“強制全雙工”模式,并聯系相應運營商將光端設備的對應端口配置手動設置為“強制百兆全雙工”后,未再出現以上兩個故障案例中的雷達中斷和甚高頻超控業務瞬斷的告警現象。圖6為雷達業務恢復后的性能監測示意圖,可以看出在修改配置后的后續持續性觀察中,故障恢復后的雷達業務端口的流入及流出帶寬利用率均保持較為平滑的曲線,未再出現瞬斷的現象。

圖6 雷達端口性能監測數據(已恢復)
本文分析了兩個實際運行情況中出現的民航通信網TDM業務中斷的故障案例,給出了詳細的故障原因排查思路和分析方法。首先對故障現象及監控提示的告警信息進行分析,提出可能產生的原因列表。再通過持續性的故障情況匯總,進一步對已發生的相關故障情況進行關聯,就同時間引發的告警事件信息進行比對及相關性分析,確定故障出現的直接原因。然后通過對各華為AR3260設備節點的以太網干線端口、業務端口狀態及業務配置情況進行全面排查,總結分析各類可能的以太網端口工作模式情況,找到故障點,并提出相應的解決方案。最后通過在邏輯推演及相同設備實驗平臺的充分實踐測試得到可行性結論,證明解決方案切實有效。最終在實際運行平臺采用可行性解決方案施工驗證,解決以上兩個實際故障案例中的雷達中斷和甚高頻超控業務瞬斷告警故障。
產生以太網端口模式不匹配原因,除了上述兩個實際案例出現的由以太網端口設置自協商模式,但自協商不成功之外,還可能存在以下幾種情況:
(1)可能因為網線或光纖等線纜存在質量問題導致。當網線或光纖等線纜質量達不到標準時,通信網絡的傳輸質量將會下降,可能導致原本處于“自協商”模式的端口會出現協商成“半雙工”模式的現象,最終引起直連的兩端以太網端口出現模式不匹配現象。
(2)可能因為以太網端口的工作模式設置不一致導致。若直連鏈路兩端的以太網端口工作模式初始設置不一致,同時未設置“自協商”模式,兩端端口無法通過自協商達成一致,可能會出現以太網端口工作模式不匹配現象,最終引起該以太網端口業務出現丟包,甚至是中斷的現象。
(3)可能因為忽略端口速率適配問題而引起了以太網端口模式改變的情況。實際運用過程中,大部分的大型傳輸網絡的架構基本都會存在路由器與交換機相連的情形。當交換機的以太網端口為千兆速率口,而與該交換機直連的路由器的以太網端口為百兆速率口時,交換機和路由器直連的兩端以太網端口進行速率適配時,兩端以太網端口的帶寬會協商成百兆速率傳輸端口,與此同時,兩端以太網端口協商端口速率時,可能會導致以太網端口模式由“全雙工”模式切換為“半雙工”模式的現象,最終出現直連的兩端以太網端口出現模式不匹配情況。