李 巖
(民航青海空管分局,西寧 810000)
民航通信網以高可靠性、豐富的業務接口以及更靈活的介入方式等諸多優良特性在民航空管領域已經得到廣泛應用,并已成為現今各機場、空管以及局方之間各類業務數據傳輸的主干網絡。西北地區民航通信網自2018年初步建成,2019年開始逐步完成空管業務從ATM民航數據通信網至民航通信網的遷移,青海分局目前大部分業務已經依托于民航通信網作主要傳輸手段,隨著分局業務割接工作的逐步完成,以及業務割接后的運行保障,使得相關維護人員對民航通信網的運行維護能力也不斷得到提升。
民航通信網的整個網絡拓撲結構是由核心層、匯聚層和接入層3部分構成,其中,核心層具有完成覆蓋全網核心節點(全網中北京網控、上海網控以及里河災備中心、7個地區空管局節點及7個區管中心節點,是整個民航通信網TDM網的核心層)的功能;匯聚層完成覆蓋全網匯聚節點(空管分局或空管站)的功能;接入層完成覆蓋所有接入節點(各地區機場、各地區臺站、各地區管理局等)的功能。
分局進近項目傳輸系統于2018年建成,采用與民航通信網TDM網完全相同的組網結構,覆蓋泮子山雷達站甚高頻(VHF)臺、黑虎旗山VHF臺、貴德河西中學VHF臺、貴德珍珠寺VHF臺、化隆西上村VHF臺、化隆線務段VHF臺、河橋樂山村VHF臺、河橋馬軍坪VHF臺共8個甚高頻臺站,主要完成8個站點VHF業務及其監控信號的接入,供西寧進近管制區使用,其網絡結構拓撲如圖1所示。

圖1 青海分局進近項目傳輸系統網絡結構拓撲
在民航空管運行中,通信網絡的可靠性極大程度上影響著空中交通秩序的管制和飛行安全,實現各類空管業務、數據信息的可靠穩定傳輸,是空管系統安全生產的重要基礎。
在民航通信網規劃設計及實際部署中,通信網絡的可靠性是通過在軟件上支持IP FRR(快速重路由Fast ReRouting)+BFD(雙向轉發檢測Bidirectional Forwarding Detection),LDP FRR+BFD等來實現的。
(1)BFD技術
民航通信網TDM網主要以轉報、雷達和VHF等數據業務承載為主,故障檢測時間沒有特定要求,主要靠路由協議收斂,一般收斂速度為秒級或者以上。BFD(雙向轉發檢測)是一套用來實現快速檢測的國際標準協議,提供一種輕負荷、持續時間短的檢測。硬件實現BFD不影響系統運行,民航通信網TDM項目實現鏈路硬件BFD檢測功能,因此民航通信網TDM承載網啟用的是IS-IS動態路由,并采用單層Level 2,打開ISIS的BFD功能,LDP LSP/Tunnel的BFD技術加快對故障鏈路和故障節點的快速感知。
(2)FRR技術
FRR(快速重路由)是當網絡中鏈路或者節點失效后,為這些重要的節點或鏈路提供備份保護,實現快速重路由,減少鏈路或節點失效時對流量的影響,使流量實現快速恢復,能夠快速地發現鏈路失效,并且當鏈路失效后能夠迅速地提供一條恢復路徑,而且能夠保證在后繼網絡恢復過程中,避免出現轉發環路。
龐雜的網絡系統為民航空管提供便捷通信的同時,其運行中也會出現各種網絡故障,作為民航空管運行維護人員,高效、及時、準確地對通信網絡傳輸故障進行診斷排查并較好地適應各種動態變化是需要具備的基本技能,本文以民航青海空管分局TDM網節點中,黑虎旗山甚高頻(VHF)臺站至西寧機場航管樓的民航通信網TDM傳輸故障為典型案例進行深入分析。
3.1.1 第一次故障現象
2021年5月27日09:37左右維護人員發現進近項目傳輸系統傳輸網管監控上出現黑虎旗山甚高頻臺站電信、聯通傳輸鏈路同時中斷的告警信息,傳輸網管拓撲上顯示臺站2臺傳輸設備(FA16-T)均離線(綠色正常狀態變為灰色離線狀態),網管無法登錄連接至臺站傳輸設備,與此同時,甚高頻業務監控終端上顯示黑虎旗山甚高頻臺站甚高頻業務傳輸中斷;民航通信網TDM網傳輸網管上只顯示電信傳輸鏈路中斷的告警,網管拓撲結構中臺站2臺傳輸設備均在線,而且能夠正常遠程登錄到臺站2臺TDM傳輸設備(FA16-T),維護人員初步判斷電信、聯通傳輸鏈路中斷。
3.1.2 第二次故障現象
2021年8月8日21:59左右進近項目傳輸系統網管監控上出現黑虎旗山甚高頻臺站電信傳輸中斷告警,而聯通傳輸鏈路并未有中斷告警,僅通過聯通鏈路PING臺站傳輸設備時發現延遲較大(業務正常傳輸時傳輸時延小于10 ms,傳輸故障時傳輸時延達200~300 ms),傳輸網管拓撲上臺站傳輸設備顯示在線狀態,但是通過遠程登錄臺站設備時登錄非常卡頓,遠程連接成功后自動斷開連接,與此同時,甚高頻業務監控終端上顯示黑虎旗山甚高頻臺站甚高頻業務未中斷,但是管制用戶使用的甚高頻業務已經出現斷續、延遲大的情況,無法滿足正常使用要求;同時民航通信網TDM網傳輸網管上出現電信傳輸鏈路中斷告警,傳輸網管拓撲上臺站傳輸設備顯示在線狀態,遠程登錄到臺站2臺TDM傳輸設備檢查各運行狀態均正常,維護人員初步判斷電信傳輸鏈路中斷、聯通傳輸鏈路可能存在異常。
針對2次故障情況的排查情況分別詳述如下。
3.2.1 第一次故障排查過程
(1)因無法正常遠程登錄查看設備狀態,維護人員及時前往臺站確認進近項目傳輸設備狀態,并發現傳輸設備供電及運行狀態均正常,使用維護筆記本登錄到臺站2臺傳輸設備,發現傳輸設備配置均正常,各端口及其業務通信鏈路也未有卡死情況。
(2)告知電信、聯通運營商分局相關傳輸設備運行正常后,維護人員進一步排查分析,發現黑虎旗山甚高頻臺站民航通信網TDM網傳輸設備的電信鏈路故障,而聯通鏈路卻可以正常提供服務,且網管監控顯示鏈路連接均正常。
(3)維護人員將民航通信網TDM網的正常聯通鏈路更換接至進近項目傳輸設備提供傳輸支撐時,發現進近項目傳輸網管已離線設備能夠正常上線,且只顯示電信鏈路故障,由此確定進近項目傳輸系統中黑虎旗山甚高頻臺站至機場航管樓的聯通鏈路故障,聯系聯通繼續排查鏈路故障。
(4)此時電信確認其傳輸光纜在離機房1 km處有斷點,排查期間由于電信運營商資料不完整,電信派多人至現場查找故障光纜,而聯通在核實后發現其光纜并未中斷,聯通維護人員在機場航管樓側實測發現傳輸丟包嚴重,且路由不穩定。
(5)當日17:57電信找到由于外方施工挖斷的斷點,并快速恢復光纖后電信鏈路恢復正常,傳輸網管上臺站傳輸設備正常上線,測試甚高頻業務使用正常。
(6)聯通運營商于次日10:00發現為其核心樞紐數據錯誤導致傳輸異常,在重新配置數據后業務恢復正常。
3.2.2 第二次故障排查過程
(1)故障發生后,及時聯系電信、聯通運營商排查傳輸鏈路,同時維護人員去現場核實情況,經電信運營商通過其后臺網管核實,發現電信傳輸鏈路有中斷告警,之后前往臺站進一步排查。
(2)電信運營商到達臺站后,發現臺站周圍有施工,施工導致地埋光纜被挖斷,電信快速進行光纖熔接,于10:50左右電信光纖恢復正常,發現進近項目傳輸系統黑虎旗山甚高頻臺站至機場航管樓電信傳輸鏈路及民航通信網TDM網電信鏈路均恢復正常。
(3)聯通在到達現場后進行測試,臺站及航管樓兩側斷開青海分局傳輸設備進行互PING操作時,傳輸質量良好,時延約3~5 ms,后接入青海分局傳輸設備同時斷開電信傳輸鏈路,將聯通鏈路單獨接入,發現兩側互PING時傳輸時延依然超過業務正常傳輸的最低時延要求,且有丟包,測試業務依然異常,語音通話出現嚴重的超時現象。
(4)聯系工程師排查傳輸設備配置問題,工程師排查后發現系統軟件版本老舊,無法有效產生告警只是客觀原因,主觀原因是單鏈路傳輸時端口帶寬超過2 M,約為3 M,如圖2所示,鏈路帶寬無法有效支撐起傳輸作用,而單獨接入電信2 M鏈路時各業務均顯示正常,時延在正常范圍內,丟包為0。

圖2 單鏈路傳輸時峰值帶寬
(5)為了有效進行判斷,聯系聯通臨時開通4 M鏈路帶寬用于測試,同時將設備級聯線斷開,單獨進行傳輸,發現電信端口數據帶寬占用1.78 M左右,如圖3所示,而聯通端口占用1.27 M左右,如圖4所示,此時業務運行均正常,在兩側互PING時數據傳輸均正常。

圖3 級聯時電信傳輸峰值帶寬

圖4 級聯時聯通傳輸峰值帶寬
(6)與工程師確認后發現,甚高頻業務每個信道占用固定帶寬100 K左右,甚高頻監控占用300~500 K左右,因此電信路由器12信道加監控共占用大概1.7 M左右帶寬,聯通路由器12信道共占用1.2 M左右帶寬。
本次通信網絡傳輸故障案例分析采用人、機、環、管綜合分析法進行深入剖析,具體分析如下。
3.3.1 人為原因
機務員判斷故障點能力較弱,對部分關鍵操作不太熟悉,且機務員在發現同一光端機鏈路狀態不一致時未能準確判斷出問題所在,依然判斷為物理故障原因,體現出對業務和設備原理不熟練,沒有第一時間判斷出故障大概原因。
3.3.2 設備原因
(1)由于進近項目傳輸設備其軟件版本未曾更新過,導致其部分功能仍處于不完整狀態,在中間級聯線正常時,路由器不會產生相關路由中斷告警。
(2)路由器檢測機制問題,只有在路由器完全檢測不到數據包時才認為端口DOWN,當端口有數據時,哪怕是錯誤的數據包,端口仍無法識別其狀態正常與否。
3.3.3 環境原因
(1)部分運營商對業務重視度不夠,導致在其做業務割接、轉移等工作時未有效通知用戶,因此用戶并未及時掌握其配置改動信息,也無法對自己業務及時做出測評,導致故障發生,對重要鏈路的保障度不夠,沒有將線纜做保護處理。
(2)隨著業務量的不斷增加,原有鏈路帶寬可能將不滿足業務正常運行需求,需持續關注此類風險,再將業務接入時,需要做嚴厲測試,已確保運營商帶寬鏈路滿足業務需求。
3.3.4 管理原因
對業務敏感度不夠,未能及時有效溝通廠家進行升級。
通過綜合分析2次傳輸故障情況,針對人為原因、設備原因、環境原因、管理原因分別依據青海分局實際運行情況給出了相應的隱患整改措施,本部分著重從設備及環境2方面就此類傳輸故障情況給出相應的解決方案。
(1)對此次事件中已經發生且可能在之后還會影響到業務正常傳輸的臺站傳輸設備進行了隱患排查,重點排查分析臺站傳輸設備帶寬利用率及雙鏈路傳輸、單聯通鏈路傳輸和單電信鏈路傳輸時業務傳輸實際占用帶寬情況,結合后續增加或者減少業務量的需求,進而分析確定是否需要溝通運營商增加傳輸帶寬。
(2)因民航通信網在規劃設計并實施建設時已充分考慮通信網絡傳輸可靠性設計,依據民航空管局總局設計要求在全網中全部采用IS-IS動態路由,并采用單層Level 2,打開IS-IS的BFD功能,而由青海分局自建的進近項目傳輸系統中的傳輸設備缺乏BFD相關檢測機制,并未對鏈路的有效性準確地進行檢測,在與廠家溝通后,廠家配合完成傳輸設備版本更新,對傳輸設備做相關檢測機制配置,進而可以更好地對鏈路性能進行實時監測,同時對涉及的其余臺站的傳輸設備做同樣的升級更新工作。
青海分局民航通信網TDM網及進近項目傳輸系統各站點均采用電信、聯通雙鏈路傳輸至西寧機場航管樓,雙鏈路均正常時,采用負載分擔的方式承載業務傳輸,當其中一路故障時,臺站所有業務均通過此正常鏈路進行傳輸,這種情況下,需要同電信、聯通運營商進一步協調,不僅要其提供傳輸線纜資料及走向圖,核實雙方在臺站鏈路是否在同節點上,若存在同節點路由需要進行改造,同時要求運營商在今后鏈路割接或者數據更新配置工作時,對可能影響到分局業務傳輸時需要提前及時通報,并在做完所有操作后需與分局相關維護人員確認業務正常。
本文結合西北地區青海分局民航通信網TDM網及進近項目傳輸系統實際運行環境,詳細地闡述了在實際運行過程中發生的黑虎旗山VHF臺站至西寧機場航管樓因通信網絡傳輸故障導致的VHF業務無法正常使用的故障案例,以及整個故障排查過程的思路和步驟,之后從人、機、環、管4個方面全面地對此故障進行深度剖析,同時有針對性地提出了解決方案,對今后處理類似故障有很大的指導意義。