劉貽雄,丁艷琴
隨著同步數字體系(SDH)的優點不斷凸顯,其應用也越來越廣泛。作為鐵路重要行車業務及其他網絡的承載網,SDH傳輸網在鐵路通信中發揮了重要作用,其運行質量直接關系到鐵路運輸的安全。SDH的各項強大功能和優越性能是通過在先進的管理系統之下充分顯示出來的。網絡管理包括業務管理和設備監控,簡稱網管系統。其中性能監視是一項重要的網絡管理功能[1],在日常網絡運維中承擔著對網絡性能事件進行分析處理、數據采集、可用性指標分析、故障告警等重要職能,一旦網元脫管,會阻礙網絡隱患的發現,需要盡快處理,否則有可能導致業務中斷。因此分析網元脫管對日常網絡維護有著重要的意義。
SDH傳輸網管系統由網管和網絡組成。網管和網關網元之間通過TCP/IP(傳輸控制協議/因特網互聯協議)傳遞信息,網關網元和非網關網元之間通過ECC(嵌入控制通路)通信,從而實現網管和非網關網元之間的通信[2]。ECC屬于數據通信通路(DCC)D1~D12,SDH段 開 銷(SOH)中 的DCC,用來構成SDH管理網的傳送鏈路。D1~D3為再生段DCC,用于再生段終端之間交流OAM(管理和維護)信息,帶寬為192 kb/s;D4~D12為復用段DCC,用于復用段終端之間交流OAM信息,帶寬為576 kb/s[3]。這些數據通路為SDH網絡的管理和控制提供了強大的通信基礎結構。中興、華為SDH網元通信均使用OSPF(開放式最短路徑優先)協議,通過ECC通道實現信息傳遞。目前鐵路傳輸網絡管理系統結構見圖1。

圖1 鐵路傳輸網絡管理系統結構
ECC路由的建立方式與SNCP(子網連接)保護類似,都采用發端并發、收端選收建立路由的方式,其原則是根據最短路徑建立路由。正常情況下,網管通過網關網元登錄非網關網元走最短路由,若短路由不通,則走長路由;若所有ECC路由均不通,則無法登錄網元[4]。
鐵路通信傳輸網絡中,華為SDH網管系統采用網關網元通信模式,網關網元IP地址主要用于設備與網管之間的通信,只有在參與TCP/IP通信時的IP地址才有效。也就是說,只有網關網元才設置IP地址,非網關網元不設置IP地址。華為傳輸網絡中每個網元必須有1個獨立的標識符ID,ID號沖突會造成ECC路由表建立出錯,導致網管無法實現對網元的管理[5]。
鐵路通信傳輸網絡中,中興SDH網管系統則采用非網關網元通信模式,網絡中所有網元遵循一定的規則,統一規劃IP地址,每個網元IP地址唯一,各網元通過IP地址與網管通信。當網絡中有2個網元使用同一個IP地址時,會造成ECC通信異常,ECC路由表建立出錯,網管無法實現對網元的管理。
網元脫管,即網管無法對網元進行正常的管理,其現象主要表現為網元變灰、網元無法登錄等[6],是傳輸網絡維護中經常發生的障礙。正常情況下,傳輸網元脫管不會造成所承載業務中斷,只是網管無法實時監控網元、分析網絡性能、進行數據備份或下載、以及遠程應急處置等。但若處置不當,極有可能會造成脫管網元承載業務全部中斷。
造成傳輸網元脫管的原因多種多樣,大致分為硬件故障和軟件故障。硬件故障主要包括光路故障、板件故障,以及網管與網關網元間網線故障等;軟件故障主要包括網元ID號或IP地址沖突、ECC風暴、ECC參數配置錯誤等。而處理網元脫管問題需要了解各方面技術原理,包括設備ECC通信原理、網管與設備通信原理等。以下簡要分析4種故障類型。
主控板作為整個系統的網元級監控中心,與本網元所有單板的MCU(管理控制單元)之間采用S接口進行通信,與網管之間采用Qx接口進行通信,是網管與網元通信的紐帶。網關網元主控板故障會造成本系統所有網元脫管,而非網關網元主控板故障引起的脫管范圍與其在網絡中的位置有關[7]。
簡單的鏈型組網結構中,DCC方向只有一個,光口DCC均配置為開啟狀態。環型、網狀組網要注意DCC的方向,中心網元光口方向過多容易造成DCC擁塞,需要適當采用DCC屏蔽,避免因DCC擁塞導致網元間歇性脫管。
華為SDH設備網元ID是網元身份標識,由于網絡擴展需要可能出現ID號重復的情況,需要對擴展ID進一步區分。不同擴展ID對應不同自治域,只要保持擴展ID+網元ID唯一即可。在光路互聯的不同自治域,擴展ID+網元ID重復會引起網元脫管,處理不當可能會導致脫管網元數據丟失,造成嚴重通信障礙[8]。
中興網管對網元的管理不同于華為SDH,它以網元IP地址作為網元身份標識。采用IP地址定義的方法,遵循一定的規則,IP地址配置重復或錯誤均會引起網元登錄失敗。
某鐵路線基站組網情況如下:區間基站與相鄰車站2.5 GHz傳輸設備構成622 MHz二纖雙向復用段環,網內DCC通道如圖2箭頭所示。為避免ECC擁塞,正常情況下基站7與B車站2.5 G基站間ECC通道應處于關閉狀態。

圖2 鐵路基站傳輸組網
故障現象:巡檢網管發現基站4、5、6、7網元脫管。
通過網管查證,基站7與B車站2.5 G基站間ECC通道關閉,基站3、4間ECC通道不通。
故障處理:
1)網管查詢基站3、4間光路ECC為開啟狀態。
2)網管登錄基站3網元,利用ppptable命令查看ppp端口配置表[9],如圖3所示。

圖3 ppp端口配置表
ppp0、ppp1、ppp2表示已經創建的ppp通道(與之對應的flag端口序號為2、3、4),Tx/Rx_addr表示光板,Tx/Rx_port表示光板上相應的端口。利用ifconfig-a命令[9]查看端口是否建立連接,結果見圖4。

圖4 端口信息
基站3網元光線路板6槽1口對接基站4網元光線路板11槽1口。由圖4可知,ppp1/3:flags基站3網元6槽1口與基站4網元11槽1口未建立連接,判斷基站3至基站4光路ECC通路中斷。
3)網管定位基站3至基站4的ECC通道不良故障點,現場對基站3光線路板6槽1口硬件環回,網管登錄基站3網元,輸入命令“eping 6 1”(6槽1口),發現有丟包,則基站3光線路板6槽1口ECC模塊性能不良。更換基站3的6槽1口光模塊,恢復了網管對網元的實時監控。
針對連續幾個網元脫管的故障現象,要先確定ECC路由方向,再利用網管檢測手段判斷出網元ECC通道中斷的區域,最后與現場配合,利用網管ping測工具定位故障點,在最短的時間內使網元監控恢復到正常狀態。
新建線設計規劃在A站新建通信樓,將既有通信樓局干10G、骨干10G設備搬遷至新建通信樓,既有通信樓設備連接見圖5。由于只有1架過渡設備,設備搬遷工作需按以下步驟進行。

圖5 既有通信樓設備連接
1)過渡設備安裝在新建通信樓,命名為“骨干10G”,設備配置與既有通信樓原骨干10G一致,并與既有通信樓局干10G設備建立光路連接,同時既有通信樓原骨干10G設備斷電。
2)既有通信樓局干10G設備搬遷至新建通信樓,與骨干10G光路互聯不變。
3)既有通信樓原骨干10G設備更名為“局干擴”,下掛于新建通信樓局干10G設備。
4)將局干擴網元納入局干網管監控。
既有通信樓設備搬遷后,新、舊通信樓設備連接關系見圖6。

圖6 搬遷后新、舊通信樓連接關系
故障現象:在進行第4步,將局干擴網元納入局干網管監控后,骨干10G網元頻繁脫管。檢查局干擴網元屬性,發現與骨干10G設備的擴展ID+網元ID相同,且局干擴與局干10G、局干10G與骨干10G網元間ECC通道開啟,3個網元DCC字節均使能,導致骨干10G網元頻繁脫管。
通過網管發現,搬遷任務完成后既有通信樓局干擴設備納入局干網管監控,現場未在設備側線下修改設備主控板配置(擴展ID+網元ID),導致骨干10G網元頻繁脫管。
故障處理:關閉局干10G對骨干10G方向光板ECC通道,將局干擴ID更改為5098(規劃ID),重新下載骨干10G網元數據庫,骨干、局干網管監控恢復正常。
需要注意的是,在以后的站改施工中,若要將既有設備納入網管監控,需線下修改設備配置,避免設備上線時發生網元頻繁脫管;若由于網管誤判斷導致強制進行數據上傳和下載,會造成網元數據丟失,大面積影響業務。
為實現L地與X地業務互通,開通L地與X地間OTN波道,L地與X地光路互通后的網絡拓撲見圖5。

圖5 L地與X地光路互通后的網絡拓撲
故障現象:OTN波道在L、X地分別對接B、E網元,對接完成后,L地傳輸網絡中C、D等網元相繼脫管。
網管查詢L地傳輸網絡網元IP地址為132.1.N.18,聯系X地傳輸網管,咨詢X地傳輸網絡IP地址為132.N.1.18。當L、X地傳輸網絡中同時存在IP地址為132.1.1.18(N=1)的網元,在網絡建立光路連接后,兩地網絡中IP地址沖突,引起網元脫管。
故障處理:檢查網元B與波道對接光口DCC為開啟狀態,L地傳輸網管關閉該光口DCC通道后,網元脫管恢復,L地傳輸網C網元與X地傳輸網F網元IP地址均為132.1.1.18(N=1),網元脫管由IP地址沖突導致。
因此,在不同傳輸網絡光路互聯時,應關閉互聯光口DCC通道,避免網元IP地址沖突引起網元脫管。
作為網管日常維護人員,迅速定位障礙點并采取相應措施是非常重要的。本文通過對日常障礙處理中遇到的典型案例進行分析,研究常見網元脫管原因,總結網元脫管的特點,提出網元脫管處理建議,以保障鐵路通信安全。通常情況下,SDH傳輸網元脫管不會造成所承載業務中斷,僅影響網管對網元的監控[10]。在新線建設、既有線改造以及網絡中新增網元時,規劃每個網元必須有唯一的ID號或IP地址,避免網元ID/IP沖突造成網元脫管。在日常的網絡維護中,網絡維護人員應綜合掌握網絡結構、ECC通信原理以及網管與設備通信原理等[11]。面對各類網元脫管問題,維護人員應該有清晰的思路,根據障礙現象、告警內容進行障礙分析,不能在網管中盲目進行數據配置及數據的上傳和下載,防止網元數據丟失,造成通信故障的升級。