馬永剛
【摘要】 介紹了ZXSM2500光傳輸設備中的故障管理系統,詳細分析了告警信息的查詢和處理方法,并以常見故障的分析和排除為例,說明故障管理系統在光傳輸網絡管理中的應用,為快速查詢、處理故障提供了依據。
【關鍵詞】 光傳輸設備 故障管理 告警信息
ZXSM2500設備是由中興通訊股份有限公司生產的光同步傳輸設備,一般與中興ZXSM 150/600配合使用,可為用戶提供從小容量本地網、中容量中繼網或二級干線網到大容量一級干線網的一整套全面傳輸解決方案,廣泛應用于民網和軍網的傳輸系統中。該設備提供了強大的網管功能,在網元級和網絡級對SDH(數字同步傳輸體系)網進行管理,包括配置管理、故障管理、性能管理和安全管理等功能。其中,故障管理系統監測整個網絡的運行狀態,并通過告警信息與用戶發生交互,用戶通過查詢、處理各種告警信息就可以了解掌握整個網絡的運行狀態,及時處理故障,保障通信的正常運行。所以及時有效地對告警信息進行查詢和處理在光通信網絡故障管理中顯的尤為重要。
一、故障管理系統的基本功能
ZXSM2500設備提供一個外部告警開關量輸入接口,即SWITCHING INPUT接口??奢斎?個TTL電平開關量作為監控告警輸入,當檢測到通信類故障和外部環境的風扇、開門、溫度等告警時,可以通過NCP(網元控制處理)板上報到網管中進行監視。故障管理系統是檢測設備故障、故障定位和故障排除等措施有關的網絡管理功能,其目的是保證網絡能夠連續、可靠的工作。設備的告警輸出接口為電源告警單元的ALARM接口,用于將設備的告警狀態輸出至機房列頭柜或告警箱,告警狀態可通過繼電器的開合輸出開關信號表示[2]。
二、告警的查詢和處理
故障管理具有對設備的檢測、診斷、恢復和故障排除等有關的網絡管理功能,保障網絡能夠提供連續可靠的運行。故障管理從用戶得到當前可接受的服務質量門限和故障查詢請求,從性能管理得到當前網絡運行分析結果,從配置數據庫得到設備配置信息。當發生故障時,通過配置管理修改配置參數以修復或隔離故障部件將故障數據交給性能管理以分析網絡可用性,向用戶報告原因和處理結果,提出處理建議。
2.1告警查詢
2.1.1告警信息的收集
網絡系統可以采用定時采集和手工采集兩種方式對告警信息進行收集。定時采集可以以某一設定的時間間隔定時對告警信息進行收集;手工采集則由操作員設定需要采集的網元、單板、支路、告警類型、告警內容等信息,系統按照設定進行采集。采集的告警信息包含的內容有:告警類別(處理類告警、通信類告警、服務告警、設備告警、環境告警等),告警級別(一般告警、嚴重告警),告警內容,告警原因,告警對象,告警時間等。
2.1.2 告警信息的查詢
告警查詢是對網元側告警進行主動查詢。網管上的告警可能由于網管誤報、通訊中斷等原因與網元側的實際告警數據不一致,根據告警種類正確判斷網絡運行情況,這就需要執行告警查詢,將網元側的告警查詢上來。告警查詢還有一個功能是用于將非自動上報的當前告警或查詢到網管上,有利于一些相關故障的處理。網元告警上報包含的內容:將告警按嚴重程度分為嚴重告警、一般告警和事件告警,按告警發生源分為傳輸告警、設備告警、外部事件告警、性能告警和軟件告警,按告警狀態分為當前告警和歷史告警。所有應管理的告警如下:
(1)傳輸告警
傳輸告警與STM-N傳輸信息流有關,包括:
LOS(Loss of signal)接收信號丟失
LOF(Loss of frame)幀丟失
LOP(Loss of pointer)指針丟失
RDI(Far end receive failure)遠端接收失效
AIS(Alarm indication signal)告警指示信號
(2)設備告警
設備告警告警與構成SDH系統的物理設備有關,如板的拔/插、電源故障、時鐘故障等。
(3)外部事件告警
外部事件告警是與設備環境有關的告警,如機房門開、火災、水災、高溫等。
(4)性能告警
性能告警即性能超值告警,如性能門限的設置,性能設置門限可以根據網元運行優劣情況進行,一般不高于正常值的20%。
(5)軟件告警
軟件告警主要是對NCP上程序運行過程中檢測到的通信故障和程序錯誤進行告警。
2.2告警處理
基于以上分類和內容,管理系統應做到:
1)主動上報告警:設備發生告警,MCU(微處理器)檢測到,立即主動上報給NCP;NCP收到MCU上報的告警,或自己檢測到告警,立即上報給SMCC(網管系統監視監控中心);SMCC收到NCP上報的告警后,立即向操作員提示或選擇性地上報ZXSM-OS(中興網管系統)。2)請求報告告警:在某些時候,SMCC可以請求NCP上報其所有和某些類別的告警;NCP也可以請求MCU上報所有當前告警。3)允許/禁止主動上報某些類別的告警:SMCC可以設置NCP某些類別或所有的告警允許/禁止主動上報;NCP可以禁止/允許MCU主動上報告警。4)請求報告允許/禁止主動上報告警的狀態:SMCC可以請求NCP上報允許/禁止主動上報告警的狀態;NCP可以請求MCU上報允許/禁止主動上報告警狀態。5)告警過濾:當若干個告警同時發生時,若這些告警是相互關聯的,網管系統應能在若干個告警中找出最主要的告警,目前只考慮在MCU級過濾。6)告警定位:網管系統對發生的告警,應能定位到某站、某單板、某支路,時間標記精確到秒。7)告警查詢:SMCC的操作者能根據告警時間標記、告警狀態、告警位置、站點、板槽位、支路號、告警類型、告警嚴重程度等條件進行組合查詢。8)告警刷新:當前告警有兩種動態顯示方式,一是在網絡拓撲圖中,已發生告警的網元圖標和單板用醒目顏色顯示或有告警燈閃爍;二是在網絡導航樹中,已發生告警的網元圖標以及從頂層子網圖標到該圖標的路徑用醒目顏色顯示。告警刷新操作是將網管后臺數據庫中的告警信息與前臺的顯示信息同步,實際是顯示窗口的刷新。此項操作不與網元交互信息,刷新后網管上即時顯示的告警信息對處理故障是相當重要的。9) 告警屏蔽:告警屏蔽設置用于設定告警是否上報網管,設置為屏蔽狀態的告警將不再上報。系統對每個告警的初始設置均為非屏蔽狀態。配置好網元的告警設置后存盤,將配置數據下載到NCP板上,這時設置的參數才能生效。
三、常見故障處理
從實際工作中講,應先收集故障現象和網管告警信息,定位故障站點,然后利用網管和測試工具來確認。用故障現象和網管告警信息來定位故障時,應按從嚴重告警到一般告警,從線路板、時鐘板告警到交叉板、支路板告警的順序進行。需要注意的是,使用網管操作時,應先采集NCP時間,證實網管有效,否則一切操作均無效。
下面以兩個常見故障為例,說明如何利用故障管理系統完成故障定位和故障排除。
故障一
現象:2M通道中斷或不通。
分析和處理:①查詢網管中故障管理系統,發現有TU-12終端數據丟失的告警,說明該2M口有收故障。②通過取NCP時間證實網管可用和有效,并進行告警刷新操作;③采集當前告警,查看是否有其它更高等級的告警,并確定告警狀態和告警位置;④在網管上對該2M口做“線路側環回”、“終端側環回”,或光線路板做環回,通過網管告警和兩端交換機的DT(數字中繼)板狀態,來判斷哪一段不正常;⑤用誤碼儀來測試通斷情況,以便更準確的定位故障。
此種故障的原因一般有如下幾種可能:①2M線短線或斷線;②2M線收發接反;③2M混線;④2M支路接口盒故障;⑤2M支路板故障。
故障二
現象:NCP板有告警,網管無相應告警。
分析和處理:
①取該站點的NCP時間證實網管是否通訊正常;②采集該站點的當前告警(有時需要多次采集);③查看告警上報設置。因為網管將告警分為主動上報(此告警一產生,NCP板立刻上報網管)和非主動上報(網元產生此告警,網管只有采集當前告警,NCP才上報);④若告警還不一致,復位該NCP板或重新下載該站點的告警等級庫。
四、結束語
通過對設備故障管理系統的查詢分析,可以及時、準確的了解整個系統網絡的運行狀態,分析故障產生原因,并判斷故障所在位置,為快速處理故障,恢復通信暢通提供了保證。
參 考 文 獻
[1] 陳雄. 中興ZXSM2500SDH光傳輸系統[J]. 電信科學,1998.
[2] 中國郵電電信總局主編.《SDH傳輸設備維護手冊》.北京:國防工業出版社,2008.
[3] 中興通訊股份有限公司.《ZXSM數字復用設備手冊》.2003
[4]《光同步數字傳輸系統測試》 鄧忠禮 趙暉編著 北京,人民郵電出版社 2007