許云飛
(中移鐵通吉林分公司,吉林 長春 130012)
提升傳輸系統故障工單壓縮比
許云飛
(中移鐵通吉林分公司,吉林 長春 130012)
隨著傳輸系統故障集中化管理的不斷推進,如何提升傳輸系統故障工單壓縮比,從而提升傳輸維護人員故障處理的效率,這成為了傳輸故障集中化管理的第一課題。提升傳輸系統故障工單壓縮比是傳輸系統集中化故障管理的關鍵因素,主要論述通過對傳輸系統的告警進行統計和分析,制訂了方案,以提升傳輸系統故障工單壓縮比。
閉環處理;故障工單;傳輸系統;維護系統
2013年,吉林移動全面推進集中化故障管理改革,全部傳輸系統告警由省網管中心監控室以故障工單形式派發至各地市一線維護班組進行閉環處理。隨著傳輸系統故障集中化管理的不斷推進,如何提升傳輸系統故障工單壓縮比,從而提升傳輸維護人員故障處理的效率,成為了傳輸故障集中化管理的第一課題。
告警(Alarm),是指對于網絡設備、系統資源等出現異常的情況進行報告。故障工單是吉林移動特有的辦公自動化系統之一,主要輔助維護人員對故障、投訴的閉環處理。
傳輸系統故障工單壓縮比的計算方式為:(傳輸系統告警觸發工單數-實際派發傳輸故障工單數)/傳輸系統告警觸發工單數。
2016年,平均每月傳輸系統告警觸發工單數為35 151.90個、實際派發傳輸故障工單數為22 670.40個,傳輸系統故障工單壓縮比為35.58%.
通過《電子運行維護系統》采集數據分析的方法,對影響我省傳輸系統故障工單壓縮比的因素進行統計,影響因素所占比例依次為:電力原因占30.76%、光纜故障占18.80%、用戶原因占18%、無效告警占17.3%、工程割接占8.16%、人為原因占3.13%、支撐手段不到位占2.81%、其他原因占1.04%.最終定位影響傳輸系統故障工單壓縮比的主要原因為電力原因、光纜故障、用戶原因、無效告警。通過數據統計,實現傳輸、動環專業跨專業成功率為20%,成功率較低,確定缺少跨專業派單規則是電力原因影響工單壓縮比的主要原因。經統計,傳輸專業故障工單中,同一故障導致工單關聯率低于20%,確定缺少智能衍生規則是光纜故障影響工單壓縮比的要因。經確認發現,80%的故障工單為用戶側斷電引起的無效工單,有效工單占20%.按照日粒度統計傳輸現網告警統計結果發現,四維告警所占比例均大于50%,確定四維告警所占比例大是無效告警影響工單壓縮比的主要原因。
由于電力原因造成傳輸線路上報大量告警,產生了大量傳輸故障工單。因此,小組編寫了跨專業告警關聯規則,將動環、傳輸專業的不同告警有機聯系在一起,并關聯生成一張根源工單,通過省內動環、傳輸專業告警資源來搭建跨專業告警關聯派單模型,有效提升了跨專業告警關聯故障定位的準確性、及時性。
電力停電因素導致的月均工單量為6 974張,實施跨專業關聯規則的手段以后,工單量減少至3 843張,工單量大幅度壓縮,傳輸故障工單壓縮比由35.58%提升至44.41%.
當傳輸線路中斷時,除了產生主要告警外,還會產生大量衍生告警,產生大量故障工單,影響了傳輸工單壓縮比。因此,應制訂傳輸環一點中斷衍生規則、傳輸同環多網元中斷衍生規則。規則上線前,因光纜故障因素導致的月均工單量為4 262張,實施智能衍生規則手段以后,工單量減少至2 288張,工單量得到大幅度壓縮,傳輸系統故障工單壓縮比由44.41%提升至50.25%.
原有的家寬告警標準化字段缺少故障設備與場景、小區、用戶的關聯信息,工單只能體現出故障網元的類型、端口、板卡等一些基本信息,維護人員無法從故障工單中判斷出設備場景、用戶類型及影響范圍等關鍵信息,且用戶側斷電導致PON口類大量工單的派發,維護人員難以判定導致PON口故障的真實原因,耗費了大量的人力、物力來判斷故障產生的真實原因,導致一線維護工作量大,影響了維護人員對重點區域、重點故障的快速響應。
通過對工單的分類分析,由于小區停電、用戶側斷電導致的PON口中斷類工單占55%以上。針對這一現狀,小組成員重點對PON口中斷類故障進行了深入分析發現,對判斷PON口中斷類故障有效的關鍵字段為“告警原因”“附加信息”。引起PON口中斷的原因為小區停電、光纜中斷等。因此,對不同因素導致的PON口故障進行了分類處理。
規則原理為:利用ONU掉線前回傳給OLT其下線原因的能力,判斷PON口中斷的根本原因,PON專業網管通過“告警原因”“附加信息”字段呈現出來,故障管理系統通過對該字段的自動解析,抑制由于用戶側斷電類故障產生的工單。上述措施實施前,因用戶側因素導致的月均工單量為4 080張,實施增加家寬關聯告警字段手段以后,工單量減少至1 810張,工單量得到大幅度壓縮,鐵通代維故障工單壓縮比由50.25%提升至56.71%.
告警是判斷網絡是否異常的重要標準,每日大量的過量、過頻、過長、過短告警存在于網絡中,甚至個別網元每日會產生超過千條的告警,大量工單堆積,難于判斷出根本原因,導致傳輸工單量飆升,造成傳輸網絡存在大量的安全隱患不能被及時處理。通過分析四維告警、數據統計、分析定位、處理建議等措施,實現了故障定位,進而提高了人工預處理的效率,保障了網絡的健康、穩定運行。對全省傳輸網絡過頻告警top3告警及網元進行了統計,傳輸PTN網絡中的ETH_LOS告警量尤為突出,小組成員通過對告警產生的原因分析,提出了合理化的解決方案,具體如圖1所示。
對傳輸網絡中過長、過短告警及網元進行了統計,查找到了主要原因,并制定了解決方案,如圖2所示。
按照統計傳輸現網告警,小組經過告警溯源分析,確定了產生過量、過頻、過長、過短告警的原因,對各地市進行了告警跟蹤,通過維護人員進站維修、屏蔽無效告警、規范流程等,告警整治工作效果顯著。上述措施實施前,因無效告警因素導致的月均工單量為3 923張,實施策略后,告警量及工單量得到大幅度縮減,工單量下降至2 288張,傳輸系統故障工單壓縮比由56.71%提升至61.36%.

圖1 合理化的解決方案

圖2 解決方案
在實施完所有措施后,對工單壓縮比進行了檢查,針對2017-01—2017-03傳輸故障工單壓縮比進行了統計,電力原因所占比例由30.76%下降至28.29%、光纜故障所占比例由18.80%下降至16.28%、用戶原因所占比例由18%下降至13.33%、無效告警所占比例由17.3%下降至16.84%,故障工單壓縮比從35.58%提升至61.36%.
通過采取對策,降低了無效告警量,減少了無效工單的派發,為傳輸維護工作節約了大量的人力、物力成本,提升了故障處理效率及維護成本。
U284.92
A
10.15913/j.cnki.kjycx.2017.20.107
2095-6835(2017)20-0107-02
〔編輯:張思楠〕