葛中魁
【摘要】 文章依據中國聯通集約化運維為背景,依托河南聯通現有網管系統監控的實際情況,全面分析移動網無線網絡監控保障中關鍵問題,并通過研究分析,制定相應的對策,確保集約化維護后,支撐系統安全穩定地運行。河南聯通根據集團集約化維護體系的整體部署,于2014年開始進行“集中網管、集中監控、集中派單”的集中化維護體系建設。為無線專業“三集中”支撐系統的穩定性提供手段,同時對其他專業也有借鑒意義。
【關鍵詞】 移動無線網 集中監控 關鍵問題 解決
中國聯通2014年提出以提高網絡質量、提升維護效率和效益為目標,全面推進面向業務質量和客戶感知的運維轉型,逐步建立集約化維護體系。
集中監控作為集約化維護最關鍵的一環,承擔著設備告警監視、設備故障告警派單的基礎保障。而移動無線網絡因設備復雜,網元數量龐大,告警量巨大的特點,更是監控和派單中的難點。本文僅從移動綜合網管系統中無線專業集中監控關鍵問題著手進行分析和解決。
一、集中監控系統概述
1.1網管系統架構
移動網管系統從網絡架構上可分為網元、設備網管,專業綜合網管和多專業綜合網管。設備網管管理各種網元設備,包括操作維護、配置、性能、告警、安全等,設備網管通過北向接口將配置、性能、告警等上報給專業綜合網管解析、處理、入庫,并進行后期匯總等工作。對于告警,還需要通過消息及時送往上層監控平臺呈現。專業綜合網管通過北向接口將告警、性能等信息送往上級總部綜合網管系統和多專業綜合網管。
1.2河南聯通移動網集中監控現狀
河南聯通移動綜合網管作為移動網基礎網絡管理平臺,實現了同各設備廠家網管和總部網管的互聯。已利用該系統進行故障集中監控、性能數據采集、網絡維護、生產分析等工作,在河南聯通日常運維工作和網絡分析工作中發揮了重要的作用,為設備維護、網絡規劃、市場發展提供強有力的支撐。
二、集中監控系統問題分析
2.1 設備網管與網元連接不穩定
設備網管與網元接口,G網和W網均通過基站控制器(BSC/RNC)后管理模塊連接,LTE是設備網管直接與基站通信,設備網管均集中在省網管中心機房。接口不穩定主要原因主要有以下幾個方面:DCN網絡瞬斷、廠家自身私有接口不穩定、基站控制器的后管理模塊故障等。
接口不穩定會導致一部分告警丟失、告警清除不掉的情況,給日常維護造成漏判、誤判,同時會導致考核數據不準確。
2.2 設備網管與綜合網管連接不穩定
設備網管與移動綜合網管告警接口存在多種,有SOCKET、CORBA、人機命令、數據庫等。各種接口及在現網應用中的現狀如下:
SOCKET接口:Socket接口采用TCP/IP協議,telnet到指定端口,兩端分別設置成Client端和Server端,實時接受網元告警消息。現網使用中,此類接口較不穩定,網絡稍有抖動就會出現告警丟失的情況。
CORBA接口:將私有接口轉換成標準接口,可有效保證數據完整性和安全性。CORBA接口偶爾也會出現網絡抖動或訂閱失效導致告警丟失。
人機命令接口:綜合網管通過程序配置向OMC發指令進行告警偵聽。此接口同樣存在較嚴重的告警丟失情況。接口較不穩定。
數據庫接口:綜合網管通過數據庫驅動軟件直接連接數據庫查詢。在數據庫不出故障的情況下,接口非常穩定,但不具有及時性。
2.3 無線網元上報告警格式問題
無線設備廠家告警分別從兩類網元上報:BSC/RNC和基站。BSC/RNC上除產生BSC/RNC全局性告警外,還有針對基站的接口告警,無法把兩者區分。維護中BSC/RNC和基站告警的重要性不同,在網管上無法根據告警標題做級別重定義,因此存在無法定位網元和級別的問題。
2.4 無線網元告警數量巨大
統計全省無線告警數量情況,全部無線網絡告警量每天在30-35萬條之間,BSC/RNC的告警量8-10萬條之間。提取全省無線BSC/RNC一周告警做分析,工程割接占比達到58.64%,資源負荷類告警占32.98%,設備硬件軟件告警只占7.2%。如此大量的告警,如果不進行告警梳理,將割接和不影響業務的告警進行篩選和級別重定義,無法形成派單和處理。
三、問題解決
3.1 設備網管與網元連接
廠家私有接口問題解決措施
設備網管和網元間各廠家均是私有接口,理論上來說出現問題的概率偏小,但愛立信G網設備丟失告警的概率偏高。
解決方案:通過在廠家OMC上部署告警同步程序,根據網管設備處理能力選取合理的同步周期,比對設備網管告警與BSC/RNC后管理模塊告警的一致性,進行同步。
DCN網絡中斷、后管理模塊故障監控措施
設備中斷都有類似“網元斷鏈”或“網元連接中斷”的告警出現,通過監控此類告警判斷某些網元是否連接故障,并根據告警產生時間長短,逐級提升告警級別;另外綜合網管上編制PING各BSC/RNC后管理模塊IP地址的小程序,在值班巡檢時檢查。
3.2 綜合網管與設備網管連接
監控OMC上報告警。綜合網管上編寫程序,監視各個設備網管北向接口告警信息,某個OMC在一定周期內(如10分鐘)無告警消息報送即產生告警并發送手機短信。
綜合網管和設備網管之間告警同步。考慮到SOCKET、人機命令等接口沒有同步機制,即使是CORBA接口,訂閱同步及對所有告警分析,因告警量大,受到設備處理能力限制,河南聯通采取的措施是數據庫同步。
3.3 無線網元上報告警格式問題
基站小區告警產生在BSC/RNC上的情況相當多,必須進行全面的梳理,并不斷核對觀察,篩選出告警標題。通過細化修改綜合網管的解析文件,把這些告警對象匹配到基站和小區上面。
3.4 無線網元上報告警數量巨大
工程預約實現工程告警過濾 。工程預約的功能是將某個時間段內計劃割接的網元信息導入到網管系統,綜合網管告警監控系統會將割接時間段內的此網元告警標記為工程狀態,并且不生成告警工單派發。錄入的信息包含節點類、端口類、小區割接類、未入網網元預約等。
通過告警標準化梳理重新定義告警級別。告警標準化梳理,并重新定義告警級別是集中監控必不可少的環節。河南聯通告警級別共分6級:重大、嚴重、主要、輕微、警告、不確定。不同級別告警影響業務的程度不同,采取不同的處理時限。
告警關聯規則設置。告警關聯就是將基本同一時間發生的有一定相關性的告警進行關聯分析,分衍生關聯、主次關聯、閾值升級。通過告警關聯,能有效降低高級別的告警數量和派單數量。
3.5 其他輔助措施
告警短信輔助監控。通過與短信網關接口,設置設備重大和嚴重告警、設備網管與綜合網管斷連告警發送短信給相關維護責任人,輔助監控。
智能巡檢配合。智能巡檢是利用人機命令接口,向網元設備發指令提取實時的各種鏈路狀態、CPU負荷、重要告警等信息,將提取的報告解析與預先設置的標準或門限比對,判斷設備是否正常。對巡檢結果會以報告的方式提供給維護人員查閱,同時設置異常巡檢結果直接轉告警。
四、總結
在聯通如此龐大而且多種制式網絡并存的情況下,集約化運維是一項巨大而復雜的工程,而集中監控系統是關鍵。對跨專業的告警關聯要做細致分析和梳理,特別是基站主設備與傳輸、動環專業告警關聯是定位基站故障原因的關鍵要素。與相關的系統協同配合,如電子運維的精細化派單、資源管理系統的完善等,與之相匹配的管理流程也要及時跟進。
參 考 文 獻
[1]夏海濤,詹志強 新一代網絡管理技術 北京郵電大學出版社 2004
[2]中國聯通OSS/WCDMA網綜合網管系統與網元管理系統間接口技術規范 2013