張艷瓊
【摘要】本文主要介紹以維護工作中的監控場景及信息展示需求為核心,整合日常監控、重大節假日監控等場景下的各種信息及相關手段,實現對網絡、客戶、業務發生的事件和異常快速的發現、準確的定位、及時的響應。
【關鍵詞】告警故障性能
綜合監控工作是指在通信企業第一時間掌握網絡整體狀況的基礎上,進行快速響應和資源調度,以期用最短時間減少業務影響的綜合性工作。綜合監控系統是滿足綜合監控工作的支撐系統之一,是以維護工作的監控及部分集中展示場景為核心,整合日常監控、通信保障等場景下的各種信息及相關手段,實現對網絡、客戶、業務發生的事件和異常進行快速的發現、準確的定位、及時的響應。
綜合監控的重點在于,根據日常監控場景的需要,將各類網元作為監控對象以及參考來自于其他系統的信息,以網元粒度、地區粒度、省級粒度進行監控。
一、綜合監控的管理范圍
1.當前告警信息。各專業、各級別告警的數量:各專業的告警量(話音、數據、傳輸、動環等);各級別的告警量(一級告警,二級告警,三級告警)。
2.當前性能指標信息。網絡性能指標是當前網絡情況下網元的性能指標的直觀呈現,包括:信道可用率、接通率、掉話率、擁塞率、系統接通率、位置更新成功率、系統尋呼成功率、PDP激活成功率、短信全程接通率(%)、短信MO接通率(%)、短信MT接通率(%)、WAP總接通率、MMS網絡接通率等。通過對這些性能指標進行監控,能夠更好的發現網絡隱患。
3.網絡KPI動態展示。值班長需要能夠管控到準實時的業務動態指標的情況,能夠做到簡單的指標判斷和分析的工作,這些動態指標主要指小時粒度以上的指標,如話務量、短信量、彩信量、數據業務流量、登記用戶數、系統接通率等,在進行準實時趨勢展現時,一般需要具備日常對比或者歷史同期對比功能。
4.當前投訴數量信息。呈現各地區、各類投訴數量信息,投訴分類與EOMS保持一致。
5.當前故障工單數量信息。呈現各地區、各專業故障工單數量信息,各種狀態的工單數量如“已派發工單”,“等待受理工單”,“正在處理工單”“已處理工單”,“超時工單”,“將要超時工單”,“長時間未受理”等狀態的工單數量;各專業工單量,如話音,數據,傳輸,動環等專業。
6.工程調整信息。包括工程割接、調整計劃以及對網絡可能產生的影響。
7.外圍事件信息。包括可能對通信網絡造成影響的天氣、社會重大事件、社會安全事件及相關新聞進行監控。
8.應急調度管理。當日常監控場景期間發生異常事件時,具備對網絡異常事件的快速處理能力,具備對網絡設備故障的快速恢復、容災切換能力,具備應急預案的快速執行能力。
9.信息發布。日常監控場景下,當發生重大故障時,需要向相關專業負責人、各級領導發布故障相關信息,信息發布內容主要涵蓋以下幾個方面:故障網元、故障發生時間、故障影響范圍、故障處理情況、故障結束時間、故障歷時、故障原因。
二、綜合監控的系統建設方案
需要建設綜合監控系統來滿足通信企業對綜合監控工作的要求,綜合監控系統應是一個7*24小時不間斷運行的、高可靠性、高處理能力、可擴展性強的環境下的業務支撐系統。根據CMOSS2.0規劃以及省級綜合監控系統的規劃,重點實現全專業、跨專業告警關聯監控、集客監控、拓撲監控、概況監控、集中性能監控的規劃落地,構建一個面向全專業的、穩定的、開放的、靈活的、可擴展的系統架構,如圖1所示。
1、系統網絡架構
數據庫/采集服務器部署在Unix主機上,兩臺主機通過兩臺光纖交換機與光纖陣列交叉相連,組成高可靠的集群系統,互為備份。其上運行數據庫系統、內存數據庫系統、接口適配器及部分基于Unix的應用軟件。
Web服務器部署在PC服務器上,安裝基于Windows操作系統的IIS作為web發布平臺及相關web應用軟件。
GIS服務器(可利舊)負責給綜合監控系統提供GIS平臺服務。
告警中層處理服務器提供告警分發等告警中層處理服務。
鑒權服務器提供系統整體的鑒權服務,并作為其它PC服務器的冷備份機,如圖2所示。
2、系統接口
綜合監控系統第一階段不考慮和ESB平臺、統一采集平臺、業務質量監測系統的接口,所有數據都來自于專業網管、綜合資源,綜合監控外部接口如圖3所示:
3、系統總體要求
(1)告警數量準確。
來自網元或OMC等的告警在采集中數量準確一致,告警完整率在99.9%以上。
(2)告警數據內容完整。來自網元或OMC等的告警內容在采集中告警內容準確一致。
4、公共技術要求
(1)支持Windows、Solaris、AIX、HP-UX、Linux等主流操作系統,支持主流數據庫。(2)支持GBK、GB2312、BIG5、UTF8等字符集編碼。(3)非實時類應用客戶端盡量采用B/S技術,支持主流瀏覽器。(4)總部系統支持多語言、多時區,語言至少包括簡體中文、英文;時區至少包括北京時間、巴基斯坦時間。用戶第一次登錄時,系統自動獲取客戶端的語言設置、時區設置;之后,用戶可自行設置語言和時區,系統根據用戶設置進行顯示。(5)所有的刪除操作和重要操作必須提示用戶,經用戶確認才能完成。(6)確保不會因用戶誤操作而導致掉線、應用混亂或系統崩潰。(7)具備在線升級能力。(8)為保護已有投資和延續維護習慣,建議數據庫選用ORACLE,消息中間件選用IBM MQ,拓撲中間件選用Twaver。同時內存數據庫選用主流的商用軟件產品。
5、主要功能
(2)跨專業告警監控
全專業告警監控適用于監控現場管理人員及一線監控人員實時掌握全網運行情況,是告警標準化工作的進一步延伸,可對核心網、無線網、數據網、傳輸網、動環、撥測、巡檢、業務質量等全專業多業務的告警按照告警標準化字段要求進行呈現,快速實現通信網絡端到端的管理、面向業務和面向客戶的全業務集中監控、統一管理。系統架構圖如圖4所示:全專業告警監控模塊采用層次的設計思路,將服務與應用分離,主要包括:告警標準化呈現、工程告警標注、告警關聯、告警派單、告警查詢、告警統計、告警處理等功能。
(3)概況監控
概況監控場景用于呈現全網設備運行情況,基于地圖呈現資源信息、告警信息、性能信息、工單信息、工程信息、業務質量監控信息等。基于定制的窗口掌握全網總體情況。概況監控場景下,通過GIS圖層和窗口可以實現資源信息可視、故障信息可視。
三、難點總結
由于綜合監控從各專業網管采集告警、性能數據,專業內告警標準化、專業內告警關聯都已經在專業網管實現,所以綜合監控比專業網管的監控功能突出的一個強項,就是跨專業的關聯能力,包括跨專業的告警關聯、告警與資源數據的關聯、告警與集客業務的關聯、告警與集客客戶的關聯等。而這些關聯能力的實現,都強烈依賴于綜合監控采集到的各專業資源數據的完整性與準確性。