王 洋
(中國移動通信集團山西有限公司網絡部網絡管理中心 太原 030009)
移動信息通信網絡技術和移動信息業務種類的專業化、復雜化、多樣化、快更新、細分工等發展特點,要求網絡監控工程師和設備維護工程師不僅具有豐富的維護經驗,而且要具備較強的知識更新能力。信息通信網絡中任何設備/局部區域的性能降低/故障都將導致整個網絡服務能力受限。傳統網絡運維模式存在重復承擔監控任務、流程自動化程度和信息智能化程度低、專家知識與經驗固化周期慢、網絡質量評估智能化薄弱等問題[1]。因此,集中故障管理為保證網絡運維可靠、高效運行提供了重要的解決手段。
為了實現全網運維的可視可控、可管理,通信網設備的全量可靠接入成為集中監控的基礎資源。由于網絡拓撲自身存在層次化特征,各級通信設備對于網絡整體效能的影響程度存在差異,因此,層次化管理為集中化監控提供了一種網絡管理思路。根據經典管理理論中的“管理幅度”(management span)理論,即:由于監控工程師經驗精力、知識能力的限制,其管理幅度(寬度)有限;工程師數量配置與基本管理內容和管理流程的影響因素有關;基于管理幅度的組織規劃合理性直接影響層次化管理的效能[2]。
集中監控管理幅度規劃應考慮的一些影響因素如下。
·明確目標與權限規劃:以網絡管理權責為基礎,明確各自的目標和任務,降低各級主管在工作中的偏差糾正、職責劃分等所帶來的資源消耗。
·任務復雜度特征:負責復雜度較高的任務的網絡主管,建議其管轄的監控人員數量有所降低(管理幅度應相對較小)。
·人員能力特征:對于具備較高網絡監控、溝通協調、網絡管理能力的人員可逐步增加其工作量,擴充其管理幅度,培養自主管理能力(管理幅度應相對較大)。
·任務工作量特征:當監控任務協調程度較高(如IT系統功能需求描述與驗證測試、一線維護人員問題溝通與協助處理等)時,其管理幅度需減小。
·渠道流程成熟度:當集中故障管理中的信息上報、溝通理解、核查處理、質量評估等流程環節已經具備規范化流程和手段時,負責該項任務的故障管理人員的管理幅度可適當擴展,但仍需保留其原有任務內容,以保證后續的完善和優化。
扁平化的集中監控并不是簡單意義上的中間層網絡運維人員數量減少,而是將其在網絡運維環節中涉及的管理資源進行整合,實現信息傳播加速和信息價值突顯,對于信息通信網絡管理由核心層向末梢層的業務全流程服務質量感知,提高全網的管理質量和掌控能力。層次化管理實現了權責分明,通過適當的管理幅度和管理層次劃分,可以提升網絡管理的運營效能。扁平化監控與層次化管理不僅提高了網絡質量管理的全程性和透明性,而且也增加了網絡監控管理的風險性。通過建立網管系統冗余備份、細化賬號權限差異、規范賬號授權流程、授權與審核相分離、構建網管失效應急預案等系統手段和管理流程,可以進一步提升網絡管理的風險防控能力。
集中故障管理是區域級網絡管理向全局級網絡管理的探索實踐,其涉及的內容包含組織結構、權責優化、告警管理、故障管理、網管系統等多個方面,而故障流程管理是集中故障管理的核心和各環節的紐帶。從網絡告警、故障管理角度對集中故障管理進行分析討論。告警管理、工單管理分別作為集中故障管理的“信源”和“信宿”,而“故障管理”作為管理流程成為兩端的融合“信道”,如圖1所示。

圖1 集中監控模式下的故障管理環節
3.1.1 網絡設備告警獲取
網絡設備告警全量接入是集中故障管理的基礎,網絡設備告警包括主動上報類告警和被動探測類告警,主動上報類告警是將設備自身運行狀態過程中產生的狀態告警(接口、板卡、模塊等)上傳至網管系統;被動探測類告警是由網管系統發送消息至網絡設備,根據網絡設備反饋信息判斷設備是否為正常的運行狀態。
主動上報類告警由設備廠商進行告警含義定義,網絡設備廠商首先將網管(如OMC、OMCR等)上傳至綜合網管(如OSS),在此過程中新增設備特征信息(網元設備名稱、告警發生時間、端口速率等)和告警特征信息(如告警邏輯分類、設備影響情況、業務影響情況等),然后根據派單規則進行故障工單派發;被動探測類告警通過告警標準化(設備特征信息)進行規范化處理,后續流程與主動上報類告警相同。
由于網管系統字段龐雜且數據量巨大,設備告警字段信息傳送與網管系統告警字段均預設解析協議,通常會對字段長度進行長度限制,為了防止字段信息異常導致垃圾數據積累或者解析錯誤,網管字段信息建議采用自動匹配或者基于文本挖掘技術的關鍵字異常檢測預警;通信設備告警時間通常采用自身時鐘(設備首次配置設定時間,后續由含有晶振時鐘的板卡推算時間),當自身時鐘出現異常時告警發生時間上傳將出現錯誤,進而導致工單派發異常,因此建議接入時間與全網設備時鐘規范同步;性能告警(如語音全程呼叫成功率、網絡分組丟失率等)作為反映網絡客戶服務質量和客戶網絡感知的重要手段,必將逐步受到重視,性能告警的動態閾值科學化、全局性、系統性設置與組合將成為性能管理的關鍵環節。
3.1.2 告警標準化管理
網絡設備告警源于不同設備廠商定義的告警信息,但其告警信息字段內容存在明顯差異,而且其更關注設備運行狀態,對于設備服務質量和全網性能影響缺乏精確的分析評價。因此,智能告警標準化管理顯得十分必要。告警標準化字段通常包括告警邏輯分類、告警邏輯子類、告警對設備的影響、告警對業務的影響等[3],由于設備軟件版本的更新升級將導致新告警產生,告警信息內容將隨之剔除或者新增,然而對于已部署網管系統的標準化告警無法及時發現和更新,因此建立告警標準化專家管理系統(alarm standardized expert management system,ASEMS)將規范告警標準化流程,降低溝通與管理成本,如圖2所示。
ASEMS實現了告警標準化智能化、專家化梳理過程:設備告警通過網管系統內嵌的告警標準化梳理表進行告警信息關鍵字段自動匹配,如果匹配成功則按照告警派單規則形成電子故障工單,如果未匹配成功則該告警信息進入ASEMS;ASEMS將未匹配告警信息部分相關字段(如專業類型、設備類型等)自動填充至告警標準化字段信息,將缺失的告警標準化信息推送至相應專業的網絡設備廠商專家進行信息補充,當標準化信息字段全部補充完成后提交網絡維護專家,專家多數評審通過則納入告警標準化梳理表,反之填寫評審意見后退回網絡設備廠商專家重新修訂。
3.2.1 告警派單規則制定與分析
信息通信網絡不同專業、不同廠商、不同類型的告警種類和特征很多,全量告警直接形成故障工單不僅會帶來浩大的維護工作量,而且會隱藏關鍵故障源點。單條告警派單規則有兩種梳理方式:正向梳理,基于維護工程師檢驗進行全量告警,逐條篩選形成“白名單”方式的派單規則;反向梳理,由于通信設備組網方式、網絡設備軟件版本以及網絡環境差異等因素制約,全量告警并不會全部產生,按照“排除法”開啟全量告警全量派單,及時剔除不需要派單的告警,最終形成“黑名單”方式的派單規則。兩種梳理方式對比見表1。

表1 派單規則正向梳理與反向梳理對比
當網絡中的設備發生故障時,快速發現、排除故障是保證網絡安全、可靠運行的關鍵,也是網絡運維管理的首要任務。單一的故障也可能引發海量告警,大量的單條告警獨立派發故障工單不但增加了網管系統的開銷,而且掩蓋了故障的根源,非常不利于網絡運維人員排查故障。通過對告警進行合并和轉化,將多個告警合并成一條具有更多信息量的告警來代替多條告警[4],以協助網管人員分析故障信息、快速定位故障,即告警關聯與工單合并追加。
工單追加與合并主要涉及設備維護操作系統、網管監控系統、故障工單系統,該策略主要包括合并規則、時間點設置、工單呈現與回復、追加規則等,如圖3所示。

圖2 告警標準化專家管理系統

圖3 工單追加與合并策略
工單追加與合并策略過程如下。
(1)以告警關聯邏輯、設備鏈接拓撲、地理維護區域為基礎,形成工單合并邏輯。
(2)以特定時間周期T為粒度,根據告警歷時(告警消除時間與告警發生時間之差)形成消除告警量柱狀圖并擬合為曲線(如圖4所示),形成故障告警歷時數據分布,T1表示在消除告警量最大時所對應的時間點,T2為工單追加合并派發時間點,T3表示告警工單派發最長的時限點,T2~T3為網管系統工單消息排隊的最長時間。
(3)若合并后告警滿足派單時延要求則形成故障工單,當故障工單包含告警未消除且該工單涉及關聯邏輯(告警關聯、拓撲關聯、區域關聯)又發生新告警時,追加至該工單;反之,生成新的故障工單。
為了進一步評價和優化派單規則質量,通過建立告警數據庫,對優化調整后的單條派單規則、關聯規則、合單規則、追單規則等效果進行分析評估,即信息通信網絡告警派單規則分析及評估功能方法,系統功能架構如圖5所示。
該方法從網管系統負荷和維護人員故障工單處理工作量角度,對優化前后的告警派單量進行量化評估,結合網絡告警屬性和網絡服務質量評估派單規則合理性,不僅為告警關聯規則和派單規則匹配度分析提供數據支持,而且為工單合并和工單追加方式提供了驗證評估手段。

圖4 故障告警歷時數據分布實例

圖5 信息通信網絡告警派單規則分析及評估系統架構
信息通信網絡告警派單規則分析及評估方法可對優化后的派單規則及關聯規則的合理性和可靠性進行事前分析,輔助網管系統發現問題,通過引入信息通信網絡告警派單規則分析及評估,實現告警到工單的可視、可控、可分析。對告警、工單進行模擬分析后,結合維護需求選取科學合理的派單規則,可進一步提升現網故障派單的及時性、準確性,提高網絡的運維管理水平。
3.2.2 故障工單預處理
對于無線、傳輸、數據等單專業而言,故障工單預處理是在形成故障工單后人工輸入或者系統自動執行相關操作命令(如功能模塊重啟、端口/板卡狀態查詢等);對于跨專業而言,故障工單預處理可實現跨專業的告警關聯和故障定位,以無線專業為例,當無線設備網元出現故障告警時,提取該告警網元的物理名稱和相應物理位置信息,通過告警網元的名稱及物理位置信息關聯到該網元所在的傳輸鏈路、動環機房,然后根據關聯網元的信息輸出相應網元的全量告警信息,最后對各專業的告警信息進行綜合分析和智能關聯,并僅對故障點源頭專業派發故障工單。
由于通信設備上報告警信息存在大量英文字段且文字類告警可能對應不同的告警描述,通常可將相關英文進行直觀漢化描述并補充告警輔助字段信息(如告警詳情描述、告警預處理建議等)。另外,對于工單相關信息字段配置需避免內容重復和文字歧義,最終達到工單所含內容文字量最小化和信息價值量最大化的目的。
通過對各專業告警數據信息的關聯及智能分析,實現了故障準確定位,同時對定位準確性進行了事前驗證評估,可以實現對故障的精準派單,支撐維護排障,縮短故障時長。
3.2.3 故障工單直派
故障工單需直派一線末端維護班組,不僅簡化故障信息傳遞的中間環節,而且更有加強末端故障處理的掌控能力。為了協助一線維護人員更好地理解故障工單信息,以一線維護人員最密切的無線專業和傳輸專業為切入點開展告警故障工單的“三化”(漢化、簡化、通俗化)質量提升,依托故障工單形成告警信息重點字段(所屬EMS、網元名稱、基站號、小區站號、載頻號、CI號等)的有效傳遞,為基層維護人員的故障關鍵信息的辨識和重點理解提供便利。
3.3.1 渠道優化與應急預案
集中化故障管理實現了一線維護人員與核心網絡管理人員的直接溝通,同時也帶來了頻繁的資源成本,因此,建設高效可靠的信息渠道(網絡設備整體性能、板卡端口狀態查詢等)成為問題的關鍵。通過分析一線維護人員的工作習慣,為搭建手機掌上運維、飛信機器人、微信溝通平臺、工程割接管控系統等提供了便捷的新工作模式和溝通方式。
為了防止區域維護人員對網絡運行狀態存在“看不到、聽不清、摸不透”的問題,建議網絡運行采用關鍵性能指標實時報、網絡設備自助查詢、區域差異化“紅橙黃藍”應急預案和信息發布等方式,從而為一線維護人員提供更加可靠和及時的網絡運行資訊,提高基于網絡維護的網絡感知水平。
集中故障管理系統的運行狀態直接影響著網絡管理的有效性,對于系統失效的情況需建立一整套完整的應急預案,如數據庫負載均衡系統、二級監控系統、地市自主應急監控系統等。
3.3.2 管理流程穿越與質量管控
基于告警信息數據流、工單關鍵字段流、故障發布信息流、全業務質量關鍵信息流[5]的鉆取分析,可實現集中化管理的事前風險評價、事中預警監測、事后評估優化,同時對于各系統環節匹配優化、工單內容質量監督、故障處理效能評價、網絡故障原因挖掘、代維/自維護流程規范等提供了豐富的信息資源。例如,通過告警標準化字段信息對各級別/各廠商/各專業的告警量/非工程告警量變化波動分析、基于告警標題的排名分布特征和異常類告警(超量網元、超長告警、超頻告警等)的網絡“隱性故障”的顯性化;結合工單處理時長對區域維護質量進行基礎評估;利用工單回復原因分類的故障分布情況等評估網絡故障原因,并為基于故障原因概率分布特征的告警工單派發提供數據支持。
集中監控管理是集中故障管理的基礎,構建順暢的“告警發現—告警標準化—告警派單規則—工單質量管理”工作流將直接助力集中故障管理工作的開展,而“渠道優化與應急預案”將為集中故障管理提供環節優化和穩固支持,“管理流程穿越與管控”提升為整體網絡監控質量、網絡排障質量管理提出了可行的策略和手段。
集中故障管理不僅是一次流程制度的變革,而且是一項工程實踐的探索,其本身就是創新思路與新興技術的融合,是傳統方法向現代管理的轉變,如基于文本挖掘技術的工單回復質量、網絡故障原因分析、基于移動互聯網思想(價值多元性、價值時空性)的支撐系統優化等。以集中故障管理中的大數據可視化技術、云技術與云應用為例展開論述。
一個大型城市移動用戶的位置更新信息量超過8萬條/min,移動電話呼叫次數為300萬次/h,互聯網每天30億次點擊量將產生70~100 TB互聯網訪問量[6]。通過對信息通信網絡大數據的聯動分析,可以實現信息通信流量趨勢的預測分析和波動預警、網絡故障診斷定位加速、網絡故障恢復時長降低、網絡潛在惡意攻擊預警、數據設備容量規劃、網絡系統非法入侵取證以及流量內容聚類等系統功能[7~9],使整體網絡管理方式由“業務分布規劃”驅動向“數據價值策略”驅動轉變。
以全專業全量告警信息大數據為基礎,按照“專業內分層、專業外分塊”的原則實現大數據可視化探索與實踐,即:專業內告警分層,基于告警的設備歸屬、設備間拓撲關系,通過對專業內告警進行按級別或按業務影響情況的分類,對告警間關系進行分層展示,通過可視化網絡圖形,找出專業內的頻發告警或源頭告警;專業間告警關聯,基于網元機房歸屬、地理位置、拓撲關系,通過復雜網絡方式展現告警跨專業關聯情況,展示專業間告警關聯點,以關聯點入手反推出跨專業關聯告警,優化派單規則,找準預處理關鍵信息(如圖6(a)所示);基于網元地理位置信息,通過熱力圖方式展現區域內網絡告警的渲染圖,并進行區域內網絡情況鉆取,以反映區域內網絡運行質量(如圖6(b)所示)。
大數據可視化技術提供了一種更加直觀的數據呈現和網絡運行質量管理手段[10],大數據資源還可以在網絡維護質量評估、網絡性能趨勢異常檢測、網絡運行隱性故障預警等方面提供新的思路和方法。大數據與數據挖掘技術為新時代環境下的網絡智能化管理提供了科學化的方法手段,而且注入了持續的發展動力,開拓了全新的知識視角。
虛擬化技術是一種典型的云技術和云應用,其實現了計算機硬件資源的抽象化,將硬件資源抽象為一系列的接口資源,隱藏屬性和操作之間的差異,并允許用一種通用的方式查看并維護資源。桌面虛擬化(desktop virtualization)將分立的用戶桌面環境與計算資源解耦合,把軟件操作系統、應用執行程序等涉及硬件資源的I/O封裝在一個虛擬機的文件中,服務器存放每個用戶的完整桌面環境,服務器虛擬化軟件可以讓多個虛擬機在一臺硬件服務器上運行[11]。
瘦客戶機桌面虛擬化監控終端的功能軟件部署和更新統一簡潔,管理維護便捷,可以直接支持新功能需求;通過熱桌面技術可以自由移動辦公位置且不需要重新啟動操作系統和運維系統;由于監控終端通常為24 h運行狀態,虛擬桌面方式較傳統PC方式節能約50%,且其散熱、噪音優勢明顯。集成化程度較高的虛擬化桌面系統存在應用型環節,可能會影響到系統穩定性,如防病毒軟件系統、Windows登錄身份驗證系統等安全管理技術是否適用不同等級的監控終端需求[12],相對獨立的虛擬化桌面系統殺毒功能定時策略是否可能給系統帶來突增負荷等。

圖6 大數據可視化技術
集中監控模式下的故障管理是一項復雜的系統工程,其涉及網絡運行維護管理全流程,網絡管理、網絡監控、網絡維護和支撐系統均承擔著重要的環節樞紐作用,每股環節的“短板”都將影響整體故障管理效果和水平。管理流程源于工作實踐,傾聽自維人員和代維人員的需求,避免出現流程及其輔助系統的“用不慣、不好用、沒人用”的情況。關注客戶感知需求,樹立人性化管理意識,強化內部服務意識,建立順暢的溝通機制和評價指標體系,激勵一線問題發現與引導自主創新實踐。
在互聯網大數據時代背景下,瞬息萬變的業務市場和客戶需求給信息化企業帶來了“短、頻、快”的運營要求,網絡運維管理也需要融入互聯網思想,讓“反應迅速、專業專注、信息開放、價值平等、部門協作、資源分享”等互聯網品質助力新型信息通信網絡運維體制的轉型和發展。
1 呂雪峰,陳剛.電信企業網運體制改革探索.通信企業管理,2014(2 ):64~66 Lv X G,Chen G.The structural reform exploration of telecommunication enterprise network maintenance.Enterprise Management,2014(2):64~66
2 施雪華,陳勇.大部制部門內部協調的意義、困境與途徑.深圳大學學報(人文社會科學版),2012,29(3):90~95 Shi X H,Chen Y.Significance,dilemmas and solutions:internal coordination in the super-ministry system.Journal of Shenzhen University(Humanities & Social Sciences),2012,29(3):90~95
3 黎娟.通信網網管支撐系統運行質量管控的研究與實現.電信科學,2013,29(12):139~144 Li J.Research and implementation on quality control of network management support system.Telecommunications Science,2013,29(12):139~144
4 鄭哲淵,劉淵.面向大規模告警數據的高性能信息篩選系統.計算機工程與設計,2014,35(2):435~439 Zheng Z Y,Liu Y.High performance information filtering system for large-scale alarm data.Computer Engineering and Design,2014,35(2):435~439
5 葉長根.基于業務平臺綜合網管的全業務流程監控設計思路和解決方案.電信技術,2014(3):64~68 Ye C G.Design ideas and solutions of all business process monitoring based on integrated services management platform.Telecommunications Technology,2014(3):64~68
6 包劼.大數據,大變化,大未來—大數據支撐驅動電信運營商轉型發展.通信世界,2013(20):49~50 Bao J.Big data,big change,great future-telecom operators transformation development be driven by big data.Communications World,2013(20):49~50
7 Rijmenam M V.How telecom companies can improve their results with big data.http://www.bigdata-startups.com/how-t elecom-companies-can-improve-their-results-with-big-data/,2014
8 Ignasi P O,Pere B,Xenofontas D.FaRNet:fast recognition of high-dimensional patterns from big network traffic data.Computer Networks,2013,57(18):3897~3913
9 Liu J,Li T T,Cheng G,et al.Mining and modeling the dynamic patterns of service providers in cellular data network based on big data analysis.China Communications,2013,10(12):25~36
10 陳為,沈則潛,陶煜波等.數據可視化.北京:電子工業出版社,2013 Chen W,Shen Z Q,Tao Y B,et al.Data Visualization.Beijing:Publishing House of Electronics Industry of China,2013
11 雷璟.安全桌面虛擬化信息系統設計與實現.電訊技術,2014,54(5):637~643 Lei J.Information system design and implementation based on security desktop virtualization technology.Telecommunication Engineering,2014,54(5):637~643
12 Liao X J,Zhang M,Kong S Q.Experience of constructing virtual desktop.WIT Transactions on Information and Communication Technologies,2014(51):293~296