運營商當前的業務運營支撐系統(BOSS)存在先天不足,既沒有能力感知BOSS系統的運營狀態,也沒有能力預知故障的發生。3G時代,BOSS系統如何才能告別“無知”,先于用戶發現問題,變被動為主動,提高運營商業務質量?
3G的正式運營,帶來了國內三大運營商(中國移動、中國聯通、中國電信)之間白熱化的競爭。用戶的持有量是各運營商實力的一個重要衡量指標,而網絡質量和業務能力則決定著運營商能否持有較多用戶。對網絡質量和業務能力的保障涉及到運營商內部多個部門以及工作環節,其中業務支撐是十分重要的一環:業務運營支撐系統(BOSS)故障會導致營業廳關門、客戶投訴升級等重大問題的發生,嚴重影響公司業務的正常運營。BOSS系統如何實現對業務能力的保障?如何使運營商業務支撐運營工作全面提升?
BOSS系統的先天不足
當前運營商的BOSS系統普遍存在著先天不足:既沒有能力感知BOSS系統的運營狀態,也沒有能力預知故障的發生。很多地方運營商的BOSS系統不同于傳統的電信設備系統,并不具備電信級的能力標準,而是附加了很多具有中國特色、甚至各省特色的IT系統,在可靠性與可維護性上都與電信級產品相差甚遠。這種先天不足主要體現在“可監控性差”上。各個運營商都經歷過或正在經歷著被動的BOSS維護模式三部曲:“客戶投訴—發現故障—故障修復”。
如何讓BOSS運維人員能夠快速發現、有效解決業務問題,全面了解業務運營系統的各種運營信息以及用戶的感知呢?
幾大運營商都在千方百計尋求自身BOSS業務支撐運營能力的提升。以中國移動為例,中國移動集團公司曾經下發過相關業務技術規范,多家省移動公司都做過相關的嘗試。其中,上海移動曾在BOSS系統改進和提升方面取得了一定的突破,其具體方式是:直接在BOSS系統中增加維護代碼模式。這種做法的優點是時效性強,缺點是維護代碼與BOSS系統捆綁過于密切,難以實現大范圍普及。
BOSS也能實現監控
中國移動浙江公司在借鑒了上海移動BOSS改進模式的經驗之后,經過為期二年的探索及驗證,構建了探針式BOSS業務監控系統。探針式BOSS業務監控系統提出了“以BOSS業務監控為核心”的理念,采用“探針式提取、指標引導、建模驅動”的方式,打造一站式BOSS業務監控系統,既實現了對現有實際業務系統的有效監控,也滿足了BOSS運營管理的需要。
探針式BOSS業務監控系統由五層組成:數據采集層、業務建模層、數據聚集層、告警管控層、分析展示層。這五個不同的層次在運營商業務能力的提升和運營管理水平的提高上都起到了什么作用呢?
一、數據采集層: 是整個監控系統的基礎,用來提供核心的業務健康度建模和可用性建模所需要的平臺、應用、業務等數據。
系統數據采集共采用了三類探針:A式探針直接模擬BOSS前臺業務操作,采集BOSS門戶各種業務應用的可用狀態; B式探針負責采集A式探針發起的前臺業務所觸發的BOSS后臺數據操作日志統計值,以及BOSS后臺系統運營狀態,并將其發送業務監控系統; C式探針從BOSS接入交換機中全量采集BOSS交易記錄,即第一時間采集到實際BOSS運營的狀態。
綜上所述,這三類探針能夠獲取到從業務發起、業務處理、業務交易到業務完成全過程的用戶能夠感知到的所有業務數據,為從用戶感知角度進行業務監控提供了堅實的基礎。
二、業務建模層: 是整個監控系統的核心,是將業務進行有形化管理、量化衡量的高效手段。該業務建模層中涵蓋了幾乎所有的BOSS管理資源要素,包括業務、應用、服務及其他平臺類資源,這些信息都建立并實時更新于企業集中建設的符合ITIL標準的CMDB(配置資源數據庫,其中每一子項便是一個CI配置資源項)中。基于CMDB中動態調整的實時CI項和相互關系,關聯上能夠反映業務當前狀況的KPI指標,以結構化的模型框架為指導,建立完整的業務CI/KPI指標體系,繪制出以業務為中心的BOSS系統視圖,全面展現其健康度和可用性。
CI/KPI指標體系的建立是以業務為主線,按照“CI業務-應用-平臺”的分層結構,針對每一層設定支撐域、運營域和服務域的指標分類標準,并在這些指標的基礎上通過關系推導和加權計算創建業務健康度和可用性量化模型,將業務的層層嵌套、互相關聯與后臺軟硬件平臺之間的關系都量化出來,并綜合為直觀有效的業務運營狀況指標; 作為監控系統的核心,業務建模層為告警管控層的預警和故障定位提供了衡量基礎和分析邏輯,如果健康指標超出經驗化閾值,業務預警可幫助維護人員將業務隱患消除于萌芽之中。
CI/KPI模型的建立,成功地將傳統監控系統的監控難點轉變為亮點,通過對模型中父子業務間關系、業務與后臺資源間關系的結構化梳理,多維度數據的采集計算,有效量化了業務健康度指標。同時,模型中所綜合的業務可用性、業務辦理量、后臺資源使用情況等全方位信息,尤為適合公司管理人員了解業務通體運營情況。
三、數據聚集層: 在這一層,系統將經過CI/KPI模型、按不同業務規則結構化之后的三類用戶體驗數據進行匯聚:業務監控數據(業務可用性、業務量、業務辦理時長、業務的后臺服務器負載情況等)、配置數據(從CMDB中定時同步配置項信息和配置關聯信息),業務感性數據(業務量、積壓量和投訴等信息),使得運維人員不僅能夠從IT支撐視角掌握業務運行狀況,還能直觀了解到在當前業務運行情況之下客戶層面的使用感知。
采集層探針
四、告警管控層: 本層提供基于預警模型的預警管理和追根溯源的告警定位處理。
預警模型是基于對系統中超過二年的業務全方位數據基于運維經驗的深入挖掘分析所得。當預警模型條件都滿足的情況下,通過工單系統發出相關的預警工單,使運維人員及時處理,避免實際的業務中斷。
告警定位處理提供了基于邏輯拓撲的全路徑故障資源定位和基于業務操作耗時細分的故障環節定位功能。通過對邏輯拓撲中Web、中間件和數據庫層的全路徑業務模擬,能將故障具體到集群中的某個服務器和某個應用端口; 通過包括網絡耗時和后臺耗時等的業務操作耗時細分,究竟是網絡問題還是后臺問題也就能清晰地展現在運維人員面前。
探針式業務監控管理系統顛覆了傳統監控系統的的監控視角,將原來自下而上評估業務狀態和影響,變成了以結構化模型框架為指導,以對體系化的CI/KPI指標進行監控來了解業務狀態、分析預警業務風險、定位業務故障。
五、分析展示層: 以三維立體業務全景視圖的方式,向運維人員直觀方便地展現當前業務運營狀況,可一站視查看業務、邏輯、物理三個層面的運營特征。
在每一層的具體業務、設備的展示上,又把性能數據、告警數據和配置信息同時展現,實現了真正的業務三維立體展現。豐富的三維立體業務監控視圖能夠更為有機地監控管理業務及系統平臺數據,大幅度提升運維管控效率的同時,極大地方便各類人員查看操作。探入式BOSS運營監控實現了一站式的BOSS系統監、管、控。
豐富的業務三維立體展現和鉆取方式的層層深入分析,降低了運維人員分析業務與支撐之間的關系難度,從而不斷改進系統支撐短板,提高公司總體的業務支撐服務水平。
探針式BOSS
實際應用效果
經過一段時間的系統運行及不斷改善,探針式BOSS監控系統對中國移動浙江公司業務質量的提高和運營能力的改善起到了相當大的作用:
1. 提供有效的業務問題預警
探針式BOSS業務監控系統平臺正式運行后,平均每月針對業務效率的有效預警達29次,預警有效率和覆蓋率均達到96%以上,相關人員據此進行主動式運維服務,使得月均故障數下降了34%。而且,在處理效率上,根據分析系統正式運行以來的告警數據,發現趨勢預警時間點比原有的平臺級告警和客服報障平均提前42分鐘。
2. 故障處理時長明顯縮短
CI/KPI模型
系統試商用以來,依靠業務耗時細分、前后臺資源模型等系統工具,實現了業務故障的快速定位,明顯縮短了故障處理時長,與系統啟用前相比,業務故障處理時長平均縮短了42%。
3. 運營分析效率明顯提升
探針式BOSS業務監控系統為業務應用維護和系統平臺維護人員提供了大量業務運營分析數據,運維人員原來需要分別從BOSS系統、平臺監控系統和工作流平臺界面查看對應的數據,而今只需要IT運營管理系統一個界面就可以完成所有運維所需數據的查看。同時,通過運營平臺的7大類25張運維報表的自動生成功能,大大節約了定期業務維護的時間,有效提升了運營分析效率。
4. 客戶滿意度明顯改善
依托探針式BOSS業務監控系統,業務維護支撐人員的工作模式逐步轉為業務問題主動發現、業務故障主動解決。同時,由于能直觀地以前臺人員視角審視業務故障和問題,維護人員更能了解內部客戶感知,解決問題做到有的放矢,明顯改善了客戶滿意度。
由于以業務為中心、以客戶為導向,探針式BOSS業務監控系統使運營商業務支撐部門的運維目標與業務部門的目標更加一致,從而共同為客戶提供優質的服務,同時在客戶中也進一步樹立了運營商優質服務的形象:
對內,它轉變了業務支撐部門運維員工的思路,從基礎平臺架構的監控向業務運營管理轉變,加強了員工對于業務的了解程度,拓展了業務支撐部門員工的發展規劃道路,并且該平臺通過自動化監控、準確故障定位診斷功能,能夠有效減輕員工工作量,避免了監控運維人員陷入疲于奔命,忙于救火,增加了員工的滿意度。
對外,它能夠及時有效、甚至提前發現業務的使用問題,提升業務的可用性,從而使客戶能夠更順暢地使用運營商提供的各項業務,減少了實際發生業務中斷時的客戶投訴數量,提升了客戶滿意度和忠誠度,在保持運營商市場占有率、提升服務競爭力方面發揮了重要作用。
鏈 接
當前運營商BOSS系統面臨的主要問題
以三大運營商中運營管理能力比較領先的中國移動為例,目前中國移動各省公司的BOSS運營維護管理面臨的主要問題包括:
(1) 現有監控手段比較初級
傳統的BOSS監控僅能簡單地收集主機、數據庫的參數狀態,不能從業務應用的整體有機地進行監控和管理。
(2) 業務應用監控困難
缺乏對業務“軟故障”的監控手段,對漸進式的業務故障很難做到及時發現,缺乏有效的指標表征業務應用的運營狀態,往往在不知不覺中故障已經發生。
(3) 無法快速定位故障
缺乏業務與后臺資源關聯模型,發生系統故障后不能準確定位業務影響; 系統后臺處理仍處于“黑盒子”狀態,得知業務故障后也無法快速定位故障原因,客觀上延長了故障處理時間。
(4) 運營信息分散,分析不到位
業務實時效率、辦理量、成功率和服務投訴等數據分散存放在各自的生產系統中,維護人員為獲得這些信息,需不斷到生產系統的后臺上去提取數據,嚴重影響了生產系統的安全性。