朱治國,吳連勇,孫 毅
(中國聯合網絡通信集團有限公司 北京 100033)
IT系統業務質量的評價不是單純的主觀評價,它不單依賴于顧客的感知,還有很多客觀的評價指標。業務質量評價不但要考慮業務的整體效率性能,還要考慮用戶對服務質量的要求。傳統IT運行評價體系存在諸多問題。
首先,傳統IT運行評價體系不能全面反映客戶體驗。質量指標體系局限于設備和系統范疇,難以全面反映業務端到端的運行質量和客戶實際使用感知。傳統網絡質量指標與用戶投訴之間存在著明顯的不一致或反向關聯,通過提高傳統網絡質量評價指標來提升客戶滿意度效果不是十分明顯。
第二,傳統IT運行評價體系不適應數據業務快速發展的需要。隨著數據業務在總業務收入中的比重越來越大,由于數據業務相對于傳統話音業務具有種類多、變化快、涉及的網元多、用戶行為復雜及顯著的時間突發性、空間聚集性等特點,用傳統的網絡維護手段維護數據業務網絡很難達到令人滿意的結果。
可見,傳統的質量評價方法只能反映網絡或設備的性能,不能兼顧客戶體驗和反映所承載業務的質量。隨著多QoS等級的增值業務的涌現,為了滿足所有業務的質量評價需求,需要提出通用的業務質量評價方法。實現實時、細粒度、動態、自動化和可擴展的定量業務質量評價,盡快建立適應我國IT運維服務市場需求的IT系統運行評價體系成為迫在眉睫的需求。因此,建立IT運維質量的運行評價系統,有助于第一時間掌握IT系統的運行情況,為運維管理提供依據,保證業務系統的安全穩定運行,給企業的發展帶來巨大的經濟效益。
IT系統在現運行評價系統對業務質量評估的主要目標是利用主觀、客觀或主客觀結合的方法,對現有的業務質量進行評估,得出業務質量好壞的評估結論。
(1)運維管理評價要整合多種安全技術
運維管理評價過程中要用到多種技術手段,如入侵檢測、系統審計等,需要更好地將這些技術整合到一起,提供綜合性的風險分析工具。
(2)運維管理評價結果要具有預測性
運維管理評價要在狀態分析、趨勢分析和性能分析方面具有更好的預見性。
(3)運維管理評價方法要逐步向智能化的決策支持系統發展
運維管理評價不是單純地按照定制的控制措施為用戶提供解決方案,而是根據專家經驗,進行推理分析后給出最佳的、具有創新性質的控制方法,能夠為普通用戶在面對各種安全事故時提供專家級的解決方案。
(4)向定量化方向發展
目前運維管理評價的量化主要對性能重要性和風險大小等進行排序,提示用戶重大風險需要首先處理,但對系統性能水平和運維風險會帶來多大的經濟損失尚不能量化,而管理人員所關心的正是經濟損失的問題。因此,運維管理評價方法應向定量化的風險預測方向發展。
2.2.1 性能指標
服務響應能力可以通過服務響應異常判斷規則 (8個規則)、服務響應穩定性判斷 (極差圖)、Cp(capability of precision)(服務響應過程精密度指數)、Ca(capability of accuracy)(服務響應過程準確度)進行精確量化。
系統吞吐能力可以通過趨勢圖進行對比分析和趨勢預測。
服務可用性可以通過Ppk(服務過程性能指數)、1-P圖(服務可用率控制圖)進行量化和評價。
系統持續運行能力通過Cpk(持續運行過程能力指數)進行量化和評估。
系統故障診斷和恢復能力通過Pareto圖分析法、散布圖因果分析法、業務流程診斷法、探測驗證診斷法、關聯分析診斷法、業務仿真診斷法等多種方法進行問題原因分析、故障診斷和恢復。
2.2.2 主要設計原則
IT系統在線運行評價系統的主要設計原則如下。
(1)科學、準確的IT系統運行狀態和運行能力評價
系統可提供多種性能評測指標,全面評測系統的運行能力和服務質量。針對不同的評測指標,給出不同的、具有完全針對性的評測方法,提供基于數值的、定量的評測方法;能夠根據客戶評價需求,動態調節業務質量評價參數,具有良好的靈活性;可以實現多種粒度的質量評價;具有良好的擴展性。對于新業務類型的出現,用戶只要定義該業務的KQI模板和業務質量評價模板就能進行新業務類型的質量評價。
(2)消除系統潛在隱患,準確評估IT系統運行風險度
系統評估系統的運行狀態,判斷系統運行是否存在異常,評估當前IT系統的運行風險度,能夠根據問題和故障事件發生的頻度、系統的健康度、薄弱環節的綜合影響度,得出當前IT系統的運行風險度,能發現業務流程中潛在問題和評估故障發生的概率。
(3)全面排查問題和故障原因,迅速完成故障恢復
系統能夠判斷IT系統存在的主要問題、影響業務質量的主要因素;能分析服務流程中的主要缺陷形式、影響服務品質的關鍵工序;能夠分析影響服務品質的主要和次要原因及其影響度如何;利用實例邏輯上的關聯、業務上相關的業務操作關聯等各種關聯進行問題和故障的溯源;可提供一個完整的業務仿真方案。
(4)優化系統服務流程,提供決策支持
系統能夠根據服務的質量特性與變化因素之間的相關關系,確定改進服務質量的有效手段;能通過對以往問題的統計分析、故障原因的深入挖掘,判斷系統性能和安全瓶頸,給出系統改善方案;能全程跟蹤服務流程、判斷服務流程中的薄弱環節,提出流程改進的方案;能根據IT系統性能指標的評測結果,給出系統優化方案。
本文提出了一種新集成IT系統在線運行評價系統。該系統通過對IT基礎架構、業務流程和服務管理流程進行科學和有效的評價。
IT系統在線運行評價系統是一個包含多項性能指標的評價體系,包括服務響應能力、系統吞吐能力、服務可用性、系統持續運行能力、系統問題分析和故障診斷能力。
在業務處理過程中,對于一個業務請求有響應時間的限制。一方面,需要工作人員協同合作,在處理服務請求的時候應該有時間的概念;同時也要求系統能實時地監控整個服務的響應時間;如果該事件的響應或解決超過了時限,需要系統做相應的記錄,以備服務響應能力評估之用。
服務響應能力評價性能指標包括:服務響應異常判斷、服務響應穩定性判斷、服務響應過程精密度、服務響應過程準確度。
(1)服務響應異常判斷
服務響應異常判斷主要通過繪制服務響應控制圖,并根據8個判斷異常的規則進行判定。
· 2/3A原則:3點中有2點在A區或A區以外。
· 4/5B原則:5點中有4點在B區或B區以外。
·6連串:連續6點持續地上升或下降。
·8缺C原則:有8點在中心線的兩側,但C區并沒有點。
· 9單側原則:連續9點在C區或C區以外。
·14升降原則:連續14點交互著一升一降。
·15C原則:連續15點在中心線的上下兩側的C區。
· 1界外原則:有1點在A區之外。
(2)服務響應穩定性判斷
IT系統在線運行評價系統從提高客戶的網絡滿意度出發,建立新型的基于客戶感知的業務端到端質量評估體系,能科學地反映與用戶使用和感知最密切的服務質量情況,使運營商能根據客戶實際需求提供優質、滿意的服務,使網絡運營商和廣大客戶獲得雙贏,同時也有利于繁榮海淀區乃至北京市的經濟,推動以擴大內需為導向的經濟社會發展。
為使現場的質量狀況達到目標,均需加以管理。這里所說的“管理”作業,一般用檢測產品的質量特性來判斷“管理”作業是否正常。而質量特性會隨著時間產生顯著高低的變化。那么,到底高到何種程度或低到何種狀態才算所說的異常?故設定合理的高低界限,作為分析現場制程狀況是否符合“管理”狀態,即是控制圖的基本根源。
(3)服務響應過程精密度
過程精密度計算式和分級如表1所示。
(4)服務響應過程準確度
過程準確度計算式和分級如表2所示。
系統的吞吐能力對應服務的業務量,主要是通過趨勢圖分析業務吞吐量和吞吐能力的走勢以及未來趨勢的預測,需要顯示一定時期的運行和發展趨勢,有利于同類數據對比。同類數據用“層別法”處理后,圖1所示為不同層別對比情況。

表1 過程精密度計算式和分級

表2 過程準確度計算式和分級

系統考核指標:服務過程性能分析、服務可用率控制圖分析。
(1)服務過程性能分析
服務過程性能分析有助于識別、測量和分析各種噪聲引起系統偏差的原因,從而采取措施減少和防范這種偏差,使過程趨于穩定。穩定的過程中,它的可度量特征或過程性能的基礎分布是始終如一的。
對服務過程性能的度量與分析是實現過程有效管理、實施過程改進的重要途徑之一,也是業界研究的熱點之一。服務過程性能計算式和分級如表3所示。
(2)服務可用率分析(1-P 圖)
服務可用率計算式如表4所示。
系統考核指標:系統運行風險度評估、持續運行過程能力。
系統運行風險度評估是指系統正常運行中,業務風險度的估計,它是衡量系統穩定性的一個標志。持續運行過程能力是指正常狀態下,業務服務過程提供達到預定服務水平的能力。它是衡量服務質量的一種標志。對服務過程能力進行分析,可隨時掌握服務流程中各環節保證服務質量的能力,從而為保證和提高服務質量提供必要的信息和依據。
持續運行過程能力指數計算式和分級如表5所示。
(1)Pareto圖分析法
Pareto圖可以指出改進的重點,適用于各個行業、各類工業企業的服務質量改進活動。這種方法應用的主要形式有:分析服務流程中的主要缺陷形式、影響服務品質的關鍵工序以及影響服務品質的主要和次要原因等。
(2)散布圖因果分析法
散布圖是分析研究兩個變量之間相關關系的圖形。圖中以縱軸表示結果,以橫軸表示原因,用點表示分布形態,根據分布形態判斷兩者的相互關系。散布圖是以因果關系的方式來表示其關聯性的。本系統中用散布圖判斷質量特性與某一變化因素之間或者兩個因素之間存在的相關關系,進而確定改進產品質量因素的有效手段。

表3 服務過程性能計算式和分級

表4 服務可用率計算式

表5 持續運行過程能力指數計算式和分級
(3)業務流程診斷法
業務流程診斷法針對業務流程化處理過程中發生的相關故障告警,通過業務流監控視圖定位業務流程各環節是否存在告警或異常,從而判斷可能的故障原因。同時,也可預測針對相關環節的影響,從而采取相應的措施避免故障的發生。
(4)探測驗證診斷法
探測驗證診斷法是通過固化以往處理故障的措施和方法推斷本次故障發生的原因。在發生一個故障后,通常的做法是檢查相關的設置、指標值或通過腳本驗證自己的判斷。探測驗證診斷法可以事先將這些檢查腳本、驗證方法存入系統,在故障發生時依次執行以判斷是哪種情況導致了本地的故障。
(5)關聯分析診斷法
關聯分析診斷法是指利用實例邏輯上的關聯、業務上相關的業務操作關聯、實體生命周期事件等各種關聯找到可能的根源故障或事故原因,建立在SID(security identifier)的統一實體模型基礎上的模型框架,可以很方便地建立實體之間的通用關聯關系以及特定業務關聯。
(6)業務仿真診斷法
能夠模擬用戶在業務系統的實際操作過程,自動地訪問各個頁面,并記錄各頁面系統處理和響應時間以及處理結果等信息。通過模擬仿真,可以查看服務各個環節的服務質量包括(服務響應能力、服務可用性),有利于發現業務流程中潛在的問題和查找故障的原因。
根據以上分析,可知本系統的創新點如下。
·將質量管理體系的異常判斷規則、穩定性判定原則、過程精密度(Cp)計算和過程準確度(Ca)計算引入IT系統運行評價體系,使對IT系統服務響應能力的評價更加嚴謹科學,使得通過服務響應能力的評估中,實現對服務響應能力更全面系統的考察。
· 將服務過程性能指數Ppk和服務可用率分析圖(1-P圖)引入IT系統運行評價體系,使服務可用性的評價更加直觀、準確。
·將服務過程能力概念引入IT系統在線運行評價體系,通過服務過程能力指數Cpk的計算,可以精確地判定IT系統的持續運行能力。
·提出系統運行健康度和系統運行風險度概念。
· 系統故障診斷中引入Pareto圖分析法、散布圖問題原因分析法、業務流程診斷法、探測驗證診斷法、關聯分析診斷法、業務仿真診斷法等多個方法,實現實時、多粒度、不同維度的直觀故障分析診斷。
IT系統在線運行評價系統是集運行評價、問題分析和故障診斷、流程的優化和改進為一體的軟件系統,其與國內外同類項目系統的主要功能比較如表6所示。
本文提出了一種新集成IT系統在線運行評價系統。該系統通過對IT系統基礎架構、業務流程和服務管理流程進行科學和有效的評價,使其業務戰略能夠和IT戰略有效地整合,實現IT系統運作與服務水平的持續提高以及IT戰略的可持續發展;達到保障企業IT系統資源高可用性、降低IT系統運行風險度、改善服務管理水平、優化業務流程、降低企業IT系統總運營成本、提高企業IT系統對業務的貢獻度和提高客戶服務滿意度的目的。

表6 本系統與國內外同類系統的主要功能比較
1 周憲,余隋懷,黃婷等.面向委托設計的多目標網絡評價系統.科學技術與工程,2006(12)
2 李艷紅.信息系統敏捷性及其相關技術的研究.大連理工大學博士學位論文,2002
3 邊文浩.綜合評價決策支持系統開發.吉林大學碩士學位論文,2005
4 Stallings W.Wireless Communications and Networks.北 京 : 電 子工業出版社,2010
5 陳云.接口與通信技術原理與應用.北京:中國電力出版社,2009
6 Klaus Finkenzeller K著.吳曉峰,陳大才譯.射頻識別技術.北京:電子工業出版社,2006
7 Kimball R,Ross M著.譚明金譯.數據倉庫工具箱:維度建模的完全指南(第二版).北京:電子工業出版社,2009
8 Inmon W H著.王志海,林友芳等譯.數據倉庫(原書第三版).北京:機械工業出版社,2010