羅2 解 決亮方案
中國聯通寧夏分公司物資采購與管理部,寧夏銀川 750010
構建BOSS多層次多角度的網絡與應用性能分析系統
羅2 解 決亮方案
中國聯通寧夏分公司物資采購與管理部,寧夏銀川 750010
寧夏聯通BOSS系統以銀川為中心,覆蓋寧夏全省,其業務涵蓋了計費、結算、賬務、業務管理、客服等方面。如何從整體上保障BOSS業務系統高效運行,對于提高全省聯通服務水平、管理水平和經營決策水平意義深遠。
BOSS;網絡 ;應用性能
寧夏聯通BOSS系統以銀川為中心,覆蓋寧夏全省,其業務涵蓋了計費、結算、賬務、業務管理、客服等方面。如何從整體上保障BOSS業務系統高效運行,對于提高全省聯通服務水平、管理水平和經營決策水平意義深遠。
寧夏全省BOSS系統運行在負載均衡層面、WEB層面、中間件層面和數據庫層面的四層系統架構下,由各個設備廠商維護自己的設備;過去當聯通管理層接收到BOSS系統訪問“慢”的反饋時,各層面的維護人員都可以證明自己的設備沒有問題,比如CPU、內存利用率都正常等的信息,這樣各層面獨立分析的情況必將導致問題的排查進入到迂回的僵局中;
為了能站在網絡的角度,從整體上對BOSS系統各個層面的性能進行監控分析,從技術手段上保證網絡和應用的可視性、預防問題的出現,提高IT工作人員的生產率,具體來說,包括以下幾個方面:
1)對網絡與應用性能提供全面深入的可視性,快速排障
(1)從多個角度監控BOSS系統架構中每一層面的應用服務響應水平,呈現關鍵性能指標,客觀評估用戶體驗在各個層面的反映;
(2)從宏觀整體到微觀個體區分網絡響應與應用響應的時延,快速判斷故障根因;系統提供易用快捷的操作方式,能夠直接在視圖上進行關聯分析,不需要管理員多次輸入查詢條件就得到分析結果。
2)通過歷史基準與周期對比實現故障預防
(1)為BOSS系統各個層面建立歷史基準模型,為實現故障預防提供可靠依據;
(2)提供每一層面網絡流量水平與應用響應時延的周期對比,隨時監控系統調優前后的KPI變化,客觀評估網絡與應用改造成效。
3)智能告警并提供證據,對影響性能指標的相關因素進行關聯分析,提高工作效率
系統提供流量水平與響應時延水平的智能告警并提供導致告警的證據,對影響性能指標的相關因素進行關聯分析,體現客戶數、連接數與服務器響應時延的關系。獲得網絡與應用的實時視圖和報紙格式的歷史報表。

在項目第一期,BOSS營帳系統在寧夏全省數據中心部署了一套網絡與應用性能分析系統,包括一臺內置存儲的硬件探針與一套管理軟件。如圖所示,在省數據中心的思科網絡交換機同多個不同的應用服務器相連接。通過交換機端口鏡像,探針采集應用服務器流量,在混合的流量當中可以把負載均衡、WEB、中間件與數據庫各個層面的流量進行區分并單獨進行分析;探針定時將各種性能參數傳送給管理軟件,管理軟件將這些分析數據綜合整理并加以分析。網絡管理人員可以隨時隨地地通過WEB瀏覽器
傳統的儀器儀表型工具,其特點是緊急式的反應工具,通常是等有故障發后才接入網絡進行分析,由于缺乏歷史數據,無法重現偶發的故障現象,更不能建立歷史基準,通過周期對比實現故障預防,另外,在分析數據呈現方面,也很難真正做到客戶化、層次化。
在項目第一期部署的網絡與應用性能分析系統,雖然僅包括了一臺硬件探針與一套管理軟件,但基本上滿足了本文需求分析提到的多項具體功能,由于一套管理軟件可支持多臺硬件探針,因此可以按實際需要增加部署硬件探針的數量。
接下來,結合實際的工作需要,介紹我們對BOSS營帳系統進行網絡與應用性能分析的經驗案例:
1)從多層面分析網絡與應用性能表現,提供全面的可視化
(1)同時在每一層面中區分網絡響應時延與應用響應時延,快速判斷故障根因;
(2)從多個角度監控應用服務響應水平,呈現關鍵性能指標,客觀評估用戶體驗;
我們先說明如何區分網絡響應時延與應用響應時延,以及歷史性、多角度報表所能夠體現的作用;
09年底某天寧夏銀川BOSS運維部門接到營業廳用戶反映,說感覺訪問業務系統慢,寧夏
網盟的工程師通過網絡與應用性能分析系統,快速定位至在WEB與中間件交互過程中出現了異常,通過報表,得出這樣的一個結論:在“只有10.243.xxx.3這臺WEB服務器訪問中間件層面的網絡交互過程出現問題”;因為所有的WEB服務器放置于同一網絡架構中,各臺WEB服務器性能表現跟歷史同期比較完全正常,只有這臺服務器訪問中間件層面的服務器過程出現異常,因此毫無疑問的是這臺WEB服務器自身的問題導致網絡交互的異常出現,進而導致該WEB服務器負載區域的用戶感覺到“慢”;得出結論后告知這個設備的廠商,提供以證據,廠商針對證據的表現,快速給出方案解決問題;從①接收問題;到②定位至WEB層面;再到③定位至某臺WEB服務器;這個過程不超過5min,因為所有層面的信息都在一個系統中反映,比起從前“接收問題后,通知各個層面的廠商讓其各自找問題,各層面的廠商通常強調自己沒有問題,需要聯通公司經過反復討論驗證,才能定位問題的根源”這一模式,大大地提高了解決問題的效益與運維管理水平;
2)從多角度分析每一層面的應用服務水平,提供深入的可視化
接下來,我們再闡述如何從多個角度監控應用服務響應水平,呈現關鍵性能指標,客觀評估用戶體驗:
BOSS業務每一層面的交互中包括有多種應用服務,每種應用服務又包括多臺服務器,因此,我們首先在各個層面需要獲得一個能夠體現全局的所有應用服務性能的概貌(同時還要了解該應用影響用戶體驗的關鍵性能指標),然后從這個概貌關聯展開分析每個應用的每臺服務器性能,再從特定服務器展開分析每臺客戶端的響應時延。
這些視圖即可以通過自定義的方式自動呈現在工作臺上,也可以通過應用服務的超時告警,以提供告警證據的方式呈現出來。
(1)應用角度

圖2 WEB層面的業務應用性能參數
上圖的報表中是針對WEB層面的所有應用服務的監控,包括所有應用服務的平均時延、峰值時延、響應次數、響應成功次數,每一種應用的關鍵性能指標(以HTTP舉例),以及每一種應用服務在一天中不同時段,響應次數與響應時延隨時間變化情況(以HTTP舉例)。
(2)應用服務器角度

圖3 WEB層面的應用服務器性能參數
上圖的報表中是針對WEB層面的所有應用服務器的監控,包括所有應用服務的平均時延、峰值時延、響應次數、響應成功次數,各個地市訪問每一臺應用服務器的網絡延遲和應用延遲(以10.243.210.113的HTTP應用舉例),以及每一種應用服務在一天中不同時段,響應次數與響應時延隨時間變化情況。
(3)客戶端角度

圖4 WEB層面的應用服務器性能參數
上圖針對HTTP服務器10.243.210.113對每一臺客戶端的響應性能進行監控,包括每臺客戶端訪問服務器的平均時延、峰值時延、響應次數、響應成功次數與響應失敗次數;選取指定的客戶端,可快速獲得該客戶端訪問服務器長時間的性能曲線圖,包括網絡響應時延,應用響應時延,并從有問題的時間段直接提取數據包進行解碼驗證。
需要說明的是,這些視圖即可以通過自定義的方式自動呈現在工作臺上,也可以通過應用服務的超時告警,以提供告警證據的方式呈現出來。
該解決方案為寧夏銀川BOSS營帳系統所提供的集中和易用的平臺使用我們整個網絡和應用的性能管理手段發生的質的變化,網絡管理人員現在不僅在任何時候和地點都能獲得豐富細微的實時與歷史性能信息、擺脫了手工操作事倍功半的工作方式,而且可以定期發布各種客戶化的報表報告,滿足不同讀者的工作需要,總而言之,提高了BOSS營帳系統IT工作人員的效率和生產率。
TP393
A
1674-6708(2010)23-0205-02