在傳統的可視化看板中,普遍采用單一指標告警進行信息系統狀態管理,在一定程度上能夠保證信息系統的穩定運行。為了繼承發展既有運維監測可視化管理體系,本文從信息系統的角度對數據信息進行進一步規劃和分析,立足自主創新,融合業界最佳實踐與技術,統一支撐信息系統運維業務,實現數據的融匯貫通,打造了一種新的信息系統可視化看板,全面的對信息系統運行狀態進行管理和展現。以自動化、智能化和可視化為主線,滿足一線運維人員真實需求。
信息系統的組成具有多樣性,不同的信息系統構成之間千差萬別,而且內部的業務邏輯、數據、接口的關聯關系錯綜復雜。如何有效地對數據進行整理分類、特征提取和關聯分析,為運維人員直觀展現最重要、最有價值的數據,是信息系統運行狀態可視化看板設計的根本要求和價值所在。
可視化看板重點展現的是信息系統的異常狀態,但常規的指標級異常展現體驗較差,無法滿足用戶的真實需求。為了更好的展現信息系統的運行情況,根據歷史運維經驗和用戶實際痛點,從業務層面抽象了斷(可用性)、閑(在用性)、卡(負載情況)和亂(波動情況)四種異常狀態,以一種全新的業務視角,為運維人員提供信息系統運行狀態的深度解讀。這種業務抽象不僅適用于信息系統整體,也可以具體細化到實體對象,包括但不限于各類主機、數據庫、中間件、服務應用、網絡設備和安全設備等,通過對實體對象的診斷分析,為信息系統的真實運行狀態提供更多有力的依據。
可視化看板支持的四種異常狀態通過以下具體模型進行定義和支持。
(1)負載模型-卡:通過梳理運維對象的指標中與性能相關的指標,對于網絡設備、主機設備主要包括計算、網絡負載等;對于數據庫主要包括表負載、死鎖率、會話負載等;對于中間件主要包括JVM負載、會話數、使用率負載等;對于業務應用主要包括業務訪問、并發負載等。
(2)可用模型-斷:通過梳理運維對象的指標中與狀態相關的指標,對于網絡設備、主機設備主要包括設備運行狀態、采集狀態等;對于數據庫類、中間件主要包括運行狀態、訪問狀態等;對于業務應用主要包括業務運行狀態、業務訪問狀態等。
(3)在用模型-閑:在用模型與性能模型相似度較高,對于網絡設備、主機設備主要包括設備的計算、網絡性能等;對于數據庫主要包括表使用、死鎖異常、會話數性能等;對于中間件主要包括JVM使用、會話數、使用率性能等;對于業務應用主要包括業務訪問、并發性能等。
(4)波動模型-亂:深入運維對象的性能、流量指標統計,分析波動規律,整理斷崖式的性能波動,如CPU、內存陡然增長或下跌;或不符合規律的網絡行為,包括IP異常、流量異常等。
可視化看板的卡斷閑亂四種狀態模型從數據層面為信息系統提供了統一的分析,為了更好的對信息系統的運行狀態進行展現,需要從可視化的角度進行簡單、高效、直觀的展現。采用一套基于業務視角的層次化展現方式,以信息系統、系統對象、對象指標的縱向維度進行統一展現,在各層級突出不同的展現重點,幫助運維人員快速的發現、定位和解決信息系統異常問題。
可視化看板層次化展現具體采用多層下鉆式展現。第一層為信息系統整體狀態展現,可以通過信息系統視角第一時間快速切入異常;第二層為信息系統內部構成狀態展現,通過卡斷閑亂四種業務抽象幫助運維人員快速定位異常根源,第三層為指標狀態展現,結合實時快照、診斷建議指導運維人員解決問題。
(1)抽象業務狀態:可視化看板重點突出了斷(可用性)、閑(在用性)、卡(負載情況)和亂(波動情況)等運行狀態,區別于告警僅單一的對指標進行監測和越限提示,從業務的角度大大增強了關聯性,并根據歷史經驗定義了各指標的計算權值,形成完整的業務模型。有效的描述了運維對象的真實運行情況,并其適用于同類對象的擴展。充分提高了運維人員對運行狀態的理解,降低對運維內容的學習成本。
(2)層次化業務視角:可視化看板從信息系統整體發出,打造了三層的業務視角,各層視角立足于不同的核心需求,切實的幫助運維人員發現、定位和解決問題,加強了數據的關聯融合,有效的突出了重要數據,切實的量化信息系統的運行狀態,使信息系統變得能管、好管。
(3)掛撤牌合理分析:可視化看板采用了基于最近歷史權重的方式進行掛撤牌分析,不僅著眼于一個時間點的運行狀態情況,還有效地整合了歷史信息,能客觀地反映運維對象的整體運行狀態,并通過掛撤牌方式進行管理提示。
(4)信息系統快照:可視化看板以信息系統的視角,提供信息系統的整體快照,保留了異常時刻的運行環境,為運維人員追溯問題和關聯分析提供了有力的支撐,相較傳統的單對象快照,意義更加豐富,數據更加有效。
通過信息系統遠程診斷狀態可視化看板的建設,實現對信息系統的遠程狀態診斷,幫助運維人員快速的發現、定位、解決問題,從而保障信息系統的長期穩定運行。
(1)在實際生產環境中,當發生信息系統無法訪問的情況時,勢必造成部分生產事故,需要快速的投入人力進行解決。通過信息系統遠程診斷狀態可視化看板,在信息系統層面可以在第一時間發現問題,比大部分的信息系統用
戶更快發現,而不需要等待信息系統用戶反饋。發現信息系統問題后,在信息系統內部對象層面快速的定位到發生異常的具體對象,通常可以根據卡(負載情況)和斷(可用性)來進行具體的定位,當某個對象在卡的狀態時,有幾率因為負載過高導致無法處理更多的請求;當某個對象在斷的狀態時,則無法提供任何服務。發現信息系統內部對象的問題后,通過定位到更加具體的指標以解決實際問題,通過快照數據對異常對象的各類指標進行綜合分析,找到引起異常的具體的指標,并根據知識庫提供具體的解決建議,快速有效的解決信息系統無法訪問的異常。
(2)信息系統無法訪問的情況一般比較少,而大部分情況更多的是信息系統訪問卡頓的問題。通過信息系統遠程診斷狀態可視化看板,關注在信息系統的健康情況,當信息系統健康度持續下降時,可能出現了訪問卡頓的情況。在信息系統內部對象層面快速的定位到可能引起卡頓的具體對象,通常可以根據卡(負載情況)和亂(波動情況)來進行具體的定位,當某個對象在卡的狀態時,有幾率因為負載長期居高不下造成處理的延時;當某個對象在亂的狀態時,則在一定意義上出現了不符合規律的異常,相比其他同類對象產生影響的機率更大。發現信息系統內部對象的問題后,通過定位到具體的指標,綜合快照數據和建議解決問題。
(3)信息系統長期穩定正常運行后,可以對信息系統進行調優,釋放長期閑置的資源。在信息系統內部對象層面快速的定位到可以進行調優的具體對象,通常可以根據閑(在用性)來進行具體的定位。在信息系統之間,某信息系統對象的閑置時間明顯高于其他信息系統,則該信息系統相對于其他信息系統則調整的可能性更大。當某個對象處于閑的狀態時,其資源的利用率處于較低的狀態,該對象相比其他對象則調整的可行性更大。再結合具體的快照數據進行分析,若該對象的各類指標的使用率長期低于其他同類設備,則可以對該對象進行調優,釋放閑置的計算、存儲、網絡能力,使信息系統的配置最優。
(1)可視化看板創新性的歸納總結了斷(可用性)、閑(在用性)、卡(負載情況)和亂(波動情況)等運行狀態,并和對象的指標進行有機關聯,通過掛牌的技術手段,合理建立運行狀態模型,分析運維對象的運行情況,減少運維人員的告警學習處理成本,提升對信息系統運行狀態的理解,提高運維的效率和體驗。
(2)可視化看板基于信息系統視角,提供了一整套狀態診斷解決方案,其中包括狀態模型的定義和數據層級化展現,以一種更直觀更動態的方式,對信息系統及內部的對象進行監控和管理,不僅在可視化的效果上大大加強,也直接的提高了工作效率。
(3)可視化看板實現信息系統狀態異常發現、定位、解決的閉環管理,不局限在一個點上,而是深度滿足運維人員工作需求,幫助運維人員加速追溯問題源頭,輕松定位問題明細,有效提供解決方案,確保有效的解決異常,保證信息系統穩定運行。