李彭軍 戴少鋒
隨著國家教育信息化進程的推進,近年來,數字化校園和智慧校園的各種解決方案不斷在高校校園中落地交付和推廣應用。保障師生教學教務活動的正常開展,更是離不開各類業務系統的穩定運行。如何及時和有效地感知各種業務系統,尤其是關鍵業務的運行態勢,并對異常的運行指標進行預警和分析等問題,成為了信息部門的重要任務之一。本文提出了關鍵業務鏈模型的設計思路和實踐應用,包括運行指標定義、數據采集、聯動預警和業務鏈可視化,能幫助有效提高關鍵業務運維的整體效率。
校園關鍵業務鏈監測與預警系統基于B/S架構進行設計與開發,系統功能模塊包括:指標定義模塊、監測數據采集、告警策略模塊、通知推送模塊、業務鏈構建模塊、業務鏈可視化和系統管理等。
業務系統層: 需要做監測與業務預警的各類校園業務應用;
監測數據采集與存儲: 通過各類標準協議(SNMP、Agent、IPMI、Syslog、業務API接口等)采集各個業務系統和IT基礎設施的運行數據和歷史數據,整合到統一的數據層中;并通過標準格式定義進行轉換,把有價值的數據輸出到基礎庫中,便于進一步對數據的價值進行挖掘和可視化輸出;
指標定義與分析:通過分析采集到的運行數據,定義業務健康度關鍵指標體系。并由系統自動校對關鍵指標配置,對業務運行數據進行比對和分析,對異常數據進行觸發預警和通知推送動作;
可視化層:通過可視化組件,構建業務鏈可視化視圖,并綁定實時業務運行數據和指標體系,通過大屏投屏的方式,對業務鏈實現一圖一業務的全局監測效果呈現,讓業務系統運維人員一眼能看懂業務的健康度。

關鍵業務指標的評判和閾值的設置方法通常分為客觀評價法和主觀評價法。其中主觀評價法通常由業務領域專家根據實際的經驗值、業務需求來設置各個業務系統的運行健康指標閾值,確定影響業務系統運行的關鍵指標,這種方法的缺陷是具有一定的主觀性和隨意性。客觀評價法大多采用神經網絡等機器學習方法,通過海量訓練樣本建立評估模型。本系統結合兩種方法,基于層次分析法綜合考慮信息系統的業務邏輯和物理設施這兩個主要維度,包括節點CPU利用率、帶寬利用率、應用系統響應速度等因素,構造判斷矩陣得到各個指標的權值。這些指標將作為衡量關鍵業務運行健康度的標準,系統會根據采集到的運行數據與指標進行比對,從而觸發預警等動作。
底層通過開源軟件Zabbix實現對監測對象(網絡設備、服務器、PC設備、數據庫、中間件、存儲、備份、安全設備、應用系統等)的運行數據進行采集。
數據采集可以分為兩種:主動監測和被動監測,系統采集端支持的采集方式包括Agent、SNMP(包括Trapping和Polling)、IPMI、JMX、SSH、Telent等,適合眾多復雜系統環境的部署。本次業務鏈監測主要采用了SNMP、Agent和IPMI三種方式實現數據采集。
(一)SNMP協議方式
通過SNMP的查詢和陷入進行監控數據的采集。適合對網絡設備,如防火墻、交換機、路由器等監控數據的采集。目前Zabbix系統支持SNMP v1 SNMP v2c和SNMP v3版本的協議。這種方式安全方便,只需在相關設備上配置和開啟SNMP服務,并允許監控服務器查詢即可。
(二)Agent方式
在被監測對象上安裝并運行zabbix被代理進程,通過該進程收集監測對象的運行數據,并與Zabbix服務器或代理(Proxy)通信,主動發送或被動接受服務器的數據。這種方法只適用于采集服務器或工作站上的監測數據,不適合路由器、交換機、防火墻等網絡設備。
(三)IPMI協議方式

智能平臺管理接口(IPMI,Intelligent Platform Management Interface),是管理基于Intel架構的企業系統中所使用的外圍設備所采用的一種工業標準。通過這種方法采集數據的優點是:可以采集到其它方法無法采集到的硬件狀態信息,例如CPU溫度、風扇轉數、電源狀態等等,特別適用于服務器和存儲系統等硬件。缺點是需要被監控硬件能夠支持。而目前主流服務器和存儲都會支持IPMI協議接口。
在數據采集完成之后,監測數據會統一保存到系統的標準數據表中,系統的聯動分析模塊會對采集到的數據和已經定義好的業務健康度指標體系進行指標比對和處理,判斷運行數據是否有異常,是否符合預警條件。當達到預警條件時,則把信息推送給聯動預警模塊,預警模塊根據業務的級別通知渠道設置,主動發送預警信息給管理人員。達到業務健康度的監測和預警效果。
通過上述的采集,系統里面已經存有各關鍵業務的運行數據。需要把這些數據以關鍵業務的維度,以直觀的方式整合和呈現出來。根據各業務鏈的特性,把各類數據按照故障排查的思路去梳理,包括物理層、數據層、應用層、網絡層和體驗層五個維度去構建業務鏈。
物理層:包括設備設施和運行環境。
數據層:包括數據庫和數據保障系統。
應用層:包括操作系統和中間件。
網絡層:包括網絡傳輸和支撐的相關設備設施。
體驗層:包括用戶對業務體驗敏感的數據,如頁面響應時長、下載速度等。
業務鏈構建完成后,把相關的關鍵運行數據和預警聯動的觸發數據綁定到業務鏈上,最終構建出一圖一業務的全局監測效果,讓業務系統運維人員在業務鏈視圖上快速判斷業務的健康度。如下圖是基于關鍵業務構建的業務鏈可視化。

本文利用Zabbix工具對關鍵業務鏈的運行數據進行采集,并按照業務特性構建業務健康指標體系,基于采集回來的運行數據和業務健康指標體系進行指標比對和處理,判斷運行數據的健康度,實現聯動預警的推送。同時通過把業務數據構建到業務鏈上,實現了一圖一業務的可視化效果,并在真實的校園網環境下進行部署和使用。實踐結果表明,本文提出的關鍵業務鏈監測與預警方法可以為業務系統運維人員提供一種透明、高效和低成本的支撐手段,進一步提高了校園關鍵業務的整體運維效率。