1.管理活動包括協商可以性目標,其中有:收集衡量架構、應用與數據,監控、分析、報告,以及規劃與改進。
2.平均故障間隔時間(MTBF):測量服務失敗的頻率。較舊的服務通常很少會失敗,所以MTBF 較高。
3.恢復服務的平均時間(MTRS):測量故障后服務恢復的速度。已優化的服務可以快速地恢復,所以MTRS 較小。
4.測量維度:包括用戶中斷的分鐘數、丟失的交易數量、業務價值的損失、用戶的滿意度。
5.可作為風險管理的一部分,并設置站點可靠性工程師(SRE)。
簡單而言,可用性管理的目標是兩個方面:
1.在事故發生前,保證業務服務和系統架構的穩定性;在事故發生后,盡量減少中斷所持續的時間以及此類事故的發生頻率。
因此,我們需要對業務服務和IT 環境事先做到充分了解,其中包括四個維度:
(1)應用架構的復雜程度。
(2)各個組件在其他組件故障時的魯棒性。
(3)團隊的故障響應能力。
(4)各種SLA(Service Level Agreement,組 織與客戶間服務的協議)、OLA(Operational Level Agreement,組織內部IT 與其他部門間的協議)、以及UC(Unpinning Contract,組織與外部供應商的支撐合同)的落實情況。
2.在管理效果上,主要體現在如下三個特性的落實上。
(1)可靠性(Reliability)。
在正常狀態下,我們應該保障IT 系統的平穩運行和服務組件的按時交付。值得一提的是,對于那些經歷了較長時間,如:超過7 秒鐘才能打開某個網頁的服務來說,我們可直接視為服務已不可用了。另外,小到某個組件,大至整體業務,也需要有一定的容錯性與自愈恢復能力(Resilience),以實現在極端情況下的業務不間斷能力。
(2)可維護性(Maintainability)。
IT 系統乃至服務組件平時是否易于維護和獲悉狀態。通常我們可以采取如下兩種途徑:
被動:如采用持續的自動化監測手段,來進行評估與分析,以及根據既定的事故管理流程與記錄,來推斷故障的根本原因。
主動:如通過CFIA(組件故障影響分析)、SFA(服務故障分析)、VBFA(關鍵業務功能分析)、SPoFA(單點故障分析)以及根據變更管理流程,來不斷尋求改進穩定性水平的方式。
同時,我們在出現中斷或事故時,也要能夠通過人工診斷與糾正等干預方式迅速恢復原有運能。
(3)可服務性(Serviceability)。
無論是SLA 里涉及到的乙方聯系人員,還是OLA 中提及的IT 部門技術角色,都應該保證“召之即來、來之能戰、戰之必勝”。
在具體實操中,我們企業從現有服務與系統的業務價值、外部可能帶來的威脅以及內部存在的弱點等維度,開展了可用性狀態調查。為了化繁為簡并找到可衡量的抓手,我們開展了對于目標組件可用性程度的計算,也就是業界常說的“幾個九”。以下用到的便是我們針對單一服務組件所采用的計算方法,如圖1 所示。
而對于較為復雜的服務系統,我們采用了如圖2 所示算法。
可見,對于MTRS 而言,由于涉及到我們對于事故的綜合處置能力,包括響應、檢測、識別、補救恢復等環節。因此,我們需要盡量縮短MTRS 的耗時。

圖1 對單一服務組件的算法

圖2 對于較為復雜的服務系統的算法
而為了提高MTBF 乃至整體可用性的程度,我們總結并踐行了如下防御性措施:
預防性例行檢查。從機房的日常巡檢開始,通過設備面板上的狀態燈或LED 屏,結合手冊上的相關說明,迅速發現并定位各種部件上的問題。而對于軟件應用而言,我們通過運用日志與事件監控服務工具,集中式地審查并跟蹤各項性能指標。
發現潛在的薄弱環節。我們既依賴用戶的主動反饋,又根據遠程工具的實時數據采集,來抽絲剝繭地發現當前業務在性能方面的瓶頸問題。
緩沖中斷產生的焦慮。在出現事故以及服務可用性缺失時,運維與支持人員運用郵件、電話和微信等方式,及時通知涉事人員,有關當前中斷的原因和臨時性的解決方案。此舉不但能夠讓大家產生一定的思想準備,而且能夠展現IT 部門的“關懷”與運作。