什么是IT系統的“可運維性”?通俗地講,IT系統的可運維性就是一個IT系統自身提供的確保該系統的正常運行狀態、排除該系統的異常運行狀態、應對突發的運行需求的能力。這種能力最終需要與從事運維工作的人結合,才能真正發揮其預期效果,但是如果系統提供的“可運維性”能力很差,就會導致從事運維工作的人無處發力或者只能用非常低級原始的辦法實現運維目標。從這個意義上講,IT系統的可運維性是其得以安全、平穩、高效運行的前提。
筆者在傳統金融行業從事過多年IT運維管理工作,深知可運維性對金融機構的重要性。其重要性具體體現在以下幾個方面。
通過高可用架構實現盡量短的故障恢復時間目標(re cove r y tim e objective,RTO)和可容忍故障恢復點目標(recovery point objective,RPO)。很多關鍵業務系統的RTO為秒級,RPO為0,這意味著不允許任何數據丟失和業務狀態錯亂,業務的短暫中斷不會使普通用戶感覺到明顯停頓。為此,在高可用架構中要有大量的冗余設計和接管(failover)措施,從機房、電力、網絡、主機、存儲、數據庫、中間件、域名解析到應用,都需要在架構設計上一體化考慮,都不允許出現單一故障點。
提供詳盡、可理解、可視化的直觀監控信息,可幫助運維人員實時了解系統和網絡的真實健康狀況,以便及早發現并應對異常;提供應急操作特權入口,可為改錯、選擇性關停、限流等應急手工操作提供一個安全方便的操作環境。……