■ 昆明國際航空樞紐工程建設指揮部 范懷煒
編者按:企業業務連續性對企業的生存發展至關重要。本文以信息系統生命周期為主線,從技術和管理兩個維度分析各階段應重點關注的內容以及可以采取的措施。
不同業務的連續性保障措施大不相同,但從方法論上看,主要包括生產設施設備的冗余備份、原材料儲備、人力資源儲備、應急預案、管理體系等。信息系統業務連續性方案,涉及技術措施層面和管理體系層面,涵蓋了信息系統規劃設計、建設實施、運行維護等信息系統全生命周期。
根據《公共安全業務連續性管理體系 》(GB/T 30146-2013/ISO 22301:2012)的定義,業務連續性是指在中斷事件發生后,組織在預先確定的可接受的水平上連續交付產品或提供服務的能力。業務連續性方案是指由最高管理者和適當的資源所支撐的,為實施和保持業務連續性管理所進行持續不斷的管理和治理過程。最小業務連續性目標是指在中斷中組織為達到其業務連續性目標可以接受的最低標準的服務和(或)產品。恢復點目標(RPO)是指為使活動能夠恢復進行,而必須將該活動所用的信息恢復到某時間點。恢復時間目標(RTO)是指事件發生后到產品或服務必須恢復,或者活動必須恢復,或者資源必須復原完成之前的時間段。
GB/T 30146-2013采用了PDCA模型來策劃、建立、實施、運行、監視、評審、保持和改進組織業務連續性管理體系(BCMS)的有效性。
信息系統業務連續性的最高目標是數據不丟失(RPO=0)、應用不中斷(RTO=0)。但顯然這個最高目標只是一個理想狀態,企業應根據實際需求和投資能力確定目標,達到“可接受的水平”。信息系統典型組成包括的硬件有網絡設備及通信線路、服 務 器、存儲、負載均衡設備、機房等,軟件有操作系統、數據庫管理系統、中間件、應用軟件、虛擬化軟件等,以及保障信息系統正常運行的管理體系及人力資源。
信息系統業務連續性的威脅包括通信線路不可用,硬件設備故障,軟件故障,數據損壞,病毒、蠕蟲、木馬等發作,系統資源(如CPU、內存、磁盤)消耗殆盡,災難事件(如自然災害、恐怖事件、火災、戰爭),機房環境問題,人為誤操作,網絡入侵,接入終端不安全等。任何威脅事件的發生都可能導致系統服務中斷。
信息系統業務連續性的技術措施主要是高可用性(HA)和災難恢復(DR)。
HA采用冗余和集群的思路,強調本地生產系統服務不中斷。
DR采用在異地建設備份生產系統或者重新創建生產系統應用,強調當本地系統服務中斷后,異地系統能夠在“可接受的水平”范圍內提供服務。
實際操作中,信息系統發生故障后可以采用“降效運行”的方案,降效運行方案應能夠達到“最小業務連續性目標”的要求。
信息系統業務連續性方案,除了考慮軟硬件等設施設備方面,更應該重視管理體系的建設和改進。信息系統業務連續性管理體系,是企業業務連續性管理體系(BCMS)的重要組成部分。

表1 信息業務連續性措施與指標
信息系統業務連續性管理體系的范圍,應包括IT組織機構及職責、工作過程、資源配置、風險管理、內外部的協作合約等,其中職責須涵蓋信息系統規劃設計、建設實施、運行維護、退役停用等信息系統全生命周期。
信息系統業務連續性管理體系的建立,除了依照《公共安全業務連續性管理體系》的要求外,還應依照《信息安全技術 信息系統災難恢復規范》(GB/T 20988)和《信息安全技術 網絡安全等級保護基本要求》(GB/T 22239)等的要求執行。
對于單個相對獨立的信息系統,規劃設計階段管理上應明確:系統功能及邊界,評估系統服務中斷后對企業業務連續性的影響,確定系統的網絡安全保護等級、災難恢復能力等級,制訂系統業務連續性方案(包括技術措施層面和管理體系層面)。上述工作過程是一個反復研討、確認的過程,在此基礎上再對系統進行詳細技術方案設計和應急預案設計。
項目實踐中,保障信息系統正常運行的機房環境如機房位置及承重、溫濕度及灰塵控制、機房物理安全(防盜、防火、防水、防鼠、防蟲)、機房供配電、機房環境監控、機房運維管理等,以及通信線路、網絡及網絡安全設備、終端設備安全措施等,在規劃設計階段往往被輕視。

圖1 信息系統部署架構拓撲結構
信息系統業務連續性主要指標是RPO和RTO,通常規劃設計階段產品選型或開發要考慮的技術措施如表1所示。
在組織內企業如果需要建立信息系統業務連續性,則在規劃設計階段的方案非常重要。上表所列技術措施往往是根據信息系統業務連續性的要求綜合選用。另外,不同產品所使用的技術有所差別,方案和產品選型應以滿足要求及擴展性為原則。
圖1是一個簡單的兩地三中心的信息系統部署架構示意圖。在示意圖中,生產中心聚焦于系統的高可用,采用了負載均衡、雙機熱備、服務器集群、數據庫集群、存儲雙活、持續數據保護、虛擬技術等技術措施。災備中心的配置是一個“降效”版的生產中心,聚焦于當生產中心不可用時能夠及時接替生產中心提供服務。
在規劃設計階段,技術方案的產品選型是個關鍵,產品所支持的協議以及數據和時間的恢復窗口期應滿足整個方案的目標要求。
規劃設計階段已經框定了信息系統業務連續性管理體系和技術措施。建設實施階段的重點工作是測試、驗證和文檔管理。
管理體系的測試重點是應急預案,有兩個方面:
一是企業依賴于信息系統的業務所對應的業務層面應急預案,即在信息系統降效使用、停用的情況下,以及數據丟失甚至丟失的數據超出可接受程度、服務中斷的時間超出可接受程度的情況下,企業的相關業務如何應急。
二是當信息系統發生業務連續性風險事件時,信息系統的運維保障部門在管理層面如何應急。管理體系的測試、驗證以相關的業務流程或業務程序的模擬審查和桌面演練為主,測試、驗證的結論應推進應急預案的修改完善,同時應完善為實施應急預案應具備的資源條件。
技術措施的測試內容是依據方案中采用的具體技術來確定的。一般來說,單臺設備冗余部件如雙電源的測試是由廠家出廠前完成的。方案中如果使用到節點設備冗余技術及其延展出來的數據連續性技術、網絡連續性技術、應用連續性技術,以及虛擬化技術和負載均衡技術等,須由企業進行詳細的測試,比如網絡設備雙機熱備/集群服務器/虛擬機/Oracle RAC的轉移、存儲備份及恢復、雙活存儲系統、環形網絡等,必須進行詳細測試并達到設計標準。
測試的目的是盡力發現問題,但測試不能發現所有問題。通過測試來驗證所建系統是否符合預定目標是通常的手段,但是即便系統通過了嚴格的測試仍然難免會發生意外,所以業務層面的應急預案不可或缺。
在這一階段,管理體系的重點工作是完善與系統運維服務提供商(或產品廠商)的協約及工作機制,完善應急預案并演練驗證,完善信息系統日常運維的管理體系等。
技術措施的重點工作,是做好日常運維特別是網絡信息安全保障方面的工作。
納入企業業務連續性管理的信息系統,其對企業的重要性是顯然的。當這個系統需退役停用時,系統運行所留存的數據,以及系統規劃設計、建設實施、運行維護所留存的資料文檔,對企業來說是有價值的無形資產。應對這些無形資產進行甄別、篩選,確定沒有價值的給予登記、銷毀,其余的應采取措施保護,做到不被丟失、不被篡改、日后可查。
信息系統業務連續性是企業業務連續性重要組成部分。信息系統業務連續性除了按照網絡安全等級保護要求、信息系統災難恢復規范等進行規劃設計、建設實施、運行維護外,還應該納入企業業務連續性統籌范圍,遵循企業整體業務連續性體系的要求。