顧建榮 顧純
(上海工程技術大學信息化辦公室 上海市 201620)
隨著各高校智慧校園的全面發展與轉型,信息化技術在教學、科研和管理中發揮出越來越大的作用,但隨之而來的就是信息系統的爆發式增長,如果依然采用傳統的系統部署方式將無法滿足高校信息化的需要,因此虛擬化技術得到了最廣泛的應用[1]。
虛擬化技術是在硬件基礎架構(數據存儲、網絡、CPU、內存)與操作系統之間增加一個虛擬化層,通過虛擬化軟件將這些硬件資源進行池化,按需分配給各個操作系統,最大限度的實現資源高效利用。對于業務系統的管理人員而言將不再關心底層硬件的品牌、型號、軟硬件兼容性等,只需根據業務的實際需要向云平臺申請相應的資源即可。
虛擬化技術為高校帶來便利的同時也帶來了許多的挑戰,包括平臺系統架構的全新構建、資源池的合理規劃、網絡安全以及業務連續性和數據保護等。本文則基于我校的備份一體機項目對數據保護及業務連續性方案設計與實施的應用。
我校于2013年打造了虛擬化平臺,并完成了全業務上虛擬化,共計102 臺虛擬機實現P2V(Physical to Virtual)轉換,之后每年的虛機數量以20%左右的速度進行高速增長,截止2020年12月共計虛機423 臺。
云主機高速增長的同時數據安全卻面臨極大的風險。業務系統安全策略由各個業務系統負責人自行制定,通常包括數據的本地備份、網盤備份、光盤刻錄、虛擬機克隆等;業務連續性包括負載均衡、數據庫集群等。核心系統的安全策略是否執行到位難以確認,大量非核心系統根本沒有備份機制,一旦發生問題可能導致數據直接丟失。
因此為我校的虛擬化數據中心打造一個統一、全覆蓋的數據安全管理平臺是非常必要的,但同時會面臨五大挑戰[2]:
(1)覆蓋范圍問題:我校的虛擬機操作系統與業務類型繁多,對于數據安全的要求也不盡相同,既然打造一個統一的數據安全平臺,那么必然要做到全面覆蓋。
(2)備份策略的制定:根據業務的重要性、類型不同需制定不同的備份策略。滿足各個業務系統的需求。
(3)備份時間窗口的設定:由于備份時會占用部分系統資源,包括磁盤IO、網絡帶寬等。為避免備份對學校日常工作造成影響,因此整個備份任務須在23:00 到次日6:00 進行。
(4)備份介質的選擇:傳統的備份介質有很多,包括磁帶庫、光盤、數據存儲等。按照常見的備份策略(每天增量備份,周末全備,數據保留2 個月),則需準備源數據10 倍的存儲空間,且隨著業務系統的快速增長,備份介質也隨之不斷的增長,這會給備份體系帶來極大的存儲容量的挑戰。
(5)備份及業務連續性的災難恢復演練:對于一個備份或容災系統來說應急預案和災難恢復演練是非常重要卻容易忽視的兩個環節。應急預案制定容易,但定期的災難恢復演練卻難以做到,原因是很多破壞性測試會增加業務系統損壞的風險,給我校帶來不必要的損失,因此業務系統管理人員不愿意承擔這額外的風險,導致災難恢復演練難以推進。因此數據安全平臺必須要提供一種安全可靠的解決方案,既能測試備份及容災系統的可用性,又能不對現有業務造成額外風險。
我校通過在災備數據中心部署備份一體機構建了數據安全平臺,對全校所有業務系統實現異地數據安全保護,針對部分核心業務系統實現異地業務連續性保護,如圖1所示。

圖1:備份架構拓撲圖
在制定數據備份策略時,我們需要重點考慮RPO、RTO 這兩個指標。
● 恢復點目標(Recovery-Point Objective - RPO)
恢復點目標指在發生災難的情況下企業可容忍的數據丟失量的衡量標準。
● 恢復時間目標(Recovery-Time Objective - RTO)
恢復時間目標指災難發生后,企業業務系統恢復運營所需要耗費的時間。
我們對所有業務系統和數據庫進行梳理,按照其重要性分為1級、2 級、3 級,并針對不同安全級別制定不同的備份策略,如表1所示。

表1:備份策略
傳統的備份介質,如磁帶庫、光盤等,其常規的備份策略需大約原始數據量的10 倍空間保存備份副本[3]。備份一體機采用的備份介質是帶去重功能的磁盤備份,根據廠商的數據,去重比最高可達1:50。磁盤備份相比磁帶庫等其他方式的備份可大大縮短備份副本恢復的時間。源端去重技術結合CBT(changing block tracing 基于快照技術(ROW),將虛擬機快照后變化的數據塊進行記錄并放到CBT 中;備份:僅需傳輸當天變化的數據量;恢復:只恢復變更的數據塊,提高恢復時間,通過一根萬兆裸光纖就可滿足備份、恢復傳輸的需求。
全校所有業務系統按傳統的備份方式進行備份,則備份數據量達到近500TB(每天全備,數據保留2 周),通過去重后實際備份容量為13.68TB(包含一些系統文件),去重比為1:39.8。
通過觀察最近一個月的數據增量,可發現存儲介質使用量基本趨于穩定,保持在55% ~65%之間。未來可根據實際使用情況決定是否進行存儲的擴容。
數據保護的方式分成兩類,第一類是虛擬化映像級備份,第二類是針對數據庫實現客戶機級別備份(客戶機級別備份需要根據不同操作系統、數據庫類型安裝相應的探針)[4]。
2.3.1 映像級備份
在時間窗口內完成一次整臺虛機的全備份,配置改變塊跟蹤(CBT)備份模式,每天全備份實際僅備份了改變塊的數據。
2.3.2 客戶機級備份
對于部署了數據庫的虛擬機,通過安裝相應的探針進行文件級備份。備份一體機兼容Oracle、SQL Server、DB2、Sybase、SAP和SAP HANA 等數據庫類型,滿足不同業務的需求。
單純的數據備份只能保障RPO=24Hour,極端情況下可能會丟失24Hour 的數據。針對核心數據庫及部分有實時數據更新的虛機需要,通過備份一體機中的RecoverPoint for VMs 實現RPO=0。
簡單來說通過Recover Point 的IO 拆分器會拆分寫入到某個虛機VMDK/RDM 的IO 寫操作,并將發送一份拷貝至生產VMDK 以及災備的集群中。同時會將寫IO 信息發送至復制副本日志,從而使終端用戶能在執行恢復操作時恢復到任意時間點。
這樣,當生產環境的某臺虛機發生故障時,可直接在災備集群將業務恢復,或者回滾到某一個時間點,確保業務的連續性。
針對不同的虛擬機類型及故障場景建立不同的應急預案:
2.5.1 單臺虛擬機無法正常使用
使用技術:備份一體機DP 進行恢復
RPO =1Day (可恢復1 天前的備份副本);RTO = 2-3Hour(200G數據需恢復需10Min)。
業務恢復步驟:
選擇虛擬機及備份副本,完成虛擬機及業務恢復。
2.5.2 業務系統文件誤刪除或丟失
使用技術:備份一體機DP 進行恢復
RPO =1Day (可恢復1 天前的文件);RTO = 30Min-2Hour(200G數據需恢復需10Min)。
業務恢復步驟:
選擇虛擬機及備份副本,確認丟失文件的路徑,選擇恢復的目標,完成丟失文件的恢復。
2.5.3 非核心數據庫文件損壞或丟失
使用技術:備份一體機DP 進行恢復
RPO =1Day (可恢復1 天前的文件);RTO = 30Min-2Hour(200G數據需恢復需10Min)。
業務恢復步驟:
選擇數據庫副本文件進行數據恢復,恢復后確保數據完整性及數據庫可用性。
2.5.4 核心業務系統發生宕機無法快速恢復
使用技術:通過RP 技術進行恢復
RPO = 30sec ;RTO = 5min。
業務恢復步驟:選擇相應的時間點,進行容災切換,將備機直接開啟,并確認業務是否可以使用。
災難恢復演練是整個數據安全體系中非常重要的環節,通過災難恢復演練可以達到訓練人員、提高災難恢復能力、確保備份容災數據可用性等目的[5]。因此需要根據實際的情況,制定災難恢復演練計劃。
首先,確立組織演練規劃小組。然后約定演練范圍及周期:前期的演練會盡量降低復雜度,在零風險的前提下進行多次小規模演練,提升管理人員的災難恢復能力。設計演練場景并制定恢復策略:針對應急預案設立不同的演練場景及相應的恢復策略。最后進行實戰演練及總結:監控并記錄整個恢復過程,驗證災難恢復流程及備份數據的有效性。
2.6.1 虛擬機備份恢復
將演練計劃中需恢復的虛機進行恢復,恢復后將虛機開啟,并修改指定IP 地址。由業務負責人確認恢復后的虛機是否可用,數據是否完整。
2.6.2 虛擬機文件恢復
將演練計劃中需恢復的虛機文件恢復到指定目錄,由業務負責人確認恢復的文件是否數據完整。
2.6.3 容災切換演練
同業務系統的所有虛機會放置在一個一致性組下,業務恢復時選擇test 測試選項。RP 軟件會將一致性組下災備的業務系統全部開啟,并允許讀寫,同時將這些虛機放置在一個孤立的網絡下,確保不會對生產環境造成影響。然后由業務人員對災備的業務系統進行測試,確保災備業務系統的可用。
數據安全平臺設計的目標是實現所有業務系統的全面覆蓋,滿足不同業務級別、類型系統的備份恢復需求,保證數據安全,確保關鍵業務的連續性,滿足學校對數據安全的要求。
方案設計上要充分考慮備份恢復的方式、備份介質的空間及類型、故障恢復的預案等問題。同時通過定期的災難恢復演練不斷提升人員技術能力與系統災難恢復能力,災難恢復演練的復雜度逐漸從易到難,最終實現業務的整體切換。