薛雁丹 李功梅 卜言彬
【摘 ?要】當前,金融、電信、制造等行業的大部分大型組織依舊采用傳統的存儲解決方案定期備份其任務關鍵型數據庫。傳統的解決方案無法滿足任務關鍵型企業數據庫的備份要求,存在數據丟失、備份窗口長、生產環境負擔重、防勒索及數據庫級別的可恢復性驗證能力弱、難于滿足不斷增長的數據庫需求等問題。論文提出,需要引入新的數據保護技術,提升備份效率,確保數據零丟失,滿足現代組織在業務和合規上對RPO和RTO的苛刻要求。
【關鍵詞】數據保護;零數據丟失保護;實時推送;永久增量;虛擬全量;RTO;RPO
【中圖分類號】TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2024)04-0131-03
1 引言
在數字化轉型和AI技術大爆發的今天,各類組織都高度依賴IT系統支撐其業務的開展,特別是大型組織,服務著千萬級,甚至十億級的用戶,一旦IT系統失效導致業務停頓與癱瘓,甚至核心業務數據的損壞或丟失,則勢必帶來災難性的后果,在經濟受損的同時,可能引發社會群體性事件。
調查發現,金融、電信、制造等行業的大型組織的任務關鍵型數據庫高可用主要依賴本地數據庫集群、傳統的數據備份技術、本地或遠程容災,在應對機房設備物理故障與自然災難方面有所建樹。但是,傳統的數據庫備份技術在確保數據的安全性、完整性、準確性、可驗證性和可恢復性方面面臨諸多挑戰,需引入新的數據保護技術,消除數據丟失風險,滿足任務關鍵型企業數據庫的RPO和RTO要求。
2 任務關鍵型企業數據庫數據保護的挑戰
目前,市場上用于保護業務數據的存儲解決方案均無法滿足任務關鍵型數據庫的應用需求,這些解決方案的問題根源在于:第一,備份和恢復方法基于已使用數十年的全量、增量、加歸檔日志夜間備份的模式,每次恢復都可能丟失多達一天的數據,無法實現RPO=0;第二,數據庫全量備份,無論數據是否更改,生產服務器、存儲和網絡在每次備份時都要處理所有數據庫數據,開銷極高;第三,數據不斷增長導致備份窗口越來越長,恢復時間更是漫長,無法滿足RTO的要求;第四,備份設備擴展性、數據消重與壓縮能力有限,無法為組織內所有數據庫提供保護;第五,缺乏權限控制機制,對刪庫、刪備份跑路及勒索防范能力不足;第六,缺乏對整個數據保護生命周期的可見性和控制力,黑盒備份,無法驗證數據庫的可恢復性。
3 零數據丟失保護技術
當前,97%的《財富》500強公司都在使用Oracle解決方案。截至2021年,以業務系統數量為計數單位,我國金融行業Oracle數據庫占比為55%[1],電信、制造等行業的業務系統也普遍基于Oracle數據庫開發[2]。為解決這類任務關鍵型企業數據庫的數據保護難題,Oracle研發了一個突破性的數據保護解決方案,即零數據丟失恢復一體機(以下簡稱“恢復一體機”)。
恢復一體機與Oracle數據庫中相應的功能以及Recovery Manager(RMAN)備份工具緊密集成,通過實時重做傳輸、永久增量備份、自動合成虛擬全備、自動端到端持續驗證數據、分布式軟硬件優化集成、靈活復制架構等創新技術,實現了真正的零數據丟失保護,并且大幅降低生產服務器的負載。零數據丟失保護總體技術架構如圖1所示。
3.1 消除數據丟失技術
零數據丟失恢復一體化解決方案,創新性地引入了實時備份數據庫重做日志、保護備份數據免遭災難和確保備份數據可恢復等技術。
3.1.1 實時備份數據庫重做日志
重做日志(Redo Log)是在Oracle數據庫內實施事務性變化的基本手段。所有Oracle 11g及更高版本的數據庫都可以從內存日志緩沖區中直接向恢復一體機持續發送重做日志,恢復一體機實時接收重做日志并自動生成歸檔日志。這提供了獨特的、類似于Data Guard保護程度的實時數據保護,可確保數據庫受到亞秒級的保護。
3.1.2 保護備份數據免遭災難
本地恢復一體機的備份通過集成的備份軟件和相關的技術可快捷地復制到遠程恢復一體機、云端、磁帶、NAS等設備中,以防站點中斷和區域性災難。其支持多種靈活復制拓撲架構,例如,兩個恢復一體機之間可以單向或者雙向實時復制,還可以多對一復制等。用戶可以根據合規的要求對復制拓撲結構進行量身定制。在所有拓撲結構中,恢復一體機均僅復制更改的塊,從而極大地減少了網絡和存儲的占用。如果本地恢復一體機不可用,可以直接從遠程恢復一體機或者磁帶中運行恢復操作。
3.1.3 確保備份數據可恢復
與Oracle數據庫深度集成,恢復一體機可識別Oracle數據塊的格式,支持深度數據驗證,所有備份數據和重做塊在發送至恢復一體機、復制到磁帶及遠程復制時都會自動接受驗證。此外,恢復一體機存儲軟件會定期對磁盤上的備份塊進行驗證,還會定期檢查底層硬盤,如在驗證過程中發現數據損壞,則自動讀取鏡像副本中的正常數據塊,并立即修復受損數據塊,確保恢復操作始終恢復有效數據,相當于定期進行恢復演練。
3.2 永久增量備份技術
為了將生產數據庫系統上與備份相關的處理減少至最低,恢復一體機采用一次全量、永久增量的備份架構。該架構以增量推送和增量存儲兩項創新技術為基礎,只傳輸和存儲生產庫發生更改的數據,消除不必要的備份處理,由此極大地降低了對生產系統的影響。
增量存儲可對傳入的更改數據塊進行驗證,然后執行壓縮、編制索引和存儲操作。數據庫虛擬完全備份是截至某個增量備份時間點,對物理完全備份的一種基于指針的表示,即每次增量備份后,基于指針生成一個虛擬全備。當需要執行恢復操作時,可以按需恢復某個時間點虛擬完全備份,然后恢復歸檔日志。
另外,恢復一體機將所有與備份相關的處理都卸載到本機上,包括耗時的壓縮、備份刪除、驗證和維護操作等,釋放生產系統資源。
3.3 具備云級的數據庫保護及服務能力
恢復一體機通過基于策略的數據保護管理、數據庫感知的空間管理和大規模云級基礎架構等多種創新技術為數據中心成百上千個數據庫提供云級數據庫保護服務。
根據每個數據庫的恢復目標制定保護策略,并進行分組。恢復一體機可以根據各個數據庫的恢復窗口目標,全面地管理所有備份存儲空間。如果存儲空間允許,恢復一體機將保留比恢復窗口目標更早的備份,從而提供更長的恢復窗口。在出現任何空間壓力之前,恢復一體機會主動根據歷史空間占用自動清理恢復窗口目標之外的備份,并為各個數據庫重新供應空間,以便達到每個受保護數據庫的恢復窗口目標。
恢復一體機單個機架可提供PB級的可用存儲容量,并可提供12~24 TB/h的數據備份與恢復速率,可多個機架級聯組成更大的備份資源池。
3.4 抗擊勒索及人為故意破壞的復原力和恢復能力
恢復一體機被設計成與生產數據庫故障隔離,自動驗證所有傳入的、磁盤上的和復制的備份數據塊的正確性和可恢復性,任何被惡意破壞的備份數據會被檢測、記錄,并告警,強制執行不可改變的備份,嚴格按DBA和設備管理員職責分工進行系統訪問控制,傳輸加密,實時重做傳輸允許恢復到攻擊發生前的最后一筆交易等。因此,如果勒索軟件或者人為攻擊生產數據庫,恢復一體機不會受到影響,不會導致數據丟失。
4 通用數據保護方案與零數據丟失保護方案對比
各類組織的任務關鍵型數據庫的保護都有嚴苛的要求,當前的通用存儲備份方案與零數據丟失保護方案對數據保護的關鍵需求響應如表1所示。
5 零數據丟失保護技術應用示例
當前,越來越多的組織采用零數據丟失保護技術保護其核心數據資產,以便在遭遇災難性故障、邏輯故障、人為刪除、勒索加密、合規稽核等情況下,確保數據可快速恢復,并保證數據的完整性和準確性。
以下為一個大型組織采用零數據丟失保護技術方案的真實情況。該組織的IT系統服務著上億客戶,數據庫實時備份到恢復一體機上,同時,卸載備份到容災中心的磁帶機上,并定期復制磁帶異地保存。零數據丟失保護技術的管理界面如圖2所示。
從管理界面可以看出,該組織納入零數據丟失保護的數據庫有5個CDB(名稱和保護策略已模糊處理)。所有數據庫采用相同的保護策略,即目標恢復窗口為60天,實際上當前恢復窗口均在60天以上,其中,最大的數據庫恢復窗口已達112天,即該庫可以恢復到過去的112天以內的任何時間點。數據未受保護的窗口均小于1 s,即RPO為亞秒級,甚至為0。當前,最大的數據庫達到102 TB,在保留112天恢復窗口后,實際使用存儲空間62 TB,數據去重比達到124倍,存儲空間使用效率非常高。
恢復一體機引入永久增量備份、自動合成虛擬全量備份技術,每天在40 min內,只需備份500 GB以內的有效變化的數據即可得到百TB級的全庫備份。
單臺恢復一體機可提供12~24 TB/h的數據備份與恢復速率,可同時并行備份與恢復多個數據庫。實際備份與恢復速度受數據庫基礎平臺能力的影響較大,特別是IO、網絡帶寬的影響,實測基本可達到數據庫平臺短板硬件能力的上限。
6 結論
使用傳統的數據庫備份解決方案,只是把數據庫當作簡單的通用文件來復制副本和存儲,并不是當作具有特定數據完整性、性能和可用性要求的交易系統來處理,會出現業務數據丟失、備份恢復時間過長、很難保證RPO和RTO要求等問題。另外,備份部署和管理復雜,備份數據的安全性和有效性難以保證。零數據丟失保護技術可以很好地解決傳統數據庫備份與恢復所遇到的挑戰。
零數據丟失保護技術以一種創新的、先進的方法重新定義了數據庫保護領域。其通過將先進的數據保護技術與數據庫技術、高性能硬件深度優化融合,以軟硬件一體化的方式快速提供數據庫備份服務。通過實時備份消除數據丟失,永久增量備份消除對生產的影響,高效的復制架構保護數據免遭災難和防勒索,自動合成虛擬全量及重做日志,實時備份允許恢復到恢復目標窗口期內的任何時間點。
零數據丟失保護技術可以很好地解決客戶嚴苛的RPO和RTO要求,越來越多的客戶案例也證明了其有效性。
【參考文獻】
【1】中國信通院.數據庫發展研究報告(2021年)[R].北京:中國信息通信研究院云計算與大數據研究所,2021.
【2】中國信通院.數據庫發展研究報告(2023年)[R].北京:中國信息通信研究院云計算與大數據研究所,2023.