俞 俊,院仁杰,袁曉東
(1.南京南瑞集團公司信息系統集成分公司,江蘇 南京211000;2.南京云白信息科技有限公司,江蘇 南京210008)
為了防止數據庫系統的軟、硬件故障造成數據丟失的嚴重后果,生產系統的數據庫都需要進行定時備份。傳統的備份方法需要對數據庫定期進行全量備份[1,2],而隨著系統數據量的增長,全量備份耗時越來越長,對于大數據量的系統甚至出現在夜間備份窗口無法完成一個數據庫全量備份的情況,持續到早晨業務高峰期的備份操作會對業務系統的性能產生極大的影響。
當需要通過備份數據對數據庫進行恢復時,傳統的磁帶庫或者虛擬帶庫恢復數據庫的時間也非常長。例如20TB的數據庫使用磁帶庫或者虛擬帶庫,按照平均200 M/s的恢復速度,最小恢復時間大約為40 h。
針對傳統數據庫備份方法全庫備份、數據恢復時間過長的問題,我們研發了DataSafe高性能數據拯救系統,它具備以下優點:
(1)采用備份服務器端自動合并技術,邊備份邊合并備份集,不需要在恢復時合并備份集,實現快速恢復,數據庫恢復的時間與數據庫規模無關。
(2)支持各種基于塊變更跟蹤的數據備份技術,例如Oracle塊跟蹤、LINUX CBT等。
(3)支持各種增量備份技術和日志前滾技術,例如Oracle增量備份和歸檔日志前滾。
(4)只需要在初始化階段做一次全量備份,今后只需要備份增量,可以避免定期全量備份,減輕生產系統負擔。
(5)通過快照可保留多個時間點的歷史數據,避免了保留多個備份集帶來的存儲資源浪費。
(6)備份集可以用于開發、測試、災備演練、數據脫敏等工作。
DataSafe系統基于B/S架構為用戶提供服務,其功能整體架構如圖1所示。
圖1中各部分功能說明如下:
(1)首頁:用戶登錄成功后,進入控制面板首頁,內容包含所有節點狀況(節點切換顯示、故障節點顯示)、快照池使用量、重刪池使用量、應用程序列表、失敗任務列表、事件錯誤列表等,界面如圖2所示。
(2)應用管理:應用管理是系統核心模塊,由以下模塊組成:本地應用模塊、備份管理模塊、遠程應用模塊、應用組管理模塊,包含發現新應用、應用列表、應用保護(重新保護)、應用詳情、SLA管理、取消保護、策略查看/刪除、過期備份處理、工作流、故障恢復、備份管理、歷史任務詳情、備份掛載、備份還原、快照管理、重刪管理、遠程重刪搜索、數據零丟失操作、任務進度詳情、任務列表詳情、鏡像卸載、鏡像刪除、鏡像掛載、鏡像狀態等功能。
(3)SLA策略管理:SLA策略管理對數據備份的策略進行管理,由以下模塊組成:模板管理模塊、策略配置模塊、資源配置模塊,包含新增模板、模板列表、編輯模板、克隆模板、查看模板詳情、查看關聯應用、搜索模板、刪除模板、管理策略、策略可視化、新增策略、策略列表、編輯策略、刪除策略、新增資源配置、資源配置列表、編輯資源配置、查看資源配置詳情、克隆資源配置、刪除資源配置、搜索資源配置和、查看關聯應用等功能。

圖1 DataSafe功能架構圖

圖2 DataSafe系統首頁
(4)域管理:域管理由主機管理模塊、存儲池管理模塊和組織管理模塊組成,包含新增主機、編輯主機、開啟/關閉主機CBT、刪除主機、搜索主機、新增快照池、編輯快照池、刪除快照池、快照池數據列表、快照池統計數據、重刪池數據列表、新增組織、組織列表、編輯組織、查看組織詳情、資源管理、刪除組織、資源查詢等功能。
(5)監控中心:監控中心由任務監控模塊、事件監控模塊和日志下載模塊組成,包含任務監控列表、搜索任務、查看任務詳情、改變任務優先級、取消任務、事件監控列表、搜索事件、查看事件詳情、日志下載等功能。
(6)基礎配置:基礎配置由用戶管理模塊、角色管理模塊、個人信息模塊、郵件通知模塊、節點管理模塊,包含新增用戶、用戶列表、搜索用戶、編輯用戶、節點分配、組織分配、角色分配、刪除用戶、新增角色、角色列表、搜索角色、編輯角色、刪除角色、權限設置、個人信息維護、郵件通知設置、新增節點、節點列表、編輯節點、開啟/關閉CBT功能、啟用/禁用節點、刪除節點、搜索節點、節點狀態檢測、節點證書交換、節點移除證書、節點配對、取消配對等功能。
DataSafe系統與市場上的同類型產品如Actifio[3]相比,有以下幾方面的特點和獨到之處:
(1)除支持Oracle數據庫外,還支持 MySQL、達夢、DB2等數據庫的備份管理,通過對邏輯卷進行塊變化跟蹤來實現。
(2)支持多節點管理,可同時管理多個備份節點機。
(3)滿足可靈活配置的資源權限,包括對主機、應用、策略模板、資源模板、用戶、節點等都可以按角色來管理相關資源。
(4)支持Oracle數據庫的零丟失數據恢復,而其他數據備份工具只能恢復到數據備份的時間點。
本文介紹了高性能數據拯救系統DataSafe的目標、整體功能架構和系統創新特點。經過實際測試,單備份節點環境下數據庫初始化全量備份速度超過600 M/s,集群環境下數據庫初始化全量備份速度超過1 TB/s,每5 min可備份一次增量或歸檔日志。通過我們獨有的技術無論數據量多大都可以即時恢復,并可實現Oracle數據庫恢復時的零數據丟失,最大限度保障RTO指標。