


摘 要:隨著銀行業(yè)務數字化轉型,影像平臺、AI學習、大數據分析、協同辦公、備份歸檔等應用場景已經使用對象存儲來處理海量非結構化數據。對象存儲多采用分布式架構,相比NAS文件存儲有著更好的擴展性,更靈活的訪問方式,更豐富的管理接口。但海量文件也帶來了數據安全性和可用性方面的問題,文章研究了對象存儲多版本、回收站、分層歸檔、多站點、對象備份等多種數據保護技術,結合業(yè)務數據重要性的分類與識別,實現對象存儲數據的差異化保護,確保業(yè)務數據的安全性和業(yè)務連續(xù)性。
關鍵詞:對象存儲;對象多版本;對象容災和備份;對象分層
中圖法分類號:TP392
文獻標識碼:A
Research on data protection of object storage in bank cloud environmentCHEN Hengdi
(Shanghai Pudong Decvelopment Bank, Shanghai 200000 , China)
Abstract:With the digital transformation of banking business, application scenarios such as imagingplatform, AI learning, big data analysis, collaborative office, backup and archiving, etc. , have usedobject storage to process massive unstructured data. Object storage mostly adopts a distributedarchitecture, which has better scalability, more flexible access methods, and richer managementinterfaces than NAS file storage. However, massive files also bring data security and availabilityissues. This paper studies various data protection technologies such as versioning, recycle bin, tiering , multisite, object backup, etc., combined with the classification and identification of theimportance of business data, realizes differentiated protection of object storage data, and ensures thesecurity and business continuity of business data.
Key words: object storage, object versioning, object disaster recovery and backup, object tiering
1 引言
由于對象存儲比NAS文件存儲支持更多的海量非結構化數據,如文檔、圖片、視頻等,因此銀行在互聯網業(yè)務、影像平臺、辦公網盤、大數據分析等應用系統中開始廣泛使用對象存儲。單套對象存儲采用分布式架構,實現了數據以三副本或EC糾刪碼方式分布在不同的故障域(故障域以節(jié)點或機柜為單位),允許跨故障域的2個存儲節(jié)點或2塊硬盤同時出現故障而不影響業(yè)務訪問。雖然對象存儲本身提供了較高的數據可用性和安全性,但無法避免數據中心級別故障、單套對象存儲集群軟硬件缺陷,人為誤刪誤改、惡意加密覆蓋等情況下,或引起對象文件長時間無法訪問或對象文件數據丟失的重大故障。本文通過研究對象存儲提供的多種數據保護功能,結合對銀行業(yè)務系統和存儲數據的重要性分類及生命周期管理,形成針對不同級別對象存儲數據的保護能力,以提升對象存儲的數據安全性和相關應用系統的業(yè)務連續(xù)性[1]。
2 對象存儲數據保護技術
2.1 多版本
針對存儲桶( bucket)開啟多版本功能,可以在存儲桶巾保留多個對象版本,防止意外覆蓋、意外刪除對象文件,并保留和檢索多個早期版本的對象文件(圖1)。啟用多版本后,往桶巾上傳同名文件時,不會覆蓋原對象文件( ID= llllll),而是生成新版本ID (121212);刪除對象文件時,所有版本會被保留并插入刪除標記。
2.2WORM (法規(guī)遵從)
WORM( Write Once Read Many)支持一次寫入,多次讀出,對象寫入后,在設置的保留期限內不能對文件進行修改、刪除或移動,但是可以多次讀取。
2.3 對象回收站
開啟存儲桶回收站功能后,被刪除的對象文件(包括開啟多版本功能的版本文件)可以在對象回收站內繼續(xù)保留,用于數據恢復,同時回收站本身支持數據生命周期策略,可以自動刪除到期的回收站內文件,也可以將回收站內的數據歸檔到冷存儲。
2.4 分層歸檔
在對象主存儲上,添加次級存儲(次級存儲可以是兼容S3協議且更廉價的對象存儲、磁帶庫、光盤庫、云存儲等)。通過設置數據生命周期策略(如基于對象創(chuàng)建時問和前綴進行過濾),將主存儲上的歷史對象文件分層或歸檔到次級存儲。分層是復制元數據和數據到次級存儲后,主存儲端仍保留無數據,方便在原存儲桶中直接讀取歷史數據或回源歷史數據。歸檔是復制元數據和數據到次級存儲后,在主存儲端同步刪除元數據和對象數據,歷史數據只能在次級存儲進行訪問。
2.5對象多站點
在跨數據中心的多套對象存儲上,創(chuàng)建多站點桶(以跨兩個數據中心的雙活桶較為常見),底層在每個站點都創(chuàng)建了一個同名的對象桶,每兩個站點的桶之間進行雙向異步復制,在確保數據最終一致性的情況下實現每個站點的桶都可讀寫,實現多活。多站點功能結合智能DNS實現各個站點對象存儲的就近讀寫和單站點存儲故障情況下的門動切換,即由智能DNS提供多個站點桶的統一訪問域名,每個站點的域名請求優(yōu)先返回本站點對象存儲的IP地址,只有當本站點對象存儲IP無法訪問的時候才會返回其他站點對象存儲的IP地址(圖2)。
2.6 對象備份
對象備份是指將一個源桶的眾多文件備份至日標桶中,一般需要獨立部署執(zhí)行此備份的計算資源(虛擬機或容器),該計算資源需要有源桶和備份桶的訪問權限。為確保發(fā)起備份II寸的桶內數據有一個較為完整的時間點切片,需要提前開啟源桶的多版本功能。
3 對象數據分類及數據保護
3.1 對象數據保護技術適用場景和局限
針對各種對象存儲數據保護技術,其適用場景和技術局限如表l所示。
3.2 對象數據重要性分類
根據訪問對象的應用系統重要性、對象數據冷熱程度等多個維度進行對象數據分類。按照應用系統重要性可以分為:關鍵應用系統(關鍵對客交易),重要應用系統(重要對客交易、關鍵基礎平臺、關鍵監(jiān)管報送),普通應用系統(普通對客交易和監(jiān)管報送、一般基礎平臺、重要辦公和內部管理),次要應用系統(普通辦公和內部管理)。
按照對象數據熱度可以分為:熱數據(業(yè)務交易及批處理相關數據),溫數據(短期交易查詢、近期數據報表和審計數據),冷數據(備份及歷史歸檔數據)。結合應用系統的重要性分類以及對象數據的冷熱程度,可以明確對象文件的重要性分級,具體如表2所示。
3.3 對象數據分類保護
按照應用系統業(yè)務連續(xù)性可以分為跨中心部署和單站點部署兩大類(表3)。結合對象數據重要性,可以形成對應的對象數據分類保護策略。
針對重要性為一級的對象數據、關鍵應用和重要應用的二級數據,由于其存儲的是關鍵業(yè)務數據,因此需要跨站點做數據復制,不允許單站點部署,以避免單數據中心故障導致數據丟失(圖3)。普通應用和次要應用的二級數據可以做單站點部署,但需要考慮跨站點進行對象備份,即將桶內數據備份到另外站點的存儲桶中,避免單個數據中心故障后的數據完全丟失,RPO為天級。一級、二級數據還需要同步開啟多版本和回收站功能,以防止邏輯誤刪誤改和惡意篡改。
二級數據多為不再修改但偶爾查詢的溫數據,需要配置分層或歸檔策略,將相關數據從主存儲遷移到性能較差但價格便宜的次級存儲保存,減少主存儲容量和負載。若采用分層,元數據在主存儲仍有保留,當需要從次級存儲訪問數據時,可以從次級存儲訪問數據[2]。
三級、四級對象數據主要是備份歸檔的冷數據,可以開啟WORM來保護數據,只有在文件過期后力可修改和刪除。為確保備份歸檔數據的安全性,需要針對三級的備份歸檔數據進行跨同城站點的對象備份,避免單集群或數據中心故障導致重要備份歸檔數據丟失。四級對象數據開啟WORM即可,不需要實現備份歸檔數據的跨站點備份。
4 對象數據保護應用實踐和價值
(1)確保重要數據安全。組合多站點、多版本、回收站、對象備份等對象存儲技術,實現關鍵業(yè)務數掘的跨站點冗余,可在誤刪、篡改等意外情況下進行數據恢復。
(2)應用數據生命周期管理。應用系統在上傳數據到對象存儲時,建議在文件的前綴、后綴及自定義標簽中增加對象數據用途和數據類型的標記,以便后續(xù)通過生命周期規(guī)則實現對象數據的分層和歸檔,避免將所有數據都存放在單個存儲集群或存儲桶中。
(3)結合對象多站點開展業(yè)務連續(xù)性演練。對象存儲實施多站點只是實現了數據的跨站點復制,應用層面能否在單集群故障情況下實現對象數據的繼續(xù)訪問,需要結合對象多站點開展應用雙活或災備演練,確保業(yè)務連續(xù)性。
5 結束語
對象存儲作為海量非結構化文件的存儲首選,其數據的防護和備份不應被忽視。通過組合使用對象多版本、對象回收站、對象多站點、WORM、對象備份等技術手段,以適配不同重要性和業(yè)務連續(xù)性的應用系統,確保對應生產和備份歸檔數據的完整性、安全性及可恢復性。對于使用對象存儲的應用系統,也需要同步考慮對象存儲中應用數據的生命周期管理,在應用設計中對寫入數據進行分類和標記,并結合分層歸檔實現數據流動。
參考文獻:
[1]羅慶超.對象存儲實戰(zhàn)指南[M].北京:電子工業(yè)出版社,2021.
[2]胡世杰.分布式對象存儲:原理、架構及Go語言實現[M].北京:人民郵電出版社,2018.
作者簡介:
陳亨迪(1983-),本科,中級工程師,研究方向:傳統架構和云架構的存儲備份。