蒲芳,盛榮春,沈煜
?
基于ATMOS的校園云存儲平臺的構建與應用
蒲芳,盛榮春,沈煜
摘要:為了解決在高校中跨校區使用海量非結構數據的應用中所面臨的數據安全性、移動性的問題。介紹了傳統存儲方式與面向對象存儲方式的特點及典型應用;從校園信息化建設中的實際應用和需求出發,提出了校園網中基于面向對象存儲方式的ATMOS云存儲平臺的系統結構,詳細分析了云存儲平臺的數據讀寫流程。實踐表明:基于ATMOS云存儲平臺有效地保障非結構數據的異地災備和實時高效的存取,提高了數據安全性;保障了移動辦公的可靠性。
關鍵詞:非結構數據;面向對象存儲;云存儲
盛榮春(1989-),男,東華大學,碩士研究生,研究方向:數據分析,數據加密,上海,201620
沈煜(1980-),東華大學,助理研究員,碩士,研究方向:數據分析,信息系統,上海,201620
隨著網絡和計算機技術的迅速發展,信息爆炸性的增長,而且形式與內容也呈現出越來越廣泛的多樣性,互聯網已成為一個巨大的海量信息空間。人們創建、使用和存儲信息的方式也繼續以空前的速度和規模發展,規模已達ZB級的數字世界,預計每年都會翻倍,預計到2020年將達到35.2 ZettaBytes。IT部門正在管理比以往更多的數據,這些數據具有越來越高的業務價值,必須進行長期保存和保護。而其中80%的數據是非結構化數據,這些數據每年都按指數增長60%。非結構化數據,是存儲在文件系統的信息,而不是數據庫。如何應對海量非結構化數據的增長,尋找更高效的方式,在更長的時間跨度內,管理非結構化數據(例如圖像、電子郵件、視頻和文本),成為存儲發展的方向。
云存儲由多個分布式資源組成,但作為一個整體提供服務,也稱為聯邦存儲云[1]。它是一個以數據存儲和管理為核心的云計算系統,將儲存資源放到云上供人存取,使用者可以在任何時間、任何地方,通過任何可連網的裝置連接到云
上方便地存取數據。云存儲平臺能夠面對以下3方面的挑戰:(1)海量非結構化數據的增長及管理;(2)分布式數據中心,通過多站點服務對地域分散的數據進行統一管理:通過數據的冗余及分布式,具有高的容錯性;通過不同版本的副本的創建,具有高的耐用性;(3)為消費者提供靈活的訪問方式,消費者隨時隨地,從任何設備訪問存儲。
目前存儲技術的發展非常迅速,所涉及的范圍也十分的廣泛,從存儲的發展歷程來看,可以歸納為四種類型:傳統的直接連接存儲(Direct Access Storage,簡稱DAS),基于傳統文件的存儲(Network Attached Storage,簡稱NAS),基于傳統數據塊的存儲(Storage Area Network,簡稱SAN)、以及基于對象存儲(Object-based Storage)。
1.1傳統存儲及典型應用
(1)直接連接存儲 DAS
DAS是一種傳統的存儲方式,DAS通過標準的接口(像IDE、SCSI等)然后,直接掛載在各種服務器或者是客戶端的擴展接口下,服務器通過I/O通道直接訪問DAS中的數據。
(2)網絡連接存儲 NAS
NAS是直接連接到網絡的一種存儲器。NAS容許用戶在網絡上存取數據,NAS集中管理和處理網絡上的所有數據,將負載從應用或企業服務器上卸載下來,主要是文件應用。
(3)存儲局域網SAN
SAN是一個集中式管理的高速存儲網絡,存儲區域網是獨立于服務器網絡系統之外的高速光纖存儲網絡。這種網絡采用高速光纖通道作為傳輸體,以SCSI-3協議作為存儲訪問協議,將存儲系統網絡化,實現真正的高速共享存儲。SAN的一項典型應用是需要高速塊級別訪問的數據操作服務器,比如電子郵件服務器、數據庫和高利用率的文件服務器等。1.2 對象存儲及典型應用
在信息系統中,結構化數據通常就是指能在關系數據庫系統中存儲的數據,即可以用二維表的結構來邏輯表達的數據。反之,非結構化數據是指那些沒有特定的數據結構和模式來決定它如何存儲的數據,這些數據并不適合直接用關系數據庫系統來存儲。例如文本文檔、圖片、音樂、視頻文件、博客文檔等。對象存儲技術出現的主要目的就是用來優化非結構化數據的存儲。對象存儲的概念是由SNIA在1999年提出的,然后再2002年左右出現一些商用產品,Centera是EMC的一個對象存儲產品作為一個內容尋址存儲(Content Addressed Storage,簡稱CAS)歸檔系統也是其中之一。
基于對象和基于傳統文件的存儲方式的最大的區別是,在對象中,可以存儲更多的元數據,雖然有些文件系統也支持擴展元數據,但是這些數據通常很少會被應用程序用到[2]。而作為對象存儲系統,這種元數據的存儲會被放置在一個特定的區域,而不是文件中,從而可以被更好訪問和搜索。對象存儲已經走到每個人的身邊,當你打開淘寶網上一個店鋪的商品頁面時就使用了淘寶對象存儲(TFS),查看Facebook上的一張照片就用到了Facebook Haystack對象存儲等。
1.3EMC ATMOS云存儲
2009年EMC公司發布了基于云存儲的平臺ATMOS,ATMOS提供針對非結構化數據進行存儲、歸檔服務、數據采用跨地區和對象存儲的方式。EMC ATMOS結合CAS和NAS的特點,添加更加豐富的基于云端優化的對象分類支持以及分布式的內容尋址,ATMOS也可以說是基于云端優化的對象存儲系統。
校園云存儲建設在教育信息化建設中已逐漸顯示出它的重要性和必要性[3]。校園中很多應用諸如:新聞系統、數字圖書館系統、資源庫系統、電子檔案系統[4]等多個系統涉及文本、圖像、視頻、音頻等非結構化的數據存儲。這些數據的存儲面臨著存儲資源利用率低、管理復雜、安全與可靠性低等問題。為了解決此類問題,我們采用了基于ATMOS的面向對象的云存儲方法來滿足數據存儲的容災、異地備份、非結構化存儲、移動辦公等要求。
2.1系統架構與實現
ATMOS的部署方式分為硬件部署和軟件部署。硬件集成的部署方式:ATMOS系統中包含運算節點,連接網絡的交換機和存儲數據的磁盤柜。軟件的方式部署:ATMOS軟件安裝在運行vSphere的VMware的ESX服務器上,后端連接傳統的存儲系統。這種部署的好處可以利用現有的硬件實現。此次基于ATMOS的校園云存儲平臺采用的是基于軟件部署的方式。ATMOS軟件安裝在運行vSphere的VMware的ESXi服務器上,通過虛擬器虛擬出了交換器、存儲網絡和路由器等設備實現了ATMOS所需要的應用環境。整體的校園系統架構如圖1所示:

圖1 基于ATMOS的校園系統架構圖
學校可能會有若干個校區,每個校區會有若干個裝有ATMOS前端計算節點和磁盤存儲設備的服務器。數據可以存儲在一個校區內的若干個服務器的磁盤存儲設備上,通過ATMOS節點中的元數據對數據進行存儲訪問與管理。校區與校園之間以TCP/IP協議連接,通過副本機制進行異步備份。多數據中心雙活,通過統一目錄空間,使用對象ID訪問跨站點數據。元數據驅動的策略,根據數據的特性可以決定:存多少份,存在哪里,存多久。多個部門的不同應用可以分別作為不同的租戶使用同一個存儲,租戶之間安全隔離數據互不可見,多租戶安全共享。每個租戶可以施加獨立的策略,所以,對每個應用或組分別采用最優的策略,來提升存儲利用率。
校園的終端用戶通過不同的訪問方式以不同的訪問接口方式,通過ATMOS本地客戶端訪問應用程序接口(ATMOS Native Client Access API)訪問最近校區內服務器的數據。如web訪問可通過REST或SOAP接口訪問API,文件系統可以通過IFS、NFS/CIFS的方式以及針對內容尋址CAS的API方式訪問。現有系統集成了數字檔案系統和個人空間應用。
2.2存儲訪問過程分析
(1)ATMOS本地客戶端訪問API存在于ATMOS前端節點中,通過此接口可以對數據進行創建和訪問,主要組件如下所示:
MDS(MetaData Service):元數據服務器,記錄存儲用戶、系統和布局的相關信息。
MDLS(MetaData Location Service):元數據所在位置服務器,主要記錄對象元數據所在的MDS,并且只能配置在每個資源管理組前兩個節點中。
RM(Resource Management):管理本地存儲資源,包括監視數據服務狀態,MDLS信息和分配文件所在的MDS等。
PM(Policy Management):策略管理器,提供策略管理、查詢、決定對象寫服務的處理策略。
JS(Job Service):提供執行副本的任務。策略用來對數據分類,在數據變化或被訪問時,不同類型的數據觸發不同的動作。
(2)文件存儲到ATMOS云存儲平臺過程分析(FS客戶端),如圖2所示:

圖2 文件在ATMOS的存儲過程分析圖
①校園用戶在linux操作系統上把文件傳遞到maui掛載點。
②客戶端通過RM來查詢相應的MDLS。
③通過MDLS的查詢找到擁有父目錄的MDS。
④創建請求發送給MDS。
⑤此時MDS詢問PM獲取文件的布局方式,PM返回XML形式的策略包含位置、副本數、副本方式 和觸發條件。MDS會填寫用戶信息和文件屬性并查詢RM決定在本地資源的存儲方式。
⑥同時把相關布局(LSO)和對象ID(OID)返回給客戶端。
⑦客戶端根據相關協議將數據寫入到選定的資源存儲服務器。
(3)Web服務對象的創建過程分析,如圖3所示:

圖3 web服務對象的創建過程分析圖
(4)Web服務對象的讀取過程分析,如圖4所示:

圖4 web服務對象的讀取過程分析圖
①客戶端發出請求到應用程序。
②應用程序通過REST請求傳遞。
③ATMOS的WS客戶端查詢RM獲得相應MDLS。
④WS客戶端查詢MDLS得到讀取對象的MDS。
⑤ MDS把對象的布局(LSO)等信息返回給WS客戶端。
⑥ WS客戶端找到最佳副本并讀取數據。
⑦并把數據和元數據返回給應用程序。
⑧數據傳輸到客戶端。
2.3集成應用分析
(1)檔案系統
校園的檔案系統是管理學校檔案的部門,采用了電子歸檔,存儲數據的屬性大多像pdf、圖片等非結構化數據。由于對數據的安全性要求比較高,存儲的方式應該具有容災和異地備份等特點。基于ATMOS平臺的云存儲方式很好的滿足了檔案系統數據的存儲與管理的需求,基于ATMOS,設置一個邏輯磁盤驅動器GeoDrive,數字檔案系統通過GeoDrive的虛擬盤符在訪問ATMOS的存儲空間,從一個校區的節點上傳,會自動同步到別的校區的存儲。
(2)個人工作空間
個人工作空間,主要是針對移動辦公,用戶可以在任何地點、任何時間通過移動終端基于云存儲平臺來對存儲的文檔、文件等非結構化數據進行瀏覽、編輯、下載、上傳等處理。在校園網中采用VMware Horizon Workspace以NFS方式掛接ATMOS云存儲平臺的盤符。同一賬號使用多個終端智能設備隨時隨地訪問云存儲,內容實時同步更新,安全性高,滿足隨時隨地移動辦公需求。
云存儲將大量不同類型的存儲設備通過軟件集合起來協同工作,共同對外提供數據存儲服務。云存儲服務相對于傳統存儲技術在數據安全性、可靠性、易管理性等方面有了很大的進步。本研究提出了基于EMC ATMOS的校園云存儲平臺,有效的存儲了校園信息系統中的非結構化數據,集成了數字檔案系統和個人工作空間的應用,提高了校園辦公效率。同時,如何有效地將ATMOS云存儲平臺應用在校園信息化建設中還有很多值得深入探索的工作,例如云存儲平臺安全性的深入研究與應用[5],與現有的統一用戶身份認證平臺的集成工作、在云存儲平臺與其他接口應用的集成工作等。只有把這些工作扎實的做好,才能使云存儲在校園信息化建設中發揮越來越重要的作用。
參考文獻
[1] Gil Vernik, Alexandra Shulman-Peleg, Sebastian Dippl, et al. Data On-boarding in Federated Storage Clouds: proceedings of the 2013 IEEE Sixth International Conference on Cloud Computing. Santa Clara, CA, USA, June 28 - July 3, 2013[C]. IEEE 2013.
[2] 王永魁,朱蘭娟.對象存儲系統的研究[J].計算機工程, 2007(12):266-267,270.
[3] 吳明珠,陳瑛.基于云存儲技術的教育資源構建與共享[J].計算機教育, 2014(7): 40-44.
[4] 孫凌燕,潘世敏.檔案信息資源存儲的發展方向-對象存儲[J].檔案學研究,2011(1):71-74.
[5] 傅穎勛,羅圣美,舒繼武.安全云存儲系統與關鍵技術綜述[J].計算機研究與發展.2013,50(1):136-145.
收稿日期:(2015.04.13)
作者簡介:蒲芳(1978-),女,東華大學,副研究員,博士,研究方向:數據分析、應用集成、云計算,上海,201620
基金項目:中央高校基本科研業務費專項資金資助(2232013D3-38;2232013E3-14)
文章編號:1007-757X(2015)12-0003-02
中圖分類號:TP393
文獻標志碼:A