洪鎮填
(1.廣東省國土資源測繪院,廣東 廣州 510500)
通過對海量數據的挖掘、分析和圖形化呈現,能非常清晰地揭示用戶的行為模式,加深對用戶需求的理解,從而為產品研發提供依據。存儲這些海量信息,不但要求存儲設備有很大的儲存容量,還需要大規模數據庫來存儲和處理這些數據。在滿足關系數據庫技術要求的同時,更需要對海量數據的存儲模式、數據庫策略及應用體系架構有更高的設計考慮[1-5]。
傳統的存儲模式在海量數據存儲中存在固有的缺陷。例如,DAS占用服務器資源,存儲設備較多時管理效率較低;NAS受網絡帶寬制約;SAN有一個統一的存儲系統接口,對存儲設備的共享訪問存在數據的完整性與安全性問題,設備的跨平臺性較差,且成本相對較高。新的對象存儲技術能夠有效滿足海量數據的存儲需要。
對象存儲技術提供基于對象的訪問接口, 將NAS和SAN 兩種存儲結構的優勢進行了有效的整合。通過高層次的抽象,使之既具有NAS 跨平臺共享數據和安全訪問的優點,又具有SAN 高性能和可伸縮性的優點。
1)對象存儲模式。對象存儲模式[6]一般由Client、MDS(Metadata Server)和OSD(Object Storage Device)三部分組成。Client 為客戶端,用來發起數據訪問;MDS為服務器,用來管理對象存儲系統中的元數據,并保證訪問的一致性;OSD 為存儲對象數據的設備,包括處理器、RAM 內存、網絡接口、存儲介質以及運行在其中的控制軟件[7]。
2)對象存儲模式用于海量數據存儲的優勢。對象存儲模式在處理海量數據存儲請求時具有較大優勢,主要體現在[8]:數據存儲高性能、數據共享跨平臺、數據訪問方便安全、存儲系統可伸縮性、存儲設備智能化。
信息組織即信息的有序化與優質化。信息組織具有類聚性、系統性、動態性、多重性、綜合性。傳統的信息[9]。組織方式在處理特定的、傳統的信息時具備良好的性能。但是,對于海量信息來講,無法完全適應需求。
當前,海量數據的組織方法有以下幾種:
1) 基于文件系統的海量數據組織。文件系統作為本地存儲系統的數據組織管理者,在不同的操作系統平臺下有不同的組織結構和操作形式。GFS(Google File System)是Google公司用來存儲和組織海量信息的分布式文件系統。GFS是一個可擴展的分布式文件系統,用于海量數據大型、分布式訪問。它可以提供容錯功能,給大量的用戶提供性能較高的服務。
2)基于體系結構的海量數據組織。California大學的OceanStore是一個在全球范圍內搭建的海量存儲池,向用戶提供存儲服務,尤其針對那些移動終端,如嵌入式設備。用戶可以在任何時候、任何地點、通過任何設備接入Internet,并訪問存儲在OceanStore 中的數據。
3) 其他類型的海量數據組織。北京大學的計算機網絡與分布式系統實驗室的在研項目之一“Ocean Data Information Retrieval”,就是研究數據空間的組織、存儲和索引技術。它基于已有的天網平臺,從Internet信息特征入手,對其進行組織、存儲,然后提供索引技術,為信息建立索引,最后實現高速的信息檢索。
海量數據的搜索是制約信息化進一步深化的瓶頸。目前,具有一定信息化程度的企業都有自己的數據庫,而利用數據庫都可以實現查詢。這就引出了“時間成本”的問題。要提高數據庫的查詢速度,就必須對數據庫進行大量的索引配置并對硬件進行大幅度升級,造成設備成本的提高。因此,從應用的角度,迫切需要一些新的管理技術來解決海量數據的快速搜索問題。
利用現有的關系數據庫能支持影像這樣的二進制大對象(BLOB)的特點,將大數據直接入庫進行存儲與管理。
LOB能夠存儲高達4 GB的數據,其靈活的數據庫內、庫外存儲方式,十分適合大數據的管理。根據存儲位置的不同,LOB分為內部LOB和外部LOB。內部LOB存儲在數據庫表空間內,支持事務操作和數據復制,適用于數據量較小的一般影像數據、矢量數據、文檔數據以及多媒體數據的管理;外部LOB存儲于數據庫表空間外,是一個指向存在于操作系統的外部文件的指針,數據庫僅維護一個指向此文件的指針。外部LOB適合于數據量較大的衛星影像數據、多媒體視頻文件等的管理。通過基于外部LOB的“大數據”存儲組織和基于內部LOB的“小數據”存儲組織配合使用,實現靈活的大數據組織和管理。
使用LOB的基本原則:
1) LOB可以作為數據庫表的一個字段處理;
2) 一個數據庫表可以同時含有多個LOB字段;
3) 外部LOB字段上管理的不是實際的數據,而是一個指向實際數據、由DBMS自動生成的LOB占位符指針;
4)從數據庫管理效率以及數據存儲平衡的角度,作為內部LOB管理的數據,一般不要超過100 M,超大數據可采用外部LOB來完成。
方濤[10]等提出采用數據庫結合文件系統的方式對遙感影像數據進行管理,這種方法的原理和直接利用數據庫管理并無本質差異,只是數據庫與影像數據是通過影像路徑名關聯在一起,因而最大的缺陷是數據的一致性難以維護,安全性難以保證。
HSM(hierarchical storage management)就是將使用頻率較高的數據存儲在在線設備上,而將使用頻率較低的數據存儲在近線設備中,較長時間內不太使用的數據則以離線方式存儲在磁帶或光盤上。分級存儲管理可以自動判斷它所管理的在線存儲設備中數據的使用情況,根據用戶定義的遷移規則自動將不常用的數據移動到近線存儲設備中。一旦用戶需要的數據不在在線存儲設備中,則又自動將該數據從近線存儲設備回遷至在線存儲設備中。
海量數據的組織和管理是一個較為復雜的問題,當數據庫管理的數據達到TB級容量,或者所管理影像的單個數據量達到GB級時,數據管理往往會出現一系列的問題,比如檢索效率低、訪問速度慢、擴展性低、難以維護等,采用本文所討論的方法可以有效地解決影像數據的組織、管理問題。
為了進一步提高海量信息的索引性能,下面幾個方向有待進一步研究:
1)文件模式的生成。從數據挖掘的角度,在現有的文件中,通過分類、聚類或序列等方法來提取能表征某一文件集的文件模式,可以進一步降低處理數據的規模。
2)索引數據的壓縮。現有的索引數據在容量上還有繼續壓縮的空間,通過壓縮技術來減少索引數據的大小。
3)為了提高遙感影像數據的管理及應用效能,尚需在影像數據塊的實時壓縮/解壓縮、基于影像內容檢索、數字水印、影像加密以及影像數據的網上在線分發等方面進行進一步的研究。④隨著基于廣域網絡的數據傳輸方法、多源地理信息的數據組織以及多尺度、多層次的遙感影像數據更新、應用等技術成為人們研究的熱點,建立一個類Google Earth模式的遙感影像網絡服務平臺,對于提高大型遙感影像數據庫的應用效能具有十分重要的意義。
[1]余暉,劉亞軍.基于角色訪問控制的研究與實現[J].微機發展,2003 ,13 (1) :13 - 15
[2]何芳原.淺談海量數據處理技術研究[J].硅谷,2009(8):59-60
[3]劉江.海量數據的意義[J].程序員,2011(8):1-2
[4]張志勇. 基于角色的兩級數據庫訪問控制機制及其實現[J].微機發展,2004 ,14 (1) :109
[5]樊志平. 數據安全性的實現方法[J].微機發展,2003,13(12):53 - 54
[6]蘇勇,周敬利.基于iSCSI OSD存儲系統的設計與分析[J].計算機工程與應用,2007,43(23):107-109
[7]Sakar K. An Analysis of Object Storage Architecture[J].IEEE Computer,2003,2(3):12-34
[8]蔣然.海量數據存儲關鍵技術淺析[J].電腦知識與技術,2010,6(20):17-19
[9]劉青寶,鄧蘇,張維明,等.海量信息組織與集成技術[N].計算機世界,2001-07-23(B08)
[10]方濤,李德仁,龔鍵雅,等.GeoImageDB多分辨率無縫影像數據庫系統的開發與實現[J].武漢測繪科技大學學報,1999,21(3):189-193