潘磊 郭曉虎 薛崢 章亮
摘要:在測繪生產中,由于成果數據的不斷積累,數據量已經由過去的TB級發展至PB級,使得測繪成果數據面臨著更高的管理要求,因此在云存儲環境下搭建一套測繪資料在線管理系統,充分利用云存儲的技術優勢確保數據存儲的安全性、高可擴展性和高可靠性,實現測繪成果資料在線化管理,提升測繪資料管理的質量和效率,是當前測繪生產發展的必然趨勢。本文介紹了云存儲環境下的測繪資料在線管理系統的框架設計和主要功能,通過高效的文件快速查詢檢索,滿足測繪成果資料在線管理需求。
關鍵詞:云存儲 測繪成果資料管理
1、引言
隨著測繪事業的不斷發展,測繪地理信息成果資料的數據量呈逐年快速增長趨勢,測繪成果資料大多以光盤、磁帶、硬盤為主要存儲載體進行備份,導致存放數據的硬盤不斷增多,其中有些硬盤存儲量達到數百萬個小文件,傳統方式管理起來日漸乏力,過去的成果資料管理很大程度依靠人工,采用文檔方式記錄,查詢檢索效率低,很難快速找到對應的資料數據,給日常管理與數據檢索傳輸造成很大困擾,不利于測繪成果資料的管理,這也是目前測繪資料管理普遍存在的問題。[1]
云存儲(Cloud Storage)是在云計算(Cloud Computing)基礎上延伸和發展而來,通過集群應用、網格技術或分布式文件系統等技術,將服務器后端存儲資源虛擬化,將數據分布式存儲在眾多的服務器主機上,通過網絡共享方式提供給用戶使用。和傳統存儲相比,云存儲具有高性價比、高可靠性、高可擴展性的特點,同時支持高并發、高帶寬、自動均衡負載。相同數據在不同存儲節點存有兩個或多個副本,任意節點發生故障,系統將自動復制數據塊到新的存儲節點,具有高可靠性,可大規模橫向擴展,足以滿足地理信息數據與日俱增的數據存儲需求。
本文主要探討云存儲環境下,設計開發一套測繪資料管理系統,模擬日常測繪成果資料管理流程,將每個磁盤存儲信息與云存儲空間一一對應,將測繪成果數據上傳到云存儲的同時,建立相關元數據庫,實現海量數據快速實時檢索。
2、系統框架設計
測繪成果資料管理系統符合OAIS開放檔案系統(Open Archival Information System)標準[2],采用B/S架構實現服務的交互,系統基于底層云存儲服務,搭建文件檢索和事務管理數據庫,通過系統平臺以WEB頁面形式將信息提供給用戶,系統包括資料預處理模塊、管理模塊、存儲管理模塊、數據庫管理模塊、文件檢索模塊等功能模塊。
2.1資料預處理模塊
首先對生產部門提交的測繪成果資料,以硬盤為單位進行硬盤登記和硬盤健康狀況檢驗,對不滿足健康狀況的硬盤,及時進行硬盤數據備份。提取硬盤中相關元數據入數據庫,調用數據上傳功能將測繪資料數據上傳到底層云存儲中。
2.2管理模塊
管理模塊包括任務功能調度、平臺及存儲運行狀態監測、系統日志記錄以及用戶權限管理等功能。任務功能調度具有分布式功能調用、動態均衡、存儲資源監控等功能。存儲資源監控包括獲取集群狀態、存儲使用率、性能等信息。用戶權限管理將不同類型的用戶分配對應的權限。
2.3存儲管理模塊
存儲管理模塊包括云存儲空間管理和文件共享服務等功能。云存儲空間管理功能可動態分配和回收存儲空間,并實時查看云存儲剩余空間。文件共享服務功能采用SMB協議(全稱是Server Message Block)搭建基于linux系統的文件共享服務,建立linux服務器的數據與客戶端之間的數據共享。文件共享服務將云存儲數據以硬盤掛載的形式提供服務,掛載后和操作本地磁盤沒有區別,數據的訪問無需進行下載,可在線實時操作。當使用部門申請數據獲準后,可以從云存儲內部將數據直接傳輸進該部門空間。底層云存儲系統的文件存儲由眾多X86架構的存儲節點組成,利用存儲軟件將網絡中的存儲節點資源進行整合組織,并提供一套維護管理云存儲空間的標準接口,通過接口調用動態分配云存儲資源、存儲資源回收以及狀態監控等功能。
2.4數據庫管理模塊
數據庫管理模塊建立起系統平臺與數據庫之間的關聯,管理包括元數據庫,事務管理數據庫。元數據存儲在ElasticSearch文件檢索數據庫中,事務管理數據存儲在關系型數據庫MySQL中,支持分布式部署,存儲資料管理系統中的業務數據。
2.5文件檢索功能模塊
文件檢索功能模塊采用ElasticSearch搭建文件檢索功能,支持分布式部署的全文搜索引擎。無論是基于時間檢索還是基于空間檢索,ElasticSearch在大數據查詢方面都表現出比基于數據庫查詢更高的檢索效率[3],文件檢索供用戶按照文件和文件目錄檢索,對數據查詢時,可根據文件名、文件后綴、時間段進行文件檢索,對于檢索到的文件可手動選擇加載對應云存儲空間到本地工作站訪問。
3、存儲管理技術介紹
底層云存儲采用分布式架構,可大規模橫向擴展,系統由眾多冗余組件組成,不存在單點故障,且支持對象存儲、塊存儲、文件系統三種存儲方式。
3.1系統組成
3.1.1管理監控模塊
該模塊負責整個存儲集群的配置管理以及狀態監控,當系統出現異常時,通過指定方式及時告警。通過基于web的訪問方式進行管理和維護操作,支持智能化管理和配置。
3.1.2 元數據服務模塊
該模塊用來管理和維護文件系統中文件的元數據信息。當客戶端使用文件系統訪問存儲時,首先與元數據服務進程通信,獲得被訪問文件的元數據信息,根據元數據信息來訪問數據。
3.1.3存儲服務模塊
該模塊負責數據存儲,處理從客戶端發過來的數據請求。同時每個存儲服務進程會與其相關的存儲服務進程相關聯,保持關聯磁盤之間的一致性,當發現相關磁盤異常時,存儲服務進程會將其匯報給管理節點,管理節點隨后做出應對,保證系統的正常運行及數據的恢復等。
3.1.4對象存儲網關
通過該模塊,云存儲系統可以對外提供支持RESTful的對象存儲訪問方式,目前兼容亞馬遜S3和Swift等傳統對象存儲接口。該模塊支持集群化部署,以提供高并發訪問服務能力。
3.1.5客戶端模塊
為滿足不同的應用需求,系統提供豐富的存儲訪問接口,支持通過iSCSI客戶端程序將云存儲映射成本地磁盤使用,也提供私有的文件系統客戶端訪問方式,同時支持私有接口訪問。
3.2 關鍵技術
3.2.1 數據分布算法
為滿足系統高可擴展性和高并發性的設計要求,該云存儲系統采用無中心節點架構設計,通過分布式Hash算法計算的方式來尋址。保證了數據的均勻分布,系統發生變更時盡可能少的數據在設備之間的遷移,以及快速定位數據。
3.2.2 分層緩存技術
為提高存儲系統的讀寫性能,存儲系統在系統層面采用cache策略和分級存儲策略,將SSD磁盤配置成SATA磁盤cache層,cache模塊負責在cache層和存儲層之間進行數據自動遷移,對于客戶端而言,數據的存儲和訪問完全是透明的。
3.2.3 高速并發訪問技術
采用無中心節點架構設計,避免了由于中心節點服務能力的限制造成系統并發能力的降低;客戶端與存儲節點之間通信,不經過任何代理節點或轉發節點,系統的整體吞吐率和并發能力會隨著存儲節點的數量的增加而線性擴展;存儲系統的容錯由存儲節點之間自動進行,可以在高并發情況下,提高客戶端的帶寬利用率。
3.2.4其他技術
為了幫助用戶更好的保護數據,云存儲系統還支持快照、克隆、遠程復制等功能。
4、文件檢索模塊設計
4.1 文件檢索數據庫
測繪成果資料數據量巨大,要從海量數據中檢索出某一文件,這對檢索模塊的設計提出了較高要求。本管理系統采用ElasticSearch搭建文件檢索模塊,它的倒排索引技術實現比關系型數據庫更快的過濾,能支持上百億條、PB級數據的搜索。
4.2 ElasticSearch集群
為保證E lasticSearch的高可用性,在本管理系統中,使用三臺主機構建了一個ElasticSearch集群。Elasticsearch采用分片技術,將索引存儲時分成兩個分片,每個分片又有兩個副本分片,數據保存在分片內,分片被分配到集群內的各個節點里。當集群規模擴大或者縮小時,Elasticsearch會自動的在各節點中遷移分片,使得數據均勻分布在集群里。集群結構如圖3所示,P開頭的代表Primary分片,即主分片,R開頭的代表Replica分片,即副本分片。
根據節點的職責不同,劃分為主節點、數據節點、負載均衡節點。主節點即Master節點,其管理控制整套集群,如創建索引、刪除索引、資源分配、節點修改等;數據節點,對文檔進行增刪改查操作等;負載均衡節點,負責處理路由請求、搜索、分發索引操作等。
5、總結
在云存儲環境下,搭建一套測繪成果資料管理系統,實現測繪成果資料管理的在線化、服務網絡化,整合更多依賴分布式存儲和數據庫的資源,提高測繪成果資料文件檢索和數據共享效率,進一步提升測繪成果資料管理的質量和能力。
參考文獻:
[1]黃遞全,向娟,吳蕾.測繪成果資料目錄管理系統設計與實現[J].地理空間信息,2017,15( 10) :112-114.
[2]秦高雅.測繪資料檔案一站式管理平臺設計與實現[D].北京:北京建筑大學,2019.
[3]李峰,宋宴,魏廣澤,王永安.基于 ElasticSearch 的海量遙感數據檢索技術研究 [J].計算機與網絡,2021,47(05):57-61.