田摯 王燕云 鄖曉光 梁麗芳



摘 要:隨著社會信息化的高速發(fā)展,地理空間數(shù)據(jù)呈海量增長,給數(shù)據(jù)存儲和管理帶來了巨大的挑戰(zhàn)。本文在對河北省地理信息數(shù)據(jù)存儲現(xiàn)狀研究的基礎上,基于傳統(tǒng)的SAN存儲架構(gòu),制定了備份策略,開發(fā)了智能磁盤讀寫引擎,使用讀寫引擎整合數(shù)據(jù),建立特征庫,對重復數(shù)據(jù)采用鏡像存儲,實現(xiàn)了快速高效的數(shù)據(jù)備份,為大容量數(shù)據(jù)備份提供了切實可行的技術手段。
關鍵詞:數(shù)據(jù);備份;讀寫引擎;研究
1 緒論
隨著社會信息化的高速發(fā)展,人們每時每刻都在產(chǎn)生不可估量的信息數(shù)據(jù),隨著衛(wèi)星導航技術和物聯(lián)網(wǎng)技術的廣泛應用,從空天地專業(yè)傳感器擴展到物聯(lián)網(wǎng)中無所不在的非專業(yè)傳感器,數(shù)據(jù)獲取傳感器網(wǎng)形成龐大的空天地傳感器資源,產(chǎn)生前所未有的時空大數(shù)據(jù)。特別是衛(wèi)星遙感大數(shù)據(jù)、城市實景地圖、出行軌跡大數(shù)據(jù)等地理空間數(shù)據(jù)正呈海量增長,給數(shù)據(jù)存儲和管理帶來了巨大的挑戰(zhàn)。數(shù)以TB級的數(shù)據(jù)備份需要超長時間,數(shù)據(jù)備份成為一件費時費力的事情,同時,經(jīng)統(tǒng)計,在備份的數(shù)據(jù)中,重復的地理信息數(shù)據(jù)占了較大的比重,存儲管理的成本也隨著數(shù)據(jù)的劇增急劇增加。
網(wǎng)絡備份系統(tǒng)的研究和開發(fā),開始于20世紀80年代中期,目前國內(nèi)被采用最多的備份策略主要有以下兩種:
(1)完全備份。即定期對全部數(shù)據(jù)進行完整備份。這種方法直觀簡單,缺點是所需時間長,所占磁盤存儲空間大;優(yōu)點是恢復時間短,操作簡便。
(2)增量備份。即只備份上一次備份后增加和修改過的數(shù)據(jù)。由于沒有重復的備份數(shù)據(jù),節(jié)省了磁盤空間和縮短了備份時間,缺點是一旦發(fā)生災難,恢復數(shù)據(jù)比較困難。
目前河北省地理信息數(shù)據(jù)備份主要采用傳統(tǒng)數(shù)據(jù)管理方式,以完全備份為主增量備份為輔,在數(shù)據(jù)管理和更新的過程中缺乏有效的技術手段,隨著地理信息數(shù)據(jù)的不斷增加,文件數(shù)量多,數(shù)據(jù)量大,在對數(shù)據(jù)進行上傳、下載和查詢的過程中需要耗費大量的時間成本,嚴重影響了地理信息數(shù)據(jù)管理的工作效率。
大容量數(shù)據(jù)高速備份方法研究,通過對地理信息數(shù)據(jù)的管理及存儲現(xiàn)狀的研究,規(guī)范了現(xiàn)有數(shù)據(jù)的存儲模式,制定了數(shù)據(jù)存儲方案,研發(fā)了適用于目前系統(tǒng)平臺的文件智能存儲系統(tǒng),通過智能磁盤讀寫引擎,對現(xiàn)有的各種數(shù)據(jù)進行整合,在備份數(shù)據(jù)時對數(shù)據(jù)文件的特征進行分析,根據(jù)備份數(shù)據(jù)的特征,自動采用不同的備份方案,應用重復數(shù)據(jù)檢索技術,通過智能計算,將重復的大體積的文件,進行鏡像存儲,在存儲系統(tǒng)中對重復的數(shù)據(jù)僅存儲一個數(shù)據(jù)副本,對于副本以外的重復數(shù)據(jù)采用指向副本指針的方法來有效消除其他副本,加快拷貝速度,減少數(shù)據(jù)上傳更新、下載和查詢中的時間成本,采用技術手段實現(xiàn)了對地理信息數(shù)據(jù)存儲的有效管理。
2 研究方法及內(nèi)容
2.1 研究對象
省級地理信息數(shù)據(jù)主要包括衛(wèi)星圖像、遙感數(shù)據(jù)、三維激光掃描數(shù)據(jù)、傾斜攝影測量數(shù)據(jù)、三維模型、4D產(chǎn)品、瓦片數(shù)據(jù)等地理信息數(shù)據(jù),目前采用SAN存儲架構(gòu)(Storage Area Network即“存儲區(qū)域網(wǎng)絡”),存儲于磁盤陣列和磁帶庫中,這種架構(gòu)是當前最成熟的集中存儲系統(tǒng),使用光纖存儲交換機將存儲設備和主機系統(tǒng)通過光纖連接起來,通過前端文件服務器對SAN存儲系統(tǒng)進行管理,存儲的衛(wèi)星圖像、遙感數(shù)據(jù)等地理信息數(shù)據(jù)全部以Windows目錄及文件的形式進行管理,采用本地復制和遠程傳輸?shù)氖侄螌Φ乩硇畔?shù)據(jù)進行更新和管理。
2.2 架構(gòu)設計
2.2.1 系統(tǒng)架構(gòu)
鑒于系統(tǒng)的使用、維護、升級、數(shù)據(jù)傳輸?shù)认嚓P情況,在程序架構(gòu)上,采用C/S模式的基于網(wǎng)絡的應用程序架構(gòu)。服務器采用穩(wěn)定、高效的Microsoft Windows 2012操作系統(tǒng)作為平臺,使用DELPHI語言描述系統(tǒng)業(yè)務邏輯。
2.2.2 智能存儲引擎設計
根據(jù)數(shù)據(jù)文件的特征,在文件拷貝的過程中,進行文件的特征分析,生成數(shù)據(jù)文件特征庫,通過智能計算,將重復的大體積的文件,進行鏡像存儲,加快拷貝速度,節(jié)省時間成本。
系統(tǒng)部署前對原有數(shù)據(jù)進行統(tǒng)一更新,并生成數(shù)據(jù)信息及數(shù)據(jù)特征庫,初步生成系統(tǒng)信息庫。后期對新數(shù)據(jù)更新時,需要和數(shù)據(jù)內(nèi)已有數(shù)據(jù)內(nèi)容進行對比分析,如系統(tǒng)內(nèi)不存在內(nèi)容相同的數(shù)據(jù),則對數(shù)據(jù)進行上傳和記錄更新操作。系統(tǒng)內(nèi)存儲內(nèi)容相同的數(shù)據(jù),數(shù)據(jù)不再進行上傳操作,只生成相應的更新記錄。
2.3 軟件功能
智能存儲系統(tǒng)主要解決文件存儲過程中大文件重復存儲的問題,利用先進的文件檢測算法,快速識別重復文件,同時提高了文件的拷貝速度。具體功能如下:
存儲管理:接管操作系統(tǒng)磁盤文件管理功能。對磁盤文件進行掃描,建立文件指紋庫。
文件輸入:外部文件可通過拖拽或者復制粘帖方式拷貝進智能存儲系統(tǒng),并存儲到磁盤。對于磁盤中存在的大文件,只建立鏈接,不重復存儲。
文件輸出:通過智能存儲系統(tǒng)的導出功能將文件拷貝到其他存儲介質(zhì),還原被鏈接的文件。
用戶管理:管理員用戶可以添加、修改、刪除用戶。
日志管理:記錄用戶的操作日志。
3 系統(tǒng)測試
3.1 測試方法
智能文件存儲系統(tǒng)具有嚴格、詳細的數(shù)據(jù)特征庫,對數(shù)據(jù)文件的內(nèi)容進行詳細對比并生成特征庫,確保數(shù)據(jù)文件在系統(tǒng)中的唯一性。在數(shù)據(jù)上傳的過程中對數(shù)據(jù)進行對比分析,根據(jù)系統(tǒng)規(guī)則和分析結(jié)果對上傳數(shù)據(jù)采取不同的處理方式。根據(jù)測試內(nèi)容的測試項,分別對測試文件1(1.32GB),測試文件2(1.62MB),測試文件夾1,測試文件夾2(含70M文件,主要測試在文件夾內(nèi)的大文件是否可以按規(guī)則處理),進行數(shù)據(jù)上傳和導出功能測試,測試步驟如下:
文件進行上傳測試。
在不同目錄對文件進行上傳測試。
相同目錄對文件進行上傳測試。
文件和數(shù)據(jù)指針文件進行導出測試。
3.2 測試結(jié)果
本次測試對智能文件存儲系統(tǒng)的核心功能即數(shù)據(jù)處理功能進行了驗證,主要驗證結(jié)果如下:
(1)小于10M的文件處理功能。
直接上傳:目錄內(nèi)無相同文件名的文件直接上傳。
覆蓋上傳:目錄內(nèi)有相同文件名的文件做覆蓋處理。
(2)大于10M的文件處理功能。
直接上傳:系統(tǒng)內(nèi)無相同數(shù)據(jù)特征的文件直接上傳。
生成指針文件:系統(tǒng)內(nèi)數(shù)據(jù)特征庫進行對比,如有相同特征的文件不對真實文件進行上傳,同時生成數(shù)據(jù)指針文件。
實際文件:直接進行導出。
指針文件:導出真實文件內(nèi)容。
與傳統(tǒng)數(shù)據(jù)備份方式相比,本系統(tǒng)在原SAN存儲框架的基礎之上,引入了智能磁盤讀寫引擎,使用讀寫引擎將數(shù)據(jù)進行整合;備份數(shù)據(jù)和文件數(shù)據(jù)分析同時進行,大大縮短了拷貝時間,增加了大容量數(shù)據(jù)備份效率;同時,考慮到大容量地理信息數(shù)據(jù)種類繁雜重復較多的特點,系統(tǒng)平臺對重復數(shù)據(jù)采用鏡像存儲,加快了存儲速度,減少了時間成本。對比傳統(tǒng)平臺單純的存儲和提取操作,本系統(tǒng)增加了條目記錄功能,每次數(shù)據(jù)上傳、更新、索引操作都會更新相應條目,使操作更加簡潔、高效。
4 結(jié)論
大容量數(shù)據(jù)高速備份方法研究,為海量地理信息數(shù)據(jù)的備份提供了有效可行的技術方法,通過研究成果的應用,加快了地理信息數(shù)據(jù)存儲和傳輸?shù)乃俣龋?jié)約了時間成本,在地理國情普查、基礎測繪生產(chǎn)、數(shù)字城市建設、室內(nèi)混合智能定位等重大項目中,有效地提高了海量數(shù)據(jù)的服務效率;同時,研究成果的應用,降低了存儲空間,節(jié)約了設備購置成本,提高了設備性能,促進地理信息更高效地為社會服務。本課題的研究成果適用于海量數(shù)據(jù)的備份工作,在這個大數(shù)據(jù)的時代,可廣泛推廣至有需求的各行業(yè),其應用前景廣闊。
參考文獻:
[1]李德仁.論時空大數(shù)據(jù)的智能處理與服務[J].地球信息科學學報,2019,21(12):1826.
基金項目:國家重點研發(fā)計劃——室內(nèi)混合智能定位與室內(nèi)GIS技術:室內(nèi)高精度測圖與實時GIS技術(2016YFB 0502104)資助