馮旭祥,馮鐘葵,陳俊,唐夢輝,張洪群,付曉波
(1.中國科學院遙感與數字地球研究所,北京100094;2.內蒙古電力集團培訓中心,呼和浩特010010)
遙感衛星數據異地備份技術研究
馮旭祥1,馮鐘葵1,陳俊1,唐夢輝1,張洪群1,付曉波2
(1.中國科學院遙感與數字地球研究所,北京100094;2.內蒙古電力集團培訓中心,呼和浩特010010)
為了有效解決遙感衛星數據的安全存儲問題,該文研究了一種基于網絡技術的遙感衛星數據異地備份方法。在充分考慮遙感衛星數據的結構、組成、存儲形式和遙感衛星數據備份的特點的基礎上,對遙感衛星數據異地備份中的異地備份站點選擇、備份數據管理、數據一致性、數據恢復以及備份的創建方法等問題進行了分析,并提出了解決的方法與技術;隨后引入了應用系統示例。該應用系統的運行結果顯示該文研究的遙感衛星數據異地備份技術可以有效完成遙感衛星數據的異地備份。
遙感衛星數據;異地備份;備份一致性;數據恢復;備份管理;備份站點
目前遙感衛星數據的存檔多采用本地存儲和單介質保存,一旦發生火災、地震等災害將可能造成數據損毀或丟失。為了有效地保護國家珍貴的遙感衛星數據資源,需要建立一套高效的遙感衛星數據異地備份機制,即在異地創建遙感衛星數據的備份存儲和管理,以有效解決衛星數據的安全存儲問題。
早期的遙感衛星數據異地備份一般是利用交通工具將載有遙感衛星數據的移動介質從本地站點運送到異地站點進行保存。此種方法雖然能夠保證數據的異地備份,但具有明顯的弊端,主要體現在:①備份時效性差、費用高,選擇的異地站點一般距本地站點較遠(幾百至幾千公里),使用交通工具進行運送的時間開銷會較大且備份費用高。②備份管理難度大,由于備份的移動介質處于離線狀態,因此無法獲取備份數據的狀態,也不便于對已備份數據進行檢索。③備份數據恢復過程復雜且恢復速度較慢。④備份數據的存儲質量難以保證,如果一旦移動介質出現問題,所備份的數據也將難以恢復。
隨著網絡技術的發展,越來越多的數據異地備份采用了基于網絡的備份方法,市場上也有較多的數據異地備份軟件,如Symantec NetBackup、IBM TSM和EMC Networker等,主要應用于銀行、網站和圖書館系統,完成對單一的文件數據和數據庫的備份。但是,這些備份軟件不能實現對遙感衛星數據各組成部分的同步備份并保持各組成部分的一致性,因此無法滿足遙感衛星數據異地備份的需求。
針對以上問題,本文在充分考慮遙感衛星數據及其備份特點基礎上,對遙感衛星數據進行異地備份的關鍵技術要點進行了深入分析,給出了對遙感衛星數據進行有效異地備份的解決方案,包括如何選擇備份站點、備份數據的管理、數據的一致性保持、數據恢復以及備份創建方法等。本文還基于上述方案給出了一個有效解決遙感衛星數據異地備份問題的應用實例。
為便于遙感衛星數據存儲管理及后續的產品處理,遙感衛星原始數據通常進行簡單的格式編排,以單軌(或數據段)數據為單位形成文件進行存檔,稱為衛星數據存檔文件。此外,基于對遙感衛星數據進行查詢、訪問的需求,還需對與衛星數據存檔文件建立與之關聯的元數據文件和瀏覽圖文件并進行存檔。因此,遙感衛星數據備份主要是考慮如何對這三類文件進行備份管理。一般地,這三類文件的存檔形式如下[1-4]:①衛星數據存檔文件。包含整軌(或數據段)衛星數據,一般在幾十MB至幾十GB大小,以二進制文件的形式存放于文件系統中。為方便進行數據管理和訪問,需在數據庫中記錄存檔數據文件的路徑信息;衛星數據存檔文件一般采用分級存儲。分級存儲包括在線存儲、近線存儲和離線存儲三級,一般地,在線存儲采用高速磁盤,近線存儲采用磁帶庫,離線存儲采用磁帶[4-6]。②元數據文件。包含衛星數據存檔文件的屬性信息,文件經過解析,屬性信息注入數據庫中作為數據記錄進行存檔[4,7]。③瀏覽圖文件。包含衛星數據存檔文件中整軌和單景衛星數據的瀏覽圖,一般在1MB以下。以文件的形式存放在文件系統中,同時在數據庫中記錄瀏覽圖文件的路徑。
遙感衛星數據的異地備份具有以下特點[4-6]:①數據總量大且單個數據文件較大,備份的創建與維護困難。隨著衛星數量增加、衛星分辨率的提高,遙感衛星數據量增長飛快。以2013年發射的高分一號衛星為例,按每天下傳4軌數據,每軌數據10分鐘,則每軌數據大小約為63GB,每天產生數量約為254GB,每年產生數據量約為93TB。綜合考慮目前在軌的衛星和已完成規劃即將發射運行的衛星,產生的衛星數據量會非常巨大。創建與保持如此海量的數據備份與傳統的普通數據備份差異較大。同時衛星數據存檔文件是幾十MB至幾十GB大小的單個文件,在進行網絡傳輸時耗時較長且會占用較多的網絡帶寬,容易導致數據不一致的情況發生。②存檔數據的組成和保存形式多樣,備份數據的管理復雜。遙感衛星數據的備份包含對衛星數據存檔文件、元數據文件和瀏覽圖文件的備份,備份過程需要根據各類數據的特點完成備份,同時保持各類數據之間的關聯性。備份數據的管理是數據恢復的基礎,衛星數據包含有諸如地理信息、云量、傳感器等特有的屬性,需要根據衛星數據的屬性信息建立其相對應的編目信息,以便于對衛星數據進行管理。③備份數據的一致性保持較難,由于存檔數據保存形式多樣且單個存檔文件數據量大,如何在備份時,既完成對一軌數據包含的多種數據的備份,又完成對數據之間關聯性的備份,同時保證本地和異地數據的一致性,這是進行衛星數據異地備份的一個關鍵問題。
2.1 異地備份站點的選擇
所謂數據的異地備份,是指在兩個相距一定距離的空間各自保存一份關鍵業務數據,并提供數據恢復手段的數據安全存儲方式。兩地之間的距離常根據工作條件、數據的重要性、一級行政區劃等因素統籌考慮。一般來說,相距100km以上的兩地,能夠應付地區性的自然和人為災害所造成的數據安全危機。
為實現在兩地之間的數據備份,需要在兩地之間建立網絡連接。考慮到遙感衛星數據總量大,同時新獲取的遙感衛星數據增長速度也較快,因此對兩地的網絡帶寬有一定的要求。在確定備份所需網絡帶寬時,需要同時考慮歷史數據與每日新增數據的數據量及其總的耗時要求、備份的時間窗口和網絡利用率等要素。一個計算示例如下:本地已有歷史數據200TB,考慮在1年之內完成歷史數據從本地到異地的備份,在每日備份時間窗口10小時、網絡帶寬利用率在70%的情況下,需要約229Mb/s的帶寬。按每日新增數據254GB,如需要在3小時傳輸完成所有新增數據到備份站點,在網絡帶寬利用率為70%的情況下,需要約276Mb/s的帶寬。若要同時滿足這兩個指標,則需每日備份時間窗口為13小時,網絡帶寬需保證大于276Mb/s。
從示例可以看出,為滿足歷史數據與新增數據備份的耗時要求,有不同的網絡帶寬和備份時間窗口要求。總的網絡帶寬要求取其較大值;總的備份時間窗口則是兩類數據備份時間窗口之和。
一般地,由于遙感衛星數據的接收管理部門通常都有多個衛星地面站,為減少備份的數據傳輸量,衛星數據異地備份可以優先考慮選擇異地衛星地面站作為備份站點。
2.2 備份的創建方法
遙感衛星數據異地備份的過程,首先是遙感衛星數據異地備份的初始化,即完成對本地數據存儲中的歷史衛星數據到異地的備份;然后是備份的正常運行,主要是對新增衛星數據的備份。針對初始化步驟的不同,可以分為兩種不同的備份方法,下面分別進行介紹。
(1)歷史數據優先的備份方法
歷史數據優先的方法是指在進行數據異地備份的初始化時,先將所有已有的數據備份到異地,再對備份期間新增的數據進行備份,重復此過程直到所有衛星數據都已完成備份;然后進入到備份的正常運行模式,完成后續新增數據的備份,這種創建方法的運行流程圖如圖1(a)所示,該運行模式的特點是運行過程簡單,通過幾次迭代過程就可以完成對已有數據的備份,迭代所需的次數取決于已有數據的數量與網絡帶寬的大小。但是這種運行模式有一個比較大的缺點,在異地備份初始化期間,新增數據無法得到及時備份且滯后的時間較長。圖1(b)是備份過程的時序圖,從圖可以看出備份的過程主要有3個階段,分別是歷史數據的備份、迭代過程新增數據備份以及正常運行過程中新增數據的備份。
設定這樣的一個異地備份環境,其數據與網絡情況描述如下:①需要備份的歷史數據200TB;②每日新增數據250GB;③本地與異地之間數據傳輸網絡帶寬為271Mbps,設定網絡利用率為70%,每日可用的備份時間為13小時,即每日可備份數據量為1084GB。
在上述限定條件下,創建初始備份約需要5次迭代,各次迭代的所需備份的數據、時間以及迭代時新增數據的情況參見表1。通過迭代過程可以看出,第一次備份迭代所需的時間較長,在本例中,初始備份過程需要188.9天時間,這樣在第一次迭代時產生的數據需要等待188.9天才能開始進行備份,并在約43.5天后完成備份。

圖1 歷史數據優先的備份方法示意圖

表1 備份創建的迭代過程
考慮一個更通用的場景(以下各數據量的單位相同):需要備份的歷史數據為D0,每日新增數據Da,每日可完成的備份數據量為da,則可以得出第n次迭代所需的時間Tn為:

迭代終止的條件是:

則初始備份創建所需的時間為:

(2)新增數據優先的備份方法
新增數據優先的備份方法是指,優先完成對新增衛星數據的備份,在備份時間窗口允許的前提下進行歷史數據的備份。備份過程主要分為兩個階段,第一個階段是初始備份的創建過程,在保證新增衛星數據備份的基礎上,在剩余可用的備份時間窗口內完成對歷史衛星數據的備份,直到所有的歷史衛星數據都已完成備份。第二個階段是備份的正常運行階段,只需要完成對新增衛星數據的備份。備份過程的流程圖如圖2(a)所示,而圖2(b)則顯示了備份過程的時序圖,從時序圖可以看出備份創建的過程。

圖2 新增數據優先備份過程示意圖
在與上一節歷史數據優先模式相同的限定條件下,除去新增數據,每日可用于傳輸歷史數據流量的帶寬容量為834GB,因此完成備份初始化所需的時間為245.6天。
考慮一個更通用的場景(以下各數據量的單位相同):現有需要備份的衛星數據量為D0,每日新增數據量Da,每日完成的備份數據量為da,則初始備份創建所需的時間為:

上述兩種備份創建方法,歷史數據優先的備份方法可以使歷史數據優先得到保護,且運行模式較為簡單;新增數據優先的備份方法交錯進行歷史數據與新增數據的備份,其運行方式更為復雜。
考慮到在采用分級存儲時,根據衛星數據存儲管理的策略,新增數據在產生后的一段時間內(通常是1周到1個月)會在各級存儲中都留有備份,另外新增數據是熱點數據,會被更多的讀回到系統進行處理,這樣也會形成新增數據在系統中的多份拷貝。相比較而言歷史數據一般都存儲在單一介質上,更需要得到保護。因此在歷史數據的數據總量不太多的情況下,如可以在半年內完成對歷史數據的備份,可以優先考慮歷史數據優先的備份建立模式;其他情況則可優先使用新增數據優先的備份創建方法。
2.3 數據一致性檢查
在基于網絡環境進行備份時,數據是在廣域網的環境下進行備份傳輸,容易出現數據不一致的情況。對此,可以通過備份過程中和備份完成后進行一致性檢查來解決[8]。
備份過程中的處理是指在備份過程中,通過一系列處理方法和手段防止數據不一致的情況出現,主要包括基于任務的數據傳輸管理方法和大文件的數據檢查機制。
基于任務的數據傳輸管理方法是指對數據傳輸過程進行細分,將一軌衛星數據的傳輸作為一個數據傳輸任務,對傳輸過程中的每個子步驟以子任務的方式進行管理,以確保數據傳輸過程的完整、正確[9]。具體的可以將數據傳輸任務分為衛星數據存檔文件傳輸、元數據信息傳輸和瀏覽圖文件傳輸3個子任務,并建立合適的子任務之間的通信機制。在每一個子任務正確完成之后,開始下一個子任務。只有在3個子任務都完成時,才將數據標記為備份成功。否則將備份任務標記為不成功,在備份不成功時可以進行數據重傳,可以選擇對失敗的數據或所有數據進行重傳。
大文件的數據檢查是指在數據傳輸完成之后,立即對數據的正確性進行檢查。由于衛星數據存檔文件較大,且通過本地與異地之間的廣域網環境之間進行傳輸,為防止由于網絡傳輸等原因造成的數據損壞,需要建立大文件的數據檢查。其方法是,傳輸前先在本地生成衛星數據存檔文件的校驗碼,校驗碼可以采用CRC或MD5方式生成,生成的CRC或MD5校驗碼通過消息中間件以文本消息的形式傳輸到異地,衛星數據存檔文件則通過FTP協議傳輸到異地,校驗碼與文件的傳輸控制通過基于任務的數據傳輸管理來完成。異地接收到衛星數據存檔文件及校驗碼之后,再次計算衛星數據存檔文件的校驗碼,同時與接收到的校驗碼進行比對,只有在兩邊數據計算的校驗碼相匹配時,才設定衛星數據存檔文件傳輸成功,否則進行數據重傳。
備份完成后的一致性檢查主要用于對本地和異地已備份數據的一致性進行檢查。具體是指在備份完成后,由用戶發起對備份數據進行檢查,檢查發現不一致的數據,并對存在不一致的數據進行重傳處理。主要包括單軌數據的一致性狀態檢查和基于數據庫的一致性檢查機制。單軌數據的一致性狀態檢查是指對完成異地備份的單軌遙感衛星數據所包含的各類數據信息進行一致性檢查,以確保完成備份的遙感衛星數據處于正確的異地備份狀態。檢查的內容主要有:以校驗碼檢查衛星數據存檔文件是否一致、數據庫中的元數據信息是否一致以及瀏覽圖文件信息是否一致。對于檢查后發現不一致的備份數據發起數據重傳任務。
基于數據庫的本地與異地數據一致性檢查機制是指,以基于本地或異地的元數據數據庫信息為基準,發起數據一致性檢查。主要是比較在本地標識為已備份完成的數據信息是否在異地已有一個備份副本,和在異地已有備份副本的數據信息是否在本地已標識為已備份。通過建立這種事后的一致性檢查機制可以確保本地所有數據都能按序備份到異地,而在異地已完成備份的數據能在本地有一個正確的標識。基于數據庫的本地與異地數據同步檢查機制獨立于常規的數據備份任務,可以定期發起這種一致性檢查。
2.4 數據恢復
異地備份的最終目的是為了便于在本地的數據遭到破壞時,能快速方便地將數據恢復到本地。因此,在構建異地備份系統時,還需要考慮備份數據恢復的問題。對于衛星數據異地備份而言,數據恢復的最小粒度為單軌數據。當發現數據損壞時,對衛星數據存檔文件、編目信息和瀏覽圖文件都要進行恢復。
為了對備份的數據進行有效利用和便于進行數據恢復,需要對備份數據進行管理。備份數據管理的基本要求是,完成對備份數據的存儲管理,建立本地與異地數據編目信息,以實現兩地之間的互檢索。數據檢索可以通過B/S技術實現[10-11]。根據衛星數據損壞的量的大小,數據恢復可以分為小批量恢復以及災難恢復兩個級別。小批量恢復是指日常運行中,發現本地數據有損壞時,由衛星數據標識信息,使用互檢索功能檢索到異地備份的數據,將數據通過網絡恢復到本地。而災難恢復是指本地保存的數據出現災難性毀壞時的數據恢復策略。針對災難恢復,主要有兩個手段,其一是在本地數據毀壞,在網絡環境和本地的運行環境沒有完全損壞的前提下,可以通過網絡訪問異地的數據管理系統發起數據恢復任務。當在網絡環境和本地的運行環境損壞的前提下,無法通過網絡來進行數據恢復,可以將所需備份數據導出到移動介質或者移動硬盤,再將移動介質運輸到目的地。
一個采用本文所述方法的遙感衛星數據異地備份系統的組成框圖如圖3所示,系統包含了北京端(本地)與密云端(異地),兩端都有進行異地備份所需的任務管理單元、數據傳輸單元、數據管理單元和一致性檢測單元。其中任務管理單元完成數據傳輸、數據恢復和一致性檢測的任務管理;數據傳輸單元用于完成在本地與異地之間的數據傳輸;數據管理單元用于完成本地與異地間數據的互檢索和發起數據恢復任務;一致性檢測單元用于完成本地與異地數據的一致性檢測。
本示例的系統中,兩站點間的網絡帶寬為622Mbps,網絡帶寬利用率約為60%,每日備份時間窗口約為6.6小時,在運行模式上,采用新增數據優先的運行模式,即優先對新增數據進行備份。目前該系統已穩定運行兩年,完成了約200TB歷史數據的備份,同時完成在此期間生成的約18TB新增數據的備份。

圖3 遙感衛星數據異地備份系統示例框圖
本文針對遙感衛星數據組成復雜、數據量大的特點,對遙感衛星數據異地備份過程中的備份站點選擇、數據管理方法、備份創建方法、一致性保持和數據恢復的問題進行了分析,并對各問題提出了有效的技術方法予以解決。本文提出的方法在中國科學院遙感衛星地面站的遙感衛星數據異地備份系統中得到了有效的應用,取得了較好的效果,對于遙感衛星數據的異地備份具有較好的借鑒意義。
[1] GUO W,GONG J Y,JIANG W S,et al.OpenRS-cloud:A remote sensing image processing patform based on cloud computing environment[J].Science China Technological Sciences,2010,53(suppl.1):221-230.
[2] RAMAPRIYAN H K,PFISTER R,WEINSTEIN B.An overview of the EOS data distribution systems[J].Remote Sensing and Digital Image Processing,2011,11(3):167-201.
[3] DAUCSAVAGE J,KAMINSKI M,RAMACHANDRAN B,et al.ASTER and MODIS land data management at the land processes,and national snow and ice data centers[J].Remote Sensing and Digital Image Processing,2011,11(3):183-202.
[4] 汪超亮,李傳榮,賈斌.新型遙感衛星數據目錄服務系統的研制[J].遙感學報,2007,11(3):385-389.
[5] 陳勃,陳志軍.海量遙感衛星數據存檔方法的探討[J].遙感信息,2006,21(5):43-46.
[6] 呂雪鋒,程承旗,龔健雅,等.海量遙感數據存儲管理技術綜述[J].中國科學:科學技術,2011,41(12):1561-1573.
[7] 李斌斌,馮鐘葵,唐夢輝,等.遙感數據異地歸檔方法研究與實現[J].遙感信息,2011,21(2):86-90.
[8] 程艷娜,李安,馮鐘葵,等.遙感數據異地備份中數據一致性方法研究與實現[J].遙感信息,2011,26(1):37-40.
[9] 錢凱,馮鐘葵,唐夢輝,等.遙感數據遠程備份的任務管理[J].微計算機信息,2010,1(28):189-190.
[10] 馮旭祥,李安,陳俊.基于ArcSDE與WebGIS的衛星數據管理與檢索系統研究與實現[J].遙感信息,2010,25(1):39-43.
[11] MARTINO S D,BIMONTE S,BERTOLOTTO M,et al.Spatial online analytical processing of geographic data through the google earth Interface[J].Geocomputation,Sustainability &Environmental Planning,348:163-182.
Remote Backup Technology of Remote Sensing Satellite Data
FENG Xu-xiang1,FENG Zhong-kui1,CHEN Jun1,TANG Meng-hui1,ZHANG Hong-qun1,FU Xiao-bo2
(1.Institute of Remote Sensing and Digital Earth,Chinese Academy of Sciences,Beijing100094;2.Training Center of Inner Mongolia Electric Power Group,Huhhot 010010)
This paper presents an approach for network-based remote backup of remote sensing satellite data.With full consideration of structure,composition,storage of remote sensing satellite data and characteristics of remote sensing satellite data backup,some problems such as selection of backup site location,backup data management,data consistency,data restore and backup creation methods are analyzed,and corresponding solutions are proposed.Then an example on the approach is introduced which demonstrates its effectiveness.
remote backup;backup consistency;backup management;backup recovery;backup site
10.3969/j.issn.1000-3177.2015.04.011
TP79
A
1000-3177(2015)140-0061-05
2014-05-27
2014-10-20
馮旭祥(1984—),男,工程師,主要從事遙感衛星數據預處理與備份相關研究。
E-mail:xxfeng@ceode.ac.cn
馮鐘葵(1960—),男,研究員,主要研究方向為遙感數據處理、圖像處理、海量數據儲存與管理與遙感地面系統集成。
E-mail:zkfeng@ceode.ac.cn