□ 浙江省國土資源廳信息中心 倪云英
地質資料電子數據完整性檢測與修復存儲研究
□ 浙江省國土資源廳信息中心 倪云英
隨著科學技術的快速發展,數據和網絡成為重要的基礎設施。地質資料電子數據的讀寫依賴于計算機,但當計算機硬件和軟件等更新后,新的軟硬件與舊的軟硬件的兼容性存在相當大的問題。同時,因互聯網鏈接形式的多樣性和開放性,網絡極易受到黑客、惡意軟件等攻擊和病毒入侵。病毒蠕蟲的爆發,系統的多樣性,導致地質資料電子數據常常出現泄密、假冒、篡改和銷毀等現象,給地質資料電子數據的真實性和完整性帶來巨大的威脅。
保證地質資料電子文件的完整,確保館藏地質資料電子數據的安全,防止數據的失效、數據的丟失,使硬盤和光盤間的電子數據保持一致性已成為亟待迫切解決的問題。電子數據完整性數據檢測與修復技術的研究已成為解決這一問題的關鍵點。
地質資料電子數據和傳統紙質地質資料有諸多方面的不同:地質資料電子數據需要特定的載體來存儲,其信息和載體的分離、存儲形式,使得地質資料電子數據具有易修改、復制和刪除等特點,修改、復制、刪除后不留痕跡。地質資料電子數據的存儲載體是磁電物質,在多種因素的影響下,載體的壽命較短,地質資料電子數據難以長久保管。另外,自然災害和人為損壞也會對地質資料電子數據的存儲載體造成致命的破壞。
作為“數字國土工程”的重要組成部分,開展地質資料電子數據完整性檢測與修復存儲工作,是服務于找礦突破和地質防災,實現國土資源信息服務社會化的基礎保障,同時是建立為經濟社會發展提供地質資料全面服務的手段之一,也是建立以現代信息技術為支撐的國土資源行政管理——礦政管理新體制的一個重要前提。尤其是結合重大項目的實施,將地質資料電子數據完整性檢測與修復技術應用于產品服務,具有十分重要的意義。
信息時代的到來,使得地質資料電子數據成了目前最有價值的產物,同時地質資料電子數據也造成了巨大的工作量。從2000年起至2016年12月底,館藏地質資料電子數據,共有近11470余種、39萬件地質資料電子數據信息服務,數據量達4.5TB。其中數字化地質資料電子數據5190種、匯交地質資料電子數據6670種,共有CD、DVD光盤7341張。
因電子文件相對于紙質文件而言,對環境溫濕度、防磁性、抗破壞、抗病毒等條件具有很高的要求。電子文件易被有意或無意損壞,當存貯光盤等載體上的電子文件,在保管時受到外界干擾或者存貯環境不宜,就會導致電子文件損壞。隨著浙江省探礦、找礦突破和礦產資源開發加快推進,地質資料電子數據量也在迅速增長,數據的海量增長使得地質資料電子數據信息數據中心面臨巨大挑戰。
面對近20年來積累的龐大電子數據,浙江省需要建立地質資料電子數據完整性檢測與修復系統來實現高效保護珍貴的各類地質資料數據,這是目前的核心要務。
為建立一個相對安全的海量數據檢測、修復存儲備份系統,需要考慮和解決以下幾個問題。
(一)數據檢測修復存儲的標準
就地質資料電子數據來說,數據的法規遵從性主要體現在數據的不可更改性和不可刪除性,為能安全的長期保存,地質資料電子數據必須存儲在WORM(Write Once,Read Many)媒體上。
按照《電子文件歸檔與管理規范》規定,將電子文件集中下載到可脫機保存的載體上。由推薦采用的載體,優先順序為:只讀光盤、一次寫光盤、磁帶、可擦寫光盤、硬磁盤等,《企業檔案工作規范》中規定,地質資料電子數據需存儲在脫機載體上,其地質資料電子數據為一式三套,一套封存保管,一套異地保管,一套提供使用(DA/T42-2009)。根據《縮膠片數字化技術規范》要求,為保證數據安全,存儲裁體應多樣化,采用在線、離線相結合的方式實現多套備份,并考慮進行異地保管。
(二)數據存儲介質
目前,數據存儲介質可分為磁存儲介質和光存儲介質兩大類。磁存儲介質主要包括磁(硬)盤和磁帶;光存儲介質即指光盤,而光盤又分為CD、DVD和BD。
1.磁存儲介質
目前,磁盤和磁帶技術經過多年發展已經相對成熟,其特點是單盤容量較大。一般情況下,磁帶被用作近線或離線備份介質,磁盤被用作在線存儲介質。而磁盤陣列(Disk Array)是由一個硬盤控制器來控制多個硬盤的相互連接,使多個硬盤讀寫同步,減少錯誤,增加效率和可靠度的技術。磁盤的出現把磁存儲時代推向了一個至高點。磁盤陣列存儲容量大,查找數據速度要比單個硬盤高很多,并且能提供自動數據備份。磁盤作為一個基礎的存儲單元被組合成為磁盤陣列、大型的網絡存儲系統以及數據備份設備,已廣泛被應用于數據的存儲、數據的歸檔。
2.光存儲介質
隨著網絡和數字多媒體技術的快速發展,磁介質技術的發展和價格大幅下降,光盤作用數據存儲和備份的應用逐漸萎縮。非結構化數據的快速增長所帶來的海量數據備份需求,使得光存儲介質重新迎來了發展機遇,尤其是已被普遍應用于專業數據備份領域的藍光光盤技術日臻穩定和成熟。藍光光盤單盤容量可達50G-100G,而且還在朝著更大容量發展。最重要的是光盤屬于真正意義上的物理介質。相對于磁存儲介質,光盤是異質存儲介質。藍光光盤存儲數據具有壽命長、低耗能、低成本等優點、短時間無需進行數據遷移,既可應用于近線存儲,也可應用于離線存儲。

圖1 工作流程圖
(三)系統建立
不論服務器磁盤還是備份光盤,可長期但不能永久性保存,存在硬盤故障、人為篡改、惡意病毒破壞等意外因素造成數據資產損失的風險。應盡最大程度保護數據,將服務器磁盤和光盤上雙保險,部署多層級、全方位的整體保護數據安全。基本工作流程如圖1所示。
筆者建議,要按照《電子文件歸檔與管理規范》(GB/T18894-2002)和《光盤備份工作規范》要求,以用戶管理需求為主導,以保護數據完整性為準則,以準確服務社會化利用為目標,開發地質資料電子數據檢測和修復備份管理信息系統,實現下述要求:采用磁盤和光盤兩種方式同步異地分別保管,實現驗收入庫的電子數據實時備份保護;按照“數字指紋”統一管理,確保每份電子數據文件和元數據的有效性、可讀性、完整性、一致性;為避免服務器硬件故障導致最新的、且尚未導出到光盤上的數據丟失,經過實時備份,系統實現數據高效冗余;通過系統實現每張光盤可讀性檢查,對光盤的容量、是否可讀盤校驗;為確保系統可持續性提供服務,實現與地質資料業務系統集成。
(四)系統功能
運用先進的信息技術手段與管理標準、流程相結合,采用高內聚、低耦合的方式設計新的軟件管理系統功能,與地質資料業務管理系統集成。
利用現有服務器設備,新增實時備份存儲系統來實現磁盤數據同步備份,使數據形態和實體完全一致,采用時間戳功能實現邏輯回滾點。
當發生點故障、或操作不當導致數據丟失時,備份系統能快速恢復故障前的數據,檢查和驗證多重數據,確保數據的高可用性。
光盤刻錄備份是磁盤備份的有益補充,針對光盤系統提供光盤自身可讀性校驗,輕松發現失效光盤并搶救恢復翻刻。
不同載體方式存儲的數據,由MD5碼數字指紋保存和識別,對其容量、產生環境、生成時間等發生異樣,可用同一份數據再生成另一個MD5碼統一管理。
采用UML作為貫穿軟件生命周期的通用設計語言,以面向對象的設計方法設計本系統,對下勘單位匯交的各單位電子文件(檔案)的數據來源、數據類型、文件格式、保存期限、存儲路徑集中管理,對數據的增長速度和數據總容量等預測,建立數據管控系統,從而實現地質資料數據的有效保護。
地質資料電子數據檢測與修復存儲系統的建立是一項系統工程。系統以標準為準則,對地質資料電子數據進行檢測、管理和存儲全周期管理。經過常態化管理的檢測、修復存儲系統,完成電子數據的完整性檢測修復建庫,向社會提供地質資料數據資源共享和地質資料產品服務。