Reagan W.Moore著 馬紅巖編譯
摘要:如果數字記錄環境能將數據記錄與它們所依賴的原始創建架構相分離,數據保存環境將是成功的。數據網格技術支持管理位于多存儲系統的數據,數據網格技術如何支持記錄保存過程,基于數據網格的現有保存環境如何。本文做出了說明。
關鍵詞:網格技術 保存環境 電子文件
當我們談論“真實的電子記錄”時,確認要保存的數字實體是很重要的。Inter PARES project對電子記錄的解釋是“它是數字實體,具有固定的文件格式、穩定的內容、與其他記錄相關的檔案鏈以及可識別的背景信息”。另外,InterPARES認為“電子記錄物理實體和智力構成不必一致,數字元素概念也不同于文件格式概念。”數字元素是指數字實體所包含的電子記錄的全部或部分內容,或者必要的用以組織、構成、表明內容的數據和元數據,或者是保存所需的具體方法。文件格式指記錄的內容、管理,文件背景信息,以及與其來源之間通信的表示規則。依據Inter PARES的發現,如果電子記錄與識別、保持它的完整性的若干元數據結合起來,那么該記錄就被認為是真實的。
采取適當的措施即可靠的保存系統,可使記錄免受惡意的或意外的改變,使記錄與它的元數據保持完整無損。可靠的保存系統是指具有以下功能的系統:控制哪些內容適合該系統,在系統中保存、檢索記錄,系統中需要處理什么內容,記錄可在系統中保存多久,以及怎么把記錄從系統中除去。
技術過時使在一段時間之后將記錄移到新的硬件和軟件環境中變得很有必要。數據網格技術被設計用來解決技術更新問題,它之所以被應用于處理技術更新,是因為當新技術被用于保存環境中時,新系統和舊系統都會成為現行的系統。支持對多類存儲系統進行并行訪問的軟件系統,可以解決技術更新問題,可使保存環境利用更新、更經濟有效的技術。設計一種可支持組成成分更新的數據管理系統,并把它應用于存儲系統、數據庫技術、認證機制和訪問機制中是高難度的。數據網格技術,尤其是“存儲資源中介”的數據網格,為上述技術提供了可能。數據網格可用于各種規模的數據管理,從只有幾萬文件運用在個人電腦中的小型集合,到有千億兆字節的數據和五千萬文件的大規模集合。
SRB數據網格是種通稱的軟件,它支持保存環境、數字圖書館、實時數據系統和共享收藏,確保保存系統可提供優勢給所有的數據管理環境。數據網格使檔案管理員能夠掌控檔案的真實性和完整性,這使保存環境不再依賴特定存儲系統的性能。個人信息、被保護信息、版權和訪問的安全管理,是保存環境而不是存儲系統的特性。保存環境的實施在文中有詳細的說明,并有論述說明在保證真實性和完整性的同時。進行管理技術革新所需的性能。文中還專門講述了保存數字元素所需的條件。
1 對存儲數字元素的支持
軟件和硬件環境創建了數字元素,該環境為數字元素的管理和控制提供了存儲屬性。存儲系統一般提供的存儲屬性包括:存儲系統名稱、文件名稱、文件管理屬性的名稱、用戶名、訪問權限。通過這些屬性可以根據數字元素的位置識別并訪問它。它的位置由存儲系統名稱和文件名稱組成。存儲系統自動更新存儲屬性,以跟蹤對數字元素進行的操作。例如大小的改變,
要滿足Inter PARES長期保持記錄的一致性和完整性的要求,這些屬性是遠遠不夠的。因此,任何用于保存記錄的存儲系統及它們的數字元素必須支持Inter PARES所需的額外的元數據屬性。更改存儲系統使之與這些屬性相符是可能的,在現存的文件管理屬性范疇的條件下這是最合適的。
存儲屬性的命名約定依賴于存儲系統,同時,所有存儲屬性的名稱都會隨著數字元素移到另一存儲系統而發生改變。例如:存儲系統的名稱和文件名稱的改變。甚至文件屬性可被重新設置。如果數字元素移向另一站點或組織,用戶名也會改變。這意味著訪問權限必須反映新的用戶名。數字元素改變到新的存儲系統中,會改變所有的與記錄相關的存儲屬性,影響元數據管理一致性和完整性,而這些可以保證記錄長期真實,
隨著數字元素在存儲系統及地址間的改變,數據網格軟件系統將自動管理存儲屬性。數據網格是軟件系統,當數字元素在系統和站點間移動時,該系統自動管理存儲屬性。由于將來的硬件和軟件系統不會與用于創建數字元素的系統保持相同,因此我們需要利用保存環境內的技術改變來保存記錄。這需要我們注意以下兩點:一是創建不依賴于基礎結構的軟件保存環境:二是在檔案集合里管理、控制每個記錄。
2 數據網格
數據網格是種為管理分散式記錄(和記錄元數據)而提供用于一般功能的系統操作軟件構架的軟件系統。數據網格被用來支持所有類型的數據管理環境,從保存系統到數字圖書館、共享收藏以及實時觀測數據。數據網格的性能表現在:自動保存程序,降低復制數字元素造成的數據丟失的風險,使完整性元數據與記錄永久結合,支持檢索和訪問。同時,數據網格可通過許多訪問機制提供訪問,管理存儲在任何類型存儲系統中的數字實體。這種能同時與多類型的存儲系統和訪問系統互相作用的功能,成為數據網格技術更新的核心力量。
數據網格管理軟件和硬件系統的變化,使新技術向保存環境的合并變得簡單。這使得可信管理員可以利用技術進步,沒有風險地保證記錄的真實性。
數據網格的軟件構成主要包括六個層次。數字元素所在的存儲系統構成第一層。數據網格提出了標準技術(第三層),實現與存儲系統的相互作用,它可以管理已在邏輯文件名稱空間注冊的一套標準的操作。典型的操作包括:讀、寫存儲系統中數據元素的能力。對上千的數字元素進行操作時,使用批操作注冊、移動。比按元素逐個運行指令要快得多。批操作支持整個目錄層級的注冊和移動,批操作還提供可擴展功能,可使存儲的數字資料增加到千萬或上億的數字元素,同時又可具有良好的互動反饋功能。第四層管理作為一致性控制,控制部分批操作。
要實施存儲系統訪問機制,首先要給每個新類型的存儲系統編寫一個新的存儲系統驅動程序,如第二層所示。現行的數據網格技術,如圣地亞哥超級計算機中心存儲資源中介,能夠把數據元素存儲在Unix文件系統(Linux,AIX,Sloaris,MacOSX)、Windows文件系統、磁盤或基于磁帶的存儲系統、對象發送緩沖區中等。如果新的存儲技術可被利用,新的存儲系統訪問機制將知道如何與存儲系統交互,并知道如何繪制由數據網格支持的標準操作集合及存儲系統所提供的操作。
數據網格將邏輯屬性存儲在一個數據庫中,為使數據網格能夠利用新數據庫技術,一種標準數據庫機制(如第二層所示)被采用,該機制被用來確定所需的操作集合,并用來管理數據庫中的元數據。這個機制使利用多種數據庫存儲邏輯屬性成為可能。不論是Oracle、Sybase、Informix、PostgreSQL,還是mySQL,數據網格均描繪了這些特殊數據庫存儲機制的標準操作。標準操作可以保證每個元數據集合的完整性,并且能夠保存元數據與相關記錄的鏈接。使用標準操作集合的技術成為MCAT,該技術支持模式擴展,支持標準查詢語言的自動產生,這項功能被用于對數據庫進行特殊查詢,該技術還支持從XML文件中輸入輸出元數據、批量上傳元數據及對元數據進行存取控制等。
數據網格使用標準屬性名管理存儲屬性,這些屬性可跨多類型的存儲系統。這意味著數字元素所有者的記錄元數據也是跨系統的。這與數據是以二進制形式存儲在數據庫中還是以文件形式存儲在數據文件系統中無關。同時這也意味著對邏輯屬性進行查詢,將返回來自不同存儲系統的相同結果。
第四層是數據網格的核心,在該層中一致性與約束機制被用來保證存儲的實現,記錄和保存元數據可以被保存并鏈接到相關的數據。該層還支持檔案描述系統,這個系統包括與多種記錄集合相關的元數據。數據網格擁有自身管理的數字元素,這使得數據網格可以在每次執行保存操作之后對邏輯屬性進行更新。在典型的存儲系統中,所有者權限由賬戶標識或Unix用戶ID來確定。只有Unix用戶ID的所有者才能對存儲系統執行存取數據操作。
擁有賬戶標識的數據網格管理者可以存儲數據,在這個賬戶下。數據網格能夠在遠端存儲系統中鑒別存取數字元素。這意味著所有對數字元素的存取必須由數據網格軟件來完成。數據網格可以跟蹤所有操作,保存所有與存取有關的審計過程,當數字元素被轉移的時候,數據網格可以自動更新并存儲元數據。
數據網格支持復雜存儲概念。公眾只能對數據進行讀和選擇操作,一個可信的管理人擁有存取特權,可以執行存儲操作。對存取權限的限制保證了數字元素的隔離性,對邏輯屬性集合也可進行該類限制。例如,可以對公眾賦予讀數字元素和記錄元數據的權限,但公眾是不能審核跟蹤信息。
這里隱含的是數據網格必須為每個記錄的數字元素提供存取控制。既然數據網格為用戶管理邏輯名空間、數字元素和邏輯屬性,數據網格就能夠在一定時期內執行永久存取控制。數據網格能夠對文檔集合進行有效描述,該描述與存儲技術無關。文檔集合通過使用邏輯文件名空間,實現對眾多記錄的邏輯組織。
四個低層軟件層管理數字元素,兩個上層軟件層對存儲環境訪問進行管理。隨著時間的發展,新的存儲機制日漸可用,該機制可以通過一個標準的操作集合與數據網格交互,這個標準操作集合包括管理人員和用戶可能希望或已付諸實施的所有活動。不論活動的選擇如何,數據網格都能夠按照獲取時的狀態精確、可靠地保存記錄及其元數據。
數據網格環境的第五層值得介紹。數據網格需要核心數據庫邏輯屬性的認真管理(這被稱為數據網格注冊),這是優點也是缺點。數據網格使用數據網格注冊“聯合”克服這些弱點。一個聯合使復制跨多數據網格注冊的邏輯屬性成為可能。實際中,每一個數據網格與其注冊形成一個獨立的數據管理環境。在一致性機制的規范下,數據網格聯合被控制,以實現共享數據網格之間的邏輯名空間,這些一致性機制被用于屬性的更新。三個獨立的數據網格聯合:第一個數據網格專用于管理員控制的保存環境,第二個數據網格專用于公共訪問,第三個數據網格專用于不被公共訪問的灰色文檔。管理員有權選擇哪些記錄可以被復制到公共數據網格,建立多重公共數據倉庫是可能的,在該倉庫中被選擇的記錄及相關的元數據將被重新處理,之后存放到其他數據網格中,這個環境可以用于支持多個相似用戶的公共訪問,以避免產生瓶頸。
當被公眾限制訪問時,可以操作安全的數據網格,重新產生邏輯屬性和數字元素。在這個數據網格中,只有可信管理者才擁有訪問權利,只有管理者的姓名才可以被識別,并且存儲系統不能與其他數據網格共享。安全數據網格提供了有效且可靠的保證,將數字元素丟失風險最小化。在安全數據網格中,記錄的原始可信副本可與記錄元數據一起存儲。對跨聯合數據網格檔案集合真實性進行確認,隨著時間的發展,這些記錄可被看作技術的進展。
3 訪問數據網格記錄的過程
管理者如果對數字記錄進行存儲,以下方法可以將數字記錄輸入到數據網格中:一是如果管理員在分段區域的存儲系統中擁有數據網格技術,該管理員可以發出數據網格命令,將來自原始記錄保存系統的記錄登錄到數據網格注冊表中。二是管理員能在自己的存儲系統中接收來自創建者傳輸的記錄。他們可能保留原始記錄的名稱和組織結構。對將要歸檔的記錄和子集,管理員要進行評價和確定,此時將會使用標準的代碼格式。注冊程序可采用前面的方法,管理員可將資料登記到數據網格注冊表中。三是如果管理員處理千條以上記錄,這會對上載時間提出挑戰。在這種情況下。可發出一條單獨命令,將創建者系統或管理員存儲系統的完整目錄裝入數據網格中。
無論選擇哪種方法,在數據網格中傳輸記錄和原數據之后,都要進行核對。在記錄被傳到網絡之前,每個記錄和相關數據的核對總數都要被計算,然后進行傳輸,對記錄核查數目再次核實之后被數據網格接收。如果通信無誤,記錄和核對數目被登記到數據網格注冊表中。記錄存儲屬性中包括核對數目。核對總數可以在之后的任意時間加以確證,以檢測介質記錄是否被損壞或軟件系統是否出現故障。
4 保存環境操作
如果方案決定運行一個獨立的數據網格,這時要注意對數據網格系統進行充分管理。一個數據網格需要管理支持的附加層次軟件。數據網格集網絡、存儲系統、數據庫于一體。成為一個統一的數據管理系統。當然。對這些組成元素都要加以管理。對于小型的檔案集合,一個完整的數據網格可以安裝在單獨的膝上電腦中,對它的管理可以由一個人單獨完成。對于管理數百萬紀錄的大型系統,以下的管理支持功能是必需的:
存儲系統管理員。SDSC使用兩名全職員工來管理磁盤、磁帶存儲系統。這些系統存儲了2000萬億字節的數據。相當于4000萬個文件。管理員的任務是安裝新版本的管理軟件,管理存儲系統,解決存儲故障等。
數據庫管理員。SDSC使用一名全職員工管理20個Oracle數據庫實例。管理員任務包括對數據庫進行備份。安裝新版本的軟件。跟蹤數據庫的運行狀況。
數據網格管理員。DSC使用一名全職員工管理20個數據網格。管理員的任務包括安裝SRB服務器,為存儲、用戶、文件和屬性保留邏輯名空間。增加新的資源和新的用戶,并處理問題、解決故障。
網絡管理員。SDSC使用兩名全職員工管理外網及內網的網絡連接。任務包括管理網絡域名服務器。管理網絡路由器,維護防火墻。
安全管理員。SDSC使用一名全職員工跟蹤與安全有關的事件。維護相關系統,監測系統的使用。
當以上所列舉的任務減少時,其中的大部分將組成技術集合以滿足當前存儲環境的需要。因此,一個現存組織(如城市和銀行)的歸檔程序應已具備這些功能的大部分,并且需要一個專門人員管理數據網格。對于小的程序,數據網格管理員也是數據庫管理員。因為兩者需要的專業知識很多都是相似的。
存儲資源經濟人數據網格是一項成熟的技術,這項技術已經發展了8年多。這項軟件代表了75人多年的開發與應用支持。目前發行的版本。如SRB3.4.0版本,被用于大學和非盈利機構的學術研究。商業版本已經被Nirvana存儲推向市場。
5 結論
數據網格提供類數據管理結構,它可以被用來實現紀錄保存環境,也被用來管理分布數據管理系統。數據網格在管理跨站點記錄的再組織方面表現優秀,最根本的作用是降低了數據丟失的風險。數據網格聯合提供了一項基本功能,這個功能是保存可靠副本需要的高度安全環境必備的。今天。數據網格被用來管理百萬億數據和數千萬的文件。數據網格是促使先進技術相結合,使保存環境能夠充分使用,具有較高性價比的技術。