數字化vs 紙質
英國廣播公司(BBC)1986年為了紀念原版《末日審判書》出版900周年,花費了250萬英鎊,開展了“末日審判項目(Domesday Project)”——一個現代版的《末日審判書》。900年前的《末日審判書》是1086年威廉一世下令對英國土地使用情況進行大規模調查的結果匯編。900年后,為了“末日審判項目”,超過100萬英國人貢獻了文本、照片和視頻資料。考慮到這些資料應當永久保存下去,于是它們被存儲在兩張定制的光盤上,并使用BBC的特殊計算機閱讀顯示,以便后人能了解20世紀人們的生活情況。
但僅僅15年后,當有人試圖使用同樣的計算機來閱讀光盤上的資料時,卻沒有成功。與此同時,那本抄寫在羊皮紙上的原版《末日審判書》卻還依然保存在英國檔案館里,900多年后的今天,凡是懂得拉丁文的人都可以翻閱。
同樣,那些十幾年前把數據存儲在5.25英寸軟盤上或使用WordStar格式文本的人現在都面臨著與BBC“末日審判項目”相似的問題,除非我們采取有效的保護措施,否則,大批已經生成的數字信息極有可能在我們有生之年就無法讀出和使用了。
這種情況不能完全歸咎于計算機行業越來越快的更新換代,實際上,數字存儲技術天生就存在缺陷。2004年11月,美國國家檔案記錄局電子檔案處的處長曾公開承認,將電子資料保存10年以上(更不用說永遠保存),“仍然是全球性的難題。各國政府、大公司以至個人,都還解決不了。”
數據劫難
美國加州圣何塞的數據存儲顧問Tom Coughlin說,如果把硬盤從電腦上拆下來后放在辦公室的架子上,它最終可能將無法使用。他解釋說,因為每天的溫度有變化,熱能跑到存儲介質里面去,會慢慢引起存儲信息的磁性顆粒出現自發逆轉,直到原始數據丟失。不過,一般前10年不會出現數據丟失的問題,但10年后,誰也說不準數據何時就會變得無法使用。
Tom Coughlin說,磁帶也面臨同樣的問題,但一般幾十年后才會因熱擦除而丟失數據,那是由于磁帶的比特密度低于硬盤。但是,磁帶也有自己的問題:脫層。當磁性介質與磁帶脫離,或者受到霉菌侵蝕時,就會出現脫層。有時候,磁帶介質不得不重新經過烘焙工藝,以便能最后一次讀取數據,并將其內容遷移到另外的介質上。
USB閃存盤也會受到熱擦除的影響,并且還面臨著更大的風險,因為它們用的是最廉價的控制器。Tom Coughlin說:“我不會將USB閃存盤用于歸檔。”如果使用USB閃存盤歸檔,那就要祈求USB端口在幾十年后仍能使用,而誰也不知道筆記本電腦在20年后將會是啥樣,更不用說50年后了。
至于DVD和CD,美國國會圖書館的項目經理Bill LeFurgy說,他所在的單位曾用烤箱對DVD和CD做了加速老化試驗,結果發現,其盤片之間存在著很大的差異,就連同一品牌的盤片之間也有很大差異。他說:“有些壽命可以達到10年,而另外一些的壽命卻短得多。5年后,我就要擔心可靠性了。”
其他存儲專業人士也抱怨,DVD的傳輸速度太慢,不適合于歸檔。DVD的傳輸速度通常不到磁帶的1/4;另外,每存儲數GB內容,就要更換DVD盤片。
與其他存儲介質一樣,CD和DVD同樣存在其閱讀器在幾十年后是否還在的問題。
在線存儲的生命力
那么在線存儲如何呢?在線存儲時,當硬件設備啟動后,可立即訪問。其中的數據不斷受到檢測,以確保其完整性,并易于復制。但美國斯坦福大學圖書館負責“大量拷貝確保數據安全(LOCKSS)”項目的首席科學家David S.H.Rosenthal卻抱怨,在線存儲也可能很快遭到損壞,眼下還看不到具有歸檔所必需的長期可靠性。
Rosenthal調查了讓1PB的在線存儲數據在100年后仍可使用的可能性達到50%有何要求。他在分析了眾多存儲服務商發布的有關磁盤維護的數據后發現,要達到1PB數據在100年后仍可使用的目標,在線存儲的可靠性必須提高10億倍。
他指出,就算我們真的有望把在線存儲的可靠性提高10億倍,也根本沒有現實的方法來測試這樣一種系統,總不能給它接通電源,然后等上100年吧?
由于數字化數據的存活率如此之低,所生成的數字格式的信息又如此之多,“50年后我們可能會面臨數字黑暗時代,將來的學者們將無法了解我們現在的文化。”美國電影藝術與科學學院(奧斯卡頒獎組織)的科學和技術委員會理事Andy Maltz說。
數據保存標準
由于日漸意識到這個問題,眾多組織一直在致力于解決歸檔問題,著重研究如何減小格式過時帶來的風險。
防止格式過時通常需要編制元數據詞典。元數據是指有關文件的信息,與文件一同存儲。那樣一來,將來的用戶不會像科學家在1999年那樣陷入困境:他們無法解讀含有美國宇航局在1975年火星探測數據的磁帶。最終是科學家找到了一些打印資料,才得以分析出大約1/3的數據。
除了標準外,還有一個更棘手的管理問題。網絡存儲工業協會(SNIA)的發言人Donald Post,也是總部設在芝加哥的專門從事檔案管理的Imerge咨詢公司的合伙人,他說:“大多數組織都無法告訴你,某些電子內容要保留多久;只有5%到10%的組織在用足夠詳細的元數據對內容進行標記”,以便員工知道數據要保留多久。與此同時,在試圖保留的數據中有80%是重復數據,但它們并沒有花時間來丟棄這些重復數據。95%的組織認為,進行例行備份就是足夠有效的保護了。
Donald Post說,企業的IT經理們沒有迫切要求用商業解決方案來解決這個問題,因此,廠商們也就不急于提供相應的解決方案。不過,他預計,隨著廠商們認識到數字化歸檔產品的商業潛力,這種情況在今后3年內會有所改變。
為數據注入活力
當然,一些組織成功地應對了數字化歸檔這一挑戰。
美國國家檔案館負責電子檔案歸檔項目的系統工程主管Dyung Le指出:“大多數國家都有數據保存問題。”歸檔磁帶每10年就要重新拷貝,國家檔案館的每份檔案至少有3份拷貝,并且至少1份拷貝保存在異地。他估計,檔案館管理的數據量超過400TB。
由于誰也不知道幾百年后會使用什么樣的計算機應用程序,基于文本的材料通常轉換成ASCII的XML格式。各種元數據保存在文件中,包括可用做搜索輔助手段的描述性數據。Dyung Le說,XML文件用保存元數據實施策略(PREMIS)標準的擴展機制來存儲元數據,這項數字保存標準同樣基于XML和ASCII,由聯機計算機圖書館中心(Online Computer Library Center)制定。
Dyung Le說,目前沒有用于非文本數據的類似XML的過渡格式。因此,如果企業想歸檔資料,只能記下該資料采用的格式,并計劃最終把它遷移到將來的一種主導性的應用程序格式,但必須在仍有轉換原始格式的系統的時候這么做。換句話說,必須對將來會使用什么格式做出最準確的猜想,然后在還能轉換的時候轉換過去。
他解釋說,檔案管理員還要能夠核實保存的材料是有效拷貝。可以通過為每個文件創建散列鍵(Hash key)來做到這一點。散列鍵跟著文件移動。提供拷貝時,檔案管理員還必須核實文件特征是否有變化;倘若文件特征發生了變化,資料的意義會隨之變化。Dyung Le補充說,由于這個原因,有時候文本必須以原始格式來保存,因為大家認為格式對文本的含義來說必不可少。
其他美國聯邦政府機構、州檔案館和圖書館,有時甚至私人圖書館也面臨著數字化保存問題。Bill LeFurgy說,按照美國國會的指示,國會圖書館為它們啟動了國家數字信息基礎設施和保存計劃(NDIIPP)。NDIIPP的官員正與約170個利益相關者(包括行業組織和外國政府)合作,它們在DigitalPreservation.gov上發布了一整套工具和服務。
美國國會圖書館本身保存了約167TB的數字內容,包括關于全國大選的網站和關于“卡特里娜”颶風等重大事件的信息。Bill LeFurgy說,與美國國家檔案館一樣,國會圖書館也保留了多份拷貝,力求避免格式過時。
美國地質勘探局地球資源觀察和科學中心的檔案管理員John Faundeen說,由于要存儲平時的衛星勘測數據,地質勘探局每月要為其檔案增加約50TB的數據量,現在管理著約4.5PB(包括拷貝)的數據量。
該中心實行三份拷貝的存儲策略:第一份拷貝是在線拷貝,第二份是近線拷貝,第三份是離線拷貝。這符合信息生命周期管理的存儲策略,許多企業的IT部門都采用這種策略。地球資源觀察和科學中心每過三、五年就要設法將數據轉移到新的存儲介質上。John Faundeen解釋說,該中心還設法按日期跟蹤所用的所有介質,以免出現它使用的某種介質不再得到廠商支持的情況。每隔一年,該中心就會調查離線介質行業,了解市面上的新介質。
電影和圖書館
遭遇困境
數字化數據并非是永久性的這一顯然的事實,使電影業大為震驚。據美國電影藝術與科學學院的Maltz稱,好萊塢采用數字化技術之前,所依靠的是電影膠片,用這種介質歸檔的電影保留了一個世紀。該學院在2007年的一項調查發現,用膠片保存一部商業影片的原始版材料的長期成本為每年1059美元;若采用數字格式,成本要高出11倍,每年高達12514美元。
Maltz說,若使用數字化技術,你得每過三、五年就要更換數據格式和存儲介質,還要更換技術基礎設施,不然你的數據可能恢復不了。
該學院已啟動了幾個項目試圖解決這個問題。比如說,著力開發適用于電影業的圖像文件互換格式和元數據標準;還構建了一個實驗性的數字保存系統。Maltz如此評述好萊塢的數字化計劃:“我可以說,到最后它們比我們當初了解的要復雜得多。”
美國斯坦福大學圖書館的LOCKSS項目負責人Vicky Reich說,數字材料的非永久性對圖書館來說也是個問題。不但資料可能一眨眼工夫就會丟失,搗亂分子也會隨意涂改,而且不留下任何證據。她說:“紙質圖書館也經常會受到侵擾。”她介紹,圖書館面臨的挑戰包括有些人不贊同書籍或雜志文章中的某些觀點,于是撕掉了事。但如果是印刷出版物,通常在某個地區的多家圖書館藏有好幾份副本,所以有人想徹底清除某一部分材料,不太可能完全得逞。
LOCKSS項目在數字領域采用了同樣的分散方法。參與項目的各圖書館(目前有約200家,主要是大學圖書館)先配一臺電腦,專門用于該歸檔項目。這臺電腦必須連接互聯網,至少有2TB存儲空間,并安裝開源LOCKSS軟件。然后,每家圖書館從大約420家允許對其出版物進行歸檔的出版商那里選擇資料,圖書館獲準后也可以自行選擇別的來源。然后,這些電腦搜索來源、拷貝材料。圖書館電腦充當原始網站的代理系統,當原始網站無法提供點擊查閱服務時,它會提供該服務。
從同一來源選擇資料的LOCKSS電腦會對內容進行比較,必要時還能進行修復。Vicky Reich說,根本不用磁帶備份,因為這些電腦已經彼此給對方備份了。
不樂觀的未來
總而言之,那些負責監管數字化歸檔的人對于未來似乎都不甚樂觀。
Maltz說:“眼下沒有辦法解決核心技術問題,那就是我們的基礎設施沒有考慮到長期保存需求。”
美國地質勘探局的John Faundeen說:“關鍵是保持警惕。歸檔方面的工作必須堅持不懈。你不能滿足于以前的工作,而必須不斷往前看。”
美國國家檔案館的Dyung Le說:“這是個永無止境的過程,形勢只會變得越來越嚴峻。”數據格式的數量在不斷增加,國家檔案館保存的數據量隨時會變得不堪重負。他說,不過,“我們處理的數據會得到妥善保存,對此我很有信心。”
最后聽聽Tom Coughlin是怎么說的:“如果你想讓數據保存永久,絕不能讓它靜靜地待在那里。數據一定要活動起來。你必須維護數據,否則它可能終將丟失。”
制訂中的歸檔標準
網絡存儲工業協會(SNIA)主席兼EMC公司的高級技術專家Wayne Adams說,該協會已經制訂了下列三項標準來解決歸檔問題:
XAM(可擴展訪問方法):Wayne Adams說,這項標準把應用程序與數據分離開來,“以便你獨立管理數據,不用擔心以后應用程序的遷移。不然想使用15年以后的數據,就得把整個系統裝入到時間膠囊(time capsule)中。”據SNIA聲稱,XAM含有元數據定義,幫助歸檔數據實現應用程序的互操作性,并讓數據更容易搜索。SNIA的網站列出了13家組織提供的基于XAM的產品或服務。
SIRF(自含式信息保存格式):這項標準有可能讓將來的用戶不必使用原始應用程序,就可以查詢歸檔文件。SNIA的資料稱它是“定義了適合長期存儲數據信息的邏輯容器格式的一項規范。”
CDMI(云數據管理接口):據 Wayne Adams聲稱,這項標準定義了元數據及其他存儲參數,因而適用于歸檔。
CommVault與Dell聯合推出DL Appliance
CommVault公司日前宣布與戴爾聯合推出由CommVault Simpana 8軟件驅動的Dell PowerVault DL Backup to Disk Appliance,進一步加強了兩家公司穩固的OEM合作伙伴關系。作為Dell PowerVault產品系列的最新成員,該產品將數據管理與可擴展性、云服務支持、更高速的吞吐量、優化的重復數據刪除功能整合在一起,同時擁有更小巧的機型,從而獲得了更低的成本和更高的運營效率。新的DL Appliance具有獨特的優勢,非常適合于遠程辦公以及任何需要向(從)公共或私有存儲云環境進行重復數據刪除、備份、歸檔以及恢復數據的業務。它能夠在2U的空間內提供高達24TB的內部存儲容量,并可擴展至300TB以上,存儲擴展功能非常強大。DL Appliance還提供了基于數據塊的端到端重復數據刪除功能,在執行備份操作時能夠實現高達3TB/小時的重復數據刪除吞吐率。CommVault針對DL Appliance的嵌入式重復數據刪除功能進行了優化,從而可使所需存儲空間減少高達95%。
EMC創單節點NAS性能記錄
EMC公司日前發布新的NAS性能基準,展現了EMC Celerra存儲系統具有卓越的性能及擴展性。此次公布的SPEC sfs2008測試數據用于測量網絡文件系統的性能。SPEC sfs2008_nfs.v3的測試結果表明,作為業內首個采用64位Intel Xeon 5600先進處理器實現性能倍增的存儲系統,配置單個活動刀片的EMC Celerra VG8 NAS網關,比其他公司配置兩個活動NAS機頭的最新系統性能更高,能夠處理更大的工作負荷。EMC Celerra模塊化結構讓這一性能可以擴展到多達8個刀片,創造更高的性能與擴展性。
UIT SV1000 M系列
新品亮相
UIT公司日前正式推出了面向中小企業、安防監控、網絡存儲、視頻編輯等多種應用的存儲新品UIT SV1000 M系列,這是繼BX1200/1600、SV1200/1600系列產品后,UIT發布的第三代應用存儲產品。SV1000 M系列采用了高性能的Intel Nehalem架構硬件平臺,使系統穩定性顯著提升,并可根據應用需求實現性能優化,是一款支持豐富的數據存儲和管理功能的入門級IP SAN/NAS存儲系統。SV1000 M系列優化了iSCSI、NAS服務,大大增強了穩定性,保證大壓力環境下的業務連續性,同時,UIT自主研發的RAID技術,在性能調優和應用維護上相比傳統RAID卡更方便,又解決了傳統軟RAID普遍存在的穩定性問題,并且可明顯降低設備成本。由于不同的應用對存儲性能有不同的要求,SV1000 M系列產品均可針對不同的應用進行性能調優。另外,SV1000 M還可以嵌入視頻監控軟件,能夠通過流媒體協議從編碼器下載錄像,并具有編索引存儲功能和檢索取數據功能。
Infortrend SAS新品提升50%性能
Infortrend近日宣布,其EonStor DS系列新增6Gb/s SAS端到端存儲系統,它較之之前的3Gb/s SAS系統,可為音頻/視頻DAS(直接連接存儲)應用提供50%的性能提升。這一性能的增強為媒體公司,其中包括優化內容編輯和同步播放或不同HD(高清晰度)文件重放,都帶來顯著的業務優勢。由于其在保持流暢的數據流的同時,支持在監測網絡中添加更多的攝像頭,監控公司將切實受益于該系統的卓越性能。新系統可提供高達2500MB/s的讀取和1100MB/s的寫入性能,從而為復雜的編輯操作提供所需的支持。EonStor DS 6Gb/s SAS存儲系統的性能水平同樣還支持媒體公司同時播放或重放不同的HD內容。另外,新的EonStor DS機型增強的性能,使監控公司在保持平穩的數據傳輸的同時,可以添加更多的攝像頭到網絡中。