程妍妍 朱 強/南京政治學院上海校區軍事信息管理系
近年來,各國政府都在大力推行云計算戰略。2011年,英國政府制定《政府云戰略》(Government Cloud Strategy),規定所有政府部門在采購新信息技術產品或是對原有系統更新換代時,都應優先評估和采用云計算服務,機構也可以選擇傳統的硬件采購模式,但是必須能夠證明這種模式的投資回報率優于云服務。該策略的推出明顯加速了英國政府和公共部門向云過渡的步伐,據數據分析統計[1],到2018年,英國政府部門比企業在云計算方面的投入每年將高出35%左右。在該戰略的影響和推動下,國會檔案館成為云優先政策的首批受益者,并且成為英國國會第一個應用云來存儲和管理電子檔案的部門。該館建立的云數字檔案館在基礎架構、真實性維護、安全等方面都積累了寶貴的實踐經驗,可以為我國文件和檔案機構嘗試引進云服務進行檔案存儲和利用、提高檔案保管質量、降低數字檔案館運營成本等方面提供有益思路和借鑒。
英國國會檔案館負責保管英國國會的歷史文件并提供利用,其館藏范圍包括英國國會形成的文件和一些國際歷史文獻,館藏檔案來源復雜、類型多樣,包括從英國國會電子文檔和文件管理系統(SPIRE)中接收的數字文件、英國國會新聞發布活動中形成的數字檔案和對部分傳統紙質文檔掃描形成的數字掃描件。檔案館同時也負責國會的Web官方網站(parliament.uk)歸檔,以及對第三方文件形成渠道形成的文件歸檔,如對社交載體上的文件歸檔。2010年,英國國會檔案館開始啟動數字檔案館項目,該數字檔案館目前已正式運行,采用云計算服務進行檔案存儲和管理,截至2015年1月,云數字檔案館已經采集了超過14TB的文件,在未來4年至少要重點采集80TB的數字檔案,其預測采集和管理的音視頻數字檔案數量將迅速達到PB級。數字檔案館通過英國政府推行的G-Cloud云服務框架采購云服務,G-Cloud框架中提供的云服務形式多樣,包括軟件服務、平臺服務、基礎設施服務和專業化的數字歸檔服務等,以滿足政府部門云服務的不同需求。
英國國會云數字檔案館基礎架構主要包括三個部分:核心區、利用區和涉密存儲區(見圖1)。(1)核心區:數字檔案館核心架構是位于國會內部網絡的數字檔案館主系統,使用Preservica公司提供的商業軟件Preservica Enterprise Edition,其前身是Safety Deposit Box。數字檔案館主系統從各種內部系統(文件、文檔管理系統等)和數據來源中采集數字檔案,采集檔案的同時提取其著錄元數據,元數據錄入數字檔案館主目錄管理系統,和傳統物理館藏的著錄條目一同存儲和管理。
在核心區,數字檔案館的公開內容存儲在云中,所有內容采用鏡像備份的方式保存在兩個不同的云服務商處(云一級存儲和云二級存儲)。兩個云存儲服務在EMC Atmos、Amazon S3 Web Service不同的技術平臺上運行。(2)利用區:利用區主要提供兩個鏡像,一是元數據鏡像,核心區中主目錄中的著錄元數據被鏡像復制到公共的、基于Web目錄管理前端的Portcullis目錄系統,供Web檢索和查詢使用;二是數字檔案館系統鏡像,核心區數字檔案館主系統中的公開館藏被鏡像復制到利用區的數字檔案館系統中,公眾通過Portcullis目錄系統檢索發現館藏檔案,然后數字檔案館系統將其定位至登錄頁面,告知用戶內容的具體訪問方式。一般情況下,登錄頁面可以直接訪問瀏覽或下載數字檔案,當檔案復制件不提供在線利用或必須收費利用的情況下,用戶會被導向至其他訪問系統中。(3)涉密存儲區:數字檔案館非公開、涉密內容存放于內部磁盤存儲上,在兩個數據中心里提供鏡像,并且提供傳統的備份服務。從涉密存儲區可以看出,為了安全,數字檔案館將公開內容存儲在云中,而涉密內容則存儲在內部的存儲平臺上,與云隔離。在兼顧涉密信息安全性的同時,云存儲服務支持國會檔案館提供靈活、可擴展和節約成本的長久保存存儲能力。

圖1 英國國會云數字檔案館基礎架構
在建立云數字檔案館的過程中,英國國會檔案館清楚地證實了數字檔案信息的云長久保存不僅僅是一個技術問題,而是一個涉及到法律法規、真實性、安全性、合同協議等各方面的復雜工程。
數字檔案館建設使用云服務,特別是一些跨國公司云服務時,服務器可能位于境外,違反本國相關法律法規要求:(1)政府文件特別是核心文件存放在境外,會違反本地文件和檔案管理法規對涉密文件管理要求;(2)文件實際存放地和文件形成地區檔案管理的法律法規效力并不等同,意味著存放在文件形成區域以外的文件無法受到和本國相同級別的法律保護;(3)文件存放在境外,很可能會受到存儲地區法律法規的控制和約束。例如,美國的《愛國法》規定,美國政府有權對存儲在美國境內的任何數據進行審查,即使信息所有權不屬于美國,這就意味著如果政府部門使用的云服務商,其基礎設施位于美國,那么就有可能在對云服務商進行司法調查等特殊情況下,政府電子文件有可能在不被征詢甚至通知下,被美國法律要求強制公開利用。為保證和法律法規保持一致,英國國會云數字檔案館建設前期,就對相關法律法規進行調研,特別是英國信息自由法和數據保護法,明確相關法律需求,并以合同條款的形式明確寫入云服務合同,強制遵照執行,即按照英國法律要求,確保云服務存儲的所有數據都必須保存在歐盟經濟區內,滿足歐洲隱私法,不受其他管轄區法律,如不受美國《愛國法》的影響。
檔案館采用云存儲和本地系統存儲,都需要面臨同樣的安全問題,例如非法侵入、惡意篡改、非法利用等。目前,云服務存在特殊的安全問題:第一,檔案館系統可能會間接受到安全風險攻擊的影響,例如,云服務器遭受拒絕服務攻擊,使用同一個云服務器的多個客戶都會受到影響;第二,數據隔離的風險,即由于使用同一個云服務的可能有多個租戶,其他租戶可能具備訪問檔案館數據的能力。
針對這些安全風險,國會數字檔案館采用了三種方法解決。第一,只采用云存儲公開檔案,而涉密檔案存儲在單獨的內部系統中。第二,通過合同明確定義安全需求,例如,要求對安全威脅進行監督并及時報告任務,對云服務商員工實行安全審查、設置訪問權限、進行監督、下發安全違例通知、依法公開云數據接收司法調查等,避免出現安全職責不清、出事互相推諉的現象。第三,在需求分析階段對云服務商進行審查,引入通過英國政府信息安全標準認證的云服務商。事實上,通過G-Cloud框架采購的云服務都已經通過英國政府安全認證,達到一定的安全等級標準。如有些云服務商被賦予存儲低安全等級,而有些云服務商被賦予存儲更為敏感涉密等級信息的資質,這樣可以給G-Cloud用戶更多的選擇,并且簡化了國會數字檔案館的采購過程。國會數字檔案館在未來,很有可能會選擇那些具備存儲更高等級信息資質的云服務商,實現在云中存儲涉密數據。
長久維護數字檔案的完整性是數字檔案館的基本任務之一。實現數據完整性意味著數據要在長久保存過程中不被篡改,并且具備在遭受災難、云服務失效和變更的情況下仍然保持完整性的能力。對大量數據完整性的長期管理一直是云存儲難題之一,LOCKSS公司創始人David Rosenthal曾經指出云端數字信息完整性的長久保存問題“在某種程度上是無解的,你永遠不知道問題是否真正解決”[2],并且他以一個最簡單的案例說明了長久保存的難度:一個包含一個Petabyte數據的黑盒,要在100年后仍然保持數據的完整性,并能夠提供用戶檢索,實現這個目標所需要的云服務能力遠遠超過Amazon S3云服務現有的數據保管能力,而Amazon S3是目前使用最為廣泛的云存儲平臺。根據Rosenthal計算得出的結論是,在100年的時間里,這種量級的數據一定會有一定程度的損失。正如他所說的:“我們正在丟失數據。數據丟失的程度取決于我們對數據存儲的投入。我們投入的越多,數據越安全。但很不幸的是,這種投入也存在邊際遞減效應。”[3]所謂邊際遞減效應指的是,即使我們對數據的長久保存加大投入,不斷提升數據的完整性,但是投入到了一定程度,數據的完整性就不會再隨著投入而繼續提升,因此要確保數據在較長時間內保持百分之百的完整,幾乎是不可能實現的任務。
進一步說,云存儲系統本身的耐久性也難以確定。盡管云存儲服務商會對系統提供耐久性等級分類,例如Amazon S3聲稱提供99.999999999%的持久性,即每存儲的10000個對象中每一千萬年僅丟失一個對象,但是這樣的聲明基本沒有任何的科學依據,并且在合同條款中云服務商一般也不會承諾這樣的耐久性,所以這種聲明的真實性是具爭議的。另外,云中也存在一些非技術性因素影響數據完整性,例如,當云服務商停止運營,或是發生合同爭端造成合同終止的時候,都有可能發生數據丟失的風險。
當然,這些影響數據長期完整性的問題也不僅僅是云特有的,數據以任何方式長期存儲,都會碰到類似問題。任何需要長久保存的檔案都會遭受丟失或損毀,無論是在紙質檔案時代,還是在云計算時代。檔案工作者的角色定位之一就是為減少檔案信息丟失、維護檔案信息長久完整性的檔案保管員。
在維護數字檔案長久保存完整性方面,英國國會數字檔案館采取了一些實用性的方法降低風險。第一,同時使用兩種云服務:數字檔案館采購了兩個云存儲服務商提供的產品,館藏內容同時復制存儲在兩家云服務中,每一個云服務商保管所有內容的多個備份,且至少在兩個處于不同地理位置的數據中心進行備份,還要使用糾刪碼技術對數據提供額外保護。兩個云服務商使用完全不同的技術,可以避免使用某一種技術帶來的風險和威脅。考慮到許多云服務商的服務是轉包的,多個競爭的服務商經常使用同一個數據中心,因此選擇云服務商時仔細考慮,確保兩個服務商在技術、地理和組織上都不相同。使用兩個云服務商提高了國會數據存儲的持久性,并且有效防范了被一家云服務商孤立而導致數據丟失的風險。第二,對館藏檔案定期進行完整性檢查:使用云存儲對內部館藏軟件提出了如何執行存儲內容完整性檢查的問題,盡管Preservica提供完整性檢查工具,但考慮到技術、成本和性能的因素,國會數字檔案館決定不使用該工具對云存儲進行檢查。其一,每一個云服務商會存儲每一個對象的多個拷貝,這些拷貝對終端用戶是隱藏的,因此無法采用Preservica檢查云存儲上每一份拷貝的完整性,只有通過云服務商對整個數據集提供的校驗值來檢查完整性;其二,為了執行完整性檢查,Preservica自帶工具必須從存儲中檢索出每一份文件進行檢查,而云服務商對每一次檢索和下載都會進行收費,因此國會數字檔案館需要為每一次完整性檢查下載的文件進行付費,這其中的成本相當高昂。另外,定期下載檔案館的全部內容也是不現實的,檔案館的數據量已經超過上百個TB級,而通過互聯網連接,也是相當花費時間的。為了進行完整性檢查,數字檔案館選擇在采集時使用Preservica進行完整性檢查,以及當數據從存儲中檢索時進行檢查,而不是當數據采集后存儲在云端進行檢查。云服務商對其內部拷貝執行定期完整性檢查,經過實踐,這些方法具有較強的實用性。另外,采用兩個獨立的云服務商存儲拷貝、使用不同的平臺,降低了影響同一個對象無法恢復的幾率。
對于內部涉密存儲對象,數字檔案館使用Preservica自帶的完整性檢查工具,為了避免網絡過載,每次檢查1000個文件,每一個文件每30天檢查一次,通過系統可以輕松配置完成完整性檢查任務。
在數據量以無法預知的速度不斷增加的情況下,云服務提供的靈活性非常吸引人。云服務的初期配置簡單迅速,可以彈性擴展滿足實際需求,這也是促使國會數字檔案館采用云服務存儲公開內容的主要驅動力之一。由于大部分機構館藏量不斷增長,這種根據需求彈性擴展的功能對于長久保存來說非常重要。
在云的背景中,可移動主要指數據從一個云服務商向另外一個云服務商移動。盡管每個云服務商都提供數據的導入和導出功能,但應當強調的是,由于數據在云服務商之間移動非常費時和困難,合同中應清楚地明確在這方面云服務商的職責條款。采用現有帶寬,國會數字檔案館很難通過互聯網進行移動和傳輸,因此,使用物理存儲載體將是唯一的選擇。但在現有技術條件下,移動雙方的完整性校驗過程非常費時,要消耗數周甚至是數月的時間。云的主要優勢之一就是靈活性,即在云服務商之間輕松移動,確保滿足機構需求。但是,除非數據移動正好處于服務變更約定的時間,否則機構被云服務商鎖定的風險機率就會增大。短期來說,國會數字檔案館通過使用兩個云服務商來解決這個難題,故意在合同條款中錯開時間,確保數據從一個服務商向另外服務商移動有充足的時間。長期來說,最好是數據移動技術能夠發展,無論是在線傳輸還是離線傳輸技術,都能夠跟上數據量的發展速度,或者是出現競爭力的市場推動云服務商提供更好的數據移動解決方案。
云服務商通常按照資源使用收費,客戶一般根據存儲數據量按月付費,以及數據量的上傳和下載流量進行付費。這和傳統的基礎設施成本模型非常不同,傳統基礎設施成本主要包括先期的資本投資以及每年的運行維護費用。云成本模型明顯的優勢是不需要大量的初始投資,費用和使用率直接相關,避免對未使用的資源付費。但從載體和長期成本來說,很難明確云服務的費用問題,因為在云環境中,機構很難準確預測未來數據存儲量和采集率等。由于國會檔案館大部分采集的檔案來自數字化項目,對傳統檔案的數字化部分產生的數據量是可以估計的;作為機構檔案館,對未來接收的檔案量也是可以預測的。但是,向云存儲環境移動仍然需要采用新的財政計劃方法和成本估算模型。
國會數字檔案館在評估云服務成本時采取了一種成本建模方法,得出在未來八年,云服務將比傳統的數字檔案館建設成本顯著降低的結論。但是,這種建模方法不可避免地包括了一些內部和外部的假設性因素,建模的結果會根據這些因素而變化,因此結論還有待實踐驗證。部分研究人員對此結論持有異議,提出從長期來看,云服務成本可能會對檔案數據傳統存儲更高,但是這些研究結論都需要進一步驗證和分析,并且需要結合數字檔案長久保存的經濟來源進行分析。
云存儲和國會檔案館現有基礎設施的集成遇到了很多實踐問題,例如網絡使用代理服務器,這就需要修改云存儲適配器去適應應用代理。一些云服務商管理IP地址段的方法不符合現有國會網絡政策,需要對國會網絡基礎設施進行根本修改。另外要對體系架構修改,確保對大數據量的臨時采集,而不會影響國會網絡的其他系統,這就需要使用專門的服務器和互聯網連接。盡管和現有組織機構IT基礎設施集成的技術問題不容忽視,但從實踐來看都是可控的。國會數字檔案館系統Preservica采用“存儲適配器”概念,即不同存儲環境的接口解決基礎設施集成問題,在Amazon存儲適配器基礎上,國會檔案館又開發了EMC Atmos適配器。Preservica可以輕松配置,決定各類內容存儲的適配器類型,并且提供在適配器間移動內容的方法。
國會云數字檔案館建設經驗證明了在數字館藏環境下運用云是可行的,云的出現可以降低檔案館數字長久保存工作的門檻,且基礎設施強健、可擴展。和任何方法一樣,檔案館必須充分理解實施這種方法伴隨的風險和應對措施,云的風險和其他存儲技術風險相類似,其他技術的風險規劃戰略也可以受益于云計算,從長期來說,經濟成本和數據的移動性問題會一直存在,但都不是拒絕使用云的理由。從國會數字檔案館的建設模式來看,國會云數字檔案館并不是完整意義上的全云化運行,只是將檔案存儲功能的一部分交給了云,而那種全云化運行,專門為云打造的數字檔案館系統,例如新一代的PreservicaCloud系統和DuraCloud系統面臨的各種問題會更多、更富挑戰性。國會數字檔案館使用云作為數字館藏基礎設施的特殊部分,在很多方面和傳統系統模式并無不同。但是,使用云卻將很多一直就存在的風險和問題帶到了前端,并且擴大化。可能使用云產生最根本的變化就是將檔案館的一部分責任交給了第三方,這就需要在合同中明確定義信任和透明度方面的問題,避免在檔案館期望和服務商責任之間產生疑問。因此,明確、實踐和適用的合同及服務等級協議是非常重要的。
另外,文化遺產機構面臨長期保管數字資源的任務,但現有很多云服務實施目標針對的都是短期效益,這兩者之間是否會產生沖突?當然,在數字領域這種問題一直存在,不僅數字內容本身存在短暫性,就連管理數字內容的基礎設施都是短暫的,因此這種挑戰是長期存在的,而云的出現只是再一次強調了這個問題。數字長久保存需要不斷的、積極的、主動的管理,而無論其是否處于云環境或是其他環境中。
注釋與參考文獻:
[1]Adrian Brown, Christopher Fryer.Parliamentary Archives, United Kingdom achieving Sustainable Digital Preservation In The Cloud[EB/OL].2016-5-22.http://www.dlib.org/dlib/march15/oliver/03oliver.html.
[2][3]Rosenthal,EverCloud workshop[EB/OL].2016-5-22.http://blog.dshr.org/2014/04/evercloudworkshop.