薛四新 朝樂門 田雷
摘要:云計算的出現改變了電子文件管理的技術架構和實現方法。本文在構建云端電子文件管理的技術框架基礎上,探討了云端電子文件管理需要解決的五項關鍵技術,即電子文件的對象建模技術、海量異構電子文件的分布式存取技術和電子文件及其元數據的溯源技術。在此基礎上,提出了云端電子文件管理系統架構的四項基本原則和實現方案。
關鍵詞:電子文件云計算關鍵技術
云計算的應用將導致支撐電子文件管理實現的技術框架發生本質上的轉變。目前,國內外學者在云計算對電子文件管理的影響和所帶來的新問題等方面進行了一定研究①,但缺少對云環境下電子文件管理關鍵技術的系統研究。本文重點探討整合應用這些技術的通用框架、關鍵技術、實現原則和建議方案,為云環境下電子文件管理系統的構建提供技術基礎和實施依據。
1 云端電子文件管理系統的技術框架
云環境下的電子文件管理系統不僅需要實現SaaS層次上的資源虛擬化,而且還應根據電子文件的特殊性,對其他云服務提供商提供的平臺層和設施層的云服務進行選擇、配置和優化使用。私有云的成功實踐和成熟推廣會進一步推動云環境下的電子文件管理的研究、應用與發展,并進一步帶動相關管理部門和人員認識水平的提升,最終將逐漸會被混合云或公共云替代。
基于云計算的技術框架和電子文件管理的系統建設和應用需求,采用分層方法設計云環境下電子文件管理系統的技術框架是實現電子文件管理的首要任務,圖1呈現了電子文件管理系統的技術框架
1.1固件/硬件層主要包含硬件服務器和交換機等物理基礎設施,為軟件內核層提供硬件的操作、管理和更新服務;軟件內核層負責管理固件/硬件層的物理硬件設備,通常由操作系統內核、虛擬機監控器、集群中間件等工具和技術來實現。
1.2非結構化數據的分布式存儲。電子文件通常是以非結構化或半結構化數據方式存在,云計算環境中非結構化大數據的存儲通常采用分布式文件管理技術如Google的GFS、Hadoop的HDFS等。非結構化大數據的存儲過程中,一般按照實現配置好的大小(默認為64MB)進行分塊,并對每個分塊進行唯一索引后存儲在不同的數據塊服務器上,所有數據塊服務器由主服務器統一管理,力求控制流和數據流的分離。在云環境下,電子文件特別是大數據對象的文件將被存放到分布式的非結構化文件系統中,由文件系統統一管理。
1.3結構化數據對象的分布式存儲。云環境下結構化數據的存儲技術有Google的Bigtable、Amazon的RDS、Hadoop的HBase等技術,與傳統關系數據庫不同的是,云環境下的結構化數據模型一般由一個行關鍵字、列關鍵字和時間戳進行索引,其數據訪問需要數據鎖服務。云環境下的結構化數據的分布式存儲一般采用主服務器和子表服務器進行分工管理,其中主服務器負責新子表的分配、子表服務器的監控和負載均衡等問題。在云環境下,電子文件的元數據一般存儲在分布式結構化表中,由分布式結構化數據管理系統統一管理。
1.4分布式數據處理。與傳統電子文件管理系統不同的是,云環境下的電子文件管理系統中將會采用以MapReduce為代表的分布式數據處理技術來處理電子文件,需要對目前的電子文件管理系統中普遍采用的數據處理算法和技術實現工具進行改進或重新設計。
1.5電子文件管理基礎服務。該層為電子文件管理業務層提供一些共性的基礎性服務和核心功能,包括電子文件封裝、電子憑證管理、完整性校驗、分布式存取、電子文件監控和電子文件的溯源。
1.6電子文件管理業務服務。電子文件管理業務服務主要包括信息捕獲、安全與監控、保管與處置、檢索與再現、系統管理、非電子文件管理,負責實現電子文件管理業務服務的虛擬化,形成電子文件管理的工具資源池。電子文件管理用戶可以通過系統提供的接口,包括人機交互界面(如Web界面)和程序編程接口(如Web服務、API等),以租用的方式享用電子文件管理基礎服務的各項功能。
除了上述組成部分之外,云環境下電子文件管理還需要系統管理、安全保障、容錯機制和服務質量等技術,它們貫穿于云環境下的電子文件管理系統的所有層次,需要統一設計和研發。
2 云端電子文件管理的關鍵技術
圖1所示的云環境下的電子文件管理的通用技術框架的應用需要如下關鍵技術的突破:
2.1電子文件的對象建模技術
電子文件的對象建模是電子文件管理系統的關鍵步驟之一。在不同的電子文件管理標準中,對電子文件的封裝要求有所不同。如何構建SIP ( Submission Information Package,提交信息包)、AIP ( Archival Information Package,存檔信息包)、DIP (Dissemination InformationPackage,發布信息包)的信息模型以及如何實現這些不同信息包之間的相互轉換是云端電子文件管理中需要解決的技術問題。此外,電子文件對象建模技術還需要考慮云計算環境本身的技術特殊性,如多副本管理、大文件分塊管理、分布式處理等特征。因此,電子文件對象的建模與封裝是云環境下的電子文件管理系統實現過程中需要解決的關鍵技術之一。
2.2海量異構電子文件的分布式存取技術
海量異構電子文件的分布式存取是云端電子文件管理系統與傳統電子文件管理系統的區別之一。以Google文件系統為例,主要技術特點是采用中心服務器模式,不緩存數據,在用戶態下實現和只提供專用接口。目前的電子文件管理中采用的數據處理技術不能直接應用于云環境下的分布式數據處理任務中。云環境下的電子文件管理需要進行大文件的分塊、MapReduce、多副本管理、結點動態加入、用戶態下實現等特殊操作。因此,面向海量異構電子文件的分布式存取技術是云端電子文件管理的重要課題之一。
2.3電子文件及其元數據的溯源技術
云計算技術本身的特殊性為電子文件及其元數據的溯源提供了良好的技術保障。云環境下電子文件回溯可分為兩類:結構化數據表的溯源和非結構化數據的溯源。以Bigtable為例,其數據模型由行、列、時間戳組成。與傳統數據庫不同的是,Bigtable中采用了關鍵字排序、列簇(ColumnFamily)存儲和時間戳,可以很容易在不同版本之間回溯。此外,云計算環境中的非結構化數據的存儲中采用了多副本技術,也較好地支持文件實體對象的溯源。但是,云計算中的這些技術并不能完全支持電子文件及其元數據的回溯操作,如證據保留和憑證生成等。因此,憑證性回溯技術是云端電子文件管理中需要突破的重要技術。
3 云端電子文件管理的實現方案
圖1所示的云環境下的電子文件管理通用技術框架和上述關鍵技術的實現需要以下基本原則和實現方法。
3.1實現原則
基于以上分析,可以歸納出,云環境下電子文件管理系統的構建需要遵從以下基本原則:
3.1.1底層技術的簡單性與上層應用的復雜性之間的平衡原則。簡單實用性是云計算服務模式的重要特征。其簡單實用性主要體現在兩個層面,一是在云計算的設計思想中,云計算的實現并不追求新技術的創造,而更加重視現有技術的重組;另一個是云計算的實現技術上,云計算一般采用簡單實用的實現技術,不主張實現技術的復雜化。以Amazon提出的SDB(SimpleDB)為例,這種技術不需要實現定義模式信息,其屬性的修改添加以追加形式實現,操作類型簡單(不支持像連接、排序等復雜操作)。然而,底層的簡單實用往往會增加上層應用的復雜度。因此,在云環境下的電子文件管理系統的設計和實現中,不僅要考慮底層技術的簡單實用原則,而且還注重避免上層應用的復雜性,力求在二者之間達到平衡。
3.1.2經濟性與穩定性之間的平衡。經濟性也是云技術的重要特征之一,云計算的經濟性體現云端和終端的經濟性。云端的經濟性體現在云端部署在成本相對較低的服務器硬件之上,不追求服務器集機群的實時更新換代。在計算能力和存儲能力相等的情況下,搭建一個云端服務器集群的成本要低于購買一臺超級計算機作為服務器的成本;終端的經濟性體現在云計算對終端的要求較低,用戶可以使用瘦終端就可以調用功能強大的云服務,不需要購買昂貴的軟硬件設備和進行繁瑣的軟硬件管理與維護工作②。因此,云環境下的電子文件管理系統的設計應遵循經濟性原則,可直接部署在配置較低的普通服務器硬件上,而且應支持多種類型的終端設備。但是,經濟性原則往往帶來穩定性問題,尤其是容錯處理問題。經濟性帶來的容錯處理是云計算的重要難題之一,涉及云計算中的Master服務器、Sever服務器、數據管理服務器等每個組成部分。因此,在經濟性和穩定性之間的平衡是云環境下電子文件管理的重要指導原則之一。
3.1.3靈活性與安全性的統一。靈活性(或彈性)作為云計算的重要特征,涉及節點動態管理、故障動態監測、動態故障恢復、多副本管理、動態租約管理和彈性服務組合。顯然,靈活性給電子文件管理系統的技術實現帶來了較大程度的方便性。但是,靈活性也給電子文件的一致性、可靠性和保密性提出了更復雜的管理要求。因此,保證靈活性與安全性之間的平衡是云環境下的電子文件管理系統的IT實現的重要指導原則之一。
3.1.4針對性和可持續性的統一。針對性強調的是電子文件管理系統與其他業務應用系統的區別性,主要強調電子文件管理系統遵循相關的功能要求標準的符合程度。當前國內外關于與電子文件管理系統的功能要求標準有ISO15489、DoD5015.02、Moreq2、ICA、《電子文件歸檔與管理規范GB/T18894-2002》、《電子文件管理系統通用功能要求》等。因此,云環境下的電子文件管理系統的實現中必須遵循這些原則和要求,具備較強的針對性或專業性。同時,針對性的實現也要支持和遵循可持續性。云環境下的電子文件管理系統的實現并不要求一步到位,應統一規劃,分步驟實現,重視部門協同和資源共享。因此,針對性和可持續性的統一是云環境下的電子文件管理系統的研發中必須遵循的原則之一。
3.2實現方法
云計算環境中的電子文件管理系統的實現技術方案有多種,可以分為兩大類,即商業解決方案和開源解決方案。考慮到電子文件管理需求的特殊性及未來應用的可擴展性,建議采用開源解決方案。目前,主流的開源方案有Hadoop、Eucalyptus、Nimbus和Sectorand Sphere。其中,Hadoop和Eucalyptus分別模仿了兩個主流的商業解決方案,即Google和Amazon的云技術。綜合考慮實現技術的成熟度、普及程度、內部技術的公開性和未來發展趨勢,建議在云環境下的電子文件管理中采用基于Hadoop的開源解決方案。
在云環境下的電子文件管理系統的開發中應采用基于Hadoop的編程模式或類似于Hadoop的編程模式。Hadoop是Apache開源組織提供的一種具有高可靠性、高可擴展性的分布式計算機框架,包括Hadoop Common、Avro、Vhukwa、HBase、HDFS、Hive、MapReduce、Pig和ZooKeeper等編程技術③。其中,Hadoop HDFS、MapReduce、HBase、ZooKeeper、Pig分別對應Google的GFS、MapReduce、Bigtable、Chubby和Sawzall。因此,在圖1所示的通用技術框架中,可以分別使用Hadoop HDFS、HBase、MapReduce和ZooKeeper技術實現非結構化數據的存儲、結構化數據的存儲、分布式處理和鎖服務。
4 結語
以云計算為中心的新型信息生態環境為電子文件管理提供了新的計算模式和技術實現方案。在這種生態環境下,云端電子文件管理系統的初期建設往往定位于SaaS層的私有云。隨著關鍵技術和典型應用的成熟與發展,電子文件管理將逐漸采用混合云或公共云技術,并將滲透至云計算的不同層次。為此,本文將云端電子文件管理系統的通用技術劃分為七個層次,探討所需的四項關鍵技術,并提出了研發電子文件管理系統的基本原則和實現方案。因此,本文研究對于云環境下的電子文件管理系統的研發活動具有重要的指導意義。在未來的工作中,我們將重點進行實證分析,并進一步完善本文研究成果。
本文是北京市科技計劃課題《基于異構系統的電子檔案憑證性保障核心技術開發與應用》(項目編號Z111100075011001)、國家自然科學基金項目“語義Web環境下的大規模協同知識處理模型研究”(項目編號71103020)和國家社科基金重大項目《云計算環境下的信息資源集成與服務研究》(項目編號:12&ZD220;)的成果之一。
參考文獻:
薛四新,黃萃.云計算環境下電子文件管理研究綜述[J].北京檔案,2011(09):25-27.
朝樂門,張勇,邢春曉.云端信息資源管理研究[J].情報資料工作,2010(4):44-49.
The Apache Software Foundation.What Is Apache Hadoop[EB/OL]. [2012- 4- 6]. http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F.
作者單位:清華大學檔案館中國人民大學數據工程與知識工程教育部重點實驗室北京市檔案局