文/海南醫(yī)學院 云雅
在我國的數(shù)字化檔案管理研究中,數(shù)字化檔案館建設占據(jù)著十分重要的位置。而在新型數(shù)字檔案館建設中,以Hadoop系統(tǒng)為代表的數(shù)據(jù)處理技術發(fā)揮著重要作用。為此2016年海南省哲學社會科學規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺模式研究”【項目編號:HNSK(ZC)16-47】,并將其研究成果應用于數(shù)字化檔案館建設中,為新型數(shù)字化檔案建設提供技術理論支持。
與傳統(tǒng)的數(shù)字檔案館相比較,新技術的應用是新型檔案館的主要特征。而在檔案館系統(tǒng)建設中,其主要的新技術包括了以下幾類:
(一)Hadoop系統(tǒng)技術。在新型數(shù)字化檔案館系統(tǒng)建設中,Hadoop技術的應用極為廣泛。Hadoop系統(tǒng)的應用主要是由于其具有HDFS數(shù)據(jù)儲存與MapReduce數(shù)據(jù)處理兩個主要系統(tǒng)。這兩個系統(tǒng)在檔案管理中可以發(fā)揮高效的儲存與管理作用。在檔案信息管理中,HDFS系統(tǒng)具有海量數(shù)據(jù)存儲作用,實現(xiàn)PB級別數(shù)字檔案的儲存;而MapReduce則是一個高速的數(shù)據(jù)處理系統(tǒng),實現(xiàn)了檔案信息數(shù)據(jù)的高速處理。在實際的Hadoop系統(tǒng)實踐應用中,其主要優(yōu)勢包括了較高的可靠性、系統(tǒng)存儲與處理的高擴展性與錯容性、數(shù)據(jù)處理的高效性以及較低的計算成本等諸多優(yōu)勢,因此在數(shù)字檔案館建設技術支持中得到了廣泛應用。
(二)云技術的應用。在新型數(shù)字檔案館建設中,云技術是其數(shù)字化建設的重要組成部分。單就目前的建設過程而言,與Hadoop系統(tǒng)配合的云技術主要包括了云計算、云儲存以及與共享體系三個主要內容。1.云計算技術。在當前的云技術研究中,云計算技術是依托互聯(lián)網(wǎng)資源池,利用網(wǎng)絡資源開展的一種計算模式。目前應用中較為常見的云計算模式包括了公有云、私有云以及混合云三種形式。在三種云計算模式中,私有云計算因其具有的可靠性與安全性能高、數(shù)據(jù)計算可擴展性能強、系統(tǒng)計算服務成本低以及較強的管理性能,已經(jīng)成為新型數(shù)字檔案館采用的主要云計算模式。2.云存儲。云存儲技術是一種整合網(wǎng)絡資源,形成的云平臺數(shù)據(jù)存儲與管理的計算服務系統(tǒng)。與傳統(tǒng)儲存技術相比較,這種技術具有接近無限的存儲空間以及較高的數(shù)據(jù)存儲安全性,對于大數(shù)據(jù)支持下數(shù)據(jù)存儲量極大地數(shù)字化檔案館可以起到很好的數(shù)據(jù)存儲作用。3.云共享體系。在當前的數(shù)字化檔案館建設中,檔案資源的網(wǎng)絡共享已經(jīng)成為檔案館建設的重要內容。因此利用云平臺建設高效安全的檔案云共享體系,就成為檔案館建設技術研究者的重要研究內容。
在數(shù)字化檔案館建設中存在的主要問題是如何解決內容復雜、數(shù)量龐大的各類照片、視頻、電子公文、網(wǎng)頁等文件,并將其進行有序的整理,進而實現(xiàn)檔案的存儲、借閱、共享等各項功能。在這些問題的解決過程中,技術人員應利用Hadoop分布式技術,將檔案館中所需的海量數(shù)據(jù)信息利用MapReduce系統(tǒng)處理后,再將數(shù)據(jù)信息存儲到可擴展分布式數(shù)據(jù)庫中,進而為檔案館建立一個與云平臺合作的檔案管理系統(tǒng)。
(一)檔案館網(wǎng)絡平臺架構總體建設。在檔案館數(shù)字化網(wǎng)絡平臺的建設中,其網(wǎng)絡基礎平臺應由多個數(shù)據(jù)服務器集群組成,其中的核心系統(tǒng)包括了以下幾個主要部分:一是數(shù)據(jù)檔案館Web服務器。二是檔案信息存儲使用的數(shù)據(jù)存儲服務器。三是應對檔案突發(fā)事故的容災備份服務器。四是Hadoop系統(tǒng)自帶的集群服務器。其中Hadoop集群服務器在網(wǎng)絡平臺構建中可以起到以下三個作用:首先是可以滿足檔案信息數(shù)據(jù)增加以及應用需求復雜變化性。其次是實現(xiàn)網(wǎng)絡平臺的擴展性。最后是實現(xiàn)網(wǎng)絡平臺用戶的透明度。這個整體平臺的建設,是數(shù)字檔案館數(shù)字建設的基礎。
(二)檔案數(shù)據(jù)管理平臺系統(tǒng)設置。在數(shù)字檔案館數(shù)據(jù)管理平臺建設中,其系統(tǒng)包括了數(shù)據(jù)存儲、數(shù)據(jù)管理以及應用和接口三個主要系統(tǒng)。1.檔案數(shù)據(jù)存儲硬件設備。在當前的數(shù)字化檔案數(shù)據(jù)存儲中,硬件數(shù)據(jù)存儲設備(物理硬盤)依然較為常見。這種設備在數(shù)字化檔案管理中具有穩(wěn)定、廉價的特征,主要用于儲存檔案館自身數(shù)字轉化為檔案內容,如文化掃描后的文件、數(shù)字化后的視頻音頻文件等。2.網(wǎng)絡平臺的數(shù)據(jù)管理。數(shù)字檔案館除了自身的硬件數(shù)據(jù)庫外,有云平臺提供的海量數(shù)據(jù)存儲處理也是其重要的數(shù)據(jù)管理內容。在這一管理搭建中,Hadoop系統(tǒng)的作用包括了以下兩個主要組成部分:一是通過HDFS系統(tǒng)的海量存儲優(yōu)勢,完成對云平臺挖掘數(shù)據(jù)的儲存。二是通過MapReduce、Hbase、Hive、Pig、ZooKeeper等系統(tǒng),對儲存的數(shù)據(jù)進行分析處理,完成數(shù)據(jù)的管理過程。3.系統(tǒng)的應用與接口系統(tǒng)。這一系統(tǒng)主要是負責系統(tǒng)操作應用,系統(tǒng)與云平臺的連接等工作,因此其直接面向檔案使用者。主要的使用功能包括檔案信息數(shù)據(jù)的歸檔、檔案檢索讀取、云平臺的信息共享等界面操作。同時在運行中還需要負責控制者控制權限認定、身份認證以及相應軟件設計算法接口等工作。
(三)系統(tǒng)功能構建。在Hadoop支持下的檔案管理系統(tǒng)的核心是其云存儲平臺。因此這一平臺系統(tǒng)的功能設置也是檔案系統(tǒng)構建的主要內容。在功能系統(tǒng)構建中,其主要的功能模塊包括以下幾點:1.用戶管理功能設置。這一功能主要包括以下幾個內容:一是檔案管理與使用用戶賬號注冊。二是用戶登錄以及用戶身份認證。三是用戶檔案使用與管理權限設置。四是檔案管理者與用戶相互間的通信管理等,都是用戶管理功能設置的主要內容。2.檔案信息數(shù)據(jù)管理功能。這類功能主要包括管理者與使用者信息數(shù)據(jù)上傳與下載功能;信息數(shù)據(jù)的刪除、恢復、備份功能等。3.系統(tǒng)的集群管理功能。這一功能主要是對系統(tǒng)集群的狀態(tài)、節(jié)點與任務等進行管理。同時管理功能還對云平臺中的網(wǎng)絡日志以及數(shù)據(jù)處理日志開展保存與分析處理,確保其網(wǎng)絡功能正常。
(四)云功能。在信息數(shù)字檔案館技術設計中,云功能的實現(xiàn)是其重要的技術支持。在云功能設置中,其主要功能包括以下幾個主要組成部分:1.數(shù)據(jù)挖掘技術的應用。在新型檔案館設置中,云功能支持下的數(shù)據(jù)挖掘技術是檔案館海量數(shù)據(jù)形成的基礎。在數(shù)據(jù)挖掘技術的支持下,檔案館館藏檔案的數(shù)量、類型都遠遠高于傳統(tǒng)數(shù)字化檔案館。2.云共享功能。檔案在云平臺的共享是新型檔案館的主要功能。而在Hadoop系統(tǒng)支持下,檔案資料在云平臺的共享得到了有效的實現(xiàn)。
(五)檔案管理的安全功能。檔案安全管理是檔案管理的重要組成部分,也是檔案管理平臺構建的核心功能。在實際使用中,Hadoop雖然具有穩(wěn)定性,但是其安全性能較差。因此檔案系統(tǒng)設計者應在系統(tǒng)計算機與云安全兩個層面做好安全管理功能設置。1.管理者與用戶身份鑒別功能。主要是通過口令授權、秘鑰、數(shù)字證書等方式,進行組合用于鑒定管理者、用戶的管理與檔案使用級別,進而保障檔案管理的安全性。2.安全日志管理。主要通過對系統(tǒng)中的安全日志管理分析,進而對系統(tǒng)安全事件開展預警工作。3.備份與恢復功能。主要是對檔案數(shù)據(jù)開展自動備份,繼而在數(shù)據(jù)損壞或遺失的情況下及時恢復,保障檔案數(shù)據(jù)的完整。4.密碼設置。主要是針對保密級別的檔案設置保護密碼,確保密級檔案安全。
在當前的數(shù)字化檔案館建設中,Hadoop系統(tǒng)與云平臺的有效結合,發(fā)揮著重要的技術支持作用。因此我們以Hadoop系統(tǒng)為核心,結合云平臺與軟件系統(tǒng)開展了數(shù)字化檔案館管理系統(tǒng)研究,為檔案技術發(fā)展提供有效支持。