文/海南醫(yī)學(xué)院 云雅
在我國的數(shù)字化檔案管理研究中,數(shù)字化檔案館建設(shè)占據(jù)著十分重要的位置。而在新型數(shù)字檔案館建設(shè)中,以Hadoop系統(tǒng)為代表的數(shù)據(jù)處理技術(shù)發(fā)揮著重要作用。為此2016年海南省哲學(xué)社會科學(xué)規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺模式研究”【項目編號:HNSK(ZC)16-47】,并將其研究成果應(yīng)用于數(shù)字化檔案館建設(shè)中,為新型數(shù)字化檔案建設(shè)提供技術(shù)理論支持。
與傳統(tǒng)的數(shù)字檔案館相比較,新技術(shù)的應(yīng)用是新型檔案館的主要特征。而在檔案館系統(tǒng)建設(shè)中,其主要的新技術(shù)包括了以下幾類:
(一)Hadoop系統(tǒng)技術(shù)。在新型數(shù)字化檔案館系統(tǒng)建設(shè)中,Hadoop技術(shù)的應(yīng)用極為廣泛。Hadoop系統(tǒng)的應(yīng)用主要是由于其具有HDFS數(shù)據(jù)儲存與MapReduce數(shù)據(jù)處理兩個主要系統(tǒng)。這兩個系統(tǒng)在檔案管理中可以發(fā)揮高效的儲存與管理作用。在檔案信息管理中,HDFS系統(tǒng)具有海量數(shù)據(jù)存儲作用,實現(xiàn)PB級別數(shù)字檔案的儲存;而MapReduce則是一個高速的數(shù)據(jù)處理系統(tǒng),實現(xiàn)了檔案信息數(shù)據(jù)的高速處理。在實際的Hadoop系統(tǒng)實踐應(yīng)用中,其主要優(yōu)勢包括了較高的可靠性、系統(tǒng)存儲與處理的高擴(kuò)展性與錯容性、數(shù)據(jù)處理的高效性以及較低的計算成本等諸多優(yōu)勢,因此在數(shù)字檔案館建設(shè)技術(shù)支持中得到了廣泛應(yīng)用。
(二)云技術(shù)的應(yīng)用。在新型數(shù)字檔案館建設(shè)中,云技術(shù)是其數(shù)字化建設(shè)的重要組成部分。單就目前的建設(shè)過程而言,與Hadoop系統(tǒng)配合的云技術(shù)主要包括了云計算、云儲存以及與共享體系三個主要內(nèi)容。1.云計算技術(shù)。在當(dāng)前的云技術(shù)研究中,云計算技術(shù)是依托互聯(lián)網(wǎng)資源池,利用網(wǎng)絡(luò)資源開展的一種計算模式。目前應(yīng)用中較為常見的云計算模式包括了公有云、私有云以及混合云三種形式。在三種云計算模式中,私有云計算因其具有的可靠性與安全性能高、數(shù)據(jù)計算可擴(kuò)展性能強、系統(tǒng)計算服務(wù)成本低以及較強的管理性能,已經(jīng)成為新型數(shù)字檔案館采用的主要云計算模式。2.云存儲。云存儲技術(shù)是一種整合網(wǎng)絡(luò)資源,形成的云平臺數(shù)據(jù)存儲與管理的計算服務(wù)系統(tǒng)。與傳統(tǒng)儲存技術(shù)相比較,這種技術(shù)具有接近無限的存儲空間以及較高的數(shù)據(jù)存儲安全性,對于大數(shù)據(jù)支持下數(shù)據(jù)存儲量極大地數(shù)字化檔案館可以起到很好的數(shù)據(jù)存儲作用。3.云共享體系。在當(dāng)前的數(shù)字化檔案館建設(shè)中,檔案資源的網(wǎng)絡(luò)共享已經(jīng)成為檔案館建設(shè)的重要內(nèi)容。因此利用云平臺建設(shè)高效安全的檔案云共享體系,就成為檔案館建設(shè)技術(shù)研究者的重要研究內(nèi)容。
在數(shù)字化檔案館建設(shè)中存在的主要問題是如何解決內(nèi)容復(fù)雜、數(shù)量龐大的各類照片、視頻、電子公文、網(wǎng)頁等文件,并將其進(jìn)行有序的整理,進(jìn)而實現(xiàn)檔案的存儲、借閱、共享等各項功能。在這些問題的解決過程中,技術(shù)人員應(yīng)利用Hadoop分布式技術(shù),將檔案館中所需的海量數(shù)據(jù)信息利用MapReduce系統(tǒng)處理后,再將數(shù)據(jù)信息存儲到可擴(kuò)展分布式數(shù)據(jù)庫中,進(jìn)而為檔案館建立一個與云平臺合作的檔案管理系統(tǒng)。
(一)檔案館網(wǎng)絡(luò)平臺架構(gòu)總體建設(shè)。在檔案館數(shù)字化網(wǎng)絡(luò)平臺的建設(shè)中,其網(wǎng)絡(luò)基礎(chǔ)平臺應(yīng)由多個數(shù)據(jù)服務(wù)器集群組成,其中的核心系統(tǒng)包括了以下幾個主要部分:一是數(shù)據(jù)檔案館Web服務(wù)器。二是檔案信息存儲使用的數(shù)據(jù)存儲服務(wù)器。三是應(yīng)對檔案突發(fā)事故的容災(zāi)備份服務(wù)器。四是Hadoop系統(tǒng)自帶的集群服務(wù)器。其中Hadoop集群服務(wù)器在網(wǎng)絡(luò)平臺構(gòu)建中可以起到以下三個作用:首先是可以滿足檔案信息數(shù)據(jù)增加以及應(yīng)用需求復(fù)雜變化性。其次是實現(xiàn)網(wǎng)絡(luò)平臺的擴(kuò)展性。最后是實現(xiàn)網(wǎng)絡(luò)平臺用戶的透明度。這個整體平臺的建設(shè),是數(shù)字檔案館數(shù)字建設(shè)的基礎(chǔ)。
(二)檔案數(shù)據(jù)管理平臺系統(tǒng)設(shè)置。在數(shù)字檔案館數(shù)據(jù)管理平臺建設(shè)中,其系統(tǒng)包括了數(shù)據(jù)存儲、數(shù)據(jù)管理以及應(yīng)用和接口三個主要系統(tǒng)。1.檔案數(shù)據(jù)存儲硬件設(shè)備。在當(dāng)前的數(shù)字化檔案數(shù)據(jù)存儲中,硬件數(shù)據(jù)存儲設(shè)備(物理硬盤)依然較為常見。這種設(shè)備在數(shù)字化檔案管理中具有穩(wěn)定、廉價的特征,主要用于儲存檔案館自身數(shù)字轉(zhuǎn)化為檔案內(nèi)容,如文化掃描后的文件、數(shù)字化后的視頻音頻文件等。2.網(wǎng)絡(luò)平臺的數(shù)據(jù)管理。數(shù)字檔案館除了自身的硬件數(shù)據(jù)庫外,有云平臺提供的海量數(shù)據(jù)存儲處理也是其重要的數(shù)據(jù)管理內(nèi)容。在這一管理搭建中,Hadoop系統(tǒng)的作用包括了以下兩個主要組成部分:一是通過HDFS系統(tǒng)的海量存儲優(yōu)勢,完成對云平臺挖掘數(shù)據(jù)的儲存。二是通過MapReduce、Hbase、Hive、Pig、ZooKeeper等系統(tǒng),對儲存的數(shù)據(jù)進(jìn)行分析處理,完成數(shù)據(jù)的管理過程。3.系統(tǒng)的應(yīng)用與接口系統(tǒng)。這一系統(tǒng)主要是負(fù)責(zé)系統(tǒng)操作應(yīng)用,系統(tǒng)與云平臺的連接等工作,因此其直接面向檔案使用者。主要的使用功能包括檔案信息數(shù)據(jù)的歸檔、檔案檢索讀取、云平臺的信息共享等界面操作。同時在運行中還需要負(fù)責(zé)控制者控制權(quán)限認(rèn)定、身份認(rèn)證以及相應(yīng)軟件設(shè)計算法接口等工作。
(三)系統(tǒng)功能構(gòu)建。在Hadoop支持下的檔案管理系統(tǒng)的核心是其云存儲平臺。因此這一平臺系統(tǒng)的功能設(shè)置也是檔案系統(tǒng)構(gòu)建的主要內(nèi)容。在功能系統(tǒng)構(gòu)建中,其主要的功能模塊包括以下幾點:1.用戶管理功能設(shè)置。這一功能主要包括以下幾個內(nèi)容:一是檔案管理與使用用戶賬號注冊。二是用戶登錄以及用戶身份認(rèn)證。三是用戶檔案使用與管理權(quán)限設(shè)置。四是檔案管理者與用戶相互間的通信管理等,都是用戶管理功能設(shè)置的主要內(nèi)容。2.檔案信息數(shù)據(jù)管理功能。這類功能主要包括管理者與使用者信息數(shù)據(jù)上傳與下載功能;信息數(shù)據(jù)的刪除、恢復(fù)、備份功能等。3.系統(tǒng)的集群管理功能。這一功能主要是對系統(tǒng)集群的狀態(tài)、節(jié)點與任務(wù)等進(jìn)行管理。同時管理功能還對云平臺中的網(wǎng)絡(luò)日志以及數(shù)據(jù)處理日志開展保存與分析處理,確保其網(wǎng)絡(luò)功能正常。
(四)云功能。在信息數(shù)字檔案館技術(shù)設(shè)計中,云功能的實現(xiàn)是其重要的技術(shù)支持。在云功能設(shè)置中,其主要功能包括以下幾個主要組成部分:1.數(shù)據(jù)挖掘技術(shù)的應(yīng)用。在新型檔案館設(shè)置中,云功能支持下的數(shù)據(jù)挖掘技術(shù)是檔案館海量數(shù)據(jù)形成的基礎(chǔ)。在數(shù)據(jù)挖掘技術(shù)的支持下,檔案館館藏檔案的數(shù)量、類型都遠(yuǎn)遠(yuǎn)高于傳統(tǒng)數(shù)字化檔案館。2.云共享功能。檔案在云平臺的共享是新型檔案館的主要功能。而在Hadoop系統(tǒng)支持下,檔案資料在云平臺的共享得到了有效的實現(xiàn)。
(五)檔案管理的安全功能。檔案安全管理是檔案管理的重要組成部分,也是檔案管理平臺構(gòu)建的核心功能。在實際使用中,Hadoop雖然具有穩(wěn)定性,但是其安全性能較差。因此檔案系統(tǒng)設(shè)計者應(yīng)在系統(tǒng)計算機與云安全兩個層面做好安全管理功能設(shè)置。1.管理者與用戶身份鑒別功能。主要是通過口令授權(quán)、秘鑰、數(shù)字證書等方式,進(jìn)行組合用于鑒定管理者、用戶的管理與檔案使用級別,進(jìn)而保障檔案管理的安全性。2.安全日志管理。主要通過對系統(tǒng)中的安全日志管理分析,進(jìn)而對系統(tǒng)安全事件開展預(yù)警工作。3.備份與恢復(fù)功能。主要是對檔案數(shù)據(jù)開展自動備份,繼而在數(shù)據(jù)損壞或遺失的情況下及時恢復(fù),保障檔案數(shù)據(jù)的完整。4.密碼設(shè)置。主要是針對保密級別的檔案設(shè)置保護(hù)密碼,確保密級檔案安全。
在當(dāng)前的數(shù)字化檔案館建設(shè)中,Hadoop系統(tǒng)與云平臺的有效結(jié)合,發(fā)揮著重要的技術(shù)支持作用。因此我們以Hadoop系統(tǒng)為核心,結(jié)合云平臺與軟件系統(tǒng)開展了數(shù)字化檔案館管理系統(tǒng)研究,為檔案技術(shù)發(fā)展提供有效支持。