韓峰/黑龍江省檔案館
隨著“大數(shù)據(jù)”時代的到來,檔案館的職能開始向著兩個不同的方向演化,即檔案存儲職能和社會服務職能,“零庫存”檔案館的概念因此被提出[1],并將二者落實所需的物理空間用“檔案存儲中心”和“檔案館”分別加以定義。檔案館行使檔案的查詢接待、展覽參觀及休閑服務職能;檔案存儲中心負責檔案的存儲和管理,是檔案保存的場所。隨著近年來檔案數(shù)字化建設及檔案館智能化管理的不斷發(fā)展,數(shù)字檔案的管理與紙質(zhì)檔案的保存出現(xiàn)了任務分離。數(shù)字檔案管理技術(shù)在與大數(shù)據(jù)的發(fā)展與融合中增添了許多新的內(nèi)容和標準,而紙質(zhì)檔案的存儲則著力于對歷史檔案的保護、修復及庫房智能化管理等內(nèi)容,二者需要承擔的責任有著天壤之別。筆者試圖將二者分開,著眼于建立檔案數(shù)字信息中心。
在“零庫存”檔案館的概念下,檔案數(shù)字信息中心指數(shù)字檔案存儲與管理的物理場所,負責檔案數(shù)字信息的收集、生成、管理、維護和分享利用。檔案數(shù)字信息的來源途徑廣泛,包括紙質(zhì)檔案數(shù)字化后生成的圖像文件、著錄文件及相應的數(shù)據(jù)庫;電子文件檔案及其數(shù)據(jù)化操作后生成的數(shù)據(jù)庫;從大數(shù)據(jù)中采集的檔案數(shù)字信息;直接以數(shù)據(jù)流方式接收的數(shù)字檔案等。這些信息資源通過數(shù)據(jù)化、編碼操作等手段形成具有一定結(jié)構(gòu)的數(shù)字信息,作為館藏檔案數(shù)字信息的基礎。
檔案數(shù)字信息中心的建立,首次將檔案數(shù)字信息的管理工作放在核心位置,使檔案數(shù)字信息的存儲和管理脫離了既往檔案館原有的工作模式,推動檔案工作與大數(shù)據(jù)的有機融合。
檔案數(shù)字信息中心建立以后,其直接任務即是對大量數(shù)字信息進行管理,并提供查詢利用。
2.1.1 紙質(zhì)檔案圖像文件的數(shù)據(jù)化處理。檔案數(shù)字信息中心建立之初,檔案信息資源絕大多數(shù)來自館藏紙質(zhì)檔案的掃描圖像文件,這些以圖片形式保存的文件需要編碼操作之后設置相應的結(jié)構(gòu),以加入數(shù)據(jù)庫中來。為便于后期數(shù)據(jù)庫的查詢利用等操作,應先將圖片檔案進行著錄,再將著錄文檔與圖像相鏈接,生成打包文件并進行編碼操作,形成數(shù)據(jù)信息,并與其它數(shù)據(jù)信息進行關聯(lián),進而提供利用。
2.1.2 檔案數(shù)字信息的存儲。隨著檔案中電子數(shù)據(jù)比例的提升,以及電子文件單套制歸檔政策的實施,檔案數(shù)字信息的存儲地位被提升,并提出了新的要求。首先,檔案數(shù)字信息的存儲需要安全性保障。涉密數(shù)字信息被盜用以及存儲系統(tǒng)被攻擊等情況的發(fā)生具有較大可能,需要專業(yè)人員隨時對存儲系統(tǒng)進行監(jiān)管、維護和升級。其次,檔案數(shù)字信息的存儲需要較強的穩(wěn)定性。檔案數(shù)字信息系統(tǒng)發(fā)生故障或被人為侵入后很容易造成數(shù)字信息的不穩(wěn)定,導致部分信息不能提取或信息內(nèi)容被篡改等問題,這就需要設計師在系統(tǒng)設計時注意加載自查程序和報警設置。再次,檔案數(shù)字信息的存儲具有可用性。檔案數(shù)字信息被存儲起來的目的是提供查詢利用,這就需要經(jīng)常性地進行系統(tǒng)自查和利用服務回訪,不時檢驗檔案數(shù)字信息存儲系統(tǒng)的可用性,并不斷進行更新和升級。
2.1.3 共享式接收與生成檔案數(shù)字信息。融入大數(shù)據(jù)技術(shù)以后,檔案資源建設進一步向智能化方向邁進,檔案數(shù)字信息的增加應更多地依賴共享式接收與生成,這就要求檔案智能化接收系統(tǒng)的更新迭代。這一系統(tǒng)的建立可以讓檔案執(zhí)法部門從源頭上對立檔與接收工作進行有效監(jiān)督,并進一步減少人為控制因素,避免徇私舞弊,以保障此項工作按照有關標準與規(guī)范有序進行。與此同時,這一系統(tǒng)投入應用以后,也使得檔案部門能夠參加檔案的生成過程,理解某份檔案形成的初衷,提高利用價值。
2.1.4 從定點服務到共享利用。首先,檔案數(shù)字信息中心的另一重要職責是為檔案館建立數(shù)據(jù)的查詢利用端口,讓利用者通過檔案館的查詢端口進入檔案數(shù)字信息數(shù)據(jù)庫中進行查詢,筆者稱之為“定點服務”。其次,檔案數(shù)字信息中心的建立就是要整合不同層級、不同區(qū)域的數(shù)字信息,實現(xiàn)資源的融合與共享。在筆者的架設中,檔案數(shù)字信息中心應以省份為單位,組建唯一的數(shù)字信息中心,避免疊床架屋浪費資源,也避免層級劃分給查詢利用造成阻礙。再次,與大數(shù)據(jù)技術(shù)的融合使得檔案數(shù)字信息擁有大數(shù)據(jù)的部分特性,檔案價值的體現(xiàn)不再以稀缺性、獨有性為依據(jù),而是要通過共享來挖掘檔案資源更多的潛在價值[2],讓檔案價值在流動中得以實現(xiàn),筆者稱之為“共享利用”。這就需要查詢系統(tǒng)在設置的過程中充分考慮為檔案館提供服務的現(xiàn)實需求,也要考慮社會大眾在其他端口進行查詢時的需求滿足和安全設置之間的協(xié)調(diào),更要考慮涉密檔案及控制檔案面對有特殊需求的組織及個人時,需以何種方式進行網(wǎng)上簽證和監(jiān)管。
檔案數(shù)據(jù)是指“數(shù)據(jù)化的檔案信息及具備檔案性質(zhì)的數(shù)據(jù)記錄”[3],其中包括承載檔案信息的數(shù)據(jù),也包括在檔案業(yè)務工作中產(chǎn)生的累積性數(shù)據(jù)[4]。對這些數(shù)據(jù)的整理、編碼和日常維護是檔案數(shù)字信息中心的重要任務。
2.2.1 提高數(shù)據(jù)的價值密度。通過各種渠道形成的數(shù)據(jù)被存儲于檔案數(shù)字信息數(shù)據(jù)庫中,這些數(shù)據(jù)具有多重關聯(lián),計算機將這些關聯(lián)內(nèi)容進行存儲,以保證數(shù)據(jù)信息的完整性,有些信息價值密度低[5],白白占有存儲資源。從這個角度講,檔案數(shù)字信息中心并不等同于大數(shù)據(jù)中心,不應原封不動地保存所有數(shù)據(jù),而應隨時隨地對存儲數(shù)據(jù)進行篩查、鑒定、刪減,以提高存儲數(shù)據(jù)的價值密度。
2.2.2 對數(shù)據(jù)進行多維整合。除了由紙質(zhì)檔案轉(zhuǎn)化而來的數(shù)字信息,以及按立檔要求收集來的電子文件信息以外,數(shù)字信息庫中存儲的大部分數(shù)據(jù)具有多維化特征。單從信息的內(nèi)容來看,即是五花八門,魚龍混雜,各種內(nèi)容的信息共存于同一數(shù)據(jù)庫之中,需要通過整合與分類加入不同的目錄樹中,以便于查詢利用。從數(shù)據(jù)類型來看,這些信息更是種類繁多,不僅有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),且后者占據(jù)著更大的存儲空間。這種多維結(jié)構(gòu)的數(shù)字信息需要進行后期編碼整合,通過統(tǒng)一的結(jié)構(gòu)化操作納入到數(shù)據(jù)庫中來。
2.2.3 實現(xiàn)“讓數(shù)據(jù)說話”的數(shù)據(jù)治理模式。“數(shù)據(jù)不僅僅是檔案內(nèi)容的一種呈現(xiàn)方式,更是對其本身進行合理管制的一種手段,即通過數(shù)據(jù)的自動運行設置內(nèi)隱處理模式”[6],讓數(shù)據(jù)說話。這種數(shù)據(jù)治理模式也是檔案數(shù)據(jù)管理的智能化手段,包括檔案數(shù)字信息的智能分類、智能鑒定、智能組卷、智能編目及智能簽證等智能化功能[7]。利用文本分類和深度學習技術(shù)可以對檔案數(shù)字信息進行智能化分類與歸檔,通過模塊操作,讓數(shù)據(jù)在運行中自動匹配分類號;利用信息抽取和智能匹配技術(shù)實現(xiàn)對大量檔案的智能化批量處理和精確鑒定[8];通過深度學習,命名實體識別等技術(shù),讓數(shù)據(jù)在運行中自動編寫頁碼、生成檔號;通過將智能簽證功能嵌入檔案流轉(zhuǎn)過程中,運用模式識別、信息抽取和特征匹配等技術(shù)進行簽字提取、圖樣比對等操作[9]。
檔案數(shù)字信息中心以數(shù)據(jù)處理、信息的管理與維護,以及網(wǎng)絡運行服務等為工作內(nèi)容,將互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)融合到檔案數(shù)字信息的管理中來,其機構(gòu)設置應與之相匹配。
檔案數(shù)字信息來源途徑廣泛,用“采集”加以概括更能體現(xiàn)此項工作特征。此外,隨著無紙化辦公和電子文件單套制改革的實現(xiàn),檔案部門對檔案的接收征集工作將發(fā)生很大變化。成立專門的檔案數(shù)字信息采集部,內(nèi)部根據(jù)信息的類型和途徑設置相應的科室,如紙質(zhì)檔案圖像接收科、大數(shù)據(jù)信息監(jiān)察采集科、部門檔案接收科等,有利于優(yōu)化管理機制,以適應新的工作內(nèi)容。
從大數(shù)據(jù)信息中采集到的檔案數(shù)字信息,事先沒有立檔單位進行分類歸檔,需要在加入數(shù)據(jù)庫前進行專門的分類歸檔處理,以適應管理及提供利用的需要。成立專門的檔案信息分類歸檔部,在數(shù)字信息采集完成后迅速對其進行整理和歸類,并利用數(shù)據(jù)智能化處理手段,自動形成目錄,以保障檔案數(shù)字信息的可用性。
檔案數(shù)字信息在初步整理與歸類后,還需要專業(yè)人員深入信息內(nèi)部,對其進行解讀,添加注釋和備注文件,并將這些信息編碼到相應的數(shù)據(jù)庫文件中,以實現(xiàn)數(shù)字敘事模式[10],在利用者查詢利用時自動呈現(xiàn)。這一工作需要受過專業(yè)訓練的工作人員來完成,對于歷史檔案尤其如此。因此,成立檔案數(shù)字信息編碼解析部有利于保證工作質(zhì)量。
通常情況下,檔案數(shù)字信息的鑒定需要專門的檔案業(yè)務專家來完成。但當面對大量需要處理的鑒定內(nèi)容時,檔案業(yè)務專家能夠即時處理的工作量極為有限,開發(fā)數(shù)據(jù)智能處理手段尤為重要,讓業(yè)務專家的工作與數(shù)據(jù)智能處理系統(tǒng)有機結(jié)合,確保數(shù)據(jù)智能系統(tǒng)能夠處理常規(guī)情境下的鑒定任務,并自動簽證,與此同時,通過即時的“困難情境”提醒,讓時間和精力有限的業(yè)務專家來處理系統(tǒng)難以駕馭的鑒定內(nèi)容,以節(jié)省人力和操作成本。這就需要成立專門的檔案數(shù)字信息鑒定與簽證部,集中精力研究與處理檔案鑒定過程中出現(xiàn)的各種難題。
直接以檔案數(shù)字信息形式接收的內(nèi)容中包含有一定數(shù)量的外文及少數(shù)民族文字數(shù)字信息,隨著中外交流的增加及中心業(yè)務的不斷展開,這部分信息還會大量增加,設立專門的外文及少數(shù)民族文字檔案數(shù)字信息研發(fā)部有利于此項工作的順利進行。此外,在將非漢語紙質(zhì)檔案的掃描及著錄信息與數(shù)據(jù)庫進行掛接時,也需要專業(yè)人員進行相關操作。
檔案數(shù)字信息的存儲一直以來面對著各種技術(shù)難題。首先,對歷史遺留下來的各種存儲設備中保留下來的此類信息的讀取和復制,以及如何解決這部分信息與數(shù)據(jù)庫的相容性等問題是最核心的問題。其次,檔案數(shù)字信息普遍存在著保存質(zhì)量的問題,對信息讀取的失真,以及對這些信息的復原和改良成為難題。再次,對于從大數(shù)據(jù)中采集來的檔案數(shù)字信息的存儲和維護目前還處于嘗試階段,各種問題接踵而至,需要對其進行專門研究。成立檔案數(shù)字信息存儲技術(shù)部,作為這一任務的專職承擔部門,將發(fā)揮重要作用。
檔案數(shù)字信息中心的建立,將打破傳統(tǒng)檔案館各自為政、囤貨居奇的現(xiàn)狀,分享與共贏將成為未來檔案部門生存和發(fā)展的重要使命。此外,隨著社會生活的不斷變化,人們大部分需求將逐步在網(wǎng)上實現(xiàn)選擇與調(diào)配,查檔利用也不例外。如何讓用戶足不出戶即可進行查檔利用,并逐漸打破區(qū)域壁壘,使利用者獲得更多調(diào)用權(quán)限,成為檔案數(shù)字信息中心需要面對的重要課題,為此,需要在保障信息安全的前提下,開拓更為廣闊的信息利用渠道,讓更多的組織和個人受益,讓檔案工作真正為民眾服務。這就需要成立檔案數(shù)字信息網(wǎng)絡運營部,集中處理數(shù)字信息在網(wǎng)絡運營過程中產(chǎn)生的信息安全問題、信息利用監(jiān)管問題、路徑選擇問題、區(qū)域共享問題、客戶端認證問題等。
檔案數(shù)字信息中心根據(jù)其任務的獨特性,對信息內(nèi)容的各項管理與操作大部分需要工作人員具有較高的專業(yè)水平。
招錄大批具有計算機及網(wǎng)絡技術(shù)相關專業(yè)背景的人才是檔案數(shù)字信息中心的基礎。改變以往的招錄方向,為新興科技人才的錄用敞開大門,以推動檔案數(shù)字信息工作的良性發(fā)展。此外,計算機及網(wǎng)絡技術(shù)更新迭代頻繁,需要對這些招聘上崗的人員及時進行知識技術(shù)的更新,適時培訓和充電是保持專業(yè)能力的不二法門,這就需要檔案數(shù)字信息中心能夠與相關科研院所建立長期合作關系,為計算機專業(yè)人才的定期培訓提供支撐。
檔案數(shù)字信息中心的工作內(nèi)容包含著大量面向史料整理開發(fā)方面的業(yè)務工作,延攬歷史學專業(yè)人才將有利于相關工作的順利推進。隨著業(yè)務的不斷深入,這一領域更加需要擁有研究視野的人才,提高學歷要求,選錄歷史專業(yè)具有研究生以上學歷的考生將成為更佳選擇。與此同時,加強與其他專業(yè)部門的交流與合作,提高科研實力,尋求機構(gòu)與人才的雙贏。
選聘外文及少數(shù)民族語言文字類專業(yè)考生應擴大專業(yè)選聘范圍,增設更多小語種外文專業(yè)及國內(nèi)少數(shù)民族語言文字類研發(fā)崗位,引進古文字、死文字等研究領域的研究人才,加大有關人才的延攬力度。人才上崗后,增加在崗在職培訓機會,并為這些人才提供更多出國深造及語言文字研究實踐的機會。
首先,為增強工作人員的業(yè)務能力,需要在一定時段內(nèi)對人員定期進行業(yè)務考評,根據(jù)考評結(jié)果評定級別,確定績效獎勵方式。其次,建立健全人才流動機制。可在行業(yè)機構(gòu)內(nèi)部率先實行,不同省域的檔案數(shù)字信息中心可以建立聯(lián)動機制,讓人員的內(nèi)部調(diào)動成為可能。與此同時,也要建立機構(gòu)外部的流動機制,允許相關人才到高校、研究院所及相關企業(yè)進行就職。