馬夢華+牛慶瑋+萬啟存



摘 要:存量檔案數字化是保護紙質檔案、提高服務質量的重要措施,也是建設數字檔案館和智慧檔案館的必由之路,在檔案數字化過程中如何解決由于原有組卷信息元數據不足而存在的各種問題,是檔案工作者要進行思考和研究的一項命題,本文從具體工作實踐出發提出了檔案數字化建設過程中的精細化分類方案。
關鍵詞:紙質檔案;字跡;保護材料;耐久性
中共中央辦公廳、國務院辦公廳聯合印發的《關于加強和改進新形勢下檔案工作的意見》明確提出要建立健全覆蓋人民群眾的檔案資源體系、方便人民群眾的檔案利用體系和確保檔案安全保密的檔案安全體系。其中在檔案利用體系建設上指出:各檔案館(室)要大力開展傳統載體檔案數字化工作,及時以數字化檔案代替原件提供利用。[1]檔案數字化工作不僅僅限于紙質檔案的掃描,更為重要的是檔案內含元數據的形成和包括招生信息庫、學位信息庫等在內的各類數據庫的建立。在數字化進程中如何對原有檔案進行細分以及對檔案中的各類數據進行梳理和建立,是檔案工作者必須解決的一個問題。中國石油大學(華東)檔案館自2013年開始數字化建設以來對檔案精細化分類進行了有益的探索和實踐,形成了一套適用于高校檔案館的數字化細分方案。本文對分類方案進行了詳細闡述,希望能對高校檔案同仁有些許幫助。
1 檔案精細化分類問題的提出
以“卷”為單位進行檔案管理的檔案管理機構,通常是將某一事件的相關文件組成一卷,然后擬定案卷標題、錄入卷內目錄等相關信息。同一門類的案卷,其卷內目錄錄入信息基本一致,無外乎是檔號、題名、責任者、保管期限、頁碼等通用信息,正是這些過于泛化的通用信息造成了同一門類下不同子類檔案的特有數據信息不足。以教學檔案為例,其一般分為教學綜合、學科與實驗室建設、招生、學籍管理、課堂教學與教學實踐、學位、畢業生、教材等八個子類。其中招生、學籍管理、學位和畢業生屬于學生相關類高頻利用檔案,中國石油大學(華東)檔案利用統計系統的數據顯示,僅高考錄取名冊從2016年9月18日至12月18日就有265人次利用需求。與高頻利用性相悖而言的是其卷內信息過于泛化,招生類卷內目錄設置通常是一個省份一條目錄信息,其余三類一個學院一條目錄信息,并注明起始頁碼。應對其高頻利用,為提供優質服務,我們需要的是借助于檔案管理信息系統直接定位到人,而不是定位到省份、院系,然后再翻閱檔案逐頁查找。鑒于此類查找繁瑣的實際問題,我們在數字化建設過程中提出了檔案精細化分類方案,細化卷內目錄到每個學生,并根據不同子類的特性,設計不同的元數據和著錄模板,如招生子類的錄取省份、入學成績信息,畢業子類的畢業證號、學位證號信息,這樣就可以根據利用需求直接定位到人,快速提供檔案服務。需要說明的是,細化卷內目錄并不是將原來的卷內目錄棄而不用,而是另行建表進行細化信息的錄入和掃描文件的掛接,它是對原有組卷方式的有益補充,也是電子檔案資源的承載方式。
2 原有組卷方式存在的問題和不足
2.1 目錄設置不盡合理。中國石油大學(華東)檔案館采用的是“南大之星”檔案管理信息系統,該系統對檔案資源進行目錄式管理,最多支持三級目錄。原有目錄設置是以年份作為一級目錄,檔案類目為二級目錄。同樣以教學為例,2015年度教學綜合檔案一級目錄設置為2015,二級目錄為JX11,一般不設三級目錄。此類目錄設置適用于大多數檔案門類,但對于有些門類卻有著更為優化的目錄設置方案。以黨政公文類檔案為例,其歸屬于黨群綜合或行政綜合,二級目錄為DQ11或XZ11,同一類型發文組成一卷。從系統而言黨政公文和其他黨群行政類綜合文件存放一起,而實體存放黨政公文是裝盒單獨存放。如果將黨政公文從綜合類檔案剝離單獨建表,保持其檔號和一級目錄不變,二級目錄改為發文類型(中石大東黨、中石大東發、中石大東學等)就更為合理易查。
2.2 元數據信息不足。元數據主要是描述數據屬性的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能,元數據一般不可再分割。不同檔案門類有著不同的元數據。招生錄取類檔案元數據可以有學生姓名、性別、所在省份、畢業院校等。畢業類檔案元數據可以有畢業證號、學位證號等。如文章第一部分所言的案卷卷內目錄設置過于泛化,導致各門類元數據無從體現,元數據的缺少和不足,查詢和統計就無法實現。
2.3 檔案利用過程繁瑣。由于缺乏相應元數據信息,許多檢索條件不能通過檔案管理信息系統進行查詢。以查找某個學生的畢業證書發放登記表為例,數字化掃描之前最常見的情形就是詢問利用者姓名、畢業年份、學院、專業等相關信息,然后查找目錄翻出相應案卷,逐頁查找直至找到該利用者信息對應頁,進行復印、蓋章工作。這樣整個流程下來費時較長,而且不利于紙質檔案的保護,數字化掃描雖然可以省去翻閱紙質檔案這一環節,但同樣需要逐頁查找,在檔案利用高峰時期,利用服務窗口經常出現排長隊現象。
2.4 數據統計無法提供。元數據的缺失和近乎一致的著錄信息,使學校辦學歷史上歷年基礎數據統計工作很難進行。例如統計每年招收人數、畢業人數、某個導師所帶的研究生名單、某個學院或專業的畢業生名單等等,在原有組卷方式基礎上,要統計這些信息借助于檔案管理信息系統是無法實現的。要想進行某項基礎數據的統計,只能是全館動員,深入庫房逐卷“數數式”統計,其工作量可想而知,最后統計結果也不盡準確。
2.5 檔案編研工作較難推進。檔案編研需要大量的材料和數據支撐,難以提供數據造成了檔案編研工作的低效和緩慢。數字化之前,檔案館曾做的學校二級干部任免文件匯編,就翻閱了全部黨政公文,并挑選任免文件進行復印,整個工作推進下來耗時將近一個學期。這種“全庫搜索式”編研方式推進難度之大也可以想象了。
3 檔案精細化分類方案設計
鑒于原有組卷方式存在的以上問題,為提供優質服務質量,為學校事業發展提供基礎數據支撐,更大程度發揮檔案價值,把“死檔案”變成“活信息”,把“檔案館”變成“智慧館”,我們在數字化建設過程中對檔案門類進行詳細的細分和設計,通過確定目錄設置方案、全新組卷方式、元數據著錄信息及文件掛接方式等,形成了一套詳盡的檔案精細化分類方案,在此提出并就教于廣大檔案工作同仁。
受數字化建設經費限制,秉持高頻利用性和保護性原則,我們只對部分檔案進行了數字化掃描和信息著錄,主要包括歷屆學生成績單、學生入學卡片、新生錄取名冊、學歷學位證書發放登記表、畢業工作調配表、碩士學位審批材料、學校黨政公文。本文主要對以上門類檔案的精細化分類方案進行闡述。
3.1 成績單和學籍卡片分類方案設計。學生成績單和學籍卡片都是高校利用頻率最高的檔案材料。成績單服務于學生的求職就業、升學升遷等諸多環節;學籍卡片對于學校開展校友會工作、校友返校等有著重要的實際作用,兩者分類方案一致,分別建表存儲即可。遵循清晰明了易查的目錄設置原則,成績單和學籍卡片設一級目錄為畢業年份,二級目錄為所在院系,三級目錄為所學專業。在組卷上改變原來組卷方式,以每個專業學生成績單組成一卷,案卷題名擬為××××屆××學院(系)××專業學生成績單。卷內目錄設計為每個學生信息,學生信息著錄元數據項及數據格式如下表所示:
文件掛接方式上,學生和成績單或學籍卡關系為一對多關系,即每個學生都至少有一頁成績單和學籍卡,掃表后的成績單合成PDF后直接掛接在所對應的卷內目錄信息學生條目的全文即可,這樣通過系統定位到學生信息后直接點擊其對應的全文附件即可查看、打印學生成績單或學籍卡。
3.2 新生錄取名冊分類方案設計。新生錄取名冊也屬于高頻利用檔案,特別是在畢業生求職季查詢量比較大。新生錄取名冊屬于教學類檔案招生子類(JX13)。數字化后目錄設置在原有目錄基礎上增加三級目錄,設為案卷序號,即一級目錄錄取年份,二級目錄JX13,三級目錄案卷序號。組卷方式保持原有案卷不變,卷內改為每個錄取學生信息,錄取信息著錄元數據項及數據格式如下表所示:
區別于學生成績單或學籍卡片的一對多對應關系,新生錄取名冊為多對一關系,即每一頁文件上往往記載多名學生錄取信息,南大之星檔案管理信息系統不支持多條目錄掛接同一份掃描文件,如果每個學生都掛載其對應的錄取頁掃描件,這就造成了十幾倍的數據冗余和重復。因此在面對此類多對一對應關系的證明材料時,掃描圖片全部掛接在案卷目錄上,并為卷內目錄的每個學生錄取信息設計“所在頁”和“頁內碼”兩個字段,用以表明該學生錄取信息所在案卷的頁數和頁內順序。查詢時搜索出學生信息,定位到所在案卷,找到對應頁碼的掃描文件即可。
3.3 學歷學位證書發放登記表分類方案設計。學歷學位證書發放登記表同樣屬于高頻利用檔案,它是開具學歷證明所必需的文件材料之一,能夠有效證明校友教育履歷。學歷學位證書發放登記表屬于教學類檔案學位(JX16)和畢業生(JX17)子類,現在一般都存放在畢業生子類下。學歷學位證書發放登記表分類方案設計和新生錄取名冊設計一致,同樣是增加三級目錄,掛接方式和組卷也都參照新生錄取名冊,在此只列出卷內著錄項如下表:
其中學位類型是指獲得學位的類型,如,工學學位、理學學位、文學學位等。
3.4 畢業工作調配表分類方案設計。畢業工作調配表主要證明學校歷屆學生的求職去向,對于早期統一分配高等教育體制年代意義較大,是證明校友工作履歷有效文件材料。畢業工作調配表屬于教學類檔案畢業生(JX17)子類,其方案設計和學歷學位證書發放登記表完全一致,卷內著錄項如下表:
3.5 研究生學位審批材料分類方案設計。研究生學位審批材料記錄了學生畢業答辯整個過程完整信息,主要服務于學生的求學和評優工作。研究生學位審批材料屬于教學類檔案學位(JX16)子類,其原有組卷方式是按學生分批組卷,數字化后目錄設置和組卷方式均保持不變,細化卷內目錄,增加元數據項,卷內著錄項如下表所示:
掛接方式選擇上,學位審批材料是一對多對應關系,將掃描后的圖片合成PDF后直接掛接到卷內對應學生信息條目即可,方便易查。
3.6 學校黨政公文分類方案設計。學校黨政公文記錄了學校的發展、改革和辦學歷程,是今世可知古,后世可知今的重要文件材料之一。黨政公文屬于黨群綜合(DQ11)和行政綜合(XZ11),一般一個文件門類組成一卷,卷內為每個文件信息。數字化后需要做的是改變其目錄設置,一級目錄不變,二級目錄改為發文類型(中石大東黨、中石大東發、中石大東學等),組卷方式無需改變,卷內著錄項如下表所示:
其中關鍵詞是指按文件內容進行提取,如任免類文件、職稱評審文件所涉及的人員姓名等。掛接方式是將每個發文掃描文件合成PDF后掛接到其對應卷內目錄。
4 精細化分類后取得收益
數字化后的檔案精細化分類基本解決了原有紙質檔案時代組卷方式所存在的問題和不足,取得了較好的收益,具體有以下幾點:
4.1 檔案服務質量顯著提升。對于這些高頻利用檔案的數字化掃描和精細化分類,由于設計了相對比較完整的元數據,使得提供檔案服務變得極為方便,對于檔案利用者的利用需求能夠通過檔案管理信息系統快速檢索、查看、打印,無需再進庫房翻閱、復印,大大縮短了服務流程,避免了檔案利用接待窗口排隊現象,明顯提高了檔案服務質量,贏得了較好口碑。
4.2 學校基礎數據準確易得。檔案數字化完成之后,很多學校辦學數據能夠很容易得到,例如每年學校招生人數、畢業人數,各個學院歷年畢業人數、某位導師所培養的研究生名單等,都可以通過檢索快速得到,避免了深入庫房“數數式”的數據統計工作,提高了工作效率,也解放了人力資源。
4.3 檔案編研工作輕松開展。基礎數據的支撐為檔案編研工作提供了最大便利條件,同時借助數字化的檔案資源,基礎檔案編研所要做的就是檢索條目、提取數據、匯編成冊,這使得檔案編研工作不必再全館動員齊上陣,只需少量工作人員即可完成。
5 后記
本文從檔案數字化實踐角度出發,提出了檔案精細化分類方案。存量檔案的數字化,對于各個檔案門類進行細分和設計能夠最大限度發揮檔案價值。然而對于新增檔案,大都有業務系統支持,如果再只是存入紙質檔案,然后再進行數字化掃描和錄入,就造成了人財物的浪費。我們需要做的就是打通檔案管理系統和各業務系統的底層數據,進行系統對接,獲取各項元數據甚至全文信息,使檔案館成為學校的數據中心。
參考文獻:
[1]關于加強和改進新形勢下檔案工作的意見.中國檔案報.