文/楊 藝
《紙質檔案數字化規范》在組織與管理、數字化前處理、技術指標要求、數字化驗收成果以及數字化流程等方面對紙質檔案數字化工作進行了重新修訂,在計算機信息技術高速發展環境下,紙質檔案數字化工作得以順利規范進行
2005年國家檔案局發布并實施了檔案行業標準《紙質檔案數字化技術規范》DA/T 31-2005,首次從規范標準的角度來要求紙質檔案數字化工作,對檔案信息化的數據資源建設提供了有力的標準規范支持。十幾年過去,由于計算機信息科技高速發展,DA/T 31-2005在實踐應用過程中已無法有效規范和處理紙質檔案數字化工作中遇到的所有問題,紙質檔案數字化工作的管理模式已經由起初單純的技術性工作向系統化管理性工作轉變,因此,國家檔案局及時地對本標準進行了修訂,調整相關要求,以適應紙質檔案數字化發展現狀,形成了《紙質檔案數字化規 范》DA/T31-2017,替代DA/T 31-2005。
修訂主要內容有以下幾個方面:
DA/T 31-2017增加第5部分充分詳細地對組織與管理提出了規范性要求。目前,對館藏紙質檔案進行數字化已不僅僅是一項單純的技術性工作,檔案數字化工作組織形式由原先的單一化變得多元化,更多表現為服務外包項目形式,這種科學有效地組織和管理對紙質檔案數字化工作的有序進行以及安全保障尤為重要。故規范名稱將原規范標題中的“技術”兩字去掉,修訂為《紙質檔案數字化規范》。
DA/T 31-2017對組織與管理方面的具體要求全面、系統、科學、準確。內容詳細介紹了機構組成及人員要求、基礎設施安全保障、工作方案的科學合理及審批歸檔、管理制度的規范全面、工作流程的有效控制、文件管理的完整標準以及檔案數字化外包的監督指導等多個方面,涵蓋了紙質檔案數字化工作的全部流程,為紙質檔案數字化的管理工作提供了切實可行的理論依據,有效保障了數字化工作的有序進行,有章可依。
DA/T 31-2017對數字化工作前的準備工作從原先的檔案整理更名為數字化前處理,分為5個部分對此進行要求。
新規范主要從三個方面進行了修訂:一是對檔案整理順序進行了調整。DA/T 31-2005中要求先進行目錄數據準備、拆除裝訂、確定掃描頁、頁面修整、整理登記,最后是裝訂;而DA/T 31-2017則是確定掃描頁、編制頁號、目錄準備、拆除裝訂以及技術修復。順序調整之后更符合實際工作流程。需要注意的是,修訂后的數字化前處理中去掉了檔案裝訂的環節,介于檔案掃描時可能需要再次對檔案進行拆裝工作,以只拆一次為原則,為保護檔案實體,把檔案裝訂工序去掉并挪至數字化工作最后完成。二是對檔案掃描頁的確定提出了新要求。新規范要求原則上應將確定為數字化對象的紙質檔案全部掃描,不宜挑掃。這樣對紙質檔案數字化成果提供了數據完整性保證。三是對拆除裝訂的工作修訂了具體要求。DA/T 31-2005提出不拆除裝訂會影響掃描工作進行的檔案應拆除裝訂物。而新規范中以保護檔案實體為基礎,要求在拆除裝訂時應注意保護檔案不受損害,比如裝訂不規范的應更換裝訂方式;對特殊裝訂的檔案拆除裝訂應恢復其檔案原貌,比如采取拍照的方式記錄檔案原貌以便恢復。
DA/T 31-2017第4部分總則中提出,紙質檔案數字化過程中,應保存數字化項目信息、技術環境、數字化各類技術參數等方面的元數據。電子檔案元數據分兩部分:一是檔案實體元數據,其中包括檔案的檔號、題名、保管期限、責任者等;二是檔案背景元數據,包括檔案標識符、信息背景描述、來源環境等。
隨著各地綜合數字檔案館的建設實施,為了保障電子檔案真實性、完整性、可用性和安全性,對紙質檔案數字化成果要求也不斷提升。在紙質檔案數字化過程中,檔案的背景元數據是最容易被忽略采集的,而由于目前紙質檔案數字化工作基本為外包服務項目完成,檔案背景信息的采集不僅能夠提供數字化成果的完整性,而且對數字化成果的安全責任具有很強的可追溯性。建議在紙質檔案數字化工作方案中將元數據采集的具體要求和指標都能明確提出,元數據采集以計算機自動捕獲為主,將檔案數字化過程留痕、背景描述充分保留作為保證檔案數字化工作完整性的重要內容。
DA/T 31-2017不僅在數字化工作的組織管理方面提出全面的標準和要求,而且在技術部分也做出了細化和調整。
1.由于計算機硬件技術的提升,對某些計算機專業圖像術語的依賴性降低,術語和定義中只保留了數字化、數字圖像、紙質檔案數字化和分辨率,對黑白二值圖像、連續色調靜態圖像、失真度、可懂度以及圖像壓縮等術語沒有再多作解釋。
2.對掃描圖像彩色模式方面的要求進行了修訂。為最大限度地保留紙質檔案原件信息,首先建議全部采用彩色模式進行掃描;只要掃描頁中帶有任何彩色標記的,都應采用彩色模式掃描,如紅頭、印章、插圖、照片等;頁面中僅為黑白兩色,字跡清晰、不帶插圖的,彩色模式掃描與黑白二值模式、灰度模式掃描成果基本無明顯區別,也可采取其他兩種模式掃描。目前,計算機圖像運算速度的大幅提升,計算機存儲空間成本降低,對掃描圖像的質量和大小都有很大程度影響,檔案圖像掃描工作不再受硬件技術的制約,更多關注于如何更好地顯示檔案原貌。
3.對分辨率要求的調整體現在保證掃描后圖像的清晰、完整的前提下,還需綜合考慮數字圖像后期利用方式等因素。分辨率是單位長度內圖像包含的點數或像素數,也就是說,點數越多,分辨率越大,圖像顯示效果越細膩清晰,存儲所需空間也就越大。而對于館藏大量A4幅面的文書檔案,特別是80年代以后高質量的打印文件檔案來說,分辨率過高并不會對顯示效果有很明顯的提升,反倒會需要更大的存儲空間,顯示速度也會降低,這時就需要選擇適當的分辨率。規范中要求分辨率應不小于200dpi,如文字偏小、密集、清晰度差時,建議不小于300dpi,目前大部分綜合檔案館室圖像數字化掃描分辨率均為300dpi,如有高精度仿真復制等特殊用途時,建議不少于600dpi。
4.以保持檔案原貌為前提,對圖像處理中,修訂了去污和裁邊兩個方面的要求。一是對掃描圖像進行裁邊處理的時候,應在距頁邊最外延留下至少2-3mm,從而避免將檔案邊緣的細節信息裁掉,損害檔案信息的完整性。二是要求在去污過程中僅去除在數字化過程中產生的污點、污線及黑邊等影響圖像質量的雜質,不得去除檔案原始頁面信息,包括紙張褪變的斑點、水漬、污點及裝訂孔等,客觀顯示檔案原貌。
新規范中對數字化成果驗收提出了細化、全面的要求,從驗收方式、驗收內容、驗收指標、驗收結論及移交等五個方面系統地規范了數字化驗收工作。
從驗收內容來講,DA/T 31-2005僅僅只是對數據做出了驗收的標準描述,而新規范中則對目錄數據、元數據、數字圖像、數據掛接工作、數字化工作文件以及數字化成果存儲載體等六個方面內容進行了驗收工作的描述,達到了紙質檔案數字化工作全過程驗收的效果。
從驗收指標上說,由于客觀條件制約,原規范中并未提及使用計算機自動檢驗,隨著計算機軟件技術的不斷革新,新規范中推薦采用計算機自動檢驗方式來對數據進行100%校驗,檢驗合格率應為100%。實際工作中,由于計算機軟件OCR識別準確率有限,目前大部分綜合數字檔案館室更多采用計算機自動檢驗和人工抽檢相結合的方式,人工抽檢率不低于5%,而需要保證抽檢準確率100%。
為了保證紙質檔案數字化工作流程的完整性,DA/T 31-2017中加入了檔案出庫和歸還入庫步驟。當數字化成果驗收合格并移交之后,需要對紙質檔案原件進行檔案裝訂,保持檔案原貌,清點登記辦理入庫手續,至此,紙質檔案數字化全過程做到了閉環管理。新規范刪除了原標準中對數據備份和數字化成果管理的描述,使整個紙質檔案數字化過程更加嚴謹,準確規范。
值得一提的是,DA/T 31-2017中“保持檔案原貌”的字樣總共出現了五次,不管是盡可能少的拆裝檔案,或者是以只掃描一次為原則,都是新修訂的規范對檔案原件保護的新要求。紙質檔案數字化成果的有效利用,合理開發,更是為了封存原始檔案做基礎。在新出臺包括修訂的檔案業務規范中,不只是在紙質檔案數字化工作中提出保護檔案實體的要求,更多的是對檔案工作者在日常各項檔案業務工作中都應提高對檔案原件安全及質量的保護。