王凡 秦茜 梅涵
摘 要:隨著信息技術的發展,檔案載體正面臨更新換代的重要時刻,海量電子文件與檔案的涌現對檔案管理工作方式產生了巨大影響,檔案保管、保護、利用的理念及對象、體制和工作方式等都將經歷重大變革。本文針對海河水利委員會近年開展的檔案數字化工作進行了細致研究,并對數字化加工和文字識別業務范疇內的各個流程細節及要求進行了分析。
關鍵詞:數字化;圖像處理;文字識別
2006年12月27日,經國家發展和改革委員會審核同意,《檔案事業發展“十一五”規劃》(以下簡稱“《規劃》”)正式施行。《規劃》明確提出了“十一五”期間,檔案信息化建設是檔案事業的八項主要任務之一。在此期間,海河水利委員會(以下簡稱“海委”)信息化進程的加快,使得信息資源成為了海委水利工作中愈發重要的戰略資源,信息資源的開發利用工作也成為實現海委水利工作全面、協調、可持續發展的重要途徑。檔案作為基礎性信息資源,是海委信息資源不可或缺的重要組成部分。隨著計算機信息技術、掃描技術、OCR技術、數字攝影(錄音、錄像)技術、多媒體技術、數字存儲技術的發展而產生的檔案數字化工作就成為了適應這種變革的主要措施。
1 檔案數字化
1.1 原則
在檔案數字化加工過程中,要堅持和貫徹以下原則:實施規范、分類細致、利用便捷。
1.1.1實施規范
檔案數字化加工由始至終必須嚴格遵循國家相關規程規范,參照的規程規范主要包括:《紙質檔案數字化技術規范》(DA/T 31—2005)、《連續色調靜態圖像的數字壓縮及編碼》(GB/T 17235.1-1998)、《電子文件歸檔與管理規范》(GB/T 18894-2002)、《檔案著錄規則》(DA/T18-1999)等。
1.1.2分類細致
細致的分類是檔案數字化加工的關鍵,要以完整的數據備份、存儲方案、檔案安全保管為前提,在切實保證檔案和數據完整、準確、系統、安全的基礎上,根據檔案的類別、保管期限、密級、載體類型等因素,將正文、附件、審批單等分別采用不同的操作方式進行加工。
1.1.3利用便捷
檔案數字化的目的是為了更高效、便捷地利用檔案,這就需要在檔案數據錄入管理系統后建立健全的索引機制,實現千萬量級數據資源的快速搜索,從而保證檔案信息的系統搜索、查閱和利用,更好地為海河水利事業服務。
1.2 流程
檔案數字化加工流程由以下主要步驟組成:從檔案館提取案卷,同時記錄提卷內容,接著拆卷、去污、平整化;根據檔案紙張大小和厚薄不同選擇不同型號的掃描儀,較為規整的紙張選擇快速掃描儀,較薄、較厚和不規整的紙張選擇平板掃描儀;按照檔案管理系統的著錄項,將標題、責任者、歸檔時間、檔號等各種檔案信息錄入管理系統中;對照原始檔案進行自檢,對錄入數據進行兩次以上的人工校對,對掃描圖像進行橫向和縱向校對;校對合格后在檔案管理系統中進行質檢,對圖像與文字的匹配程度和圖像在系統中的閱讀效果進行再次檢驗,不合格的重新處理;按照檔案整理規范對檔案進行整理還原,對檔案進行數量檢驗,對卷目內容與標題的對應進行檢查,整理打印目錄和案卷封面并裝訂;將通過檢驗后的成品電子檔案數據存儲于硬盤介質,并刻錄2套DVD光盤,編制盤號及光盤內容等著錄信息作為電子檔案存檔;最后將原始檔案及時交還,如有檔案損毀或丟失,應承擔相應的法律責任。
1.3 管理
檔案數字化的管理工作主要包括過程、安全和細節管理三方面。過程管理關鍵在于完善保密與監管機制,安全管理的關鍵是要以保障電子檔案數據的安全為最終目的,細節管理則是要重視每個關鍵節點的技術要求。
1.3.1過程管理
檔案數字化的過程管理要求建立健全各環節的安全保密機制,以確保檔案原件和檔案信息的安全。同時要對數字化的各個環節進行詳細登記,并及時整理、匯總、裝訂成冊,建立完整、規范的加工記錄。
1.3.2安全管理
檔案數字化的安全管理必須嚴格遵守國家有關保密法律、法規及制度,應采取措施加強實體檔案和電子檔案數據的絕對安全。要嚴格執行“分級管理”的原則,當檔案的密級為“公開”時,進行全文掃描和信息條目錄入;當檔案的密級為“機密、秘密、絕密”時,原文不進行掃描,只進行信息條目錄入。
1.3.3細節管理
檔案數字化的細節管理應注重圖像清晰度、檔案整理裝訂、掃描處理、圖像加工、存儲及管理系統銜接等幾方面的技術要點。
1.圖像清晰度方面:要特別注意以下檔案文件(或部分)必須清晰:各種檔案中的紅、藍色印章信息;各種手寫、復寫信息;字體小且字跡較模糊的圖紙;歷史時期較長的檔案;其它因紙張、字跡等因素不清晰的文件。
2.整理裝訂方面:掃描前通過分類、排序、編寫頁碼、平整、去釘、裱補、蓋章、標注等工序環節保證檔案掃描時的質量,掃描完成后按規范裝訂立卷、裝盒,保證檔案無遺漏。整理裝訂標準為:根據要求確定掃描和掛接范圍,區分檔案中的掃描卷和不掃描卷、同一案卷中的掃描件和非掃描件;非掃描檔案及同一案卷中非掃描部分應在非掃描檔案登記總帳中填寫清楚;掃描前需要對檔案進行核實,查看有無缺頁現象;案卷拆分應注意保護原件,破損嚴重、無法進行掃描的原件要先進行修復,折皺不平影響掃描質量的原件應先采取措施壓平后再進行掃描;按要求裝訂檔案,確保不漏頁、掉頁錯頁,不壓字,裝訂牢固。
3.掃描處理方面:通過掃描將以紙介質為載體的檔案文件轉變為電子檔案數據,掃描方式為:對于用黑白二值掃描無法正確反映其上彩色信息的檔案,應使用彩色掃描;對于使用黑白二值掃描不能獲得清晰圖像的檔案,可使用灰度掃描;對于上述情況外的大部分檔案,應使用黑白二值掃描。要求掃描采用多頁TIFF格式存儲。掃描像素均應不低于300dpi,可根據實際情況調整分辨率及其他相關參數,做到圖像清晰,存量適中。掃描好的電子原文應以“年度-保管期限-案卷號”方式命名。endprint
4.圖像加工方面:為確保每一幅掃描圖像的清晰、不失真,不允許采用批量圖像處理方法,需采用手工的圖像旋轉、糾斜、剪邊、線型彎曲校正、文字變形校正、中縫刪除、影像對中等處理。圖像處理后必須保證圖像信息與原文內容完全一致,不得刪除頁面任何有用信息,包括正文內容、頁眉、頁腳、手寫注釋和印鑒等。
5.存儲及管理系統銜接:經過數字化加工后形成的電子檔案圖像及其屬性信息應分別提交1套硬盤存儲和2套光盤存儲。光盤應采用正版知名品牌的單片包裝盒盤片;盤盒包裝應標注目錄、編號等信息,檔案的同一卷文件,不得跨越兩片光盤。成品電子檔案數據,須完全符合檔案系統的業務和技術要求,做到與系統的無縫銜接。
2 檔案文字識別
2.1 鑒定要求
僅對正式文件(及收發公文、公函)進行文字識別,須嚴格比照電子檔案原文進行鑒定。
2.2 識別要求
為確保文字識別后的電子文本顯示結果與檔案原件內容一致,特別應注意以下檔案文件(或部分)必須準確無誤:各種檔案中的紅、黑色標題;檔案正文中的主要單位名稱、行政條例、法令法規、人名;字體小且字跡較模糊的復印檔案;歷史時期較長的檔案;因紙張、字跡等因素不清晰的其他文件。
2.3 過程性要求
1.電子檔案檢查:對經過鑒定、需進行文字識別的電子檔案原件進行漏頁、傾斜、清晰度檢查,查看文件內容是否完整。對有問題的檔案須核對紙質原件,做到準確無誤。
2.文字識別工程的建立與自動識別:每個多頁TIFF建立一個單獨的工程文件,檢查文件頁碼前后順序。
3.手動校對:自動識別好的txt工程文件,須進行逐行逐字的二次校對,著重查看字形相近的、原始資料本身模糊的、平時少見的生僻字。
4.質量檢查:質檢人員要對手動校對完的文件進行再次全面檢查。
5.保存方式:對質檢合格的文件保存一份txt文本格式文件。
3 結束語
檔案數字化加工是一項長期而艱巨的系統性工作,必須加快海委檔案信息資源的數字化進程,積極開發檔案信息資源,促進海委檔案信息化建設,不斷滿足信息時代發展對檔案利用提出的新需求,把海河檔案館建設成為能夠便捷獲取海河流域各類信息資源的綜合型數字平臺。endprint