□ 葫蘆島市檔案局 李泓博 葫蘆島市檔案館 陶 冶
1.紙質人事檔案不規范。紙質檔案是檔案數字化的基礎,如果紙質檔案在收集整理過程中出現問題,那么數字化形成的數據必然是不合格的。以人事檔案為例,經過數字化的人事檔案信息錄入電腦后,雖然人事檔案文件題名、編號、成文日期等信息變得一目了然,但是無法通過這些信息來確認分類、頁碼是否正確以及檔案資料是否收集齊全,仍然需要人工核對,才能確保實體檔案的齊全、完整。因此,紙質檔案不規范是威脅檔案數字化的首要問題,然而紙質檔案的問題僅能通過檔案數字化工作得到一定程度修復或者補充,并不能通過檔案數字化徹底根除紙質檔案存在的問題。
2.人事檔案目錄信息錄入不完備。檔案目錄信息錄入是人事檔案數字化工作的重要組成部分,而且直接關系著人事檔案檢索利用的效果。如何在數十萬甚至上百萬的人員信息數據中檢索出所需要的人事檔案,主要依靠人事檔案目錄數據庫的建設是否完備。根據《遼寧省國有企業退休人員人事檔案規范化整理和數字化工作實施細則》(以下簡稱《實施細則》)的要求,人事檔案數字化目錄錄入項目一般都包括材料名稱、材料形成時間、文件頁數、姓名、身份證號碼等十幾項內容。實際工作中常見的問題主要有身份證號錄入有誤、檔案記載出生年月與身份證不一致、性別錄入錯誤等,這些信息的準確與否直接關系著人事檔案的安全保管和信息檢索。
3.人事檔案全文數據庫不合格。全文數據庫的問題主要體現在兩個方面。一方面,全文數據庫文件數量不合格。在掃描的過程中,由于人員疏忽或系統錯誤,經常造成掃描形成的圖像數量與紙質檔案數量不一致的狀況。以2020年葫蘆島市國有企業退休人員人事檔案驗收情況為例,除經過專門檢測軟件檢驗過的檔案數據,全市100余家國有企業退休職工人事檔案數字化驗收一審合格率為0%。掃描過程中極易出現漏掃、多掃的情況,造成掃描頁數與檔案目錄記載的頁數不一致,這樣輕則造成數據重復冗余,重則造成檔案信息無法查詢。如果掃描圖片數量不清,一旦在數據傳輸或管理時發生數據丟失,則無法明確交接雙方責任,為移交工作埋下隱患。另一方面,全文數據庫文件質量不合格。在掃描過程中,由于設備不同、實體檔案的類型和狀態不同會造成掃描形成的圖像質量參差不齊,主要體現在掃描圖像的色彩、分辨率、偏斜度等方面。另外,原始圖像上的雜質、折痕以及背透等問題都影響著圖像的掃描效果,進而影響光學字符識別(OCR)的效果。
4.目錄和全文數據庫關聯失效。按照《實施細則》的要求,目錄數據庫和全文數據庫的指針為掛接索引。掛接索引是關聯兩個數據庫的唯一通道,因此掛接索引的準確率是確保兩個數據相互關聯的前提。然而人事檔案掛接索引比一般檔案復雜,且掛接索引必須100%準確才能保證數據關聯。掛接索引形成過程中,英漢符號的差別、全角半角輸入的差別以及數位補零之間的差別都會影響最終的結果,導致檔案目錄數據與檔案圖像無法有效關聯。例如,目錄數據庫全宗號字段在錄入數據前多敲入一個空格鍵,這樣的錯誤很難通過肉眼觀察發現,但是會造成全部數據無法實現鏈接,而且不知從何下手修改數據。
以上四類問題是人事檔案數字化驗收過程中普遍存在的,想要提高退管人事檔案數字化的質量,僅靠嚴謹的工作態度,而沒有一套行之有效的驗收方法,很可能導致檔案數字化工作事倍功半,人事檔案的驗收無法給予檔案數據以合理保證。
隨著海量的人事檔案數字化信息不斷生成,檢測糾錯的難度是成幾何倍數增長的,即便理論上存在驗收方法可以保證檔案數據萬無一失,實踐中在經濟條件和技術條件的制約下也僅是紙上談兵。因此,通過人事檔案數字化驗收的檔案,驗收單位無法對檔案數據給予絕對保證,而是按照《實施細則》的相關要求,結合現有檔案工作實際情況,通過一定的信息技術檢測后,給予高標準的合理保證。以下結合葫蘆島市退管人事檔案數字化驗收工作實際,按照技術實現的難易程度或投入資金量列出四種驗收方法,供各位檔案同仁參考。本文所討論的人事檔案數字化驗收方法,僅限于對人事檔案數字化數據的檢驗,對于紙質檔案已經整理完畢,但既沒有錄入目錄信息又沒有掃描成為圖像的紙質檔案無法進行檢測,不在本文討論范圍之內。
1.方案一:格式審查+數量關系試算+數據抽檢。格式審查是指對國有企業退休人員人事檔案數字化形成的檔案數據的格式對照《實施細則》相關要求進行形式上的審查,即審查目錄數據庫中必錄字段是否齊全完整、非空字段有無缺失信息、掛接索引格式是否正確、全文數據庫中圖片存儲格式以及圖片命名格式是否正確。數量關系試算是指通過計算案卷目錄總頁數、份目錄頁數以及掃描圖片數三者相等的數量關系,去檢驗案卷目錄總頁數與份目錄總頁數之間、目錄總頁數與掃描圖片數之間是否相等,從而判斷兩個數據庫有關數據是否準確。數據抽查是對目錄數據庫和全文數據庫進行抽檢,檢測目錄與圖像的關聯是否準確、圖像掃描質量是否達標。通過以上操作,能在一定程度上保證人事檔案數據的準確性,雖然這套方案幾乎不需要投入任何經費,且不依賴檢測系統,但這套簡易驗收方法基本上是依靠驗收人員的觀察來判斷合格與否,因此保證程度不高,即便是通過驗收的數據,未來檔案利用過程中發現錯誤的概率也很高。
2.方案二:單向系統檢測+數量關系試算。單向系統檢測是指通過檔案檢測系統,從目錄數據庫出發,自動進行格式審查、非空校驗、身份證號檢測以及掛接索引有效性等檢測。目錄數據庫合格后,檢測系統根據掛接索引去關聯圖像,并檢測圖像分辨率、色彩以及存儲格式,保證與目錄數據庫成功掛接的全文數據庫圖像質量,再對兩個數據庫內的數量關系進行試算。這套方案需要借助專業的檔案信息管理或檢測系統,目前市場上常見的檔案管理軟件稍作修改后,基本可以實現單向檢測的功能,但單向檢測是以全部目錄數據庫中的數據為基準,去測試全文數據庫數據的有效性和準確性,并不能反向從全文數據庫向目錄數據庫發起測試。這就難免造成一些數據錯誤無法檢測出來,例如全文數據庫中存在掃描圖片,但是目錄數據庫中并未輸入對應的目錄信息,這樣的錯誤單向檢測系統是無法發現的。通過數量關系試算可以有效彌補單向檢測系統的不足,通過兩步檢測可以在合理的置信區間內推定通過數字化驗收的數據是準確無誤的。但這套方案的弊端就是定位較為困難,通過數量關系測算發現的問題,無法精準定位,需檢測人員具備較強的檔案業務和計算機操作能力,逐步嘗試以縮小范圍。在實際工作中,經常是在幾萬條目錄和幾十萬張圖片中尋找錯誤,費時耗力,效率很低。雖然這套方案存在著不足之處,但是相比于其他方法并綜合考慮資金和人力成本,此方案的性價比最高,且實用性、兼容性較好。因此,現實工作中葫蘆島市檔案局采用了該套方案。
3.方案三:雙向系統檢測。雙向系統檢測是指實現檔案數字化目錄數據庫與全文數據庫雙向檢測,既包括從每一條目錄信息檢測對應的每一張圖片,也包括從每一張圖片反向檢測對應的目錄信息。這樣單靠一套檢測系統就能確保兩個數據庫內所有的數據都經過檢驗,同時都與對應數據庫的信息建立了關聯,全面實現自動檢測和精準報錯,大大提高數據糾錯以及數字化驗收的效率,并且通過驗收檢測的數據比較接近絕對準確,完全達到合理保證的要求。然而這套系統存在著兩項不足,一方面,目前此類軟件需要定向開發,且開發費用較高,同時雙向檢測對計算機運算能力要求較高,當檢測數據量較大時,配置較低的電腦很可能無法流暢運行該系統甚至導致系統崩潰;另一方面,這套系統雖然可以保證數字化掃描圖片與目錄正確關聯掛接索引正確,但圖片實際內容與目錄記載信息仍有可能不一致。相比于方案二,方案三有更高的效率,大大節省人力和時間,但對于檔案數據準確性的提升不大,方案的整體性價比并不高,比較適用于設備較為先進且檔案數量龐大的檔案館。
4.方案四:雙向系統檢測+OCR檢驗。OCR檢驗是通過光學字符識別(OCR)技術,將圖像中的字符識別成為計算機可處理的字符,并將識別出的信息與目錄數據庫內的信息進行對比,從根本上確保圖片內的信息與目錄對應字段信息保持一致。能通過雙向系統檢測+OCR檢驗驗收合格的數據,無限接近于零差錯,只是由于目錄數據庫記載信息有限,無法全面反映文件全部內容,所以理論上目錄數據沒有記載的信息部分仍然存在錯誤的可能性。方案四對驗收軟硬件設備要求極高,部分技術尚在研究階段,尚不具備大規模推廣應用條件,但是此類解決方案代表未來檔案數字化發展的方向,目前屬于學科前沿。