古籍數字化是利用現代信息技術將古代文獻轉化為電子媒體的形式,通過光盤、網絡等介質保存和傳播。隨著計算機及網絡技術的發展,數字化古籍極大地提高了人們學習研究和應用古代文化的效率。編輯在加工稿件過程中,經常會遇到查證古籍引文的情況,而數字化古籍為編輯查證引文帶來了極大的便利。
稿件中出現引文錯誤一般由兩種原因導致:一種是作者錄入錯誤,一種則是作者參考的數字化古籍存在錯誤。
古籍數字化是一個非常復雜的跨學科問題,目前不少古籍數字化產品尚未盡如人意,其中突出的一點就是用字問題嚴重,尤其是某些網絡上流傳的一些古籍版本甚至錯別字迭出。例如,有學者發現,網絡上錄入版的《千字文》或多或少都存在錯別字現象,有的一篇中竟然有22個錯別字,差錯率高達220/10 000,大大超過了新聞出版總署圖書編校差錯率“未超過1/10 000的為合格”的規定。由于電腦錄入均采用現成的字庫,因而其說的錯別字實際多為誤用別字,主要有音同音近致誤和形近致誤兩大類;另外還有繁簡字誤用,異體字選用不當或誤用異體的形近字等問題。
數字化古籍出現以上問題的原因主要有以下兩方面:
從古籍應用上講,由于諸多的原因,某本書常常形成不同的版本,選用不同的版本,某些內容的文字會有較大的差別,甚至可能完全相反。同時,由于古籍原本都是豎排繁體字,還包含大量的異體字、通假字等,且沒有標點符號,行文格式繁瑣,所以必須先進行整理;古籍中的同一個事物常有幾個不同的稱呼,如同一人物有不同的名、字、號、官職、謚號等,同一地方在不同時代稱呼有別,如果數據庫系統未建立起關聯,檢索時很麻煩也很容易漏檢。以上有關古籍整理工作只能依賴從事古籍研究的專業人員,僅靠計算機技術人員是無法解決以上問題的。
從計算機技術上講,古籍文本輸入主要方法有鍵盤輸入與光學字符識別掃描輸入。鍵盤輸入效率低且容易出現錄入錯誤,而掃描輸入也存在單位成本高、識別率低等技術性問題。并且現有的漢字識別系統多數是針對簡體的,即使是能識別繁體漢字的系統,也由于古籍漢字的頻度與現代漢語差異較大而使得識別效果一般較差。同時,相對古籍中眾多的繁體字、異體字、通假字、避諱字而言,計算機的文字編碼不敷應用。中華文化博大精深、源遠流長,許多漢字在今人看來是古字、生僻字甚或是死字,但它們對于歷史和文明的考證卻是不可或缺的;而且原始古籍均是用繁體字排版,容易使接受簡體字訓練的現代讀者產生較大的閱讀障礙。現在雖能通過某種解讀器進行轉換,但目前的轉換技術,只是一種機械的轉變,缺乏特定文字原始意義上的修正,從而在轉換時,有時會發生一些字義上的混淆。
鑒于當前數字化古籍的特點,編輯需要謹慎、巧妙地利用數字化古籍,既要充分利用數字化古籍方便檢索查證的特點,又不能輕信數字化古籍產品,以幫助保證稿件質量和提高工作效率。
數字化古籍的表現形式可以分為三種類型:圖像版、全文版、圖文版。圖像版是利用掃描技術將古籍以圖像格式掃描存儲,有簡單的標題和分類,但缺少檢索手段。全文版以文本形式將古籍存儲于光盤上,并在全文檢索系統的支持下,對文本實行逐字逐句檢索。但它不能像圖像版那樣保持古籍原貌,而且文字錄入的難度也相當大,但具備方便快捷的檢索功能。圖文版是在古籍書頁圖像存儲的基礎上,將書中具有檢索意義的內容數字化,并輔以數字化的電子工具書,為讀者提供快捷有效的檢索、統計、整理和編輯功能。因此圖文版數字化既具備方便快捷的檢索功能,又能讓用戶得覽古籍原貌,并可用文本對比圖像進行查證,避免將繁體字轉換為簡體字和古籍中將異寫、通假、避諱等生僻字用常見字替換等原因導致的各類錯誤。
編輯利用數字化古籍時,首先應選擇將古籍整理方面的權威和高新計算機技術有機結合的知名品牌,盡可能選用圖文版數字化古籍。當編輯利用古代漢語知識發現數字化版本中仍有疑問時,應找來權威的有關紙質古籍進一步查證,而不能輕易放過。編輯應用數字化古籍應及時升級,跟蹤使用最新版本。另外,還可以與作者交流利用數字化古籍的經驗,借助作者的專業特長識別和進一步發現稿件中古籍引文所存在的問題。隨著古籍數字化的發展,檢索智能化程度的提高,數字化古籍將成為編輯離不開的助手。