論古籍數字化的檢索問題

2011-03-19 12:17:55郭偉玲戴艷清武漢大學信息管理學院武漢430072

圖書館理論與實踐 2011年10期

●郭偉玲，戴艷清（武漢大學信息管理學院，武漢 430072）

進入21世紀以來，我國古籍數字資源的建設呈現出一種新的氣象，古籍數字化工作中的基礎工作建設也得到了空前的重視。從宏觀層面建立具有中國文化特色的文獻資料類型（如古籍、拓片、輿圖等）的元數據格式及其擴展和互操作規則；古籍數字化的理論表述逐步成型，古籍數字化的學科體系初步完善；在數據庫建設方面成績亦是斐然。盡管中國古籍數字化建設斬獲頗豐，但目前中國古籍數字化資源的使用狀況堪憂，一方面原因在于文史工作者對于古籍數字資源的態度亟待轉換，另外一個方面則是因為目前古籍數字化的利用過程中出現了一些障礙，主要表現在最基礎的檢索問題上，這些困難導致目前古籍數字資源的使用情況不容樂觀。

1 古籍數字資源建設過程中容易出現的問題

1.1 古籍數字資源建設中的字體問題

一般來說，古籍數字化處理中的字體問題包含兩個方面：一是字體的個數，尤其值得指出的是古籍中包含了形態各異的避諱字、異型字、通假字等非常規用字，導致了古籍內所包含的字數異常龐大。目前在古籍文獻數字化處理的過程中，通用于業界的Unicode字符集具有近7萬字的容量，但以《中華字海》為例，收錄有85568個漢字，遠遠超過了字符集所涵蓋的最大限量，也不能滿足古籍龐大的字數要求。二是字形問題。漢字的形態從甲骨文的形式創造伊始，經歷了數千年的形態的變化，包含了各種字體形態，對于當前基于標準字體處理產生的計算機文字處理技術提出了更高的挑戰。目前業界在處理多種字體的問題上，涉及到了資源處理方式的選擇，如果采用文獻研究人員比較看好的掃描方式，各種不同的字體就會形成不同的圖形格式，那么數據庫的檢索就會在圖形檢索方面提出更高的要求。而現實狀況是，目前的圖形檢索技術并不發達，在這樣的技術背景下，字形顯然是古籍數字化建設中不能規避的難題。這兩個方面的因素成為當前古籍數字化工程中突出的障礙。

1.2 古籍數字化處理技術的選擇

目前古籍的加工技術分為鍵盤錄入、OCR識別錄入和掃描3種，這3種方法各有利弊。人工錄入可以更好地發展古籍數字化產品的拓展功能，但是錯誤率比較高，費工費時，且容易受到字符集的限制；OCR識別錄入可以加快速度，提高工作效率，但是對于古籍中的復雜字體和字符的識別率不能使人滿意，尤其是對于一些受到污損的古籍頁面處理差強人意；圖像掃描可以解決文字問題，對于掃描文獻的要求較高，對于要數字化的文獻，需要提前進行修補和完善處理。從普及度來講，目前多數機構和公司采用OCR識別錄入方法。從學術研究者利用的角度來看，學者們更容易接受掃描方法錄入，其原因在于：“合乎學術用途，適合學界需要”。[1]掃描圖書不僅數字化了文獻的文字內容，還利用圖像保留了文獻的形式內容，滿足了文獻研究者的專業需要。

數字化的存儲技術主要集中在存儲介質和存儲格式的選擇。目前古籍數字化產品的存儲格式主要有文本文件格式、數據庫格式、電子書格式、超文本格式、圖片格式、多媒體格式，數字化古籍格式之繁多可見一斑。[2]同時各個古籍數字化產品由于競爭和知識產權等原因，采用不同的閱讀器，并且各自不兼容，導致用戶利用的人為障礙。不僅如此，由于許多電子圖書采用了圖片格式，也給用戶提取資料帶來了許多困難。

1.3 古籍數字化標準規范

現今古籍數字化基本是獨立開展的，不管是從選題、投資、建設、運作等各個方面，古籍數字化都處于一種各自為政的局面。從技術上講，古籍數字化的一些技術問題尚未標準和規范化，總體缺乏協調，這一問題得不到有效解決，將制約古籍數字化的進一步發展。

2 古籍數字化中的檢索問題

2.1 古籍數字化工程中檢索技術的發展與成就

21世紀以來，古籍數字化發展迅猛，構成了一個龐大精深的中華文化立體知識體系。在此基礎上建設的數據庫，不僅可以實現海量信息查詢、字詞頻分析、用字量統計等古人難以實現的功能，在檢索技術上的進步也非常顯著。眾多古籍數據庫不僅僅具有普通數據庫常見的檢索功能，如全文檢索、關鍵詞檢索、布爾邏輯檢索、截詞檢索等，個別數據庫還開發出了古籍領域所要求的特色檢索功能和特定的輔助用法，這些特殊的檢索方式使得數據庫的利用價值有了較大提高。

① 朝代檢索。目前國內的中國基本古籍庫和《國學寶典》的檢索程序提供朝代檢索，中國基本古籍庫最近的全功能試用版加入了按年代檢索的功能。② 四部檢索。如《國學寶典》按范圍檢索分為經、史、子、集、其他5個部分，而中國基本古籍庫則是以四部的二級類目為參考類目。③ 古籍源檢索。中國社科院的《全唐詩》數據庫檢索系統，不僅可供快速查檢《全唐詩》中任何作品的字、句、標題、注解，還可以查找該作品在《全唐詩》中的冊、頁、行數；而中國基本古籍庫則提供版本檢索內容，可以按照文獻學界的普遍說法，輸入宋刻本、明刻本等條目進行檢索。④ 書法檢索。按照文字的字形和書法家進行檢索。目前提供書法檢索的數據庫主要是CADAL中的古籍數據庫，其處理方法為：先根據特征從大量數據量中抽取可能相似的少量書法字，而后把用戶提交的樣本字與這些少量書法字進行不精確匹配，提高了檢索速度和檢準率。⑤ 內容擴展檢索。此類系統在檢索性能上有了很大改進，檢索的范圍不再局限于書目和文本，而是對古籍的標題、詞句、注解等實際內容進行全面檢索。

2.2 古籍數據庫檢索的局限性

雖然古籍數據庫在檢索技術方面取得了巨大進步，但是較學者對數據庫的期望還存在很大的差距，主要表現在以下方面：

（1）已有的檢索技術功能單一。目前已經問世的大型數字化古籍，基本上都有全文檢索功能，但全文檢索的功能相對單一，還不能滿足專業研究者的多元需求。這些數據庫中所提供的全文檢索，只能是關鍵詞的檢索，不論是單詞檢索還是組合檢索，檢索一次，都只能檢索到與輸入的詞語嚴格匹配的資料，而不能檢索到不含輸入的詞匯而實際相關的資料。從檢索技術上來講，基于關鍵字的文本處理方法，主要依據的是詞頻信息，兩個文本的相似度取決于它們擁有的共同詞匯的數量，因而無法分辨自然語言的語義模糊性。[3]也就是說，與當代資源數據庫相比較，數字化古籍目前只能固定檢索海量數據，而不能智能化地檢索和生成新的數據。因此，在數字化古籍檢索中，我們無法采用詞語相近性與相關性的特點進行智能擴展檢索，在普通數據庫中出現的標簽云等提示性的擴展檢索，由于古籍文獻的特殊化，并不能實現檢索詞的智能限定和擴展，進一步提高檢全率。

在古籍檢索的案例中，采用常規的檢索方法，比如用關鍵詞檢索人物資料，通過組合檢索或多次檢索的方式還能比較全面地查到所需資料的話，那么，查找相關主題的資料，就比較困難了。比如說，想查《四庫全書》中有關文學傳播的資料，但是古人并不常用“傳播”這個概念，如果用“傳播”作為關鍵詞，就無法查到《四庫全書》中蘊藏的大量的傳播資料。這種情況的出現，其原因在于古籍文獻中的行文方式、句詞的涵義與現代漢語存在許多根本的差別，其語意可以根據上下文甚至語境產生截然不同的設定和匹配，這就導致了在古籍數字檢索中存在獨有的語義聯系問題。針對古籍的自身特點，我們需要著重加強對漢字間關聯的查找。古人在寫文章時是不使用標點符號的，因此古人在讀書時要自己斷句，只有理解了詞與詞之間的聯系，才能真正理解古文的意思。在古文中有時一個字代表一個詞，而詞的一個特點就是每個詞都具有一定的含義，對某個詞的詞義判斷錯誤，往往會導致標點失誤，從而無法通古意。這是在古籍數字化中需要特別注意的。[4]雖然部分古籍數字產品推出詞典功能，但并不能滿足文獻研究者需求。

（2）古文獻的檢準率不盡如人意。檢索的準確性也是衡量檢索程序的一個重要標準，但大多數的檢索程序的準確性難以令人滿意。在檢索式中，一個詞語的權重不僅僅取決于文本中出現的詞頻，還會受到其在文中出現的位置的影響。古典文獻著述類型多樣，頁面版式復雜，同一頁面會出現不同顏色、字形、大小的字體，不同的文獻性質，如正文、注、疏、解等各種字體字形，使得目前古籍檢索中檢索詞權重計算混亂，在非正文中出現的關鍵詞在檢索計算中容易被忽略，直接導致了檢準率的下降。同時還需要注意的是檢索詞的本身。古籍中字的通假、異型、繁簡等情況的出現，給古籍數字檢索也帶來了很大的困難。比如在《四庫全書》中檢索含有“籑”字的資料時，大量含有“撰”“饌”“纂”的資料也一并檢索出來，而且這些無關的條目還無法排除。[5]另一方面，一些應該同時檢出的異體字，程序卻視為不同的字而不能檢出。有些關鍵詞明明在所收文獻中存在，通過數據庫所提供的瀏覽功能也可以看到，可是通過檢索程序進行搜索就是檢不出來。

（3）檢索結果的處理存在缺陷。古籍數據庫的檢索結果與常用字處理軟件的兼容性不盡如人意。檢索出來的資料人們一般是要復制到Word等字處理軟件中使用的，然而有些數據庫的資料復制粘貼后會發生錯誤，尤其是掃描錄入的圖像格式。古籍文獻版式復雜，不少古籍帶有注文，注文一般是隨文用小字表示，甚至有疏有注有引，各個字體字形不一，在對檢索結果進行文字處理時，正文與注疏相混。如何精準地識別檢索結果，也是目前數據庫檢索所面對的難題之一。

3 問題分析

基于上節內容介紹，我國的古籍數字化在檢索方面的技術處理同用戶的使用需求之間仍然存在很大距離，古籍數字化產品的檢索技術存在種種瓶頸，其原因有以下幾點：

（1）古籍數字化未能解決古籍檢索中的關鍵問題。當前數字化古籍檢索的核心技術仍然是傳統的全文檢索方法。全文數據庫檢索系統主要是采用逐字標引形式，基于讀者輸入的檢索字或詞，在數據庫中查找完全匹配的結果以返回給用戶。[3]這種檢索模型首先假定一個關鍵詞唯一地代表一個概念或語義單元，然而古籍文獻的實際的情況是：一詞多義和多詞同義現象在文本里是非常普遍，而解決一詞多義和多詞一義問題是所有古籍全文檢索必須面對的兩個主要任務。古籍文本中出現的詞往往存在一定的相關性，古籍中個別字詞語義的準確表達不僅取決于詞匯本身，也取決于上下文對詞義的界定，如果忽視古籍文本上下文語境的限制，僅以孤立的關鍵字來檢索文本的內容，勢必影響信息檢索結果的查準率與查全率。古籍的文字經歷了朝代變遷歷史更替，其意義多發生了巨大變化，何況還有古籍中多種古漢語的特殊用法，依托于當代漢語語義形成的檢索技術對于古籍中的字義檢索力不從心。這種狀況出現的根本原因是未解決古籍檢索技術中的關鍵性技術——古漢語詞典切分技術，它掩蓋了概念主題和詞匯間的關系，檢索時容易出現誤檢和漏檢；其次，由于單漢字索引系統不能指定不同詞間的相互參照關系，很難實現檢索結果的擴檢和縮檢；再次，單漢字索引為原文中每個漢字建立倒排文件索引，需要耗費大量的存儲空間，并且對于每個檢索提問需要多次交運算，耗時較多，檢索效率低，影響了古籍自動標引、名稱主題檢索及專有名詞檢索等的實現。[6]

（2）對古籍的數字化處理不盡完善。從文獻的內容處理來講，當今古籍數字產品未充分考慮古籍數字化領域的特點，尤其是古籍字形和字義的特點。在文字的形態方面，古籍文獻中異體、避諱、通假、俗字等情況多有出現，而且還有在流傳過程出現的訛誤，造成很多非標準字體；[7]在字形方面，各個朝代的圖書刊刻對字體有不同的偏好，各個字體之間又有些許的差別，在進行數字化處理以后，尤其是采用掃描處理方式，數據庫中的圖像不能直接被檢索，導致檢索結果不符合用戶初衷。從文獻的形式處理來說，目前古籍數字化的工作仍局限將古典文獻掃描形成電子出版物，并非建立在正確理解原文基礎上的文字轉化，這樣的數字化方式只適用于保存，既不利于學者檢索，也不利于傳統文化的傳播。

（3）古籍數字化標準不一。雖然我國具有數字圖書館標準規范中專門規范古籍著錄的規則——《我國數字圖書館標準與規范建設》，但是由于數字化的主體、性質、目的不同，在進行數字化的過程中，制作時使用不同的格式和分辨率等，獲得的古籍數字化文件格式多樣，閱讀器不同且不兼容，造成多數據來源下數字化古籍信息集成、數據交換困難，使得檢索技術功能不能完美體現。

4 關于解決古籍數字化檢索問題的幾點建議

對于古籍數字化產品，文獻學者有著自己的檢索要求，從大體上來講，由單一檢索變為多元檢索、由定向檢索變為關聯檢索、由靜態檢索變為動態檢索，簡單地說，就是實現檢索的智能化。[8]

（1）從古籍文獻整理方面規范古籍來源。從古籍檢索的本質來說，技術只是形式，內容才是核心，因此，“只有熟悉對象（古籍）內涵的主體，即內容專家，才有能力決定實現古籍數字化的基本路向和基本框架，技術專家的作用就是在既定的框架內如何最便捷、最優化地實現目標。”[9]在數字化進行之前，保證技術專家和文獻專家的合作，利用雙方的專業知識推進古籍數字化檢索技能的提高。

（2）從古籍數字化建設角度來提升檢索能力。從宏觀角度來看，古籍數字化是一項龐大的文化建設工程，需要相應的基礎理論的支持。比如，從信息管理、計算機、哲學、通信技術、文化、歷史等方面進行多方位的深入的研究；在書目庫、版本庫、全文庫、知識庫的整合和銜接上進行整體、統一、有序的設計和開發，為古籍資源的開放利用找到一條行之有效的道路。[10]在此基礎上，進一步研究如何利用現代計算機技術，從可視化檢索、語義檢索、語義網發布等方面開展突破。

從具體行動上來講，要從古籍數字化建設階段的工作入手，規范古籍加工整理的電子數據格式及瀏覽手段。要保證古籍檢索的性能，追本溯源應著重研究古籍資料的全息無損清晰掃描，實現零邊距掃描，力圖表現古籍的完善面貌。之后，還需進行掃描成果去噪，因為掃描的圖片歪斜、不清晰以及污點、折痕、噪點等，對以后文字和圖像的影響都會很大。所以在掃描識別后要使用專業的圖象處理軟件對圖片進行糾偏和清晰度調整，以確保較高的識別率。

（3）從組織管理角度考慮數據庫檢索。當下古籍數字化建設中會有很多問題和沖突，國家站在宏觀的高度應該有一個整體控制，使基礎性和支持性的研發和具體的古籍善本數字化開發互相促進，使古籍數字化要分階段、有步驟地逐步實現高效快速的發展。單從技術層面上來講，開發古籍資源數字化要依托于一系列開放、兼容、通用的計算機處理軟件，因為這樣將會大大加快古籍資源數字化的進程，形成統一的數據庫框架和技術協議，從宏觀角度推進解決古籍數字化產品的檢索問題。

（4）從檢索技術層次來考慮數據庫檢索。隨著當前古籍數字化建設和基礎研究的逐步深入，一些基于知識發現的技術應用到古籍全文庫構建之中，利用本體論的思想來建構知識庫、進行語義識別和檢索成為當前古籍數字化研究熱點。許多研究者在嘗試分析某一專題古籍文獻的基礎上，系統地解析該領域中古籍文獻資源的組織方法、體系以及標示方法，結合主題詞、分類法的相關系統知識，移植計算機信息科學中“知識元”的概念，借鑒本體論的思想，采用自上而下的方法嘗試編制某一領域的適合知識庫建設的古籍分類表和古籍概念關系體系，作為分類主題一體化古籍敘詞表的基礎，以更好地推進數字化古籍資源的標引和檢索。這種在以某個專題為研究突破口的理論嘗試，以本體的建設為機制來探索語義檢索，對于尋找新的技術手段實現古籍的知識發掘，具有很強開啟思維的作用，值得相關學者作進一步深入研究。

[1] 薛天緯.數字化古籍由錄入改掃描勢在必行[EB/OL].[2010互12互25].http://www.guoxue.com/wk/00 0646.htm.

[2] 陳陽.中文古籍數字化的成果與存在問題[J].出版科學，2003（4）：46互48.

[3] 劉海峰，等.基于潛在語義空間的文本檢索問題研究 [J].情報科學，2007（5）：748互753.

[4] 林欽.Unicode在中文古籍數字化中的應用[J].福建圖書館理論與實踐，2010（3）：61互62.

[5] 楊琳.大陸古籍數字化的現狀及存在的問題[EB/OL].[2009互12互25].http://www.guoxue.com/gjszh/yjwz_011.htm.

[6] Xia-FenZhang，etal.Hierarchicalap proximate matching for retrieval of Chinese historical calligraphy character[J].Journals of Computer Science&Technology，2007，122（4）：633互640.

[7] 丁侃.古籍數字化的保真問題[J].中醫文獻雜志，2009（2）：31互33.

[8] 常娥.古籍智能處理技術研究[D].南京：南京農業大學，2007.

[9] 付艷.基于內容的古籍檢索技術研究[EB/OL].

[2010互12互25].http://www.guoxue.com/wk/000655.htm.

[10] 周迪，宋登漢.中文古籍數字化開發研究綜述[J].圖書情報知識，2010（6）：40互49.