摘 要 古籍索引數據包含古籍電子索引和其他具有索引功能的古籍元數據。兩者在基本性質、數據結構、加工方式、學術含量等方面差異明顯,但是可以在一定條件下實現相互轉換。古籍索引數據能夠支持資源揭示、文本碎片化、數據挖掘、創建新數據等應用。
關鍵詞 古籍 索引 數字化
分類號 G255.1
DOI 10.16810/j.cnki.1672-514X.2017.05.×××
Abstract The index data of ancient books includes digital index of ancient books and other metadata of ancient books which has index functions. They are different from the aspects of basic features, data structure, processing methods and academic quality and so on. The format of the index data of ancient books can be mutually transformed under the certain conditions. The index data of ancient books can support the application of the resource description, the text fragmentation, data mining, and the creation of new data.
Keywords Ancient books. Index. Digitization.
索引是對某種或某一文獻集合中所包含的各篇文章,或所討論的各個局部主題,或所涉及的各種事項(如地區、人物等)以簡明的方式分別著錄標引,為用戶提供便捷檢索服務的工具[1]。在《索引編制規則(總則)》(GB/T 22466-2208)中,索引定義為指向文獻或文獻集合中的概念、語詞及其他項目等的信息檢索工具,由一系列款目及參照組成,索引款目不按照文獻或文獻集合自身的次序排列,而是按照字順的或其他可檢的順序編排。按索引在文獻檢索中的功用分,可分為文獻內容索引、文獻篇目索引;按索引的標目分,可分為主題索引、著者索引、名稱索引、地名索引、題名索引、代碼索引、關鍵詞索引、全文索引、引文索引等[2]。
古籍索引是揭示古籍內容的一種特定形式,是將古籍中的有關事物名稱、篇名、字句、詞語、人名、地名、內容主題等分別摘錄標引,注明出處、頁碼與行數,并按一定的排檢方法編輯而成,供人們查尋有關古籍文獻的內容[3]。陳東輝在《二十世紀古籍索引編制概述》[4]《臺港地區所編古籍索引綜述》[5]《試論日本所編的中國古籍索引》[6]《歐美中國古籍索引編制概況》[7]等文章中梳理了我國古籍索引發展的脈絡,同時概述了臺港地區、日本、歐美等漢籍索引編制的情況。毛建軍在《古籍索引的電子化實踐》[8]《古籍索引電子化與古籍圖譜數據庫的建設》[9]《古籍索引研究20年回顧及其電子化趨勢》[10]等文章中討論了我國古籍電子化的發展現狀。黃建年在《中國古籍索引編制軟件概述》[11]《基于VFP+Word的多文本古籍索引編制實驗》[12]《漢文古籍索引自動化實踐與研究概述》[13]等文章中綜述了我國古籍索引編制軟件及古籍索引自動化方面的研究與實踐。
古籍索引電子化是指古籍索引編制過程的計算機化,其內涵包括兩個方面:一是用計算機編制的各種紙質形態的古籍索引;二是用計算機表達的古籍索引系統[9]。古籍索引電子化的成果即為古籍電子索引、索引電子版或索引數據庫(以下通稱為古籍電子索引)。與之相關的研究中,經常涉及古籍全文檢索系統,一些研究者甚至把古籍全文檢索系統與逐字索引相提并論。然而,兩者的區別顯而易見。古籍全文檢索系統通常由檢索軟件和數據庫組成,數據庫中至少包含古籍文本數據和索引數據。只有古籍全文檢索系統中的索引數據才具備索引功能,可與逐字索引進行比較。
1 古籍索引數據
狹義的古籍索引數據即古籍電子索引,而廣義的古籍索引數據是具有索引功能的古籍數據。在古籍數字化領域中,常見的古籍數據包括目錄數據、索引數據、圖像數據、文本數據等,并在此基礎上形成了目錄庫、圖像庫、全文庫、資料庫、知識庫等,與相關軟件一起構成古籍數字化資源系統,實現顯示、檢索、瀏覽、下載等功能。這里的索引數據即廣義古籍索引數據(以下簡稱古籍索引數據)。
古籍索引數據既包含古籍電子索引,也包含其他具有索引功能的古籍元數據,如古籍圖像標引數據、古籍全文索引數據等。與古籍電子索引相比,其他具有索引功能的古籍元數據具有自身的特點。為了便于說明,選用古籍圖像標引數據與古籍電子索引進行比較。
古籍圖像標引數據是指向古籍圖像或圖像集合中所涉及的各種內容(如篇目、人物等)的標引數據,具有索引的基本功能。與古籍電子索引相比較,兩者主要有以下幾點區別。
其一,古籍圖像標引數據是古籍元數據,既要與書目元數據相關聯,又要指向古籍圖像數據(對象數據)。同時,古籍圖像標引數據是機讀數據,必須依據應用系統的需求進行編碼。以國家圖書館數字方志項目[14](以下簡稱數字方志)為例,圖像卷目標引數據如下:
而古籍電子索引是成熟的信息檢索工具,可單獨使用,可讀性好。
其二,古籍圖像標引數據的結構較為復雜,要依據系統和應用的需求加入必要的字段。仍以數字方志為例,圖像卷目標引數據包括包含數據編號(No)、卷次(chapter_num)、卷名(chapter_name)、層級標識(serial_num)、被標引文獻編號(book_num)、圖像路徑(volume_num)、文件指針(page_num)、標引數據屬性(page_prop)等字段。同時,古籍圖像標引數據類型多樣,數據結構各不相同,尚無統一的標準規范。而古籍電子索引的結構統一,索引款目作為基礎單元,由標目、注釋、副標目及出處組成,使用見參照和參見參照作為索引連接系統,符合《索引編制規則(總則)》的要求。
其三,古籍圖像標引數據是古籍數字化加工的產品,要在一定的成本范圍內實現大規模量產,通常采用軟件工具自動標引,或借助軟件工具人工標引。以國家圖書館中華尋根網項目[15](以下簡稱尋根網)為例,2年內完成家譜掃描2300余種250余萬筒子頁,使用圖像數據標引軟件,完成人名標引數據20 223 716筆,篇名標引數據723 452筆。而古籍電子索引編制包含選題、選書、選本、勾標、排序[16]等環節,必須由專家指導或參與,雖然使用索引軟件能夠大大提高古籍索引編制的效率,但是古籍索引的編制周期遠長于古籍圖像標引數據加工。據潘樹廣、黃鎮偉編譯《中國文學語言學文獻指南》[17]統計,國內外編制中國古籍索引(包括后附式索引)811種,被索引古籍約3000種。
其四,古籍圖像標引數據是古籍數字化項目的成果物,既要滿足項目的總體需求,又受項目各項條件的制約。古籍圖像標引數據強調的是應用價值,其學術含量具有不確定性。而古籍索引既是從事古籍整理研究的必備工具書,編制工作本身又是古籍整理研究事業的有機組成部分,是一項繁重艱難而又別具意義的學術性工作,應將其成果與古籍整理研究其他成果等同看待[18]。通常情況下,古籍圖像標引數據的學術含量遠低于古籍電子索引。
雖然古籍圖像標引數據與古籍電子索引區別明顯,但是古籍圖像標引數據也具備索引功能,在一定條件下可與古籍電子索引相互轉化。以古籍圖像標引數據為基礎,在專家的指導和參與下,確定文獻或文獻集合,依據《索引編制規則(總則)》修訂索引款目,添加必要的參見,并按照字順或其他可檢的順序重新編排索引款目,即可將古籍圖像標引數據轉化為古籍電子索引。另一方面,依據古籍數字化項目的需求,確定古籍對象數據,將索引款目中的出處直接替換為對象數據鏈接,再按需加入必要的字段,處理參照關系、一對多索引等情況,并對索引款目重新排序,即可將古籍電子索引轉化為古籍圖像標引數據。
綜上所述,古籍索引數據是具有索引功能的數據,既包含古籍電子索引,也包含其他具有索引功能的古籍元數據,如古籍圖像標引數據、古籍全文索引數據等。古籍索引數據既要與目錄數據相關聯,又要標引到對象數據,在古籍數字化資源系統中發揮著不可替代的作用。
2 古籍索引數據應用
古籍索引數據本身就是檢索工具,資源揭示是古籍索引數據的基本應用方式。此外,古籍索引數據還可以支持文本碎片化、數據挖掘、創建新數據等應用。
2.1 資源揭示
古籍索引數據能夠揭示不同粒度的信息,既包括卷、篇、章等數據對象,又包括人名、地名等專類數據。同時,古籍索引數據可以直接鏈接到圖像、文本等對象數據,支持瀏覽、檢索等功能。無論是北京書同文數字化技術有限公司的《四庫全書》《四部叢刊》等數據庫,還是北京愛如生數字化技術研究中心的《中國基本古籍庫》《中國方志庫》《中國類書庫》等數據庫,都使用卷目索引數據,用戶通過卷目數據可以直接跳轉到所需的卷冊,顯示相應的圖像或文本。
在當前的技術條件下,圖像數據的加工成本遠遠低于全文文本數據,通過加入古籍索引數據,能大大提高圖像數據的可用性和易用性,并使圖像數據具備一定的檢索能力。仍以尋根網為例,通過加入人名和篇名標引數據,可以提供人物、支派、像贊、墓圖、傳記、序跋、藝文篇目、家規家訓等檢索。
2.2 文本碎片化
文本碎片化是將全文文本數據按語義拆解為文本片段,每個文本片段能夠表達獨立語義且不可再分。同時,每個文本片段具有所屬文獻、所在位置、時間、空間、內容等屬性,通過結構元數據可以重構為卷、篇、章等數據對象。文本碎片可以直接應用于古籍自動編纂、自動輯佚、自動校勘、數據抽取、智能檢索等領域。
古籍索引數據在文本碎片化過程中發揮著重要的作用,既可以作為文本片段劃分的依據或結構元數據,又可以作為文本片段的屬性。如國家科技支撐計劃“基于方志和古地圖的文化旅游信息資源處理與整合”課題(2013BAH67F04),先以《大清一統志》的卷目數據為依據,將文本切分為若干文本塊,再利用原書版式信息,將文本完全碎片化,生成文本片段超過10萬個;再將卷目數據進行分類篩選,包含方志類目的卷目數據作為內容屬性,包含地名的卷目數據作為地理屬性;再結合卷目數據的層級信息,對文本片段進行屬性標注;最后依據項目需求,按照文本片段屬性篩選出5萬個文本片段,通過軟件結構化后生成專題資料庫。
2.3 數據挖掘
古籍數據挖掘包含信息標注、數據抽取、數據分析、知識重構等方式,受古漢語詞匯和語法研究的制約,很多算法不適用于古籍,尤其是沒有標點、未經過整理的古籍。同古籍全文文本相比,古籍索引數據是結構化數據,又具備一定的知識含量,可以作為數據挖掘的數據源。如國家科技支撐計劃“地方志資源調查與數字化加工規范研究”課題(2015BAK07B01),以數字方志約46萬條卷目數據為數據源,使用分類、聚類、異常檢測等數據挖掘方法,研究古代方志的體例及內容特性。
同時,古籍數據挖掘需要使用領域本體,古籍索引數據可以作為本體種子,應用于本體實例加工。如數字方志歷史人物本體試驗項目,先將《二十五史紀傳人名索引》[19]數字化,再轉換成古籍索引數據,包含姓氏、人名、又名、出處等字段,以中華書局標點本《二十四史》和《清史稿》為數據源,通過軟件生成人物本體數據。
2.4 創建新數據
古籍索引數據具有一定的信息含量,可在索引數據的基礎上添加其他數據,創建具有新功能的數據。仍以尋根網為例,人物標引數據包含姓、名、性別、諱、字、號、世代、支派等信息,篇目標引數據包含題名、著者、世代、關鍵詞、出處等信息。在人名與篇名標引數據的基礎上添加人物關系數據,生成譜系樹。譜系樹將每個人物作為一個節點,每個節點包含該人物的主要信息和父子、兄弟等親屬關系,并將像贊、榮恩、家傳、藝文等與該人物進行關聯,既可存儲譜系數據,又能支持譜系圖動態顯示[20]。
3 余論
在古籍數字化領域,古籍索引數據的實踐較為豐富,但相關研究嚴重滯后。以《地方志數字化模式與案例分析》一書為例,該有并沒有將圖像標引數據列為單獨的章或節,只是在“圖像數據發布”部分列出了古籍圖像數據標引的原則,分3類(面向文件、面向目錄和面向內容的圖像標引數據[21])討論了圖像標引數據的內容與格式,并舉例說明。
而在索引學領域,研究熱點分布在多個方面,包括索引編制的研究、模式識別與智能系統相關的研究、空間索引的研究、信息檢索相關的研究、數據庫的相關研究、引文索引的研究和資源發與利用的研究等[22]。古籍索引數據并非索引學領域的研究熱點。
目前,古籍索引數據研究面臨很多亟待解決的問題,如古籍索引數據基本屬性、古籍索引數據標準規范、古籍索引數據整合、古籍索引數據應用等。無論是將索引學引入古籍數字化領域,還是將古籍索引數據及其應用納入索引學的研究范疇,都將產生一系列的新成果,推動古籍索引數據的研究,指導古籍索引數據的應用實踐。
參考文獻:
[ 1 ] 張琪玉.圖書內容索引編制法:寫作和編輯參考手冊[M].北京:化學工業出版社,2006:1-2.
[ 2 ] GB/T 22466-2208,索引編制規則(總則)[S].北京:中國標準出版社,2009:1-3.
[ 3 ] 黃建年,侯漢清.基于GB/T22466-2008的古籍索引編制技術要點[J].圖書館建設,2011(6):45-48.
[ 4 ] 陳東輝.二十世紀古籍索引編制概述[J].文獻,1998(2):65-78.
[ 5 ] 陳東輝.臺港地區所編古籍索引綜述[J].辭書研究,2005(3):212-219.
[ 6 ] 陳東輝.試論日本所編的中國古籍索引[J].文獻,2005(2):74-91.
[ 7 ] 陳東輝.歐美中國古籍索引編制概況[J].中國索引,2006(1):28-30.
[ 8 ] 毛建軍.古籍索引的電子化實踐[J].中國索引,2006(4):37-40.
[ 9 ] 毛建軍.古籍索引電子化與古籍圖譜數據庫的建設[J].檔案與建設,2009(2):13-18.
[10] 毛建軍.古籍索引研究20年回顧及其電子化趨勢[J].辭書研究,2007(5):21-29.
[11] 黃建年.中國古籍索引編制軟件概述[J].圖書館學研究,2011(6):65-68.
[12] 黃建年.基于VFP+Word的多文本古籍索引編制實驗[J].現代圖書情報技術,2011(10):85-89.
[13] 黃建年.漢文古籍索引自動化實踐與研究概述[J].佛山科學技術學院學報:社會科學版,2011(6):50-56.
[14] 數字方志[EB/OL].[2016-05-01].http://mylib.nlc.gov.cn/web/guest/shuzifangzhi.
[15] 中華尋根網[EB/OL].[2016-05-01].http://ouroots.nlc.cn/index.jsp.
[16] 王雅戈,杜慧平.機編古籍索引探討:以《道德經》語詞索引自動編纂為例[J].圖書館論壇,2008(5):34-37.
[17] 潘樹廣,黃鎮偉.中國文學語言學文獻指南[M].西安:陜西人民出版社,1988.
[18] 陳東輝.關于古籍索引工作的若干思考[J].國家圖書館學刊,1997(1):42-47.
[19] 上海古籍出版社,上海書店.二十五史紀傳人名索引[M].上海:上海古籍出版社,1990.
[20] 肖禹.Lib2.0環境下譜牒文獻的收集與整理:以全球中華尋根網項目為例[J].科技情報開發與經濟,2010(29):17-19.
[21] 王薈,肖禹.地方志數字化模式與案例分析[M].北京:國家圖書館出版社,2012:196-204.
[22] 邱均平,樓雯.近二十年索引學發展演進與研究熱點探析[J].圖書館雜志,2012(12):12-17.
肖 禹 國家圖書館副研究館員。北京,100034。
(收稿日期:2016-05-11 編校:方瑋)