內容摘要:敦煌是絲綢之路上的重鎮,古代多種文化在此交融、碰撞。由于特有的歷史、風土條件,以原藏于莫高窟第17窟的遺書為代表,敦煌保存了大批古代遺書。敦煌遺書的發現,是近代重大學術發現之一,引起世界的高度重視,促成了敦煌學的誕生。但是,敦煌遺書數量巨大,形態復雜,蘊藏的研究信息十分豐富,為編目工作帶來極大的困難。本論文介紹為解決這一困難所建設的敦煌遺書數據庫。相信這一數據庫的最終完成并上網公布,將為敦煌研究者提供實用、高效的研究平臺。
關鍵詞:敦煌遺書;數據庫;敦煌研究平臺
中圖分類號:K870.6;TP393.1 文獻標識碼:A 文章編號:1000-4106(2010)05-0119-06
一、導 言
全世界所藏漢文敦煌遺書的總數為58000余號,至今缺乏一個完整、翔實、實用的總目錄。敦煌遺書兼具文物、文獻、文字三方面的研究價值。蘊藏的研究信息量極為龐大。敦煌遺書的形態極其復雜,所蘊藏的研究信息的形態也極其復雜。以上兩點,為全面著錄敦煌遺書、進行編目帶來極大的困難。現代數據庫技術的發展,使利用數據庫進行敦煌遺書編目成為可能,但如何建設一個符合敦煌遺書實際情況的數據庫。依然是我們面臨的重大課題。2005年,國際敦煌學界曾經齊聚在上海師范大學,專題討論有關建設“敦煌知識庫”的問題。會議論文結集為《敦煌學知識庫學術論文集》,2006年由上海古籍出版社出版。會議的召開,說明建設數據庫進行敦煌遺書編目與研究已經成為敦煌學界的共識。
筆者長期從事敦煌遺書的調查與編目。20世紀80年代后半期,曾經將黃永武《敦煌遺書最新目錄》輸入計算機,編撰為《敦煌遺書索引》。這個索引,類似于后來釋禪叡編纂的《敦煌寶藏遺書索引》。眾所周知,80年代后半期計算機漢字字庫的數量有限,故當時不少字只好用符號替代,加上其他一些原因,那個《敦煌遺書索引》的內容比較簡單,只有典籍名稱與卷號兩項,只能滿足簡單的檢索。所以完成以后沒有公開發表,僅供個人參考使用。其后,隨著數據庫技術的日益發展,筆者開始設想利用數據庫從事敦煌遺書編目。第一個數據庫開發于20世紀90年代末,到2003年升級為4.2版本。版本雖然升到4.2,結構與功能卻始終比較簡單,只能從事一些簡單的比較與查詢,嚴格地講,還不能算是一個真正的數據庫,所以命名為“敦煌目錄索引程序”。2005年的敦煌知識庫國際學術研討會上,曾以《敦煌遺書編目所用數據庫及數據》為題進行介紹,論文也已收入會議論文集。本文則擬介紹筆者近年開發的第二個敦煌遺書數據庫。這個數據庫從2006年底開始設計,經過一年的醞釀,2007年底正式啟動。現在已經完成第一期工程。這個數據庫的功能比前一個數據庫大為增強,包括按照各種條件輸入、加工、檢索、輸出敦煌遺書中的各種數據。由于它已經基本具備數據庫的功能,故命名為“敦煌遺書數據庫”。目前正在完善第一期工程的數據建設,規劃開發第二期工程。計劃最終將這個數據庫建設成敦煌學研究的實用平臺。
本文簡單介紹“敦煌遺書數據庫”已經完成的第一期工程的現狀。包括它的各種工作界面、所容納的信息類別、各種功能以及怎樣利用該數據庫加工、查閱、輸出相關數據等。
二、敦煌遺書數據庫簡介
“敦煌遺書數據庫”分為兩期完成。第一期的開發目的是為編纂《敦煌遺書總目錄》服務。所輸入與儲存的數據為從文物、文獻、文字等三個方面對敦煌遺書所作的各項著錄,編目時參考各種相關照片及研究資料。可提供各種在庫數據的修訂、檢索、查詢功能。至于數據的輸出。目前默認為編纂、出版大型圖錄《國家圖書館藏敦煌遺書》所需的條記目錄、卷首目錄、標版目錄,以及編纂《敦煌遺書總目錄》所需的流水目錄、分類解說目錄及各種索引,但也可以根據需要輸出其他各種數據。第二期將擴展為敦煌學研究平臺,屆時擬進一步完善圖片數據與文字數據的鏈接、加入敦煌遺書研究數據、并開發各種專題研究平臺乃至與研究者的互動平臺等。
目前第一期中的數據庫架構已基本完成,數據的完善還在進行。已經可以進行敦煌遺書原始數據的導入、改錯與刪除。可在數據庫中按照各種默認條件查看數據及照片,進行數據的修訂。可以設定各種條件并進行資料的檢索、查詢。可以按照預設要求自動為各種文獻進行加工,諸如加上分類號并對文獻進行分類。可按照預設要求采集各種詞語以制作索引,并可在各被索引詞語間建立起相互關系。可以進行敦煌遺書綴殘的提示,并在人工綴殘的基礎上,進一步進行多號殘卷的綴殘。可以按照不同的要求,將各類數據按照一定的格式輸出為滿足不同研究需要的文本式或表格式的word文件。
“敦煌遺書數據庫”主界面如下圖1:
主界面上邊列有主菜單,共有八項:文件、數據導人、數據查看、綴殘處理、索引處理、相關數據、系統、退出。數據庫現有的各項功能均以主菜單為基礎展開。
三、敦煌遺書數據庫的有關功能
(一)原始數據的導入、改錯與刪除
所謂“原始數據”,分為基礎數據與補充數據等兩種形式。
基礎數據指按照規定格式編纂,以word文本存盤,且未作內容刪節的敦煌遺書條記目錄。按照目前的著錄體例,該條記目錄從1.1項到14.3項,共設定為14個大項、37個小項,全面著錄每件敦煌遺書的文物、文獻、文字等三個方面乃至流傳、研究的各種資料。實際著錄時采取有則著錄,無則空缺的原則,故每件遺書未必都具備37項。
補充數據指按照規定格式編纂,以word文本存盤,僅包含部分特定項目的敦煌遺書條記目錄。
之所以產生上述兩種不同的原始數據,原因在于現行的編目方式。目前的編目工作,有的依據原卷進行,這時可以詳細著錄各種數據,包括遺書的文物、文獻、文字等三方面數據。有的依據圖錄進行。這時只能著錄遺書的文獻、文字數據。有時限于各種條件,甚至只能著錄關于文獻、文字的部分數據。這樣,不同的遺書,有時存在數據缺失問題。這些缺失的數據,只能等將來有條件時,再行補人。即使按照原卷進行著錄的遺書,有時候也需要將部分項目。比如錄文等暫且放一放,待另行完成后補入;或者先做一個草稿,待修訂以后重新輸入。由此產生較為完整的基礎數據與待后輸入的補充數據這樣兩種不同的原始數據。
基礎數據可以一次性輸入,補充數據則往往需要以后再輸入,乃至多次輸入。后期輸入的補充數據。不能沖擊已經存于數據庫的基礎數據,而應與基礎數據合為一體。為了達到上述目的,設計了“全部條目導入”、“部分條目導人”兩種數據導入方式。
點擊主界面上“數據導入”,出現“全部條目導入”與“部分條目導入”兩個選項。下面是“原始著錄數據導人一全部條目”的界面,可以進行基礎數據的導入、改錯與刪除。
導入方法:在上述界面左邊的兩個窗口中,選擇需要導入的關聯word文件,點擊“增加”按鈕。這一文件便加入右邊窗口。然后點擊“數據整理”按鈕即可。
在這一界面所進行的“改錯”,實際并不涉及原始數據本身的對錯,而是指原始數據的格式不符合數據庫的輸入規范,需要修改。
1984年剛開始從事敦煌遺書編目,我已經意識到將來有利用計算機進行數據加工的可能,因此在設計著錄體例時,采用條記目錄的方式,并規定了必要的著錄格式。但隨著對敦煌遺書及其編且工作認識的不斷深化,著錄體例也在不斷修訂。加之原始數據最初由人工完成,且多人常年參加編目,每個人、某個人的不同時間對體例的理解不一定完全正確與一致,原稿的體例就難免會有差異。手寫原稿完成幾年后,才請人將之錄入計算機,移錄過程中難免出現魚魯之訛。又過了幾年,才設計出數據庫,并將計算機稿輸入數據庫。如此等等,現有的原始數據。頗有著錄格式不符合現有數據庫要求的情況。就數據庫而言。凡是格式不合要求的數據,如果項號無誤,數據庫還可以識別并讀入;如果項號有誤,則數據庫無法識別并讀入。為了解決這一問題,我們這樣設計:無論數據庫能否識別該數據。如果格式有錯誤,數據庫一律記錄下來。每一個關聯的word文件讀入以后,只要點擊“出錯記錄”按鈕,數據庫將給出錯誤提示。這樣。可以按照錯誤提示逐一修訂,直到所有的原始數據都符合數據庫輸入規范。全部輸入數據庫為止。
敦煌遺書編目往往會遇到這種情況:某件遺書原來作為一號著錄,但后來經過研究,發現該遺書實際包含兩個文獻,應該分作兩號。或者相反,原來作為兩號著錄的遺書,后來發現應該歸并為一號。這時,需要在數據庫中增加或刪除一號。為此設計了單獨增加某條數據或刪除某條數據的功能。這個功能在“數據查看”界面中實現,這里不介紹。
所謂“刪除”,包括刪除提供原始數據的word文件與刪除數據庫中的數據兩種功能。
以前設計第一個數據庫時。編目工作以word文件為主。數據庫本身只起輔助功能。所以關聯的word文件不能隨便刪除,一旦刪除,數據庫無法運作。不僅如此,關聯的word文件也不能隨便改動,略微有所改動,就需要將文件重新讀人數據庫,數據庫才能正常運作。而第二個數據庫思路相反,編目工作以數據庫為主。數據庫可以隨時依據不同需要生成各種新的word文件。所以。作為提供原始數據的word文件一旦讀入數據庫,除了備查之外,已經喪失作用。隨時可以刪除。關聯word文件的刪除,不妨礙數據庫的正常運行。
數據庫中的數據可以批量刪除,也可以單條或單項刪除。
批量刪除的方法有兩種:
第一種,在上述界面右邊的窗口中,用光標定義需要刪除的關聯word文件,點擊“刪除”按鈕,便可以將該文件所涉及卷號的所有數據一并刪除。亦即不僅將關聯的word文件提供的原始數據全部刪除,并將數據庫在這些原始數據基礎上所做的修訂一并刪除。
第二種,編纂新的關聯的word文件,文件名與路徑與原文件相同。即覆蓋原文件。在上述界面右邊的窗口中,用光標定義該文件。然后點擊“數據整理”按鈕,此時數據庫重新讀入關聯的word文件,并用新數據覆蓋全部舊數據。
單條數據及單項數據的刪除,也在“數據查看”界面實現,這里不介紹。
“原始著錄數據導入-部分條目”的界面,可以進行補充數據的導入、改錯與刪除。
補充數據導人、改錯與刪除的操作方式與“原始著錄數據導入-全部條目”的基本相同。
(二)數據的查看與修訂
點擊主界面上“數據查看”按鈕,可進入“查看源目錄數據”界面。
該界面上邊有16個按鈕:刷新、刪除、關閉、查看全部、條件查詢、查看修改、導出到word、條件導出、批量更新、現數據清回車、現首尾對照規范、現數據切分、全部數據切分、首尾對照錯誤導出、現數據分類號處理、看圖,此外。在“條件查詢”與“查看修改”按鈕之間,還有一個下拉式菜單,以上總計17項,分別承擔各種功能。比如數據讀入之后,首先需要進行“現數據清回車”、“現數據切分”、“現首尾對照規范”等三項預備性操作,才能正確地查看與修訂數據。
按鈕下為一長條計數條。統計下面表格共列出多少條數據,當前為第幾條。
計數條下為每號敦煌遺書的表列數據。表列數據共有48項:編號、分類號、經名卷本卷次、(卷次)、參考號l、參考號2、參考號3、參考號4、參考號5、總體數據、每紙數據、外觀性描述、(裝幀形式)、(首尾存況)、多主體著錄、多主體關系、首部文字對照、(首對照-存況)、(首對照-對照本)、(首對照-對照細節)、尾部文字對照、(尾對照-存況)、(尾對照-對照本)、(尾對照-對照細節)、錄文、說明、首題、尾題、異同、首綴接、尾綴接、首集合、尾集合、題記、印章、雜寫、護首扉頁、年代、二次加工、收藏鑒賞、圖版、揭裱互見、備注、格式、問題、數據、更新時間。實際是上述14個大項、37個小項的擴展。其中帶括號者為重復項,供數據切分及檢索用。這48項數據,均可順序或逆序進行排序。框格的長度、寬度都可以根據需要調節。
由于表列數據項目很多。一屏無法顯示。可利用滾動條顯示。也可點擊左下小三角前的豎杠,把表格分為N個界面來回拖動,進行數據的對照。
如果點擊“查看全部”。可以查看數據庫中儲存的所有數據。也可以點擊“條件查詢”。按照設定查看自己需要的數據。下面是點擊“條件查詢”后出現的“設定查詢條件”界面。選項共有八種,可以單獨使用,也可以匹配使用;其中七種附有下拉式菜單,可利用下拉式菜單選擇,也可以自行填寫。
(1)收藏單位:不選擇“收藏單位”,則默認全部數據。
(2)編號范圍:前后兩個框,可以選擇某一段編號,即查詢某一編號段的敦煌遺書;也可以為同一個編號,即查詢某一號敦煌遺書。如均不選擇,則默認全部編號。
(3)分類號:前后兩個框,使用方法與編號同。
(4)文獻名:輸入文獻名后,可利用“包含”、“精確”、“排除”等選項進行查找。如不選擇,則默認全部文獻。
(5)年代:前后兩個框,使用方法與編號同。
(6)更新時間:更新時間指數據更新時間。前后兩個框,使用方法與編號同。
(7)參考號:可通貫5個參考號,模糊查找所需遺書。如果限定在某個參考號,則應該用“指定條目”。
(8)指定條目:是個用處最為廣泛的工具,所指定條目范圍涵蓋全部14個大項、37個小項。選定條目后,在下面的框中輸入檢索條件,并可利用“包含”、“精確”、“排除”等選項,在指定的范圍內進行檢索、查詢。為了更好地發揮“指定條目”的檢索功能。設定l到8個復選框,可以匹配使用。
條件設定完畢,點擊“確認查詢”,就可以查看所需數據。
在查詢某類遺書后,如擬查看某號遺書的具體數據,可將光標指向該號遺書,并確認下拉式菜單處在“全部條目”的位置,然后點擊“查看修改”即可彈出界面。在界面點擊“編輯”,可以進行數據的修訂、養護。為了方便修訂,其中大部分框格,均可雙擊放大。對于帶有普遍特征的錯誤,則可以利用批量更新方法一次性修改。
數據庫中存放了一些照片,如果在“查看源目錄數據”界面光標指向某條數據時,“看圖”按鈕變紅,表示該號有照片存放。此時點擊“看圖”,會彈出照片窗口。并可以放大查看。
(三)敦煌遺書分類
計劃中的《敦煌遺書總目錄》是一個分類解說目錄,分類法在拙作《敦煌漢文遺書分類法(草案)附說明》設計的分類法基礎上,吸收各方意見修訂而成。為了讓計算機自動給不同文獻賦予相應的分類號。特意編制了輔助文件《諸經起訖》。
在“查看源目錄數據”界面,點擊“現數據分類號處理”,數據庫會按照《諸經起訖》中的預先設定。對符合經名卷本條件者給予分類號或者更改錯誤分類號,遇到《諸經起訖》中沒有的經名卷本,則納入《諸經起訖》。這樣,通過不斷維護、更新《諸經起訖》,可使所有的文獻都有一個與之相應的分類號。最終完成敦煌遺書的分類。
(四)索引
翔實、便利的索引是一部學術性目錄的重要組成部分。《敦煌遺書總目錄》計劃編纂十來個索引,為了完成這一任務,必須先完成所索引詞語的采集。因此,除了可直接利用14個大項、37個小項完成的索引外,計劃從外觀、錄文、說明、異同、題記、印章、雜寫、護首、今人題跋、備注、格式、問題、數據等諸項中采集可以成為索引對象的人名、地名(含寺院名)、職官名(含僧官名)、書名、年號、器物、糧油、藥材、牲畜、工藝、社會組織、服飾、術語、印章、非漢文、繪畫、神名等17種詞語,編為索引。并努力在所索引的詞語中建立溝通相應的關系,以期打破諸知識點之間傳統的平面關聯,建立立體的網狀結構,以備將來的深入研究。
索引詞語的采集,采用半自動方法。部分工作由數據庫自動完成,主要工作還要靠人工進行。但隨著采集量的增大,自動化程度將越來越高。不過詞語之間相互聯系,依然要靠人工分析、建立。
詞語采集以后,點擊主界面“索引處理”中的“索引數據查詢”,可以得到如下界面:
點擊“全部數據”按鈕,得到已經被采集的全部索引數據;
點擊“條件查詢”按鈕,在新的窗口輸入自己需要的查詢信息。點擊“確認查詢”,結果出現。點擊“導出到WORD”,可以將結果輸出為word文件。
考慮到數據庫中的數據正在不斷完善。所以設計“更新經名年代”功能。如果遺書的名稱、年代有修訂,點擊“更新經名年代”按鈕,索引界面中的所有遺書的經名與年代,一律按照最新著錄,予以更新。
(五)數據輸出
如前所述,第一期工程的數據輸出首先設定為編纂《敦煌遺書總目錄》及編纂大型圖錄《國家圖書館藏敦煌遺書》的需要。
就《敦煌遺書總目錄》而言,需要輸出的數據為館藏流水目錄、分類目錄與索引。
輸出館藏流水目錄、分類目錄,點擊主菜單上“條件導出”按鈕,在彈出的界面即可完成。這個界面輸出功能比較強大。
如果在左邊第二豎欄上方選擇“全選”,可以輸出全部14個大項、37個小項的數據。舍去其中的“格式”、“問題”、“數據”三項,輸出以后即為《敦煌遺書總目錄》所需要的館藏流水目錄。如舍去其中的“分類號”、“首集合”、“尾集合”、“格式”、“問題”、“資料”等項,輸出以后即為目前大型圖錄《國家圖書館藏敦煌遺書》所附的條記目錄。
如在小框中設定收藏單位、分類號等,點擊“分類目錄輸出”,即可以輸出分類目錄。
此外,利用上述界面還可以輸出《國家圖書館藏敦煌遺書》所需要的卷首目錄(只包括編號與文獻名等)、標版目錄,乃至各種專題目錄。此外。還可以在14個大項、37個小項中任意選擇所需要項目組合起來,自由編排次序以后輸出。輸出的格式也可以自由設定。
索引輸出中,一般詞語的輸出,前面已經介紹。此外,還可以點擊“索引處理”中的“典籍名稱索引”,在出現的界面輸入所要求的選項,生成各種典籍名稱索引。
(六)敦煌遺書綴殘
敦煌遺書為敦煌古代寺院的棄藏,絕大多數均為殘卷。現存五萬八千多號漢文遺書中。約有一半為較小殘片。這些殘卷與殘片,不少相互可以綴接。敦煌遺書的綴接,以往是一件難度相當高的工作,人們往往在諸多殘片、殘卷的檢索中無意得之。現在,由于我們把敦煌遺書作為一個整體看待,基本掌握了綴殘的規律,亦即綴殘必然在相同文獻的相同位置進行。且由于我們已經為絕大多數文獻找到了相應的對照本,在對照本中確定了敦煌遺書殘卷首尾相應的位置,這樣,就可以讓數據庫按照上述規律自動搜索有可能綴接的殘卷。為此,先編纂了一個輔助文件《綴殘參考文獻參數》,利用這個輔助文件與前述《諸經起訖》,讓數據庫按照設定要求自動搜索哪些殘卷有可能綴接,并作出提示。然后按照提示去查核原卷,看它們是否真的可以綴接。
具體的綴接結果輸入數據庫以后,可以點擊“綴殘生成查詢”,在如下界面查詢并輸出綴殘結果。
四、結 語
從1984年至今,筆者從事敦煌遺書編目已有20余年。目前,北京圖書館編目的定稿工作正在收尾;英國圖書館的編目的初稿已經完成,尚待定稿;法國、俄國敦煌遺書的編目也已經完成初稿,但缺失文物因素的著錄;散藏敦煌遺書的調查與編目也正在進行。因此,雖然數據庫中已經儲存6萬多號數據,實際并不完整。由于時間漫長,前后體例有修訂、選用對照本有變化等種種因素,使得庫中數據尚需大規模修訂,才能真正提供給學術界。包括本文列舉的上述數據,都不是最后的定稿,僅供參考。因此,一個單位、一個單位地完成編目定稿,進一步完善數據庫中的數據,是近期努力的目標。
此外,目前正在規劃數據庫的第二期工程。打算盡快將該數據庫由單機版提升為網絡版,盡快提供給敦煌學界,并力圖在與敦煌學界的互動中,進一步完善這個數據庫,使它真正成為敦煌研究的高端平臺。
最后需要說明的是,該《敦煌遺書數據庫》由方廣錩提出基本構想與客戶需求,由新疆克拉瑪依石油學院網絡中心主任、重慶大學在讀博士研究生朱雷副教授編程,并經兩人反復磨合、測試而成。
參考文獻:
[1]釋禪叡,敦煌寶藏遺書索引[M],臺北:法鼓文化事業股份有限公司,1996
[2]方廣錩,敦煌漢文遺書分類法(草案)附說明[M],香港:中國佛教文化出版有限公司,1998