李林澳,夏南強(.湖北中醫藥高等專科學校圖書館;.華中師范大學信息管理學院)
“典籍”指古代重要文獻,常用泛指古代圖書,也可稱為“古籍”。中華文化源遠流長,典籍文獻在中華知識寶庫中占據了相當重要的位置。中文典籍文獻蘊含著豐富的文化內涵,但由于年代久遠,加之自然、人為損耗因素,許多珍貴典籍已經失傳,以紙張為載體的典籍文獻不僅不便于使用,更不利于保存與傳承。因此,利用現代信息技術對其進行加工,是提高典籍文獻利用率的有效措施,也是典籍保護工作的重要內容之一。
所謂利用現代信息技術對典籍進行加工,就是利用計算機技術把紙質載體等上面的文字圖像符號轉化為計算機能識別的數字符號,并通過網絡、光盤等介質進行傳遞、保存、利用的數字化過程。中國的古籍數字化工作始于20 世紀80 年代初,當時稱為“計算機化”或“電子化”。古籍數字化在中國的真正發展是20 世紀90 年代中期以后的事情。[1]1997 年,劉煒首次正式提出了“古籍數字化”這一術語概念。[2]自此之后,關于古籍數字化的研究才日益增多。李運富將古籍數字化定義為:“利用現代信息技術,將歷來以抄寫本、刻鑄本、雕版、活字版、套版及鉛字印刷等方式所呈現的古代文獻,轉化為電子媒體的形式。”[3]在此基礎上,喬紅霞[4]、劉琳[5]、毛建軍[6]等進行了補充論說。其中,毛建軍認為,古籍數字化是以利用和保護古籍文獻為目的的,其數字化過程應包括加工對象、加工工具、著錄標準、實施者和協調管理者五個要素。[6]根據不同的標準,曹天曉對古籍數字化的成果進行了分類,按使用平臺的不同分為電腦端和移動端;按網絡的使用情況分為離線型與在線型;按呈現方式的不同分為古籍電子書和古籍數據庫。[7]
雖然近年來對于典籍數字化的研究已引起學界的重視,但仍有許多有待深入探究的領域需要挖掘。本文對中國知網上2008-2017 年有關典籍數字化研究的文獻進行了梳理,歸納介紹了典籍數字化的研究現狀,以期為進一步的深入探究提供參考與借鑒。
為了解我國典籍數字化研究概況,本文選取了中國知網(CNKI)為數據來源,采取高級檢索方式,發表時間限定于2008 年1 月1 日-2017 年12 月31 日,以“典籍* 數字化”“古籍* 數字化”“古籍* 數據庫”為檢索詞進行初步檢索,檢索時間為2018 年3月30 日,共檢索出1,122 條記錄。按學科分布,圖書情報方面共有論文864 篇,占比68.35%,其次是計算機軟件及計算機應用(115 篇) 和中醫學研究(90篇)方面的論文。此外,還有一些出版研究、中國語言文字研究等方面的相關論文。
研究領域內文獻數量的增長在一定程度上能反映該領域知識量的增長,因此科學文獻的數量是衡量科學知識量的重要尺度之一。[8]分析近十年來有關典籍數字化的論文數量,可以大致了解該研究熱點在我國學術界的研究發展進度與未來趨勢。

圖 文獻年度分布趨勢
上圖是2008-2017 年關于典籍數字化研究文獻的年度趨勢分布圖。從圖中我們可以看出,2008-2012年文獻數量呈上升趨勢且年均增幅15 篇以上,發展迅速,可以看出典籍數字化的相關研究呈上升趨勢。2012 年后研究整體趨于平穩。發文數量最多的年份是2012 年(131 篇),其次是2016 年(127 篇)。2010 年至今,發文數量均穩定在100 篇以上,年均量達112.2 篇。以上數據表明,我國學術界重視典籍數字化的研究,雖然其不是研究熱點,但有較穩定的研究隊伍和研究成果。
論文在期刊上的分布,也能一定程度上反應該領域的學術發展水平。通過分析文獻的期刊來源,可以確定該領域內的重點期刊以及學術取向,也能為相關文獻的搜集與管理提供可靠的依據。表1 為刊載論文大于等于8 篇的論文期刊分布。
從表1 可知,刊載典籍數字化方面的論文,檔案學領域的核心期刊《蘭臺世界》發文量最多,高達31篇,占總數的6%。其次是《圖書館學研究》《圖書館理論與實踐》《圖書館學刊》,分別為28 篇、27 篇和26 篇。這三種期刊是圖書情報類的核心期刊,占發文總數的17%。在多種類型的期刊中,圖書情報和檔案類最多,約占發文總數的77%左右。

表1 論文期刊分布統計
需要注意的是,發文量并不能成為評判某領域內期刊是否重要的唯一標準。以本次分析中發文量最高的《蘭臺世界》 為例,它是檔案期刊中唯一的半月刊,每期載文量50-80 篇不等,其年總載文量較多,因此在排名中位居第一,也在情理之中。因此在確定重點期刊時,載文量只能作為一個方面的參考因素。
評判一篇論文的學術影響力,可結合其刊載期刊登記、獲獎情況、轉載引用頻次等多重因素進行考慮。但一般情況下,我們可以通過被引頻次的高低來對該論文的學術影響力進行評價。與此同時,我們需要注意被引頻次的滯后性,即論文從刊載到被引,會經歷一個較為漫長的時間跨度。表2 為2008-2017 年典籍數字化文獻排名前五的被引頻次。

表2 文獻被引頻次
從表2 可知,被引頻次最高的為趙東于2014 年撰寫的博士論文,在3 年時間內被引頻次高達53 次。其次是劉家真和程萬高的《古籍保護與開發的策略與建議》 一文,被引37 次。上述論文起到了一定的理論參考與指引作用,引起了學術界對典籍數字化資源保護與開發利用問題的探討與研究。但縱觀整體情況,仍有將近一半的文章從來未被引用,且被引文章中大部分僅被引一次,說明目前典籍數字化的研究相對屬于“冷門”研究領域,重視程度不夠,缺少影響力較強的學者群體。
結合國家古籍保護政策對古籍進行數字化保護與開發利用,近年來受到研究者越來越多的關注。張利認為,古籍數字化載體產品能延續古代文獻典籍的保存。古代文獻載體形式經歷了從甲骨、青銅到最為普遍的紙質的變遷,雖然紙質易于獲取,但難以長久保存,而數字化則正是有效保護古籍文獻的手段。[9]郭春鳳針對古籍數字化保護平臺的構建提出了自己的思路。她認為在數字時代下,古籍的保護應遵循系統整體科學性、針對性、安全性、通用性和標準化的原則,在構建數字化保護平臺時應注重檢索平臺和交互服務平臺的建立,強調信息檢索平臺要提供全方位的檢索服務,整合古籍網絡資源;而交互服務平臺則要體現個性化服務,主動推送信息,在古籍研究中使用交互工具來進行用戶咨詢與培訓教育。[10]湯印華認為,古籍修復信息數字化建設不僅能更好地記錄、管理、推廣優秀修復技術與原則,更能規范化修復工作,使其向科學邁進,促進文獻的保護與交流,進而實現古籍數字資源共建與共享。[11]
除此之外,紅外線傳感裝置、交感技術等先進科技手段應用到各館藏機構中,也更能保證珍貴古籍的安全。[12]上海圖書館的家譜數字化資源建設和服務是古籍資源保護的顯著成效之一。從整理未編家譜到全文數字化家譜正式開放使用,上海圖書館經歷了一段漫長的摸索過程,但自2006 年投入使用后,利用電腦閱讀家譜呈增長趨勢,家譜數字化對圖書館的服務方式和文獻的利用方式均帶來了一系列可喜的變化。由此可見,古籍數字化有利于古籍的保護和修復,降低紙質古籍的流通量,從而減少人為損壞。[13]
在少數民族古籍數字化保護方面,韓晶從古籍文獻現狀、古籍文獻保護方式、數字化文獻保護方式與進展、數字化資源的開放獲取以及云端存儲和保護等五個方面介紹了新疆古籍文獻資源的數字化保護情況。[14]高建輝指出,彝文古籍數字化保護目前面臨著對數字化的認識不足、資源分散、收集整理困難、數字化預處理難度大、專業型復合人才和知識產權保護手段匱乏等問題。[15]他針對彝文古籍的特點及保存現狀,設計出了具體的彝文古籍數字化保護步驟。同時他還針對彝文古籍知識產權的保護提出了見解,建議利用水印、PKI 體系等先進技術追蹤版權歸屬信息,同時推動相關法律法規的建立。[16]
典籍數字化的標準指在數字化過程中以達到最佳有序化程度為目的,共同遵守的準則和依據。由于存儲格式眾多、檢索平臺各異、方式千差萬別,制定切實可行的數字化標準非常必要。姚俊元從概念的認識、存儲的格式、工作宗旨、數據形式、方式標準和漢字的編碼等方面探討建立標準化的體系。[17]張文亮認為,應當制定相應的合作標準,避免重復數字化現象的進一步惡化,要采用相互兼容的文件格式,統一字符處理標準,制定專門的數據加工標準和數據庫檢索標準,規范資源的分類與管理。他還提到,目前我國古籍數字化標準體系主要由技術標準、管理標準和工作標準構成,尚未涉及管理標準和工作標準方面,也沒有與國際接軌的通用合作標準。因此,他結合生命化周期理論,對古籍數字化的全過程進行了分析探討,構建出了適合我國國情的古籍數字化標準體系框架:項目規劃標準、古籍版本選擇標準、古籍數字資源生產標準、古籍數字資源保存標準、古籍數字資源發布標準,與古籍數字化生命周期的各個環節相對應。[18-21]
為了順應數字化可持續發展的需要,葛懷東提出了典籍數字化標準體系的構建原則,即開放性、系統性、實用性和拓展性。[22]李小平等以此為基礎,提出了適用于醫藥方面的醫藥古籍文獻數字化標準體系。[23]基于西北地區的特色歷史文化,王海花介紹了西北古籍文獻的收集與利用現狀,認為理想的數字化標準應當能提供文本與原版古籍對照功能,正常顯示生僻字。[24]
關于典籍數據庫的研究,王雁行認為,應當以“中華古籍保護計劃”為依托,統籌規劃,在全國范圍內組織建設國家古籍資源數據庫,保障國家文化安全,促進中華優秀傳統文化的繼承與弘揚。[25]劉聰明認為,未來的古籍全文數據庫應當至少能具備智能轉換功能,能準確的定位檢索結果,主動支持智能化研究。可以通過建立簡、繁、異體字對照表,建立分類導航來達到這個目標。[26]為了更為直觀地了解古籍數據庫的標準,毛建軍選取了上海圖書館古籍書目查詢數據庫、學苑汲古——高校古文獻資源庫、國家圖書館古籍善本查詢數據庫和(臺灣)中文古籍書目數據庫這四個大型數據庫進行比較,提出機讀目錄格式、古籍著錄規則、古籍分類法、主題標引、統一字庫的5 個建設標準。他還調查和分析了國內外甲骨文全文數據庫的建設情況,指出目前最迫切的任務是做好甲骨文資源整合工作。[27,28]林紅狀詳細介紹了南開大學圖書館家譜數據庫的構建流程,指出該舉措不僅能發揮大學圖書館的教育職能,還能提高自身數字化服務能力,加強古籍特色數據庫的聯合共建。[29]王莉分析了湖北省方志數據庫的建設模式和內容設置,并詳細展示了數據庫的建設流程,指出在方志數據庫建設中應當注重使用頁面的友好性。[30]
隨著信息技術的高速發展,典籍數據庫知識產權的問題日益突出。毛建軍從自建數據庫的著作權、購買數據庫的著作權、數字資源導航的著作權和信息資源共建共享的角度對高校數據庫進行了深入探討。[31]楊思洛等對微信平臺和手機客戶端進行了調研,分析其運行模式和主要功能,指出當今古籍數據庫的移動應用內容較為單一,無法吸引大量用戶關注,還需從檢索功能和閱讀體驗等方面進一步完善平臺建設。[32]
中醫藥古籍是中華民族幾千年來的珍貴智慧結晶,其養生保健知識、理法方藥等都具有極高的使用價值,是現代中醫學術創新與進步的根基。陳素美認為,出于保護中醫古籍的需要,尤其是已經破損的孤本、善本,利用數字化技術盡快恢復和還原其本來面貌刻不容緩。中醫古籍數字化也能進一步的傳播中醫信息,構建中醫知識庫。[33]程新論述了中醫藥古籍數字化過程中應遵循的9 個原則。除保真原則、整理原則、標準化原則、共建共享原則等較為常見的原則外,還需遵循保護與利用相結合原則、統一規劃與分步實施原則、可持續發展原則、圖文對照原則和技術服務于內容原則。[34]對中醫藥古籍進行校對也是一項基礎性工作,關系到整個數字化成果的質量。陳曉迪提出,數字媒體形式的書目數據庫或全文數據庫能大幅度的提高點校效率,尤其是在對校法、本校法及他校法的使用中,中醫古籍的數字化能比其他形式的古籍數字化更快捷深入。[35]劉毅則倡導利用現代計算機技術,深入挖掘中醫藥古籍中的知識,改變重藏輕用的傳統觀念,強化知識深層次開發,培養中醫古籍管理復合人才。[36]
李小平等介紹了醫藥文獻數字化的發展歷程,提出要尋求技術突破、全面統籌規劃、完善專業人才隊伍建設、結合需求結構和用戶信息行為分層次地開發的總體建設思路。[37]吳桂英則列舉了書目著錄、檢索限制、版權保護等方面存在的障礙,認為要建立專業的醫藥文獻數字化人才隊伍,加強對數據庫的檢索功能建設。[38]
目前許多科研機構和高校圖書館已認識到了中醫古籍數字化的重要性。藍韶清等人則從基于信息構建的角度構建了中醫藥數字化系統,他認為信息構建的核心要素包括信息組織系統、標識系統、導航系統和搜索系統,而這也正是中醫藥數字系統需要研究的核心部分。[39]裴麗和曹霞指出中醫古籍數字化多功能閱讀環境必須具備個性化信息檢索系統、基于超文本鏈接的閱讀環境和輔助研究支持功能平臺。她們認為,中醫藥古籍數字化平臺不應當只是一個用戶查找信息的平臺,而更應是中醫古籍整理、研究、交流的平臺。[40]
少數民族的古籍文獻是少數民族文明成果的重要表現成果之一,目前,在數字化過程中,藏文、蒙古文、彝文等少數民族文字的字符輸入法技術、識別技術等已有初步進展,但仍不完善,不利于傳統文化的傳承。朱宗曉、何紅一等人提出在少數民族古籍數字化傳播中,利用載體還原、場景重現、文化傳承這三個循序漸進的傳播策略。[41]貴州省是一個少數民族世居的省市,各民族古籍文獻載體的形式也豐富多彩。有文獻類、文書類、口傳類、金石銘刻類等。陳世莉提出對于有文字類的典籍文獻,可以進行收集、修復、整理、編目、分類、掃描、影印、建庫的步驟來擴大民族利用范圍,而無文字類的古籍(如口傳詩歌、民間故事等)則可以通過采訪民族民間藝人、錄音錄像、田野調查等方法來全方位采集文獻,建立音像資料數據庫。[42]蘇日娜介紹了蒙古文古籍文獻的收藏情況,指出目前蒙古文古籍具有文獻收藏地分散、損毀情況惡劣、利用困難等特點,強調了加快建設蒙古文古籍文獻數字化共建共享系統的必要性和緊迫性。[43]
地方志是中國典籍的重要組成部分,但目前我國古舊方志存在底數不清的問題,管理與利用都不能達到需求。陳紅彥認為,除了進一步展開地方志資源普查,為后續利用打下基礎外,還應在共建共享基礎上開展數字化建設,統一規劃,統一平臺發布,分步驟實現資源數字化。[44]胡以濤揭示了南京農業大學抄寫本地方志古籍數字化的整理過程,摸索出了一套優化升級的改進版圖文對照模式,以期獲得更大的效益。[45]
楊賢林對古籍整理中常用的文本挖掘、GIS、文本可視化和語料庫數字化技術作了介紹。[46]吳茗以北京大學數字圖書館古文獻資源庫的時空檢索和復旦大學歷史地理研究中心的CHGIS 為例,闡述了GIS 技術的應用。認為要想讓技術日臻成熟,就得加深對元數據的研究,同時對時空信息進行采集,建立相關的時空數據庫,組織統一的時空描述參考框架,這是在古籍資源建設中利用GIS 技術進行共享和分析的基礎支撐。[47]熊靜對古籍元數據的定義和范圍進行了界定,比較了MARC 格式和基于DC 的元數據標準后,認為DC 元數據無論是在信息對象描述能力和完整性上,還是對數字化的適應性和格式可拓展性上,都更強于MARC 格式。[48]
黃鑫海列舉了常用的均值濾波算法、中值濾波算法和小波變換算法的優缺點,并選用《本草綱目》第一頁作為實驗樣本,得出在處理古籍圖片時,可以使用APG 算法優化噪點圖片這一結論。[49]肖禹概述了動態組字的發展過程,探討了古籍數字化對漢字編碼的需求,著重論述了動態組字在集外字描述、集外字管理和集外字顯示上的應用。[50]另外,他結合中華珍貴古籍數字資源庫建設和《古籍數字化工作手冊》(試用本),從設備與環境、設備校正和圖像校色三個出發點分析了色彩管理技術的應用。[51]
除了上述主題之外,在檢索到的文獻中還有一部分文章主題新穎,從不同方面對典籍數字化進行了研究。
文學經典是中文古籍中不可或缺的一部分。錢智勇以《楚辭》的數字化為例,將楚辭的數字化分為載體外觀數字化、相關古籍背景資料數字化和相關古籍內容數字化三個層次,抽取主要概念對楚辭文獻本體進行建模,根據本體建立對象屬性并建立了28 個關聯,最終實現了基于楚辭的可視化關聯檢索。[52]趙新以《儒藏》精華編的數字化為例,認為古籍數字化應以學術研究為優先取向,讓技術系統設計轉移到研究者本位上來。至于文化普及工作方面也需要數字技術的進步,讓讀者也能參與其中。[53]在佛教文獻數字化研究方面,方廣锠分析了佛教文獻整理工作模式,認為應當在提供整理本的同時一并提供原始數據,這樣才能降低對佛教文獻整理成果評價的盲目性。他指出,漢文佛教文獻數字化總庫的建設應遵守起于最底層、信息全覆蓋、過程可追溯、功能可擴展四項基本原則,以整理而非編纂全部漢文佛教文獻為目標建設漢文佛教文獻數字化總庫。[54]
我國數字化主體類型的多元性決定了公益性的古籍數字化和商業性的古籍數字化應有不同的控制與管理模式。公益性古籍數字化的國家控制與管理模式可采用選題控制模式和成本效益評估模式;商業性的可以采用市場調節控制模式,通過市場這只“看不見的手”間接的進行管理與控制。[55]郜麗紅認為制定典籍數字化國家宏觀政策有利于國家對古籍信息資源進行宏觀規劃和管理,促進資源共享。數字化宏觀政策體系的內容應該包括信息選擇、采集、統一標準、資金及人才政策等方面。[56]
陳得媛分析了古籍數字化工作中的亂象,認為構建協調機制勢在必行。成立古籍數字化業界聯盟,統籌協調各方面的利益關系以解決版權之爭。[57]
古籍文獻數字化的人文意義在于它關系到敬畏圖書館制度、維護圖書館權利、對弱勢群體關懷及堅持圖書館職業精神等諸多方面。涂湘波認為典籍數字化的過程體現了信息技術和人文精神的融合,人文精神需要信息技術的支撐,信息技術的發展更需要關注人文因素,要克服“重技術,輕人文”的思想弊端,時刻體現圖書館的人文精神。[58]
近十年來我國典籍數字化在不斷的摸索研究中獲得了許多優秀成果,本文通過對近十年典籍數字化領域論文的梳理,發現研究中也存在一些不足之處。
(1)國外經驗的參考借鑒較少。在檢索到的文獻中,只有寥寥幾篇文章介紹了日本、英國以及美國的古籍數字化概況。雖然中文文本數字化有其特殊性與復雜性,外國文本抽取技術對我國參考意義不大,但外國的標準體系建設、數字化指導方針等方面值得我國借鑒學習。[59,60]我國的典籍數字化研究,可以大力開展國際間合作,參考國外的實踐和理論方法,創建國際信息交流平臺,建立全球性的古籍數字化合作模式,提升典籍數字化共享水平,共同促進中國典籍的數字化保護與利用。
(2)對典籍數字化進行研究的學者,超過一半以上來自于圖書情報領域,而典籍數字化的工作涵蓋了包括計算機學、中醫藥學、中國古典文學、中國歷史、語言學、宗教學等不同學科方面的知識,需要綜合運用不同學科知識進行研究,僅從單一學科出發進行研究很難實現新的突破。跨學科專家學者合作,融合不同學科知識,為典籍數字化的研究提供不同的知識養分,充分利用計算機技術等其他學科方法,可以推動典籍數字化研究和實踐的發展。
(3) 我國典籍數字化迄今仍未建立統一的標準。雖然諸多學者都對此進行了探討,強調了建立統一數字化標準的必要性,但關于標準的建立眾說紛紜,沒有形成共識。學術界可以以建立統一的數字化標準為重點,深入研究并達成共識,擬定準則并通過實踐來驗證其可行性,逐步向規范體系發展,進一步促進典籍數字化資源的共建共享研究。