[摘 要]對(duì)2009年以前我國(guó)古籍?dāng)?shù)字化研究論文的數(shù)量、登載期刊、作者、主題進(jìn)行統(tǒng)計(jì),揭示古籍?dāng)?shù)字化從書目、索引等初級(jí)檢索工具到當(dāng)前智能全文檢索平臺(tái)的發(fā)展之路,并根據(jù)我國(guó)古籍?dāng)?shù)字化研究的發(fā)展趨勢(shì)探討其未來(lái)的發(fā)展方向。
[關(guān)鍵詞]古籍?dāng)?shù)字化;數(shù)字化研究;統(tǒng)計(jì)分析
[中圖分類號(hào)]G255.1;G250.74[文獻(xiàn)標(biāo)志碼]A[文章編號(hào)]1005-6041(2010)02-0011-05
在我國(guó),“古籍?dāng)?shù)字化”[1]這個(gè)術(shù)語(yǔ)最早是由劉煒提出的,但相關(guān)研究和實(shí)踐工作早在20世紀(jì)80年代就開始了,其概念和內(nèi)涵的形成經(jīng)歷了很長(zhǎng)時(shí)間,迄今還在不斷演變。2005年,李明杰提出:“古籍?dāng)?shù)字化是以保存和普及傳統(tǒng)文化為基本目的,以知識(shí)發(fā)現(xiàn)的功能服務(wù)學(xué)術(shù)研究為最高目標(biāo),在對(duì)傳統(tǒng)紙質(zhì)古籍進(jìn)行校勘整理的基礎(chǔ)上,利用計(jì)算機(jī)技術(shù)將其轉(zhuǎn)換成可讀、可檢索及實(shí)現(xiàn)了語(yǔ)義關(guān)聯(lián)和知識(shí)重組的數(shù)字化信息的過(guò)程”[2]。2007年,毛建軍認(rèn)為:“古籍?dāng)?shù)字化是從利用和保護(hù)古籍的目的出發(fā),采用計(jì)算機(jī)技術(shù),將常見的語(yǔ)言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),從而制成古籍文獻(xiàn)書目數(shù)據(jù)庫(kù)和古籍全文數(shù)據(jù)庫(kù),用以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作”[3]。
以上兩種解釋是從古籍?dāng)?shù)字化基本理論的高度給予的精辟概括,囊括了很多研究人員的觀點(diǎn)。筆者基于這些認(rèn)識(shí),對(duì)2009年以前我國(guó)古籍?dāng)?shù)字化的研究成果進(jìn)行了統(tǒng)計(jì)分析,認(rèn)為古籍?dāng)?shù)字化研究應(yīng)該包括:古籍?dāng)?shù)字化基本理論的形成和發(fā)展,數(shù)字化古籍資源的特點(diǎn)和意義,古籍?dāng)?shù)字化資源的開發(fā)、共享和利用,古籍?dāng)?shù)字化實(shí)踐(書目數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)、題錄數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)、知識(shí)庫(kù)的建設(shè)),古籍?dāng)?shù)字化技術(shù)研究(加工技術(shù)、出版技術(shù)、相關(guān)軟件和服務(wù)平臺(tái)等),古籍?dāng)?shù)字化相關(guān)標(biāo)準(zhǔn)研究,古籍?dāng)?shù)字化成果分析與評(píng)估,專題古籍?dāng)?shù)字化研究(法律、農(nóng)業(yè)、中醫(yī)、歷史檔案等),少數(shù)民族古籍?dāng)?shù)字化研究,等等。基于以上的主題范圍,筆者對(duì)古籍?dāng)?shù)字化的相關(guān)研究成果進(jìn)行了搜集和整理,并逐條進(jìn)行統(tǒng)計(jì)分析。
1 數(shù)據(jù)來(lái)源和研究方法
本文以“中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)”[4]作為數(shù)據(jù)統(tǒng)計(jì)源,首先利用“專業(yè)檢索”界面輸入檢索式“(題名=‘古籍’or題名=‘典籍’or題名=‘善本’)and(主題=‘著錄’or主題=‘編目’or主題=‘索引’or主題=‘?dāng)?shù)字化’or主題=‘元數(shù)據(jù)’or主題=‘書目數(shù)據(jù)庫(kù)’or主題=‘全文數(shù)據(jù)庫(kù)’or主題=‘全文檢索系統(tǒng)’)”檢得518條初始記錄,而后下載詳細(xì)題錄,逐條分析,經(jīng)整理后得出347篇相關(guān)文獻(xiàn),分題名、作者、單位、刊名、年代、主題1、主題2項(xiàng)列成表,利用Excel軟件的數(shù)據(jù)處理函數(shù)進(jìn)行統(tǒng)計(jì)和分析。
2 論文數(shù)量增長(zhǎng)分析
筆者按論文發(fā)表年代分類匯總,得到1987—2008年我國(guó)古籍?dāng)?shù)字化研究論文數(shù)量的增長(zhǎng)情況(見表1)。
數(shù)據(jù)庫(kù)建設(shè)的居多,這表明20世紀(jì)80年代到90年代中后期是我國(guó)古籍?dāng)?shù)字化研究的起步階段;從1998年開始年發(fā)表論文數(shù)量超過(guò)10篇,1998—2001年發(fā)表論文總數(shù)57篇,占?xì)v年論文總數(shù)的16.4%,在這一時(shí)期我國(guó)的古籍?dāng)?shù)字化工作有較大突破,完成了《文淵閣四庫(kù)全書》和《古今圖書集成》的全文數(shù)字化工作,這標(biāo)志著我國(guó)的古籍?dāng)?shù)字化研究在該階段已突破關(guān)鍵技術(shù)進(jìn)入一個(gè)全新的發(fā)展時(shí)期;從2002年開始累積論文總數(shù)超過(guò)100篇,年發(fā)表論文數(shù)均大于20篇,增長(zhǎng)勢(shì)頭更加明顯,2002—2008年發(fā)表論文總數(shù)265篇,占?xì)v年論文總數(shù)的76.4%,年均新發(fā)表論文在37篇以上,說(shuō)明該階段我國(guó)古籍?dāng)?shù)字化研究已經(jīng)進(jìn)入快速發(fā)展時(shí)期;當(dāng)前發(fā)展勢(shì)頭很明顯,但還沒(méi)有形成顯著的高峰期,說(shuō)明我國(guó)古籍?dāng)?shù)字化研究還有很大潛力可以挖掘。
3 作者分析
對(duì)作者的分析可以推斷科研人員的研究能力,分析內(nèi)容為:研究人員科研的環(huán)境和條件,確定核心作者、核心研究單位。筆者按第一作者及其所在單位分別加以分類統(tǒng)計(jì),再進(jìn)行統(tǒng)計(jì)分析。
3.1 核心作者
統(tǒng)計(jì)結(jié)果顯示:有260人發(fā)表1篇論文,占論文總數(shù)的74.9%,這表明我國(guó)古籍?dāng)?shù)字化的研究人員較為分散,大部分研究人員發(fā)表論文數(shù)量較少;發(fā)表3篇以上(含3篇)論文的作者為9人,共發(fā)表47篇論文,占論文總發(fā)表量的13.5%,南京大學(xué)中文系博士毛建軍共發(fā)表17篇論文,位居第一。根據(jù)普賴斯公式N=0.749max(max代表最高產(chǎn)作者發(fā)文數(shù)),令max=17,則N≈3,所以可以確定毛建軍、包和平等9人為我國(guó)古籍?dāng)?shù)字化研究的核心作者(見表2)。
該領(lǐng)域核心作者發(fā)文數(shù)量跟其他學(xué)科的高產(chǎn)作者相比有很大的差距,這表明我國(guó)古籍?dāng)?shù)字化的研究還在發(fā)展中,科研和實(shí)踐活動(dòng)有待進(jìn)一步的創(chuàng)新和突破。從作者的知識(shí)背景來(lái)看,有中文、歷史、圖書情報(bào)、計(jì)算機(jī)、電子信息工程、醫(yī)學(xué)、農(nóng)業(yè)等多個(gè)領(lǐng)域,這說(shuō)明古籍?dāng)?shù)字化的研究和實(shí)踐是一個(gè)跨學(xué)科、協(xié)同化的領(lǐng)域。
3.2 作者合著度分析
[JP+3]對(duì)論文作者數(shù)的統(tǒng)計(jì)數(shù)據(jù)如表3所示,從表中可以看出著者為2人或2人以上的論文占論文總數(shù)量的27.4%,利用公式:合著度=6×1+5×2+4×8+3×17+2×67+1×252347,[JP]求得合著度約等于1.40,這表明我國(guó)古籍?dāng)?shù)字化研究工作者有一定的合作,同時(shí)也說(shuō)明研究人員較為分散、合作力度不大。
3.3 作者所在單位分布狀況分析
對(duì)作者單位的統(tǒng)計(jì)結(jié)果為(對(duì)部分屬于同一單位的不同子部門進(jìn)行了合并):發(fā)表1篇論文的單位數(shù)為99個(gè),發(fā)表論文總數(shù)為99篇,占論文總發(fā)表量的28.5%;發(fā)表2~3篇論文的單位40個(gè),發(fā)表論文總數(shù)為91篇,占論文總發(fā)表量的26.3%;發(fā)表4篇以上(含4篇)的單位22個(gè),發(fā)表論文總數(shù)為157篇,占論文總發(fā)表量的45.2%。從數(shù)據(jù)上來(lái)看,一方面說(shuō)明了從事我國(guó)古籍?dāng)?shù)字化研究的科研單位較為分散,另一方面又明顯看出我國(guó)古籍?dāng)?shù)字化研究在少數(shù)單位較突出,它們的相關(guān)研究明顯走在該領(lǐng)域的前列。根據(jù)普賴斯公式,可以確定發(fā)表4篇以上(含4篇)文章的研究單位為核心的研究單位(見表4)。
從單位性質(zhì)來(lái)看,研究部門主要集中在圖書館、情報(bào)研究機(jī)構(gòu)、專題古籍研究機(jī)構(gòu)和相關(guān)教學(xué)單位,部分研發(fā)文獻(xiàn)信息數(shù)字化軟件的企業(yè)也參與進(jìn)來(lái)了,各個(gè)單位根據(jù)自己的需要開展古籍?dāng)?shù)字化的研究和實(shí)踐活動(dòng),一道利用商業(yè)化市場(chǎng)運(yùn)作模式開發(fā)出古籍?dāng)?shù)字化產(chǎn)品。數(shù)據(jù)表明:處于核心區(qū)的研究單位,其研究成果數(shù)量上差別也很大,河北師范大學(xué)等幾家單位研究成果數(shù)量較多,筆者認(rèn)為這與古籍的館藏占有量和開展古籍?dāng)?shù)字化實(shí)踐有很大關(guān)系。比如:國(guó)家圖書館已經(jīng)依托館藏資源建成數(shù)字方志、碑帖菁華、敦煌遺珍、西夏碎金、甲骨世界、《永樂(lè)大典》等多個(gè)古籍全文數(shù)字化資源庫(kù)。
4 論文登載的期刊分析
按期刊刊名進(jìn)行分類匯總得到我國(guó)古籍?dāng)?shù)字化研究論文的分布情況(見表5),統(tǒng)計(jì)發(fā)現(xiàn)相關(guān)研究論文主要分布于圖書情報(bào)刊物中,只有《古籍整理研究學(xué)刊》收入4篇、《電子出版》收入3篇、《數(shù)字與縮微影像》收入5篇。
從表中可以看出累積收入論文數(shù)量達(dá)到10篇以上(含10篇)的期刊為10種,合計(jì)收入116篇論文,占論文總數(shù)的33.4%;收入論文數(shù)量達(dá)3~9篇的期刊為23種,合計(jì)收入123篇論文,占論文總數(shù)的35.5%;收入論文數(shù)量達(dá)1~2篇的期刊為69種,合計(jì)收入108篇論文,占論文總數(shù)的31.1%,論文在期刊中的分布比例為10∶[KG-2mm]23∶[KG-2mm]69,核心區(qū)、相關(guān)區(qū)、外圍區(qū)的期刊數(shù)比例約為1∶[KG-2mm]2.3∶[KG-2mm]6.9。以上數(shù)據(jù)表明我國(guó)古籍?dāng)?shù)字化研究領(lǐng)域的核心期刊基本形成,相關(guān)區(qū)期刊也聚集了相當(dāng)數(shù)量的論文,這樣研究者可以集中精力在部分期刊中查找古籍?dāng)?shù)字化研究的相關(guān)文獻(xiàn)。
5 論文主題分析
對(duì)古籍?dāng)?shù)字化相關(guān)研究論文的主題分析可以得知該領(lǐng)域的研究重點(diǎn)和難點(diǎn)。筆者逐一對(duì)347篇相關(guān)論文的文摘進(jìn)行分析,將古籍?dāng)?shù)字化研究劃分為12個(gè)主題門類(一篇文章有多個(gè)主題則分別統(tǒng)計(jì))。統(tǒng)計(jì)結(jié)果表明我國(guó)古籍?dāng)?shù)字化研究的主要領(lǐng)域?yàn)?1)古籍?dāng)?shù)字化的基本理論,包括古籍?dāng)?shù)字化的概念、性質(zhì)、內(nèi)涵與外延、發(fā)展現(xiàn)狀、問(wèn)題、發(fā)展趨勢(shì)、定位等;2)古籍?dāng)?shù)字化標(biāo)準(zhǔn)研究,包括為古籍元數(shù)據(jù)、著錄規(guī)則、分類標(biāo)引規(guī)則、字符編碼等;3)古籍?dāng)?shù)字化資源的特點(diǎn)和意義,包括古籍?dāng)?shù)字化資源的優(yōu)點(diǎn)以及古籍?dāng)?shù)字化的必要性、作用和重要意義(古籍保護(hù)和古籍整理的意義、古籍開發(fā)利用及對(duì)其他學(xué)科發(fā)展的作用)等;4)書目數(shù)據(jù)庫(kù)建設(shè),包括書目數(shù)據(jù)庫(kù)建設(shè)的前期準(zhǔn)備、編目人員的素質(zhì)和培訓(xùn)、聯(lián)機(jī)編目、書目數(shù)據(jù)共建共享、古籍的著錄、分類標(biāo)引、機(jī)讀書目數(shù)據(jù)的編制、書目數(shù)據(jù)的質(zhì)量控制等問(wèn)題;5)全文數(shù)據(jù)庫(kù)建設(shè),包括基于圖像的全文數(shù)據(jù)庫(kù)和基于圖像與文本對(duì)照的全文數(shù)據(jù)庫(kù)以及全文數(shù)據(jù)庫(kù)中輔助工具(索引、字典、關(guān)聯(lián)網(wǎng)絡(luò))等;6)專題古籍?dāng)?shù)字化研究,包括法律、農(nóng)業(yè)、中醫(yī)、數(shù)學(xué)、飲食、地方志等專題性古籍的數(shù)字化研究;7)少數(shù)民族古籍?dāng)?shù)字化研究,包括我國(guó)各少數(shù)民族古籍的數(shù)字化研究和實(shí)踐、元數(shù)據(jù)、字符編碼、字符輸入、顯示、檢索等問(wèn)題;8)其他數(shù)據(jù)庫(kù)建設(shè),包括索引數(shù)據(jù)庫(kù)、資料庫(kù)、知識(shí)庫(kù)建設(shè)等;9)數(shù)字化技術(shù)研究,包括古籍的數(shù)字化處理技術(shù)(非鍵盤光學(xué)輸入、圖像處理、機(jī)器校對(duì)等)、信息組織技術(shù)、存儲(chǔ)技術(shù)、全文檢索技術(shù)、漢字的關(guān)聯(lián)擴(kuò)展檢索技術(shù)、數(shù)字出版技術(shù)、人機(jī)接口技術(shù)等;10)數(shù)字化相關(guān)軟件和平臺(tái)的應(yīng)用研究,包括ILAS、SulcmisⅢ、CALIS等書目數(shù)據(jù)庫(kù)和TRS、方正德賽(DESI)等全文數(shù)據(jù)庫(kù)建設(shè)實(shí)踐等;11)數(shù)字化資源的共享和利用,包括古籍?dāng)?shù)字化資源的共建、共享、檢索、利用等子主題;12)數(shù)字化成果分析與評(píng)估,包括我國(guó)各地區(qū)已建成的古籍書目數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)、知識(shí)庫(kù)等數(shù)字化資源的分析和評(píng)估。
從各個(gè)研究主題分布范圍和所占的比例可以看出,我國(guó)古籍?dāng)?shù)字化建設(shè)已經(jīng)從最初書目數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)等簡(jiǎn)單的二次文獻(xiàn)揭示形式向全文數(shù)據(jù)庫(kù)甚至具有輔助檢索和研究功能的智能全文檢索系統(tǒng)發(fā)展,其中非鍵盤的光學(xué)輸入、不常用字符的編碼技術(shù)、元數(shù)據(jù)標(biāo)準(zhǔn)、少數(shù)民族的古籍?dāng)?shù)字化開發(fā)以及數(shù)字化古籍的深層次開發(fā)等問(wèn)題成為研究的難點(diǎn)與熱點(diǎn),部分技術(shù)上的壁壘已經(jīng)被攻克,較多人性化、視覺(jué)效果好、使用便捷的數(shù)字化產(chǎn)品已經(jīng)提供給用戶使用,這些數(shù)字化產(chǎn)品不僅提供全文檢索功能,還包含輔助支撐工具,這些工具能夠幫助讀者更高效的使用數(shù)字化產(chǎn)品,還可以讓讀者參與到勘誤中來(lái),比較典型的產(chǎn)品如書同文公司開發(fā)出的局域網(wǎng)版、國(guó)際互聯(lián)網(wǎng)絡(luò)版以及單機(jī)版的《文淵閣四庫(kù)全書》《十通》《四部叢刊》《康熙字典》《大清五部會(huì)典》《大清歷朝實(shí)錄》等數(shù)字精品。
我國(guó)古籍?dāng)?shù)字化研究已經(jīng)取得了較豐碩的成果,公益性和市場(chǎng)化的產(chǎn)品不斷問(wèn)世,盡管成果非常豐碩,但是還是存在一些問(wèn)題:部分?jǐn)?shù)字化古籍錯(cuò)訛多,僅能用于查詢索引,難以準(zhǔn)確引用;重復(fù)建設(shè)的問(wèn)題比較突出,如《二十四史》大多數(shù)字化產(chǎn)品中都已包含[5];相比世界其他館藏中文古籍的單位,我國(guó)古籍?dāng)?shù)字化水平及網(wǎng)絡(luò)化服務(wù)水平還有很大差距,目前我國(guó)已數(shù)字化的古籍占全部古籍的比例無(wú)疑是很低的,我國(guó)的古籍?dāng)?shù)字化產(chǎn)品大多由商業(yè)公司開發(fā),他們只限于選擇市場(chǎng)開發(fā)價(jià)值較高、較實(shí)用的古籍版本,遠(yuǎn)遠(yuǎn)不能滿足廣大科研人員的需求;大多數(shù)讀者只能使用經(jīng)單位購(gòu)買的數(shù)字化產(chǎn)品,公益性開放資源較少,這樣古籍?dāng)?shù)字化資源的利用受到限制;數(shù)字化產(chǎn)品的深度開發(fā)還需要進(jìn)一步加強(qiáng),專題、精深化整理研究還需要不斷深入。
總的看來(lái),在未來(lái)很長(zhǎng)一段時(shí)間,在宏觀和微觀兩個(gè)層次上,古籍?dāng)?shù)字化研究還有很長(zhǎng)的路要走:一方面,浩如煙海的古籍將被陸續(xù)按照嚴(yán)格的標(biāo)準(zhǔn)和加工流程數(shù)字化,費(fèi)時(shí)較多,所需人力、物力和財(cái)力都較大,如哈佛大學(xué)圖書館與中國(guó)國(guó)家圖書館已達(dá)成協(xié)議,將合作建立一個(gè)中國(guó)之外最大的中國(guó)國(guó)學(xué)珍本書籍?dāng)?shù)字圖書館,哈佛的技術(shù)人員將用6年的時(shí)間,花費(fèi)數(shù)百萬(wàn)美元將館藏51 500冊(cè)珍本數(shù)字化[6],我國(guó)以國(guó)家圖書館為首的各收藏單位也已經(jīng)開始啟動(dòng)更大規(guī)模的古籍?dāng)?shù)字化工作[7];另一方面,我們對(duì)古籍?dāng)?shù)字化資源的深度開發(fā)將進(jìn)入細(xì)微化階段,如知識(shí)元的標(biāo)引、相關(guān)知識(shí)元關(guān)聯(lián)形成知識(shí)網(wǎng)絡(luò)、輔助知識(shí)庫(kù)建設(shè)、智能輔助檢索和研究工具建設(shè)、信息的統(tǒng)計(jì)和分析、專題性資料的自動(dòng)挖掘等,可以說(shuō)未來(lái)的數(shù)字化古籍將是立體的、智能的知識(shí)挖掘系統(tǒng)平臺(tái)[8]。
[參考文獻(xiàn)]
[1]劉 煒.上海圖書館古籍?dāng)?shù)字化的初步嘗試[J].圖書館雜志,1997(4):33.
[2]李明杰.中文古籍?dāng)?shù)字化基本理論問(wèn)題芻議[J].圖書館論壇,2005(10):98.
[3]毛建軍.古籍?dāng)?shù)字化的概念與內(nèi)涵[J]. 圖書館理論與實(shí)踐,2007(4):82.
[4]中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)[DB/OL].[2009-03-16].http://acad.cnki.net/Kns55/brief/result.aspx?dbPrefix=CJFQ.
[5]王發(fā)社.古籍?dāng)?shù)字化的幾點(diǎn)思考[J].圖書館論壇,2006(3):122.
[6]哈佛圖書館擬將國(guó)學(xué)珍本數(shù)字化[EB/OL].[2009-10-13].http://book.hexun.com/2009-10-13/121322896.html.
[7]陳 力.中國(guó)古籍?dāng)?shù)字化的現(xiàn)狀與展望[EB/OL].[2009-10-13].http://www.guoxue.com/gjzl/gj398/gj398_03.htm.
[8]徐 清,石向?qū)崳?唯.古籍?dāng)?shù)字化資源的深度開發(fā)[J].圖書情報(bào)工作,2007(3):95—97.
[收稿時(shí)間]2009-10-15
[作者簡(jiǎn)介]李盛慶(1983—),男,助理館員,本科。