許 莉
(湖南圖書館 長(zhǎng)沙 410011)
古籍是珍貴的特色文化遺產(chǎn),出于對(duì)古籍文獻(xiàn)價(jià)值的認(rèn)同,我國(guó)政府非常重視古籍保護(hù)和開(kāi)發(fā)利用工作。特別是進(jìn)入21世紀(jì)以來(lái),在國(guó)家經(jīng)濟(jì)文化大發(fā)展的背景下,政府發(fā)布了一系列政策文件,指導(dǎo)古籍保護(hù)工作。2007年,國(guó)務(wù)院辦公廳發(fā)布了《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見(jiàn)》(國(guó)辦發(fā)[2007] 6號(hào))。2011年,文化部下發(fā)《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的通知》(文社文發(fā)[2011] 12號(hào))。2017年,文化部印發(fā)《“十三五”時(shí)期全國(guó)古籍保護(hù)工作規(guī)劃》,系我國(guó)古籍保護(hù)工作方面的首個(gè)五年規(guī)劃。2022年4月,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)了《關(guān)于推進(jìn)新時(shí)代古籍工作的意見(jiàn)》。在政策支持和現(xiàn)代信息技術(shù)背景下,大量古籍實(shí)現(xiàn)了數(shù)字化,古籍?dāng)?shù)字資源向多元化、智能化、開(kāi)放化的信息獲取方向發(fā)展。
古籍文獻(xiàn)記載了古代社會(huì)生活的信息符號(hào),其載體和裝幀形式也體現(xiàn)了古代手工和生產(chǎn)力發(fā)展水平。古籍價(jià)值珍貴,已經(jīng)退出了日常閱讀流通市場(chǎng),通常被收藏在圖書館、博物館等公共文化服務(wù)機(jī)構(gòu)中。古籍載體已存在幾百年甚至上千年,已經(jīng)處于自然衰退的過(guò)程。出于原生性保護(hù)的目的,古籍已不適于多次提取閱覽和使用。對(duì)古籍進(jìn)行數(shù)字化,就是將古籍信息內(nèi)容進(jìn)行轉(zhuǎn)移,實(shí)現(xiàn)古籍文物價(jià)值和信息價(jià)值的分離,以數(shù)字資源取代古籍對(duì)外開(kāi)放閱覽和服務(wù),從而延長(zhǎng)古籍的壽命。2007年國(guó)務(wù)院《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見(jiàn)》明確指出,要規(guī)范古籍?dāng)?shù)字化工作,向社會(huì)和公眾開(kāi)放古籍資源,發(fā)揮古籍應(yīng)有的作用[1]。古籍保護(hù)工作既要保護(hù)古籍原件,又要將古籍承載的內(nèi)容化身千百,傳播給社會(huì)大眾。古籍?dāng)?shù)字資源形式多樣,存儲(chǔ)空間小,通過(guò)網(wǎng)絡(luò)可實(shí)現(xiàn)跨區(qū)域的大范圍傳播。古籍?dāng)?shù)字資源便于開(kāi)發(fā)和利用,對(duì)信息知識(shí)進(jìn)行深入發(fā)現(xiàn)和挖掘,實(shí)現(xiàn)其再生性價(jià)值,為用戶提供優(yōu)質(zhì)的知識(shí)服務(wù)。用數(shù)字資源取代紙質(zhì)文獻(xiàn),符合社會(huì)信息傳播發(fā)展趨勢(shì),是傳承歷史和發(fā)揚(yáng)傳統(tǒng)文化的科學(xué)性選擇。
信息公平是人類社會(huì)的基本權(quán)利之一,是圖書館核心價(jià)值觀的體現(xiàn)。1948年的《世界人權(quán)宣言》是最早規(guī)定人的權(quán)利的規(guī)范性文件,其中包括人類獲取信息的權(quán)利。聯(lián)合國(guó)人權(quán)憲章確定了信息獲取權(quán)應(yīng)當(dāng)作為基本人權(quán)受到尊重與保護(hù)。1994年,國(guó)際圖聯(lián)和聯(lián)合國(guó)教科文組織聯(lián)合發(fā)布《公共圖書館宣言》,重申讀者信息獲取的自由和權(quán)利[2]。2017年11月,全國(guó)人大常委會(huì)通過(guò)了《公共圖書館法》,這是我國(guó)信息獲取權(quán)保障基本制度建設(shè)的重要內(nèi)容。
古籍資源稀缺且分布不均衡,存在明顯的地區(qū)差異、機(jī)構(gòu)差異。在傳統(tǒng)古籍服務(wù)模式下,用戶必須到現(xiàn)場(chǎng)閱覽紙質(zhì)文獻(xiàn)或縮微文獻(xiàn),獲取路徑單一,收藏機(jī)構(gòu)服務(wù)范圍有限。非本地區(qū)的用戶很難獲得古籍收藏機(jī)構(gòu)提供的信息服務(wù)?,F(xiàn)存中文古籍總量約為20萬(wàn)種,主要集中在國(guó)家圖書館、北京大學(xué)圖書館、上海圖書館、南京圖書館等古籍重點(diǎn)保護(hù)單位。其他單位所藏的古籍文獻(xiàn)種類和數(shù)量相對(duì)不足,也限制了現(xiàn)場(chǎng)用戶信息需求的滿足。古籍?dāng)?shù)字資源可以通過(guò)計(jì)算機(jī)存儲(chǔ)和網(wǎng)絡(luò)傳播的特征,突破了古籍文獻(xiàn)傳播的時(shí)空限制。推廣古籍?dāng)?shù)字資源,能夠顯著擴(kuò)大用戶地區(qū)范圍,彌補(bǔ)古籍信息獲取的社會(huì)差距,從而實(shí)現(xiàn)古籍信息獲取的相對(duì)公平,減輕資源分配不公造成的公共文化服務(wù)不均衡現(xiàn)象,也有利于古籍文獻(xiàn)的社會(huì)化傳播和閱讀推廣。
古籍是燦爛中華文明的結(jié)晶,是中華民族優(yōu)秀文化的載體,記錄了我國(guó)各朝代各階層人民的生產(chǎn)和生活狀況,是不可再生、不可替代的歷史資料。保存和開(kāi)發(fā)古籍,對(duì)于傳承發(fā)揚(yáng)中華民族文化,加強(qiáng)民族團(tuán)結(jié),具有不可替代的重要意義。
近年來(lái),以計(jì)算機(jī)、互聯(lián)網(wǎng)以及數(shù)字化為核心的變革,影響了全社會(huì)的信息生產(chǎn)和傳播模式,以及用戶的信息獲取和使用方式。人們的生產(chǎn)和生活已經(jīng)進(jìn)入全新的數(shù)字時(shí)代,數(shù)字閱讀逐漸成為社會(huì)閱讀和學(xué)習(xí)的常態(tài)。據(jù)第七屆中國(guó)數(shù)字閱讀大會(huì)上發(fā)布的《2020年度中國(guó)數(shù)字閱讀報(bào)告》,2020年中國(guó)數(shù)字閱讀產(chǎn)業(yè)規(guī)模達(dá)351.6億,數(shù)字閱讀用戶規(guī)模達(dá)4.94億,日均數(shù)字閱讀時(shí)長(zhǎng)為29分鐘[3]。數(shù)字閱讀具有成本低、易存儲(chǔ)、信息更新快等優(yōu)點(diǎn),對(duì)促進(jìn)全民閱讀、提升全民文化素質(zhì)具有不可忽視的意義。古籍?dāng)?shù)字資源是數(shù)字時(shí)代的傳統(tǒng)知識(shí)文化載體,是適應(yīng)現(xiàn)代社會(huì)閱讀習(xí)慣和閱讀潮流的信息資源。將古籍轉(zhuǎn)化為數(shù)字資源,再整理加工為多種形式的數(shù)字產(chǎn)品,實(shí)現(xiàn)了傳統(tǒng)文化與現(xiàn)代社會(huì)的知識(shí)連接,產(chǎn)生了新的社會(huì)效益。傳統(tǒng)文化內(nèi)容以數(shù)字時(shí)代的傳播方式進(jìn)行擴(kuò)散,迎合了用戶的信息獲取和閱讀習(xí)慣,有利于古籍閱讀活動(dòng)推陳出新,有利于現(xiàn)代技術(shù)助力古籍研究工作。
3.1.1 數(shù)據(jù)庫(kù)
全國(guó)范圍內(nèi)的中文古籍?dāng)?shù)字化工作已經(jīng)取得階段性成果,由古籍收藏機(jī)構(gòu)、高校、信息技術(shù)開(kāi)發(fā)公司等合作開(kāi)發(fā)的古籍?dāng)?shù)據(jù)庫(kù)已經(jīng)推廣使用,成為教師、學(xué)生、古籍研究者的重要信息來(lái)源。
(1)全文數(shù)據(jù)庫(kù)
全文數(shù)據(jù)庫(kù)有文本型、圖像型和圖文型3種類型,通過(guò)人工將古籍全文錄入數(shù)據(jù)庫(kù), 再進(jìn)行分類標(biāo)引形成可檢索的文本數(shù)據(jù)庫(kù)。它為使用者提供了文本格式的古籍全文,可以實(shí)現(xiàn)全文檢索、文本復(fù)制和編輯[4]。由南開(kāi)大學(xué)組合數(shù)學(xué)研究中心、天津永川軟件技術(shù)有限公司等聯(lián)合開(kāi)發(fā)的“二十五史全文閱讀檢索系統(tǒng)(網(wǎng)絡(luò)版)”就是文本型全文數(shù)據(jù)庫(kù)。文本型全文數(shù)據(jù)庫(kù)運(yùn)用于古籍文獻(xiàn),是古籍?dāng)?shù)字化的最初嘗試。但是手工錄入工作量大,繁體字、異體字辨認(rèn)和校對(duì)難度高,古籍的版本特征不復(fù)存在。
鑒于此,我們可以通過(guò)掃描古籍全文,建立圖像數(shù)據(jù)庫(kù),同時(shí)著錄相應(yīng)的元數(shù)據(jù),形成基于元數(shù)據(jù)的古籍全文數(shù)據(jù)庫(kù)[5]。公共圖書館自建的館藏古籍?dāng)?shù)據(jù)庫(kù)以圖像型全文數(shù)據(jù)庫(kù)居多,如首都圖書館“館藏古籍珍善本圖像數(shù)據(jù)庫(kù)”、上海圖書館“古籍善本全文光盤”等。圖像全文數(shù)據(jù)庫(kù)建設(shè)對(duì)掃描設(shè)備和技術(shù)要求較高,前期經(jīng)費(fèi)投入大,占用存儲(chǔ)空間大。但采集錄入環(huán)節(jié)相對(duì)簡(jiǎn)單,省去了文字校對(duì)的步驟,對(duì)數(shù)據(jù)技術(shù)要求不高,適合圖書館文獻(xiàn)基礎(chǔ)強(qiáng)而技術(shù)力量弱的現(xiàn)實(shí)情況。圖像能保存古籍原貌,為用戶提供版式、批注、印章等有用信息。最大的缺點(diǎn)是只能閱覽和基于元數(shù)據(jù)檢索,不能進(jìn)行文字全文檢索和復(fù)制編輯。
圖文型古籍?dāng)?shù)據(jù)庫(kù)是圖像型與文本型的結(jié)合[6]。它不僅支持基于文本的檢索,還提供影像形式的古籍原文內(nèi)容對(duì)照,可有效避免文字識(shí)別時(shí)出現(xiàn)的錯(cuò)漏,對(duì)古籍版本的研究具有重要價(jià)值。目前數(shù)字出版商開(kāi)發(fā)的古籍全文數(shù)據(jù)庫(kù)以圖文型為主,例如愛(ài)如生公司開(kāi)發(fā)的“中國(guó)基本古籍庫(kù)”、書同文公司開(kāi)發(fā)的《四部叢刊》全文檢索系統(tǒng)、時(shí)代瀚堂公司開(kāi)發(fā)的《瀚堂典藏》古籍?dāng)?shù)據(jù)庫(kù)等[7]。圖文型古籍?dāng)?shù)據(jù)庫(kù)是古籍?dāng)?shù)據(jù)庫(kù)的發(fā)展趨勢(shì),結(jié)合了文本數(shù)據(jù)庫(kù)和圖像數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),既能夠進(jìn)行全文檢索,也能通過(guò)切換文本和原圖像,瀏覽原文圖片來(lái)校對(duì)內(nèi)容,查看原書版式。
(2)參考數(shù)據(jù)庫(kù)
參考數(shù)據(jù)庫(kù)是能指引用戶到另一信息源獲取原文或其他細(xì)節(jié)的數(shù)據(jù)庫(kù)[8]。古籍參考數(shù)據(jù)庫(kù)以書目數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)居多。
古籍書目數(shù)據(jù)庫(kù)主要指圖書館目錄數(shù)據(jù)庫(kù),針對(duì)特定的館藏圖書資料等進(jìn)行內(nèi)容及存儲(chǔ)地址的揭示與報(bào)道,在統(tǒng)一機(jī)讀目錄格式下,將古籍文獻(xiàn)的基本信息著錄到計(jì)算機(jī)存儲(chǔ)。用戶可檢索古籍的館藏地點(diǎn)、版本等信息,為進(jìn)一步利用古籍提供依據(jù)。上海圖書館古籍書目數(shù)據(jù)庫(kù)2001年推出使用,包含數(shù)據(jù)近13 萬(wàn)條。2004年,國(guó)家圖書館完成全部館藏古籍書目數(shù)據(jù)庫(kù)建設(shè),數(shù)據(jù)達(dá)39 萬(wàn)余條[9]。目前,古籍聯(lián)合書目數(shù)據(jù)庫(kù)的建設(shè)成為發(fā)展趨勢(shì)。我國(guó)及海外一些古籍收藏機(jī)構(gòu)開(kāi)始統(tǒng)一標(biāo)準(zhǔn)、規(guī)范,進(jìn)而實(shí)現(xiàn)聯(lián)合編目的歷程,出現(xiàn)了一些比較有影響力的古籍聯(lián)合編目項(xiàng)目,如中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(CALIS) 的“古籍善本聯(lián)合目錄數(shù)據(jù)庫(kù)”、美國(guó)的“中國(guó)古籍國(guó)際聯(lián)合目錄”項(xiàng)目等[10]。
索引數(shù)據(jù)庫(kù)是存貯書名、刊名、篇名、主題、人名、地名等信息的外部特征,并將這些外部特征按一定方式編排,注明出處,以供檢索的數(shù)據(jù)庫(kù)[11]。歐美地區(qū)在編制中文古籍索引數(shù)據(jù)庫(kù)實(shí)踐方面發(fā)展較早。日本學(xué)者編制的中文古籍索引數(shù)據(jù)庫(kù)較多,如東京大學(xué)圖書館編制的“東京大學(xué)總合圖書館漢籍目錄·索引”。國(guó)內(nèi)于1988年啟動(dòng)電腦編制索引,此后古籍索引數(shù)字化越來(lái)越普遍,如北京師范大學(xué)圖書館開(kāi)發(fā)的“全元文篇名作者索引”,南京師范大學(xué)開(kāi)發(fā)的“全唐五代宋詞索引”“全宋詞索引”。索引數(shù)據(jù)庫(kù)大大減少了用戶對(duì)古籍文獻(xiàn)的翻檢時(shí)間,是用戶進(jìn)一步利用古籍文獻(xiàn)的有效工具。
3.1.2 電子圖書
(1)光盤電子圖書
早在20世紀(jì)80年代,各研究機(jī)構(gòu)和出版社就聯(lián)合將原有古籍原版書轉(zhuǎn)化為電子圖書,通過(guò)精選優(yōu)質(zhì)的古籍底本,再進(jìn)行數(shù)字轉(zhuǎn)化后匯編,將其存儲(chǔ)在光盤中。香港迪志文化出版有限公司與上海人民出版社合作出版的“文淵閣《四庫(kù)全書》”電子版, 1997年開(kāi)始制作,1998年推出“原文及標(biāo)題檢索版”(167張光盤),1999年推出“原文及全文檢索版”(183張光盤)[12]。光盤版古籍容量大,一張光盤可以記錄多部圖書,便于攜帶。大多數(shù)光盤版古籍,可以在電腦上實(shí)現(xiàn)多種途徑檢索,還有整理、裁剪等多種編輯功能?,F(xiàn)在因?yàn)榫W(wǎng)絡(luò)技術(shù)的發(fā)展,光盤版古籍已經(jīng)逐漸被網(wǎng)絡(luò)版電子圖書取代。
(2)網(wǎng)絡(luò)電子圖書
網(wǎng)絡(luò)電子圖書是指以互聯(lián)網(wǎng)為媒介,以電子文檔方式發(fā)行、傳播和閱讀的電子圖書。網(wǎng)絡(luò)古籍電子圖書,有綜合數(shù)字圖書館中收錄的,由古籍文獻(xiàn)轉(zhuǎn)化的電子圖書,如方正阿帕比數(shù)字圖書館,其中包括12萬(wàn)冊(cè)珍貴古籍,可以提供翻閱、全文檢索和在線試讀;還有獨(dú)立制作的專題古籍電子圖書系統(tǒng),如“‘中醫(yī)藥珍善本古籍多媒體數(shù)據(jù)庫(kù)’對(duì)320種中醫(yī)藥珍善本古籍進(jìn)行了數(shù)字化處理,初步建成了網(wǎng)絡(luò)版的中醫(yī)古籍電子圖書系統(tǒng)”[13]。
3.1.3 網(wǎng)絡(luò)數(shù)字資源
一些專業(yè)性網(wǎng)站或綜合性網(wǎng)站的專題欄目,也收錄了許多古籍?dāng)?shù)字資源。國(guó)內(nèi)最有影響的古籍網(wǎng)站是國(guó)學(xué)網(wǎng)和愛(ài)如生網(wǎng)站。國(guó)學(xué)網(wǎng)所辟“文獻(xiàn)部”為免費(fèi)數(shù)字資源,分經(jīng)、史、子、集四部分,但只能按卷或篇名瀏覽,不設(shè)字詞檢索功能。愛(ài)如生網(wǎng)站內(nèi)所設(shè)“典海”,以數(shù)字化古籍為主要內(nèi)容,收錄歷代典籍和民國(guó)書刊10萬(wàn)種。該網(wǎng)站收錄的大量的明清人詩(shī)文筆記、學(xué)術(shù)著作,成為其一大亮點(diǎn)。古籍收藏單位和研究機(jī)構(gòu),也會(huì)在網(wǎng)站上開(kāi)放自制古籍?dāng)?shù)字資源,供用戶免費(fèi)使用或注冊(cè)使用。國(guó)家圖書館的國(guó)際敦煌項(xiàng)目(IDP),提供敦煌及絲綢之路其他遺址出土的10萬(wàn)余件寫卷數(shù)字資源。國(guó)圖還開(kāi)辟了甲骨世界、碑帖菁華、西夏碎金等欄目,提供各種出土古書的數(shù)字資源[14]。
3.2.1 公共獲取路徑
信息資源公共獲取,即“一定區(qū)域范圍內(nèi)某一社會(huì)共同體的不特定成員免費(fèi)或低成本、無(wú)歧視、無(wú)障礙地獲取有關(guān)信息資源”[15]。國(guó)內(nèi)公共圖書館集中了我國(guó)大部分現(xiàn)存古籍,是保障公民基本文化權(quán)益的公共文化設(shè)施。
公共圖書館向用戶提供兩種來(lái)源的古籍?dāng)?shù)字資源,即自建的和購(gòu)買的古籍?dāng)?shù)字資源。隨著“中華古籍保護(hù)計(jì)劃”的深入開(kāi)展,各圖書館相繼建設(shè)各具特色的古籍?dāng)?shù)據(jù)庫(kù),開(kāi)放古籍在線發(fā)布平臺(tái),供用戶免費(fèi)或注冊(cè)使用;將小部分館藏古籍內(nèi)容制作成單本光盤、U盤型數(shù)字資源,收取制作成本費(fèi),滿足用戶個(gè)性化信息需求。公共圖書館利用公共文化服務(wù)資金采購(gòu)商業(yè)化古籍?dāng)?shù)據(jù)庫(kù),免費(fèi)提供給注冊(cè)用戶使用,基于維護(hù)公共文化權(quán)利的立場(chǎng),為用戶提供古籍?dāng)?shù)字資源的公共獲取路徑。
公共圖書館向用戶提供的古籍?dāng)?shù)字資源內(nèi)容有:公有領(lǐng)域的古籍信息內(nèi)容,著作權(quán)法豁免保護(hù)范圍內(nèi)的古籍?dāng)?shù)字資源。古籍因?yàn)槟甏眠h(yuǎn),其信息內(nèi)容已經(jīng)進(jìn)入公有領(lǐng)域,不受《著作權(quán)法》的限制。但是古籍載體本身又是文物,受到《文物保護(hù)法》的保護(hù)。因此,將古籍文獻(xiàn)進(jìn)行信息轉(zhuǎn)移,制作成數(shù)字資源再提供給用戶閱覽,是解決古籍文物價(jià)值和信息價(jià)值之間矛盾的優(yōu)選方案。我國(guó)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》規(guī)定:圖書館可向其服務(wù)對(duì)象提供本館收藏的合法出版的數(shù)字作品。因此,公共圖書館可以購(gòu)買古籍商業(yè)數(shù)據(jù)庫(kù),供到館用戶和注冊(cè)用戶閱覽學(xué)習(xí)。
近年來(lái),我國(guó)加大了推進(jìn)公共文化服務(wù)的力度,公共圖書館古籍?dāng)?shù)字資源顯著增長(zhǎng),服務(wù)能力增強(qiáng)。用戶可以通過(guò)公共獲取途徑取得古籍?dāng)?shù)字資源,在文獻(xiàn)種類、供給機(jī)構(gòu)、服務(wù)形式上都有較大選擇空間。這能夠滿足絕大部分用戶的基本信息需求,而且有效降低了信息獲取成本。但是,公共獲取路徑并不支持涉及商業(yè)化傳播和營(yíng)利性的古籍信息需求。
3.2.2 商業(yè)獲取路徑
信息資源商業(yè)獲取,是指信息用戶通過(guò)付出經(jīng)濟(jì)成本的方式,從商品流通市場(chǎng)上交換取得所需的信息資源。古籍文獻(xiàn)的收藏機(jī)構(gòu),如圖書館、博物館,是古籍?dāng)?shù)字資源商業(yè)獲取的源頭。超越古籍?dāng)?shù)字資源公共獲取邊界,公共圖書館、博物館向營(yíng)利性機(jī)構(gòu)提供商業(yè)使用目的的古籍?dāng)?shù)字資源轉(zhuǎn)讓,屬于商業(yè)獲取行為。圖書出版商、信息技術(shù)企業(yè),向古籍收藏機(jī)構(gòu)購(gòu)買古籍?dāng)?shù)字資源后,經(jīng)過(guò)再次技術(shù)化加工,增加資源的附加知識(shí)價(jià)值,再向用戶提供古籍?dāng)?shù)字資源的商業(yè)化知識(shí)產(chǎn)品。
古籍?dāng)?shù)字出版是在古籍?dāng)?shù)字化的基礎(chǔ)上,通過(guò)篩選、點(diǎn)校整理和編輯加工后,以數(shù)字產(chǎn)品的形式提供給用戶的一種出版活動(dòng)。相關(guān)機(jī)構(gòu)在古籍?dāng)?shù)字出版過(guò)程中打破了傳統(tǒng)出版模式,發(fā)揮計(jì)算機(jī)處理技術(shù)優(yōu)勢(shì),使用Unicode編碼字符集、OCR移動(dòng)數(shù)據(jù)采集、自然語(yǔ)言處理與語(yǔ)義關(guān)聯(lián)、知識(shí)組織體系建設(shè)等方式實(shí)現(xiàn)古籍?dāng)?shù)字出版及數(shù)字資源合作[16]。不同于紙質(zhì)資源,用戶更看重古籍?dāng)?shù)字資源智能化、自動(dòng)化、個(gè)性化的功能以及服務(wù)的多元、質(zhì)量和效率。這就要求對(duì)古籍?dāng)?shù)字資源進(jìn)行組織、標(biāo)引、檢索、分析、數(shù)據(jù)挖掘,實(shí)現(xiàn)深度知識(shí)揭示和呈現(xiàn)。信息技術(shù)公司和學(xué)術(shù)研究機(jī)構(gòu)合作,將數(shù)字人文前沿研究應(yīng)用于古籍?dāng)?shù)字化實(shí)踐已成為趨勢(shì)。例如:借助GIS技術(shù)進(jìn)行文獻(xiàn)知識(shí)與歷史進(jìn)程的靜態(tài)與動(dòng)態(tài)可視化分析;構(gòu)建基于網(wǎng)絡(luò)數(shù)據(jù)采集、專業(yè)數(shù)據(jù)庫(kù)獲取、詞頻分析的古籍文本信息可視化展示庫(kù);在全文人工標(biāo)注的基礎(chǔ)上,將大量電子化的文本集合為語(yǔ)料庫(kù),構(gòu)建自動(dòng)識(shí)別模型[17]。這種以古籍文本數(shù)據(jù)為對(duì)象的知識(shí)加工服務(wù),增加了古籍?dāng)?shù)字資源的知識(shí)價(jià)值和經(jīng)濟(jì)價(jià)值,成為制造商的優(yōu)勢(shì)知識(shí)商品。進(jìn)入信息資源市場(chǎng)后,用戶通過(guò)付出經(jīng)濟(jì)成本購(gòu)買其使用權(quán),完成商業(yè)獲取。
3.2.3 開(kāi)放獲取路徑
信息資源開(kāi)放獲?。∣A),是指任何用戶可以免費(fèi)在線獲取數(shù)字化信息資源,并允許其進(jìn)行閱讀、下載、復(fù)制、傳遞、打印、檢索等合理利用[18]。嚴(yán)格來(lái)講,開(kāi)放獲取也是公共獲取的一種形式,但是兩者有共性也有區(qū)別。公共獲取的資源可以是所有的信息資源載體形式,開(kāi)放獲取的資源則是在線典藏的學(xué)術(shù)數(shù)字資源。公共獲取的資源,要依據(jù)法律法規(guī)和國(guó)家政策,在資源提供機(jī)構(gòu)的管理和服務(wù)許可范圍內(nèi)有限獲取;開(kāi)放獲取資源,免費(fèi)開(kāi)放就是其本質(zhì)屬性。古籍?dāng)?shù)字化是傳統(tǒng)古籍整理研究工作在數(shù)字時(shí)代的延續(xù)與發(fā)展,以此為基礎(chǔ)的古籍開(kāi)放獲取將逐漸成為古籍整理工作的未來(lái)發(fā)展方向[19]。
世界各國(guó)知名公共圖書館,在收藏大量珍貴古籍的基礎(chǔ)上,積極開(kāi)放在線古籍?dāng)?shù)字資源,取得了豐碩成果。通過(guò)哈佛大學(xué)圖書館中文研究導(dǎo)航頁(yè)的鏈接可查看寶卷、中國(guó)珍稀舊方志、拓片收藏、明清婦女著作等專題集,所有用戶無(wú)需登錄即可在線瀏覽古籍圖片,支持無(wú)級(jí)縮放、下載打印等操作[19]。“書格”是國(guó)內(nèi)為數(shù)不多的古籍開(kāi)放獲取資源整合網(wǎng)絡(luò)平臺(tái),匯集了日本國(guó)立國(guó)會(huì)圖書館、德國(guó)柏林國(guó)家圖書館、法國(guó)國(guó)家圖書館、美國(guó)國(guó)會(huì)圖書館等海外眾多著名圖書館的中文古籍?dāng)?shù)字資源,為用戶提供開(kāi)放獲取服務(wù)[20]。
海外古籍文獻(xiàn)的數(shù)字化水平和開(kāi)放獲取程度要高于國(guó)內(nèi),流失于海外的中文古籍開(kāi)放獲取資源,使我國(guó)用戶不出國(guó)門就能方便地獲取和利用許多國(guó)內(nèi)不復(fù)存在的古籍文獻(xiàn),可以有效地挖掘古籍文獻(xiàn)中珍貴的歷史信息資源。開(kāi)展對(duì)于海外收藏的古籍文獻(xiàn)的相關(guān)研究,具有重要的歷史意義和現(xiàn)實(shí)意義[21]。開(kāi)放獲取資源建設(shè)也存在投入經(jīng)費(fèi)高、建設(shè)周期長(zhǎng)、受收藏機(jī)構(gòu)文獻(xiàn)種類所限等缺點(diǎn)。相對(duì)于現(xiàn)存的中文古籍文獻(xiàn)總量來(lái)說(shuō),全球開(kāi)放獲取的中文古籍?dāng)?shù)字資源還很有限,開(kāi)放獲取只能是獲取部分古籍資源的選擇途徑。
做好古籍?dāng)?shù)字資源建設(shè),為用戶提供更多可獲取的資源種類和數(shù)量,是推動(dòng)古籍?dāng)?shù)字資源獲取的基礎(chǔ)性工作。優(yōu)質(zhì)高效的古籍?dāng)?shù)字資源是滿足不同用戶需求的基礎(chǔ)保障。
(1)挖掘珍貴特色古籍?dāng)?shù)字資源
對(duì)古籍進(jìn)行數(shù)字資源建設(shè),為用戶挖掘珍貴古籍的文獻(xiàn)價(jià)值,要選擇優(yōu)質(zhì)主題的古籍文獻(xiàn),選取那些既具有較高文獻(xiàn)價(jià)值又高度契合用戶需求,知識(shí)性和市場(chǎng)性完整統(tǒng)一的古籍,擴(kuò)展古籍?dāng)?shù)字資源的學(xué)科范圍。盡量避免對(duì)同類別古籍?dāng)?shù)字資源的重復(fù)建設(shè),如文淵閣《四庫(kù)全書》電子版,就曾出現(xiàn)了包括武漢大學(xué)圖書館、岳麓書社等8個(gè)機(jī)構(gòu)參與的3個(gè)電子版書目。這些電子版書籍內(nèi)容大體一致,帶來(lái)較大的資源浪費(fèi),多個(gè)數(shù)字版本也容易使用戶難以辨別與取舍[22]。因此,建設(shè)古籍?dāng)?shù)字資源要做好前期選題規(guī)劃,挖掘?qū)W科類價(jià)值高和稀缺的文獻(xiàn)資源,避免盲目追求熱點(diǎn)內(nèi)容,細(xì)化古籍?dāng)?shù)字資源的學(xué)科類別,擴(kuò)大資源覆蓋廣度。
(2)開(kāi)發(fā)深層次的古籍?dāng)?shù)字資源
以存檔和檢索為目的的古籍文獻(xiàn)表層數(shù)字化已取得豐碩成果,深層次的古籍文獻(xiàn)開(kāi)發(fā)主要是古籍知識(shí)單元標(biāo)注及知識(shí)網(wǎng)絡(luò)構(gòu)建、古籍文獻(xiàn)之間的關(guān)聯(lián)、文本內(nèi)容分析及挖掘等[23]。
在檢索功能上,要加強(qiáng)知識(shí)組織與關(guān)聯(lián)技術(shù)的研究,實(shí)現(xiàn)檢索擴(kuò)展和智能檢索,由專家對(duì)本領(lǐng)域知識(shí)進(jìn)行組織整序,形成一種內(nèi)部知識(shí)相互關(guān)聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)。一方面擴(kuò)大檢索入口,提高檢全率,另一方面為用戶提供知識(shí)鏈接的環(huán)境[24]。嵌入外部知識(shí)工具,常見(jiàn)的外部知識(shí)工具有古漢語(yǔ)字典、人名與地名詞典、生僻字輸入工具、時(shí)間換算法 (古今紀(jì)年、干支公元換算)等。
基于自然語(yǔ)言處理技術(shù),對(duì)古籍的文本進(jìn)行分析,實(shí)現(xiàn)相似度對(duì)比,以及字詞頻分析。相似度對(duì)比可以用于分析文獻(xiàn)的引用關(guān)系,或者文獻(xiàn)校勘。字詞頻分析,可以收集數(shù)據(jù)庫(kù)中詞匯的出現(xiàn)頻次,從而找到相似內(nèi)容。古籍?dāng)?shù)字化可通過(guò)技術(shù)邏輯和人文邏輯相耦合的“數(shù)字人文”的研究,構(gòu)建可持續(xù)完善和豐富的數(shù)據(jù)集和分析工具,充分利用新的信息技術(shù)與跨學(xué)科方法對(duì)古籍進(jìn)行深層次的分析與挖掘[25]。
著作權(quán)法在保護(hù)權(quán)利人基于作品的專有性著作權(quán)的同時(shí),通過(guò)一系列的專有權(quán)例外的公共領(lǐng)域保留機(jī)制,確保其促進(jìn)文化科學(xué)事業(yè)發(fā)展與繁榮的制度目標(biāo)得以實(shí)現(xiàn)[26]。公共領(lǐng)域具有使用的自由性,即著作權(quán)法下任何人都可以自由使用的部分和領(lǐng)域。
(1)公有領(lǐng)域作品
公共領(lǐng)域重要內(nèi)容之一,為著作權(quán)保護(hù)期限屆滿的作品。古籍文獻(xiàn)基本都過(guò)了著作權(quán)的保護(hù)期,其信息內(nèi)容進(jìn)入公有領(lǐng)域,可以提供給用戶使用。但是古籍文獻(xiàn)作為文物被收藏在公共文化單位,用戶使用受到文物保護(hù)政策的限制。最好的解決方式就是推動(dòng)古籍文獻(xiàn)的公益性數(shù)字化建設(shè),方便用戶使用。2016年, “中華古籍資源庫(kù)”向社會(huì)公眾免費(fèi)發(fā)布,已經(jīng)在線發(fā)布超過(guò) 80%的館藏古籍善本數(shù)字影像,是我國(guó)公共圖書館古籍?dāng)?shù)字化的重要成果[27]。2017 年文化部印發(fā)的《“十三五”時(shí)期全國(guó)古籍保護(hù)工作規(guī)劃》明確指出,要加強(qiáng)古籍?dāng)?shù)字化工作,鼓勵(lì)和支持各古籍收藏單位加快古籍?dāng)?shù)字化步伐,擴(kuò)大古籍?dāng)?shù)字資源開(kāi)放,促進(jìn)資源共享,提高利用效率。古籍收藏單位對(duì)館藏古籍進(jìn)行數(shù)字化建設(shè),雖然不受著作權(quán)約束,但是會(huì)產(chǎn)生其他費(fèi)用,比如硬件設(shè)備采購(gòu)、人力資源投入、信息技術(shù)支持等。特別是一些大型的古籍?dāng)?shù)字化建設(shè)項(xiàng)目,要集中多個(gè)收藏單位的古籍文獻(xiàn)資源統(tǒng)籌開(kāi)發(fā),項(xiàng)目經(jīng)費(fèi)投入較高。鑒于此,大型古籍?dāng)?shù)字化建設(shè)項(xiàng)目可由政府投入經(jīng)費(fèi),或積極籌集其他慈善組織、基金會(huì)、民間機(jī)構(gòu)和個(gè)人的資金,以實(shí)現(xiàn)古籍?dāng)?shù)字化成果的公共使用。
(2)合理使用內(nèi)容
著作權(quán)法公共領(lǐng)域的另一項(xiàng)重要內(nèi)容,即對(duì)著作權(quán)作品特定情況下的“合理使用”。我國(guó)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》規(guī)定,圖書館可以不經(jīng)著作權(quán)人許可,通過(guò)信息網(wǎng)絡(luò)向本館館舍內(nèi)服務(wù)對(duì)象提供本館收藏的合法出版的數(shù)字作品和依法為陳列或者保存版本的需要以數(shù)字化形式復(fù)制的作品。此項(xiàng)規(guī)定將合理使用限制在館舍和保存版本的數(shù)字化,不適于網(wǎng)絡(luò)發(fā)達(dá)的現(xiàn)實(shí)需要。圖書館應(yīng)尋求立法改革支持,擴(kuò)大合理使用邊界,可購(gòu)買一些商業(yè)古籍?dāng)?shù)字資源,供到館用戶和注冊(cè)用戶使用。具體可以采購(gòu)商業(yè)數(shù)據(jù)庫(kù)鏡像副本,安裝在本地服務(wù)器,供館舍內(nèi)用戶使用,如單機(jī)版、局域網(wǎng)版;也可以采購(gòu)遠(yuǎn)程訪問(wèn)包庫(kù)服務(wù),分年或按照點(diǎn)次付費(fèi),用戶遠(yuǎn)程訪問(wèn)產(chǎn)品官網(wǎng)。經(jīng)統(tǒng)計(jì),53所在古籍研究方面有專長(zhǎng)的高校圖書館累計(jì)購(gòu)買古籍全文數(shù)據(jù)庫(kù)64個(gè),其中獲購(gòu)量最多的是“中國(guó)基本古籍庫(kù)”[7]。政府部門要加大對(duì)圖書館的公共服務(wù)資金支持力度,支持為用戶個(gè)人學(xué)習(xí)和研究免費(fèi)或低成本提供商業(yè)化古籍?dāng)?shù)字資源。
商業(yè)信息機(jī)構(gòu)對(duì)古籍信息價(jià)值的追逐,使得古籍商業(yè)數(shù)據(jù)庫(kù)大量涌現(xiàn)。商業(yè)信息機(jī)構(gòu)要專注于發(fā)揮自身技術(shù)優(yōu)勢(shì),把開(kāi)發(fā)古籍?dāng)?shù)字資源的內(nèi)在信息和知識(shí)作為服務(wù)特色,吸引對(duì)古籍信息有深層次科研需求的用戶。
(1)信息整合
信息整合主要是指通過(guò)分類法、主題詞法等信息組織體系,將不同信息源、不同信息結(jié)構(gòu)、不同信息載體的相對(duì)獨(dú)立的信息進(jìn)行集成,實(shí)現(xiàn)原有信息的優(yōu)化配置和價(jià)值增值[28]。數(shù)據(jù)庫(kù)是信息整合的成熟方式之一,有高效的數(shù)據(jù)處理能力和良好的檢索性能,還適合通過(guò)網(wǎng)絡(luò)傳輸信息。因此,古籍?dāng)?shù)據(jù)庫(kù)可以提供快速檢索瀏覽、主題排序、下載分享、定制推送等常見(jiàn)信息獲取功能,為古籍用戶提供集成化信息服務(wù)。同時(shí),大量生產(chǎn)的古籍?dāng)?shù)據(jù)庫(kù)、數(shù)字圖書、數(shù)字產(chǎn)品也為用戶篩選帶來(lái)了不便,為了幫助用戶提高資源的檢索效率,還應(yīng)該對(duì)分散的古籍?dāng)?shù)字資源進(jìn)行整合。細(xì)粒度的整合,即對(duì)具體典籍資源進(jìn)行整合,構(gòu)建互聯(lián)互通的古籍資源聯(lián)合平臺(tái);粗粒度的整合,即對(duì)古籍?dāng)?shù)據(jù)庫(kù)進(jìn)行整合,構(gòu)建古籍?dāng)?shù)據(jù)庫(kù)導(dǎo)航平臺(tái)[29]。
有學(xué)者提出,建立古籍?dāng)?shù)據(jù)庫(kù)分類分面體系,收集多個(gè)古籍?dāng)?shù)據(jù)庫(kù),并采用都柏林核心元數(shù)據(jù)集來(lái)標(biāo)注古籍?dāng)?shù)據(jù)庫(kù)的特征,再設(shè)置不同分面,來(lái)表示古籍?dāng)?shù)據(jù)庫(kù)的不同維度。用戶可以通過(guò)分面篩選來(lái)快速檢索到需要的古籍?dāng)?shù)據(jù)庫(kù)條目[29]。還有研究提出,古籍?dāng)?shù)字資源存在資源分散、建設(shè)主體多元、數(shù)據(jù)格式多樣化的特征,適宜建立古籍?dāng)?shù)字資源導(dǎo)航系統(tǒng),將多種數(shù)字資源的網(wǎng)絡(luò)入口集合在一起,在線發(fā)布給用戶使用[30]。
(2)信息處理
信息處理是對(duì)古籍?dāng)?shù)字資源的深加工,掃清用戶使用的淺層文字障礙,提取用戶所需的深層知識(shí)內(nèi)容,并加以呈現(xiàn)。古漢語(yǔ)文字的特點(diǎn),又區(qū)別于現(xiàn)代漢語(yǔ),學(xué)術(shù)研究機(jī)構(gòu)和信息技術(shù)企業(yè)應(yīng)加快古籍信息處理的研究和實(shí)踐探索?!肮偶畔⑻幚硎抢矛F(xiàn)代信息技術(shù)對(duì)古籍文本的音、形、義進(jìn)行加工和處理,并基于此實(shí)現(xiàn)古籍文本的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)?!盵31]古籍?dāng)?shù)據(jù)挖掘主要的方法有:建立古漢語(yǔ)精加工語(yǔ)料庫(kù),為古籍?dāng)嗑?、?biāo)點(diǎn)、分詞和標(biāo)注提供數(shù)據(jù)支撐;將序列標(biāo)注模型應(yīng)用于古漢語(yǔ)詞法分析;開(kāi)發(fā)古漢語(yǔ)一體化詞法分析平臺(tái)等[32]。利用現(xiàn)代技術(shù)對(duì)海量古籍文本進(jìn)行自動(dòng)分析,可以大大減輕人工標(biāo)注的負(fù)擔(dān),還可以挖掘出文本的特征和規(guī)律。
在古籍知識(shí)挖掘方面,結(jié)合數(shù)字人文的研究方法,利用知識(shí)抽取、知識(shí)融合、知識(shí)推理等技術(shù)和方法,可以實(shí)現(xiàn)古籍信息服務(wù)智能化。一些學(xué)者提出要“利用文本挖掘技術(shù)提取事先未知、容易理解、有潛在價(jià)值的知識(shí);借助GIS技術(shù)進(jìn)行文獻(xiàn)知識(shí)與歷史進(jìn)程的靜態(tài)與動(dòng)態(tài)可視化分析;構(gòu)建基于網(wǎng)絡(luò)數(shù)據(jù)采集、專業(yè)數(shù)據(jù)庫(kù)獲取、詞頻分析的古籍文本信息可視化展示庫(kù);在全文人工標(biāo)注的基礎(chǔ)上,將大量電子化的文本集合為語(yǔ)料庫(kù),構(gòu)建自動(dòng)識(shí)別模型”[16]。
古籍?dāng)?shù)字資源在完成資源建設(shè)、技術(shù)處理后,掃清版權(quán)障礙,最后到達(dá)用戶終端。通過(guò)服務(wù)機(jī)構(gòu)輔助和用戶自主獲取,古籍?dāng)?shù)字資源才得以完成信息知識(shí)的最后傳遞過(guò)程。
(1)用戶群體分層服務(wù)
古籍?dāng)?shù)字資源的服務(wù)提供者,應(yīng)精準(zhǔn)區(qū)分服務(wù)用戶群體。公共文化服務(wù)機(jī)構(gòu)面對(duì)的用戶群體存在需求差異,應(yīng)該對(duì)用戶需求進(jìn)行差異化管理,根據(jù)用戶群體的綜合需求做好古籍?dāng)?shù)字資源的內(nèi)容建設(shè),提出針對(duì)性服務(wù)方案。對(duì)有鑒賞、閱覽需求的用戶,提供自建和共建共享的古籍?dāng)?shù)字資源,實(shí)現(xiàn)公共獲取;對(duì)學(xué)術(shù)研究型用戶,提供自建古籍?dāng)?shù)字資源和公共資金購(gòu)買的商業(yè)古籍?dāng)?shù)據(jù)庫(kù),實(shí)現(xiàn)公共獲取,盡可能保障古籍?dāng)?shù)字資源在著作權(quán)許可下的公共傳播權(quán)利;對(duì)于對(duì)特藏文獻(xiàn)有營(yíng)利性需求的用戶,提供特藏古籍?dāng)?shù)字資源,實(shí)現(xiàn)商業(yè)獲取;對(duì)需求復(fù)雜的用戶,提供綜合途徑的獲取方案。公共服務(wù)機(jī)構(gòu)應(yīng)主動(dòng)引導(dǎo)用戶,選擇符合其自身利益和價(jià)值需求的資源獲取途徑,節(jié)省公共資源,滿足大眾文化需求。提供商業(yè)獲取資源的服務(wù)者,應(yīng)在正常營(yíng)利性服務(wù)模式下,做好版權(quán)處理和審查,保障用戶對(duì)獲取的古籍?dāng)?shù)字資源免于著作權(quán)糾紛。對(duì)海外特藏中文古籍的開(kāi)放獲取,有利于開(kāi)展專業(yè)領(lǐng)域研究。
(2)提升用戶數(shù)字素養(yǎng)
“數(shù)字素養(yǎng)與技能是數(shù)字社會(huì)公民學(xué)習(xí)工作生活應(yīng)具備的數(shù)字獲取、制作、使用、評(píng)價(jià)、交互、分享、創(chuàng)新、安全保障、倫理道德等一系列素質(zhì)與能力的集合?!盵33]數(shù)字素養(yǎng)是信息素養(yǎng)的“升級(jí)版”。2021年12月27日中央網(wǎng)絡(luò)安全和信息化委員會(huì)發(fā)布的《“十四五”國(guó)家信息化規(guī)劃》,將“全民數(shù)字素養(yǎng)與技能提升”作為十大優(yōu)先行動(dòng)之首。數(shù)字素養(yǎng)已成為數(shù)字化社會(huì)公民的核心素養(yǎng),是公民生存的基本能力。
古籍文獻(xiàn)用戶要適應(yīng)數(shù)字智能時(shí)代,從研究傳統(tǒng)文獻(xiàn)轉(zhuǎn)變?yōu)槔霉偶當(dāng)?shù)字資源,要形成和培養(yǎng)自身的數(shù)字素養(yǎng)。培養(yǎng)古籍用戶的數(shù)字素養(yǎng),是提升古籍用戶數(shù)字資源獲取能力的基本途徑。數(shù)字時(shí)代,獲取信息依靠的是對(duì)數(shù)字工具和技術(shù)的運(yùn)用能力。古籍?dāng)?shù)字資源用戶,需掌握的數(shù)字技能主要有:數(shù)字設(shè)備的物理操作和軟件操作,通過(guò)互聯(lián)網(wǎng)平臺(tái)和數(shù)字工具瀏覽、搜索和篩選古籍?dāng)?shù)字資源,通過(guò)數(shù)字工具進(jìn)行網(wǎng)絡(luò)溝通和互動(dòng),網(wǎng)絡(luò)安全風(fēng)險(xiǎn)下個(gè)人隱私和數(shù)據(jù)保護(hù),使用數(shù)字工具和技術(shù)對(duì)古籍?dāng)?shù)字資源進(jìn)行分析和研究等。古籍?dāng)?shù)字資源服務(wù)平臺(tái)對(duì)用戶開(kāi)設(shè)數(shù)字素養(yǎng)教育培訓(xùn)課程,是便捷有效的途徑。平臺(tái)可以開(kāi)展集中專業(yè)的培訓(xùn)課程,用戶還可以通過(guò)平臺(tái)進(jìn)行交流研討,提高資源獲取和利用效率。