韓超南

我國的古籍數字化自上世紀80年代機讀目錄始,至今已有40年左右的發展歷程。目前,各大圖書館的古籍數字化主要是古籍原本的數字影像化,近年來又在工具數據庫、知識發現系統等建設中取得了一定的成績。但從古籍再生性保護與研究利用來看,古籍的數字影像化、數字化影像集成數據庫建設以及數字影像的遠程訪問仍是當前及未來較長一段時間內的中心任務。
南京圖書館較為系統地開展古籍掃描約在2007年左右,并且從2011年開始向公眾開放掃描件的在館閱覽服務。截至目前,南京圖書館已完成約8000部古籍的掃描工作,總計形成了約500萬拍的數字化影像文件。應該說,南京圖書館古籍數字化影像的總量在全國是名列前茅的。在數字化工作中,南圖實行“一個原則,兩條路徑”的工作方式。一個原則就是以保護古籍為原則,圖書館的數字化工作不僅是為了閱覽服務,更重要的是為了古籍保護。如果因掃描而使古籍受損嚴重,那么這樣的掃描工作是不值得開展的。兩條路徑:一是在日常工作中長期有計劃地進行古籍數字化工作,其原則就是以古籍等級為標準,依次進行掃描;二是以閱覽服務和古籍整理項目帶動數字化掃描。原則上(即沒有研究古籍物質性的需求),南圖藏明代以上善本古籍一般是不出庫的,需要掃描后在館閱覽電子件。但是,讀者需要閱覽的古籍與已掃描的古籍必然不可能完全重合。因此,當讀者所需善本尚未掃描時,讀者可以通過電話預約掃描,南圖會提前安排閱覽古籍的掃描。如此則解決了掃描進度與讀者閱覽需求的矛盾問題。
2017年起,南京圖書館歷史文獻部又成立了“數字資源開發組”,對掃描文件進行深加工——文獻的一、二級類目標引工作。這一規劃是為今后更好地在全網發布古籍影像埋下的伏筆。眾所周知,古籍目錄沒有現代目錄的頁碼索引功能,見篇目而不知在哪一頁是常有的事。若直接上手翻閱,在篇目明確的情況下倒也能較為快速地找到相應內容,但轉換成電子件后便無法實現。標引的作用就是在電子件中建立篇目與相應圖像位置的聯系,讀者僅欲查閱某幾個篇目就無需逐頁翻檢。為此,南圖古籍部數字資源開發組制定了詳細的《古籍數字化元數據著錄規則》,其宗旨就是建立古籍文本與電子文件間的“圖-目”聯系,《規則》總綱云:“古籍的數字化文本在排版上和原書一樣,結構一般有以下幾個層次:封面、封二、題名葉、序跋、目錄、正文、封底,讀者可以依據圖書的葉碼順序翻葉閱讀,也可以點擊標引鏈接到所需閱讀葉面。”目前,南圖主要完成一、二級類目的標引,個別古籍還會深入到三級標引。這一工作很快就在南圖全新的閱覽系統中得到了應用,并取得了一定的實用價值。
為了提升館內數字化影像閱覽服務,南圖于2019年底開始建設新的電子閱覽系統,并在2020年開館后投入更多的電子閱讀設備以適應日益增長的數字影像閱覽需求。新的電子閱讀設備整合了古籍查詢和閱覽的雙重功能,檢索、閱讀更為方便,系統的功能也較原來單純圖片式閱讀更為豐富,而標引工作在新系統中也正式發揮了它的作用。新系統的主體界面就是閱覽區與標引區的組合界面。讀者可以在閱覽區逐頁瀏覽古籍,同時也可以通過標引區直接鏈接到自己需要的某小類,提升了閱讀體驗。更為重要的是,閱讀系統和標引實現了結合,為進一步在全網發布古籍積累了經驗。
2017年,國家古籍保護中心先后聯合首都圖書館、上海圖書館、天津圖書館、遼寧省圖書館、山西省圖書館、云南省圖書館、浙江大學圖書館、復旦大學圖書館、中山大學圖書館等在線發布古籍數字資源過萬部,得到了社會各界的熱烈反響和好評。可見,古籍數字化影像的遠程訪問是大勢所趨,也是國家古籍保護戰略的重要組成。于是,在國家古籍保護中心的牽頭下,南圖于2018年發布了首個遠程訪問的自建古籍全文影像資源庫——《稀見方志全文影像數據庫》。2019年、2020年兩年,南圖又陸續發布了《南京圖書館藏清人文集全文影像數據庫》,共計發布文集200部,其版本及作者的年代跨度貫穿清朝歷代。“十四五”期間,南圖仍將以增加古籍數字化影像的數量為核心,不斷提升古籍閱覽服務水平。另一重心就是打造全新的古籍影像數據庫發布平臺,其古籍收入數量及操作模式將會有一個新的跨越。
縱觀南圖及全國古籍數字化建設情況,應該說我國的古籍數字化建設在近幾年取得了不小的成績,基本滿足了一般研究的需求,也為大眾認識古籍開辟了一個新的窗口。但仍有一些問題可供商榷,筆者在此略闡鄙見,以就教方家。
首先,數據庫建設仍當以量為優先。公共圖書館的最大優勢是收藏量豐富,研究者對圖書館資源的期待也多在此。平臺打造得再好,沒有一定數量的古籍資源支撐,也不過是徒有其表,難以真正滿足研究者對資源的渴求。專業數據庫、知識發現系統的建設也都是建立在豐富的資源之上的,我們不能離開資源的量而侈談資源的質。
其次,數字化影像的精度有待提高。出于版權及存儲設備負荷的考慮,能夠遠程訪問的數字化影像精度一般較低。雖然基本能夠滿足研究者對文獻內容的需求,但很難滿足版本形式研究的需要。特別是有些數據庫仍以灰度圖,甚至是黑白影像為主,其在除正文文字以外的內容利用方面必然存在一定的局限性。
再次,發布版本的選擇需有新的思考。目前,善本占古籍數字化發布比重較高,這是無可厚非的,也是數字化影像建設之初最為亟需的。但是,隨著善本發布達到一定數量后,對于發布版本的選擇則需要重新進行思考。比如某些僅具有藝術欣賞價值的古籍,是否有必要大量以數字化的形式進行發布。又如某些乾隆六十年以后產生的精校精刻之本,雖然從國家定級的角度來說不能寓于善本之列,但其重要性則下亞于某些善本,是否應該加大這類書的發布,等等。
第四,叢書的書目標引需進一步加強。古籍被數字影像化之后就喪失了部分物質形態,因此原附著其上的某些實用信息被抹殺,這需要以新的方式使研究者利用到。以叢書為例,一部百種以上的叢書,研究者需利用的可能僅是其中的某一種。未被數字化之前,某些叢書會利用簽條、書根題名等方式方便檢索,但數字化之后這些信息就沒有了。如果在發布數字影像時能一一標明某冊為某書某卷,筆者認為對于研究者來說是較為便利的。
這些僅是就古籍數字化影像本身所作的一些思考,至于服務器的承受力、閱讀的流暢程度、閱讀模式的兼容及標準統一、檢索字段的豐富化等技術層面的問題,則有待技術工作者與文史工作者共同努力。