顏艷萍
(云南省圖書館,云南 昆明650031)
隨著大數據、人工智能等現代信息技術的飛速發展,數字技術同人文社科這兩大領域彼此間的交融和滲透,催生出一個全新的領域,即數字人文。其憑借特有的跨學科、跨領域的特點,深刻地影響著歷史、文學、計算機科學等學科的演進,也為古籍資料的重新整合、梳理及使用創造了條件,使其擁有更先進的探究方法、工具和平臺。
古籍是中華民族文化遺產的重要瑰寶,受自然環境與人為因素的影響,古籍原本流失嚴重,現存古籍破損情況嚴重。據不完全統計,我國現存古籍超過五千萬冊,其中有三成多損毀嚴重,急需得到搶救性保護。[1]“古籍數字化,是指利用現代信息技術對古籍文獻進行加工處理,使其轉換成計算機能夠辨認的數字信息,構建古籍文獻書目數據庫及古籍全文數據庫,全面呈現古籍信息資源的一項系統工作。”[2]它使古籍文獻的文化價值和社會服務功能得到充分體現。可是大部分古籍數字化產品僅僅是原件的替代品,文獻檢索基本只能達到基于字符匹配的全文檢索層次,不能對古籍文獻進行深度挖掘利用,利用率較低。近年來,數字人文逐漸興起,給古籍數字化深度發展提供了全新的理論根據和實際操作方法,使古籍的文本挖掘、語義分析、智能標點、文本可視化、語料庫建設等成為可能。
數字人文是將現代計算機及互聯網科技深度運用到傳統人文學科的探究和教學當中的全新領域。它將現代計算機及通信技術運用到文獻學、統計學、歷史學、藝術學等傳統人文學科中,為人文學科研究提供了新的研究方法與范式。其主要目標是促成現代信息技術同人文科學之間的滲透和交融,進而轉變知識的獲取、注釋、對比、取樣、闡述及呈現形式,實現人文研究的升級和創新發展。
利用數字技術輔助和促進人文研究,在西方國家已然成為一種潮流。以“digital humanities”為名的科研組織、交流圈等在全世界已經達到185個以上,其中有八成以上均處于歐美境內。在我國,相關方面的研究也正在興起,一是陸續組建了相關組織,如北京大學數字人文小組(2016年成立)、南京大學數字人文研究中心(2017 年成立)等;二是國家社科基金重大項目對數據庫建設的關注度逐漸提高,單在2017 年此類項目所占的比例便已達到10%左右;三是開展數字人文相關學術活動,一種是舉辦學術會議,如2014 年6 月上海圖書館舉辦的“數字人文與語義技術”學術會議,2015 年12 月的“北、清、臺數字人文新動向——中國歷代人物傳記資料數據庫CBDB 暨Digging into Data 工作坊”學術會議,2016年5月的“北京大學數字人文論壇”(首屆),2016 年5 月的“數字人文與清史研究”學術會議,2017年5月的“北京大學數字人文論壇”(第二屆),2017年7月的南京大學“數字人文:大數據時代學術前沿與探索”學術會議等;另一種是開設工作坊,如2016 年南京大學歷史學院王濤副教授開設的“數字工具與世界史研究”課程,2017 年3 月哈佛大學訪問學者徐力恒博士在北京大學開設的“數字人文研究技能與方法”讀書會,2017年4月北京大學圖書館數字人文工作坊等。[3]
數字人文涉及的范疇極廣,而古籍數字化作為古籍整理系列工程之一,同樣涵蓋了文獻學、歷史學、計算機技術等學科。其跨學科的特點可以借鑒數字人文研究的方法。
我國從上世紀80年代開始進行古籍數字化建設,在發展過程中,國家推出了有關的政策法規,古籍索引數據庫、古籍全文數據庫、古籍書目數據庫等產品相繼誕生,積累了一定經驗。[4]
3.1.1 政策支持
2007 年1 月,國家發布了《國務院辦公廳關于進一步加強古籍保護工作的意見》,啟動了“中華古籍保護計劃”。中央對古籍保護工作做出了詳細指示,包括確定操作流程和規范,構建相關數據庫;重新配置已有資源,開發對公眾開放的古籍網站,為公眾提供古籍資源,實現古籍價值最大化。[5]
2017 年國家相關部委發布的《“十三五”時期全國古籍保護工作規劃》提出,采取激勵措施,推動廣大古籍收藏單位加快古籍數字化步伐,發揮國家和省級珍貴古籍數字化工作的帶頭作用,以互聯網、大數據等新技術為依托,優先對特色館藏和古籍善本開展數字化,加速建設“中華古籍數字資源庫”及相應的信息數據管理平臺,按照邊建設、邊服務的原則,及時對外公布古籍影像資源,促進資源共享。[6]
3.1.2 技術支持
計算機和信息技術的介入,能夠在保護古籍原貌的基礎上,對古籍內容進行數字存儲、傳輸,以提升古籍的利用率,促進古籍文獻在更大范圍內傳播。
2012年8月,國家古籍保護中心對珍貴古籍展開了數字化試點工作,編制了《古籍數字化工作手冊》(試用本)作為工作標準。該手冊明確了古籍數字化的具體范疇、規范性引用文件、術語定義、操作程序、加工準備、元數據著錄、圖像數字化以及數據的命名、提交、檢驗、接受、發布、使用等,是整項工作的重要依據。[7]
3.1.3 用戶需求
古籍文獻有著特殊的歷史背景,屬于不可再生資源,具有重要的史料研究價值。從古籍保護的角度出發,基本上每一家圖書館均對古籍的查閱對象、方式等設定了限制規定,重視收藏而忽視利用的情況十分常見,這在很大程度上給古籍資源的開發利用帶來了阻礙,古籍的保護和利用這對矛盾也由此凸顯。古籍數字化一方面實現了對古籍原件的保護,另一方面為古籍文獻的開發利用提供了便捷服務。
云南省圖書館根據國家關于建設古籍數字資源庫的要求,積極進行古籍數字化實踐。以國家古籍保護中心編制的《古籍數字化工作手冊》(試用本)為依據,對館藏珍貴古籍進行數字化處理,建設古籍數據庫并進行發布。從設備選取、元數據著錄、圖像采集、加工到最后對外發布,各個步驟、各項操作均進行了充分調研。2014年以來,已將館藏2000 余部4600 余冊地方文獻,636 部2589冊館藏善本古籍,1522 種6157 頁拓片進行數字化加工。這些文獻中有不少被收錄到《國家珍貴古籍名錄》,是云南省圖書館館藏中最具地方特色的古籍。
按照邊建設、邊服務的原則,云南省圖書館分批對這些古籍數據進行發布。于2017 年2 月28日、2018年9月28日、2019年11月12日,先后三次參加國家圖書館“中華古籍數字資源庫”聯合在線發布活動,對外公布古籍數字資源480部、2103冊,并通過云南省圖書館官方網站“云南古籍數字圖書館”平臺免費為社會公眾提供服務。
“云南古籍數字圖書館”是云南省圖書館自建的古籍數據庫,經過對文本的完整掃描,建立圖像資源庫,并對有關項目進行元數據著錄,最終建成以元數據為基礎的全文數據庫。數據庫在B/S 模式下運行,改善了多客戶端的缺陷,將系統功能實現的核心部分集中于服務器端,精簡了系統運作流程。其最突出的優勢在于,用戶免受空間限制,且無需安裝專門的程序,只需一臺可以聯網的電腦便能進行操作。用戶只需進行注冊即可進行全文瀏覽。檢索項設置全面、簡潔,用戶可通過索書號、題名、責任者、版本等字段進行文獻檢索,并具有智能查詢同類古籍、生僻字顯示及檢索等功能。在閱覽界面,可對圖像進行縮放、翻頁、目錄、指定頁面跳轉、評論、批注等。在首頁設計有古籍布局圖,且處于動態完善中,按照歷朝歷代的先后順序,呈現各個時期在線古籍的數量情況,使數據庫呈現出可視化。[8]后臺管理方面,具有統計管理(包括用戶總量統計、書籍總量統計、新聞統計、PV瀏覽量統計)、后臺角色管理(注冊用戶、VIP用戶、系統管理員、測試員、編目員、圖書管理員)、瀏覽記錄管理、收藏記錄管理、圖片上傳管理、書籍管理、操作記錄管理等強大功能。所有完成數字化的古籍都附注相應的編目信息,具體包含:題名項、責任者項、索書號、四部分類、版本項、存卷次、冊數、館藏單位。用戶不僅能取得所需古籍的完整數字影像,還能夠使用相應的編目成果,幫助其開展相關研究。
3.3.1 工作缺乏宏觀統籌
長期以來,各單位都是根據自身發展需要來開展古籍數字化工作,缺乏國家層面的宏觀統籌,導致項目重復建設,一些珍貴古籍還未進行數字化,沒有在資源共享和建設方面形成有效的合力。另外,還缺乏統一的資源發布平臺,大多數資源僅僅通過局域網傳播,在使用便捷性上有待提高。
3.3.2 建設標準不統一
因為數字化建設的主體眾多,且沒有制定全國性的古籍數字化標準,現有的標準內容又不夠全面、缺少細節規范,各單位在古籍數字化的加工工序、底本選取原則、影像采集、數據格式、元數據制作、古籍著錄、古籍標引、檢索語言等技術參數上存在差異,開發出的古籍數字化產品質量不統一,這給古籍資源整合和數據兼容帶來了障礙。
3.3.3 數字資源利用率低
知識、信息共享是古籍文獻資源數字化開發的一大重要目的。數據庫的建設在古籍文獻資源分享知識、信息方面優于紙質文獻,云南省圖書館古籍文獻資源雖然實現了數據庫資源的建設,但由于無法實現跨庫檢索,所以存在從知識、信息層面進行檢索難以全面系統等問題,直接影響到古籍文獻資源的共享。
現階段已建成的古籍數據庫,其功能通常限于對古籍的數字化轉換、保存和簡單檢索,只是對古籍進行了淺層次的描述和揭示,并沒有從資源組織或便于用戶使用的角度對文獻進行深入挖掘。提供給用戶的服務通常只是以關鍵詞為基礎的全文檢索或是以主題為基礎的文本瀏覽,尚不能進行統計分析等操作,用戶無法按照自身的需求去重組資源,也無法深入發掘其知識內涵,導致了較高開發投入和較低利用率之間的不平衡。
3.3.4 數字資源建設經費不足
數字化目標的達成,離不開資金支持。據相關估算,若將國內剩余的40 萬個版本的古籍全部完成數字化處理,總支出將達到60 億元。而國家古籍保護中心各個年度可以劃撥的古籍數字化專用款項僅1000萬元,很多地方圖書館,可以使用的資金更是少之又少。[9]
云南省圖書館每年由政府劃撥50萬元作為古籍保護專項經費,用于古籍普查、古籍修復、古籍數字化等內容,但古籍數字化開支較大,經費并沒有單獨分開,而是和古籍保護經費捆綁在一起。這對于云南省圖書館20 萬冊古籍藏量來說,無疑是杯水車薪。因為經費缺乏,給古籍數字化規劃帶來了困難,阻礙了古籍數字化進程。
應在數字人文的大框架下進一步加強標準化建設,加快古籍數字化相關標準的研制,整合現有標準,在保證古籍數字資源格式統一、數據規范、長期可讀、便于共享的準則下,逐漸建成相應的標準體系,保證數字資源質量。
圖書館依托現有的資源、技術和存儲優勢,可牽頭主導并參與建設的數字人文項目,從現在的古籍數字化建設進入到開展古籍數字人文項目研究和實踐,形成從古籍數字化資源到數據化加工,再到智慧化呈現的遞進式發展。應在充分調研學者研究需求的基礎上,建立基于特色資源的數據平臺,聯合各領域人文學者和信息技術人員,提高研究與建設效率,促進學術交流與技術進步。開展特色資源建設中的數字人文應用項目是對特色資源的開發與共享,需要與不同國家、不同地區、不同機構的研究團隊合作,以實現資源的多樣性、開放性和兼容性。如人物傳記類數字人文項目,不僅僅是數據規模巨大,并且對數據的處理以及發布使用模式也應當是結構化的、帶地理方位信息的,這就要求圖書館認識到協作的重要性。
具體用來發布、共享及鏈接相關的數字資源,使以知識為基礎的邏輯關聯和以語義為基礎的信息檢索成為可能。關聯數據主要采用資源描述框架(RDF)和統一資源標識(URI)進行資源描述與書目數據發布,通過這些技術,可以對已經抽取出來的知識進行知識表示、知識訪問和知識推理,形成可視化的知識圖譜。將難以理解的數據空間轉化成具體的視覺空間,有助于用戶利用自身的視覺識別數據空間當中隱藏的知識。進而在網絡上發布資源、整合資源,使以語義為基礎的信息檢索得以實現。將現有的古籍數字資源展開深層次的組織,發掘數據之間的內在關聯性,對相應的目錄數據進行知識組織和關聯化發布,以提高文獻資源的查全率與查準率。在分散于書籍和文本中的人物、時間、地點等之間建立聯系,構建覆蓋全面的知識網,使資源得到更加有效的利用,盡可能滿足用戶的訴求。如上海圖書館的《華人家譜總目:上海圖書館家譜知識服務平臺》數字人文項目,就是利用數據關聯技術建立并發布家譜關聯數據,數據之間能夠進行交叉比對,將原本孤立的宗族分支聯系起來。在紙本家譜上沒關聯的孤立的家譜,通過數字化技術,有望建立數據關聯。[10]
GIS即地理信息系統,它將事物的空間數據和屬性數據結合在一起,用于采集、加工、保存、組織、查閱及顯示空間數據,為其他諸多學科的研究提供了一種基于空間方位的地理模型分析方法,可以把位置屬性融入到外部相關屬性中,然后利用地圖使信息清楚地展現在用戶面前,為傳統的古籍信息分析方法提供全新的視角和成果展現方式。該技術使古籍數字化有了新的突破,創新了檢索模式和檢索入口,它把地圖特有的可視化效果和位置解析功能同數字資源相結合,形成了兼具時間和空間特性的直觀檢索集,這是對傳統檢索模式的豐富和改進。[11]
GIS 技術在古籍數字化領域運用的成功事例很多,較有代表性的是《中國歷代人物傳記資料庫(CBDB)》,它是由哈佛大學費正清中國研究中心、中國臺灣“中央研究院”歷史語言研究所、北京大學中國古代研究中心及中文在線聯合推出的記錄我國古典數據的數字人文資源平臺。資料庫將分布于歷史資料中的與人物有關的非結構化文本數據展開結構化標引,如把人名、時間、地點、職官、入仕方式、著作、社會關系等重要信息的標引轉換成結構化的信息,并進行著錄,構建出相應的大數據集。研究者可以輕而易舉地獲取數據并開展地理空間、社會網絡、群體特征等方面的探究。[12]
云南省圖書館開發的“云南古籍數字圖書館”平臺首頁的古籍分布動態圖,引入了GIS 檢索技術,為讀者提供了時空檢索,顯示了各歷史時期云南古籍上線數量,使檢索結果清晰直觀。
為適應更多人群的閱讀需求,提高古籍文獻數字資源的利用效率,圖書館可運用多種創意元素,根據古籍文獻數字資源的類型和特點,通過微博、微信、QQ、直播、公益廣告等新媒體工具,以及開展游戲式互動活動等讀者喜愛的方式來宣傳、推廣古籍文獻數字資源,增強用戶體驗效果,提高他們利用資源的積極性、主動性,進一步帶動古籍文獻的閱讀推廣,讓更多的用戶了解古籍文獻資源的文化魅力。[13]
數字人文的興起,對圖書館古籍數字化產生了極大的影響,使當前的古籍數字化工作暴露出了原有模式的不足。其借助數字人文理論與技術研究成果,為古籍文獻深度開發與利用提供了新的方法、模式與技術手段。圖書館作為古籍存藏主要機構,應將數字人文思想融入到古籍保護中,參考較為成功的模式,同有關組織展開協作,全方位地整合現有古籍數字資源,使古籍數字化向專業化、精細化和智慧化發展。