賈晉峰
(山西省圖書館,山西 太原 030021)
特藏資源是圖書館寶貴的教育資源,體現著圖書館的人文底蘊和資源價值,歷來為所有圖書館所重視。據OCLC發布的最新研究報告《推進國家數字平臺:美國公共圖書館和州立圖書館的數字化現狀》顯示,美國92%的公共圖書館擁有本地重要的、獨特的實體特藏,而在過去3年,已有37.6%的圖書館致力于特藏資源的數字化建設。而荷蘭萊頓大學圖書館館長和出版社社長貝爾德(KurtDeBelder)在2013年的一次講演中曾預測,在15年內高校圖書館將只有特色館藏在本地存儲和管理,其他紙本館藏都將存入國家/地區級的倉儲庫。未來圖書館資源競爭將是以“非正式出版物”為核心的特色館藏競爭。
雖然國內外對數字人文的研究日益加深,但對于“數字人文”的定義并沒有形成清楚的界定。目前國內引用較多的是美國學者JohnUnsworth的觀點,他認為“數字人文”是具有典型性的實踐活動和建立模型方法,主要包括兩種形式:(1)高效的計算;(2)人文溝通。我國學者王曉光教授從對數字人文的產生與發展過程中總結出數字人文的出現實質是一種關于人文方式和研究方式的學術創新,通過把時代最新的科技、信息技術和人文研究結合起來,從源頭上改變人們對知識的獲取、理解、表述和呈現方式。對國內外的研究成果進行梳理可以得出數字人文主要包括下面幾個特征:(1)數字人文包括眾多的人文學科領域,如辯證學、考古學、藝術學等;(2)數字人文的研究對象比較廣泛,包括了txt文本、格式化信息、圖片信息、影音資料等可數字化資源;(3)數字人文以現代通訊技術、超媒體和數字圖書館等為方法論基礎,并通過文本分析、數據庫設計、數字繪圖、音樂檢索等方式來進行分析;(4)計算機信息技術的快速發展和不斷更迭,數字人文的研究方法也隨之不斷變化和發展。
GIS 即地理信息系統,是一種基于計算機的工具對空間信息進行分析和處理,并把地圖這種獨特的視覺化效果和地理分析功能與一般的數據庫操作集成在一起的工具。就歷史學研究方面,越來越多的學者開始借助 GIS 技術進行歷史知識和歷史事件的靜態和動態的可視化展示研究。大體而言,GIS 技術的應用在歷史領域可概括分類為 3 個方面: 展示歷史資料的數字化、空間歷史數據的管理和可視化、基于空間分析方法探知歷史過程。目前,將 GIS 技術與文獻數字化建設相結合來進行的歷史研究已經有不少成功案例,最典型的就是臺灣中央研究院開發的中國歷史文化地圖系統 (CCTS)和臺灣歷史文化地圖系統 (THCTS)。中國歷史文化地圖系統 (CCTS) 以 《中國數字地圖》(1∶ 100000) 和《中國歷史地圖冊》為主要基礎,參考了很多歷史地圖以及影像資料等,也借助了其他資源豐富的電子數據系統和聯合資料庫,構建了一個具有精確空間定位、整合時間與空間屬性的中國歷史文化時空基礎平臺。
當前民國文獻數字化主要是數據庫資源建設,數據庫建設是民國文獻開發和保護的重要措施之一,已有的數據庫主要有4種類型:全文數據庫,目前僅有少量民國期刊全文庫;全文圖像數據庫;專題數據庫,目前最多的,如南京圖書館開發的“中國近代文獻圖像數據庫”等。機讀目錄,最主要的數字化整理成果,包括圖書目錄和期刊目錄。上海圖書館的期刊篇名數據庫《全國報刊索引》單獨建庫。如國家圖書館的“民國中文期刊資源庫”“民國法律文獻庫”;上海圖書館的“民國期刊全文庫”、“晚清期刊全文數據庫”和“近代民國中醫藥專題庫”;北京師范大學圖書館的“館藏解放前師范學校及中小學教科書全文庫”、C A D A L的“民國期刊全文數據庫子庫”,上海師范大學的“民國教育文獻全文數據庫”;北京大學圖書館的“民國舊報刊全文數據庫”;北京愛如生數字化技術研究中心研發的“中國近代報刊庫”和“民國圖書庫”;南京大學圖書館的“南大圖書館館藏民國圖書數據庫”;尚品大成數據技術有限公司開發的“大成民國圖書全文數據庫”等等。
文本挖掘是數據挖掘的領域之一,是從文本數據中抽取隱含的、以前未知的、潛在有用的模式的過程,知識發現是其本質與精髓所在。數字人文所強調的不再是單純的文本化和數字化,正是基于文本的深度挖掘與智能分析。從目前國內的相關數字人文實踐來看,古籍數字化項目中已經邁出了文本挖掘的重要步伐,開發了許多數字人文系統,例如古代詩詞分析系統、“古籍研習平臺”、“古漢語文本自動句讀系統”等。以北京大學數據分析研究中心的“全唐詩分析系統”為例,這個分析系統的突出優勢是能夠深入挖掘和發現信息,不再局限于單一的全文檢索模式,重點表現在對詩詞韻律的標示,詞語組合次數等提點進行智能化統計,為我國學者研究中國古代文字、古代書籍、古代語言等領域奠定了有力的基礎。在民國文獻數字化過程中,我們也可以借鑒這一經驗,對民國期刊報紙的開發,不再單一提供文獻的全文內容,而是在標引的基礎上更深層次提高文獻資源揭示的深度和關聯性。
21世紀圖書館項目的目的是研究當前和未來,如何通過圖書館服務來滿足或支持各層次的需要,以及資源達到最有效的工作效果,提供優質服務。數字人文為民國文獻數字化深度開發提供理論和實踐的經驗和方法,為保護和完善珍貴資源,我們共同推進民國文獻數字人文朝著更廣泛、更深入的領域發展。