費佳
(中共南京市委黨校圖書館,江蘇南京 210046)
古籍在中華傳統文化傳承中發揮著重要的作用。國家對古籍保護高度重視,國務院辦公廳于2017年發布《關于進一步加強古籍保護工作的意見》(國辦發〔2007〕6 號),提出在“十一五”期間全面開展“中華古籍保護計劃”,并提出“制定古籍數字化標準,規范古籍數字化工作,建立古籍數字資源庫”的要求。黨的十七屆六中全會提出要“加強文化典籍整理和出版工作,推進文化典籍資源數字化”[1-2]。
民國文獻中大量文字記載了馬克思主義在中國的傳播歷程,記載了中國共產黨人的奮斗歷程和最終取得革命勝利的歷史,記載了中國近代社會的變遷,是中國共產黨帶領中國人民爭取民族獨立與解放的偉大見證,具有較高的歷史價值和學術價值。2012年,國家圖書館與國內多家文獻收藏單位聯合推出“革命文獻與民國時期文獻保護計劃”,旨在加大民國文獻的保護力度。2016年,該計劃被列入《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》。2017年,被列入《國家“十三五”時期文化發展改革規劃綱要》和《文化部“十三五”時期文化發展改革規劃》[3]。
在國家實施“中華古籍保護計劃”和“民國時期文獻保護計劃”兩大保護計劃的背景下,對古籍和民國文獻實施原生性保護和再生性保護是一項重大舉措,開展雙重保護不僅有利于文獻原件的保存還有利于文獻內容的傳播與利用[4]。
古籍保護的方式分為原生性保護和再生性保護兩種。原生性保護是指在維持原件完整性的前提下,對古籍實施修復、加固和優化存放環境。再生性保護是指采用數字化等先進技術將古籍內容轉移至其他載體,實現對古籍文獻的二次呈現與傳播。
數字化是再生性保護的重要手段。古籍數字化是指利用現代信息技術實現對古籍的加工處理,將原始文件轉化成電子數據形式,并通過光盤、網絡等介質進行保存、傳播和利用[5]。
我國古籍數字化的發展經歷了數據庫版、 光盤版、網絡版這3 個不同的階段。
第一階段,起源于20 世紀80年代,伴隨計算機技術的發展,借助計算機對古籍資料進行目錄檢索,并編制索引,以改進古籍的檢索方式。古籍數字化最初以書目數據庫的形式為主,它始于南京圖書館、浙江圖書館等省市級圖書館。古籍書目數據庫有設立書名目錄、著者目錄、分類目錄等,可以通過輸入古籍名檢索該古籍的全部版本,也可以通過輸入著者名檢索館藏全部相關書目。此后,又產生了全文數據庫,它將古籍全文錄入,轉化為電子文本,供用戶查閱,采用根據文獻內容進行檢索的查詢手段。隨著時代的進步,在書目數據庫與全文數據庫發展的基礎上,又出現了綜合檢索系統。綜合檢索系統不僅實現了任意字、 詞和字符串的檢索,還實現了按條件檢索,拓寬檢索范圍,不僅能夠對文本和書目檢索,也能對古籍的詞句、注釋、標題等內容進行匹配檢索。
第二階段,起源于20 世紀90年代,出現了以光盤為載體,通過目錄進行查詢、瀏覽原文的影像頁的古籍文獻或古籍數據庫,所以又稱為光盤版古籍。光盤版古籍包括圖像版、全文版和圖文版3 種形式。武漢大學出版社以文淵閣本《四庫全書》作為底本,對全書兩百余萬頁內容進行掃描識別,轉化為電子文件,共打造出150 張“四庫全書光盤版”資料。
第三階段,進入21 世紀,數字化技術全面推廣,古籍數字化實現了全文檢索功能。將古籍的全文錄入到數據庫系統,通過文本與檢索項匹配,實現直接到段落的精確查找。同時實行網絡化,以各地區的圖書館為節點、 網絡為紐帶建立網上的聯合數據庫。2016年,“全國古籍普查登記基本數據庫”“中華古籍資源庫” 這兩個數據庫作為古籍保護項目成果開始投入使用,這意味著古籍影像和數據資源利用進入互聯網服務時代。就目前來看,中華古籍資源庫在線發布的古籍影像資源主要涵蓋: 國家圖書館藏善本和普通古籍、法國國家圖書館藏敦煌遺書、天津圖書館藏普通古籍等,資源總量3.3 萬余部。
近年來,國家圖書館聯合全國多家古籍收藏單位在線發布古籍數字資源。目前已舉辦了四次聯合在線發布活動,共在線發布古籍資源2.4 萬余部,供大眾閱覽和學術研究。
民國時期文獻是指1911年辛亥革命至1949年中華人民共和國成立這一特定歷史時期的各種文獻資料,包括圖書、期刊、報紙、手稿、檔案等。
民國時期文獻聯合目錄是“民國時期文獻保護計劃”工作的數據發布展示服務平臺,于2012年開發建設并投入使用。民國時期文獻聯合目錄匯集國家圖書館、首都圖書館、南京圖書館等22 家民國時期文獻普查成員館的民國時期圖書數據和館藏數據,同時提供由國家圖書館數字化的民國時期圖書文獻全文掃描頁的閱覽服務,并提供該部分文獻的目次檢索。
為積極響應中央關于加強中華優秀傳統文化傳承的號召,加強對館藏珍貴文獻的揭示和利用,發揮珍貴文獻的文化價值和社會服務功能,南京市委黨校圖書館計劃對館藏珍貴文獻(包括館藏古籍和民國文獻)開展數字化工作。
2.1.1 處理原則
國際圖書館協會聯合會( International Federation of Library Associations and Institutions,IFLA) 于1994年發布了 《圖書館資料保護與處理原則》。IFLA 強調了格式轉換對館藏文獻儲存工作的重要意義,且提出,操作者在進行轉換工作時務必謹慎小心,避免館藏文獻原件出現再次損害的情況。
《圖書館資料保護與處理原則》提醒操作者在格式轉換的前、中、后期都要注重文獻原件的保護。轉換前需要對原件的紙張、 裝幀、 破損等情況進行評估,判斷其是否適合轉換操作;轉換過程中,在確保文件原件完整的前提下對部分原件實施臨時修補,以提高格式轉換的質量; 轉換成功后選取最佳的保存環境和方式,并對需要修復的部分實施正式修復。
國家古籍保護中心組織編制的《古籍數字化工作手冊》(試用本)對古籍數字化加工流程、古籍元數據著錄、圖像數字化、數據命名規范和數據發布利用等做了詳細規定。
2.1.2 數字化技術應用
數字化技術融合了最新科技手段,常用技術包括:古籍數字化輸入技術,該技術含拍照、非接觸式掃描和縮微膠片轉數字化技術;OCR 光學字符識別技術,該技術能夠借助OCR 軟件實現對古籍影像圖片的識別功能,提高文字轉化率;智能化處理技術,該技術是數據庫分析功能的核心,對成功識別的古籍信息單元進行重組,可提高古籍整理效率;現代化的網絡技術,該技術能夠為古籍數字化資源跨平臺、跨系統與統一檢索提供技術支撐等。
南京市委黨校圖書館館藏古籍和民國文獻的數字化方案流程見圖1。

圖1 數字化方案流程
2.2.1 文獻整理
在數字化工作開展前,依據《圖書館資料保護與處理原則》對館藏古籍和民國文獻的紙張、裝幀、破損、蟲蛀等情況進行評估,判斷哪些文獻需要進行適當的臨時加固、修補,確保較薄、破損、字跡較淺等紙張情況較差的文獻掃描圖像清晰,提高格式轉換的質量。
2.2.2 掃描錄入
掃描模塊用于獲取文獻對應的電子圖像文檔。數字化過程中要求操作人員全程戴手套或使用指套,以避免汗漬污染文獻。將館藏古籍和民國文獻使用免拆裝掃描裝置進行掃描錄入,以減少對書頁的損傷[6]。
2.2.3 圖像處理
參照國家古籍保護中心編制的《古籍數字化工作手冊》(試用本) 對圖像采集處理的要求來進行圖像處理,主要包括圖像的傾斜校正、去噪去污、剪裁、翻轉等,通過這些操作形成內容完整、清晰干凈、版心正的圖像文檔。
2.2.4 文獻元數據和文件生成
對館藏古籍和民國文獻進行元數據編目和圖像文件合成處理,將加工文件進行字段標引和分類。
中國國家標準化管理委員會制定的《古籍著錄規則》(GB3792.7) 規定了古籍著錄項目及其排列順序、著錄用標識符號、著錄用文字、著錄信息源、專門的術語和特殊的著錄方法。北京大學圖書館負責研制的《國家圖書館古籍元數據規范與著錄規則》根據國家圖書館古籍情況制定了元數據規范和著錄規則,并以著錄實例對規范與規則加以具體闡釋與說明,以供參考借鑒。古籍著錄參照《古籍著錄規則》和《國家圖書館古籍元數據規范與著錄規則》進行。古籍分類按“經、史、子、集”四部分類法進行。“經史子集”是古人將古籍按內容區分的四大部類。經:指經書,儒家經典著作;史:指史書,即正史;子:指先秦百家著作,宗教;集:指文集,即詩詞匯編[7-8]。
民國文獻目前沒有明確的著錄規則,參照中文圖書的《中國文獻編目規則》進行著錄。民國文獻的分類參照《中國圖書館圖書分類法》進行。
2.2.5 館藏古籍和民國文獻檢索數據庫
古籍和民國文獻數據庫以全文檢索為基礎,利用OCR 光學字符識別技術滿足全文圖像瀏覽的需求,實現全文檢索的目標。在系統中設置繁簡字體的智能轉換功能,便于識別讀者輸入的簡體文字,提高檢索系統的準確率,同時實現檢索定位功能,對已檢索的結果進行二次檢索[9]。
通過“書目檢索”菜單,用戶可以進行“直接檢索”和通過“高級檢索”鏈接進行組合檢索。用戶可選擇“題名”“著者”“出版年”等檢索項,以輸入的檢索詞進行檢索操作,也可選擇“中國圖書分類”的分類項作為單獨檢索或與“直接檢索”“高級檢索”一起參與檢索。
2.2.6 數字資源發布平臺
館藏古籍和民國文獻的數字資源提供在線共享服務,用戶可以檢索和瀏覽所有數字資源。數字資源發布管理系統支持內容發布的自動化管理模塊,并提供全文檢索、導航檢索等多種檢索途徑。提供檢索界面、檢索語言、檢索結果和知識展示方式統一的一站式服務。
2.2.7 數據存儲與輸出
館藏古籍和民國文獻原始掃描圖像采用TIFF存儲,在保證掃描圖像清晰可讀的情況下,盡可能降低壓縮率,以減小存儲空間。館藏古籍和民國文獻目錄數據庫中的文件,都對應關聯圖像文件和PDF文件。
在中央實施“中華古籍保護計劃”和“民國時期文獻保護計劃”兩大保護計劃的背景下,對圖書館館藏古籍和民國文獻開展數字化保護工作,能充分發揮文獻的價值,促進中華優秀傳統文化的傳承和發展。