龍 偉 楊 勇
(中國國家圖書館 北京 100081)
圖書館擔負著保存和傳承中華文明的重任,通過建設數字館藏揭示更多的文獻內容,進而推動珍貴文獻的使用和流傳。中文近代文獻對研究我國近代政治、經濟、文化等不同領域的發展狀況具有無可替代的作用,是研究中國近代史的重要史料。但是這一時期的紙質出版物大多是以酸性紙張為原料印制而成的,距今最長的有百余年的歷史。據美國著名圖書保護專家巴羅的研究報告,1900-1949年出版的部分文獻在20世紀面臨著無法使用的危險[1]。
根據《民國時期總書目》、《全國中文期刊聯合目錄》、《全國中文報紙聯合目錄》統計,我國民國時期出版民國圖書124 000種、民國期刊29 000種、民國報紙7 800種[1]。民國文獻大多被我國公共圖書館所藏,如國家圖書館、上海圖書館、南京圖書館。國家圖書館(以下簡稱我館)現有民國文獻館藏約67萬件,館藏量居全國之首。為搶救、保護文獻,我館從上世紀80年代開始利用縮微技術拍攝了大批近代文獻。20多年來,全國圖書館縮微文獻復制中心聯合文獻搶救共建單位共拍攝民國圖書60 000余種、民國期刊15 000余種、民國報紙4 300余種[2]。隨著數字圖書館標準規范建設工作的推進、信息處理技術的發展和信息服務模式的多樣化,2000年國家圖書館將民國圖書、期刊、報紙及中文普通古籍等館藏文獻列入數字館藏建設計劃,并按常規性基礎業務工作分步實施、組織數字資源建設。
在豐富的館藏中準確定位、尋求自己的館藏特色、樹立精品意識是圖書館數字館藏建設的首要任務。中文近代文獻數字館藏建設的主要任務是圖書館縮微文獻的數字化建設。縮微文獻是圖書館專業隊伍經過長時間建設積累的信息資源,因此在文獻拍攝、書目數據制作等方面有質量保障。以縮微文獻數字化建設為中文近代文獻數字館藏建設的基礎,可以不再動用原始出版物,有利于對原始文獻的保護。而且充分利用已建設的縮微文獻相關數據,可有效避免資源重復建設導致的人、財、物的浪費。圖書館在縮微文獻數據的基礎上進行數字內容的深度加工和處理,可形成完整的、系統的、可持續發展的特色數字資源體系。
圖書館在特色館藏建設過程中,應堅持數據加工處理標準化、內容編碼國際化、語言描述與標引規范化,直接引用和采納國際上普遍應用的技術標準和規范。中文近代文獻數字館藏建設確定了相關建設原則和方法,其中包括字符集選擇、元數據規范、對象數據處理及數字對象唯一標識符注冊等幾個方面。
(1)國際標準字符集 編碼字符是數字資源最基本的表現形式。事實證明,選擇的編碼字符集是否適用是文獻數字化成敗的關鍵。從 1999 年起,文獻數字化出現了勢如破竹的大好局面,相關國際標準的制定、發展和實施基本解決了中文字符集的問題。中文近代文獻數字館藏建設選擇了以 ISO/IEC 10646和Unicode為代表的國際標準,基本滿足各種簡體、繁體、異體等字符和符號的處理,保障了文獻數字化工作進行及數字資源的跨平臺使用。
(2)元數據 中文近代文獻數字館藏的元數據建設是在縮微文獻書目數據基礎上進行的擴展。元數據既包括名稱、責任者、出版者、出版時間、主題、版本等基于文獻內容特征的描述元數據,同時還包括縮微文獻的感光材料、長度、解像力等膠片信息特征的技術元數據。
(3)對象數據 選擇成熟的、與系統無關的數字編碼以保證數據的可用性,使其不會隨著時間的推移和系統的變換而受到影響,是中文近代文獻數字館藏數據編碼選擇的重點原則。同時,數字館藏加工過程中詳細記錄了文獻源特質信息、數字對象處理參數,包括文獻規格、加工參數、放大倍率和數字化允許的處理方式、命名體系、數據格式等要素。
特色數字館藏的可持續發展能力決定數字圖書館的生命力。圖書館要在豐富的、可靠的、持久的、適用性強的數字資源中挖掘特有的內部資源,并將其保存、轉化為特色數字館藏,同時加強館際合作與交流,有計劃、有組織、有步驟地建設數字館藏;另一方面,圖書館應注意不斷提升資源建設者的綜合素質,這是數字館藏建設良性發展的可靠保障。
(1)特色館藏資源建設規劃與共建 圖書館特色資源建設應充分發揮本館資源優勢。通過統一的協調管理,采取分工協作、聯合建設的工作方式,不斷更新和豐富各種特色資源內容。國家圖書館已建民國期刊、民國圖書、民國法律、新善本、地方志等具有本館特色和地方特色的中文近代文獻特色資源庫,這些資源庫仍處于不斷的完善和建設之中。在全國數字圖書館數字資源征集項目中,國家圖書館倡導聯合建設特色館藏,中文近代文獻數字館藏建設就是其中的一個項目。聯合建設使各個圖書館既是資源建設者又是終端用戶,既有效地避免了資源重復建設,又大大地提高了資源使用率,使更多人享用圖書館的特色資源成果。
(2)不斷提高圖書館建設者的專業素質 圖書館建設被不斷地賦予新的內容和形式,這對圖書館建設者提出了更高的專業化要求。圖書館員的專業訓練不能僅局限于使館員掌握圖書館專業知識,還要使館員掌握現代信息技術、經濟管理方法、法律知識和外語能力,培養他們強烈的責任感和敬業精神。
圖書館建設和發展需要圖書館全體人員共同努力。館員要有高度的責任感和緊迫感,只有不斷地學習和更新知識和技能,提高自身素質,才能成為合格的建設者。同時圖書館管理者要積極培養適合圖書館發展的合格人才,除了要引進人才外,還要重視現有人員的培訓和繼續教育。
數字圖書館的核心是數字資源的管理和服務,是傳統圖書館功能的延伸和擴展。國家圖書館中文近代文獻數字化工作至今已有10余年的建設歷程,并在實踐中不斷探索和發展,圖書、期刊、地方文獻等數字館藏品種豐富、各具特點,數據總量呈逐年遞增態勢。
3.1.1 文字字符識別
大規模的數字化工程表明,采用OCR(Optical Character Recognition,光學字符識別)技術將書面文字轉化為電子形式的編碼字符,在建立圖文對照的基礎上進行半自動的人工校對和補字錄入,是現實可行的途徑。文獻版面分析與文字、圖片的切割等OCR技術 的預處理,絕大部分可以通過版面分析和切分軟件實現,再由操作人員進行校對、糾正。版面分析建立了原文圖像與編碼字符的聯系,為后續校對工序的自動化和半自動化奠定了基礎。OCR 技術的引擎識別率非常重要,它往往達不到人們所期待的精度,但這并不影響采用 OCR技術解決絕對數量文字識別的總策略。事實上,在中文近代文獻數字化中,OCR 是被當作“炮兵”使用的,它解決的是 85% 的字符錄入問題和10% 的漢字錄入問題,真正需要人工鍵盤錄入的漢字只有5%。
3.1.2 數字內容標引
書刊文獻標引分為3個層次:書目數據、摘要數據和文獻目錄。所有“目錄”、“目次”、“要目”需按原文內容實錄。書刊的篇名、著者、頁碼為標引必錄項,若目錄頁中缺少其中的一項,則須對照原始文獻查找后再進行標引。
3.1.3 數字影像處理
影像數字化轉換是在充分獲取膠片攝制情況后進行的。影像數字化加工包括縮微文獻的資料整理、膠片掃描、影像處理、數據質量檢查、數據保存等過程。在縮微文獻掃描之前,管理員對縮微文獻進行適當整理,登記每個片卷標識號、數字對象唯一標識符,經數據查重后建立對象數據與元數據、篇名目次數據及其他元數據的對應關系。在數字化加工過程中,由于膠片需要與掃描設備直接接觸,為了保護文獻,要選用第二代縮微膠片,以免劃傷縮微文獻。合格的數字影像進入影像處理流程要進行糾偏和去除黑點、黑線、黑框等處理,一幅圖畫被分拍在不同畫幅時,管理員應將各個影像文件進行拼接處理,拼接后影像不應出現白邊和內容缺失。 數據的質量檢查是數據品質的重要保證,影像的清晰度、失真度、完整性與數據結構、文件順序、文件命名、數據存儲介質命名、文檔管理、交接手續等項目是檢查和驗收的主要內容。影像數據分為檔案典藏級和瀏覽服務級,檔案典藏級數據用于資源的長期保存和必要時的出版印刷,可作格式轉換和復制的母本;而瀏覽服務級的數據因用途、使用對象不同,是通過影像壓縮、格式轉換處理后的衍生物。
特色資源管理和服務系統是中文近代文獻推送服務的平臺。為方便數據維護與更新,系統采用瀏覽器作為操作界面,靈活配置索引項,實現定制檢索方式。服務界面提供簡單檢索、高級檢索和在檢索結果中再檢索等檢索方法,可滿足不同的檢索需求。
(1)中文近代文獻的數字化包括信息資源采集加工、數字內容獲取、存儲管理、資源發布、檢索服務等幾個步驟。系統平臺由具有添加對象、修改對象、索引對象、對象管理、用戶幫助等功能的系統管理模塊,保存元數據和對象數據的數據管理模塊及通過用戶檢索界面獲取資源的數據發布模塊構成(見圖1),相關的國際標準及知識產權保護機制貫穿在應用系統中。

(2)特色資源管理和服務系統要實現資源的統一發布和管理,應先通過搜索系統檢索元數據庫獲得數字資源唯一標識,然后通過調度系統獲取數字對象。該系統不需要專業人員另外開發Web系統,用戶可以根據自己的需要選擇適合的Web界面模版,根據資源使用需求,發布人員可在可視化參數表中選擇支持顯示和檢索的數據項。
(3)系統提供標準檢索功能,允許讀者通過文獻的名稱、主題、日期、出版等項目檢索數據,檢索條件由管理員定制。高級檢索支持多個條件的“與”、“或”組合查詢,方便讀者迅速、精確地查找到所需內容。對于不確定的條件,系統提供模糊檢索方式。檢索結果以列表形式呈現,條目過多時讀者可以通過在檢索結果中再檢索的方式進一步查找。每條數字資源都有詳細的內容描述供讀者閱讀。數據顯示頁面和結果條目的排序方式均可由管理員隨時修改。
(4)特色資源系統提供數據讀取接口,輸出XML格式的元數據文件,輸出篇名目次導航,使用閱讀器瀏覽全文影像,保留歷史查看記錄并提供相關文獻的關聯。
國家圖書館數字館藏建設工作一直是有目標、有計劃的,目前自建數字館藏已達到250TB。本著“邊建設邊服務”的原則,我館館藏數字資源建設不斷擴大與完善。中文近代文獻作為數字館藏建設的重要內容,得到圖書館各方面重視,不斷增加建設力量。未來我館還將推出更多的文獻品種和數字內容。我館在加強自有館藏建設時還應與國內其他圖書館一起建設國家數字圖書館工程,包括各種數字資源的組織管理、內容服務和標準技術研究等。我們相信,這項具有長遠影響的工程將使數字圖書館成為網絡時代保障人民群眾基本文化權益的重要途徑。
[1]解 說. 近代文獻的保護修復芻議[J]. 圖書館學刊, 2008(5):111-113.
[2]全國圖書館文獻縮微復制中心[EB/OL]. [2010-07-15]. http://swzx.nlc.gov.cn/wxqj.htm.
[3]孫一鋼, 龍 偉, 趙四友. 數字資源加工標準與操作指南[EB/OL].[2010-07-15].h ttp://cdls.nstl.gov.cn/mt/blogs/2nd/archives/docs/CDLS-S03-008.pdf.
[4]王居平. 數字圖書館評價的理論和方法[M].合肥: 安徽大學出版社, 2008:30-36.
[5]歐 潔, 羅治國, 林守勛, 等.數字圖書館的數字對象體系結構[J].中國科學院研究生院學報, 2000(1):93-99.
[6]葉 鷹, 金 瑋. 數字圖書館的體系結構與理論模型[J]. 圖書情報工作, 2003(9):45-47.