葛懷東
(金陵科技學院人文學院,江蘇南京,210038)
古籍數字化工作自上世紀80年代開始,經過幾十年的建設與開發,成果顯著,一些大規模、具有代表性的古籍數據庫陸續投入使用,并形成較為成熟的古籍數字化加工技術。在取得成績的同時,古籍數字化建設中的問題仍然十分明顯,表現為缺乏統一規劃、重復建設嚴重,缺乏統一標準、阻礙資源共享,區域發展不均等。
當前,正值國家古籍保護中心及相關文化機構大規模開展古籍數字化之際,而規范化建設能夠推動古籍資源庫的開發在數據采集、加工等各個環節走上科學化、專業化的發展軌道,更是推動古籍數字化工作可持續發展的內在動力。
古籍數字化資源是數字圖書館資源中重要的組成內容。在各類文獻中,古籍獨具特色,蘊含著獨特的文獻價值、藝術價值,彰顯著古老文明的魅力。而古籍的數字化服務能夠有效解決古籍保護和利用的矛盾,是傳承文明、服務社會最重要的方式之一。
古籍數字資源庫是對古籍及古籍內容的再現,是古籍再生性保護的重要途徑。開發古籍數字資源庫,就是將古籍的特點與信息技術的優勢相結合,讓經過加工后的古籍數字資源保持原有的文化特征與內涵,實現從古籍影像的數字再現到古籍內容的分析、聚類,從單一古籍內容的處理到海量文獻的信息重組,從簡單的文本轉換到知識挖掘。可以說,建成后的古籍數字資源庫是基于內容整合、有序的數字資源集合,從而幫助研究者更好地進行古籍文獻資源的知識建構。
古籍數字資源庫的建設應著眼以下三個方面:
標準化建設直接影響著古籍數據庫的使用效果、存在價值和發展前景。因此,所開發的古籍數字資源庫一定要依據國家制訂的古籍保護方面的相關標準,包括古籍普查規范、中華古籍總目編目規則、通行的數字化制作數據著錄標準、古籍書影拍攝相關規范、數據標引標準、規范控制標準及各種協議等,以較成熟的系統軟件和通用標準為技術平臺來建立規范化的古籍數字資源庫。
古籍數字資源庫的任務就是要準確揭示古籍信息資源,并為用戶提供在網絡環境和復雜的技術條件下檢索及利用的服務平臺。因此,建庫時應遵循“實用性”原則,充分調研用戶對于數字化古籍的使用需求,深入分析古籍信息資源的實用價值以及社會效益,以保證古籍數據庫能滿足讀者和社會需求。
鑒于古籍信息資源的建設需要,古籍數字化的開發項目要能夠吸納、補充新的數字化古籍文本以及古籍整理的研究成果。因此,古籍數字資源庫的建設應該是動態的、可拓展的,而其所提供的資源或服務也必須在不斷發展的技術與運行機制下長期保存和使用,并與未來的資源與服務環境相融合。
古籍數字化是保護與傳承珍貴古籍的重要手段之一,可以真實、清晰地反映古籍原貌,并借助網絡等媒介提供大眾使用,從而促進古籍傳播,開創古籍利用與服務的新模式。從我國現已完成的古籍數字化成果來看,由于最初采取的是封閉式建設模式,各單位多執行自己的標準及規范,以至于所開發的古籍數據庫在著錄格式、數據格式、文字編碼等方面均存在差異,且互不開放,造成眾多古籍數字資源不能資源共享。因此,迫切需要加快古籍數字化規范化建設進程,以便增強古籍數字資源庫的通用性和共享性。
2007年國務院辦公廳在《關于進一步加強古籍保護工作的意見》(國辦發[2007]6號)中就明確指出,要“規范古籍數字化工作,建立古籍數字資源庫”。古籍資源庫的規范化建設是針對古籍數字資源的采集、加工、保存等開發過程,所提供的一套規范、合理、科學的建庫支撐體系,以提高古文獻數據的有效利用率和可整合性。在古籍數字化的過程中,規范化建設能夠為古籍資源庫的開發在質與量兩方面提供技術規范和共同遵守的準則,使古籍數字化項目在各個環節做到“有章可循”,從而實現數據加工業務的流程化,技術實現的標準化,質量控制的工程化,共享與服務的系統化。推進規范化建設,可以引導古籍數字化盡快適應當今對古籍資源開發利用的共享趨勢,并朝著專業、科學開發的方向邁進。
2011年,文化部發布《關于進一步加強古籍保護工作的通知》,要求加快古籍的數字化建設。目前,國家古籍保護中心和各省級古籍保護中心正著手進行“中華古籍數字資源庫”建設,第一階段擬從《國家珍貴古籍名錄》入手,在5年內完成一萬種國家級珍貴古籍名錄數據和影像數據的建庫工作。為保證數字化古籍資源及服務在整個信息環境中的可利用、可互操作和可持續發展,迫切需要加快古籍數字化工作規范建設的進程,以便增強古籍數字資源庫的通用性和共享性[1]。
隨著古籍數字化工作的不斷深入,古籍數字資源庫的規范化建設已不再僅局限于對單個標準的研究與應用,而是從整個數字資源生命周期的角度,圍繞數字資源的創建、描述、組織、服務、長期保存來建立完整的系統框架,并按照整個框架體系規范、組織各方面的加工及作業環節,從而保障古籍數字資源的開放建設與集成服務[2]。因此,當前古籍數字資源庫應注重數字資源內容創建、古籍元數據、系統服務、長期保存等規范化建設環節。
作為一種非常有效的再生性保護手段,古籍數字內容的創建實現了古籍存儲和使用的分離,將古籍作為一種數字信息資源,動態地展示在人們面前。在古籍數字資源庫建設中,古籍數字內容的創建過程包括數字資源采集、對象數據創建、數字資源加工、數字資源轉換等環節,而實施其規范化建設的支撐單元為內容編碼、內容對象格式、內容對象標識等。其中內容編碼涉及數據內容的計算機編碼形式和標記形式,是制約數字信息可使用性乃至可持續性的最基本條件。
以漢字字符集編碼為例,古籍文本中的漢字數量約有十萬左右,其中常用字三四千,絕大多數字都屬于生僻字、避諱字、異體字等。因此,漢字處理規范就是要解決古文獻在數字化中面臨集外字的問題。Unicode與國際標準ISO10646同步,且滿足跨語言、跨平臺進行文本轉換、處理的要求。它所涵蓋的漢字目前已超過7萬個,并且還在不斷擴充,因此在古籍數字化時絕大多數機構都采用了Unicode字符集。
同時,在古籍數字資源庫建設中,要分析并確立應采用的數字編碼與內容標記標準,并針對保存格式、瀏覽格式和預覽格式提出需要采用的數字內容格式標準,確立數字資源加工標準和程序的選擇原則,編制數字資源建設指南的基本操作規范和加工操作規范。目前,國家古籍保護中心組織已編制了《古籍數字化工作手冊》,對即將開展的珍貴古籍數字化工作進行規范性指導。
元數據作為描述數字對象的數據,是所有數字信息資源建設項目的重要基礎。而古籍元數據標準主要解決的是物理實體古籍和數字化古籍的著錄和描述問題。元數據具有資源發現與確認、資源著錄描述、資源集合組織、資源及其服務的利用和管理、資源長期保存以及資源與服務系統功能與過程描述等廣泛的用途。
古籍元數據基于DC構建,在吸收了DC核心元素的基礎上加入了部分古籍專門元素而成。由北京大學圖書館牽頭,聯合CALIS管理中心、上海圖書館等8 家單位完成的《我國數字圖書館標準規范專門數字對象描述元數據規范》項目中,將古籍元數據結構分為描述元數據、結構元數據、管理元數據三個部分。其中:(1)描述元數據包括了記錄掃描或拍照過程的信息,創建的存儲文件的信息,以及有關組成單個對象的各個不同塊的信息;(2)結構元數據可幫助重新組合數字對象的各個部分以及通過結構標識進行導航獲取數字對象。如建立古籍子目(叢書分目信息)、卷序號、卷名和頁碼關聯結構;建立古籍印章信息結構,記錄印章名稱、所在位置等;(3)管理元數據是記錄數字主文件的創建,派生文件的處理過程,標識數字圖像的使用環境,建立數字圖像各個部分或示例之間的鏈接等信息[3]。
在古籍數字資源庫建設中,可參照的古籍元數據標準的規范文件有:《古籍描述元數據規范》(2004.06.07);《古籍描述元數據著錄規則》(2004.06.07);《古籍元數據規范》(2006.11.22)等。
隨著網絡化的發展,古籍數字資源庫的信息服務不再局限于本地化。通過規范化建設推動古籍數字資源庫的服務機制,能夠有效保障古籍信息資源的可使用性和各數據庫之間的互操作性。古籍數字資源系統服務工作內容包括了數字資源發布、數字檢索、數字資源服務管理環節,其規范化建設體現在網絡服務協議、數據傳輸和數據應用條件、檢索服務、分布數字信息服務機制與知識產權等方面。
古籍數字資源庫的目標在于能夠實現多功能、多層次的資源服務模式。對古籍數字資源庫的資源服務模式,包括了個性化信息檢索、基于超文本鏈接閱讀環境、智能輔助支持功能及知識發現服務等。其中:(1)個性化信息檢索功能是利用計算機技術實現古籍資源數據庫的全文檢索、條件檢索、關聯檢索、超鏈接反饋檢索等;(2)基于超文本鏈接閱讀模式的設計,是通過超文本鏈接技術實現古籍原本中相關內容的信息單元之間鏈接,以一個信息需求點為中心,匯聚出所有相關信息單元,建立多功能閱讀環境,為讀者提供信息的非線性表達方式;(3)智能輔助支持功能,就是利用計算機技術,為讀者提供有關古籍內容本身的、科學準確的統計與計量信息,并提供與古籍內容相關的參考資料和輔助工具,如字數、字頻、詞頻的統計數據,異體字的匯聚顯示等;(4)知識發現服務,即通過數據挖掘技術和結果可視化實現古籍信息的深層次挖掘與提取研究,為古籍整理提供有價值的參考和支撐。
為了確保古籍信息資源存儲的穩定性及可獲取性,還應針對古籍數字資源建立相關的長期保存機制,并通過規范的管理機制和技術機制來保證長期保存過程的可靠性。
古籍數字資源在長期保存方面將面臨的挑戰主要有以下三方面:一是由于信息科技的發展造成技術的淘汰或是儲存媒體容易損壞的特性,促使古籍數字化資源必需面臨轉換、重置或遷移;二是數字轉換、重置或遷移的過程中,如何避免數據損失,維持數字資源的完整性;三是如何保持數字資源變更的紀錄,維持數字數據的真實性。因此,必要建立一套行之有效的數字資源長期保存設施和機制。
在數字信息資源長期保存領域,國際上已經有了一些數字信息資源長期保存規范。例如OAIS 參考模型是由美國空間數據系統咨詢委員會(CCSDS)制定的標準,并作為ISO的標準(IS014721:2003)于2003年頒發,其目的在于提供對數字資源長期保存和存取規定的概念和參考模型[4]。另外,2006年5月ISO還批準的一個開放文檔格式標準ODF1.0(OpenDocument Format)(標準號:ISO/IEC 26300),可以作為數字資源長期保存的一種技術方案。ODF是OASIS開源社區開發的一種獨立于廠商和應用的文檔格式標準,其目的主要是保證現有的文檔能不受技術和法律制約而實現長期存取。相比現有的文檔格式,ODF標準更適合資源的長期保存。
[1]梁愛民,陳荔京.古籍數字化與共建共享[J].國家圖書館學刊,2012(5):108-112.
[2]《我國數字圖書館標準與規范建設》項目[OL].http://cdls.nstl.gov.cn/.
[3]龍偉.以“中華古籍保護計劃”為契機推進文獻典籍資源數字化[J].數字與縮微影像,2012(3):36-39.
[4]王偉.數字資源長期保存的技術研究[J].情報科學,2012(11):1751-1754.