郭麗霞,童忠勇
(國家圖書館,北京 100081)
數字圖書館是信息時代的產物。隨著計算機和互聯網技術的不斷發展,信息資源共享的方式和手段也在不斷地發展和提高[1],信息資源的傳播和交換不再受到時間、空間、機構和文化差異等傳統限制,實現了真正意義上的隨時隨地資源共享,極大地提高了人們信息獲取的效率。
數字資源具有有機生命體的典型特征,其生命周期過程經歷采集、制作、存儲、管理、發布與服務等不同的管理階段。資源建設的最終目的是服務讀者。數字資源發布與服務是數字資源生命周期的最后一個環節,也是直接服務于大眾的環節。發布與服務是一個有機整體,但也可以拆分為發布與服務兩個環節,發布是服務的前提,服務是發布的目的,二者互相依賴,互相影響[2]。
從技術上講,數字資源發布是將組織整理好的元數據和對象數據,根據需要,通過數據抽取、數據轉換、數據封裝、數據索引等處理手段,發布可直接提供服務的數據。數字資源服務是對已發布的數據提供資源服務,根據讀者或外系統的數字資源服務請求,返回所需要的結果。圖書館的數字資源種類繁多,來源廣泛,所以在數字資源的發布與服務中,對數據進行統一預處理和封裝就非常重要,讓用戶不必關心數據的格式和來源,對其進行一致化訪問。在數據的具體發布過程中,可以對數據進行詳細分類,例如圖書、期刊、報紙、圖片、音頻、視頻等,根據不同類別建立相應的專題庫,對不同類型數字資源進行完整的信息封裝,實現各類資源的統一發布和服務。
發布與服務系統不是獨立的,離不開其他系統的支持和交互。在數據層面,需要數字資源組織系統、長期保存系統、知識組織系統的數據、知識庫的支持以及數據管理;在中間層面,需要與統一用戶系統、唯一標識符系統以及版權信息系統進行交互,實現用戶信息、唯一標識信息和版權信息的獲取和更新;在用戶層面,可以為搜索系統和讀者門戶系統提供信息支持和交互。
發布與服務系統,目的在于實現對專題庫的定義、創建和管理等,對來自數字資源組織系統的數據進行轉換、整合處理、入庫以實現數字資源發布的功能;面向各類讀者為各種專題數字資源提供檢索、展現(權限控制機制下的)以實現數字資源服務的功能。總體而言數字圖書館資源發布與服務系統一般包括數字資源發布、數字資源服務、后臺支持與管理、門戶,分為讀者門戶、元數據檢索、元數據展現、對象數據展現、后臺支持等功能模塊。圖1說明了數字資源發布與服務系統中各子系統的功能切分以及和外系統的接口關系。

圖1 數字圖書館資源發布與服務系統一致化模型
(1)元數據檢索:發布與服務系統支持基于專題庫的元數據檢索功能。包括條件檢索、分類導航檢索和元數據檢索結果展現。
(2)元數據詳細信息展現:元數據詳細信息展現模塊能基于元數據的相關信息完成對單條元數據的詳細信息的展示,如書目詳細信息、圖片詳細信息、視頻詳細信息等。具體功能包括元數據展現模塊定制、詳細信息展現以及資源關聯關系揭示,此外提供元數據訪問接口服務,便于與其他系統和應用的對接。
(3)對象數據展現:提供數字對象的展現功能,基于已發布出來的對象數據庫,對授權讀者提供文檔、圖片等資源的下載和閱讀,音頻和視頻流媒體的播放。功能包括資源訪問控制、資源加密、資源下載、計費、客戶端揭示,以及對象數據訪問接口服務等。
(4)發布與服務后臺支持與管理:發布與服務后臺支持與管理對發布服務系統起了支撐作用,對系統的日常運行和維護非常重要。其主要功能如下所示:
專題庫定義、創建與管理。提供專題庫的定義其及屬性管理功能,專題庫屬性包括名稱、說明、限制范圍、條件字段屬性、檢索結果展示屬性、索引、狀態等;提供專題庫屬性接口訪問功能;提供基于專題庫信息的對物理專題庫的管理功能,包括物理專題庫的創建、索引建立、刪除等。
數據接收處理。對各種文獻類型的數字資源進行相應的數據接收處理。包括數據接收方式和數據格式約定、數據檢查、數據處理和入庫、對象數據優化管理等。
數據處理后臺支持工具。數字資源發布后臺支持工具用于支撐數字資源接收、處理和發布過程中的數據整合功能,起到后臺數據整合中間件的作用,通過該工具,可以快速定制面向特定資源的數據整合處理組件。
流程管理。數據接收和發布流程管理功能用于對發布和服務工作以任務的方式進行有效的管理、監視和控制,以方便發布工作的管理,并提高數據發布處理效率。
用戶管理。發布與服務系統的各主要模塊,包括元數據檢索、詳細信息展現、對象數據展現等模塊,都應提供用戶登錄入口。用戶登錄時,通過統一用戶管理系統的認證服務功能進行統一認證并獲取返回的當前用戶信息。
授權管理。系統應能根據資源授權訪問策略, 提供授權管理功能。
基于資源發布與服務系統的一致化模型,數字資源的一致化封裝在數字資源的發布流程中占有很大比重。在實際發布過程中,數字資源來源不同,結構不同,在一致化模型的框架下,需要人工干預,進行數據的識別和整理,從而實現資源的一致化封裝。下文描述資源的發布與服務的一致化流程。

圖2 元數據整理流程
3.1 元數據的一致化封裝
雖然數據的來源可以多種多樣,例如,比較常見的數據類型是EXCEL和MARC格式,為了實現資源的一致化封裝,通常將來源不同的元數據進行處理,整理成一致化的格式,例如XML格式作為統一出口。將圖書館大量的書目數據從MARC格式轉換為XML可以解決MARC類型標識、字段標識和子字段標識的問題,從而將MARC數據從嚴格復雜的規范流格式數據轉換成機器可讀的XML結構化數據,實現MARC書目數據庫和Internet上的非書目數據的集成,從而使得現有的大量MARC格式書目數據能方便地在數字圖書館中加以利用,提供面向WWW的MARC信息,這在當前數字圖書館建設中具有重要意義[3]。在實際工作中,元數據整理的類型通常有整合、排序、過濾等,將不同文件中的元數據按照唯一ID進行合并,實現元數據信息的完整描述。在進行元數據整理過程中可以借助一些專業軟件,例如etl工具kettle,實現批量元數據信息的整合處理工作[4]。圖2展示了元數據整理流程。在實際工作中,需要對元數據進行識別,挑選出兩個或多個元數據來源中的唯一ID,然后根據唯一ID進行信息合并。此外,在元數據的一致化封裝過程中,為了實現發布過程中元數據和對象數據的對接,在數據整理過程中,需要考慮對象數據和對象文件的命名方式。
在發布工作之前,除了進行元數據的一致化封裝之外,還要對對象數據進行一致化的預處理,例如格式轉換、像素轉換等等,使得對象數據符合發布系統的要求。在對象數據處理過程中,需要對數據類型進行分析,并對結果數據進行校驗,保證數據質量和數量。由于對象數據的預處理一般是批量進行,往往需要較長時間。此外,圖書館數字資源種類繁多、數據量龐大,文件多且細碎,需優化管理海量對象數據文件,以提高整個系統的效能,如通過將多個JPG或者PDF等文件拼成一個文件并能對文件包內的文件進行定位的策略以減少所處理文件的數量。
基于一致化模型的數據發布任務可以包括多個處理階段和狀態,如初始、校驗、轉換處理、入庫、完成、取消等。系統支持為不同的資源種類定義不同的狀態集,支持在任務流程中加入人工處理環節和程序自動處理環節。對于需要人工處理的環節(如審核等),系統需要提供任務分派和權限控制功能。
可以根據來自組織系統的數據提交單自動創建發布任務,也可以手動創建發布任務;支持任務的分配、審核、處理記錄、關閉、取消等;提供任務的條件查詢、分類統計。通過發布任務的流程管理功能,可以查詢和統計數據提交、接收方面的管理信息。
對于基于數據提交單自動發起的發布任務,系統能分析提交單的類別,進入相應種類數字資源的發布處理流程;系統能記錄數據接收、檢查、入庫等管理信息;處理完成后系統能向提交者反饋數據接收結果,對接收失敗的情況同時反饋錯誤原因。
任務在自動運行時,可以通過用戶界面顯示任務狀態、進度和處理日志,讓使用者了解任務進度,判斷任務是否正常。對于處于程序自動執行階段的任務,用戶可以隨時暫停、停止、啟動、繼續任務,以觀察任務記錄,判斷是否有錯誤。任務在運行過程中,系統應提供界面反映該攝入任務處理的當前進度和狀態;處理過程出現錯誤,界面須返回錯誤詳情;提交成功后需返回本次任務的統計信息。整個任務結束后應向提交方反饋處理結果信息。
數據發布并向讀者提供服務后,數據有可能存在沒有發現的錯誤(如元數據描述信息存在問題、對象數據存在錯誤等),發布服務系統的前臺展示模塊應提供數據錯誤報告入口,以方便用戶報告服務數據中存在的錯誤。系統支持數據錯誤報告的流程化管理。
發布與服務的一致化流程的實現離不開標準規范的支撐,無論是數據的組織還是服務的對接,標準規范給出了統一和可持續發展的思路。標準規范是發布與服務一致化實現的基本保障,也是保證發布與服務可利用、可互操作和可持續發展的基礎。在具體實施時,主要有元數據標準、對象數據標準、唯一標識符標準、版權相關法規和標準等。目前這些相關規范比較多,例如元數據標準中,通用的圖書類業界標準包括CNMARC、DC等。對于每一類文獻的元數據,還需要落實各自的數字資源專門元數據標準,包括圖書、圖片、音視頻、古籍、拓片、輿圖等,標準規范的選擇顯得尤為重要。國家圖書館立足于國內外已有標準規范成果,結合國家數字圖書館建設經驗,構建了國家數字圖書館工程標準規范體系,圍繞數字資源生命周期為主線,主要包括數字內容創建、數字對象描述、數字資源組織管理、數字資源服務、數字資源長期保存五個環節[5]。數字資源發布與服務是生命周期的重要一環,其建設需要跟其他環節呼應和合作,標準規范的選擇需要從全局出發考慮總體性,所以在搭建服務時可以依賴于國家圖書館標準規范體系。
隨著計算機和互聯網的飛速發展,圖書館數字資源的種類和數量飛速增長,圖書館數字資源環境逐步向分布式、異構和開放等方向發展,如何將這些資源進行一致化封裝和發布成為數字圖書館發展面臨的重要問題[6]。數字圖書館資源發布與服務系統一致化模型給出了數字資源的統一發布思路和實踐方式,在保證適用性和可擴性的基礎上,實現了各種類型數字資源(例如:圖書、圖片、音視頻等)的統一批量發布。然而,對于數據量龐大的數字資源,發布起來往往需要較長時間,因此,數字資源的高效發布也是非常重要的,在保證數據質量的情況下,提高數據發布效率是數字圖書館資源統一發布中需要考慮的問題。