楊煥敏
摘要:在數字化轉型的背景下,公共圖書館成為具有權威性和示范性的公共資源獲取中心。公共圖書館通過數字資源整合能夠促進資源共享,縮小城鄉文化差距,實現城鄉文化融合發展。現探討適合唐山市公共圖書館數字資源整合的路徑,包括通過OPAC實現傳統館藏資源的整合;通過集成檢索系統實現數字資源整合;通過OPAC元數據和各種數字資源元數據的整合,以實現書目數據與電子資源數據的融合和呈現以及一站式檢索,為城鄉文化的融合發展提供豐富的資源。
數字化發展經歷了資源數字化、業務流程數字化進入了數字化轉型發展階段,圖書館數字化大規模發展主要有兩方面原因,一是出版機構大力推進數字化文獻出版促使圖書館收藏數字化文獻;二是IT廠商進入圖書館自動化系統市場,自動化集成系統開始在圖書館應用。此后,圖書館的資源、服務、管理都開始普及數字化建設。數字化轉型通過建設數字資源與提升服務能力創造圖書館新的價值增長點,數字資源整合則是數字資源建設中的重要環節,也是提供一站式資源檢索服務的基礎。通過整合機構或地區的各類數字資源,避免重復建設,促進了數字資源共享。在數字化轉型的背景下,探索唐山市公共圖書館數字資源整合的路徑,實現公共圖書館數字資源共享,對于打通圖書館文化服務的最后一公里、縮小城鄉文化差距、實現城鄉文化融合發展,有著重要的現實意義。
數字資源整合的概念
數字資源整合是指對相對獨立的數字信息源進行類聚和重組,或對分散無序的數字資源進行描述和組織,組成一個效率更高的數字資源體系。它包含資源組織和資源聚合兩個層面,通過科學規范的組織各種信息資源實現高效利用,或者對分散的、異構的數字資源進行類聚和重組,便于知識的有效獲取,最終實現知識的共享。
數字資源整合的意義
確立公共圖書館的權威性
數字資源整合是提升圖書館服務質量的前提和基礎。唐山圖書館作為市內公共圖書館的引領者,應承擔起全市公共圖書館資源整合的重任,成為未來唐山市具有權威性和示范性的公共資源獲取中心。為市民提供公共數字資源服務,這既是唐山圖書館應該承擔的文化服務責任,也是實現城鄉文化融合的重要路徑。唐山圖書館應依托已建成或正在建設的總分館制模式下的數字資源整合基礎,進行全市公共圖書館的數字資源整合,逐步確立起公共圖書館公共資源獲取中心的地位。
避免重復建設實現資源共享
經過多年發展,唐山市各公共圖書館的館藏資源日益豐富,各館建有OPAC書目數據、電子圖書、電子期刊等各自獨立的數據庫,資源重復建設的情況較為嚴重,各數據庫之間互不關聯,降低了資源的利用率。有效整合唐山區域內數字資源,一方面,可以全面揭示總館及分館的各類資源情況,避免重復建設;另一方面,通過對各類數字資源進行有效的組織和聚合,實現資源間的相互關聯,可以為用戶提供一站式資源檢索服務,消除唐山市內的“信息孤島”現象,實現全市公共圖書館的數字資源共享。
有利于提高圖書館的服務水平
唐山市各公共圖書館主要面向所輻射范圍的市民提供服務,進行數字資源整合有利于各圖書館全面了解全市資源的整體館藏狀況,及時調整數字資源的建設策略。各種資源被整合在統一的檢索服務平臺,用戶通過分類瀏覽就能了解到各個圖書館的數字資源,也可根據如題名、關鍵詞等信息檢索到多個圖書館的資源。整合后的數字資源有利于滿足用戶多層次的信息需求,全面提升公共圖書館的服務水平。
數字資源整合路徑
元數據是描述數據的數據,其依據一定規則對電子信息資源進行描述以期達到有效檢索的目的。元數據在數字資源整合過程中具有重要作用,通過元數據的描述,可以對各種分散無序的資源進行有序的組織與管理,建成各類資源庫;對各類資源庫的元數據相互映射與轉換,實現不同資源庫之間的聚合。
數字資源整合范圍
資源整合從收集范圍來說,主要為唐山市內各公共圖書館和已加入總分館制建設的學校圖書館所收藏的各類資源元數據。包括館藏編目元數據,如唐山圖書館分館館藏資源元數據、遷安市圖書館總分館制編目的元數據等;自建數據庫元數據,如唐山地方特色資源庫、豐南數字方志等;外購數據庫元數據,如中國知網、獨秀知識庫等。按資源類型分,有圖書、期刊、數據庫、音頻、視頻、文章、圖像等;按元數據格式分,有MARC、DC、ISO、XML、SQL Server等,圖書館應用最多的是Marc和DC格式。
數字資源整合方式
常見的數字資源整合方式有網絡信息導航、專題數據庫、基于OPAC整合和基于統一檢索平臺整合。其中,網絡信息資源導航和專題數據庫建設適用于網絡資源或圖書館通過各種方式收集但未經有效組織的數字資源的整合,側重對資源的有效組織。基于OPAC整合和基于統一檢索平臺整合適合已經建成的數據庫,對各種數據庫進行深入整合,更側重對資源的匯聚。根據唐山市公共圖書館數字資源建設的現狀,最適合的方式是基于OPAC整合和元數據倉儲的數字資源整合。
1.館藏資源OPAC整合
館藏資源OPAC整合包括館內資源整合和館外資源整合,館內資源整合可以實現本館館藏資源的信息揭示,館外資源整合可以全面揭示整個區域內館藏資源的信息,為開展更深層次的知識發現奠定基礎。
(1)館內資源整合
依托圖書館管理系統,圖書館可以把電子資源供應商提供的MARC電子書目,經編目員處理后導入本館OPAC書目系統。電子圖書和紙本圖書分別建立書目記錄,通過MARC記錄的856字段實現與電子資源的全文鏈接。其中,最常用856$u標注統一資源標識,856$z標注注釋說明。例如,《可愛的唐山》電子書856$z顯示為“在線閱讀”,打開“在線閱讀”鏈接便可閱讀$u指向的電子書全文;《瞬間與十年》電子書856$z著錄為“在線觀看”,點擊此鏈接便可打開856$u所指向的視頻,讓讀者深入了解唐山大地震的始末。依托圖書館OPAC系統,利用856字段的26個子字段可以充分揭示館藏資源信息,實現圖書、期刊、光盤、音頻、視頻等MARC數據的整合,將這些資源整合在一個數據庫中,用戶利用同一個OPAC書目檢索系統就能查詢到所有館藏資源。
(2)館外資源整合
對不同圖書館之間的異構OPAC數據庫進行整合,一方面,如果檢索軟件支持Z39.50協議,可以通過Z39.50協議完成。Z39.50是嚴格基于ISO的OSI(開放系統互聯)參考模型的應用層協議,是國際通用的信息檢索標準和協議。Z39.50最主要的應用領域是館藏書目檢索,也可以把多個分離的OPAC連接起來,支持跨平臺異構系統之間的數據傳輸和數據庫查詢。支持該協議的檢索軟件可同時檢索多個Z39.50服務器的異構數據庫,實現異構OPAC系統之間的互聯互通。但Z39.50協議是基于客戶端/服務器體系結構的信息檢索協議,不適合在統一檢索系統中使用。
另一方面,唐山市圖書館總分館體系的成員館可以利用唐山市圖書館的Interlib圖書館集群管理系統實現總分館體系下所有圖書館的OPAC整合。在總分館體系中,唐山市圖書館作為市本級的總館,對市區范圍內的各分館進行統一分編、統一配送,實現通借通還。在縣級圖書館的總分館體系中,各縣級圖書館又是縣域范圍內的總館,對縣域內的各分館進行統一分編和通借通還。唐山圖書館與各縣區圖書館均使用Interlib圖書館集群管理系統,實現了管理系統的對接,從而實現OPAC資源整合。
2.基于元數據倉儲的數字資源整合
元數據倉儲技術在資源整合系統或知識發現系統都有應用。基于元數據倉儲的資源整合系統,其顯著特點是后臺有龐大的知識庫,也稱元數據倉儲。其所包涵內容的目錄、不同規范和格式的元數據,用戶只需使用一個檢索引擎就能訪問不同規范的元數據,實現一站式檢索服務,大大提高檢索速度。建設元數據倉儲包括元數據收集和元數據整合兩個關鍵環節。
(1)元數據收集
元數據收集有元數據收割、元數據導出導入等環節。元數據收割是指通過OAI—PMH協議收割元數據,它是開放元數據獲取的網絡通信協議,為元數據互操作提供了有效的解決方案。元數據倉儲通過OAI數據接口定期批量收割元數據是較理想的元數據收集方式,但它主要適用于支持OAI-PMH協議的資源。對于沒有提供OAI數據接口、不能通過收割方式獲取元數據的資源,需要數字資源提供者從原始數據庫中導出元數據,交由圖書館導入到元數據倉儲中。出于商業利益考慮,外購數據庫商一般不愿意提供接口收割其元數據,所以這種元數據導出導入方式更適合愿意提供元數據的外購數據庫商。
(2)元數據整合
元數據整合是指對元數據倉儲中的不同規范標準的元數據進行分析處理,將其轉換為統一格式的元數據的過程。元數據整合具體包括以下各項工作,其中比較重要包括元數據的語義分析、制訂統一元數據結構和映射關系等。
一是進行原始數據存儲。是指對收集到的來自各圖書館的多種元數據進行存儲。因為元數據的來源單位不同、格式多樣、語義也存在差異,通過定義一個可擴展的目錄結構,可以使系統通過該文件的路徑分析出其存儲的來源單位及格式,通過文件解析器智能識別文件來源及類型并對數據進行存儲。
二是進行語義分析。語義分析需要分析每個數據庫的字段,明確每個字段的含義,如題名、責任者、關鍵詞等用于檢索的必備字段;資源的修改時間、發布時間,作者簡介等僅用于顯示的字段;使用權限、加工信息是數據制作單位用于資源管理的字段。明確各數據庫字段的含義能夠減少后期整合環節的錯誤。
三是統一元數據結構的制定。制定統一元數據結構是元數據倉儲建設的關鍵問題,包括關鍵屬性集和其他屬性集。關鍵屬性集存儲具有檢索功能的重要描述信息,包括名稱、作者、主題等,還兼顧多種類型資源的特性,如叢書信息、論文基金信息等。其他屬性集存儲不具有檢索功能的一般描述信息,存放關鍵屬性集中未包含的已有字段和可能出現的新字段,用于詳細揭示對象數據。這樣既保證了統一元數據結構包含所有數據庫字段,又避免了其結構過于繁雜。
四是元數據映射關系的制定。圖書館用得最多的是MARC和DC數據,但不同圖書館所收集的元數據標準不統一,同一圖書館的元數據因應用層次不同也會產生不同的元數據不同字段之間也可能有語義的交叉的情況。因此,在元數據映射時要方便用戶檢索,不僅對名稱、作者、關鍵詞等有檢索功能的字段進行對應轉換,還要保留原始信息的完整性方便用戶瀏覽。MARC數據資源的映射關系最復雜,其體系完備、子字段眾多。對MARC的映射只能保留重要字段,同時合并相同或相近內容字段,這樣不會導致統一元數據結構過于龐大。例如,將010國際標準書號、011國際連續出版物號、091統一書號的$a子字段都映射到“標識符”;將200$a題名、304題名附注、312相關題名附注和5字段的相關題名字段統一映射到“題名”;將2字段和7字段的各種責任者都映射到“責任者”等。
五是元數據轉換。元數據轉換是指把原始的元數據格式或結構,轉換為統一的元數據格式或結構的過程。元數據轉換主要是對結構不一致數據的轉換和數據粒度的轉換,目的是消除元數據之間異構性的同時,還要保持統一元數據結構不能過于龐大。此外,還要進行不同元數據之間的關聯如書目數據和地方特色資源數據的掛接、書目數據和規范數據的掛接等,為不同系統之間的數字資源進行比較、分析、整合奠定基礎。
六是元數據清洗。元數據清洗環節需要刪除空值或重復數據,校正錯誤信息,補充不完整信息,對于轉換過程中出現的無法轉換的元數據則需要通過人工進行處理。數據清洗完成后可以直接加載寫入數據倉儲中。完成清洗后導出的數據可以為搜索引擎提供索引支持和檢索顯示。
基于OPAC的資源整合可以實現傳統館藏資源的整合,通過集成檢索系統可以實現數字資源的整合。通過收集OPAC系統和各種數字資源的元數據,可以實現書目數據與電子資源數據的融合與呈現,從而實現一站式檢索。
數字資源整合應注意的問題
館藏OPAC整合
利用856字段與電子書全文鏈接時,要注意紙質書MARC記錄與電子書記錄這兩種著錄方式的選取。一種情況是紙質書與電子書都分別著錄,其優點是方便對紙質圖書和電子書的管理統計,在紙質書下架或因特殊原因注銷記錄時,不必重新增加該電子書的記錄;缺點是電子書記錄占用MARC數據庫一定的存儲空間,隨著電子書數量的增多可能導致批量檢索時速度變慢。另一種情況是二者都有館藏,直接在紙質書記錄上增加856字段,其優點是著錄環節簡單,節約MARC數據庫存儲空間;缺點是不便于對電子書的管理和統計。從長遠考慮,電子書館藏有增多的趨勢時,通常采取第一種著錄方式。
元數據整合
元數據整合離不開對不同規范元數據的訪問和匯聚,因此,要加強元數據互操作的研究,特別是語義互操作的研究。在數字資源整合過程中應注意以下問題。
一是DC與MARC的映射。兩者元數據結構差異較大, DC只有15個基本元素,格式簡單,最初主要是對網絡信息資源的描述,因其具有較好的擴展性及兼容性逐漸被用于各種類型資源;而MARC多達數百個子字段,具有完備的體系和嚴格的句法。編制原則和元數據結構的差異導致兩者之間無法實現完全映射。DC引進了體系修飾詞等概念,借鑒了分類法、主題詞表等控制語言及MARC的優點,這些都有利于對DC與MARC映射的深入研究。
二是中外依據標準的不同。在對知識的揭示及檢索服務環節,知識組織工具如分類法、主題法起均到了重要作用。但中外文數據庫標引字段存在明顯的語義差異,這是因為字段元素取值所依據的標準不同,依據的分類法有《中國圖書館分類法》《杜威十進制分類法》《美國國會圖書館分類法》等主題詞表有《中國分類主題詞表》《美國國會圖書館主題詞表》等,應加強中外受控詞表互操作研究。
數字化轉型背景下,公共圖書館應該成為本地區具有權威性和示范性的公共資源獲取中心,通過數字資源整合促進資源共享,為城鄉用戶提供豐富的文化資源。同時,帶動線上線下資源流通利用,縮小城鄉文化差距,實現城鄉文化融合發展。
本文系唐山市科技局軟科學項目“公共圖書館數字化轉型賦能唐山城鄉文化融合發展研究”的研究成果,項目編號:23110217f。
(作者單位:唐山學院圖書館)