周晨
摘 要 當前數字圖書館聯合目錄知識庫發展面臨新挑戰,實現數字圖書館書目數據關聯化具有現實意義,論文研究了基于關聯數據的數字圖書館聯合目錄知識庫的構建,指出了數字圖書館聯合目錄知識庫的運維條件。
關鍵詞 關聯數據 數字圖書館 聯合目錄 知識庫
分類號 G250.74
DOI 10.16810/j.cnki.1672-514X.2018.07.013
Abstract Nowadays the development of union catalog knowledge base in digital libraries is facing new challenges, which endows realizing the book-data association with practical significance. In this paper, the construction of knowledge base based on associated data is studied, and its operation and maintenance conditions are stated.
Keywords Associated data. Digital library. Union catalog. Knowledge base.
我國圖書館聯合目錄知識庫建設已經有多年的歷史,是不同圖書館之間協調藏書、拓展讀者范圍的有效方式[1]。隨著數字化資源的增多與學術交流環境的變化,數字圖書館開始著手建設虛擬聯合目錄,用于處理龐大繁雜的數字化資源,但收效并不顯著。采用何種技術處理異構分布的數據資源,加快館藏資源聯合編目速度,促進數字圖書館優化聯合目錄管理模式,成為圖書館界需要考慮的問題。
2006年,關聯數據(Linked Data) 技術的提出,解決了語義網環境下數據資源的格式規范問題,對于數據鏈接、發布與傳播的有序性,整合開放信息資源、促進數據語義關聯方面具有顯著優勢。在數據庫中通過發現不同數據之間的內在關聯,實現不同信息資源的關聯化,形成機器可以識別的語言,進而構建基于關聯數據的信息網絡。關聯數據技術應用于數字圖書館聯合目錄知識庫建設,將從根本上解決數據不兼容問題,從館藏書目關聯化、內容組織等方面,進一步優化數字圖書館知識服務環境。
1 我國數字圖書館聯合目錄知識庫發展面臨的挑戰
1.1 聯合目錄的概念
聯合目錄是不同圖書館共同建立的館藏目錄,旨在集中揭示區域圖書館文獻收藏情況,保障共知、共建和共享。其隨著圖書館自動化建設進程,以及信息技術的進步而不斷變化。紙質圖書聯合目錄是最早的編目形式,但是由于紙質圖書聯合目錄的編制時間較長,需要協調多個機構之間的關系,存在信息滯后性,很難客觀反映不同成員館的藏書變化情況,因此僅用于手工編目階段。計算機技術的進步,為圖書館的聯機編目提供了便利[2]。1967年,美國某高校圖書館建立了最大的聯機書目系統,創建了對應的WLN網絡,此后,發達國家紛紛構建聯機編目體系,促進了跨地域、跨國家聯合目錄的發展。
1.2 聯合目錄知識庫
多個圖書館采用統一的聯合目錄,構建對應的館藏文獻存儲與檢索系統,實現聯合目錄數據的在線下載、編著與加工等,這就是聯合目錄知識庫。其屬于區域文獻資源流通中心,由多個圖書館共同維護,真正實現了資源共知和共享。聯合目錄知識庫大多采取自由聯合管理模式,即成員館以自由、自愿的原則,達成資源共建的共識,自愿以某一圖書館為中心,在此基礎上增加全新的文獻聯合目錄,不斷填充知識庫信息。目前,我國建成的經典聯合目錄知識庫,當屬科技部的“九五”攻關項目成果“中科院國家科學數字圖書館(CSDL)”[3]。這一數字圖書館項目以中國科學院情報中心為主體,由多家圖書館共同參與建設的期刊聯合目錄數據庫,建設主體涵蓋了中科院系統圖書館、公共圖書館、高校圖書館、重要情報機構等多種類型,屬于數字圖書館聯合服務體系。
1.3 聯合目錄知識庫發展現狀
隨著我國圖書館書目由手工編制變為機讀形式,聯合目錄也發生了很大的變化。聯合目錄知識庫是不同圖書館之間文獻流通的基礎,對于聯合目錄的管理分為兩種模式,即集中式聯合目錄與虛擬聯合目錄。前者是通過構建統一的數據庫,實現對館藏書目數據的統一管理;后者是通過對館藏書目進行虛擬整合,設計統一的在線檢索界面,方便用戶檢索時隨時查詢不同圖書館的信息。傳統的集中式聯合目錄管理方式,其數據存儲具有統一的格式,用戶檢索效率高,但無法反映成員館的信息流通情況,對于館藏規模也有一定的限制。采用虛擬聯合目錄方式,只需成員館各自構建數據庫,無需進行集中管理,僅在用戶檢索時集中調配數據[4]。然而這種方式的弊端在于,用戶檢索請求響應效率低,各館信息格式難以統一,檢索結果的整合與排序難度大,有必要引入更加高效的數據處理技術,保障虛擬聯合目錄的應用效果。
2 數字圖書館書目數據關聯化及現實意義
語義網技術的進步為數據資源快速識別、定位與挖掘提供了便利,若將以語義網為基礎的關聯數據引入聯合目錄中,可為書目數據整合提供統一的數據模型,并優化聯合目錄管理方式,這將成為數字圖書館未來發展的重點,也將促使數字圖書館真正成為知識服務樞紐。
2.1 關聯數據的應用
關聯數據自提出至今,一直受到圖書館界的廣泛關注。很多圖書館積極引入關聯數據,并在館藏資源關聯化方面進行了有益探索[5]。數字圖書館作為數據組織傳播中心,其存儲的大量規范數據資源,與聯合目錄相關的主題詞、MARC數據等,都為發布關聯數據奠定了基礎。實現館藏數據與互聯網資源的融合,不僅需要將數字圖書館有價值的信息轉化為關聯數據發布至網絡中,也需要館藏資源與其它機構資源的語義關聯,只有促進異構資源的融合與互操作,才能為數據資源發現提供便利,為用戶提供更多有用的知識。早在2008年,瑞典國家圖書館就引入關聯數據,實現了聯合目錄的關聯化,成為全球第一個將聯合目錄發布為關聯數據的圖書館。瑞典國家圖書館應用了本體和元數據規范詞表,結合圖情學領域專業詞匯,將書目變為結構化的關聯數據格式,為其它圖書館關聯數據的應用提供了借鑒。
2.2 圖書館書目數據關聯化
圖書館書目數據的關聯化,就是將館藏書目轉化為關聯數據格式,促進書目數據與網絡資源的整合,使之成為互聯網數據服務模式。數字圖書館對書目數據的關聯化操作,需要借助URI記錄書目名稱,然后利用URI鏈接獲取更多關聯對象,方便用戶通過互聯網定位書目信息,發現更多與館藏書目相關的內容。具體而言,就是通過整合館藏書目資源,根據不同的主題、編著方式、名稱規范等,賦予對應的唯一URI標識,以建立與URI對應的鏈接,方便用戶根據不同的主題、名稱等,迅速定位所需的數據資源,并且根據URI鏈接進行拓展檢索,獲得更多相關信息。數字圖書館需要解決的核心問題,就是如何對聯合目錄進行分解,使之成為獨立的書目數據,即最小的書目信息記錄單元[6]。這個步驟的實施目的在于保障URI標識的唯一性,通過URI實現信息鏈接,以發現更多有意義的內容。
2.3 書目數據關聯化的現實意義
數字圖書館書目數據關聯化,不僅是實現數據開放共享的方式,讓書目數據能夠借助語義網廣泛傳播。經過關聯化的館藏書目信息,不僅向本館用戶開放,也面向其它信息機構,任何用戶利用互聯網檢索或URI鏈接,都可以查到相關書目信息。書目數據關聯化的意義,在于為用戶提供知識發現服務,實現檢索拓展,建立更有價值的鏈接,通過詳細描述書目信息,促進相關內容的高度集成。關聯數據實現了異構信息整合,讓用戶在檢索書目時可以了解出版社、作者等相關內容,或者獲取國外圖書館的相關鏈接,促進多層次知識內容集成。數字圖書館建立關聯書目數據,不僅是豐富館藏的有效方式,也是吸引讀者的必要手段。例如,瑞典國家圖書館的數據關聯化,主要目標就是通過與移動運營商合作,借助XML等數據關聯格式,方便用戶利用互聯網檢索館藏書目,吸引更多用戶利用館藏資源。
3 基于關聯數據的數字圖書館聯合目錄知識庫的構建
基于關聯數據的聯合目錄知識庫,涉及到多種資源的整合加工,并非單個機構可以完成的。數字圖書館首先需要與合作機構協商,建立專門的知識庫責任小組,選擇專門人員從事知識庫研究工作,探索系統平臺搭建方法。同時對各成員館的開放書目數據進行統一收集整理,鼓勵用戶將已有資源上傳至知識庫中,不斷豐富聯合知識庫資源,真正實現聯合目錄的開放共享。
3.1 知識庫系統框架
數字圖書館首先需要建立與聯合目錄知識庫相關的軟件平臺,根據各成員館的實際需求,分析現有開源軟件平臺的性能,結合自身人力與財力情況,選擇合適的開源軟件作為系統架構搭建工具。在軟件平臺搭建階段,需要做好用戶調研工作,根據調研結果,制定合理的平臺建設方案,并在實際操作中適時調整不同模塊的功能。數字圖書館通過與第三方軟件服務商合作,可以增加軟件平臺功能,或者借助本地化工具構建適宜的知識庫平臺。系統平臺要求具備文獻集成功能,可以利用Note Express軟件進行數據批量管理,將知識庫與個人數據管理結合起來,提升書目資源傳輸效率。整個軟件平臺的搭建可分為應用層、邏輯層與存儲層三部分,每一層對應不同的功能組件,不同層級之間由專用接口相連,實現信息傳輸與資源調用。其中存儲層可實現元數據的存儲管理與數據庫的互操作,邏輯層負責業務數據的傳輸、調配與文件管理,應用層可實現對各類資源與功能組件的統一管理,實現系統與外界的關聯。平臺基本邏輯框架如圖1所示。
3.2 數據加工處理
數字圖書館知識庫建設依據我國圖書館分類法規,全部采用機讀目錄格式。在書目數據加工整合過程中,首先做好數據篩選抽查工作,分析各成員館的數據質量,確定不同圖書館的數據接收順序。其次,分析不同數據源存在的差異,做好數據清洗與預處理工作,實現異構數據有序整合。對書目數據的加工處理,需要根據系統設置做好關鍵字段對比工作,并在數據導入時進行詳細登記與標注,以避免相同數據被重復錄入而降低工作效率。系統核查功能模塊設置的基本字段包括出版來源、ISBN等,系統通過綜合分析三個以上字段,判斷書目數據是否具有唯一性,進而做好相同數據的過濾工作。若經過核查發現ISBN等字段相同,就需要查詢書目數據的出版著錄日期,以分析是否為相同數據,進而實現數據去重。由于大規模數據回溯與去重工程量大,很可能出現問題字段,需要做好數據修補、維護工作,以保障數據加工質量。
3.3 業務規則設計
業務規則設計是避免聯合目錄知識庫建設質量問題的基礎,是降低返工率的保障。知識庫中相同文獻僅保留一條標記,避免數據量過多使得文獻標識分散。根據書目數據匹配原則,數字圖書館可以根據書目質量評估,確定被保留書目的優先級[7]。制定書目數據共享規則,是保障聯合目錄共建、共享的基礎。原則上,數字圖書館的所有書目數據均應該開放共享,本著不重復、互利互惠的原則,聯合目錄知識庫中的所有資源,不僅服務于所有成員館,也應該提供給其它信息機構,以促進我國聯合編目體系的發展。但是目前很多圖書館由于人員編制、館藏結構的限制,無法一步到位地實現全開放式服務,這種情況下可以采用分布實施的方法,設計統一的圖書館書目檢索規則,方便用戶獲取不同來源的信息;同時應在書目數據聯合共建基礎上,提供更高層次的知識服務,提高館藏資源流通率。
4 數字圖書館聯合目錄知識庫的運維條件研究
數字圖書館聯合目錄是反映多個文獻機構館藏圖書的目錄,多由不同的機構遵循統一的著錄規范編制而成。而聯合目錄知識庫的構建,有助于集中揭示多個文獻機構的藏書情況,方便文獻檢索、館際互借與數據整合。為保障聯合目錄知識庫的有序運作,數字圖書館需要強化區域合作,實現聯合目錄集中式管理,并做好安全維護工作。
4.1 聯合目錄集中式管理
數字圖書館聯合目錄的集中式管理,就是將成員館已有的聯合目錄數據集,存儲在特定語義倉儲中,實現統一調配與管理,如圖2所示。該語義倉儲設置了不同成員館的訪問權限,用于存放包含URI標識的規范數據,以及包括實例、成員館信息的三元組等,各成員館也可以建立本地數據庫,實現與中心倉儲的實時信息交換。中心倉儲與成員館的數據同步,可以采用增量同步、批量同步兩種方式。前者結合了聯機編目與語義聯合編目,當成員館獲得新資源后,首先對本體數據庫進行檢索,了解其中是否存在對應的信息;若沒有則向中心倉儲發送檢索請求;若中心倉儲已有該資源,則由成員館直接存儲,若無則上傳至中心倉儲。為避免各成員館數據更新的滯后性,可以在中心倉儲與本地數據庫間建立同步機制,若中心倉儲發生數據變動,則向各成員館發布通知,避免書目數據重復建設。