張 燕
(邯鄲市圖書館,河北 邯鄲 056002)
張 燕 女,1975年生。本科學歷,館員。研究方向:自動化。
關聯數據是由“萬維網之父”——英國人蒂姆·伯納斯·李(Tim Berners-Lee)在2006年所提出的一種發布數據方式,關聯數據作為一種可以將各種數據、知識和信息進行相互聯接的規范,被國際互聯網協會推薦使用。一方面,創建關聯數據這一發布數據方式并不是簡單地為了創建能夠讓人們讀懂的文檔,更重要的是創建計算機能夠理解的一種具備結構化、富有語義的數據組織結構。另一方面,關聯數據注重的是數據之間的關聯性、交互性及共享性,它可以將同一機構下的不同系統無法關聯的數據或者是來自不同機構數據庫的數據進行相互關聯。這樣對于任意數據庫,它既可以被其他數據庫數據鏈接,也可以將自身數據鏈接到其他數據庫數據之中。
2009年,蒂姆·伯納斯·李在 TED(Technology,Entertainment,Design)大會上發表了關聯數據創建時所必須遵守的4條原則:①將任何事物的名稱使用URI進行標識;②確保任何人都可以由HTTP URI訪問這些標識;③在標識被訪問時,提供訪問人有用的信息;④提供給訪問人盡可能多的URI,用來幫助發展更多的信息。
由以上原則可知,用戶可以訪問、關聯并再次利用關聯數據,而且無論是網頁、RDF等傳統文件還是圖片、音像等特殊文件都可以用URI進行標識。與目前的HTML相比,URI除了能夠對數據資源進行標識、定位外,還能夠據此關聯到網絡上的其他數據資源,進而形成新應用(見圖1)。
作為國際互聯網協會所推薦的一種發布、聯接各種數據和信息方式的關聯數據,并不是簡單的全文檢索,而是能夠在互聯網上進行數據層面的檢索,這種檢索所具備的基礎性、徹底性及多功能性正在使萬維網發生著深刻的變革。現在,諸如《紐約時報》、BBC等一些大型企業、媒體及政府部門已經開始著手將他們所擁有的數據轉換為關聯數據。
關聯數據最為典型的應用是2007年啟動的Open Linked Data項目。這一項目的目標是將目前已經公開存在的數據資源進行整合,并遵循關聯數據的原則將其轉化為RDF,在HTTP傳輸方式下改善原有數據的網絡結構。目前,該項目還處在進行之中,并且已經有美國國會圖書館、BBC等組織參與此項目。
圖書館作為整合、搜集、處理信息資源的專業機構,更應該注重關聯數據的應用進展,積極參與到關聯數據的建設之中。2010年,由萬維網聯盟成立的圖書館關聯數據孵化小組(Library Linked Data Incubator Group),能夠將圖書館的主題、編目及MARC等數據轉換為關聯數據。目前,瑞典國家圖書館、美國國會圖書館分別將各自的館級書目、主題標目LCSH轉換為關聯數據;德國國家圖書館關聯了館內的權威資源;OCLC則關聯了虛擬權威檔案信息及杜威分類法。而國內圖書館對于關聯數據的研究還處在初級階段,主要是對國外關聯數據研究的闡述及介紹,因此,我國應加強對于關聯數據的綜合研究,使其更好地應用于我國圖書館及其他領域。

圖1 基于關聯數據的信息聚合
與傳統數據庫相比,關聯數據更具開放性。基于關聯數據的圖書館知識服務,允許讀者通過某一點關聯到更廣泛的信息資源(見圖2)。圖書館作為知識服務的主要機構,要站在讀者的角度為其服務,所提供的知識服務內容,不應僅僅局限于本館館藏已存在的信息數據資源,可將本館館藏數據轉換為關聯數據,在為讀者提供館外數據資源的前提下,爭取將越來越多的讀者吸引到圖書館。

圖2 關聯數據的數據共享
知識發現是一個復雜而系統的過程,在知識發現的過程中,需要對眾多的數據庫資源、數據知識庫進行深層次分析,以探究數據之間所存在的潛在關聯及規則。而關聯數據的出現則對知識發現服務的發展起到了促進作用,在關聯數據的作用下,可以將圖書館內部館藏資源及圖書館外部資源有效關聯,為讀者提供圖書館以外的知識資源,使讀者發現資源越來越便捷,提高圖書館知識發現服務的質量。
一方面,關聯數據可以將不同領域、不同系統、不同數據庫的數據進行相互關聯,使得網絡中的任何數據、信息、資源實現共享成為可能。通過數據、信息、知識的網絡共享關聯,可以讓圖書館知識服務館員及讀者獲得豐富的檢索結果,提高知識服務的質量及效率。另一方面,共享網絡中的關聯數據并不是固定不變的,在關聯數據網絡的發展過程中,必定涉及新的關聯數據的加入及舊數據的淘汰,此外,還會包括數據關系的變化。所以說,關聯數據雖然在一定程度上解決了異構資源的整合問題,但是也使數據資源管理變得日趨復雜。
關聯數據的最大優點是能夠解決異構資源的整合,將來自不同數據庫的全面相關數據信息提供給讀者。這使得讀者面對指數級增長的數據信息時,往往需要的不再是簡單的文獻檢索及傳遞服務,而是需要館員在基于海量的數據信息之上為他們提供更為專業、更為具體、更具指導性的信息服務,這就對圖書館知識服務方式提出了更高的要求。
對于單一圖書館而言,其內部館藏資源是有限的。但是經過對數據資源進行關聯之后,其知識資源體系可以擴展到整個網絡。加強建設以關聯數據為核心的知識服務資源體系,可以保證讀者發現新知識資源的方便、快捷、高效性,也可以滿足讀者對于新興科研主題、時事熱點等問題的咨詢追蹤。
對于關聯數據,雖然其包括了來自不同數據庫的異構數據資源,方便了讀者對于館外資源的使用,但是讀者更希望能夠享受到“一站式”服務,這就要求圖書館在館內數據關聯的基礎上,加強對館外異構關聯數據的組織、整合,使這些數據資源得到形式上的統一。
3.2.1 加強對館內數據的關聯,將圖書館內部數據,包括圖書館檢索系統、管理系統、參考咨詢系統等數據進行關聯整合,方便讀者使用。同時,在這些數據的基礎上,了解讀者需求,把握館藏資源的利用情況。
3.2.2 加強對館內、館外數據的關聯整合,將讀者所需知識資源轉換成為多層語義互聯及單一語義映像的數據資源,將傳統的文獻層次的整合加深到邏輯關系、語義方面的整合。
對基于關聯數據的圖書館知識服務而言,其能夠整合其他數據庫的異構數據資源,對于讀者的檢索結果起到很好的擴充作用。對此,我們要在海量知識數據資源的基礎上,深入理解讀者需求,明確知識服務目標,豐富知識服務方式,提高知識服務質量。為此,我們可以通過團隊合作、服務集成及系統集成等不同方式,根據讀者實際需求的變化靈活選擇知識服務內容,合理組織、安排相關知識服務工作。
在建設以關聯數據為核心的知識資源服務體系過程中,不僅需要對關聯數據進行重組、整合、分析,而且需要圖書館內部的智能檢索服務、推送服務、導航服務等技術的支持,這一切都離不開專業的技術團隊。這一團隊不僅要解決關聯數據的嵌入、一站式服務的開展等問題,還要把握圖書館發展現狀及未來的發展趨勢,創新圖書館的服務方式。
在圖書館知識服務開展過程中要對多種媒體資源進行分析、處理及整合,以尋求讀者真正需求的知識信息;還要將這些信息合理、有序地推送到讀者面前,處理讀者咨詢過程中出現的各種問題,這些過程都需要具備較高的計算機操作能力、良好的溝通能力及圖書情報知識的高素質館員的參與。毋庸置疑,團隊的力量比單人力量更為強大,決策更為明智,高素質的館員團隊是圖書館知識服務的主角。
[1] 陸覺民,馬國棟,鄭宇.基于數據挖掘技術的圖書館流通數據的關聯分析[J].現代情報,2009(9):108-110.
[2] 馬國棟.基于WEKA的高校圖書館流通數據的關聯分析[J].圖書館工作與研究,2010(12):42-45.
[3] 徐華.關聯數據在國外圖書館中的應用及其借鑒意義[J].圖書館學研究,2011(16):87-89.
[4] 孫鴻燕.圖書館關聯數據的綜合管理及其實現[J].圖書館學研究,2011(23):51-54.
[5]劉志勇.關聯規則數據挖掘在圖書館藏書建設中的應用研究[J].電子設計工程,2011(21):62-64.
[6] 朱俊波,等.圖書館元數據拓展和關聯著錄方法研究[J].情報雜志,2011(8):109-112.
[7] 李琳.關聯數據在圖書館界的應用與挑戰[J].圖書與情報,2011(4):58-61.