楊敏
(重慶工程職業技術學院圖書館 重慶 402260)
關聯數據在圖書館中的應用研究
楊敏
(重慶工程職業技術學院圖書館 重慶 402260)
關聯數據在圖書館領域具有廣泛的應用前景,是圖書館語義網建設中的關鍵性技術。文章介紹了目前關聯數據在圖書館中4個方面的應用:書目記錄關聯數據化、實現語義檢索服務、擴展知識發現服務、跨機構的數據的開放與復用以及其在用戶接口、法律許可、質量評價方面面臨的挑戰。
關聯數據;圖書館;語義網
2006年Tim Berners-Lee在《關聯數據筆記》中提出了Linked Data這一概念,他提出關聯數據就是將一箱箱數據通過開放標準關聯在一起,從而萌發出很多新事物和新應用。作為語義網構建的關鍵性技術之一,關聯數據通過可鏈接的URI來實現數據的語義標注,并將實際語義相關的數據連接起來,以此來構建一個可供計算機理解的結構化和語義化的數據網絡。
關聯數據自提出以來,得到諸多學科領域的廣泛關注,目前已成為計算機科學、信息管理、圖書情報等領域的研究熱點。圖書館是數據的發布者,同時也是數據的消費者。關聯數據一方面可以作為跨網域數據整合的通用API(Application Programming Interface,應用程序編程接口),重用或整合其他來源的數據;另一方面可提供“可信網絡”的語義要素,保障整合數據網絡的可信度。國外圖書館界已對關聯數據的應用作了諸多有益探索。如2008年美國國會圖書館和瑞典國家圖書館分別將LCSH(Library of Congress Subject Headings,美國國會圖書館標題表)和瑞典全國聯合目錄LIBRIS以關聯數據框架的形式在網上發布,并通過URI(Uniform Resource Identifier,統一資源標識符)實現了LIBRIS的瑞典語主題詞與LCSH之間的關聯。
圖書館的數據成千上萬,并且有不同的類型,基本可分為基本數據與服務數據兩大類。基本數據包括[1]:①受控詞匯,如標題表、敘詞表等;②規范文檔,如人名、地名規范數據記錄等;③書目數據,如瑞典聯合目錄等;④館藏單位,如瑞典各圖書館等。服務數據包括:①不同項目和活動建立的網頁;②整合數據;③跨行業、機構、數據源的數字資源等。
如此多的數據究竟哪種數據適合用來發布為關聯數據呢?Corey Harper 2008年給出了以下建議:圖書館數據工作中的任何“資源”都應該在整個流程中盡早得到URI,這些URI都能提供有用的RDF(Resource Description Framework,資源描述框架)信息,并且這種URI都是能使用HTTP來訪問的。
W3C圖書館關聯數據(Library Linked Data)孵化小組收集了圖書館關聯數據的用例并探索關鍵問題,于2011年10月發布系列報告[2]。在報告中將收集到的58個用例分為書目數據、規范控制、詞匯匹配、檔案數據、參考引文、數字對象、文獻集、社會性應用8個類別。從用例數量上看,書目數據是最多的一類,這也是最容易實現的一部分。因此在構建關聯數據之初,書目數據成為大多數圖書館的首要選擇。書目數據的主要應用目標包括:建立數據描述元素的語義標準;通過關聯數據,實現數據記錄的去重與統一化;使用標準化書目術語來標注網絡資源;多個數據提供商提供集成化元數據搜索界面;不同形式的信息集和服務(查詢限定與擴展、提醒服務等);書目記錄的標注,等等。
關聯數據在圖書館的應用極大挖掘了原有信息資源的價值,進一步深化了知識發現服務,同時提供了圖書館資源與外部機構資源互聯互通的可能。目前,圖書館領域展開的關聯數據應用主要體現在以下4個方面:
(1)書目記錄關聯數據化
關聯數據這一概念提出不久,一些歐美國家的圖書館就開始嘗試采用RDF和關聯數據來對本館的數據資源進行改造,并取得了顯著成效。其中書目數據的關聯數據化即以關聯數據形式來發布書目數據。技術上來講是指使用URI命名書目數據,通過HTTP、URI定位鏈接書目數據,即通過賦予主題詞、出版社、個人名稱等各書目數據唯一的名稱標識URI,將有語義關聯的URI鏈接起來,并建立其與主題規范、出版項、個人名稱規范等的關聯鏈接,形成書目數據語義網,從而便于用戶從一條書目記錄能擴展檢索到更多的相關信息[3]。
2008年瑞典國家圖書館將LIBRIS中的書目數據、人名、地名等規范文檔記錄以關聯數據的形式發布,并將其與DBPedia①相關聯。LIBRIS的關聯數據化為圖書館界開展關聯數據應用提供了寶貴的經驗和思路。
美國國會圖書館將LCSH以關聯數據形式在網上發布,并與瑞典國家圖書館合作實現了LIBRIS的瑞典語主題詞與LCSH之間的關聯。
2010年德國國家圖書館建立和完善了PND(個人名稱規范)和SWD(主題詞規范),并建立其與Wikipedia、DBPedia和VIAF[4]的鏈接,通過OAI-PMH(Open Archive Initiative for Protocol Meta-data Harvesting,開放文檔先導—元數據收割協議)和SRU(Search and Retrieve via URL)訪問數據的方法,完善了URI/URL模式,從而實現了將這些數據發布為關聯數據。
2012年西班牙圖書館將館內書目記錄、個人、題名及主題等規范記錄轉化為RDF三元組,并將其與DBPedia、德國、瑞典的國家圖書館目錄相關聯。
國內圖書館目前尚未開展真正意義上的將書目數據關聯數據化的實踐。作為國內研究關聯數據的先驅,2008年,劉煒題為“語義操作與關聯數據”的報告引起了國內圖書館界對關聯數據在圖書館實際工作中應用的關注。隨后,2010年,“圖書館前沿技術論壇”將主題定為“關聯數據與書目數據的未來”[5],專門探討了相關方面的問題。國內一些館藏書目記錄雖然能提供責任者、主題詞、出版社等鏈接,但相較而言較為簡單,并不能算真正意義上的關聯數據化。
將圖書館的書目數據發布為關聯數據還僅僅只是圖書館數據資源關聯數據化的初始階段,圖書館也不應僅僅只滿足于實現書目數據的關聯數據化。圖書館的數據資源類型多種多樣,一些服務類型的數據同樣具有很高的價值,并且往往實現這些服務數據的關聯化將更有助于提升用戶的體驗。
(2)實現語義檢索服務
關聯數據的發展為語義網的構建提供了新的方向和技術手段。通過關聯數據技術可建立實體之間的語義鏈接來支持用戶的語義檢索。從發展現狀和趨勢來看,關聯數據技術作為語義網實現的一種技術手段已經得到眾多社區、機構和政府部門的廣泛支持。
作為歐洲國家圖書館的數字資源門戶的Europeana采用 SKOS(Simple Knowledge OrganizationSystem,簡單知識組織系統)等元數據模式聚合了圖書、視頻等圖書館對象的元數據,數據間互操作性極強。目前,Europeana正在開發語義檢索服務,通過在Europeana之上引入語義層,以實現在對象之間建立語義鏈接[6]。
(3)擴展知識發現服務
知識發現是人類知識活動的最終目標。進入網絡時代,人類知識工作的基礎是網絡環境;知識發現的工具是相應的網絡技術與工具;知識發現的對象是網絡中的數據;知識發現的結果是找到有用的數據組織為有效的信息,繼而將有效的信息,組織為人們感興趣的、新穎的、有效的知識。關聯數據是語義網的最佳實踐,促進了語義網的發展和演進。隨著關聯數據的理論、原則、方法和技術的發展,消費和使用關聯數據的各類工具也不斷研發和完善起來。在此基礎上,關聯數據得以迅速發展和廣泛應用,語義網得以進一步實現,資源極大豐富起來。李楠在博士論文中構建了關聯數據的知識發現模型[7]。
圖書館利用關聯數據方法和技術可將本館資源和外部資源組織成為一個有效的網絡,有利于挖掘資源之間原先不那么明顯但實際密切相關的聯系,從而促進用戶的知識發現。圖書館可利用現有的一些關聯數據倉儲庫和搜索引擎來擴展和深化自身的知識發現服務。
(4)跨機構的數據的開放與復用
關聯數據是結構化和語義化的,可以實現不同機構間數據的開放與復用。如圖書館可利用出版社的一些圖書數據,減輕自身的工作量,并可將自身數據與檔案館、博物館、互聯網上的數據關聯起來,從而擴展自身資源的范圍,同時也可將其與其他圖書館進行互聯,共享數據。
英國哈德斯菲爾德大學圖書館在開放數據共享許可協議下向其他圖書館共享了本館的流通數據和薦購數據,為他館了解讀者借閱傾向、館藏資源建設等提供有益借鑒。
盡管已經取得了不小的進展,但是圖書館界在應用關聯數據時仍面臨著諸多考驗,表現在以下幾個方面:
(1)用戶接口問題
關聯數據可以使圖書館為用戶提供訪問廣泛的、分散的、異質的數據資源的統一接口。圖書館采用現有的關聯數據搜索引擎雖然可以使用戶在不同數據對象間跳轉瀏覽,但在導航和結果顯示上還存在著諸多不足,可能會造成數據迷航,增加用戶負擔。特別是面對海量的網頁數據,如何使關聯數據的應用接口更加人性化是一個極具挑戰的問題。
因此,圖書館在構建關聯數據之初就應充分了解本館用戶的信息需求,從以文件為中心的瀏覽的服務模式轉變為以實體為中心的瀏覽,完善關聯數據搜索引擎的導航和頁面布局,向用戶提供最精準、最全面的數據資源。
(2)法律許可問題
關聯數據實現了不同數據源之間的互聯互通,極大地提升了數據的利用率,但也面臨著一些風險,如侵犯他人的隱私、違反知識產權等。在關聯數據的構建過程中需要技術手段和法律方面的綜合考量。
目前,國際上制定了一些與關聯數據開放有關的協議,代表性的有3種:開放數據公用、關聯協議及創作公用。這些協議明確了數據生產者和消費者在獲取、傳播、利用、再生產數據時的權利和義務,目的是在法律許可的范圍內實現數據的再利用。圖書館在整合關聯館外數據時,需根據這些協議深入研究,規避法律風險。
(3)質量評價問題
圖書館采用關聯數據等新技術的根本目的是向用戶提供最需要或最合適的數據。因此圖書館需要對關聯數據網中的數據質量進行評價,確保將完整、可靠、有效的信息呈現給用戶。但是目前的關聯數據技術提供數據構建和檢索方法,并不提供數據評價方法。傳統的信息檢索評價方法如PageRank算法、HITS、VSM 等,不宜于直接應用于語義網的質量評價。圖書館在進行關聯數據構建時,要適當對數據對象進行評價,確保數據質量。
注釋:
①DBpedia是一個很特殊的語義網應用范例,它從維基百科(Wikipedia)的詞條里擷取出結構化的資料,以強化維基百科的搜尋功能,并將其他資料集連結至維基百科。
[1]曾蕾.關聯的圖書館數據[EB/OL].[2016-02-20].http://wenku.baidu.com/link?url=lMmotBMbRlaSFcH_ndX-rSmbMBl18Fd WzGnzgfs6JFTVCIk81oDJkKtB3cLFs0cTSewDWRlSIHhrKdbXagP6vHUN1wQ5kIWbU-DI-zB-aei.
[2]Daniel Vila Suero, Universidad Politécnica de Madrid,ES. Use-CaseReport[EB/OL].[2016-03-15].http://www.w3.org/ 2005/Incubator/lld /wiki /UseCaseReport.
[3]張海玲.圖書館書目數據的關聯數據化研究:以德國國家圖書館為例[J].圖書館論壇,2013(1):120-125.
[4]VIAF[EB/OL].[2016-09-01].http://www.viaf.it.
[5]劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011(2):5-12.
[6]黃永文.關聯數據在圖書館中的應用研究綜述[J].現代圖書情報技術,2010(5):1-7.
[7]李楠.基于關聯數據的知識發現研究[D].北京:中國農業科學院,2012.
Research on the Application of Linked Data in Libraries
Linked data have broad application prospects in the library field.It's the key technology of semantic web construction in libraries.This paper introduces four aspects of application of linked data in the libraries at present:bibliographical record linked datamation,realization of semantic retrieval,expansion of knowledge discovery,openness of inter-agency data and the reuse as well as challenges in the user interface,legal permission and quality evaluation.
linked data;library;semantic web
G250.7
A
楊敏(1989—),女,助教,重慶工程職業技術學院圖書館。
2016-09-06