劉雪梅
(蘭州大學圖書館,甘肅 蘭州 730000)
?
基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務模式構(gòu)建與實現(xiàn)?
劉雪梅
(蘭州大學圖書館,甘肅 蘭州 730000)
[摘要]資源建設是機構(gòu)知識庫可持續(xù)發(fā)展的瓶頸,機構(gòu)知識庫價值的實現(xiàn)很大程度上得益于豐富的資源存儲。將關(guān)聯(lián)數(shù)據(jù)技術(shù)應用于機構(gòu)知識庫,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務模式,采用D2R工具并以蘭州大學機構(gòu)知識庫條目數(shù)據(jù)為例對該模式進行了研究。研究表明,利用關(guān)聯(lián)數(shù)據(jù)可以擴展機構(gòu)知識庫的資源發(fā)現(xiàn)途徑,提升其服務能力。
[關(guān)鍵詞]機構(gòu)知識庫關(guān)聯(lián)數(shù)據(jù)資源發(fā)現(xiàn)
機構(gòu)知識庫在開放獲取運動的背景下應運而生,它是大學和科研機構(gòu)收集、保存和傳播數(shù)字知識資產(chǎn)的重要媒介。近幾年來,機構(gòu)知識庫發(fā)展迅速,目前,在OpenDOAR上注冊的機構(gòu)知識庫已達2989個。筆者在“機構(gòu)知識庫質(zhì)量評價研究”[1]中通過調(diào)查訪問及文獻查閱,發(fā)現(xiàn)資源建設是影響國內(nèi)目前機構(gòu)知識庫發(fā)展最為核心的因素,機構(gòu)知識庫內(nèi)容單一、存儲量少的現(xiàn)象已成為機構(gòu)知識庫可持續(xù)發(fā)展的瓶頸。如何豐富機構(gòu)知識庫的內(nèi)容,加強機構(gòu)庫的資源發(fā)現(xiàn)能力,提升用戶對機構(gòu)庫的認知度和滿意度,從而有利于機構(gòu)知識庫的推廣應用成為目前亟待解決的問題。
關(guān)聯(lián)數(shù)據(jù)[2]由“互聯(lián)網(wǎng)之父”TimBerners-Lee于2006年首次提出,它是指在語義網(wǎng)上發(fā)布、共享、鏈接各類數(shù)據(jù)、信息和知識的一種方式。其采用RDF三元組模型存儲數(shù)據(jù),用URI地址鏈接到其他資源實現(xiàn)資源間的語義跳轉(zhuǎn),是未來語義網(wǎng)的關(guān)鍵技術(shù)之一。2007年,W3C發(fā)起了開放關(guān)聯(lián)數(shù)據(jù)運動,網(wǎng)絡上以W3C推薦的關(guān)聯(lián)數(shù)據(jù)集的數(shù)量和數(shù)據(jù)集之間的關(guān)聯(lián)都在快速增加。圖書館在這場運動中扮演了關(guān)聯(lián)數(shù)據(jù)集的提供者和消費者。因此,2008年瑞典國家圖書館首次以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布了LIBRIS國家書目,并與DBPedia進行了關(guān)聯(lián),此后,關(guān)聯(lián)數(shù)據(jù)在圖書館行業(yè)的應用迅速發(fā)展。筆者在上述研究的基礎上,將關(guān)聯(lián)數(shù)據(jù)應用于機構(gòu)知識庫,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務模式,并采用D2R工具和技術(shù)進行實現(xiàn),從而提升機構(gòu)知識庫的資源發(fā)現(xiàn)能力。
關(guān)聯(lián)數(shù)據(jù)采用RDF三元組作為數(shù)據(jù)模型,用URI地址標識數(shù)據(jù),并通過HTTP協(xié)議在互聯(lián)網(wǎng)上進行發(fā)布。將機構(gòu)知識庫的條目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),可以實現(xiàn)“內(nèi)外”兩層的關(guān)聯(lián)。即首先揭示了機構(gòu)知識庫條目數(shù)據(jù)集內(nèi)部之間的語義關(guān)聯(lián)關(guān)系,進而通過與外部關(guān)聯(lián)數(shù)據(jù)集比如Web數(shù)字資源、商業(yè)數(shù)據(jù)庫資源等其他數(shù)據(jù)資源進行關(guān)聯(lián),拓展了機構(gòu)庫的資源發(fā)現(xiàn)途徑,豐富了機構(gòu)庫的存儲內(nèi)容。筆者構(gòu)建的基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務模式如圖1所示。

圖1 基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務模式
本模式的優(yōu)越性在于利用URI標識元數(shù)據(jù)的實體對象,引入了一個機器可以理解和處理的技術(shù)框架。本模式以機構(gòu)知識庫為主體對象,通過實現(xiàn)“內(nèi)外”兩層數(shù)據(jù)集的關(guān)聯(lián),從而提供基礎服務。例如通過Web瀏覽器實現(xiàn)HTML網(wǎng)頁瀏覽與導航,也可以利用關(guān)聯(lián)數(shù)據(jù)瀏覽器,如Tabulator、Marble等,通過RDF鏈接在數(shù)據(jù)源之間進行瀏覽;除此之外,還可以通過SPARQL查詢實現(xiàn)語義檢索等?;谠撃J剑P者將機構(gòu)知識庫條目數(shù)據(jù)的描述、組織、發(fā)布劃分為數(shù)據(jù)層、關(guān)聯(lián)層兩個層次。
2.1數(shù)據(jù)層
數(shù)據(jù)層是指機構(gòu)知識庫中存儲的條目數(shù)據(jù),每個條目數(shù)據(jù)都用DC元數(shù)據(jù)規(guī)范進行描述,其中包括題名、作者、期刊、基金等。元數(shù)據(jù)主要是為人而設計的,缺乏明確的語義化定義,機器無法直接理解。
2.2關(guān)聯(lián)層
鑒于機構(gòu)庫元數(shù)據(jù)的局限性,筆者構(gòu)建了數(shù)據(jù)關(guān)聯(lián)層,將機構(gòu)庫中的條目數(shù)據(jù)關(guān)聯(lián)化,實現(xiàn)數(shù)據(jù)之間的語義化跳轉(zhuǎn),以便計算機進行理解和處理。筆者抽取出元數(shù)據(jù)中的概念和屬性,采用本體描述語言,構(gòu)建元數(shù)據(jù)本體[4],基于該本體,將機構(gòu)知識庫中的元數(shù)據(jù)轉(zhuǎn)換為RDF三元組格式的語義元數(shù)據(jù),并采用D2R工具根據(jù)關(guān)聯(lián)數(shù)據(jù)原則[5]進行發(fā)布,如圖2所示。機構(gòu)知識庫條目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化后,不僅可以實現(xiàn)機構(gòu)知識庫內(nèi)部條目數(shù)據(jù)之間的關(guān)聯(lián),而且可以實現(xiàn)與外部關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),為用戶提供更豐富的檢索結(jié)果。
3.1抽取實體關(guān)系與關(guān)系數(shù)據(jù)庫的建立
本實驗以蘭州大學機構(gòu)知識庫管理學院的期刊論文為例,主要抽取了科研人員(Person)、基金項目(foundation)、研究部門(organization)、期刊論文(Paper)、期刊(Journal)這5種核心實體類,實體關(guān)系如圖3所示。

圖3 IR中的實體類及關(guān)系
啟動postgresql,建立lzuir數(shù)據(jù)庫。在lzuir數(shù)據(jù)庫中分別建立這5個實體類對應的數(shù)據(jù)表,實體的屬性對應為數(shù)據(jù)表中的各列,實體間的關(guān)系對應于表間的關(guān)系,并為各個表設置相應的主鍵和外鍵。不同表之間的關(guān)系對應如下:
①科研人員和研究機構(gòu)的關(guān)系。一個科研人員必定屬于某個機構(gòu),相應地,某個機構(gòu)下面包括N個科研人員。
②科研人員和基金項目的關(guān)系。一個科研人員可以主持多個基金項目,而一個基金項目必定由一個科研人員主持。
③期刊論文和科研人員的關(guān)系。一篇期刊論文可以由多個作者合作完成,相應地,一個科研人員可以是多篇期刊論文的作者。
④期刊論文和研究機構(gòu)的關(guān)系。一篇期刊論文屬于某個研究機構(gòu),而一個研究機構(gòu)下面有多篇期刊論文。
⑤期刊論文和期刊的關(guān)系。一篇期刊論文必定對應一個期刊,相應地,某個期刊下面必定包括多篇期刊論文。
⑥期刊論文和基金項目的關(guān)系。一篇期刊論文屬于某個基金項目的科研成果,相應地,一個基金項目可以產(chǎn)出多篇期刊論文作為科研成果。
3.2利用RDF進行語義標注和關(guān)聯(lián)
語義標注[6]是使用計算機可理解的屬性來描述資源的相關(guān)陳述。類、屬性和實體標注都是通過創(chuàng)建一些陳述來實現(xiàn)的。在OWL本體標注語言中,已經(jīng)預定義了很多基本屬性,筆者使用RDF+OWL語言進行標注。筆者定義的實體關(guān)系中會復用到一些關(guān)聯(lián)詞表,分別是FOAF,DC,VCARD等,而外部數(shù)據(jù)源是DBpedia。
3.3基于D2R的數(shù)據(jù)語義映射和轉(zhuǎn)換
關(guān)聯(lián)數(shù)據(jù)的發(fā)布方式主要有3種,根據(jù)數(shù)據(jù)量的規(guī)模和更新頻率對應不同的發(fā)布方式。第一種方式針對數(shù)據(jù)量較小的情況,將其生成靜態(tài)的RDF文件進行發(fā)布;第二種方式針對數(shù)據(jù)量較大的情況,將其存儲到RDF存儲器中,并采用Pubby[8]服務器前端進行操作;第三種方式針對數(shù)據(jù)的更新頻率比較大的情況,在請求數(shù)據(jù)的過程中,將其映射為虛擬的RDF格式,這種方式用到的工具主要有D2R、Triplify[9]等。本文的機構(gòu)知識庫因為數(shù)據(jù)請求操作比較頻繁,因此采用第三種方式進行發(fā)布,使用的工具是D2R。D2R的核心是D2RQ Engine,它的功能是實現(xiàn)RDB2RDF,主要采用D2RQMapping文件將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)映射為虛擬的RDF格式進行發(fā)布。筆者在java開發(fā)環(huán)境中,對D2RQMapping進行編程,主要步驟如下:
(1)使用D2RQ工具生成映射文件,D2R的映射語言D2RQMapping是基于RDF和OWL進行描述的,自身生成的映射無法滿足需求,因此筆者根據(jù)實際需要對蘭州大學機構(gòu)知識庫抽取的核心實體類進行RDF語義標注,以期刊論文為例,將實體關(guān)系進行RDF關(guān)聯(lián)轉(zhuǎn)換,部分代表性的代碼如下:

(2)將蘭州大學機構(gòu)知識庫關(guān)聯(lián)到外部數(shù)據(jù)源,仍以期刊論文為例,部分代表性的代碼如下:


3.4關(guān)聯(lián)數(shù)據(jù)的發(fā)布與訪問
在D2R的DOS路徑下,執(zhí)行D2R-Server.bat腳本,運行生成映射文件lzuir.n3,啟動關(guān)聯(lián)數(shù)據(jù)發(fā)布服務。在瀏覽器中輸入訪問地址http://localhost:2020,顯示出D2R的運行入口界面(如圖4),圖中可看到已將機構(gòu)知識庫條目數(shù)據(jù)發(fā)布為含有語義的關(guān)聯(lián)數(shù)據(jù)源,提供了HTML瀏覽、RDF瀏覽和SPARQL端點查詢3類服務入口。

圖4 D2R的服務首頁
從圖中可以看到,5個數(shù)據(jù)表分別映射為不同的實體類。以蘭州大學機構(gòu)知識庫中的一篇期刊論文為例(如圖5所示),可以看到paper數(shù)據(jù)表中的各個列被映射為資源的屬性特征,點擊圖中的相關(guān)鏈接都可以得到對應元數(shù)據(jù)的詳細信息。例如點擊圖5的鏈接http://localhost:2020/resource/person/1,就可以得到該論文的作者信息,如圖6所示。從圖中也可以看出,這些元數(shù)據(jù)信息,有的來自于機構(gòu)知識庫本身,有的來自外部數(shù)據(jù)源,卻相互關(guān)聯(lián)在一起,構(gòu)成了一個輕量的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡。

圖5 語義化的論文元數(shù)據(jù)

圖6 語義化的作者元數(shù)據(jù)
筆者將關(guān)聯(lián)數(shù)據(jù)技術(shù)應用于機構(gòu)知識庫,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務模式,并以蘭州大學機構(gòu)知識庫的條目數(shù)據(jù)為例,使用D2R工具將條目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),對該模式進行了實現(xiàn)。通過實證研究表明,該模式的實現(xiàn)有助于從根本上擴展機構(gòu)知識庫的資源發(fā)現(xiàn)途徑,提升機構(gòu)知識庫的服務能力。
參考文獻:
[1]劉雪梅,刀克群.基于模糊綜合評價法的機構(gòu)知識庫評價模型[J].情報探索,2015(5):22-24.
[2]歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字圖書館資源描述與組織框架設計與實現(xiàn)[J].中國圖書館學報,2012(2):58-71.
[3]賀文君.SPARQL聯(lián)合查詢及其應用[D].大連:大連海事大學,2014(6).
[4]劉煒,李大玲,夏翠娟.元數(shù)據(jù)與知識本體[J].圖書館雜志,2004(6):50-54.
[5]金燕,江閃閃.基于四原則的關(guān)聯(lián)數(shù)據(jù)發(fā)布方法研究[J].圖書館理論與實踐,2013(5):77-80.
[6] HebelerJ,etal.SemanticWebProgramming[M].Wiley,2009.
[7]沈志宏,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布流程與關(guān)鍵問題研究——以科技文獻、科學數(shù)據(jù)發(fā)布為例[J].中國圖書館學報,2013 (2):53-62.
[8] CyganiakR,BizerC.Pubby:Alinkeddatafrontendfor SPARQLendpoints[EB/OL].[2012-05-10].http://wifo5-03. informatik.uni-mannheim.de/pubby/.
[9]AuerS,DietzoldS,LehmannJ.Triplify-light-weightlinked datapublicationfromrelationaldatabases[C].Proceedingsof the18thInternationalConferenceonWorldWideWeb.New York:ACM,2009:621-630.
[10]張靜,馬春娥.如何利用D2R發(fā)布LinkedData[EB/OL]. [2011-04-20].http://www.ibm.com/developerworks/cn/web/ 1003_zhangjing_d2r/.
劉雪梅女,1987年生。碩士,館員。研究方向:數(shù)字圖書館。
[分類號]G250.7
*本文系蘭州大學圖書館2015年科研項目(編號:LZUL[201502])研究成果之一。
收稿日期:(2016-01-19;責編:楊新寬。)