李師龍 韓翔(徐州工程學院圖書館,江蘇徐州221008)
?
基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館資源整合模式
李師龍韓翔
(徐州工程學院圖書館,江蘇徐州221008)
[摘要]關聯(lián)數(shù)據(jù)符合最少設計的理念,能夠簡化海量信息資源,處理復雜的關系。考慮到數(shù)字圖書館館藏數(shù)據(jù)資源的復雜性,實現(xiàn)基于關聯(lián)數(shù)據(jù)的資源整合就顯得意義重大。闡述了關聯(lián)數(shù)據(jù)的含義及其優(yōu)越性,分析了關聯(lián)數(shù)據(jù)對數(shù)字圖書館資源整合的促進作用,給出了基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館資源整合模式,并探討了其實現(xiàn)途徑。
[關鍵詞]關聯(lián)數(shù)據(jù)數(shù)字圖書館資源整合
[分類號]G253
數(shù)字圖書館擁有的信息資源具有質(zhì)量高、結(jié)構(gòu)化的特點,可以說是關聯(lián)數(shù)據(jù)的重要基地。通過挖掘數(shù)字圖書館海量的信息資源,能夠發(fā)現(xiàn)大量可以重復使用的信息,也可以發(fā)現(xiàn)一些能夠被揭示的內(nèi)容。通過基于關聯(lián)數(shù)據(jù)的資源整合技術(shù),能夠幫助數(shù)字圖書館與全球范圍內(nèi)的數(shù)據(jù)庫建立鏈接,提高與圖書館外部領域的協(xié)同性,以此提升圖書館的服務質(zhì)量。
1.1關聯(lián)數(shù)據(jù)的含義
伯納斯于2006年根據(jù)互聯(lián)網(wǎng)的演變規(guī)律,首次提出了關聯(lián)數(shù)據(jù)的概念,并指出其是數(shù)據(jù)網(wǎng)絡的核心部分。簡單地說,在Web上互聯(lián)以及發(fā)布的結(jié)構(gòu)化的信息數(shù)據(jù),就稱作關聯(lián)數(shù)據(jù)。這些數(shù)據(jù)可以表示任何意義,在描述數(shù)據(jù)集時多使用RDF格式,而在指向數(shù)據(jù)對象時多運用URI來命名,保障數(shù)據(jù)的可關聯(lián)性以及唯一性??梢哉f,這是一種互聯(lián)網(wǎng)推薦的較好實踐,是通過RDF、URI以及本體來發(fā)現(xiàn)、發(fā)布與鏈接信息數(shù)據(jù)與知識的方式,圖1為關聯(lián)數(shù)據(jù)的應用架構(gòu)[1]。

圖1關聯(lián)數(shù)據(jù)的應用架構(gòu)
1.2關聯(lián)數(shù)據(jù)的優(yōu)越性
作為互聯(lián)網(wǎng)數(shù)據(jù)連接的一種較好的實踐方式,關聯(lián)數(shù)據(jù)本身的技術(shù)特點決定了其獨有的優(yōu)越性。首先,充分應用了URI進行數(shù)據(jù)資源標識,可以標識互聯(lián)網(wǎng)中的任何資源,讓這些資源有唯一的標識符。這些信息資源可以是圖片、文檔等,也可以是地名、抽象理論等非信息資源,這些資源的識別運用了重定向技術(shù)。其次,信息資源的存儲應用了http協(xié)議。當前互聯(lián)網(wǎng)應用中最為廣泛的訪問機制就是http協(xié)議,大部分開發(fā)工具以及系統(tǒng)對于該種協(xié)議也給予支持[2]。這種協(xié)議在關聯(lián)數(shù)據(jù)中的應用,可以保障信息資源的適用度,并讓信息資源得到更好的利用。最后,關聯(lián)數(shù)據(jù)在語義網(wǎng)中屬于十分關鍵的實現(xiàn)方式。互聯(lián)網(wǎng)實現(xiàn)數(shù)據(jù)連接的重要方式就是通過關聯(lián)數(shù)據(jù)實現(xiàn)的,而語義網(wǎng)構(gòu)建的關鍵就是數(shù)據(jù)的關聯(lián)。要構(gòu)建語義網(wǎng)這種與數(shù)據(jù)相關的網(wǎng)絡,能夠有關聯(lián)與獲取信息數(shù)據(jù)的語義工具,且其中的海量信息數(shù)據(jù)必須格式規(guī)范,不管是在語義網(wǎng)中融合海量信息數(shù)據(jù)還是進行信息推理等應用,均需要應用關聯(lián)數(shù)據(jù)這種方式[3]。
數(shù)字圖書館中的海量資源一般沒有進行獨立的標識,多需要從書目記錄中查找,同時沒有統(tǒng)一的描述標準,要對這些數(shù)據(jù)之間的關系進行深入挖掘,所需耗費的人力、物力是非常巨大的。若數(shù)字圖書館能夠?qū)π畔?shù)據(jù)進行關聯(lián)并建立鏈接,可以讓數(shù)字圖書館與外部領域連接起來,可以讓用戶更加容易地理解圖書館的信息資源,讓圖書館資源及其服務得以拓展,改善傳統(tǒng)圖書館在資源整合方面的不足,促進其各領域信息服務質(zhì)量的提升,讓數(shù)字圖書館的信息資源發(fā)揮最大價值。由此可見,關聯(lián)數(shù)據(jù)對于數(shù)字圖書館的資源整合具有重要的促進作用。
2.1實現(xiàn)數(shù)字圖書館數(shù)據(jù)資源的語義融合
目前在圖書館資源共享建設方面,很多圖書館做了大量工作,但在圖書館信息資源語義融合方面涉及的并不多。數(shù)字圖書館應用關聯(lián)數(shù)據(jù),可以融合來自多個信息源的數(shù)據(jù)對象,也可以融合與之相關的各種信息,并可以關聯(lián)分布異構(gòu)的多個數(shù)據(jù)源,構(gòu)建出一個統(tǒng)一的數(shù)據(jù)云圖,并讓用戶能夠獲取的信息量快速增長。數(shù)字圖書館引入關聯(lián)數(shù)據(jù)的理念,可以簡化異構(gòu)分布的數(shù)據(jù)在整合過程中的難度[4]。此外,關聯(lián)數(shù)據(jù)的應用不僅可以整合簡單的文獻資源,也可以在不同的知識元之間建立鏈接,讓分散的、獨立的知識元能夠有效聯(lián)系在一起,以此從整體上實現(xiàn)圖書資源的語義融合。
2.2拓展數(shù)字圖書館的館藏信息資源
在信息技術(shù)高速發(fā)展的環(huán)境下,人們獲取信息資源的途徑更為豐富。如果圖書館依然沿用文獻檢索等方式來為用戶推送信息,很難與強大的網(wǎng)絡搜索工具抗衡。圖書館一直以來承擔著存儲與傳播文化知識的使命,在現(xiàn)代信息技術(shù)不斷進步的今天,數(shù)字圖書館應該積極轉(zhuǎn)變自己的服務模式。目前,很多圖書館都構(gòu)建了自己的數(shù)據(jù)庫,也實現(xiàn)了一站式的信息檢索,但用戶能夠獲取的信息資源多來自一個或者幾個數(shù)據(jù)庫。而應用關聯(lián)數(shù)據(jù)可以提供十分開放的環(huán)境,并促進圖書館數(shù)字資源的拓展,提高圖書館知識服務的準確度與效率。
2.3保障數(shù)字圖書館信息資源利用的最大化
數(shù)字圖書館對館藏資源進行合理關聯(lián),不僅可以讓用戶獲取更多圖書館以外的信息資源,也可以保障用戶獲取需求信息的準確度與優(yōu)質(zhì)性。圖書館是信息資源、知識的最大提供方,應該做到從用戶的需求出發(fā),以此更好地開展工作。一般來講,圖書館的文獻資源相對規(guī)范并且穩(wěn)定,并由專業(yè)人員定期進行維護[5]。數(shù)字圖書館若將擁有的數(shù)據(jù)資源進行關聯(lián),不僅可以獲得穩(wěn)定性高的有效數(shù)據(jù)資源,還可以對已有資源進行定期監(jiān)測,這對于數(shù)字圖書館與外界的信息鏈接是有必要的。關聯(lián)數(shù)據(jù)作為語義網(wǎng)中實現(xiàn)資源整合的有效方式,可以從海量信息資源中進行分析,找出其中隱含的內(nèi)容以及相應關系,以此保障各信息資源間的聯(lián)系與整合。
對館藏資源進行整合是數(shù)字圖書館提供信息服務的前提。如今各種信息技術(shù)、智能技術(shù),如語義融合、信息標引等的應用更加廣泛。數(shù)字圖書館應充分應用各種技術(shù)來簡化數(shù)字資源,讓其有一定的規(guī)范性,并形成結(jié)構(gòu)化的數(shù)據(jù)庫,然后向用戶開放這些數(shù)據(jù)庫,讓他們可以獲取優(yōu)質(zhì)而有效的信息資源。圖2所示為基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館進行資源整合的具體模型[6]。從圖中可以看出,在對信息資源進行整合過程中,數(shù)字圖書館應用了URI、RDF等技術(shù)來進行數(shù)據(jù)標識與描述,并通過信息鏈接以及關聯(lián)來發(fā)布、整合數(shù)據(jù)資源,讓抽象概念與實體可以統(tǒng)一起來,形成有序的機制,便于用戶瀏覽與查詢,進而輕松獲取與信息資源相關的動態(tài)鏈接。目前,互聯(lián)網(wǎng)中上傳的關聯(lián)數(shù)據(jù)越來越多,這種方式以知識元為基礎,通過從語義層面來分析各數(shù)據(jù)片段,讓知識元之間建立起一定的關聯(lián),為實現(xiàn)數(shù)字圖書館的資源整合提供了全新的途徑。

圖2基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館資源整合模型
3.1拓寬數(shù)字圖書館資源的關聯(lián)范圍
數(shù)字圖書館在為用戶提供資源、知識服務的過程中,不僅要讓他們從中得到需求的數(shù)據(jù)對象,也要及時發(fā)現(xiàn)、整理和組織知識元。在數(shù)字圖書館資源整合的具體實踐中,其資源標識與語義融合等技術(shù)得到了長足的進步。在對信息資源進行描述時,關聯(lián)數(shù)據(jù)的應用涉及屬性值等概念,并通過標準的連接、訪問方式來關聯(lián)數(shù)據(jù),讓各類數(shù)據(jù)能夠無縫連接在一起,進而構(gòu)成一個范圍廣泛的數(shù)據(jù)庫。應用RDF來描述數(shù)字圖書館中各種類型的館藏資源,并解析出其中每一個相對獨立的知識元,進而讓計算機中有可以讀取的各種元數(shù)據(jù)。在這個過程中不僅有助于發(fā)現(xiàn)知識,也可以促進源數(shù)據(jù)向數(shù)據(jù)結(jié)合方向轉(zhuǎn)化。
結(jié)合在發(fā)布關聯(lián)數(shù)據(jù)時應遵循的準則,數(shù)字圖書館發(fā)布關聯(lián)數(shù)據(jù)的具體過程為:
①通過RDF來描述所需發(fā)布資源的結(jié)構(gòu)關系,并對著者、數(shù)據(jù)元等信息進行語義描述。
②從互聯(lián)網(wǎng)中選擇一些常用的詞匯與數(shù)據(jù)集合,并得到其中通用的詞匯表,以構(gòu)建RDF格式的文件。通過這些文件可以方便其他系統(tǒng)與圖書館資源間的互通,通過這些共用的詞匯集合,用戶可以獲取更多詞匯、數(shù)據(jù)之間無形的鏈接。
③將URI加入應用RDF描述的數(shù)組中,并在互聯(lián)網(wǎng)上進行發(fā)布,用戶可以借助http協(xié)議等來獲取圖書館發(fā)布的這些數(shù)字資源,而與之相關對象的發(fā)現(xiàn)可以通過URI鏈接來得到。
④對訪問接口進行合理配置,不僅可以讓其他API獲得關聯(lián)數(shù)據(jù)相關的服務,對于部分支持RDF格式的標準語言也是適用的,也可以建立其他數(shù)據(jù)結(jié)合之間的鏈接。URI作為唯一可以對關聯(lián)數(shù)據(jù)進行標識的方式,可以通過本體映射等方式來對館藏圖書資源進行語義描述,并借助D2RQ等軟件來規(guī)范元數(shù)據(jù)集,將原有不符合關聯(lián)數(shù)據(jù)發(fā)布準則的資源挑選出來,讓其成為RDF格式的虛擬資源。同時數(shù)字圖書館引入關聯(lián)數(shù)據(jù)進行資源整合,以擴展原有的詞匯和關聯(lián)表,可以促進其創(chuàng)建關聯(lián)數(shù)據(jù)集合速率的提升。
3.2引入關聯(lián)數(shù)據(jù)集擴充知識發(fā)現(xiàn)平臺
在關聯(lián)數(shù)據(jù)不斷發(fā)展的過程中,關聯(lián)數(shù)據(jù)集的應用也更為廣泛。很多圖書發(fā)行、出版者以及開發(fā)人員開始在開放領域應用該技術(shù),讓圖書資源在網(wǎng)絡中的開放存儲以及應用得以實現(xiàn)。這樣可以無縫連接不同類型的數(shù)據(jù)資源,并形成一個有機的數(shù)據(jù)云圖,供用戶進行交互使用。統(tǒng)計表明,關聯(lián)數(shù)據(jù)云圖中的數(shù)據(jù)集在2011年底已經(jīng)超過290個,其中的三元數(shù)組超過300億個,數(shù)據(jù)鏈接達到500億個。除了數(shù)字圖書館之外,與其相關的領域有超過85個數(shù)據(jù)集,在LOD云圖中約占有1/10的比例,并包含有與圖書行業(yè)相關的所有信息。數(shù)字圖書館可以從數(shù)據(jù)云圖中找到大量相關數(shù)據(jù)資源,并填充到知識數(shù)據(jù)庫中,如一些公共的大型數(shù)據(jù)源,可支持用戶通過互聯(lián)網(wǎng)進行查詢。一般來說,關聯(lián)數(shù)據(jù)有相對開放的架構(gòu),其中的基礎數(shù)據(jù)模型為通過URI標識的三元數(shù)組,源于多個不同關聯(lián)數(shù)據(jù)集的主體或者客體均為RDF格式,并由統(tǒng)一的知識組織系統(tǒng)等詞匯集合。圖書館可以從多個角度讓用戶鏈接到圖書館以外的資源,并讓常用的數(shù)據(jù)與地理、書目等聯(lián)接起來,讓互聯(lián)網(wǎng)中開放共用的關聯(lián)數(shù)據(jù)得到充分應用,這樣不僅使系統(tǒng)原有的數(shù)據(jù)信息得到拓展,也讓用戶可以便捷地與所需知識資源建立鏈接,讓他們更為輕松地獲取知識,讓已有的知識元得到拓展,進而鏈接不同知識源中隱藏的信息,真正實現(xiàn)信息服務的增值。
此外,一些形式較為規(guī)范的文檔也是通過關聯(lián)數(shù)據(jù)的形式,并在關聯(lián)數(shù)據(jù)集合中進行發(fā)布的。美國國會圖書館就利用了關聯(lián)數(shù)據(jù)來發(fā)布重要的文檔信息,如圖書分類法、國際分類標準等,用戶可以通過LCSH詞表來下載這些信息。數(shù)字圖書館利用關聯(lián)數(shù)據(jù)對詞表、文檔等進行規(guī)范,不僅可以讓信息檢索得到拓展,也可以支持圖書館對現(xiàn)有資源的拓展與改進。
3.3對數(shù)字圖書資源進行整合并實現(xiàn)語義檢索
圖書館關聯(lián)數(shù)據(jù)的應用可以讓不同的數(shù)據(jù)通過鏈接聯(lián)系在一起,而為用戶提供服務的方式通過鏈接實現(xiàn)。在整合圖書館信息資源時,數(shù)字圖書館不僅要了解各知識元相應的特性,也需要借助語義知識來挖掘不同內(nèi)容之間的關聯(lián)性。根據(jù)關聯(lián)數(shù)據(jù)的相關規(guī)范,用戶可以利用http協(xié)議等來對知識元地址進行定位與查詢,而信息的規(guī)范可以借助端點連接的方式來解析、發(fā)布并構(gòu)建。同時各種類型的數(shù)據(jù)源需要利用本體進行描述,并且他們要有統(tǒng)一的語義描述,要從語義的角度來操作不同類型的數(shù)據(jù)元,就需要調(diào)出各數(shù)據(jù)元的本體集,分析它們在本體中有怎樣的映射關系,這樣數(shù)字圖書館中的文獻等不同類型的知識元,均可以利用這種方式來從語義層進行操作?;ヂ?lián)網(wǎng)中加入語義描述的知識元,它們之間的關聯(lián)性可以是明顯的,也可以是隱蔽的。對于隱性的關聯(lián)信息,需要首先推理不同本體之間的邏輯性,從對知識結(jié)構(gòu)以及組織之間的理解、認識方面,讓系統(tǒng)與用戶之間達成共識,也可以從專業(yè)角度來復用信息資源,以此獲取它們之間的隱性關系,并與外部領域建立起知識服務網(wǎng),讓各領域的資源進行整合關聯(lián),使用戶可以輕松瀏覽和查詢共用的關聯(lián)數(shù)據(jù),或者在語義層面實現(xiàn)交互操作。
關聯(lián)數(shù)據(jù)由于具備可拓展、開放等特性,在很多領域得到了廣泛應用。數(shù)字圖書館應用關聯(lián)數(shù)據(jù)來整合數(shù)據(jù)資源,不僅可以將外部數(shù)據(jù)網(wǎng)絡與圖書資源鏈接在一起,也可以促進知識發(fā)現(xiàn)平臺的拓展與學術(shù)交流,幫助圖書館更好地存儲與利用信息。筆者提出基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館資源整合模型,旨在積累更多的實踐經(jīng)驗,以此促進圖書館在應用關聯(lián)數(shù)據(jù)方面地位的提升。
參考文獻:
[1]任煒.基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館知識整合研究[J].高校圖書館情報論壇,2014(4):33-39.
[2]崔紀鋒,張勇,邢春曉.元數(shù)據(jù)在數(shù)據(jù)庫互操作中的應用[J].計算機科學與探索,2011(4):28-31.
[3]李琳.關聯(lián)數(shù)據(jù)在圖書館界的應用與挑戰(zhàn)[J].圖書與情報,2011(4):69-72.
[4]王薇,歐石燕.關聯(lián)數(shù)據(jù)在圖書館領域的應用研究[J].新世紀圖書館,2012(9):11-13.
[5]孫鴻燕.圖書館關聯(lián)數(shù)據(jù)的綜合管理及其實現(xiàn)[J].圖書館學研究,2011(23):22-25.
[6]史海燕,鍋艷玲.基于關聯(lián)數(shù)據(jù)的分布式信息查詢研究[J].圖書館學研究,2012(5):53-57.
[7]王伯秋,郭彥宏,黃輝.關聯(lián)數(shù)據(jù)在圖書館資源整合中的應用[J].醫(yī)學信息學雜志,2013(10):28-31.
李師龍男,1978年生。本科學歷,館員。研究方向:資源建設。
韓翔男,1970年生。本科學歷,助理館員。研究方向:資源建設。
·服務經(jīng)緯·
收稿日期:(2015-01-31;責編:楊新寬。)