李師龍 韓翔(徐州工程學院圖書館,江蘇徐州221008)
?
基于關聯數據的數字圖書館資源整合模式
李師龍韓翔
(徐州工程學院圖書館,江蘇徐州221008)
[摘要]關聯數據符合最少設計的理念,能夠簡化海量信息資源,處理復雜的關系。考慮到數字圖書館館藏數據資源的復雜性,實現基于關聯數據的資源整合就顯得意義重大。闡述了關聯數據的含義及其優越性,分析了關聯數據對數字圖書館資源整合的促進作用,給出了基于關聯數據的數字圖書館資源整合模式,并探討了其實現途徑。
[關鍵詞]關聯數據數字圖書館資源整合
[分類號]G253
數字圖書館擁有的信息資源具有質量高、結構化的特點,可以說是關聯數據的重要基地。通過挖掘數字圖書館海量的信息資源,能夠發現大量可以重復使用的信息,也可以發現一些能夠被揭示的內容。通過基于關聯數據的資源整合技術,能夠幫助數字圖書館與全球范圍內的數據庫建立鏈接,提高與圖書館外部領域的協同性,以此提升圖書館的服務質量。
1.1關聯數據的含義
伯納斯于2006年根據互聯網的演變規律,首次提出了關聯數據的概念,并指出其是數據網絡的核心部分。簡單地說,在Web上互聯以及發布的結構化的信息數據,就稱作關聯數據。這些數據可以表示任何意義,在描述數據集時多使用RDF格式,而在指向數據對象時多運用URI來命名,保障數據的可關聯性以及唯一性。可以說,這是一種互聯網推薦的較好實踐,是通過RDF、URI以及本體來發現、發布與鏈接信息數據與知識的方式,圖1為關聯數據的應用架構[1]。

圖1關聯數據的應用架構
1.2關聯數據的優越性
作為互聯網數據連接的一種較好的實踐方式,關聯數據本身的技術特點決定了其獨有的優越性。首先,充分應用了URI進行數據資源標識,可以標識互聯網中的任何資源,讓這些資源有唯一的標識符。這些信息資源可以是圖片、文檔等,也可以是地名、抽象理論等非信息資源,這些資源的識別運用了重定向技術。其次,信息資源的存儲應用了http協議。當前互聯網應用中最為廣泛的訪問機制就是http協議,大部分開發工具以及系統對于該種協議也給予支持[2]。這種協議在關聯數據中的應用,可以保障信息資源的適用度,并讓信息資源得到更好的利用。最后,關聯數據在語義網中屬于十分關鍵的實現方式。互聯網實現數據連接的重要方式就是通過關聯數據實現的,而語義網構建的關鍵就是數據的關聯。要構建語義網這種與數據相關的網絡,能夠有關聯與獲取信息數據的語義工具,且其中的海量信息數據必須格式規范,不管是在語義網中融合海量信息數據還是進行信息推理等應用,均需要應用關聯數據這種方式[3]。
數字圖書館中的海量資源一般沒有進行獨立的標識,多需要從書目記錄中查找,同時沒有統一的描述標準,要對這些數據之間的關系進行深入挖掘,所需耗費的人力、物力是非常巨大的。若數字圖書館能夠對信息數據進行關聯并建立鏈接,可以讓數字圖書館與外部領域連接起來,可以讓用戶更加容易地理解圖書館的信息資源,讓圖書館資源及其服務得以拓展,改善傳統圖書館在資源整合方面的不足,促進其各領域信息服務質量的提升,讓數字圖書館的信息資源發揮最大價值。由此可見,關聯數據對于數字圖書館的資源整合具有重要的促進作用。
2.1實現數字圖書館數據資源的語義融合
目前在圖書館資源共享建設方面,很多圖書館做了大量工作,但在圖書館信息資源語義融合方面涉及的并不多。數字圖書館應用關聯數據,可以融合來自多個信息源的數據對象,也可以融合與之相關的各種信息,并可以關聯分布異構的多個數據源,構建出一個統一的數據云圖,并讓用戶能夠獲取的信息量快速增長。數字圖書館引入關聯數據的理念,可以簡化異構分布的數據在整合過程中的難度[4]。此外,關聯數據的應用不僅可以整合簡單的文獻資源,也可以在不同的知識元之間建立鏈接,讓分散的、獨立的知識元能夠有效聯系在一起,以此從整體上實現圖書資源的語義融合。
2.2拓展數字圖書館的館藏信息資源
在信息技術高速發展的環境下,人們獲取信息資源的途徑更為豐富。如果圖書館依然沿用文獻檢索等方式來為用戶推送信息,很難與強大的網絡搜索工具抗衡。圖書館一直以來承擔著存儲與傳播文化知識的使命,在現代信息技術不斷進步的今天,數字圖書館應該積極轉變自己的服務模式。目前,很多圖書館都構建了自己的數據庫,也實現了一站式的信息檢索,但用戶能夠獲取的信息資源多來自一個或者幾個數據庫。而應用關聯數據可以提供十分開放的環境,并促進圖書館數字資源的拓展,提高圖書館知識服務的準確度與效率。
2.3保障數字圖書館信息資源利用的最大化
數字圖書館對館藏資源進行合理關聯,不僅可以讓用戶獲取更多圖書館以外的信息資源,也可以保障用戶獲取需求信息的準確度與優質性。圖書館是信息資源、知識的最大提供方,應該做到從用戶的需求出發,以此更好地開展工作。一般來講,圖書館的文獻資源相對規范并且穩定,并由專業人員定期進行維護[5]。數字圖書館若將擁有的數據資源進行關聯,不僅可以獲得穩定性高的有效數據資源,還可以對已有資源進行定期監測,這對于數字圖書館與外界的信息鏈接是有必要的。關聯數據作為語義網中實現資源整合的有效方式,可以從海量信息資源中進行分析,找出其中隱含的內容以及相應關系,以此保障各信息資源間的聯系與整合。
對館藏資源進行整合是數字圖書館提供信息服務的前提。如今各種信息技術、智能技術,如語義融合、信息標引等的應用更加廣泛。數字圖書館應充分應用各種技術來簡化數字資源,讓其有一定的規范性,并形成結構化的數據庫,然后向用戶開放這些數據庫,讓他們可以獲取優質而有效的信息資源。圖2所示為基于關聯數據的數字圖書館進行資源整合的具體模型[6]。從圖中可以看出,在對信息資源進行整合過程中,數字圖書館應用了URI、RDF等技術來進行數據標識與描述,并通過信息鏈接以及關聯來發布、整合數據資源,讓抽象概念與實體可以統一起來,形成有序的機制,便于用戶瀏覽與查詢,進而輕松獲取與信息資源相關的動態鏈接。目前,互聯網中上傳的關聯數據越來越多,這種方式以知識元為基礎,通過從語義層面來分析各數據片段,讓知識元之間建立起一定的關聯,為實現數字圖書館的資源整合提供了全新的途徑。

圖2基于關聯數據的數字圖書館資源整合模型
3.1拓寬數字圖書館資源的關聯范圍
數字圖書館在為用戶提供資源、知識服務的過程中,不僅要讓他們從中得到需求的數據對象,也要及時發現、整理和組織知識元。在數字圖書館資源整合的具體實踐中,其資源標識與語義融合等技術得到了長足的進步。在對信息資源進行描述時,關聯數據的應用涉及屬性值等概念,并通過標準的連接、訪問方式來關聯數據,讓各類數據能夠無縫連接在一起,進而構成一個范圍廣泛的數據庫。應用RDF來描述數字圖書館中各種類型的館藏資源,并解析出其中每一個相對獨立的知識元,進而讓計算機中有可以讀取的各種元數據。在這個過程中不僅有助于發現知識,也可以促進源數據向數據結合方向轉化。
結合在發布關聯數據時應遵循的準則,數字圖書館發布關聯數據的具體過程為:
①通過RDF來描述所需發布資源的結構關系,并對著者、數據元等信息進行語義描述。
②從互聯網中選擇一些常用的詞匯與數據集合,并得到其中通用的詞匯表,以構建RDF格式的文件。通過這些文件可以方便其他系統與圖書館資源間的互通,通過這些共用的詞匯集合,用戶可以獲取更多詞匯、數據之間無形的鏈接。
③將URI加入應用RDF描述的數組中,并在互聯網上進行發布,用戶可以借助http協議等來獲取圖書館發布的這些數字資源,而與之相關對象的發現可以通過URI鏈接來得到。
④對訪問接口進行合理配置,不僅可以讓其他API獲得關聯數據相關的服務,對于部分支持RDF格式的標準語言也是適用的,也可以建立其他數據結合之間的鏈接。URI作為唯一可以對關聯數據進行標識的方式,可以通過本體映射等方式來對館藏圖書資源進行語義描述,并借助D2RQ等軟件來規范元數據集,將原有不符合關聯數據發布準則的資源挑選出來,讓其成為RDF格式的虛擬資源。同時數字圖書館引入關聯數據進行資源整合,以擴展原有的詞匯和關聯表,可以促進其創建關聯數據集合速率的提升。
3.2引入關聯數據集擴充知識發現平臺
在關聯數據不斷發展的過程中,關聯數據集的應用也更為廣泛。很多圖書發行、出版者以及開發人員開始在開放領域應用該技術,讓圖書資源在網絡中的開放存儲以及應用得以實現。這樣可以無縫連接不同類型的數據資源,并形成一個有機的數據云圖,供用戶進行交互使用。統計表明,關聯數據云圖中的數據集在2011年底已經超過290個,其中的三元數組超過300億個,數據鏈接達到500億個。除了數字圖書館之外,與其相關的領域有超過85個數據集,在LOD云圖中約占有1/10的比例,并包含有與圖書行業相關的所有信息。數字圖書館可以從數據云圖中找到大量相關數據資源,并填充到知識數據庫中,如一些公共的大型數據源,可支持用戶通過互聯網進行查詢。一般來說,關聯數據有相對開放的架構,其中的基礎數據模型為通過URI標識的三元數組,源于多個不同關聯數據集的主體或者客體均為RDF格式,并由統一的知識組織系統等詞匯集合。圖書館可以從多個角度讓用戶鏈接到圖書館以外的資源,并讓常用的數據與地理、書目等聯接起來,讓互聯網中開放共用的關聯數據得到充分應用,這樣不僅使系統原有的數據信息得到拓展,也讓用戶可以便捷地與所需知識資源建立鏈接,讓他們更為輕松地獲取知識,讓已有的知識元得到拓展,進而鏈接不同知識源中隱藏的信息,真正實現信息服務的增值。
此外,一些形式較為規范的文檔也是通過關聯數據的形式,并在關聯數據集合中進行發布的。美國國會圖書館就利用了關聯數據來發布重要的文檔信息,如圖書分類法、國際分類標準等,用戶可以通過LCSH詞表來下載這些信息。數字圖書館利用關聯數據對詞表、文檔等進行規范,不僅可以讓信息檢索得到拓展,也可以支持圖書館對現有資源的拓展與改進。
3.3對數字圖書資源進行整合并實現語義檢索
圖書館關聯數據的應用可以讓不同的數據通過鏈接聯系在一起,而為用戶提供服務的方式通過鏈接實現。在整合圖書館信息資源時,數字圖書館不僅要了解各知識元相應的特性,也需要借助語義知識來挖掘不同內容之間的關聯性。根據關聯數據的相關規范,用戶可以利用http協議等來對知識元地址進行定位與查詢,而信息的規范可以借助端點連接的方式來解析、發布并構建。同時各種類型的數據源需要利用本體進行描述,并且他們要有統一的語義描述,要從語義的角度來操作不同類型的數據元,就需要調出各數據元的本體集,分析它們在本體中有怎樣的映射關系,這樣數字圖書館中的文獻等不同類型的知識元,均可以利用這種方式來從語義層進行操作。互聯網中加入語義描述的知識元,它們之間的關聯性可以是明顯的,也可以是隱蔽的。對于隱性的關聯信息,需要首先推理不同本體之間的邏輯性,從對知識結構以及組織之間的理解、認識方面,讓系統與用戶之間達成共識,也可以從專業角度來復用信息資源,以此獲取它們之間的隱性關系,并與外部領域建立起知識服務網,讓各領域的資源進行整合關聯,使用戶可以輕松瀏覽和查詢共用的關聯數據,或者在語義層面實現交互操作。
關聯數據由于具備可拓展、開放等特性,在很多領域得到了廣泛應用。數字圖書館應用關聯數據來整合數據資源,不僅可以將外部數據網絡與圖書資源鏈接在一起,也可以促進知識發現平臺的拓展與學術交流,幫助圖書館更好地存儲與利用信息。筆者提出基于關聯數據的數字圖書館資源整合模型,旨在積累更多的實踐經驗,以此促進圖書館在應用關聯數據方面地位的提升。
參考文獻:
[1]任煒.基于關聯數據的數字圖書館知識整合研究[J].高校圖書館情報論壇,2014(4):33-39.
[2]崔紀鋒,張勇,邢春曉.元數據在數據庫互操作中的應用[J].計算機科學與探索,2011(4):28-31.
[3]李琳.關聯數據在圖書館界的應用與挑戰[J].圖書與情報,2011(4):69-72.
[4]王薇,歐石燕.關聯數據在圖書館領域的應用研究[J].新世紀圖書館,2012(9):11-13.
[5]孫鴻燕.圖書館關聯數據的綜合管理及其實現[J].圖書館學研究,2011(23):22-25.
[6]史海燕,鍋艷玲.基于關聯數據的分布式信息查詢研究[J].圖書館學研究,2012(5):53-57.
[7]王伯秋,郭彥宏,黃輝.關聯數據在圖書館資源整合中的應用[J].醫學信息學雜志,2013(10):28-31.
李師龍男,1978年生。本科學歷,館員。研究方向:資源建設。
韓翔男,1970年生。本科學歷,助理館員。研究方向:資源建設。
·服務經緯·
收稿日期:(2015-01-31;責編:楊新寬。)