曲佳彬
摘 要:論述了關聯數據在知識組織中應用的優勢,提出基于關聯數據的知識組織模型,并介紹了模型各個層次的工作和內容。根據此模型,設計了以"煙臺大學圖書館學術論文"為實例的知識組織系統,驗證了模型的可行性、實用性,展示了關聯數據作為新技術在知識組織中的應用前景。
關鍵詞:關聯數據;知識組織;語義網
傳統知識組織在文獻信息組織與檢索中發揮了巨大的作用,隨著計算機技術以及語義網技術的發展,對知識組織的研究將更加深入,如何豐富和拓展知識組織的結構和功能,如何深度序化信息資源的內部屬性和特征,無縫的鏈接相關的信息資源,消除信息孤島使其富含語義,如何有效的整合、序化異構、動態變化的網絡信息資源將成為知識組織研究的熱點。關聯數據作為輕量級的語義網實現方法,自2006年由Tim Bern
ers-Lee[1]提出以來備受關注,逐漸成為圖情界的翹楚,關聯數據以通用框架RDF描述信息資源,關注的焦點放在信息本身而不是承載信息的頁面或是信息的訪問接口,組織的對象直接深入到細粒度級的具有語義信息的實體,為每個信息實體定義唯一的URI,使用RDF鏈接相關的實體從而構建關聯關系,揭示信息間的語義隱含,到達語義揭示的目的。鑒于關聯數據的特性以及它在知識組織、信息聚合等方面的突出表現,本文以關聯數據為視角,探索知識組織的新方法,通過關聯數據的應用實現知識組織的語義化、標準化,以促進知識組織的新發展。
一、關聯數據在知識組織中應用的優勢
(一)關聯數據一種輕量級的語義網實現方法,結構簡單適合混搭。關聯數據設計的技術主要是統一資源定位符(URI)、超文本傳輸協議(HTTP)和RDF資源框架。關聯技術沒有定義特定的實現方式和技術,只是提出了發布的原則和要求,只要遵循四個原則即可[2]:使用URI作為任何事物的標識名稱、通過
HTTP協議,任何人都可以訪問這一事物、以RDF的形式提供有用的信息、盡可能多的提供相關的URI鏈接。簡單來說就是使用RDF框架描述信息資源,通過HTTP的方式去訪問,利用
RDF鏈接的信息導航到更多的相關信息。
(二)信息之間的語義更加明顯,不僅是單純的知識鏈接。關聯數據本身不會給信息增加任何語義含義,其在底層數據間構建了信息之間的鏈接,以攜帶語義的形式展現給用戶,通過將目前文檔web轉化成數據的Web,并在不同的數據間通過
URI建立關聯,最終實現信息資源有效整合。
(三)關聯數據采用標準化的RDF描述信息資源。RDF是一種用來描述Web上資源的語言,將一個資源描述成一組三元組(主語,謂語,賓語),主語用來表示需要描述的資源,謂語用來表示主語的某個屬性或者某個關系,賓語表示了屬性的值[3]。主語、謂語都可以用 HTTP URI來表示,其中賓語也可以用 HTTP URI 標識另一個資源。例如:Yantai University(主語)is
located(謂語) in Yantai(賓語)。主體和客體都是一個獨立的類資源,都有自己的HTTP URI標示符,通過查看“Yantai Univer
siyt”的描述,還可以鏈接到客體“Yantai”的具體描述的信息,同時“Yantai”還有自己的屬性值可供參引。
二、基于關聯數據的知識組織模型
關聯數據主要使用URI,HTTP,RDF 等語義網技術來實現,使信息組織更加細化、結構化和語義化,同時能夠支持機器理解和處理,另外,其統一的數據模型(RDF)、統一的存取API
(RDF/SPARQL)、統一的HTTP URI標識,為信息對象的整合和組織提供了統一的標準,使得在開發應用的時候可以考慮使用幾個平臺的混搭。本文設計了一個基于關聯數據的知識組織的技術體系,為知識組織提供新的研究方法和思路。
圖1 基于關聯數據的知識組織層次模型
從圖1可以得出,基于關聯數據的知識組織框架可以分為底層數據源、語義標引層、RDF數據關聯層、信息資源應用層,如下對四個層次進行介紹。
(一)底層數據源的組織。數據源主要包括:來自不同領域的信息資源,可以是圖書的出版社、科學出版物的刊號、地名、人名、等具體化的數據資源;同時也可以是早已成型的關系數據庫系統中的數據,如:圖書館的圖書目錄數據庫、企業內部資源的數據庫、科研機構的知識管理系統。這兩者是目前為止比較受歡迎的關聯數據底層數據源的組織形式,如果將這些信息源進行整合、組織,以關聯數據的形式發布出去將會有驚人的發現。在此筆者將底層數據分為如下三類。(1)易于檢索的結構化數據。這類數據主要設計到存儲在關系數據庫中的結構化數據,已經有了成型的數據模型。(2)分散的異構的網絡信息資源。主要指分布在網絡上,以html網頁的形式表達的、異構的、分散的、形式多樣的數據,對這些數據的聚合難度相對來說比較大,要進行充分的分析、預處理。(3)靜態的結構化數據。主要包括了CSV、Excel、BibTeX格式的文件,這些文件要通過RD
Fizing等工具轉換成為RDF格式的數據,然后存儲到RDF數據庫中發布。
(二)信息的語義標引。語義標注是使用計算機可理解的屬性來描述資源,目前的語義標注中,標注往往是針對特定的應用,不能根據不同數據的特點而靈活變換標注方法,如領域本體只是針對特定的領域內的信息資源來標注、概念化信息資源。進一步而言,標注方法只能標注相互獨立的數據信息,涉及到數據之間的相互依賴、相互關聯時,往往不能明確的標注這種依賴關系。本文討論的關聯數據采用的是RDF三元組來描述資源,其中包括了“主體”,“謂語”,“客體”,使用規范的詞表標注三元組陳述的“謂語”,不僅靈活的描述了信息資源,信息資源間的相互依賴關系清晰的展現了出來。RDF僅僅使用特定命名和值來表達與資源有關的簡單聲明,很大程度上了限制了用戶的使用范圍,比如說定義Person類了來描述人,定義Orga
nization類來描述機構等,因此需要擴展更多的詞表。DC、
FOAF、OWL、SKOS等規范的詞表擴展了RDF/RDFS的描述能力,作為關聯數據集和用戶之間的橋梁得到了很好的應用,充實飽滿的描述了信息資源。
(三) RDF數據關聯層。RDF數據關聯層是通過數據集內部的URI來實現,一個RDF三元組描述了一個數據對象,這個數據對象的客體或者主體在其他RDF三元組中也有類似的描述或者相依賴的資源,這樣就需要構建這兩個RDF數據描述間的關聯,此中情況只是針對本地數據庫中的信息資源。另一個情況擴展其他開放的關聯數據集,因為這些數據集之間已經形成了很好的數據鏈接,研究者只需要獲得相關對象的URI就可以鏈接到他們的數據集,從而把自己的數據集中的相關信息進行擴展。當把開放的數據集作為鏈接的潛在候選目標時,如下幾點應該考慮在內:(1)目標數據集中的主要領域是什么。(2)所鏈接的數據集中對象的URIs是否穩定、保持不變。(3)目標數據集和它的命名空間是否保持一致、不會隨時變化。(4)目標數據集中的RDF links是否和其他關聯數據集保持無縫的鏈接,沒有死鏈接或者空節點。
(四)信息資源應用層。發布為關聯數據的資源主要是通過以下方式瀏覽和檢索。(1)關聯數據主要是以URI來標識數據對象的,通過HTTP參引可以找到相應的資源RDF描述,通過數據間的RDF鏈接在這些相關的數據源間導航,獲得用戶感興趣的知識。(2)發布后的信息資源以RDF的形式呈現,使得一些基于RDF的瀏覽器插件成為佼佼者,比如Tabulator
Browser、OpenLink RDF Browser插件在瀏覽關聯數據方面發揮了很大的優勢。(3)SPARQL是為RDF開發的一種查詢語言和數據獲取協議,能夠接收客戶端的查詢請求,可以在關聯數據源中像SQL那樣查詢,并把結果反饋給用戶,如Wikipedia、GeoNames、MusicBrainz、DBLP bibliography這些數據集都支持這種SPARQL端點查詢訪問模式。
三、學術論文特色數據資源的知識組織的實例
(一)學術論文特色知識庫的系統結構。為了驗證前文提出關聯數據在知識組織中的優勢及框架的合理性,本文以“煙臺大學圖書館學術論文數據庫”為背景,構建了基于關聯數據的特色知識庫,遵循關聯數據的基本原則,揭示信息資源之間的內在語義關聯。
圖2 學術論文知識庫系統模型
鑒于學術論文數據庫的特點,采用D2R的方式將學位論文數據發布成富含語義的關聯數據。D2R Server是一個HTTP Server,支持將關系數據庫中的內容發布成為RDF描述形式的關聯數據。D2R提供一種可定制的映射文件:D2RQ Mapping 文件,該映射文件將關系數據庫的數據轉換為虛擬的 RDF 數據進行訪問,其中表的名字轉換成了映射文件中的類(d2rq:ClassMaps)、表中的列轉換成映射文件中的屬性(d2rq:Property
Bridges),通過映射文件中這兩個類和屬性來表示關系數據庫中的數據表間的關系以及表內不同屬性的關系。在用戶在前臺請求相關的信息實體時,D2RQ Mapping 文件會映射到關系數據庫,將查詢結果轉換為RDF描述的實體、屬性反饋給前臺界面。
(二) 學術論文資源的建模。以“煙臺大學圖書館學術論文數據庫”為主要數據源,對信息進行了預處理,歸納為論文、作者、論文主題、組織機構、論文所屬期刊五種實體類型,如下圖是它們的關系圖。
圖3 實體關系圖
本文采用SQL Server作為底層數據的存儲容器,上述幾個實體類分別包含了各自的數據項,在關系數據庫建立相應的表存儲,如:Papers、Persons、Topic、Department、Periodical表。在后臺處理的時候還要考慮數據實體間的關聯,Paper表中的作者字段必須和Persons表中的作者字段相關聯、Topics表中的論文名稱需關聯Papers表中的論文名等等。
(三)學術論文特色知識庫的實現。實現了底層數據的組織以后,就要采用D2R的方式將SQL Server關系數據庫的數據發布成為RDF描述數據,這樣才能使關系數據庫中的數據富含語義,數據之間形成鏈接的數據網。其實在通過D2R形式發布關系數據的時候,所形成的D2RQ Mapping映射文件將關系數據虛擬成為RDF格式,在上層瀏覽、查詢的時候通過此映射文件對關系數據庫進行操作。
本實例使用的是SQL Server數據庫,需要把SQL Server的驅動包放到D2R Server的lib下,在進行瀏覽、查詢的時候才能驅動數據庫。然后需要運行生成映射文件的腳本:gener
ate-Mapping [-u username] [-p password] [-d driverclass] [-o out
file.n3] [-b base uri] jdbcURL,參數的意義為:數據庫的登錄名、數據庫登錄密碼、驅動名稱、輸出映射文件名、JDBC鏈接數據庫的URL。此腳本運行后生成一個對應關系數據庫的映射文件linkeddata.n3文件,用來實現上層關聯數據的展示和查詢。
其D2RQ Mapping是基于RDFS和OWL進行描述的,自動生成的與關系數據的映射文件顯得簡單、粗糙。表之間的約束關系、關聯關系沒有形成很好的鏈接,謂詞的也是默認的表中列的值,在表達語義方面顯得蒼白無力,與外部數據源間的鏈接也需要用詞表來描述。如下
實例中用到的部分詞表有dc:title表示論文的題目,dc:data論文發表的日期,dc:author論文的作者,dc:Description對論文的描述,foaf:person說明這個類是用來描述人的,foaf:knows描述與此人有關系的人, skos:PrimaySubject描述該文獻的主題,
vcard:locality描述機構的位置。這些規范詞表的使用規范了對數據的描述,更容易讓人明白要表達的關系,另外采用規范的詞表來描述,使機器也能很好的識別,關聯數據的共享和重復利用變得更加容易。
(四)結果分析。本實例經過D2R發布后的關系數據庫,使得信息資源使用RDF描述,并且富含語義,能比較好的展示數據之間的語義關聯。linked data技術在知識組織中的運用,使得用戶可以通過HTML瀏覽關聯數據,還可以通過SPARQL語言實現對關聯數據的查詢。Linked data不僅可以整合內部相關的信息,使其深度序化,還實現了與外部相關數據的關聯,對分布式異構的網絡資源的整合提出了很好的解決辦法。準備好數據后在D2R的路徑下啟動服務器,運行命令d2r-server linked
data.n3,在瀏覽器中輸入:http://127.0.0.1:2020/,即可進行關聯數據的瀏覽。以一個作者的數據為例,如下圖4所示。關聯數據化后的作者元數據的屬性和實體都是比較靈活的,都有與之相關的URI導航到作者的所屬部門、發表的其他論文、合作者等等相關的信息。
圖4 關聯數據化的作者詳細信息
其中http://localhost:2020/data/persons/1是實體的唯一
URI,分別用實體和屬性來描述實體的,點擊圖4中屬性dc:cre
ator,可以導航到作者發表論文的描述。
圖 5 關聯數據化的論文信息
SPARQL是W3C的RDF數據工作組設計的一種查詢語言和協議,用于RDF數據的查詢。本實例也支持基于
SPARQL檢索。圖6中檢索的內容是:在煙臺大學圖書館2000年以后發表的學術論文。
圖6 基于SPARQL語言的查詢界面
結論:本文利用關聯數據對煙臺大學圖書館學術論文數據庫再組織,實現了關聯數據的html導航瀏覽、SPARQL檢索服務。深層次的序化了學術論文的關聯關系,發掘學術論文中隱含的語義信息,比如說學術論文所屬作者的合作關系、學術論文主題相關性、作者所屬部門的關聯等等,無縫的鏈接相關的信息資源,消除信息孤島使其富含語義,以知識鏈的形式呈現。
關聯數據一種輕量級的語義網實現方法,結構簡單適合混搭,沒有定義特定的實現方式和技術,只是提出了發布的原則和要求,因此可以不受技術的限制,定制化自己的實現平臺,其強調語義關聯、數據網絡,無疑將成為未來信息聚合、知識呈現的佼佼者。關聯數據的發展帶來了語義網的普及,基于 RDF形式存在的數據也會不斷增多,如何消費關聯數據、如何使用
SPARQL語言進行語義發現將會成為研究熱點。
參考文獻:
[1] 劉煒. 關聯數據:概念、技術及應用展望[J]. 大學圖書館學報,2011(02):05-12.
[2]夏翠娟. 關聯數據的發布技術及其實現——以Drupal 為例[J].中國圖書館學報,2012(01):049-057.
[3] RDF Vocabulary Description Language 1.0:RDF Schema[EB/OL].[2012-06-09].