999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯數據的書目數據語義化框架設計與實現

2014-12-25 02:15:14
圖書館 2014年2期
關鍵詞:關聯語義數據庫

(武漢大學信息管理學院 湖北武漢 430072)

1 書目數據語義化與關聯數據

書目數據語義化是指基于規范的概念模型,顯性地、以機器可讀的方式表達書目實體及其屬性特征和關聯關系,序化書目實體之間和屬性之間的關系,并提供基于語義關系的、統一的存取方式。〔1〕目前,書目數據的主要功能仍然局限于為用戶查找相關信息,機器無法理解這些書目數據。并且,傳統書目數據的組織是基于MARC的一維、線性的組織方式,只提供元數據描述,以某一屬性特征作為索引點和檢索點,不區分信息對象的實體層次和相互的關聯關系,書目數據的語義化程度較低,〔2〕主要表現在以下幾個方面:第一,書目記錄內部隱藏著大量有價值、高質量的數據,如個人名稱、主題、地點等,它們沒有獨立的標識,也缺乏結構化的描述,沒有得到充分揭示、重用。第二,書目數據是封閉的,沒有實現與外部信息或數據的融合。第三,雖然部分圖書館OPAC系統提供了按語種、載體形態、年代、主題等集中同一信息對象,基于書目層次關系的瀏覽與檢索,但沒能區分實體層次及其關系,也沒有揭示實體層次之間各種衍生和變化關系,缺乏形式化的語義信息表達手段。

2006年,Tim Berners-Lee在萬維網體系架構筆記《關聯數據筆記》中提出了關聯數據這一概念,它要求采用RDF數據模型組織資源,利用URI命名數據實體,發布和部署實例數據和類數據,通過HTTP協議揭示并獲取這些數據,同時它強調數據的相互關聯和有益于人機理解的語境信息。〔3〕關聯數據在實現書目數據語義化中具有以下兩個方面的優勢:第一,URI標識與復用。關聯數據利用URI標識不同的實體對象,可以是責任者、出版者、主題、評論等,使書目數據的顆粒化程度更加細化、結構化和語義化,并可以跨領域的得到更廣泛的參引。第二,RDF鏈接機制。關聯數據采用RDF模型即“資源-屬性-屬性值”的形式表達書目實體及其間的關系,通過RDF鏈接,不僅實現了書目實體之間和屬性之間的關系顯性化和語義化,而且擴展了書目數據的信息,為用戶提供超越圖書館的資源和訪問服務。本研究的目的是構建一個基于關聯數據的書目數據語義化框架,并以武漢大學圖書館一定數量的書目數據為例,采用選定的技術和工具對該框架進行實現。

2 基于關聯數據的書目數據語義化框架的構建

筆者提出了一個基于關聯數據的層次化的書目數據語義化框架,將書目數據的描述、組織、發布和應用劃分為四個層次(見圖1)。該框架基于概念模型對圖書館的書目數據進行語義化描述與組織,采用關聯數據原則〔4〕發布數據,提供統一存取方式,實現了書目數據的關聯化和語義化。

圖1 基于關聯數據的書目數據語義化框架

2.1 數據層

數據層分為本地數據源和外部數據源兩大部分。本地數據源主要指圖書館書目記錄。每條記錄中包含著幾百個字段,揭示了書目信息的各個方面。本研究抽取記錄中能夠反映文獻內容并與其它記錄區分的字段,如題名、ISBN、責任者等,書目數據中沒有描述各個字段的詳細信息。外部數據源可以提供如責任者、主題、評論等的詳細信息。本研究通過手工抽取Wiki、百度百科等網站中的相關數據并結構化處理,實現與書目數據的關聯。

2.2 語義聚合層

數據層中抽取的數據語義缺乏明確的、形式化的定義,機器無法直接進行理解和處理,需要在數據的基礎上構建某種機制,實現其關聯化和語義化,這就是語義聚合層的作用。概念模型是將圖書館資源描述與組織以文獻為中心轉向以概念/對象為中心的實體分層思路,本體、書目記錄的功能需求(Functional Requirements for Bibliographic Records,簡稱FRBR)模型〔5〕等遵循面向對象方法,是面向圖書館資源的概念框架。1997年IFLA提出了應用實體-關系模型來構建概念框架的FRBR模型,它將書目記錄涉及的實體分為三組:作品及其各類物化實體(作品-表達-表現-單件)、與文獻生產、發行、收藏以及流通有關的人或團體(個人、家族和機構團體)和主題類實體(概念、實體、事件、地點等)。FRBR以作品、內容表達、載體表現逐層聚集書目,將文獻形態進行分面分類,打破了傳統書目記錄概念的平面性和單一性,揭示出同一作品不同實體之間的關系以及不同作品實體之間的關系。

2.3 數據關聯層

2.4 應用層

在應用層可以實現對關聯數據的統一瀏覽和檢索以及其他的應用和服務。既可以通過Web瀏覽器實現HTML網頁瀏覽與導航,也可以利用關聯數據瀏覽器,如Tabulator、Marble等,通過RDF鏈接在數據源之間進行瀏覽。通過SPARQL端點可以實現動態分面查詢和語義關系查詢,也可以利用對象之間和屬性之間的關系實現復雜智能查詢。另外,關聯化的書目數據成為數據網絡的一部分,可以向其他的應用提供數據服務,也可以在關聯數據之上構建新的Web應用。

3 基于關聯數據的書目數據語義化的實現

本實驗的實驗平臺如表1所示。選取武漢大學圖書館有關的書目,并從Wiki、百度百科、豆瓣中抽取責任者、評論等相關詳細信息。然后按照FRBR模型劃分書目層次,提取實體之間、實體與屬性之間的語義關系,并利用SQL Server構建書目數據的關系數據庫(注:命名為Bibliography)及相關數據表。最后利用開源軟件D2R將關系數據庫中的數據發布為關聯數據,并提供HTML、RDF及SPARQL等方式訪問。

表1 實驗的操作環境和工具

3.1 基于FRBR的數據資源聚合與關系數據庫的建立

3.1.1 數據的抽取

在武漢大學圖書館OPAC系統中檢索《安徒生童話》的書目數據,選取不同版本的10條記錄。抽取記錄中的數據主要包括題名、ISBN、責任者、出版者、摘要、主題等。從豆瓣、Wiki和百度百科中抽取書評和責任者包括代表作、出生與死亡日期等的相關詳細信息。

3.1.2 基于FRBR的數據資源聚合

參照FRBR概念模型聚合抽取的書目數據相關信息,以作品為中心,為每一個作品建立一條主干記錄和分支記錄,分支記錄主要揭示同一作品的不同內容表達和載體表現等內容,從而形成立體的、網狀的書目數據。根據上文中抽取的書目信息,應用FRBR概念模型形成了 Aggregate Work、Single Work、Author三個實體,這些實體分別對應為數據庫中的各個數據表,實體的屬性對應為表中的各列,實體之間的關系即為表間關系。

3.1.3 關系數據庫的創建

正如閨蜜所說,男人一旦有了出息,就算自己不出去尋花覓柳,一些鶯鶯燕燕的誘惑也會主動找上門來,防不勝防。

啟動SQL Server 2005,建立Bibliography數據庫。在Bibliography數據庫中依次建立Aggregate Work表、Single Work表、Author表,分別為 Aggregate Work(Work_ID,Title,Subject)、Single Work(SWork_ID,Title,ISBN,IS_Part_of,Author,Translator,Publisher,Date_of_Publish,Language,Abstract,Subject,Comment,CLC)、Author(Author_ID,Name,Sex,nationality,Date_of_Birth,Place_of_Birth,Date_of_Death,Place_of_Death,Masterpiece1,Masterpiece2,Masterpiece3)。分別為各個表設置相應的主鍵和外鍵。

3.2 基于D2R的數據語義映射、轉換與關聯的構建

3.2.1 D2R的結構及其語義映射機制

D2R是一個將關系型數據庫發布為關聯數據的開源軟件,支持將主流關系型數據庫如 Microsoft SQL Server、Microsoft Access、MySQL、Oracle等中的數據發布為關聯數據。目前使用D2R進行關聯數據發布的應用有:Berlin DBLP Bibliography Server、Hannover DBLP Bibliography Server 等。〔7〕D2R Server的體系結構〔8〕如圖2所示。

圖2 D2R的體系結構圖

D2R主要包括以下三個部分:D2R服務器(D2R Server),是一個HTTP Server,其主要功能是提供查詢RDF數據的訪問接口,以供上層的RDF瀏覽器、SPARQL查詢客戶端以及傳統的HTML瀏覽器調用。D2RQ引擎(D2RQ Engine),主要功能是使用可定制的D2RQ Mapping文件將關系型數據庫中的數據換成RDF格式。D2RQ映射語言(D2RQ Mapping Language),主要功能是定義將關系型數據轉換成RDF格式的映射規則。

將關系型數據庫的二維組織模式轉換為RDF三元組的表達,其中包括數據結構、約束條件轉換為本體的概念語義和規則語義,需要構建關系型數據庫模式與RDF的Schema的映射。D2R語義模式映射機制主要是構建映射規則,生成映射文件,基于映射文件實現模式的轉換。映射文件的作用是在訪問關系型數據庫是將RDF數據查詢語言SPARQL轉換為關系數據庫的SQL查詢,并將查詢結果轉換為RDF三元組。〔9〕

3.2.2 基于映射文件的關系數據庫語義模式轉換

D2R Server提供基于映射文件將關系數據庫發布為RDF三元組的機制,在本實驗中,是通過執行D2R生成映射文件的執行腳本-generate.bat來實現。具體的編碼如下:

其中,-u表示數據庫用戶名;-p是數據庫的登錄密碼;-d是數據庫的驅動類名稱,不同數據庫驅動格式不同,本實驗是以SQL Server為例;-o是輸出的映射文件名稱;最后一個參數設置了所映射的SQL Server數據庫的路徑和名稱。

通過運行該腳本,生成映射文件Bib.n3。基于該映射文件,可以實現關聯數據的瀏覽與查詢服務。本實驗中生成的映射文件Bib.n3如下(截取文件中部分代碼):

其中,d2rq:ClassMap代表OWL Ontology或者是 RDFS Schema中的一個或一組相似的類,它與關系數據庫中的一個數據表相映射,〔10〕包括 d2rq:UriPattern、d2rq:Class 等屬性。d2rq:UriPattern用來指導生成實例化資源的真實URI,由關系數據庫表名和對應的主鍵組成。d2rq:Class表示該d2rq:ClassMap所對應的實體類,其取值可以來自OWL Ontology或者是RDFS Schema,也可以自定義新的類。d2rq:Property-Bridge表示OWL Ontology或者是RDFS Schema中類的屬性,與關系數據庫中數據表的某一列相映射。

3.2.3 構建與外部數據集的關聯

關系數據庫中的書目數據與外部資源之間存在著一些聯系,在將其轉換為關聯數據的過程中,需要對這些關系進行創建和關聯。映射文件僅顯示數據間基于主鍵和外鍵引用的關系,沒有表現出數據間存在更為豐富和復雜的關系,可以手動修改映射文件,以展現數據資源之間更為豐富的語義關系。

在D2RQ中可以通過類映射的d2rq:constantValue,為某個資源的屬性關聯一個常量,實現與某些常量的關聯。例如,在本實驗中,為Author表增加一個DBpedia的作者概念的參見,編碼如下:

圖3 D2R的服務首頁

3.3 關聯數據的發布與訪問

在D2R的DOS路徑下,執行D2R-Server.bat腳本,運行生成的映射文件Bib.n3,啟動關聯數據發布服務。在瀏覽器中輸入訪問地址http://localhost:2020,顯示出D2R的運行入口界面(如圖3),圖中顯示出發布的具有語義關聯的書目數據資源,提供了HTML瀏覽、RDF瀏覽和SPARQL端點查詢3類服務入口。

圖4 聚合各個作品的關聯數據發布圖

進入HTML View,可以看到3個數據表分別映射為不同的實體類。進入Aggregate Work類中,可以看到其所關聯的具體作品資源,即Single Work類中的10個作品(如圖4),體現出FRBR作品聚合的特點。可以單擊各個作品,進一步瀏覽其屬性特征。

在Author類中,可以看到 Author數據表中各個列如Country、Work等被映射為資源的屬性特征(如圖5),其中Name和Country的屬性值通過 http://depedia.org/resource/Anderson Hans Christian 和 http://depedia.org/resource/Denmark實現了與外部數據集DBpedia的鏈接。

圖5 Author類的詳細信息

4 總結與展望

本文嘗試了將關聯數據應用于書目數據以解決傳統書目數據語義化程度低的問題,并提出了一個基于關聯數據的書目數據語義化框架。該框架具有4個層次,數據層、語義聚合層、數據關聯層、應用層,其核心是書目數據的語義化和關聯化的構建。最后,以武漢大學圖書館一定數量的書目數據為例,使用開源軟件D2R對該框架進行了實現。但本研究中仍然存在著一定的缺陷,即書目記錄中有價值的數據和外部數據的抽取及與其他數據集關聯采用的是手工方式,若進行大規模的數據抽取和關聯則需要一定的技術和算法支持。

關聯數據的一致化語義描述方法(RDFS/OWL)和統一存取機制(SPARQL)對書目數據語義化與關聯化提供了一種輕量級的實現方式。2011年,巴斯大學UKOLN研究組開展了“關聯開放 Copac Archives Hub項目”〔12〕,力圖探索書目資源內容間的語義關聯。英國劍橋大學實施了“開放書目項目”〔13〕,研究基于現有語義工具、標準提交書目元數據語料庫作為開放關聯數據。隨著關聯書目數據理論研究與實踐活動的不斷深入,相信書目數據將以語義化、關聯化的形式為用戶提供各種應用和服務。

1.Martin M.Making a library catalogue part of the semantic web.In:Proceeding of the 2008 International Conference on Dublin Core and Metadata Applications.2008:146-152

2.白海燕,喬曉東.基于本體和關聯數據的書目組織語義化研究.現代圖書情報技術,2010(9):18-27

3.Linked Data.〔2013-04-23〕.http://linkeddata.org/

4.Linked Data.〔2013-04-24〕.http://www.w3.org/DesignIssues/LinkedData.html

5.國際圖聯書目記錄的功能需求研究組著.王紹平等譯.書目記錄的功能需求最終報告.德國慕尼黑:紹爾出版社,1998:14-54

6.夏翠娟等.關聯數據發布技術及其實現-以Drupal為例.中國圖書館學報,2012(1):49-57

7.RDF Vocabulary Description Language 1.0:RDF Schema.〔2013-04-27〕.http://www.w3.org/TR/rdf-schema/

8.The D2RQ Platform.〔2013-05-04〕.http://d2rq.org/

9.Christian B,Richard C.D2R Server-Publishing Relational Databases on the Semantic Web.In:Poster at the 5th International Semantic Web Conference,2006

10.The D2RQ Mapping Language.〔2013-05-04〕.http://d2rq.org/d2rq-language

11.白海燕,梁冰.利用D2R實現關系數據庫與關聯數據的語義模式映射.現代圖書情報技術,2011(Z1):1-7

12.Linked Open Copac Archives Hub.〔2013-05-05〕.http://www.jisc.ac.uk/whatwedo/programmes/inf11/jiscexpo/locah.aspx

13.Open Bibliography.〔2013-05-05〕.http://www.jisc.ac.uk/whatwedo/programmes/inf11/jiscexpo/jiscopenbib.aspx

猜你喜歡
關聯語義數據庫
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
語言與語義
奇趣搭配
數據庫
財經(2017年2期)2017-03-10 14:35:35
智趣
讀者(2017年5期)2017-02-15 18:04:18
數據庫
財經(2016年15期)2016-06-03 07:38:02
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
認知范疇模糊與語義模糊
主站蜘蛛池模板: 在线视频亚洲欧美| 亚洲精品第1页| 日本手机在线视频| 国产噜噜噜| 免费一极毛片| 久久国产热| 国产导航在线| 日韩精品免费一线在线观看| 国产成人综合久久| 美女无遮挡免费视频网站| 国产超碰在线观看| 97国产成人无码精品久久久| 国产精品丝袜视频| 性喷潮久久久久久久久| 伊人婷婷色香五月综合缴缴情| 国内自拍久第一页| 一级毛片免费的| 天堂成人在线| 欧美精品成人一区二区视频一| 亚洲福利网址| 91免费国产在线观看尤物| 国产在线观看一区二区三区| 99久久精品免费看国产电影| 亚洲天堂网在线视频| 国产91高清视频| 中文字幕无码中文字幕有码在线| 国产AV无码专区亚洲精品网站| 欧美、日韩、国产综合一区| 98超碰在线观看| 欧美人在线一区二区三区| 欧美日韩在线成人| 国产人免费人成免费视频| 国产精品爆乳99久久| 国产精品制服| julia中文字幕久久亚洲| 中文国产成人久久精品小说| 凹凸国产分类在线观看| 久久窝窝国产精品午夜看片| 亚洲一区无码在线| 亚洲免费福利视频| 青草精品视频| 亚洲日韩Av中文字幕无码| 久久久噜噜噜| 欧美亚洲激情| 色悠久久久| 国内自拍久第一页| 欧美人与牲动交a欧美精品| 欧美日韩精品一区二区在线线| 国产精品一区二区久久精品无码| 色噜噜在线观看| 99国产精品免费观看视频| 国产成人精品亚洲日本对白优播| 亚洲一区二区无码视频| 91麻豆精品国产高清在线| 国产精品对白刺激| 国产黄网永久免费| 国产欧美在线视频免费| 色综合a怡红院怡红院首页| 国产亚洲欧美在线中文bt天堂| 呦女精品网站| 久久无码免费束人妻| 亚洲av无码片一区二区三区| 99热这里只有成人精品国产| 在线a视频免费观看| 日韩专区第一页| 香蕉网久久| 国产精品99一区不卡| 天天综合色网| 亚洲国产成人自拍| 免费一级无码在线网站| 中文字幕永久在线观看| 88av在线看| 欧美国产日韩在线| 久久精品欧美一区二区| 国产主播喷水| 黄色网站不卡无码| 国产亚洲精品资源在线26u| 99精品影院| 国产一在线| 99视频全部免费| 毛片在线区| 成人无码一区二区三区视频在线观看 |