999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)聯(lián)數(shù)據(jù)的發(fā)布與消費(fèi)

2019-10-23 14:16:15李素芳
中文信息 2019年9期

摘 要:關(guān)聯(lián)數(shù)據(jù)的應(yīng)用過程包括發(fā)布和消費(fèi)兩個環(huán)節(jié)。文章基于OCLC分別于2015年和2018年對關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施情況調(diào)查結(jié)果的原始公開數(shù)據(jù),總結(jié)關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的實(shí)施現(xiàn)狀,分析關(guān)聯(lián)數(shù)據(jù)的發(fā)布和消費(fèi)的動機(jī)與障礙,針對存在的障礙思考提升路徑,為我國的關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施提供借鑒。

關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù) 數(shù)據(jù)發(fā)布 數(shù)據(jù)消費(fèi)

中圖分類號:G251文獻(xiàn)標(biāo)識碼:A文章編號:1003-9082(2019)09-00-03

Tim Berners-Lee在2006年提出了關(guān)聯(lián)數(shù)據(jù)的概念。關(guān)聯(lián)數(shù)據(jù)是一種推薦的最佳實(shí)踐,用來在語義網(wǎng)中使用URIs和RDF發(fā)布、分享、連接各類數(shù)據(jù)、信息和知識,發(fā)布和部署實(shí)例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系以及有益于人機(jī)理解的語境信息[1]。

本文根據(jù)OCLC[2]對關(guān)聯(lián)數(shù)據(jù)項(xiàng)目兩次調(diào)查結(jié)果的原始數(shù)據(jù),分析關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的實(shí)施動機(jī)和遇到的障礙。被調(diào)查的機(jī)構(gòu)情況見表1。總體上,圖書館機(jī)構(gòu)占被調(diào)查機(jī)構(gòu)的大多數(shù)(67%)。另外,2018年的最新一次調(diào)查中,首次收到服務(wù)供應(yīng)商的問卷反饋,該類機(jī)構(gòu)為客戶提供關(guān)聯(lián)數(shù)據(jù)服務(wù)。

一、關(guān)聯(lián)數(shù)據(jù)的發(fā)布

指將原始數(shù)據(jù)轉(zhuǎn)換為以RDF數(shù)據(jù)格式描述的結(jié)構(gòu)化數(shù)據(jù),在不同的數(shù)據(jù)之間建立RDF鏈接,并在Web上發(fā)布RDF文檔的一個過程。發(fā)布時,可根據(jù)RDF數(shù)據(jù)集合的規(guī)模選擇不同發(fā)布方式。數(shù)據(jù)量較小時,可直接發(fā)布靜態(tài)的RDF文檔;數(shù)據(jù)量較大時,使用RDF數(shù)據(jù)庫發(fā)布關(guān)聯(lián)數(shù)據(jù);如果數(shù)據(jù)更新頻繁,可采用在線轉(zhuǎn)換的方式,當(dāng)收到訪問請求時,在線將原始數(shù)據(jù)轉(zhuǎn)換為RDF文檔供用戶使用。

1.發(fā)布關(guān)聯(lián)數(shù)據(jù)的動機(jī)

根據(jù)OCLC對關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的調(diào)查結(jié)果,關(guān)聯(lián)數(shù)據(jù)的發(fā)布動機(jī)可分為三類,結(jié)果見表2。

總體上,關(guān)聯(lián)數(shù)據(jù)的發(fā)布動機(jī)沒有明顯變化,只有為滿足管理部門要求發(fā)布關(guān)聯(lián)數(shù)據(jù)的回答數(shù)量有明顯增加。發(fā)布關(guān)聯(lián)數(shù)據(jù)的動機(jī)體現(xiàn)在分享數(shù)據(jù)資源、探索關(guān)聯(lián)數(shù)據(jù)的應(yīng)用、被動發(fā)布三個方面。

分享數(shù)據(jù)資源方面。體現(xiàn)在:在web上公開數(shù)據(jù)供更多用戶使用、嘗試將本地數(shù)據(jù)公開為關(guān)聯(lián)數(shù)據(jù)。此類動機(jī)基本沒有發(fā)生改變,因?yàn)榘l(fā)布關(guān)聯(lián)數(shù)據(jù)的目的就是為了與其他數(shù)據(jù)集合關(guān)聯(lián)而實(shí)現(xiàn)數(shù)據(jù)共享。關(guān)聯(lián)數(shù)據(jù)的核心是將數(shù)據(jù)和網(wǎng)絡(luò)融合起來,將數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布,數(shù)據(jù)就成為網(wǎng)絡(luò)的一部分,最終實(shí)現(xiàn)文檔網(wǎng)絡(luò)(the Web of Document)向數(shù)據(jù)網(wǎng)絡(luò)(the Web of Data)的轉(zhuǎn)變。

探索關(guān)聯(lián)數(shù)據(jù)的應(yīng)用方面。根據(jù)OCLC的2018年調(diào)查結(jié)果,目前RDF三元組數(shù)據(jù)量超過50億的關(guān)聯(lián)數(shù)據(jù)項(xiàng)目有3個,分別是OCLC的World Cat項(xiàng)目(100億)、加利西亞數(shù)字圖書館(63億)、歐洲數(shù)字圖書館(50億)。數(shù)據(jù)量在1億到10億之間的項(xiàng)目有10個,數(shù)據(jù)量在1000萬到1億之間的項(xiàng)目有9個,數(shù)據(jù)量小于1000萬的項(xiàng)目有33個。自從Tim Berners-Lee在2006年提出關(guān)聯(lián)數(shù)據(jù)的概念以來,許多組織機(jī)構(gòu)都在嘗試將本地數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),但是對于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用仍處于探索階段,大多數(shù)組織機(jī)構(gòu)將本地數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)的目的是探索關(guān)聯(lián)數(shù)據(jù)的應(yīng)用方式,比如能否提高檢索效率。

被動發(fā)布關(guān)聯(lián)數(shù)據(jù)方面。為了滿足管理部門的要求而發(fā)布關(guān)聯(lián)數(shù)據(jù)的回答數(shù)較2015年有明顯增加。如英國圖書館表示其關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施,一方面是為響應(yīng)英國政府的開放數(shù)據(jù)政策,另一方面是為探索關(guān)聯(lián)書目數(shù)據(jù)應(yīng)用的可能性。另外,在2019年1月,美國政府頒布了《開放政府?dāng)?shù)據(jù)法案》,要求聯(lián)邦機(jī)構(gòu)以開放的機(jī)器可讀格式向公眾開放非敏感政府?dāng)?shù)據(jù)。說明公共部門已經(jīng)逐漸意識到關(guān)聯(lián)數(shù)據(jù)的重要性,開始要求其下屬部門將其數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布。

2.發(fā)布關(guān)聯(lián)數(shù)據(jù)的障礙

根據(jù)OCLC對關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的調(diào)查結(jié)果,發(fā)布關(guān)聯(lián)數(shù)據(jù)的主要障礙可分為資源障礙、技術(shù)障礙和其他障礙三類,調(diào)查結(jié)果如表3所示。

總體上,除了數(shù)據(jù)產(chǎn)權(quán)障礙和發(fā)布軟件技術(shù)不成熟的障礙,發(fā)布關(guān)聯(lián)數(shù)據(jù)的其他障礙沒有明顯變化。其中,發(fā)布關(guān)聯(lián)數(shù)據(jù)最大的障礙主要是專業(yè)技術(shù)人力資源匱乏。

資源障礙方面。接近一半的組織機(jī)構(gòu)認(rèn)為數(shù)據(jù)格式不一致是發(fā)布關(guān)聯(lián)數(shù)據(jù)的障礙。以圖書館編目數(shù)據(jù)為例,無論是MARC還是CNMARC格式的數(shù)據(jù)資源都要經(jīng)歷編目各元素項(xiàng)的拆分和轉(zhuǎn)換映射兩個環(huán)節(jié),然而轉(zhuǎn)換與映射的過程中存在無法對應(yīng)的情況,需要對原有的編目元素項(xiàng)進(jìn)行修改、增補(bǔ)或刪除等操作。在2015年的調(diào)查中,有受訪者在“其他障礙”里列出“缺乏資金”,因此OCLC在2018年的調(diào)查中將其單獨(dú)作為一個選項(xiàng),并且成為了發(fā)布關(guān)聯(lián)數(shù)據(jù)的第四大障礙。根據(jù)OCLC的調(diào)查統(tǒng)計(jì),有22個關(guān)聯(lián)數(shù)據(jù)項(xiàng)目接受過國家基金資助;73個項(xiàng)目受到過圖書館/檔案館或上級機(jī)構(gòu)的資助;6個項(xiàng)目受過伙伴(合作)機(jī)構(gòu)的資助;5個項(xiàng)目受到過私人資助;1個項(xiàng)目獲得公司基金資助;有8個項(xiàng)目未申請過資助,但計(jì)劃申請。另外,由于數(shù)據(jù)版權(quán)問題造成的關(guān)聯(lián)數(shù)據(jù)發(fā)布障礙降低。因?yàn)閿?shù)據(jù)的版權(quán)屬性不清晰,隨意將數(shù)據(jù)發(fā)布到web上存在侵權(quán)的法律風(fēng)險。說明組織機(jī)構(gòu)的版權(quán)意識逐漸提高,已經(jīng)基本解決數(shù)據(jù)的版權(quán)問題。

技術(shù)障礙方面。最大的障礙是專業(yè)技術(shù)人力資源匱乏,主要是因?yàn)閷W(xué)習(xí)關(guān)聯(lián)數(shù)據(jù)的相關(guān)專業(yè)知識具有一定難度。因此在2018年的調(diào)查中,將學(xué)習(xí)關(guān)聯(lián)數(shù)據(jù)知識納入員工職責(zé)的項(xiàng)目數(shù)量降低(72%,2018;92%,2015),相應(yīng)地,越來越多的組織機(jī)構(gòu)開始聘用具備關(guān)聯(lián)數(shù)據(jù)專業(yè)知識的新員工或外部顧問(20%,2018;4%,2015)。另外,如何選擇合適的RDF詞匯表、本體描述本地數(shù)據(jù)也是一大障礙。關(guān)聯(lián)數(shù)據(jù)采用RDF三元組的主-謂-賓結(jié)構(gòu)作為基本數(shù)據(jù)模型[3]。發(fā)布關(guān)聯(lián)數(shù)據(jù)過程中,最關(guān)鍵的步驟是將組織機(jī)構(gòu)內(nèi)部的數(shù)據(jù)轉(zhuǎn)換為RDF格式的數(shù)據(jù)。目前使用最多的RDF詞匯表、本體有Schema.org(用于描述結(jié)構(gòu)化數(shù)據(jù)的詞表)、SKOS(用于描述分類和領(lǐng)域知識概念)、DC(用于描述網(wǎng)絡(luò)資源的元數(shù)據(jù)詞表)、FOAF(用于描述人的活動和人與人之間關(guān)系的詞表)、DCMI(DC核心要素的擴(kuò)展版本,定義了更多的元素和關(guān)系)、RDF Schema(用于描述RDF結(jié)構(gòu)的詞表)、Bib Frame(用于描述書目和引文的概念和關(guān)系)。另外,可能還需要根據(jù)組織機(jī)構(gòu)的原始數(shù)據(jù)結(jié)構(gòu)創(chuàng)建新的RDF詞匯表/本體。在2015年和2018年的調(diào)查結(jié)果對比中,越來越多的組織機(jī)構(gòu)表示缺乏成熟的關(guān)聯(lián)數(shù)據(jù)發(fā)布軟件,可能的原因是隨著越來越多的組織機(jī)構(gòu)發(fā)布關(guān)聯(lián)數(shù)據(jù),而相應(yīng)的發(fā)布軟件更新不及時,導(dǎo)致發(fā)布關(guān)聯(lián)數(shù)據(jù)存在技術(shù)上的障礙。

其他障礙方面。歐洲數(shù)字圖書館表示,由于數(shù)據(jù)量過大而導(dǎo)致關(guān)聯(lián)數(shù)據(jù)集的更新困難;美國普瑞特信息與圖書館科學(xué)學(xué)院表示,“我們無法將關(guān)聯(lián)爵士項(xiàng)目的數(shù)據(jù)遷移到Wikibase知識庫中,我們想把我們的數(shù)據(jù)轉(zhuǎn)移到一個更靈活的、非特定領(lǐng)域的平臺上”。美國史密森尼博物館則表達(dá)了對數(shù)據(jù)安全和隱私的擔(dān)憂。還有一些組織機(jī)構(gòu)表示缺乏上級機(jī)構(gòu)的支持、缺少員工等等。

二、關(guān)聯(lián)數(shù)據(jù)的消費(fèi)

涉及到數(shù)據(jù)的訪問、查詢、獲取和利用等方面。OCLC在2018年和2015年的調(diào)查中,大多數(shù)關(guān)聯(lián)數(shù)據(jù)項(xiàng)目在發(fā)布關(guān)聯(lián)數(shù)據(jù)的同時也消費(fèi)關(guān)聯(lián)數(shù)據(jù)(65,2018;64,2015),只發(fā)布而不消費(fèi)關(guān)聯(lián)數(shù)據(jù)的項(xiàng)目很少(5,2018;10,2015)。本節(jié)基于OCLC的調(diào)查結(jié)果對消費(fèi)關(guān)聯(lián)數(shù)據(jù)的動機(jī)和障礙進(jìn)行具體分析。

1.消費(fèi)關(guān)聯(lián)數(shù)據(jù)的動機(jī)

根據(jù)OCLC對關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的調(diào)查結(jié)果,消費(fèi)關(guān)聯(lián)數(shù)據(jù)的動機(jī)可分為用戶服務(wù)、內(nèi)部數(shù)據(jù)管理和搜索引擎優(yōu)化三類,結(jié)果見表4。

總體上,用戶服務(wù)方面的消費(fèi)動機(jī)沒有明顯變化,但是內(nèi)部數(shù)據(jù)管理和搜索引擎優(yōu)化方面的動機(jī)均有不同程度的變化。

用戶服務(wù)方面。大多數(shù)組織機(jī)構(gòu)表示其消費(fèi)關(guān)聯(lián)數(shù)據(jù)的目的是為用戶提供豐富的服務(wù)。以圖書館為例,傳統(tǒng)的圖書館檢索系統(tǒng)只支持用戶以作者、關(guān)鍵詞等檢索條件進(jìn)行檢索,無法提供擴(kuò)展服務(wù)。基于關(guān)聯(lián)數(shù)據(jù)的檢索可支持用戶進(jìn)行語義檢索,進(jìn)而提高檢索質(zhì)量。同時,越來越多的組織機(jī)構(gòu)表示想通過嘗試消費(fèi)關(guān)聯(lián)數(shù)據(jù)了解是否可以改善用戶服務(wù)體驗(yàn)。

內(nèi)部數(shù)據(jù)管理方面。發(fā)布關(guān)聯(lián)數(shù)據(jù)的目的是消費(fèi),有的是在內(nèi)部消費(fèi),用于本地資源管理、發(fā)現(xiàn)、重用等,如BBC的關(guān)聯(lián)數(shù)據(jù)應(yīng)用[4]。在2015年的調(diào)查中,有47%的組織機(jī)構(gòu)表示消費(fèi)關(guān)聯(lián)數(shù)據(jù)是為了提升內(nèi)部元數(shù)據(jù)管理的效率,但是在2018年的調(diào)查中,選擇此動機(jī)的機(jī)構(gòu)數(shù)量已降至30%。

搜索引擎優(yōu)化方面。組織機(jī)構(gòu)對于消費(fèi)關(guān)聯(lián)數(shù)據(jù)提升搜索引擎優(yōu)化方面的期望均出現(xiàn)不同程度的下降。可能的原因是,目前大多數(shù)組織機(jī)構(gòu)發(fā)布關(guān)聯(lián)數(shù)據(jù)采取“大而全”的發(fā)布原則,用戶在消費(fèi)關(guān)聯(lián)數(shù)據(jù)時,經(jīng)常會出現(xiàn)不需要的數(shù)據(jù),進(jìn)而影響檢索效率。

2.消費(fèi)關(guān)聯(lián)數(shù)據(jù)的障礙

根據(jù)OCLC對關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的調(diào)查結(jié)果,發(fā)布關(guān)聯(lián)數(shù)據(jù)的主要障礙可分為數(shù)據(jù)質(zhì)量障礙、數(shù)據(jù)獲取障礙、數(shù)據(jù)使用障礙和其他障礙四類,調(diào)查結(jié)果如表5所示。

總體上,消費(fèi)關(guān)聯(lián)數(shù)據(jù)的障礙沒有明顯變化。其中,消費(fèi)關(guān)聯(lián)數(shù)據(jù)最大的障礙是原始數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)之間的匹配、消除歧義困難。

數(shù)據(jù)質(zhì)量障礙方面。隨著發(fā)布的關(guān)聯(lián)數(shù)據(jù)集合越來越多,關(guān)聯(lián)數(shù)據(jù)的可重用性越來越重要,如何向用戶提供高質(zhì)量的數(shù)據(jù)資源是關(guān)聯(lián)數(shù)據(jù)消費(fèi)的一個重要問題。在2015年和2018年的兩次調(diào)查中,組織機(jī)構(gòu)對于數(shù)據(jù)質(zhì)量方面的障礙的回應(yīng)并沒有發(fā)生很大變化,數(shù)據(jù)質(zhì)量障礙主要體現(xiàn)在關(guān)聯(lián)數(shù)據(jù)可重用性差、詞匯表映射不準(zhǔn)確,缺乏權(quán)威控制等方面。這可能是關(guān)聯(lián)數(shù)據(jù)發(fā)布軟件不成熟、描述本地數(shù)據(jù)的本體選擇困難等發(fā)布關(guān)聯(lián)數(shù)據(jù)的障礙所導(dǎo)致的。發(fā)布關(guān)聯(lián)數(shù)據(jù)的障礙導(dǎo)致關(guān)聯(lián)數(shù)據(jù)質(zhì)量不穩(wěn)定,進(jìn)而影響關(guān)聯(lián)數(shù)據(jù)的消費(fèi)。

數(shù)據(jù)獲取障礙方面。越來越多的組織機(jī)構(gòu)表示在關(guān)聯(lián)數(shù)據(jù)訪問獲取方面存在障礙。比如,RDF轉(zhuǎn)儲文件過大、數(shù)據(jù)鏈接不穩(wěn)定、數(shù)據(jù)集更新不及時等等。這涉及到關(guān)聯(lián)數(shù)據(jù)有效性的問題,因?yàn)殡S著關(guān)聯(lián)數(shù)據(jù)集的不斷增多,不同數(shù)據(jù)集之間的鏈接關(guān)系將會越來越復(fù)雜。任何一個數(shù)據(jù)集的狀態(tài)發(fā)生變化,哪怕是單個三元組層面上的變化,都可能導(dǎo)致與之相鏈接的其他數(shù)據(jù)集發(fā)生訪問故障[5]。因此,獲取關(guān)聯(lián)數(shù)據(jù)的前提是保證URI的完整性、準(zhǔn)確性和有效性。

數(shù)據(jù)使用障礙方面。在關(guān)聯(lián)數(shù)據(jù)的使用方面,接近一半的組織機(jī)構(gòu)表示在原始數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)之間的匹配、消除歧義過程中存在障礙。因?yàn)樵谙M(fèi)關(guān)聯(lián)數(shù)據(jù)前,需要對數(shù)據(jù)進(jìn)行處理,比如對同一實(shí)體對象的識別、去重。然而不同來源的關(guān)聯(lián)數(shù)據(jù)對同一個實(shí)體(如人物、地點(diǎn)等)可能采用了不同的URI來標(biāo)識,對于作者、刊名等實(shí)體的消歧、去重的工作量巨大。另外,有一部分組織機(jī)構(gòu)表示在不同關(guān)聯(lián)數(shù)據(jù)源之間的詞匯表映射存在障礙。因?yàn)椴煌瑏碓吹年P(guān)聯(lián)數(shù)據(jù)可能采用不同的詞表,使用前則需要不同來源的關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的詞匯表描述。轉(zhuǎn)換工作主要依據(jù)詞表將數(shù)據(jù)映射成本地的數(shù)據(jù)模式,另外,還需要依據(jù)人工產(chǎn)生或者經(jīng)過數(shù)據(jù)挖掘得到的映射規(guī)則進(jìn)行轉(zhuǎn)換[6]。

其他障礙方面。在2018年的調(diào)查中,受訪者列出了消費(fèi)關(guān)聯(lián)數(shù)據(jù)的其他障礙。比如,數(shù)據(jù)轉(zhuǎn)換復(fù)雜、缺乏最佳實(shí)踐、安全和隱私問題、數(shù)據(jù)集太大而不能作為一個整體發(fā)布(其他人難以使用)以及缺乏機(jī)構(gòu)支持等。

三、提升路徑

解決關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施過程中的發(fā)布和消費(fèi)障礙,是所有關(guān)聯(lián)數(shù)據(jù)項(xiàng)目面臨的一個現(xiàn)實(shí)問題。實(shí)際上,關(guān)聯(lián)數(shù)據(jù)的發(fā)布和消費(fèi)是一個存在邏輯順序的過程,結(jié)合上節(jié)的發(fā)布和消費(fèi)障礙可以發(fā)現(xiàn),關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施的主要障礙可以概括為關(guān)聯(lián)數(shù)據(jù)發(fā)布障礙導(dǎo)致的關(guān)聯(lián)數(shù)據(jù)質(zhì)量問題,進(jìn)而引起關(guān)聯(lián)數(shù)據(jù)消費(fèi)障礙。故,關(guān)聯(lián)數(shù)據(jù)的質(zhì)量是關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施的核心。

1.保證原始數(shù)據(jù)質(zhì)量

關(guān)聯(lián)數(shù)據(jù)是基于對原始數(shù)據(jù)的RDF描述產(chǎn)生的,因此,原始數(shù)據(jù)質(zhì)量決定關(guān)聯(lián)數(shù)據(jù)的質(zhì)量。應(yīng)建立原始數(shù)據(jù)選擇標(biāo)準(zhǔn),包括兩個方面:一是保證原始數(shù)據(jù)自身質(zhì)量,二是根據(jù)用戶需求,選擇適合關(guān)聯(lián)數(shù)據(jù)化的數(shù)據(jù)。

保證原始數(shù)據(jù)自身質(zhì)量方面。首先,應(yīng)對數(shù)字資源生產(chǎn)者進(jìn)行考察,確保原始數(shù)據(jù)來源的可信任性[7]。原始數(shù)據(jù)來源可信任性的認(rèn)定一般需要延伸到數(shù)字資源生產(chǎn)領(lǐng)域。常用的手段包括:檢查數(shù)字資源生產(chǎn)企業(yè)的資質(zhì)證明,考察其數(shù)字資源生產(chǎn)流程是否符合標(biāo)準(zhǔn)作業(yè)流程,評估數(shù)據(jù)校驗(yàn)方式是否安全可靠等。其次,對原始數(shù)據(jù)的正確性和完整性進(jìn)行驗(yàn)證,以便檢測在數(shù)字保存過程中可能出現(xiàn)的數(shù)據(jù)丟失和損壞。

用戶需求分析方面。根據(jù)OCLC的調(diào)查,大多數(shù)組織機(jī)構(gòu)發(fā)布關(guān)聯(lián)數(shù)據(jù)并非針對某一特定用戶,為了滿足不同類型用戶需求而追求發(fā)布關(guān)聯(lián)數(shù)據(jù)的“大而全”。實(shí)際上某些需求只是理論存在,現(xiàn)實(shí)幾乎不可能出現(xiàn)。從綠色關(guān)聯(lián)數(shù)據(jù)[8]的角度來看,“大而全”的關(guān)聯(lián)數(shù)據(jù)發(fā)布原則會導(dǎo)致發(fā)布成本的增加與檢索效率的降低。因此,首先應(yīng)根據(jù)用戶需求對本地原始數(shù)據(jù)進(jìn)行篩選,保留用戶需要的數(shù)據(jù),刪除用戶不需要或極少需要的數(shù)據(jù)。其次,本地數(shù)據(jù)模型與用戶實(shí)際需要相結(jié)合,對數(shù)據(jù)字段進(jìn)行增刪、修改,分析哪些字段所提供的信息是用戶需要的,應(yīng)予以保留,哪些字段所提供的信息用戶不需要或極少用到,應(yīng)予以刪除。同時要厘清不同字段間的相互關(guān)系,在此基礎(chǔ)上構(gòu)建關(guān)聯(lián)數(shù)據(jù)模型。

2.原始數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)的語義描述映射

關(guān)聯(lián)數(shù)據(jù)模型設(shè)計(jì)方面。數(shù)據(jù)模型應(yīng)準(zhǔn)確地反映現(xiàn)實(shí)世界中數(shù)據(jù)之間的內(nèi)在邏輯關(guān)系。基于對用戶的數(shù)據(jù)需求分析結(jié)果,將概念之間的具體聯(lián)系轉(zhuǎn)化成相對抽象的概念數(shù)據(jù)模型。在此基礎(chǔ)上,將概念數(shù)據(jù)模型轉(zhuǎn)化為邏輯數(shù)據(jù)模型,即將概念數(shù)據(jù)模型先轉(zhuǎn)化為具體的數(shù)據(jù)結(jié)構(gòu),并對數(shù)據(jù)結(jié)構(gòu)內(nèi)數(shù)據(jù)間的語法聯(lián)系、制約和依存關(guān)系以及數(shù)據(jù)動態(tài)變化的規(guī)則進(jìn)行描述,以保證數(shù)據(jù)的正確、有效和相容[9]。同時,也要注意關(guān)聯(lián)數(shù)據(jù)與外部關(guān)聯(lián)數(shù)據(jù)源之間的關(guān)聯(lián)關(guān)系設(shè)計(jì),主要有以下幾類:與人的關(guān)聯(lián)、與時間的關(guān)聯(lián)、與空間的關(guān)聯(lián)等,相應(yīng)地,圖書館可以根據(jù)自身情況以及數(shù)據(jù)需求分析的結(jié)果,確定關(guān)聯(lián)數(shù)據(jù)應(yīng)包含哪些類型的關(guān)聯(lián)信息,并從現(xiàn)有的詞匯表中選擇關(guān)聯(lián)屬性,如foaf:knows、owl:sameAs等。

RDF詞匯表、本體選擇方面。雖然RDF詞匯表還沒有統(tǒng)一的國際標(biāo)準(zhǔn),但描述本地數(shù)據(jù)時,應(yīng)盡可能選擇在網(wǎng)絡(luò)中已廣泛應(yīng)用、具備一定權(quán)威性的詞匯表。一是成熟的RDF詞匯表描述能夠使關(guān)聯(lián)數(shù)據(jù)語義更加明確,減輕本地元數(shù)據(jù)管理負(fù)擔(dān),二是增加與使用相同詞表的外部資源的鏈接,用戶更容易獲取相關(guān)鏈接,進(jìn)而能夠保證關(guān)聯(lián)數(shù)據(jù)的互操作性。如果現(xiàn)有的詞匯表不能滿足本地數(shù)據(jù)的描述需求而需自定義詞匯表時,在保證語義描述清晰、準(zhǔn)確的前提下,遵循易于重用和互操作的原則。例如大英圖書館,除了使用自定義的BLT本體詞表,還引用了14個成熟RDF詞表,目的是可以更好的與其他圖書館的關(guān)聯(lián)書目數(shù)據(jù)建立鏈接。

3.關(guān)聯(lián)數(shù)據(jù)鏈接維護(hù)

URI選擇方面。關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)是通過URI來實(shí)現(xiàn)的。因此,為每個資源選擇URI時,要保證URI穩(wěn)定、持久、短小易記等要求。首先,要使用HTTP URI,這是Tim Berners-Lee提出的關(guān)聯(lián)數(shù)據(jù)四項(xiàng)基本原則之一。其次,URI長度應(yīng)盡量短,URI過長會導(dǎo)致用戶使用不便。再次,URI應(yīng)保持穩(wěn)定,URI發(fā)生變化可能會導(dǎo)致斷鏈的產(chǎn)生。最后,URI不能包含變量,每個URI必須是確定不變的。

動態(tài)鏈接維護(hù)方面。大多數(shù)據(jù)集合處于不斷更新變化之中(包括增加、刪除、移動等操作),數(shù)據(jù)集合的動態(tài)性直接決定了鏈接的動態(tài)性,對這些動態(tài)鏈接進(jìn)行及時、有效的維護(hù)是發(fā)揮關(guān)聯(lián)數(shù)據(jù)作用、體現(xiàn)關(guān)聯(lián)數(shù)據(jù)價值的重要保證,包括及時修補(bǔ)斷鏈、刪除已消失的鏈接、建立新鏈接等。目前主要的動態(tài)鏈接維護(hù)技術(shù)有三種:一是基于WOD-LMP協(xié)議(web of data link maintenance protocol)的動態(tài)鏈接維護(hù),這種方法要求鏈接雙方都遵守WOD-LMP協(xié)議;二是基于更新通知的動態(tài)鏈接維護(hù),適用于目標(biāo)數(shù)據(jù)集合具有數(shù)據(jù)更新通知機(jī)制的情況。如Triplify更新日志方法、sparqlPuSH方法、DBPedia Live方法、PingTheSemanticWeb方法等;三是基于主動監(jiān)測機(jī)制的動態(tài)鏈接維護(hù),這種方法對目標(biāo)數(shù)據(jù)集的要求較低,只需要提供SPARQL查詢接口或支持RDF堆下載即可。如DSNotify方法。

基于OCLC在2015年和2018年的兩次調(diào)查結(jié)果可以發(fā)現(xiàn),關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的實(shí)施仍然處于不斷的發(fā)展之中。無論是關(guān)聯(lián)數(shù)據(jù)的發(fā)布還是消費(fèi),還存在許多障礙,但是依然要鼓勵更多的關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施,將越來越多的數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到Web網(wǎng)絡(luò)中,最終實(shí)現(xiàn)數(shù)據(jù)網(wǎng)絡(luò)。國內(nèi)對于關(guān)聯(lián)數(shù)據(jù)的研究起步較晚,大多數(shù)仍然處于理論研究階段,大規(guī)模的關(guān)聯(lián)數(shù)據(jù)項(xiàng)目少見。雖然目前缺少對我國關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施情況的整體調(diào)查,但綜合國際上關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的實(shí)施情況,情況不會樂觀。在未來的實(shí)踐中,應(yīng)多借鑒國外較成熟的關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)施經(jīng)驗(yàn),促進(jìn)國內(nèi)外數(shù)據(jù)資源的交流融合。關(guān)聯(lián)數(shù)據(jù)的發(fā)布與消費(fèi)是一個連續(xù)的過程,在消費(fèi)過程中遇到的障礙同時也會倒逼關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)的提升。隨著關(guān)聯(lián)數(shù)據(jù)應(yīng)用范圍的擴(kuò)大,關(guān)聯(lián)數(shù)據(jù)的應(yīng)用效果日益顯現(xiàn),其實(shí)現(xiàn)技術(shù)和工具也會越來越成熟和易于應(yīng)用。

參考文獻(xiàn)

[1] Berners-Lee.Linked Data-Design Issues[EB/OL].[2019-01-06].

http://www.w3.org/DesignIssues/LinkedData.html

[2]OCLC.Analysis of 2018 International Linked Data Survey for Implementers[EB/OL].[2019-01-21].

https://www.oclc.org/research/publications/all/analysis-of-2018-linked-data-survey.html

[3]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報,2012(2):5~12

[4]夏翠娟,劉煒.關(guān)聯(lián)數(shù)據(jù)的消費(fèi)技術(shù)及實(shí)現(xiàn)[J].大學(xué)圖書館學(xué)報,2013(3):29~37

[5]郭少友.關(guān)聯(lián)數(shù)據(jù)的動態(tài)鏈接維護(hù)研究[J].圖書情報工作,2011,55(17):112~116

[6]黃永文,岳笑.關(guān)聯(lián)數(shù)據(jù)應(yīng)用的體系框架及構(gòu)建關(guān)聯(lián)數(shù)據(jù)應(yīng)用的建議[J].現(xiàn)代圖書情報技術(shù),2011(9):7~13

[7]臧國全.基于項(xiàng)目生命周期的信息資源數(shù)字化建設(shè)研究[M].武漢:武漢大學(xué)出版社,2014.171~172

[8]郭少友.綠色關(guān)聯(lián)數(shù)據(jù):概念、要求與工程[J].圖書情報工作,2012,56(23):113~118

作者簡介:李素芳(1992-),女,研究生,研究方向:圖書情報。

主站蜘蛛池模板: 精品国产www| 国产丝袜无码精品| 萌白酱国产一区二区| 国产丰满成熟女性性满足视频| 色丁丁毛片在线观看| 亚洲第一综合天堂另类专| 国产精品色婷婷在线观看| 亚洲A∨无码精品午夜在线观看| 婷婷色在线视频| аⅴ资源中文在线天堂| 四虎影视8848永久精品| 亚洲精品手机在线| 91精品国产91欠久久久久| a级毛片网| 有专无码视频| 久操线在视频在线观看| 国产成人精品日本亚洲| 国产免费羞羞视频| 毛片在线播放a| 欧美成人一级| 亚洲无码日韩一区| 为你提供最新久久精品久久综合| 国产又黄又硬又粗| 久久综合婷婷| 亚洲 欧美 偷自乱 图片| 日本高清免费一本在线观看| 日韩黄色精品| 欧美黑人欧美精品刺激| 亚洲二区视频| 国产真实乱了在线播放| 污视频日本| 色婷婷天天综合在线| 国产一级在线播放| 91福利在线看| 99伊人精品| 国内熟女少妇一线天| 制服丝袜无码每日更新| 亚欧美国产综合| 国产青青操| 国产主播一区二区三区| 国产精品无码久久久久久| 91福利一区二区三区| 一级高清毛片免费a级高清毛片| 色综合久久综合网| 不卡网亚洲无码| 综合亚洲色图| 精品国产成人高清在线| 精品福利网| 999国内精品视频免费| 真人免费一级毛片一区二区| 91精选国产大片| 国产高清在线观看91精品| 4虎影视国产在线观看精品| 激情爆乳一区二区| 自拍偷拍欧美| 午夜视频免费一区二区在线看| 萌白酱国产一区二区| lhav亚洲精品| 99久视频| 欧美在线视频不卡| 内射人妻无码色AV天堂| 欧美伊人色综合久久天天| 国产精品七七在线播放| 久久人人97超碰人人澡爱香蕉 | 97精品国产高清久久久久蜜芽| 成年人久久黄色网站| 91在线高清视频| 精品国产一区二区三区在线观看| 亚洲成人高清无码| 精品人妻系列无码专区久久| 色悠久久久久久久综合网伊人| 欧美人与牲动交a欧美精品| 996免费视频国产在线播放| 国产成人1024精品| www中文字幕在线观看| 日韩精品亚洲人旧成在线| 1级黄色毛片| 狠狠v日韩v欧美v| 亚洲一区二区黄色| 精品久久高清| 国产成人精品高清不卡在线| 精品夜恋影院亚洲欧洲|