999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合研究*

2015-07-22 11:49:38肖希明劉巧園武漢大學(xué)信息管理學(xué)院武漢430072
圖書館 2015年9期

肖希明 劉巧園(武漢大學(xué)信息管理學(xué)院 武漢 430072)

基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合研究*

肖希明 劉巧園
(武漢大學(xué)信息管理學(xué)院 武漢 430072)

〔摘 要〕文章首先介紹了元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)及基于其的數(shù)字資源整合方式的基本內(nèi)涵,其次指出公共數(shù)字文化資源具有異構(gòu)性和分散性等特點(diǎn),并分析了其現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)。隨后探討了元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)在公共數(shù)字文化資源整合領(lǐng)域的實(shí)現(xiàn),構(gòu)建了基于元數(shù)據(jù)倉(cāng)儲(chǔ)的資源整合框架及體系結(jié)構(gòu),最后分析了元數(shù)據(jù)倉(cāng)儲(chǔ)在公共數(shù)字文化資源整合領(lǐng)域的應(yīng)用前景,并探討了其可能面臨的問題及解決對(duì)策。

〔關(guān)鍵詞〕公共數(shù)字文化資源 數(shù)字資源整合 元數(shù)據(jù)倉(cāng)儲(chǔ)

1 引言

公共文化機(jī)構(gòu)擁有類型多樣、質(zhì)量較高的文化資源,然而用戶在訪問和獲取公共文化機(jī)構(gòu)的實(shí)體資源時(shí)往往受到時(shí)間、空間等諸多因素的限制,這極大地影響了公共文化資源的利用率。近年來(lái),公共文化機(jī)構(gòu)逐步開展館藏實(shí)體資源數(shù)字化工作,旨在建設(shè)完備的館藏資源體系,提高公共文化服務(wù)水平。隨著數(shù)字資源規(guī)模的不斷擴(kuò)大,不同主題不同形式的異構(gòu)資源存儲(chǔ)在不同文化機(jī)構(gòu)的不同數(shù)據(jù)庫(kù)中,使信息資源的管理和共享在一定程度上受到阻礙,信息孤島現(xiàn)象時(shí)有發(fā)生。[1]因此,進(jìn)行公共數(shù)字文化資源整合以最大限度利用現(xiàn)有資源,實(shí)現(xiàn)數(shù)字資源共建共享成為了公共文化機(jī)構(gòu)所面臨的重要課題之一。

常見的數(shù)字資源整合方式主要有模式集成和數(shù)據(jù)復(fù)制。[2]模式集成(Schema Integration)起步較早,是其它整合方式的基礎(chǔ)。模式集成是指在數(shù)字資源整合過程中將來(lái)源于不同數(shù)據(jù)庫(kù)的數(shù)據(jù)視圖集成為全局模式(Golobal Schema),以幫助用戶無(wú)限制地訪問各數(shù)據(jù)庫(kù)的數(shù)字資源。[3]而數(shù)據(jù)復(fù)制則是通過對(duì)各數(shù)據(jù)庫(kù)的異構(gòu)數(shù)據(jù)進(jìn)行復(fù)制以完成對(duì)數(shù)字資源的整合,為用戶提供一站式服務(wù),滿足用戶信息需求,提升用戶瀏覽和獲取信息資源的體驗(yàn),其代表方式是建立數(shù)據(jù)倉(cāng)儲(chǔ)(Data Warehouse)。

資源整合方式的選擇直接影響著資源整合的成敗,對(duì)公共數(shù)字文化資源整合方式的研究已成為該領(lǐng)域面臨的重要課題。本文將重點(diǎn)分析基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合方式及其在公共數(shù)字文化資源整合領(lǐng)域的實(shí)現(xiàn)方式,希望能為公共數(shù)字文化資源整合提供某些參考。

2 基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合方式

2.1 數(shù)據(jù)倉(cāng)儲(chǔ)與元數(shù)據(jù)倉(cāng)儲(chǔ)

數(shù)據(jù)復(fù)制是物理整合方式之一,即對(duì)各數(shù)據(jù)庫(kù)的資源進(jìn)行復(fù)制和轉(zhuǎn)換,統(tǒng)一存儲(chǔ)到數(shù)據(jù)倉(cāng)儲(chǔ)中供用戶檢索、瀏覽和獲取。數(shù)據(jù)倉(cāng)儲(chǔ)在資源整合過程中扮演著重要角色,將分散的、異構(gòu)的資源整合為集中的、同構(gòu)的資源為用戶提供一站式服務(wù)。在傳統(tǒng)的資源檢索中用戶需要分別登錄不同的數(shù)據(jù)庫(kù),根據(jù)各數(shù)據(jù)庫(kù)的檢索規(guī)則構(gòu)建不同的檢索式來(lái)檢索所需的資源,而在數(shù)據(jù)倉(cāng)儲(chǔ)中用戶只需要進(jìn)行一次身份驗(yàn)證便可以無(wú)障礙地檢索和獲取眾多數(shù)據(jù)庫(kù)中的資源,訪問效率和用戶體驗(yàn)大大提升。然而,構(gòu)建數(shù)據(jù)倉(cāng)儲(chǔ)對(duì)本地存儲(chǔ)容量、資源獲取能力和更新維護(hù)效率要求較高,普通機(jī)構(gòu)由于自身人力、物力和財(cái)力有限很難完成數(shù)據(jù)倉(cāng)儲(chǔ)的建立和維護(hù),因而元數(shù)據(jù)倉(cāng)儲(chǔ)隨之產(chǎn)生。與數(shù)據(jù)倉(cāng)儲(chǔ)不同,元數(shù)據(jù)倉(cāng)儲(chǔ)不是直接將異構(gòu)數(shù)據(jù)庫(kù)中的資源內(nèi)容復(fù)制到倉(cāng)儲(chǔ)中,而是將資源的元數(shù)據(jù)復(fù)制到倉(cāng)儲(chǔ)中,從而有效減少了所占存儲(chǔ)空間,減輕了機(jī)構(gòu)的維護(hù)負(fù)擔(dān)。元數(shù)據(jù)倉(cāng)儲(chǔ)目前在圖書館領(lǐng)域應(yīng)用較多,如美國(guó)密歇根大學(xué)數(shù)字圖書館建立的OAIster系統(tǒng)就是利用OAIPMH協(xié)議收割元數(shù)據(jù)并建立元數(shù)據(jù)倉(cāng)儲(chǔ)。[4]我國(guó)高校圖書館間的CALIS系統(tǒng)也是采用構(gòu)建本地元數(shù)據(jù)倉(cāng)儲(chǔ)的方式建設(shè)而成,為用戶提供異構(gòu)數(shù)據(jù)庫(kù)的資源檢索、獲取和文獻(xiàn)傳遞服務(wù)。[5]

2.2 基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合方式

基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合方式的基本原理是:通過在用戶和數(shù)據(jù)庫(kù)之間增加一個(gè)數(shù)據(jù)層以存儲(chǔ)來(lái)自數(shù)據(jù)庫(kù)的元數(shù)據(jù)信息并對(duì)用戶的檢索請(qǐng)求做出回應(yīng)將檢索結(jié)果返回至用戶界面[6],用戶通過元數(shù)據(jù)及其鏈接實(shí)現(xiàn)對(duì)資源的獲取。由于該方式?jīng)]有破壞數(shù)據(jù)庫(kù)本身的體系結(jié)構(gòu),原有的分布式數(shù)據(jù)庫(kù)仍然保持獨(dú)立,這使得它能夠同時(shí)在不同數(shù)據(jù)庫(kù)中進(jìn)行檢索,支持并發(fā)用戶的檢索請(qǐng)求,因此特別適用于大規(guī)模異構(gòu)資源的整合。該整合方式使得資源的瀏覽和檢索獨(dú)立于原數(shù)據(jù)庫(kù),具有較強(qiáng)的穩(wěn)定性,資源獲取效率也得以提高。通過建立元數(shù)據(jù)倉(cāng)儲(chǔ)可以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的整合,為異構(gòu)數(shù)據(jù)的獲取和共享提供統(tǒng)一視圖,有效提高檢索效率。此外,由于元數(shù)據(jù)倉(cāng)儲(chǔ)集成了來(lái)自不同數(shù)據(jù)庫(kù)的資源,在支持跨庫(kù)檢索的同時(shí)還能夠進(jìn)行高級(jí)檢索和二次檢索,為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)服務(wù)奠定了基礎(chǔ)。[7]但是該整合方式在元數(shù)據(jù)獲取和維護(hù)方面也存在一定的困難。元數(shù)據(jù)的獲取對(duì)資源提供者的依賴程度較高,只有當(dāng)其提供數(shù)據(jù)接口和訪問許可時(shí)才能夠獲取元數(shù)據(jù)信息,但部分商業(yè)數(shù)據(jù)庫(kù)基于自身利益的考慮不愿提供接口供外部使用。而在元數(shù)據(jù)維護(hù)方面,元數(shù)據(jù)倉(cāng)儲(chǔ)中的數(shù)據(jù)必須定期進(jìn)行更新才能夠?yàn)橛脩籼峁?shí)時(shí)的檢索結(jié)果,保證檢索的精確性。

3 公共數(shù)字文化資源特點(diǎn)及其元數(shù)據(jù)標(biāo)準(zhǔn)

3.1 公共數(shù)字文化資源的特點(diǎn)

公共數(shù)字文化資源整合領(lǐng)域的資源來(lái)自于圖書館、博物館、檔案館、美術(shù)館及藝術(shù)館等公共文化機(jī)構(gòu),這些機(jī)構(gòu)的內(nèi)容特色、服務(wù)對(duì)象、服務(wù)形式和管理方式各不相同,因此不同的機(jī)構(gòu)大多擁有不同的元數(shù)據(jù)標(biāo)準(zhǔn),甚至同一機(jī)構(gòu)的不同數(shù)據(jù)庫(kù)間元數(shù)據(jù)標(biāo)準(zhǔn)也存在差異,機(jī)構(gòu)間的資源整合面臨著諸多挑戰(zhàn)。

異構(gòu)性是公共數(shù)字文化資源最顯著的特點(diǎn),具體表現(xiàn)在以下幾個(gè)方面:①來(lái)源機(jī)構(gòu)異構(gòu)。這些數(shù)字資源來(lái)源于不同文化機(jī)構(gòu)的不同部門,部分資源是文化機(jī)構(gòu)自建所得,也有部分資源來(lái)自于文化機(jī)構(gòu)所購(gòu)買的商業(yè)數(shù)據(jù)庫(kù)。②數(shù)據(jù)庫(kù)模式異構(gòu)。數(shù)據(jù)庫(kù)模式種類眾多,常見的有關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο笮蛿?shù)據(jù)庫(kù)、網(wǎng)絡(luò)型數(shù)據(jù)庫(kù)等,不同模式數(shù)據(jù)庫(kù)間的互操作較為困難。③元數(shù)據(jù)標(biāo)準(zhǔn)異構(gòu)。各文化機(jī)構(gòu)所采用的元數(shù)據(jù)標(biāo)準(zhǔn)本身各有差異,在面對(duì)具體資源的描述時(shí)文化機(jī)構(gòu)往往會(huì)考慮資源的類型和內(nèi)容,在現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上根據(jù)本機(jī)構(gòu)的實(shí)際情況加以調(diào)整。④資源獲取方式異構(gòu)。各數(shù)據(jù)庫(kù)所支持的協(xié)議也有所差別,多數(shù)數(shù)據(jù)庫(kù)支持用戶采用HTTP協(xié)議訪問數(shù)據(jù)庫(kù)資源,部分文化機(jī)構(gòu)支持Z39.50協(xié)議、OAI-PMH元數(shù)據(jù)收割協(xié)議等。

分散性是公共數(shù)字文化資源的又一特點(diǎn)。首先是文化資源的管理相對(duì)分散。各文化機(jī)構(gòu)由于社會(huì)職能不同而具有不同的核心價(jià)值觀和組織文化,數(shù)字資源的管理理念存在很大差異,如圖書館旨在最大限度地利用本館數(shù)字資源突破時(shí)間和空間限制,滿足用戶的信息需求,而檔案館則是通過資源數(shù)字化來(lái)打破存儲(chǔ)空間的限制,實(shí)現(xiàn)檔案和史料資源的長(zhǎng)期保存,較少關(guān)注用戶對(duì)數(shù)字資源的利用。其次是文化資源的存儲(chǔ)較為分散。各文化機(jī)構(gòu)通過本館館藏?cái)?shù)字化、購(gòu)買商業(yè)數(shù)據(jù)庫(kù)、收集整合互聯(lián)網(wǎng)資源等方式來(lái)建設(shè)本機(jī)構(gòu)的數(shù)字資源,這就使得資源的存儲(chǔ)相對(duì)分散,不利于信息資源的共享。此外,公共數(shù)字文化資源還具有數(shù)量巨大、種類繁多、更新速度較快等特點(diǎn)。在進(jìn)行公共數(shù)字文化資源整合時(shí)必須充分考慮這些特點(diǎn),保證資源整合系統(tǒng)的運(yùn)行效率。

3.2 公共數(shù)字文化資源的元數(shù)據(jù)標(biāo)準(zhǔn)

公共文化機(jī)構(gòu)根據(jù)自身資源特點(diǎn)確立本機(jī)構(gòu)的資源描述標(biāo)準(zhǔn)和組織體系,不同類型的機(jī)構(gòu)間甚至同一類型的不同機(jī)構(gòu)間在資源描述及元數(shù)據(jù)標(biāo)準(zhǔn)選擇上都存在著較大差異。表1列出了部分文化機(jī)構(gòu)常用的元數(shù)據(jù)標(biāo)準(zhǔn)及其用途。[8]

表1 部分公共文化機(jī)構(gòu)常用的元數(shù)據(jù)標(biāo)準(zhǔn)及其用途

由表1可知,以圖書館、博物館和檔案館為代表的公共文化機(jī)構(gòu)在長(zhǎng)期發(fā)展中形成了眾多用途各異的元數(shù)據(jù)標(biāo)準(zhǔn),如何解決現(xiàn)有數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一問題成為了公共數(shù)字文化資源整合需要面對(duì)的重要難題。基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合方式通過建設(shè)數(shù)據(jù)倉(cāng)儲(chǔ)存儲(chǔ)不同來(lái)源的元數(shù)據(jù)信息,消除異構(gòu)數(shù)據(jù)差異,是實(shí)現(xiàn)公共數(shù)字文化資源整合的有效途徑。

4 元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)在公共數(shù)字文化資源整合領(lǐng)域的實(shí)現(xiàn)

4.1 基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合框架

信息孤島的存在嚴(yán)重影響了文化機(jī)構(gòu)現(xiàn)有資源的利用率,資源整合能夠?qū)⒎植荚诟鲾?shù)據(jù)庫(kù)的文化資源按照一定的規(guī)則組織起來(lái)提供再利用,通過對(duì)資源進(jìn)行深度鏈接來(lái)實(shí)現(xiàn)知識(shí)挖掘,提升公共文化服務(wù)水平。公共數(shù)字文化資源整合的總體目標(biāo)是實(shí)現(xiàn)不同來(lái)源、形式、具有不同物理或邏輯特征的異構(gòu)資源的有機(jī)整合,消除各類資源間差異,實(shí)現(xiàn)公共文化機(jī)構(gòu)間數(shù)字資源的可視化和共享。[9]具體目標(biāo)包括為用戶提供統(tǒng)一的資源檢索入口和檢索結(jié)果顯示、確保數(shù)據(jù)庫(kù)之間既各自獨(dú)立又相互聯(lián)系、保證整合平臺(tái)中的資源實(shí)時(shí)更新等。基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合框架及其體系結(jié)構(gòu)如圖1所示。

圖1 基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合框架

圖2 基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合基本流程

基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合的基本流程(如圖2所示):首先對(duì)不同機(jī)構(gòu)的文化資源進(jìn)行元數(shù)據(jù)采集,然后利用數(shù)據(jù)抽取技術(shù)對(duì)采集好的元數(shù)據(jù)進(jìn)行抽取和規(guī)范化處理,再利用數(shù)據(jù)轉(zhuǎn)換技術(shù)消除異構(gòu)資源間的差異,將處理好的元數(shù)據(jù)信息裝載到元數(shù)據(jù)倉(cāng)儲(chǔ)中,當(dāng)用戶在資源檢索平臺(tái)發(fā)出檢索請(qǐng)求時(shí),由平臺(tái)將檢索請(qǐng)求傳遞給元數(shù)據(jù)倉(cāng)儲(chǔ),元數(shù)據(jù)倉(cāng)儲(chǔ)將檢索結(jié)果返回給用戶,最終用戶通過元數(shù)據(jù)提供的相關(guān)鏈接從原數(shù)據(jù)庫(kù)中獲取資源。

4.2 公共數(shù)字文化資源整合框架的體系結(jié)構(gòu)

4.2.1 數(shù)據(jù)層

數(shù)據(jù)層是文化資源整合系統(tǒng)的基礎(chǔ),它一方面負(fù)責(zé)實(shí)現(xiàn)本地?cái)?shù)字資源的保存,另一方面響應(yīng)用戶的資源獲取請(qǐng)求并將滿足用戶需求的資源傳遞給用戶。首先,數(shù)據(jù)層由分布在不同文化機(jī)構(gòu)的多個(gè)異構(gòu)數(shù)據(jù)庫(kù)構(gòu)成,而公共數(shù)字文化資源整合所涉及的機(jī)構(gòu)數(shù)量較多、范圍廣泛、學(xué)科類別多樣,因此數(shù)據(jù)層的資源內(nèi)容形式各不相同,資源質(zhì)量也有所不同。其次,元數(shù)據(jù)倉(cāng)儲(chǔ)存儲(chǔ)的是來(lái)自數(shù)據(jù)庫(kù)的元數(shù)據(jù)資源而不是資源內(nèi)容本身,當(dāng)用戶發(fā)出資源獲取請(qǐng)求時(shí),數(shù)據(jù)庫(kù)需要及時(shí)做出響應(yīng)將資源內(nèi)容傳遞給用戶,該動(dòng)作主要由OpenURL鏈接完成。OpenURL鏈接通過帶有元數(shù)據(jù)信息和資源地址信息的URL,解決資源整合平臺(tái)中的元數(shù)據(jù)描述到原數(shù)據(jù)庫(kù)中的資源定位的問題。[10]其具體原理是當(dāng)用戶發(fā)出資源傳遞請(qǐng)求,鏈接服務(wù)器便啟動(dòng),在不同數(shù)據(jù)庫(kù)中檢索該資源標(biāo)識(shí)符的有關(guān)信息,檢索完成后在資源整合平臺(tái)上顯示一個(gè)OpenURL鏈接,以幫助用戶完成對(duì)資源的獲取。這種方式的優(yōu)點(diǎn)在于資源內(nèi)容的變動(dòng)不會(huì)影響到資源的URL,減輕了資源整合系統(tǒng)的維護(hù)負(fù)擔(dān),提高了系統(tǒng)的穩(wěn)定性。

4.2.2 元數(shù)據(jù)倉(cāng)儲(chǔ)層

元數(shù)據(jù)倉(cāng)儲(chǔ)層反映了元數(shù)據(jù)從采集到裝載的過程,是公共數(shù)字文化資源整合的關(guān)鍵環(huán)節(jié)。要建立元數(shù)據(jù)倉(cāng)儲(chǔ),首先要進(jìn)行元數(shù)據(jù)采集。根據(jù)資源結(jié)構(gòu)的特點(diǎn)采用相應(yīng)的資源采集方式是保證采集質(zhì)量和效率的前提,公共文化機(jī)構(gòu)經(jīng)常采用ODBC/JDBC接口、OAIPMH協(xié)議、Z39.50資源適配器等方式進(jìn)行元數(shù)據(jù)采集。使用頻率最高的是OAI-PMH協(xié)議,憑借其簡(jiǎn)單性、易用性和多元化等特點(diǎn)在數(shù)字資源整合領(lǐng)域中備受青睞。OAI-PMH協(xié)議最初被應(yīng)用于學(xué)術(shù)信息資源的共享,隨后逐步推廣到多個(gè)信息資源整合領(lǐng)域。采用OAI-PMH元數(shù)據(jù)收割協(xié)議能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)間的互操作,使資源檢索和獲取不再受到元數(shù)據(jù)標(biāo)準(zhǔn)、操作系統(tǒng)、學(xué)科領(lǐng)域和語(yǔ)言等的限制,實(shí)現(xiàn)資源共享。[11]采用該協(xié)議進(jìn)行元數(shù)據(jù)采集時(shí)需要指定對(duì)象提供支持該協(xié)議的收割接口,但公共文化機(jī)構(gòu)在這方面投入較少尚不能提供支持服務(wù),而部分商業(yè)數(shù)據(jù)庫(kù)基于自身利益考量不愿提供相應(yīng)接口,要實(shí)現(xiàn)對(duì)分布數(shù)據(jù)庫(kù)資源的元數(shù)據(jù)收割還需要各文化機(jī)構(gòu)的共同努力。

ETL是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)和裝載(Load)的統(tǒng)稱。數(shù)據(jù)抽取即統(tǒng)一抽取不同數(shù)據(jù)庫(kù)資源的元數(shù)據(jù)的過程,系統(tǒng)通過預(yù)先定義好的抽取規(guī)則來(lái)定義目標(biāo)數(shù)據(jù)、抽取內(nèi)容、數(shù)據(jù)構(gòu)成及抽取方式等進(jìn)而實(shí)現(xiàn)元數(shù)據(jù)抽取。該過程過濾了多余的內(nèi)容信息,實(shí)現(xiàn)了元數(shù)據(jù)格式轉(zhuǎn)換,為元數(shù)據(jù)倉(cāng)儲(chǔ)的建立奠定了基礎(chǔ)。數(shù)據(jù)轉(zhuǎn)換通常包括轉(zhuǎn)換和清洗兩個(gè)步驟,數(shù)據(jù)轉(zhuǎn)換主要解決由于數(shù)據(jù)結(jié)構(gòu)不一致、定義不規(guī)范等原因造成的數(shù)據(jù)不一致問題,使異構(gòu)元數(shù)據(jù)形式統(tǒng)一;數(shù)據(jù)清洗工作則主要解決數(shù)據(jù)冗余問題和元數(shù)據(jù)信息缺失問題,形成同構(gòu)的、完整的元數(shù)據(jù)集合。數(shù)據(jù)裝載是指把經(jīng)過轉(zhuǎn)換和清洗的元數(shù)據(jù)信息裝載到元數(shù)據(jù)倉(cāng)儲(chǔ)中的過程。數(shù)據(jù)裝載主要有兩種技術(shù):一是利用數(shù)據(jù)庫(kù)商提供的專業(yè)工具進(jìn)行裝載,如Oracle數(shù)據(jù)庫(kù)提供專業(yè)工具包,幫助用戶實(shí)現(xiàn)數(shù)據(jù)遷移,二是利用數(shù)據(jù)庫(kù)商提供的應(yīng)用程序接口(API)來(lái)完成數(shù)據(jù)裝載工作。

元數(shù)據(jù)倉(cāng)儲(chǔ)負(fù)責(zé)管理和存儲(chǔ)元數(shù)據(jù)信息,使用戶能夠流暢地瀏覽、檢索、獲取所需資源,最終實(shí)現(xiàn)資源整合目標(biāo)。[12]元數(shù)據(jù)倉(cāng)儲(chǔ)中存儲(chǔ)的元數(shù)據(jù)經(jīng)過專業(yè)的分類和組織,不僅能夠及時(shí)滿足用戶的檢索需求,還能夠?yàn)橛脩籼峁┥顚哟蔚臄?shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)服務(wù),為公共數(shù)字文化服務(wù)平臺(tái)的建設(shè)提供新思路。

4.2.3 應(yīng)用層

應(yīng)用層是公共數(shù)字文化資源整合成果的具體表現(xiàn),通過建立資源整合平臺(tái)來(lái)實(shí)現(xiàn)資源導(dǎo)航、資源檢索、資源獲取和個(gè)性化服務(wù)等功能,使用戶在統(tǒng)一的界面上對(duì)不同公共文化機(jī)構(gòu)間的數(shù)字資源進(jìn)行統(tǒng)一檢索、瀏覽和利用。該平臺(tái)應(yīng)具備的功能需求及其描述如表2所示。

表2 公共數(shù)字文化資源整合平臺(tái)的功能需求

5 元數(shù)據(jù)倉(cāng)儲(chǔ)在公共數(shù)字文化資源整合中的應(yīng)用前景

5.1 元數(shù)據(jù)倉(cāng)儲(chǔ)的應(yīng)用

數(shù)據(jù)倉(cāng)儲(chǔ)這一概念由來(lái)已久并且被廣泛應(yīng)用于各個(gè)領(lǐng)域中。在生物醫(yī)療領(lǐng)域,科研人員往往需要通過組織和查詢大量異構(gòu)實(shí)驗(yàn)信息來(lái)推導(dǎo)科學(xué)結(jié)論,為此有學(xué)者提出使用SB-KOM(System Biology Khaos Ontology -based Mediator)系統(tǒng)完成對(duì)實(shí)驗(yàn)數(shù)據(jù)的抽取并存儲(chǔ)在本地?cái)?shù)據(jù)倉(cāng)儲(chǔ)“PseudomonasDW”中保持?jǐn)?shù)據(jù)一致性,為科學(xué)分析奠定基礎(chǔ)。[13]美國(guó)梅約診所建立了數(shù)據(jù)倉(cāng)儲(chǔ)“Mayo Clinc’s Enterprise Data Trust”,存儲(chǔ)診所運(yùn)營(yíng)過程中所產(chǎn)生的數(shù)據(jù)以支持診所的日常工作及決策制定。[14]該系統(tǒng)由信息管理、數(shù)據(jù)建模、詞匯系統(tǒng)以及元數(shù)據(jù)管理等部分構(gòu)成,旨在通過整合現(xiàn)有數(shù)據(jù)資源實(shí)現(xiàn)診療數(shù)據(jù)深度開發(fā),為診斷提供真實(shí)可靠的數(shù)據(jù)支持,值得一提的是該系統(tǒng)還相當(dāng)重視對(duì)病人隱私信息的保護(hù),取得了較好的效果,是在該領(lǐng)域資源整合的代表項(xiàng)目之一。在商業(yè)科技領(lǐng)域,諸如微軟、IBM等大公司近年來(lái)也逐步開始關(guān)注資源整合中數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)問題。IBM一直十分關(guān)注數(shù)字資源整合領(lǐng)域的研究進(jìn)展,曾發(fā)表白皮書探討大數(shù)據(jù)環(huán)境下的數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)及資源整合問題,指出應(yīng)當(dāng)構(gòu)建基于可信信息的數(shù)據(jù)倉(cāng)儲(chǔ)并將數(shù)字資源轉(zhuǎn)換為統(tǒng)一格式存儲(chǔ),完成資源整合以支持企業(yè)決策。[15]元數(shù)據(jù)倉(cāng)儲(chǔ)是在數(shù)據(jù)倉(cāng)儲(chǔ)的理念上提出,在資源整合領(lǐng)域逐步受到關(guān)注。

基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合方式相較于其它方式有顯著的特點(diǎn),在公共數(shù)字文化資源整合領(lǐng)域有良好的應(yīng)用前景,它的出現(xiàn)將為該領(lǐng)域帶來(lái)新的變化:

首先,通過建立元數(shù)據(jù)倉(cāng)儲(chǔ)將異構(gòu)資源的元數(shù)據(jù)信息統(tǒng)一存儲(chǔ),在減輕各文化機(jī)構(gòu)資源維護(hù)負(fù)擔(dān)的同時(shí)還有效提高了用戶的檢索效率。隨著數(shù)字資源數(shù)量劇增,采用傳統(tǒng)數(shù)據(jù)倉(cāng)儲(chǔ)的方式存儲(chǔ)所有文化機(jī)構(gòu)的資源已經(jīng)難以實(shí)現(xiàn),公共文化機(jī)構(gòu)開始探索新的資源整合方式,元數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)運(yùn)而生。通過建立一套完整的元數(shù)據(jù)選擇標(biāo)準(zhǔn)作為范式,將數(shù)字資源的元數(shù)據(jù)信息抽取出來(lái)存儲(chǔ)在數(shù)據(jù)倉(cāng)儲(chǔ)中,供用戶統(tǒng)一瀏覽和查詢。由于資源信息被集中存儲(chǔ),該方式能夠有效地縮短用戶獲得檢索結(jié)果所需時(shí)長(zhǎng),且對(duì)網(wǎng)絡(luò)環(huán)境的依賴程度相對(duì)較低,不會(huì)受各機(jī)構(gòu)數(shù)據(jù)庫(kù)本身狀態(tài)的限制,能夠保證資源整合平臺(tái)的流暢性,提高用戶使用體驗(yàn)。

其次,元數(shù)據(jù)倉(cāng)儲(chǔ)經(jīng)過元數(shù)據(jù)采集、抽取、轉(zhuǎn)換、清洗和裝載工作完成了對(duì)文化資源的標(biāo)準(zhǔn)化描述,對(duì)不同形式的文化資源進(jìn)行了很好的聚類,有利于文化資源的深層次開發(fā)。知識(shí)挖掘服務(wù)近年來(lái)逐步受到公共文化機(jī)構(gòu)的關(guān)注,將機(jī)構(gòu)自身所存儲(chǔ)的海量數(shù)字文化資源轉(zhuǎn)換為用戶需要的信息是公共文化機(jī)構(gòu)的使命之一,也是公共數(shù)字文化資源整合的最終目標(biāo)。盡管現(xiàn)有資源整合平臺(tái)大多仍停留在初級(jí)階段,其現(xiàn)階段的研究重點(diǎn)是如何為來(lái)自不同機(jī)構(gòu)類型各異的資源構(gòu)建整合平臺(tái)從而為用戶提供一站式服務(wù),尚未開展有效的知識(shí)發(fā)掘服務(wù),但元數(shù)據(jù)倉(cāng)儲(chǔ)為該服務(wù)奠定了基礎(chǔ)。元數(shù)據(jù)倉(cāng)儲(chǔ)中匯集了不同機(jī)構(gòu)數(shù)字資源的元數(shù)據(jù)信息,可以預(yù)見的是,公共數(shù)字文化資源整合在未來(lái)將會(huì)更多地關(guān)注于資源的深度整合,致力于提供包括機(jī)構(gòu)資源庫(kù)、主題資源庫(kù)、資源訂制及推送服務(wù)在內(nèi)的多項(xiàng)知識(shí)挖掘服務(wù),實(shí)現(xiàn)數(shù)字資源的深層次整合與無(wú)縫鏈接。

5.2 元數(shù)據(jù)倉(cāng)儲(chǔ)存在的問題及對(duì)策

基于元數(shù)據(jù)倉(cāng)儲(chǔ)的公共數(shù)字文化資源整合盡管存在上述優(yōu)勢(shì),但也不可避免地有著相應(yīng)的問題,具體表現(xiàn)及解決對(duì)策如下:

第一,資源更新不及時(shí),整合平臺(tái)尚未完全實(shí)現(xiàn)自動(dòng)化。元數(shù)據(jù)倉(cāng)儲(chǔ)是經(jīng)過元數(shù)據(jù)采集、抽取、轉(zhuǎn)換、清洗和裝載完成對(duì)資源的標(biāo)準(zhǔn)化描述而建成,其建設(shè)初期需要分別采集各機(jī)構(gòu)的文化資源,在后期維護(hù)中也要時(shí)刻關(guān)注各機(jī)構(gòu)資源更新情況。這就容易導(dǎo)致信息資源更新不及時(shí)的問題,各數(shù)據(jù)庫(kù)同資源整合平臺(tái)的資源列表間存在一定的時(shí)滯。這就要求資源整合平臺(tái)內(nèi)置有效的響應(yīng)機(jī)制能夠定期對(duì)各數(shù)據(jù)庫(kù)資源更新情況進(jìn)行檢查,及時(shí)更新元數(shù)據(jù)信息,保證用戶能夠及時(shí)獲取最新最準(zhǔn)確的資源信息。此外,基于元數(shù)據(jù)倉(cāng)儲(chǔ)的資源整合平臺(tái)往往對(duì)人工操作的依賴程度較高,不能完全實(shí)現(xiàn)自動(dòng)化。由于各公共文化機(jī)構(gòu)在社會(huì)職能、機(jī)構(gòu)文化乃至資源描述標(biāo)準(zhǔn)方面都存在較大差異,因而進(jìn)行元數(shù)據(jù)信息采集和抽取時(shí)往往需要人工輔助完成,以最大程度保障數(shù)據(jù)的統(tǒng)一性和規(guī)范性。因此,在元數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的初始階段就必須充分考慮各機(jī)構(gòu)資源的具體情況,在抽取及轉(zhuǎn)換環(huán)節(jié)中要不斷優(yōu)化算法以提高自動(dòng)化程度,節(jié)約資源整合過程中的人力成本,提高資源整合平臺(tái)的運(yùn)行效率。

第二,元數(shù)據(jù)采集難度高,資源描述標(biāo)準(zhǔn)較難統(tǒng)一。元數(shù)據(jù)采集首先需要獲得各文化機(jī)構(gòu)及數(shù)據(jù)庫(kù)商的許可,其次要針對(duì)不同的數(shù)據(jù)庫(kù)選擇不同的資源采集方式,常見的有ODBC/JDBC接口、OAI-PMH協(xié)議、Z39.50資源適配器等等。公共文化機(jī)構(gòu)在公共數(shù)字文化資源整合中應(yīng)當(dāng)建立有效的元數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)機(jī)制,尋找各機(jī)構(gòu)及其數(shù)據(jù)庫(kù)間的共同點(diǎn),調(diào)動(dòng)文化機(jī)構(gòu)的積極性,加強(qiáng)機(jī)構(gòu)間的合作,積極尋求同數(shù)據(jù)庫(kù)商、出版社的合作,為元數(shù)據(jù)采集創(chuàng)造條件,確保元數(shù)據(jù)倉(cāng)儲(chǔ)的持續(xù)發(fā)展。元數(shù)據(jù)描述標(biāo)準(zhǔn)不統(tǒng)一是公共數(shù)字文化資源整合的障礙之一,其具體表現(xiàn)包括:相同資源在不同數(shù)據(jù)庫(kù)有不同的名稱、相同字段在不同數(shù)據(jù)庫(kù)中表示不同內(nèi)容、不同字段有語(yǔ)義交叉、DC元數(shù)據(jù)與MARC的映射問題和參考標(biāo)準(zhǔn)不一致等,這些都是元數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)中亟待解決的問題。[16]在元數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)中,各文化機(jī)構(gòu)還應(yīng)該不斷加強(qiáng)元數(shù)據(jù)互操作研究,實(shí)現(xiàn)對(duì)不同標(biāo)準(zhǔn)的元數(shù)據(jù)的訪問和存儲(chǔ),致力于異構(gòu)數(shù)據(jù)的整合研究,消除數(shù)據(jù)結(jié)構(gòu)差異,早日實(shí)現(xiàn)公共數(shù)字文化資源整合的目標(biāo)。

(來(lái)稿時(shí)間:2015年6月)

參考文獻(xiàn):

1. Chen Z, Wu D, Lu J, et al. Metadata-based Information Resource Integration for Research Management. Procedia Computer Science, 2013:54-61

2.史超.電子政務(wù)信息資源整合方案與框架研究. 西安:西安電子科技大學(xué)碩士論文, 2009

3. Alon Y. Halevy. Theory of Answering Queries Using Views. SIGMOD Record. 2000, 29(4):40-47

4.王靜,閻雅娜. OAIster——開放存取數(shù)字資源的一站式檢索平臺(tái). 圖書館雜志, 2009(5):23-26

5.李鵬云. 基于元數(shù)據(jù)倉(cāng)儲(chǔ)的圖書館數(shù)據(jù)整合實(shí)踐——以國(guó)家圖書館“文津搜索”項(xiàng)目為例. 圖書館學(xué)刊, 2013 (8):46-49

6. Trujillo J, Palomar M, Gomez J, Song IY. Designing Data Warehouses with OO Conceptual Models. IEEE Computer Society 2001, 34(12):66-75

7.胡開勝. 基于WEB元數(shù)據(jù)抽取的ETL資源整合模型研究與實(shí)現(xiàn). 長(zhǎng)沙:湖南師范大學(xué)碩士論文, 2010

8. Digitisation:Standards landscape for European museums, archives, libraries.[2015-01-08].http://www.athenaeurope.org/ index.php?en/112/news/20/athena-booklet-digitisation-standardslandscape-for-european-museums-archives-libraries

9. Bernstein PA, Haas LM. Information integration in the enterprise. Communications of the ACM; 2008:170-177

10.王洪軍等. 基于元數(shù)據(jù)倉(cāng)儲(chǔ)與動(dòng)態(tài)鏈接的圖書館資源整合系統(tǒng)的整合與實(shí)現(xiàn). 中華醫(yī)學(xué)圖書情報(bào)雜志, 2011(10):65-67

11.衛(wèi)軍朝. 山西高校科技文獻(xiàn)平臺(tái)異構(gòu)數(shù)據(jù)整合研究.太原:山西大學(xué)碩士論文, 2009

12.彭澤華. 數(shù)字資源整合技術(shù)在數(shù)字圖書館建設(shè)中的應(yīng)用. 信息通信, 2007(5):9-12

13. K. Marrakchi, A. Briache, A. Kerzazi, et al. A Data Warehouse Approach to Semantic Integration of Pseudomonas Data. Data Integration in the Life Sciences,2010, 6254:90-105

14. CG C, SA B, TB F, et al. The Enterprise Data Trust at Mayo Clinic:a semantically integrated warehouse of biomedical data. J Am Med Inform Assoc., 2010, 17(2):131-135

15. Delivering trusted information for the modern data warehouse. [2015-03-27]. http://www.bitpipe.com/detail/RES/1412192840_737. html

16. 梁蕙瑋, 薩蕾. 數(shù)字圖書館推廣工程面向數(shù)字資源整合的元數(shù)據(jù)倉(cāng)儲(chǔ)構(gòu)建. 國(guó)家圖書館學(xué)刊, 2012(5)

〔分類號(hào)〕G250

〔作者簡(jiǎn)介〕肖希明(1955-),男,武漢大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師;劉巧園(1992-),女,武漢大學(xué)信息管理學(xué)院碩士研究生。

*本文系國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“公共數(shù)字文化服務(wù)中的資源整合研究”(批準(zhǔn)號(hào):13ATQ001)研究成果之一。

Public Digital Cultural Resources Integration Based on Metadata Repository

Xiao Ximing Liu Qiaoyuan
( School of Information Management of Wuhan University )

〔Abstract 〕The paper introduces the basic connotations of metadata repository and the way of resources integration based on metadata repository , and points out the features, such as heterogeneity and dispersibility, of public digital cultural resources and metadata standards. The paper also discusses the implement of metadata repository technology in the public digital cultural resources integration, and builds the framework of resources integration based on metadata repository and then analyzes the application prospect of metadata repository in public digital cultural resources integration, and points out its possible problems and countermeasures.

〔Keywords〕Public digital cultural resources Digital resources integration Metadata repository

主站蜘蛛池模板: 99草精品视频| 久久99热这里只有精品免费看| 国产午夜不卡| 毛片视频网址| 色九九视频| 久久国产V一级毛多内射| 成人在线综合| 亚洲成在线观看 | 福利国产微拍广场一区视频在线| 久久亚洲综合伊人| 欧美日韩亚洲国产| 欧美成人第一页| 国产精品.com| 色天天综合久久久久综合片| 国产福利小视频高清在线观看| 日韩精品资源| 日韩欧美中文字幕在线精品| 丰满人妻中出白浆| 欧美另类精品一区二区三区 | 欧美一区二区三区不卡免费| 亚洲天堂精品视频| 亚洲一区毛片| 欧美成人手机在线视频| 亚洲国产AV无码综合原创| 五月激激激综合网色播免费| 二级毛片免费观看全程| 国产欧美网站| 国产精品综合色区在线观看| 国产理论一区| 亚洲国产系列| 午夜影院a级片| 国产免费精彩视频| 亚洲Av激情网五月天| 麻豆精品在线播放| 欧美亚洲欧美| 国产白丝av| 精品国产aⅴ一区二区三区| 91无码人妻精品一区| 亚洲无线国产观看| 国产亚洲美日韩AV中文字幕无码成人| 国产精品免费露脸视频| 国产精品妖精视频| 欧美视频在线第一页| 国产精品美女自慰喷水| 亚洲va视频| 亚洲色图欧美激情| 日本高清成本人视频一区| 日本一区二区不卡视频| 亚洲精品不卡午夜精品| 免费啪啪网址| 片在线无码观看| 亚洲精品国产综合99久久夜夜嗨| 欧美精品高清| 中文字幕在线日本| 亚洲欧美自拍一区| 激情影院内射美女| 欧美综合激情| 国产美女久久久久不卡| 国产成人高清亚洲一区久久| 国产无人区一区二区三区| 国产精品不卡永久免费| 毛片手机在线看| 国产菊爆视频在线观看| 成人午夜视频网站| www.91中文字幕| 97无码免费人妻超级碰碰碰| www.91中文字幕| 99久久精彩视频| 成人国产精品网站在线看| 国产三级国产精品国产普男人| 九九久久精品国产av片囯产区| 丁香六月激情综合| 911亚洲精品| 欧美视频在线不卡| 亚洲一区二区约美女探花| 精品五夜婷香蕉国产线看观看| 国产香蕉97碰碰视频VA碰碰看| 波多野吉衣一区二区三区av| 一本无码在线观看| 无码有码中文字幕| 亚洲欧美人成电影在线观看| 激情综合婷婷丁香五月尤物|