毛 蕓
(北京師范大學(xué)管理學(xué)院,北京 100875)
網(wǎng)絡(luò)信息資源是指以電子數(shù)據(jù)的形式將文字、圖像、聲音、動(dòng)畫(huà)等相關(guān)信息存放在光、磁等介質(zhì)上,并通過(guò)網(wǎng)絡(luò)通信、計(jì)算機(jī)或信息終端等方式再現(xiàn)出來(lái)的信息資源。它是電子資源的一個(gè)重要組成部分。但由于網(wǎng)絡(luò)信息資源自身的特點(diǎn),目前對(duì)于網(wǎng)絡(luò)信息資源的描述還缺乏有效的規(guī)范。具體來(lái)說(shuō),網(wǎng)絡(luò)信息資源有以下幾個(gè)特點(diǎn)。
(1)信息量大,質(zhì)量良莠不齊。由于網(wǎng)絡(luò)信息具有很大的隨意性和自由度,其發(fā)布也沒(méi)有經(jīng)過(guò)嚴(yán)格的審查、監(jiān)督和質(zhì)量控制,信息質(zhì)量良莠不齊。
(2)內(nèi)容豐富,格式多樣化。網(wǎng)絡(luò)信息資源的內(nèi)容包羅萬(wàn)象,覆蓋了不同學(xué)科、不同領(lǐng)域、不同地域、不同語(yǔ)言的信息資源;網(wǎng)絡(luò)信息資源的格式呈現(xiàn)多樣化,如HTML、XML、TXT等;網(wǎng)絡(luò)信息資源的文獻(xiàn)類(lèi)型也不盡相同,包括網(wǎng)上出版物、動(dòng)態(tài)信息、書(shū)目數(shù)據(jù)庫(kù)、聯(lián)機(jī)數(shù)據(jù)庫(kù)、軟件資源等。
(3)信息源不規(guī)范,難以準(zhǔn)確定位。網(wǎng)絡(luò)信息資源一般缺乏類(lèi)似實(shí)體信息資源的主要信息源,其主要著錄信息一般散見(jiàn)于多個(gè)頁(yè)面的不同位置,而且反映網(wǎng)絡(luò)信息資源位置的URL具有較大的變動(dòng)性,即不同的URL可能代表著同一個(gè)資源,同一個(gè)URL又可能在不同的時(shí)間代表著不同的資源,不具備實(shí)體信息資源中類(lèi)似ISBN信息資源的可靠性和穩(wěn)定性。
由于網(wǎng)絡(luò)信息資源日益增長(zhǎng),為了對(duì)其進(jìn)行規(guī)范化管理,從而更好地加以利用,有必要對(duì)網(wǎng)絡(luò)信息資源的描述方法進(jìn)行研究。目前,已經(jīng)有多種描述網(wǎng)絡(luò)信息資源的方法,本文主要介紹MARC、DC、MODS這三種。
美國(guó)最早開(kāi)展將MARC格式用于網(wǎng)絡(luò)信息資源的編目研究工作。早在1991年5月1日,美國(guó)國(guó)會(huì)提交的49號(hào)討論件就已經(jīng)提出以USMARC格式為主要架構(gòu)制定能囊括網(wǎng)絡(luò)信息資源的有關(guān)字段。此舉是圖書(shū)館界參與網(wǎng)絡(luò)信息資源描述的創(chuàng)舉。同年,OCLC也分階段進(jìn)行了網(wǎng)絡(luò)信息資源編目的實(shí)踐,研究USMARC和AACR2對(duì)網(wǎng)上信息資編目的適用性。隨后幾年,LC和OCLC不斷對(duì)USMARC格式進(jìn)行了局部修改,以滿(mǎn)足網(wǎng)絡(luò)信息資源編目不斷發(fā)展的需求。
對(duì)于中文的網(wǎng)絡(luò)信息資源而言,可以運(yùn)用135、230、336、337和856字段來(lái)提高M(jìn)ARC描述網(wǎng)絡(luò)信息資源的能力。專(zhuān)門(mén)對(duì)網(wǎng)絡(luò)信息資源的統(tǒng)一資源地址(URL)進(jìn)行著錄,并進(jìn)行超文本鏈接。
MARC作為描述網(wǎng)絡(luò)資源具有以下特點(diǎn):
(1)描述資源的字段豐富、詳盡,標(biāo)準(zhǔn)化程度高。MARC是一種詳細(xì)描述的元數(shù)據(jù)格式,其定義的每個(gè)字段都非常詳盡,而且對(duì)著錄的內(nèi)容有嚴(yán)格的限制,能夠提供多種檢索途徑,提高資源的查準(zhǔn)率。從一定程度上看,MARC是目前發(fā)展最早也是最成熟的資源描述方法,它是其他更新的元數(shù)據(jù)格式(DC、MODS)的重要參考依據(jù)。
(2)對(duì)于多套格式的同一資源的描述具有一定的優(yōu)勢(shì)。由于國(guó)內(nèi)數(shù)字圖書(shū)館的興起,很多傳統(tǒng)圖書(shū)館紛紛向數(shù)字圖書(shū)館發(fā)展。許多紙質(zhì)資源,如圖書(shū)、期刊、樂(lè)譜等都進(jìn)行了電子化和數(shù)字化處理。由于MARC對(duì)傳統(tǒng)的完整、靜止的書(shū)目信息描述有很大優(yōu)勢(shì),同時(shí)它又有針對(duì)電子資源描述的字段,故MRAC能夠兼顧這種多套格式的同一資源的描述。
(3)對(duì)于描述動(dòng)態(tài)的網(wǎng)絡(luò)信息資源較為薄弱。由于MARC的字段設(shè)計(jì)得很?chē)?yán)謹(jǐn),而且字段較多,非圖書(shū)情報(bào)專(zhuān)業(yè)人員較難掌握。對(duì)于動(dòng)態(tài)、海量的網(wǎng)絡(luò)信息資源而言,MARC的使用則缺乏一定的靈活性。
DC元數(shù)據(jù)全稱(chēng)為Dublin Core Metadata,是國(guó)際組織Dublin Core Metadata Initiative擬定的用于標(biāo)識(shí)電子資源的一種目錄模式。網(wǎng)絡(luò)信息資源的無(wú)序性對(duì)檢索時(shí)的查全率和查準(zhǔn)率造成極大影響,DC元數(shù)據(jù)可以促進(jìn)網(wǎng)絡(luò)信息資源的發(fā)現(xiàn),是支持網(wǎng)絡(luò)檢索而建立的元數(shù)據(jù)模式,目前已更新到1.1版本。
DC元數(shù)據(jù)有簡(jiǎn)單和復(fù)雜之分。簡(jiǎn)單的DC有15個(gè)核心元素,而且可以根據(jù)需要選擇若干元素進(jìn)行資源描述,這樣可以簡(jiǎn)化著錄項(xiàng)目。復(fù)雜的DC是在簡(jiǎn)單DC基礎(chǔ)上引入修飾詞的概念,主要有體系修飾詞(Scheme)、語(yǔ)種修飾詞(Language)和進(jìn)一步修飾元素屬性的子元素修飾詞(Subelement)。其中體系修飾詞借鑒了MARC的優(yōu)點(diǎn)并把分類(lèi)法、主題詞表等控制語(yǔ)言吸收進(jìn)去。DC元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范見(jiàn)表1。

表1 DC元數(shù)據(jù)元素一覽表
DC元數(shù)據(jù)作為描述網(wǎng)絡(luò)信息資源的方法,主要有以下幾個(gè)特點(diǎn):
(1)DC元數(shù)據(jù)可采用多種編碼語(yǔ)言描述。DCMI推薦認(rèn)可多種語(yǔ)言對(duì)DC元數(shù)據(jù)進(jìn)行描述,如XHTML metatags,XML,RDF/XML等。但在圖書(shū)館領(lǐng)域中,使用最多的還是XML這種技術(shù)手段。為了便于DC元數(shù)據(jù)與其他元數(shù)據(jù)進(jìn)行格式上的轉(zhuǎn)換,DC元數(shù)據(jù)采用了RDF(資源描述框架)格式。[1]RDF可以使用XML和RDF Schema將不同元數(shù)據(jù)標(biāo)準(zhǔn)描述成為數(shù)據(jù)模型,形成結(jié)構(gòu)化的XML數(shù)據(jù),便于搜索引擎精確查找。DC現(xiàn)已更多地從技術(shù)層面來(lái)進(jìn)行網(wǎng)絡(luò)信息資源的規(guī)范控制,而不僅僅是從標(biāo)準(zhǔn)上解決電子資源的描述問(wèn)題。
(2)DC元數(shù)據(jù)簡(jiǎn)單易用,靈活方便。相比MARC,DC元數(shù)據(jù)使用起來(lái)更為簡(jiǎn)單,不論是圖書(shū)情報(bào)專(zhuān)業(yè)人員還是用戶(hù),都能較容易掌握和使用。DC的15個(gè)核心元素都是可選的,針對(duì)不同行業(yè)學(xué)科的資源,可以選擇不同的元素進(jìn)行描述。同時(shí)DC各元素是可重復(fù)的,可以根據(jù)信息資源屬性的多樣性進(jìn)行重復(fù)著錄,從而很好地解決了多語(yǔ)種、多創(chuàng)建者、多版本資源的著錄問(wèn)題。
(3)DC元數(shù)據(jù)具有良好的可修飾性。DC采用子元素限定詞、控制詞作為數(shù)據(jù)單元來(lái)進(jìn)一步描述資源。大多數(shù)元素都有子元素,限定詞的使用非常靈活,結(jié)構(gòu)也較為簡(jiǎn)單。例如,核心元素Relation就包含 hasVersion、isVersionOf、replaces、isReplacedBy、requires、isRequiredBy、hasPart、isPartOf等多個(gè)子元素限定詞。
MODS(Metadata Object Description Schema)的中文譯名為元數(shù)據(jù)對(duì)象描述模式,是由美國(guó)國(guó)會(huì)圖書(shū)館下屬的網(wǎng)絡(luò)發(fā)展部和MARC標(biāo)準(zhǔn)辦公室共同研制出來(lái)的一種新的元數(shù)據(jù),目前已推出了3.4版本。MODS是在MARC的基礎(chǔ)上發(fā)展起來(lái)的,其復(fù)雜程度介于MARC與DC之間,既克服了兩者的缺陷,又對(duì)兩者都有著良好的兼容性。
MODS由元素、子元素、屬性三個(gè)部分構(gòu)成。在MODS 3.4版本中,共有20個(gè)主元素和2個(gè)根元素。每個(gè)主元素下都有若干個(gè)子元素,元素具有屬性。所有元素都可以重復(fù)使用,但屬性不可以重復(fù)使用。每個(gè)MODS記錄至少要有1個(gè)元素,即主元素“題名信息”和子元素“題名”是必不可少的,其他元素均是可選的。MODS的主元素見(jiàn)表2。

表2 MODS主元素表
MODS之所以適用于網(wǎng)絡(luò)信息資源的描述,主要是源于以下幾個(gè)特點(diǎn):
(1)元數(shù)據(jù)集比DC更豐富,比MARC更簡(jiǎn)潔。DC的元素字段過(guò)于簡(jiǎn)單,而MARC字段又過(guò)于詳細(xì),結(jié)構(gòu)過(guò)于復(fù)雜。[2]MODS元數(shù)據(jù)參考 MARC字段,取自MARC的子集,同時(shí)又提供了比DC更為豐富的字段。
(2)MODS允許開(kāi)發(fā)者自定義標(biāo)簽。MODS采用的語(yǔ)言標(biāo)簽允許資源創(chuàng)建人員自定義標(biāo)簽,標(biāo)簽的名稱(chēng)和含義可由創(chuàng)建者根據(jù)需要作出選擇。而資源創(chuàng)建者也不需要具備專(zhuān)業(yè)的編目能力。因此簡(jiǎn)單實(shí)用,能夠快速地編制記錄,滿(mǎn)足各類(lèi)信息交換的需要,具有良好的普適性。
(3)MODS是集成MARC及DC的橋梁。由于MODS與DC都在一定程度借鑒了MARC的標(biāo)準(zhǔn),是從MARC發(fā)展而來(lái),故三者具有一定的互通性。而MODS的結(jié)構(gòu)復(fù)雜程度介于MARC和DC之間,故可將MODS作為MARC和DC之間轉(zhuǎn)換的橋梁。
在三種描述方法中,MARC最為詳細(xì),MODS的難易程度適中,DC元數(shù)據(jù)最簡(jiǎn)單。這三種描述方法在不同的網(wǎng)絡(luò)信息資源的描述中各有優(yōu)勢(shì)。目前也已經(jīng)有很多圖書(shū)館及組織機(jī)構(gòu)利用這些方法描述網(wǎng)上信息資源,國(guó)內(nèi)外也有一些項(xiàng)目專(zhuān)門(mén)研究這些描述方法的利用情況。
MARC的優(yōu)勢(shì)在于描述傳統(tǒng)書(shū)目信息資源。目前大多數(shù)圖書(shū)館的書(shū)目數(shù)據(jù)仍以MARC為主要描述標(biāo)準(zhǔn)。由于數(shù)字圖書(shū)館的興起,許多傳統(tǒng)圖書(shū)館紛紛向數(shù)字圖書(shū)館轉(zhuǎn)型,館藏中不可避免地出現(xiàn)了內(nèi)容相同而載體不同的信息資源。為了保持?jǐn)?shù)據(jù)的一致性,需要使用同一種元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)上述類(lèi)型的資源進(jìn)行描述,而MARC就能很好地滿(mǎn)足這個(gè)需求。既可以用MARC描述傳統(tǒng)紙質(zhì)資源,又可以著重采用擴(kuò)展的MARC字段來(lái)描述與紙質(zhì)資源對(duì)應(yīng)的數(shù)字化資源。如中央音樂(lè)學(xué)院圖書(shū)館對(duì)于紙質(zhì)的樂(lè)譜資源進(jìn)行數(shù)字化,建立了自有樂(lè)譜數(shù)據(jù)庫(kù)。為了方便用戶(hù)同時(shí)檢索到紙質(zhì)版樂(lè)譜和數(shù)據(jù)庫(kù)版樂(lè)譜,其在常規(guī)MARC字段中加入了電子資源描述字段,對(duì)兩者進(jìn)行關(guān)聯(lián)。
DC元數(shù)據(jù)靈活易用,它對(duì)于描述動(dòng)態(tài)的海量網(wǎng)絡(luò)信息資源有著一定的優(yōu)勢(shì),如非正式出版的各類(lèi)網(wǎng)絡(luò)信息資源、綜合性門(mén)戶(hù)網(wǎng)站內(nèi)容等,可用于一般網(wǎng)絡(luò)信息資源的標(biāo)志和檢索。但是,DC結(jié)構(gòu)較為簡(jiǎn)單,對(duì)于專(zhuān)業(yè)學(xué)科類(lèi)網(wǎng)絡(luò)信息資源具有一定的局限性。所以,為了增強(qiáng)DC元數(shù)據(jù)的描述能力,同時(shí)又保持DC簡(jiǎn)單易用的特點(diǎn),DCMI成立了多個(gè)工作組,根據(jù)不同學(xué)科領(lǐng)域的需求分別對(duì)DC進(jìn)行了擴(kuò)展,制定了 DC-Agent,DC-Citation,DC-Library,DC-Education,DC-Government等不同DC元數(shù)據(jù)標(biāo)準(zhǔn)并得到了應(yīng)用。[3]如澳大利亞政府定位器服務(wù)(Australian Government Locator Service)就宣布采用DC元數(shù)據(jù)格式作為其電子政府文獻(xiàn)的信息著錄標(biāo)準(zhǔn)。
MODS最重要的一個(gè)功能就是作為MARC和DC兩種標(biāo)準(zhǔn)集成的橋梁,起到中間轉(zhuǎn)換的作用,所以MODS適用于復(fù)合型圖書(shū)館資源的描述。MODS主要用三種方式來(lái)實(shí)現(xiàn)不同格式的集成:1)MARC轉(zhuǎn)為MODS,DC轉(zhuǎn)為MODS,以 MODS為統(tǒng)一元數(shù)據(jù)格式進(jìn)行集成處理;2)MARC轉(zhuǎn)為MODS,再轉(zhuǎn)為DC,以DC為統(tǒng)一元數(shù)據(jù)格式進(jìn)行集成處理;3)DC轉(zhuǎn)為MODS,再轉(zhuǎn)為MARC,以MARC為統(tǒng)一元數(shù)據(jù)格式進(jìn)行集成處理。[4]無(wú)論是哪種方式,都必須首先轉(zhuǎn)為MODS格式。現(xiàn)在也有較多以MODS為標(biāo)準(zhǔn)元數(shù)據(jù)集成各類(lèi)資源描述格式的項(xiàng)目,如美國(guó)國(guó)會(huì)圖書(shū)館主辦的“美國(guó)記憶”就把American Memory和Global Gateway中大約20萬(wàn)條MARC記錄轉(zhuǎn)為MODS格式;澳大利亞國(guó)家圖書(shū)館主辦的“澳大利亞國(guó)家書(shū)目數(shù)據(jù)庫(kù)元數(shù)據(jù)項(xiàng)目”將原DC元數(shù)據(jù)格式轉(zhuǎn)為MODS,再轉(zhuǎn)換為MARC,最終全部轉(zhuǎn)入澳大利亞國(guó)家書(shū)目資料庫(kù)。[5]
網(wǎng)絡(luò)信息資源的描述方法有很多,不僅僅局限于以上三種。不同的網(wǎng)絡(luò)信息資源描述方法都各有優(yōu)、缺點(diǎn),不能簡(jiǎn)單地說(shuō)哪種標(biāo)準(zhǔn)好或不好。這些描述方法由于自身的不足或是網(wǎng)絡(luò)環(huán)境因素在網(wǎng)絡(luò)信息資源中的應(yīng)用都還不是非常普遍。目前,我國(guó)的網(wǎng)絡(luò)信息資源組織標(biāo)準(zhǔn)化建設(shè)還處于不斷探索、不斷實(shí)踐和不斷完善的時(shí)期。鑒于國(guó)外在信息資源開(kāi)發(fā)與建設(shè)的標(biāo)準(zhǔn)化研究方面處于領(lǐng)先水平,因此我國(guó)網(wǎng)絡(luò)信息資源標(biāo)準(zhǔn)化建設(shè)應(yīng)參照相關(guān)國(guó)際標(biāo)準(zhǔn),結(jié)合中國(guó)國(guó)情,建立標(biāo)準(zhǔn)的、結(jié)構(gòu)化的同時(shí)被人們認(rèn)可的元數(shù)據(jù)標(biāo)準(zhǔn)體系。通過(guò)“聯(lián)合、開(kāi)放、共享”的運(yùn)作模式,建立合理的資源共享標(biāo)準(zhǔn)體系,從而促進(jìn)我國(guó)網(wǎng)絡(luò)信息資源的規(guī)范發(fā)展。
[1]張?jiān)畦?DC元數(shù)據(jù)——組織網(wǎng)絡(luò)信息資源的有效工具[J].引進(jìn)與咨詢(xún),2004(1):30—32.
[2]吳桂英.元數(shù)據(jù)MODS及其應(yīng)用前景展望[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2009(8):125—127.
[3]王 偉.近年來(lái)我國(guó)DC元數(shù)據(jù)研究文獻(xiàn)綜述[J].圖書(shū)館理論與實(shí)踐,2007(5):58—60.
[4]李衛(wèi)峰.基于MODS的數(shù)字圖書(shū)館元數(shù)據(jù)集成[J].大學(xué)圖書(shū)情報(bào)學(xué)刊,2010(6):58—94.
[5]倪 娟.MODS元數(shù)據(jù)的新發(fā)展與應(yīng)用[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2006(6):165—167.