〔摘 要〕介紹高校圖書(shū)館數(shù)字資源整合的信息源、整合方式及其概念,在數(shù)字資源整合過(guò)程中數(shù)字資源選擇、描述、加工、整理、維護(hù)、更新等方面作了分析和比較,并提出作者的觀點(diǎn)和看法。
〔關(guān)鍵詞〕信息集成;資源建設(shè);數(shù)字資源整合
〔中圖分類(lèi)號(hào)〕G250.76 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)02-0075-03
Research on Integration Mode of Digital Resource of University LibraryWang Lirui
(Library,Nanjing Institute of Technology,Nanjing 211167,China)
〔Abstract〕This paper introduced the information source,the resources integration way and the concept of digital resource of university library.In the digital resources integration process,choice,description,processing,reorganization,maintenance,renewal of digital resources have made the analysis and the comparison,and proposed ones own viewpoint.
〔Key words〕information integration;resources construction;digital resource integration
隨著信息全球化程度不斷深化,數(shù)字信息社會(huì)化已是必然。伴隨網(wǎng)絡(luò)信息化程度深層次發(fā)展,成本降低,高校圖書(shū)館的數(shù)字化資源成異構(gòu)性、動(dòng)態(tài)性和多樣性巨量增加,信息服務(wù)方式也趨向于數(shù)字化、網(wǎng)絡(luò)化、區(qū)域性聯(lián)機(jī)合作方式。各種聯(lián)機(jī)數(shù)據(jù)庫(kù)、書(shū)目系統(tǒng)、檢索系統(tǒng)、文件系統(tǒng)、自建數(shù)據(jù)庫(kù)等各種數(shù)字資源,信息源之間的信息組織體系、文件格式、采用的檢索技術(shù)等各不相同,形成一個(gè)又一個(gè)的“信息孤島”,為讀者目標(biāo)信息的獲取帶來(lái)了極大的難度,圖書(shū)館數(shù)字資源整合已經(jīng)成為亟待解決的問(wèn)題。
1 數(shù)字資源整合的主要階段
1.1 數(shù)據(jù)整合
所謂數(shù)據(jù)整合,是對(duì)異構(gòu)資源系統(tǒng)中的異質(zhì)、異類(lèi)的數(shù)據(jù)在邏輯上或物理上有機(jī)的集中,提供統(tǒng)一的表示和查詢,以解決多種異構(gòu)數(shù)據(jù)資源的互聯(lián)與共享。這種整合方式整合的對(duì)象是資源實(shí)體本身,不對(duì)資源實(shí)體進(jìn)行處理,通過(guò)一定的技術(shù)手段,把不同來(lái)源、不同格式、不同特點(diǎn)、不同性質(zhì)的異構(gòu)數(shù)據(jù),在邏輯上或物理上進(jìn)行有機(jī)集中,屏蔽各種數(shù)據(jù)源的差異,讓這些異構(gòu)系統(tǒng)“互聯(lián)互通”,并以統(tǒng)一的視圖形式表現(xiàn)出來(lái),達(dá)到異構(gòu)數(shù)據(jù)的共知和共享。
1.2 信息整合
所謂信息整合,主要指通過(guò)某種機(jī)制或標(biāo)準(zhǔn),對(duì)不同性質(zhì)、不同來(lái)源和不同格式的數(shù)字資源進(jìn)行描述與鏈接,使相對(duì)獨(dú)立的資源實(shí)體產(chǎn)生聯(lián)系,實(shí)現(xiàn)數(shù)字資源的全方位整合和一步到位的獲取。它的實(shí)質(zhì)是將信息實(shí)體間及信息實(shí)體基本屬性間的多種復(fù)雜的關(guān)系進(jìn)行銜接、整合,使分散的、異構(gòu)的數(shù)字源形成一個(gè)有機(jī)關(guān)聯(lián)的整體,是基于數(shù)據(jù)整合,建立在搜索引擎基礎(chǔ)之上的整合方式。信息整合的主要對(duì)象是信息實(shí)體之間的關(guān)系,是數(shù)字資源巨量增長(zhǎng),相互關(guān)聯(lián)后的實(shí)際需求。
1.3 知識(shí)整合
所謂知識(shí)整合,是以知識(shí)組織方法為指導(dǎo),以數(shù)據(jù)整合、信息整合為基礎(chǔ),以知識(shí)組織體系為支撐,組織資源知識(shí)結(jié)構(gòu)中概念及概念關(guān)系的一種整合方式。知識(shí)整合的主要對(duì)象是內(nèi)在于知識(shí)體系中的知識(shí)結(jié)構(gòu)的概念及關(guān)系,建立在數(shù)據(jù)整合和信息整合基礎(chǔ)之上,側(cè)重于概念和關(guān)系的重組,跟蹤用戶需求,提供多種智能化的知識(shí)服務(wù),處于數(shù)字資源整合體系的最高層,是資源整合的最終目標(biāo)。據(jù)學(xué)者王松林“從圖書(shū)館的角度看信息組織和知識(shí)組織”一文中論述,知識(shí)管理中知識(shí)組織包括顯性知識(shí)(含事實(shí)知識(shí)和原理知識(shí))管理和隱性知識(shí)(含技能知識(shí)和人力知識(shí))管理,圖書(shū)館的知識(shí)組織不是知識(shí)組織的全部,而圖書(shū)館的知識(shí)管理側(cè)重于對(duì)顯性知識(shí)的組織和管理。目前,高校圖書(shū)館的數(shù)字資源整合涉及多種數(shù)字信息源及服務(wù),本文就高校圖書(shū)館數(shù)字資源整合策略進(jìn)行了研究和探討。
2 數(shù)字信息資源整合的信息源
數(shù)字資源整合是將零散的信息源整理、序化,通過(guò)某種機(jī)制或標(biāo)準(zhǔn),對(duì)不同性質(zhì)、不同來(lái)源
和不同格式的數(shù)字資源進(jìn)行描述與鏈接,使相對(duì)獨(dú)立的資源實(shí)體產(chǎn)生聯(lián)系,實(shí)現(xiàn)數(shù)字資源的全方位整合和一步到位的獲取。數(shù)字信息源是資源整合的物質(zhì)基礎(chǔ),基于數(shù)字環(huán)境下的高校圖書(shū)館數(shù)字信息種類(lèi),主要包括各種類(lèi)型的聯(lián)機(jī)數(shù)據(jù)庫(kù):題錄、文摘和全文庫(kù),如EI、中國(guó)期刊網(wǎng)、萬(wàn)方數(shù)據(jù)等;自建數(shù)據(jù)庫(kù):中外文書(shū)目數(shù)據(jù)庫(kù)、中外文期刊目次庫(kù)、學(xué)位論文庫(kù)、科技信息數(shù)據(jù)庫(kù)等;光盤(pán)數(shù)據(jù)庫(kù):包括網(wǎng)絡(luò)光盤(pán)數(shù)據(jù)庫(kù)和單機(jī)光盤(pán)數(shù)據(jù)庫(kù)等;專(zhuān)業(yè)特色數(shù)據(jù)庫(kù):專(zhuān)利數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)、學(xué)術(shù)導(dǎo)航數(shù)據(jù)庫(kù)等;電子期刊、圖書(shū)、多媒體資源、各類(lèi)網(wǎng)絡(luò)行業(yè)信息等。
3 數(shù)字資源整合方式
縱觀數(shù)字資源整合方式,圖書(shū)館的數(shù)字資源整合主要側(cè)重于對(duì)顯性知識(shí)的組織、開(kāi)發(fā)、利用。主要有以下幾個(gè)整合方式。
3.1 基于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的整合
數(shù)據(jù)倉(cāng)庫(kù)整合方式起源于20世紀(jì)80年代,是一種比較成熟的信息集成技術(shù)。是將異地、異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)中的信息提取出來(lái),通過(guò)分析、綜合、轉(zhuǎn)換、過(guò)濾和整合,使分散的、不一致的數(shù)據(jù)轉(zhuǎn)換成集成的、同構(gòu)的數(shù)據(jù),建立一個(gè)消除了差異性的、穩(wěn)定的數(shù)據(jù)倉(cāng)儲(chǔ)集合,以提供集中的、統(tǒng)一的檢索服務(wù)。在圖書(shū)館數(shù)字化整合過(guò)程中,應(yīng)用于異構(gòu)數(shù)字化整合系統(tǒng)平臺(tái)比較成熟的系統(tǒng)有:Eprints、OAICat、ARC、OAIster、NSDL、NDLTD、my.OAI等[3]。①ARC—A Cross Archive Search Service ARC是美國(guó)弗吉尼亞州立大學(xué)數(shù)字圖書(shū)館研究組開(kāi)發(fā)的一個(gè)數(shù)字化整合系統(tǒng)。它收割元數(shù)據(jù),進(jìn)行規(guī)格化處理后存儲(chǔ)到基于關(guān)系數(shù)據(jù)庫(kù)的檢索系統(tǒng)中,提供統(tǒng)一界面檢索服務(wù)。②OAIster是密歇根大學(xué)數(shù)字圖書(shū)館服務(wù)的一個(gè)項(xiàng)目,目的是創(chuàng)建一個(gè)易于獲取信息的學(xué)術(shù)性數(shù)字資源集合。OAIster采用OAI協(xié)議收割不同機(jī)構(gòu)的元數(shù)據(jù)記錄構(gòu)建自己的服務(wù),用戶通過(guò)檢索OAIster獲取的元數(shù)據(jù)記錄,可以直接鏈接到相應(yīng)的數(shù)字資源,為用戶提供“一站式”檢索服務(wù)。③NSDL—National Science Digital Library NSDL是美國(guó)國(guó)家科學(xué)基金資助的項(xiàng)目,它的核心就是收割的多樣化元數(shù)據(jù)倉(cāng)儲(chǔ),為用戶提供檢索服務(wù)。④CALIS高校學(xué)位論文數(shù)據(jù)庫(kù)是一個(gè)集中檢索、分布式全文獲取服務(wù)的高校博碩士學(xué)位論文文摘與全文數(shù)據(jù)庫(kù)。采用各成員單位在本地建立自己學(xué)位論文提交和發(fā)布系統(tǒng),通過(guò)OAI協(xié)議收割原數(shù)據(jù),建立集中的元數(shù)據(jù)庫(kù)提供檢索查詢的分布建庫(kù)模式。清華大學(xué)圖書(shū)館作為服務(wù)提供方,向分布在各成員單位的數(shù)據(jù)庫(kù)發(fā)出請(qǐng)求,抓取元數(shù)據(jù)。用戶通過(guò)集中的元數(shù)據(jù)庫(kù)檢索到論文信息后,通過(guò)OPENURL鏈接到存儲(chǔ)在各校的論文全文[4]。
3.2 基于中介模式的整合
基于中介模式的整合方式,也稱(chēng)為數(shù)據(jù)的邏輯集成(虛擬數(shù)據(jù)庫(kù)整合、系統(tǒng)平臺(tái)整合、數(shù)據(jù)聚合、數(shù)據(jù)互操作)。這種方式是通過(guò)包裝器(Wrapper)/協(xié)調(diào)器(Mediator)中介結(jié)構(gòu)模式滿足系統(tǒng)集成應(yīng)用的需求[5]。這種整合模式是通過(guò)中間媒介結(jié)構(gòu)把在不同的時(shí)間、用不同技術(shù)開(kāi)發(fā)的、具有不同內(nèi)容和不同形式的數(shù)字資源系統(tǒng)集成起來(lái),呈現(xiàn)給用戶的是一個(gè)統(tǒng)一的檢索界面,用戶不必關(guān)心每個(gè)數(shù)據(jù)源的查詢特征,便可一次集成檢索多個(gè)數(shù)字資源系統(tǒng)。這種數(shù)字資源整合模式通過(guò)中介屏蔽掉分布式系統(tǒng)的異構(gòu)性,保持異構(gòu)資源系統(tǒng)的組織模式不變,通過(guò)資源與利用之間的中介結(jié)構(gòu)完成異構(gòu)數(shù)據(jù)的集成,適宜于數(shù)據(jù)源數(shù)量較大、數(shù)據(jù)變化頻繁、集成系統(tǒng)對(duì)數(shù)據(jù)源沒(méi)有控制的集成系統(tǒng)。適合高校圖書(shū)館數(shù)字資源整合的基于中介模式整合的方式主要有:
3.2.1 基于CORBA的數(shù)據(jù)整合
是一個(gè)為異構(gòu)平臺(tái)提供基礎(chǔ)對(duì)象接口的開(kāi)放式的標(biāo)準(zhǔn)規(guī)范。目的是為了支持異構(gòu)分布式計(jì)算環(huán)境下的互操作性,以有利于解決與日俱增的異構(gòu)數(shù)據(jù)源集成,具有與平臺(tái)、操作系統(tǒng)、網(wǎng)絡(luò)和開(kāi)發(fā)語(yǔ)言無(wú)關(guān)的特點(diǎn),有效地解決了平臺(tái)異構(gòu)性,并可以實(shí)現(xiàn)資源的實(shí)時(shí)更新。例如:斯坦福大學(xué)的數(shù)字圖書(shū)館項(xiàng)目Infobus(Information Bus)系統(tǒng)。
3.2.2 基于Z39.50協(xié)議的數(shù)據(jù)整合
Z39.50協(xié)議是信息檢索應(yīng)用服務(wù)定義和協(xié)議規(guī)范,它的核心是指定了客戶端和服務(wù)器之間的信息交換的格式和過(guò)程,使用戶可以透明地檢索遠(yuǎn)程數(shù)據(jù)庫(kù)信息,是一種開(kāi)放的網(wǎng)絡(luò)應(yīng)用協(xié)議,支持MARC語(yǔ)法、元數(shù)據(jù)檢索。既可以屏蔽掉不同的檢索語(yǔ)法和策略、文件格式和操作平臺(tái)的異構(gòu)性,又規(guī)定了異構(gòu)系統(tǒng)之間傳遞檢索命令和數(shù)據(jù)的標(biāo)準(zhǔn)方法。Z39.50協(xié)議實(shí)際上就是一個(gè)中間協(xié)議層,通過(guò)他的轉(zhuǎn)換,可以實(shí)現(xiàn)異構(gòu)操作平臺(tái)之間的交互式通信和分布式異構(gòu)數(shù)據(jù)源之間的無(wú)縫鏈接。基于Z39.50協(xié)議集成整合書(shū)目資源成為圖書(shū)館異構(gòu)數(shù)字資源整合的一個(gè)重要應(yīng)用。例如:OCLC WorldCat、加拿大的虛擬聯(lián)合目錄計(jì)劃vCuc(Virtual Canadian Union Catalogue)、臺(tái)灣的“Z39.50跨系統(tǒng)查詢系統(tǒng)”、國(guó)內(nèi)的OPAC等。
3.2.3 基于中介模式的異構(gòu)數(shù)據(jù)庫(kù)整合系統(tǒng)
基于中介模式的異構(gòu)數(shù)據(jù)庫(kù)整合系統(tǒng)是采用多種集成技術(shù)和協(xié)議標(biāo)準(zhǔn)構(gòu)造一個(gè)中介結(jié)構(gòu)模式,實(shí)現(xiàn)實(shí)體資源分散下的虛擬的邏輯的數(shù)據(jù)整合,用戶只需要提交一次檢索請(qǐng)求,就可以對(duì)多個(gè)資源數(shù)據(jù)庫(kù)進(jìn)行檢索,而不需要逐個(gè)進(jìn)入不同的數(shù)據(jù)庫(kù)檢索服務(wù)界面。國(guó)內(nèi)具有影響的基于中介模式的異構(gòu)數(shù)據(jù)庫(kù)集成檢索系統(tǒng)是CALIS“數(shù)字圖書(shū)館資源統(tǒng)一檢索系統(tǒng)”、CSDL“國(guó)家科學(xué)數(shù)字圖書(shū)館”、以及臺(tái)灣“華文知識(shí)入口網(wǎng)”等。
3.3 基于信息鏈接整合
基于信息鏈接整合通過(guò)超文本鏈接機(jī)制,將存在于異構(gòu)數(shù)據(jù)源的信息是投機(jī)信息實(shí)體基本屬性間的內(nèi)在關(guān)系整合起來(lái),使得不同類(lèi)型、不同級(jí)次、不同載體的信息有機(jī)地連接起來(lái),組成一個(gè)有機(jī)的信息網(wǎng)絡(luò),用戶不僅可以一次性獲得多個(gè)資源系統(tǒng)的數(shù)據(jù)或信息的集合,實(shí)現(xiàn)“一站式”檢索,而且可以根據(jù)信息點(diǎn)鏈接的指引,實(shí)現(xiàn)關(guān)聯(lián)資源“一步到位”的獲取。國(guó)外主要的應(yīng)用有:ISI的Web of Science、NASA的Astrophysical Data Stem、NLM的PubMed、基于OpenURL的SFX等,國(guó)內(nèi)著名的CNKI中國(guó)知網(wǎng)、基于OPAC書(shū)目資源系統(tǒng)的縱向整合等。
3.4 基于學(xué)科信息門(mén)戶的整合
學(xué)科信息門(mén)戶的整合是根據(jù)學(xué)科研究與教學(xué)的需要,集成整合學(xué)科領(lǐng)域的核心和相關(guān)學(xué)術(shù)資源,為專(zhuān)業(yè)用戶提供一個(gè)有效利用領(lǐng)域?qū)W術(shù)資源與服務(wù)的整合方式。它以信息組織體系(分類(lèi)/主題詞表)為資源組織的基礎(chǔ),以元數(shù)據(jù)為資源描述基準(zhǔn),全面整合學(xué)科領(lǐng)域內(nèi)重要資源,針對(duì)用戶的特點(diǎn)和需求,以統(tǒng)一的界面為用戶提供瀏覽、檢索和獲取以及個(gè)性化服務(wù)等。比如:英國(guó)的Intute:Social Science、INFOMINE、WWW Virtual Library、中國(guó)國(guó)家科學(xué)數(shù)字圖書(shū)館(CSDL)學(xué)科信息門(mén)戶系列、中國(guó)人民大學(xué)“經(jīng)濟(jì)學(xué)學(xué)科知識(shí)門(mén)戶”等。
4 對(duì)數(shù)字信息資源整合的思考
4.1 數(shù)字化資源整合平臺(tái)的設(shè)計(jì)
數(shù)字化資源整合平臺(tái)的設(shè)計(jì)要有利于數(shù)字資源采集、序化、組織、整合、顯示。通過(guò)系統(tǒng)平臺(tái)、技術(shù)手段和圖書(shū)館工作人員對(duì)數(shù)字信息資源的采集、序化、重組,使各類(lèi)數(shù)字資源的信息實(shí)體及其關(guān)系形成一個(gè)關(guān)聯(lián)的整體,實(shí)現(xiàn)資源一步到位的獲取。界面要有利于數(shù)字資源發(fā)布、管理、交流和用戶認(rèn)證,要有良好的可視性、便捷性。
4.2 圖書(shū)館數(shù)字資源管理系統(tǒng)的選擇
現(xiàn)有ERMS軟件,除少數(shù)幾個(gè)圖書(shū)館自主開(kāi)發(fā)一些試驗(yàn)型的或具有部分ERM功能的系統(tǒng)(如波士頓大學(xué)圖書(shū)館的ERMdb及MIT的VERA)外,商業(yè)性系統(tǒng)占主流。商業(yè)性系統(tǒng)來(lái)源有4個(gè):ILS廠商、期刊代理商、非盈利組織以及出版獲取管理服務(wù)公司(PAMS)[6]。由于計(jì)算機(jī)技術(shù)、搜索引擎技術(shù)及網(wǎng)絡(luò)技術(shù)發(fā)展迅速,使得數(shù)字資源管理系統(tǒng)升級(jí)換代頻繁。因此,圖書(shū)館在選擇管理系統(tǒng)時(shí)要分析本館整合的實(shí)際需求,更要了解各種ERMS的優(yōu)點(diǎn)和限制,了解系統(tǒng)的操作性、兼容性、功能性以及采用的標(biāo)準(zhǔn)和系統(tǒng)升級(jí)換代的費(fèi)用等實(shí)際情況。
4.3 建立數(shù)字資源整合質(zhì)量控制標(biāo)準(zhǔn)
數(shù)字資源整合是否成功,必須在數(shù)字資源選擇、描述、加工、整理、維護(hù)、更新等各個(gè)過(guò)程,都要有一整套規(guī)范化的質(zhì)量控制標(biāo)準(zhǔn)。規(guī)范的質(zhì)量控制標(biāo)準(zhǔn)有利于數(shù)字資源的選擇、資源發(fā)現(xiàn)、采集策略以及信息源描述、加工、標(biāo)引、重組等。有利于與機(jī)構(gòu)資源的對(duì)接、升級(jí),有利于動(dòng)態(tài)數(shù)據(jù)更新等好處。
5 結(jié) 論
在信息技術(shù)日新月異的時(shí)代,使分散的數(shù)字資源有序地整合鏈接,必將是網(wǎng)絡(luò)環(huán)境下數(shù)字資源管理、服務(wù)的趨勢(shì),也是最大限度地體現(xiàn)“以人為本”的服務(wù)理念。在對(duì)數(shù)字資源的異構(gòu)性、動(dòng)態(tài)性和多樣性進(jìn)行整合利用過(guò)程中,首先要建立一套科學(xué)規(guī)范的資源選擇、加工、維護(hù)的控制體系,根據(jù)自身圖書(shū)館數(shù)字資源的具體情況,選擇合適的數(shù)字資源管理系統(tǒng),建立可視化、易于交流、檢索的數(shù)字資源門(mén)戶,才能做好數(shù)字資源整合工作。
參考文獻(xiàn)
[1]馬文峰,杜小勇.數(shù)字資源整合:理論、方法與應(yīng)用[M].北京:北京圖書(shū)館出版社,2007,(12).
[2]黃如花.網(wǎng)絡(luò)信息組織:模式與評(píng)價(jià)[M].北京:北京圖書(shū)館出版社,2003,(11).
[3]齊華偉,王軍.OAI-PMH與數(shù)字圖書(shū)館的互操作[J].圖書(shū)館論壇,2005,(4):19-22.
[4]趙陽(yáng),姜愛(ài)蓉.學(xué)位論文網(wǎng)上提交系統(tǒng)和發(fā)布系統(tǒng)比較研究[J].大學(xué)圖書(shū)館學(xué)報(bào),2004,(3):36-40.
[5]孟小峰.Web信息集成技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2003,(11):32-36,63.
[6]Maria Collins.ERM:Understanding the Players and Right Choice[J].Serials Review,2005,(2):125-140.