〔摘 要〕標準規(guī)范是數(shù)字資源共建共享的基石,是數(shù)字圖書館建設的基礎。本文在對我國數(shù)字資源建設及標準規(guī)范應用現(xiàn)狀進行簡要介紹的基礎上,分析了國內外數(shù)字資源標準規(guī)范建設的情況,研究了基于宏觀層面和微觀層面標準規(guī)范建設的內容,并對我國數(shù)字資源標準規(guī)范建設的發(fā)展提出了建議。
〔關鍵詞〕標準規(guī)范;數(shù)字資源;數(shù)字圖書館
〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0071-03
標準規(guī)范是數(shù)字資源共建共享的基石,是數(shù)字圖書館建設的基礎。數(shù)字圖書館是在網(wǎng)絡環(huán)境下建立的數(shù)字資源采集、加工、描述、管理、服務和存儲的系統(tǒng),最終要實現(xiàn)數(shù)字資源的最大共享化。為保證數(shù)字圖書館的資源和服務在整個數(shù)字信息環(huán)境中的可利用、可互操作和可持續(xù)發(fā)展,實現(xiàn)數(shù)字資源的共建共享,避免新的信息孤島的產(chǎn)生,必須重視標準規(guī)范建設。
1 數(shù)字資源建設及標準規(guī)范應用現(xiàn)狀
1.1 數(shù)字資源建設現(xiàn)狀
隨著現(xiàn)代計算機技術、網(wǎng)絡技術的發(fā)展,用戶對數(shù)字資源與服務的需求不斷增強。我國圖書館界近年來在數(shù)字資源建設方面投入了很大的精力,取得了一定的成果。通過對國內幾家大型圖書館的調查分析,可以看出各機構都已自建和購買了大量的數(shù)字資源。其中自建數(shù)字資源在建設內容上是以中文、館藏特色資源為主,包含有文本、圖像、音頻、視頻等類型;購買數(shù)字資源主要包含有電子圖書、電子期刊、電子報紙、學位論文、會議論文、年鑒、工具書、專利標準、文摘索引等內容。隨著數(shù)字資源的數(shù)量增多,標準規(guī)范問題已成為數(shù)字資源建設與持續(xù)發(fā)展的關鍵與瓶頸,其關系到網(wǎng)絡環(huán)境下圖書館能否實現(xiàn)數(shù)字資源的共建共享,能否為用戶提供廣泛方便的服務。
1.2 標準規(guī)范應用現(xiàn)狀
通過對國內幾家大型圖書館數(shù)字資源的元數(shù)據(jù)及對象數(shù)據(jù)格式的調查分析,可以看出目前在元數(shù)據(jù)格式方面是以MARC、DC及基于DC的擴展為主。在館藏資源數(shù)字化建設中,圖像數(shù)據(jù)主要為TIFF(保存格式)、PDF、JPEG、Djvu等格式;文本數(shù)據(jù)主要為PDF、TXT、DOC等格式;音頻數(shù)據(jù)主要為MP3、RM、WAV、WMA等格式;視頻數(shù)據(jù)主要為MPEG-4、MPEG-2、MPEG-1、AVI、WMV、ASF等格式。
而購買數(shù)字資源的數(shù)字對象格式,國內的幾大數(shù)字資源內容提供商大都有自己專有的數(shù)據(jù)格式,如超星的PDG格式、方正APABI的CEB格式、清華同方的CAJ格式、重慶維普的VIP格式等,需要用戶分別安裝不同的瀏覽器,為用戶利用資源造成了很大的不便。隨著有關國際標準的發(fā)展與對用戶需求的日益重視,目前許多數(shù)字資源內容提供商也都在專有格式的基礎上又提供了PDF格式,以方便用戶利用資源。但也仍有部分數(shù)字資源內容提供商只提供專有格式的對象數(shù)據(jù)。
2 數(shù)字資源標準規(guī)范建設分析
隨著數(shù)字信息資源和網(wǎng)絡信息服務的不斷發(fā)展和豐富,數(shù)字資源標準規(guī)范建設在世界范圍內引起了廣泛的關注,國內外多家圖書館、數(shù)字圖書館建設項目及標準化組織對數(shù)字資源建設相關的標準規(guī)范進行了研究和實踐。
2.1 我國數(shù)字資源標準規(guī)范建設
2.1.1 圖書館界
我國圖書館界一直比較重視標準規(guī)范的建設與發(fā)展。在數(shù)字圖書館建設初期,國內圖書館即相繼制訂了數(shù)字資源建設方面的一系列標準規(guī)范,例如國家圖書館的《中文元數(shù)據(jù)方案》;北京大學圖書館的《中文元數(shù)據(jù)標準框架》;清華大學圖書館在建筑及數(shù)學數(shù)字圖書館中的元數(shù)據(jù)方案;上海圖書館的元數(shù)據(jù)方案等。
近年來,一些國家層面的數(shù)字圖書館項目相繼啟動,在標準規(guī)范建設方面均予以了高度的重視。國家數(shù)字圖書館工程計劃建設30余項數(shù)字資源建設相關的標準規(guī)范項目,包括漢字處理、惟一標識符、元數(shù)據(jù)、對象數(shù)據(jù)、知識組織、資源統(tǒng)計、長期保存等多個方面,以支持國家數(shù)字圖書館的規(guī)范建設、開放服務;我國數(shù)字圖書館標準與規(guī)范建設(CDLS)項目由國內多家圖書情報機構參與,對數(shù)字圖書館標準規(guī)范進行了深入研究,發(fā)布了百余份技術報告,并且對我國數(shù)字圖書館標準規(guī)范的發(fā)展戰(zhàn)略、建設機制等進行了研究分析;中國高等教育文獻保障系統(tǒng)(CALIS)發(fā)布了《中國高等教育數(shù)字圖書館技術標準與規(guī)范》,廣泛應用于CALIS項目建設中,經(jīng)過不斷地修訂完善,已形成了一系列資源、服務與技術等方面的標準規(guī)范;黨校數(shù)字圖書館系統(tǒng)、軍隊數(shù)字圖書館系統(tǒng)、全國文化信息資源共享工程等也在標準規(guī)范建設與應用方面,進行了一定的探索與實踐。
2.1.2 標準組織
隨著數(shù)字資源建設的發(fā)展,對我國國家標準的需求日益增強,相關標準組織在國家標準的制修訂方面一直進行著不懈的努力,尤其是進行了一些國際標準的翻譯、研究、轉化等工作。例如,全國信息和文獻標準化技術委員會正在依據(jù)ISO 15836都柏林核心元數(shù)據(jù)元素集制訂國家標準;全國文獻影像技術標準化技術委員會也在依據(jù)ISO 19005-1(PDF/A)制訂國家標準。
2.2 國際數(shù)字資源標準規(guī)范建設
2.2.1 圖書館界
國際上主要發(fā)達國家的數(shù)字圖書館建設對數(shù)字資源標準規(guī)范非常重視。在一些主要的數(shù)字圖書館建設項目中都建立了一系列的標準規(guī)范或指南性文件以指導數(shù)字資源建設與服務。如美國國會圖書館的美國記憶(American Memory)項目對元數(shù)據(jù)、保存、掃描和轉換、文本標記等方面進行了詳細的規(guī)范;英國的電子圖書館計劃發(fā)布了eLib標準指南(eLib Standards Guidelines),在該指南中對應用服務、數(shù)據(jù)交換、元數(shù)據(jù)、安全認證和支付服務等方面進行了規(guī)范;加拿大的文化在線項目也發(fā)布了技術要求及推薦指南;另外,澳大利亞、新西蘭、日本等國家也制定了一系列數(shù)字資源建設的標準規(guī)范文件。
2.2.2 標準組織
國際標準化組織ISO、美國國家信息標準化委員會NISO、萬維網(wǎng)聯(lián)盟W3C等標準組織發(fā)布的標準中有一些已經(jīng)被廣泛地應用于數(shù)字資源建設中。例如ISO標準中的ISO/IEC 10646(UCS)、ISO 19005-1(PDF/A)、ISO/IEC 10918-1(JPEG)、ISO/IEC 14496(MPEG-4)、ISO 15836(DC元數(shù)據(jù))、ISO 14721(OAIS)等;NISO標準中的Z39.50檢索協(xié)議及Z39.89(Z39.50協(xié)議在圖書館的應用)、Z39.84(DOI語法)、Z39.85(DC元數(shù)據(jù))、Z39.87(靜態(tài)數(shù)字圖片技術元數(shù)據(jù)數(shù)據(jù)字典)、Z39.88(OpenURL)、Z39.93(SUSHI協(xié)議)等;W3C推薦標準中的XML(可擴展置標語言)、RDF(資源描述框架)、OWL(Web本體語言)等。
2.3 綜合分析
從國內外數(shù)字資源標準規(guī)范發(fā)展來看,在數(shù)字資源建設方面已有一些標準規(guī)范被廣為應用,成為國際上的主流標準規(guī)范。例如,在元數(shù)據(jù)方面,主要有用于描述的Dublin Core,用于編碼傳輸?shù)腗ETS,用于元數(shù)據(jù)收割的OAI-PMH等;在對象數(shù)據(jù)方面,主要有PDF、TIFF、JPEG、MPEG-4等;在惟一標識符方面主要有URI等;在開放鏈接方面主要有OpenURL等;在長期保存方面,主要有OAIS模型、PREMIS保存元數(shù)據(jù)數(shù)據(jù)字典等。
相比而言,國際上較為重視標準的發(fā)展,已將一些成熟的規(guī)范發(fā)展成為了國家標準或國際標準。如前面所述國際標準化組織ISO、美國國家信息標準化委員會NISO、萬維網(wǎng)聯(lián)盟W3C等均發(fā)布推薦了一系列數(shù)字資源建設中采用的標準。而國內對于數(shù)字資源標準規(guī)范大都尚處于研究與探索性應用層面,較為缺乏國家標準,這也是導致目前出現(xiàn)重復建設與采用標準不一致的重要原因。
3 數(shù)字資源標準規(guī)范建設內容
3.1 宏觀層面
3.1.1 建立數(shù)字資源標準規(guī)范體系
隨著數(shù)字圖書館建設的深入,數(shù)字資源標準規(guī)范建設已不再僅局限于對單個標準規(guī)范的研究與應用,而是應從整個數(shù)字資源生命周期的角度,圍繞數(shù)字資源的創(chuàng)建、描述、組織、服務、長期保存來建立完整的標準規(guī)范體系框架,并按照整個框架體系來規(guī)劃、組織各方面的標準規(guī)范建設,這將有助于全面地了解標準規(guī)范的內容,系統(tǒng)地認識各標準規(guī)范在整個體系中的層次、位置及與其他標準規(guī)范的關系,以促進標準規(guī)范間的相互支撐和互操作,保障數(shù)字資源的開放建設與集成服務。
數(shù)字資源標準規(guī)范體系的建立也將有助于解決在數(shù)字資源建設中如何選擇與應用標準規(guī)范的問題;以及還需要制訂與完善哪些標準規(guī)范的問題。
3.1.2 建立標準規(guī)范選擇制訂原則
在數(shù)字資源建設中,首先要解決的即是面對眾多的標準規(guī)范如何選擇與應用的問題,要確定選擇標準的幾項基本原則,如成熟性原則、前瞻性原則、開放性原則等,并確定標準應用的原則,如何時應用、如何應用、應用范圍等。在此基礎上,在數(shù)字資源標準規(guī)范體系框架的指導下,進一步確定還有哪些標準規(guī)范是數(shù)字資源建設中需要的,而目前又沒有的,需要我們制訂。
3.2 微觀層面
3.2.1 主流標準規(guī)范
在數(shù)字資源建設中,圍繞數(shù)字資源生命周期的主流標準主要包括字符編碼、對象標識、數(shù)據(jù)格式、元數(shù)據(jù)、檢索服務、長期保存等方面。
(1)字符編碼
字符編碼方面的國際標準、國家標準主要有ISO/IEC 10646、Unicode、GB2312、GB18030、GB13000等。其中,ISO/IEC 10646是國際字符編碼標準;Unicode是與ISO/IEC 10646內容基本一致并且同步發(fā)展的工業(yè)標準;而GB2312、GB18030、GB13000是目前我國字符編碼方面的主要國家標準。
(2)對象標識
對象標識方面的標準主要有URI、DOI、SICI、BICI等。其中,URI統(tǒng)一資源標識符,是所有標識互聯(lián)網(wǎng)資源的地址和名稱的通用集合,包含URN和URL;DOI數(shù)字對象標識符,是用來標識數(shù)字環(huán)境中的內容對象;SICI是用來標識期刊和期刊包含文章的標識符;BICI是用來標識圖書和圖書包含內容的標識符。
(3)數(shù)據(jù)格式
數(shù)據(jù)格式方面的標準非常多,不同資源類型、不同應用級別需要采用不同的格式標準。目前在數(shù)字資源建設中主流的對象數(shù)據(jù)格式標準主要有ISO 19005-1(PDF/A)、ISO/IEC 10918-1(JPEG)、ISO/IEC 15444(JPEG2000)、ISO/IEC 11172(MPEG-1)、ISO/IEC 13818(MPEG-2)、ISO/IEC 14496(MPEG-4)及一些工業(yè)標準,如TIFF等。
(4)元數(shù)據(jù)
隨著數(shù)字資源的發(fā)展,元數(shù)據(jù)標準呈現(xiàn)多元化的發(fā)展趨勢,國內外針對不同領域、不同資源、不同應用已有多種元數(shù)據(jù)規(guī)范存在。如主要用于傳統(tǒng)文獻描述的MARC,用于網(wǎng)絡資源描述的DC,用于檔案資料描述的EAD等。除描述元數(shù)據(jù)外,技術元數(shù)據(jù)、管理元數(shù)據(jù)、保存元數(shù)據(jù)等近年來也日益受到重視。
(5)檢索服務
檢索服務標準對于實現(xiàn)數(shù)字資源系統(tǒng)間的互操作非常關鍵。在數(shù)字資源建設中比較常用、通行的標準主要有Z39.50信息檢索協(xié)議,該協(xié)議是實現(xiàn)聯(lián)機書目檢索服務的國際標準;OAI-PMH元數(shù)據(jù)收割協(xié)議,是實現(xiàn)元數(shù)據(jù)互操作的協(xié)議標準;OpenURL開放鏈接協(xié)議,是實現(xiàn)資源對象調用獲取的協(xié)議標準。這些協(xié)議在數(shù)字圖書館建設中已經(jīng)被廣泛地采用。
(6)長期保存
OAIS開放檔案信息系統(tǒng)參考模型已成為ISO標準(ISO 14721:2003),被普遍接受為數(shù)字資源長期保存系統(tǒng)的基本框架,被國內外眾多圖書館的數(shù)字資源保存項目所采用。此外,在長期保存元數(shù)據(jù)方面,OCLC推出的PREMIS保存元數(shù)據(jù)規(guī)范的應用與發(fā)展前景較好,已被許多項目所采用。
3.2.2 重點發(fā)展方向
根據(jù)目前數(shù)字資源標準規(guī)范的發(fā)展現(xiàn)狀及趨勢,我國圖書館界應對以下幾個方面予以重點研究:
(1)元數(shù)據(jù)映射規(guī)范
鑒于目前多種元數(shù)據(jù)格式并存的情況,建立元數(shù)據(jù)格式間的映射規(guī)范是實現(xiàn)元數(shù)據(jù)互操作的有效方法。例如美國國會圖書館在MARC21、Dublin Core、MODS等之間建立的映射(Mapping)關系。
(2)CNMARC XML規(guī)范
鑒于ISO 2709格式的局限,為適應新的通訊環(huán)境,更好地實現(xiàn)不同機構間CNMARC數(shù)據(jù)的交換,應將基于XML的CNMARC數(shù)據(jù)交換格式(CNMARC XML)作為未來重點發(fā)展方向。可參照ISO/DIS 25577 MarcXchange,以及美國國會圖書館的MARCXML規(guī)范。
(3)DC元數(shù)據(jù)的應用規(guī)范
DC元數(shù)據(jù)已成為ISO標準(ISO 15836:2003),并且也正在被發(fā)展成為我國國家標準,鑒于其具有簡單性與擴展性強的特點,可以建議作為各機構進行數(shù)字資源描述的最小集、核心集,既有利于實現(xiàn)元數(shù)據(jù)的互操作,也能通過擴展?jié)M足不同機構、不同類型的應用需求。
(4)管理元數(shù)據(jù)、保存元數(shù)據(jù)規(guī)范
管理元數(shù)據(jù)和保存元數(shù)據(jù)規(guī)范目前在國內的研究與實踐相對薄弱,應是未來元數(shù)據(jù)規(guī)范的重點研究方向。
(5)網(wǎng)絡資源長期保存規(guī)范
網(wǎng)絡資源的長期保存是我們所面臨的重點和難點,其規(guī)范建設涉及很多方面內容,包括文件格式、描述格式等一系列問題。目前,ISO正在發(fā)展的WARC(Web ARChive)文件格式,我們應該予以關注。
4 我國數(shù)字資源標準規(guī)范建設的發(fā)展建議
我國數(shù)字圖書館經(jīng)歷了10余年的發(fā)展,在數(shù)字資源建設與服務方面已取得了一定的成果,標準規(guī)范問題也越來越受到重視,已有一些國際標準、國家標準、行業(yè)標準或事實標準在我國數(shù)字資源建設中被廣泛地、普遍地采用,但在一些方面也還仍然缺乏標準規(guī)范的支撐,尤其是數(shù)字資源建設方面的國家標準比較少,關于標準規(guī)范合作、開放建設與共享的機制也還需要在業(yè)界達成共識。
為了保證數(shù)字圖書館建設的可持續(xù)發(fā)展,保證數(shù)字資源建設的共建共享,我國數(shù)字資源標準規(guī)范建設應堅持科學化、系統(tǒng)化和規(guī)范化相結合,采取合作、開放與共享的方式進行建設。盡快建立標準規(guī)范開放登記機制,加快我國國家標準的制修訂,加快相關國際標準的本地化,加強標準規(guī)范的宣傳貫徹,重視標準規(guī)范的具體實施,并關注國際數(shù)字資源標準規(guī)范的應用與發(fā)展,以進一步促進我國數(shù)字資源建設的標準化進程。
參考文獻
[1]彭緒庶,蔣穎著.資源數(shù)字化標準問題研究[M].北京:北京圖書館出版社,2005.
[2]張曉林,等.我國數(shù)字圖書館標準規(guī)范發(fā)展戰(zhàn)略[R].2004.3.
[3]張曉林,等.我國數(shù)字圖書館標準規(guī)范建設與應用的實施指南[R].2004.5.