張文亮 郭婧



摘要:梳理國內數字圖書館標準化研究領域的相關文獻,利用文獻計量和知識圖譜分析的方法,總結目前該領域的研究熱點主要集中在元數據標準、數字圖書館標準體系、特色數據庫標準以及版權研究幾個方面,分析目前研究中存在標準規范體系研究不足、內容研究尚未完善、缺乏標準應用指南研究等不足之處。
關鍵詞:數字圖書館;標準化;綜述
引言
我國數字圖書館的建設開始于20世紀90年代,為了更好地促進其發展,標準規范工作緊隨其后展開。CALIS從2002年開始進行相關研究,2003年底組織人員正式編制“CALIS子項目建設技術標準與規范”;國家數字圖書館工程從2005年開始建設數字圖書館標準規范,迄今已有30余項。實踐表明,標準規范的建設是數字圖書館發展的重要保障。
截止到目前,盡管國內已經有關于數字圖書館標準化研究的綜述,但是大都發表于2010年以前,距離當前時間較長。此外,研究內容多是對數字圖書館項目標準的概述。本文利用文獻計量統計以及知識圖譜分析的方法,在分析相關文獻的基礎上,揭示目前該領域的研究主題,總結其不足,以期為數字圖書館標準化領域研究提供借鑒。
1、研究設計
1.1文獻來源
為了對數字圖書館標準化研究的發展脈絡有系統性的掌握,本文對截止到2017年12月30日的CNKI中國知網數據庫的期刊文獻進行了全面檢索。在CNKI期刊全文數據庫的“圖書情報與數字圖書館”子庫中,將主題設置為“數字圖書館”或含“電子圖書館”或含“虛擬圖書館”或含“復合圖書館”,作為第一組檢索詞,并以“標準”“規范”“協議”“規則”“指南”為第二組檢索詞進行檢索,共獲得632篇核心期刊文獻,對這些文獻進行查重,并剔除無效征文通知等不相關文獻后,獲取有效文獻441篇。
1.2方法選擇
利用Bibexcel和Ucinet軟件對所獲取到的有效文獻進行文獻計量統計與知識圖譜分析。文獻計量統計包括年代分布、作者發文量分布,而知識圖譜則是利用從文獻中提取到的關鍵詞繪制知識圖譜。
2、文獻計量統計
2.1年代分布
數字圖書館標準化研究領域的發文量很大程度上可以表現出學者對該領域的關注度以及此領域的發展情況。對1990年至2017的441篇文獻進行年代統計,分析每年發文量以及出現的原因,見圖1。
由圖1可知,該領域的研究呈階段性發展。1996年,國家圖書館申請立項“數字式圖書館實驗項目”,主要對各類相關標準進行研究;1997年出臺的《文化事業發展“九五”計劃和2010年遠景目標綱要》提出要使文獻資源數字化的進程加快以及對數字化圖書館進行研究;2001年立項的數字圖書館工程中,一項重要的內容就是標準規范建設,同年,CSDL項目正式啟動;2002年,CALIS開始對相關的國際標準進行研究。在這些政策以及項目的帶動下,我國數字圖書館標準化研究開始起步,至2005年發文量總體呈上升趨勢,并達到高峰期。2005至2013年研究進入慢速發展階段,發文數量逐漸減少,但總量依舊多于2005年之前的發文數量。2013至現在,標準化研究再次引起該領域學者的關注,發文量呈上升趨勢。2016年6月,《全國圖書館標準化工作“十三五”規劃綱要》中指出要研究建立一個圖書館標準規范體系以適應數字圖書館事業的建設需求。在這些政策的帶動下,對數字圖書館標準化的研究探索得到更加廣泛的關注。
2.2作者發文量統計
對上述文獻的作者進行統計分析,441篇文獻的共同作者共計500位,并統計了作者分布情況:88.2%的作者只有一篇相關領域的研究成果,有兩篇以上研究成果的作者只占到了11.8%,這表明對數字圖書館標準化研究的核心作者相對不集中,見表1。
3、詞頻分析與可視化
詞頻分析是指利用Bibexcel軟件對有效文獻中的關鍵詞進行提取,在人工優化的基礎上合并同類關鍵詞,并利用Excel軟件進行詞頻統計分析。可視化分析則是在此基礎上利用可視化軟件將關鍵詞之間的聯系以知識圖譜的形式展示出來,并通過節點的大小、節點之間連線的粗細區別各研究主題的重要程度。
3.1詞頻分析
對441篇有效文獻進行關鍵詞的統計,經過去重、合并后共得到494個有效關鍵詞。通過Excel統計頻次≥6的高頻關鍵詞,見表2。
從表2中可以看出,除“數字圖書館”、“圖書館”、“標準”這樣沒有分析意義的詞外,排名前十的高頻關鍵詞包括:元數據、互操作、合理使用、XML、元數據標準、數字資源、都柏林核心元數據、數字化、信息資源、著作權。由此可見,元數據、合理使用以及互操作等是數字圖書館標準化領域的研究重點。
3.2可視化分析
在對關鍵詞統計的基礎上,利用Ucinet和Netdraw構建了關鍵詞共現網絡圖譜,見圖2。
圖2中圍繞在數字圖書館周圍節點較大、連線較粗的關鍵詞有元數據、合理使用、互操作。表明我國學者在這三個方面研究最多。從“元數據”節點出發,輻射出較多的連線,包括都柏林核心元數據、元數據標準、XML、MARC等,這些研究主題之間的聯系較為緊密。此外,技術標準、評價標準、分布式檢索、信息安全管理等主題雖然與數字圖書館相關,但是彼此之間并沒有聯系,呈分散式分布,表明這些主題已經引起國內學者的關注,但是到目前為止并沒有形成研究熱點。
4、主題熱點研究
通過對有效文獻的詞頻與可視化分析,將目前數字圖書館標準化領域的研究主題歸結為以下幾個方面:
4.1元數據標準
元數據是一種結構化的編碼數據,用來對數據進行描述。隨著資源的開放共享,不同的元數據格式以及標準體系大量涌現,元數據的標準化直接影響數字圖書館的建設發展。國內學者很早就開始對元數據標準規范進行研究,包括古籍元數據、音樂元數據、拓片元數據、電子論文元數據等,一致認為元數據的標準化是數字化建設的需要,是基礎性工程,也是促進元數據在跨學科資源描述過程中使用的重要保障。基于元數據標準獨特性、多元化的特點,數字化的發展要求不同的元數據之間建立一種機制,實現互操作性。而語義一致性、語法一致性等是元數據互操作性的關鍵。
4.2數字圖書館標準體系
數字圖書館標準體系是標準的集合,它按照一定的邏輯體系囊括了該領域所有相關的標準。標準體系的建立可增強現有標準的可操作性、統一不同系統之間的標準規范,對數字圖書館建設的發展舉足輕重。數字圖書館標準規范建設主要包括資源的加工、組織、服務、互操作、長期保存與體系化建設。關于數字圖書館標準體系的探討,趙悅提出了從標準層級體系和標準內容體系兩方面構建數字圖書館標準規范體系框架。標準層級體系包括:國家、行業、地方、機構層級;標準內容體系方面包括:資源、服務、管理和技術,并指出數字圖書館標準規范在未來5-10年內的建設重點就是服務和管理。
4.3特色數據庫標準
特色數據庫是指各單位根據其需求建立的數據庫,主要用于其特色資源的保存和推廣。但是在推廣過程中,因建設標準的不同,造成資源難以共享。對此,王愛華等人提出特色數據庫在建設時,其標準可以借鑒并采用《我國數字圖書館標準規范研究》項目中介紹的系列相關標準、元數據標引格式規范、文獻著錄的有關國際標準和國家標準等。
4.4版權研究
版權問題一直困擾著數字圖書館的發展,也是數字圖書館研究的重點。2004年,谷歌數字圖書館誕生,隨后接踵而來的就是版權問題。肖東梅認為在現行的版權框架下,先授權后使用的版權規則是谷歌在數字圖書館項目中難以逾越的壁壘,而谷歌在版權問題中積極的探索促使數字圖書館版權問題受到重視。針對如何解決數字圖書館建設中出現的版權問題,秦珂學者提到了補償金制度。當然,在對館藏文獻數字化以及網絡資源館藏化的過程中,版權問題也是不容忽視。
5、結語
總體而言,通過文獻計量與可視化分析可以知道目前我國數字圖書館標準化領域的研究主要集中在元數據、互操作、特色數據庫標準、版權以及數字圖書館標準體系等方面。在信息檢索、存儲、服務、安全等方面也有涉及,但是研究較少。本文在梳理該領域研究主題的過程中,也發現其存在的不足,主要表現在以下幾個方面:其一是標準規范體系研究不足。現有的對標準規范體系的研究多數在數字資源生命周期的基礎上展開,而隨著數字圖書館建設的深入發展,標準規范體系需要不斷的完善,才能更好地指導數字圖書館的建設發展。其二是內容研究尚未完善。數字圖書館標準化的研究應該符合一個完整的數字資源生命周期。目前關于資源建設的研究較多,對資源的長期保存、管理、服務等方面的研究還有所欠缺。其三是缺乏標準應用指南研究。數字圖書館建設項目的發展推動了數字圖書館標準規范的建設。在重大項目標準規范建設成果中,只有國家數字圖書館工程制定了標準規范的應用指南。應用指南的缺失會使得標準規范建設成果難以運用到實踐中。