
摘 要:數字時代的快速發展使數字資源的長期保存成為一項重要的研究課題,不僅在圖書情報領域內開展廣泛研究,同時還具有較強的跨學科性質:其理論與技術科學借鑒其他領域研究成果,對其他領域也具有指導意義和實用價值。鑒于數字資源長期保存的現實意義和歷史意義,筆者從文獻計量的角度出發,以Web of Science核心合集近五年的相關文獻為數據來源,利用文獻關鍵詞共現聚類的分析方法,借助文獻計量分析軟件VOSviewer繪制熱點知識圖譜,通過對類團中關鍵詞進行梳理和解讀,總結出目前數字資源長期保存領域的熱點研究主題和方向:數字資源存儲技術和方法的研究、數字資源保護理論與策略的研究以及數字資源信度與安全保護的研究。
關鍵詞:數字資源保存;研究熱點;共詞分析;知識圖譜;圖書情報
一、引言
隨著互聯網及計算機技術的發展,文獻等信息資源的載體逐漸由紙質轉為數字形式,且數字化與電子化的趨勢愈加明顯。圖書館作為文獻信息資源的保存者與傳播者,數字資源已成為其重要的保存對象,數字資源的保存也成為圖書情報學科一個重要的研究領域,同時與法學、哲學、經濟學和計算機學等學科都存在交叉研究。聯合國教科文組織(UNESCO)在“全民信息計劃”(Information for all programme,IFAP)主題討論會中曾明確“敦促政府對信息保存給予優先考慮,并選擇保存哪些資源”,并將數字資源保存列為應優先發展的五大領域之一。數字資源保存又可分為長期保存、中期保存和短期保存,隨著海量的數字化內容成為人們生活中越來越重要的文化和知識遺產的承載者,而網絡和信息技術的飛速發展使得數字化內容不得不面臨著退化和消逝的風險,因此,數字資源的長期保存就顯得尤為重要,以使人們能夠永久獲取數字信息,保存文化遺產。鑒于“數字資源長期保存”領域本身具有的重要意義,及其與其他領域研究的跨學科性質,有必要對該領域目前的研究熱點進行分析,了解領域研究現狀并為后續研究提供借鑒。
二、研究方法與工具
1.研究方法
研究熱點(hot topic)是Price在1965年提出的概念,指在某時間段內有突出發展潛力的研究主題。研究熱點通常是由一組研究中的領域主題組成,不同的關鍵詞構成了每個領域主題,關鍵詞作為一篇文獻核心內容的濃縮和提煉,在很大程度上代表文獻的研究內容,以及解讀性強,且分析方法簡單多樣等優勢,基于文獻關鍵詞的熱點識別方法成為目前最為常用的分析方法,主要又可分為詞頻分析法和共詞分析法:詞頻法由Luhn于1958年首次應用于自動文摘的研究,基于研究內容集中性與分散性可由關鍵詞頻次與個數的關系判斷這一原理,關鍵詞的集中性越強,則該關鍵詞表征的內容在該領域很可能起關鍵作用;共詞分析法起源于20世紀70年代中后期一位法國文獻計量學家,并在1983年SCI首次收錄Callon.M發表的關于共詞聚類分析的論文之后作為一種內容分析方法正式被人們關注。共詞分析法以文獻計量和統計聚類為研究手段,將看似無關的關鍵詞聯系起來,按詞間緊密程度對共同出現的詞進行聚類,每個類團由相互聯系的數個關鍵詞團聚合而成,通過對類團中的關鍵詞進行分析,表達一定的研究主題。再結合關鍵詞在不同時間內的關注度高低變化,探尋某時間段內不同主題的研究熱度。
2.分析工具
知識圖譜(knowledge graph)作為語義網技術之一,自2012年Google正式提出這一概念之后,便在多個領域有了廣泛應用。借助可視化分析工具,利用關鍵詞共現關系生成知識圖譜也成為熱點分析應用研究中的主要趨勢。VOSviewer是一款由荷蘭萊頓大學的Nees Jan van Eck和Ludo Waltman共同開發的文獻計量分析軟件,可通過標簽視圖、密度視圖等方式展現分析領域的熱點主題等。本文以共詞聚類分析為方法,借助可視化軟件VOSviewer對數字資源長期保存領域的研究熱點展開分析和圖譜展現。
三、數據獲取與分析結果
1.數據獲取與預處理
為了保證數據的全面性和權威性,筆者從科睿唯安的Web of Science數據庫中選擇Web of Science核心合集為數據來源,選用2014-2018這五年的所有類型文獻,檢索結果如表1所示。
關鍵詞清洗是進一步分析的前提和必要條件,BibStats是中國農業大學情報研究中心團隊開發的一款文獻計量分析工具,首先利用BibStats將元數據進行格式的統一,再進一步對關鍵詞字段進行以下操作步驟:校正詞條——對字段中的重復記錄進行去重——進行關鍵詞中的大小寫異形的統一處理——對系統能識別的語法異構等不一致關鍵詞進行統一處理(例如將digital library和digital libraries全部統一為digital library),共1642個關鍵詞。將清洗后的數據導入VOSviewer,分析類型選擇“共現(Co-occurrence)”,分析單元選擇“作者關鍵詞(Author keywords)”,計算方法選擇“全計數(full counting)”,將關鍵詞共現閾值設置為2次,即共現次數2次以上的關鍵詞納入分析,共181個。運行后以熱點圖形式呈現,類團以關鍵詞共現關系凝聚成團,如圖1所示。
2.分析結果
觀察上圖,可從不同顏色區分幾個主要的類團,同時軟件提供聚類的具體關鍵詞信息,共形成8個聚類,筆者通過人工判讀類團內的關鍵詞,在此基礎上對類團進行整合,形成研究主題如下:
主題一:云計算(cloud comput)、網格(grid)、本體論(ontology)、數字聲音存儲(digit sound preserve)、三維成像(3d imaging)、云存儲(cloud storage)、數字技術(digital technologies)、元數據(metadata)等;
主題二:保護計劃(conservation planning)、文化遺產(culture heritage)、數字遺產(digital heritage)、機構知識庫(institutional repositories)、地理信息系統(GIS)、信息資源(information resources)、生物多樣性(biodiversity)、自然保護(nature conservation)等;
主題三:隱私保護(privacy preserving)、信息共享(information sharing)、訪問控制(access control)、云安全(cloud security)、信息安全(information security)、數據管理(data management)、數字保護(digital conservation)、身份認證(authentication)、安全(security)、數字簽名(digital signature)等。
四、數字資源長期保存熱點主題分析
筆者通過分析以上關鍵詞,總結出數字資源長期保存領域的以下幾個熱點研究主題和方向:
1.數字資源存儲技術和方法的研究
數字資源存儲最初起源于醫學領域,應用于胸部放射攝影、肺部影像資料的長期保存,磁存儲和光存儲技術在早起階段是最主要的數字資源存儲技術,隨著信息量越來越大,數字全息存儲技術逐漸發展起來,數字全息存儲是一種大容量信息存儲技術,其利用激光全息攝影原理,在感光介質上記錄圖文等信息,具有保真度高、存儲量大,且讀取方便等優勢,是有望取代傳統的磁存儲和光學存儲的新型數據存儲技術,此外,基于元數據的更為新興的動態獲取和存儲技術逐漸發展起來,例如網格存儲技術、虛擬存儲技術、機構存儲技術、關聯數據獲取與保存技術、數字共享技術等。
2.數字資源保護理論與策略的研究
數字資源長期保存不僅具有重要的現實意義,同時也具有傳承人類文明、保護文化遺產、提供數字資源可持續發展與利用的特點,對永恒發展的歷史也具有重要意義,因此不僅圖書情報領域有數字資源長期保存需求,資源的可持續服務在其他領域,例如地理領域的自然資源保護、生態領域的生物多樣性的保護、以及人類歷史文化遺產的保護等等,為了實現數字資源的可持續服務,保證多種資源的長期獲取和信息的安全可靠,不僅要依靠技術和設備的支撐,更需要宏觀層面理論和政策的正確指導。例如,保護哲學、保護計劃、保護價值等關鍵詞的大量出現。數字資源保存的主要研究策略列入合作保存策略,鑒于數字資源保存工程量的浩大,以及單獨機構無法完成保存任務這樣的弊端,因此制定合作保存策略,并聯合多個機構進行合作,以滿足大量的數字資源保存需求,此外還有技術保存等策略,針對不同的保存需求,選擇恰當的技術方案,以使有限的資源得到更好的配置。
3.數字資源信度及安全保護的研究
數字資源長期保存的根本目的是為了保證在一個較為長期的時間范圍內數字資源的可獲取性,這就要求數字資源在保存過程中的安全性、可靠性和可持續性,隨著越來越多的傳統信息資源被數字信息資源所取代,對數字資源的信度、隱私和安全保護的研究逐漸成為該領域的熱點主題,從文獻關鍵詞中可見一斑,例如通過實施訪問控制,限制用戶對存儲信息的訪問,防止非法主體盜取數字信息;例如繼云計算、云存儲之后出現的云安全概念的興起,通過融合網格計算、判斷病毒行為等技術,通過大量客戶端檢測網絡行為,并對木馬等異常行為采取解決方案的技術;例如使用公鑰加密領域技術實現的數字簽名,不僅能夠保證發送信息的真實性,同時也能保證數字文件的完整性;例如重視機構和用戶的數字信息資源隱私保護,革新用戶身份驗證技術等等。
五、結語
數字資源長期保存在數字時代具有重大的現實意義和歷史意義,筆者從文獻計量的角度出發,借助文獻計量分析軟件VOSviewer繪制文獻關鍵詞的熱點圖譜,通過對聚類團中的關鍵詞進行梳理和解讀,總結出目前數字資源長期保存領域的熱點研究主題和方向,主要可包括數字資源存儲技術和方法的研究、數字資源保護理論與策略的研究以及數字資源信度與安全保護的研究。本文以文獻計量的手段,通過梳理當前該領域的重要研究內容,為后續相關研究提供參考。
參考文獻:
[1]胡澤文,武夷山,孫建軍.數字資源保存的研究進展、熱點與前沿[J].數字圖書館論壇,2013(02):24-38.
[2]“全民信息計劃”鼓勵政府優先考慮信息保存[J].現代圖書情報技術,2007,000 (008 ):39.
[3]毛文莉.基于科學文獻下載數據的科研趨勢識別研究[D].大連理工大學,2015.
[4]李 穎,賈二鵬,馬 力.國內外共詞分析研究綜述[J].新世紀圖書館,2012(01):23-27.
[5]安秀芬,黃曉鸝,張 霞,林朝英.期刊工作文獻計量學學術論文的關鍵詞分析[J].中國科技期刊研究,2002,13(06):505-506.
[6]李大量.共詞聚類分析方法的技術路徑研究[D].中國農業大學,2014
[7]高 凱.文獻計量分析軟件VOSviewer的應用研究[J].科技情報開發與經濟,2015,25(12):95-98.
[8]王 瑩.基于大數據的數字資源長期保存策略[J].蘭臺世界,2018(S1):30-31.
[9]楊 佳.2017年數字資源長期保存國際會議(iPRES 2017)綜述[J].圖書館建設,2018(12):88-96.
作者簡介:張茜晴(1990-),女,陜西西安人,中國農業大學,碩士研究生(2017級碩士),研究方向:圖書館管理與服務。