張燕飛+孔慶杰+劉東亮



[摘 要] 基于CNKI期刊數據庫,以數據共享為檢索詞,借助文獻分析工具SATI、Ucinet,以時間、作者及其影響力、期刊來源、機構、關鍵詞等多個指標進行分析,采用共詞分析法對圖書情報學數據共享的主題及演變過程進行分析,結合目前我國圖書館領域數據共享現狀,探討開發適合我國數據庫共享平臺等多種方式,實現以高校圖書館為主的數據分享的藍圖。
[關鍵詞] 數據共享;圖書館;演變趨勢;高校圖書館
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 03. 088
[中圖分類號] G353 [文獻標識碼] A [文章編號] 1673 - 0194(2017)03- 0162- 05
0 引 言
檔案學對“數據共享”的定義為:“多用戶同時使用同一個數據信息集合”。2013年以來,國際上多個領域已經開始廣泛關注科學數據共享[1]。目前,在圖書情報學領域研究主要熱點關鍵詞包括數字閱讀、數字圖書館與個性化服務、推送服務、移動圖書館、新媒體營銷、云計算等[2]。數據共享是以互聯網大數據的背景為前提條件,數據共享能夠實現數據資源最大化利用、數據管理、數據服務等功能。采用云計算的模式作為數字圖書館的底層架構,圖書館服務的改善表現在數據安全、數據共享、用戶體驗等方面[3]。每個學科在其數據共享實踐中都有不同的策略,數據共享與學術圖書館合作,為數據管理與共享提供相應的制度。目前,對該領域的主題及演變趨勢的研究極少。
筆者基于CNKI數據庫,檢索詞=數據共享,學科=圖書情報學,從論文發表時間、作者及其影響力、期刊來源、機構、關鍵詞等多個指標,借助SATI,經DetDraw可視化,以圖譜的方式呈現,旨在探索我國圖書館領域數據共享研究的主題以及其演變過程,以我國現狀為基礎,提出相應的對策和建議。
1 研究方法與數據來源
研究方法:采用共詞分析法,利用統計分析工具SATI 3.2,Ucinet 6進行處理描述,抽取字段、提取關鍵詞、作者、機構、期刊來源詞頻,并生成共現矩陣,相異矩陣;利用IBM SPSS 19.0聚類分析;處理數據,統計分析。
數據來源:CNKI的中國期刊全文數據庫。數據樣本時間范圍:1987年1月1日至2016年10月30日。以數據共享進行主題精確檢索,去重后,圖書情報與數字圖書館學科有302條記錄。檢索時間:2016年10月30日。
2 統計結果分析
2.1 論文發表隨時間呈上升趨勢
自1987年以來,該研究數量隨著時間的變化曲線見圖1。
由圖1可見,2006年至2012年,論文數量經過兩個波峰,整體比上一階段高,在2009年達到小高峰,發文量達到30篇;2012年到2015年,研究論文數量一直呈現增長趨勢,2015年發表數量增至最高值(69篇),發文量隨著時間的增長基本上呈現增長趨勢。
2.2 論文著者之間多以個人形式存在,缺乏多人合作團體
從作者發文量及其著者合作發文的情況,能夠清晰科研主導力量及其機構之間的合作情況。筆者以作者和第一作者為統計指標。共463位作者,共現次數=522,出現一次作者的人數=413,占全部的79.12%。合計274位第一作者,共現次數=297次,出現一次作者的人數=252,占全部的84.85%。以作者共現矩陣得作者之間的關系網絡圖譜如圖2所示。
按照K-core共分為3個值。0:左側作者群;1:四邊形;2:三角形。由圖2可知,K-core=2在圖譜中占據該研究的重要地位。著者之間的共同合作較為缺乏,一般多數都是單獨研究,主要分布在圖的左側,在前50位作者中,聯系最為緊密的是江洪與鐘永恒,聯系最多作者數量為3人。未來團隊合作能夠促使作者之間的關系更為密切。
2.3 期刊分布來源少,出現單一現象
論文分布在128種刊物上,期刊載文量為1篇的占總量的29.1%。發文量前10的期刊信息見表1。載文量最多的期刊為《圖書情報工作》(IF=2.018,最高),30篇,其余前9位期刊載文量均在12篇以下,TOP10期刊的載文量累計概率為36.4%。除《科技情報開發與經濟》與《農業圖書情報學刊》外,其余期刊的影響因子IF均在1左右。
2.4 高產機構地域分布不均勻
筆者以研究機構為指標,大致將所有文章分屬到高等院校、公共圖書館、科研單位及醫院四個單位類別,高等院校所占比率最大,論文數量接近200篇。進一步對高等院校以華東、華北、東北、華南、華中、西北、西南為劃分標準,高產機構主要分布在我國的華東、華中、華北地區。
2.5 高頻關鍵詞及熱點主題分析
2.5.1 高頻關鍵詞(數據共享、圖書館、科學數據)
通過對數據源的關鍵詞共現分析歸納該學科的研究熱點主題,根據詞頻統計結果繪制數據共享研究所涉及關鍵詞的共現圖譜,從圖譜中更能清晰地看出研究熱點、各主題之間的內在聯系。該研究主題有903個關鍵詞,平均每篇論文關鍵詞數量為3。出現1次的關鍵詞有756次,占總數的54.98%,詞頻﹥5的關鍵詞如表2所示。
數據共享出現了80詞意義不大,因為檢索主題詞為“數據共享”。除數據共享外出現頻次前3的關鍵詞依次是圖書館(33)、科學數據(32)、數字圖書館(18)。為使關鍵詞的圖譜具有代表性,筆者選取關鍵詞出現的頻次前50個關鍵詞。
2.5.2 四類研究主題分析
關鍵詞通過可視化圖譜能反應出研究領域內親疏關系。為了進一步清晰地描述研究主題,筆者采用IBM SPSS 19.0系統聚類處理前50個關鍵詞,參考線Y=23將聚類圖中該領域的關鍵詞大致分為四類(見表 3),A類:數字圖書館與網絡技術類,因為XML具有兼容Web應用,實現信息交換與共享[4]。B類:高校圖書館信息資源建設類。C類:元數據類。D類:科學數據管理、保存、共享類。
2.5.3 戰略坐標分析(A、D類合為一類)
戰略坐標圖是向心度和密度為橫、縱坐標軸,戰略坐標點分布在四個象限,每個戰略坐標點位置和距離的遠近表示不同領域間的關系、內部成員之間的關聯程度。第一象限點:兩個數值都高,它為該領域的核心與成熟區;第二象限點,向心度低,密度高,邊緣與成熟區;第三象限點,兩者均低,邊緣與不成熟區;第四象限,向心度高,密度低,核心與不成熟區域。四類的平均坐標值為(3.4,5.8),該研究的戰略坐標圖見圖2。
結合上述理論,發現A、D兩類處在邊緣與成熟區,主要是在網絡技術下發展起來的新型話題,可將這兩類合為一類。核心和成熟區并未出現戰略坐標點,該研究領域仍舊處在發展中,均在確定目前該研究的發展趨勢。以元數據、整合為內容的C類處在該研究領域的邊緣與不成熟區;高校圖書館、信息資源共享為主的B類處在核心與不成熟區域,高校圖書館如何有效利用資源的工作值得進一步研究。
由SATI生成50×50階共詞矩陣,經Ucinet的經Netdraw中心性分析后得關鍵詞共現圖譜見圖3。
圖3中節點的大小表示不同的度,表示與該節點相連線的條數,節點之間連線的粗細代表關鍵詞之間的關聯程度。圖3中所有節點最大的除數據共享外,其次是圖書館、科學數據,較為明顯的還有:數字圖書館、信息服務、高校圖書館等,其中數據共享與科學數據的關系最為密切,圖的右上角也形成了一個較為緊密的圖譜,處于網絡圖譜邊上的關鍵詞之間的相互聯系越不緊密。
2.6 演變趨勢分析
2.6.1 計算機管理、編目為主(1987-2005年)
第一階段,由前50個高頻關鍵詞共現矩陣,經過Ucinet的NetDraw可視化處理,數據共享、資源共享、書目數據、計算機編目、編目工作等這些為第一階段的核心關鍵詞,數據共享與圖書館自動化的關系較為緊密。數字圖書館、標引類、科學數據共享等關鍵詞處在圖譜的邊緣上。合作館藏建設、聯機聯合編目是圖書館的基礎工作[5]。
2.6.2 數字圖書館、高校圖書館與XML等技術相結合發展(2006-2012年)
第二階段,節點最大的關鍵詞仍然是數據共享,其次為數字圖書館、圖書館、高校圖書館,該階段數字圖書館與數據集成、云計算、XML之間關系緊密,關系較密的關鍵詞群有:數據共享、圖書館、云計算;高校圖書館、文獻資源建設、信息資源共享。與第一階段相比較,從偏重管理和編目的研究轉變為新網絡技術與圖書館相結合,重點偏向于計算機技術與數字圖書館的發展。圖書館的變化起源于美國和其它國家,網絡無國界,各地互聯網連接,圖書館也受其影響,逐漸走向電子化,數字及虛擬圖書館也就應運而生。
2.6.3 科學數據共享與圖書館為主(2013-2016年)
第三階段,數據共享的節點最大,科學數據、圖書館、科學數據共享陸續緊隨其后,網絡圖譜相互交錯,聯系較為緊密,與上兩個階段相比,它們之間的聯系比較緊密,主要表現AD和D上。一、二、三階段關鍵詞之間的平均距離AD1= 2.369、AD2=3.162、AD3=2.215,AD2﹥AD1﹥AD3,即第三階段關鍵詞之間聯系最為緊密;基于距離的內聚力D1= 0.331,D2= 0.332,D3= 0.470,D3﹥D2﹥D1,第三階段的內聚性最大。
3 對 策
目前,我國處在較低的發展階段,存在的突出問題:共享理念不夠普及,相關機制并不健全,平臺與技術規范發展速度比較慢,共享服務的效果不夠明顯[6-7],缺乏相關數據存檔服務。開放數據許可協議對促進數據共享具有重要作用,政府機構、知識共享組織、開放數據共用項目制訂相對應的開放數據許可協議。數據協議包含:數據的使用,數據的支持與分享,數據責任[8]等。圖書館按照服務對象的不同,產生不同類型的圖書館,主要以高校圖書館、公共圖書館、研究型圖書館。圖書館在文化信息資源共享工程建設發揮著重要的作用[9]。數字和高校圖書館在數據共享研究領域占據重要的地位。
基于國內該領域發展的現狀,提出以下五種措施:
(1)鼓勵數據共享,共享科學界公認的真實數字化資料。諸如采用Google分享數據[10]。
(2)自由選擇數據管理和訪問的方式,NIH數據共享的可選方式包含四種:研究人員自我提供數據共享,提交數據庫,設置訪問權限,混合方式[11]。
(3)技術保障,相關共享平臺是數據實現共享的基礎。充分利用先進的互聯網技術,實現科學數據在不同對象的共享。
(4)政策和相關法規標準的保障機制。短期內實現數據共享很難只靠個人意愿。通過獎勵機制或硬性要求,從法律的角度才能確保其被國家單位或個人的重視。
(5)在政策和相關法規標準的保障機制的基礎上,建立標準化的模式。方便和快捷地為人群服務,提高信息數據的被利用率。
主要參考文獻
[1]邱春艷,黃如花.近3年國際科學數據共享領域新進展[J]. 圖書情報工作,2016(3):6-14.
[2]韓曉雪,張丹丹,王春華. 我國圖書情報領域微信研究熱點分析[J]. 圖書館學研究,2016(8):7-13.
[3]周舒,張嵐嵐.云計算改善數字圖書館用戶體驗初探[J].圖書館學研究,2009(4):28-30.
[4]申傳斌. 基于XML的數字圖書館異構數據庫互連[J]. 現代情報, 2005(7):99-102.
[5]黃長著,霍國慶. 我國信息資源共享的戰略分析[J]. 中國圖書館學報,2000(3):3-11.
[6]劉潤達,諸云強. 科學數據共享關鍵問題探索—以地球系統科學數據共享網為例[J]. 地理科學進展,2007(5):118-126.
[7]黃心正. 基于WEB的科學數據庫數據共享現狀分析與共享機制建立[J]. 現代情報,2004(10):111-113.
[8]楊敏,夏翠娟,徐華博.開放數據許可協議及其在圖書館領域的應用[J].圖書館論壇,2016(6):91-98.
[9]羅少波.充分發揮圖書館在文化信息資源共享工程中的主體作用[J].圖書館論壇,2004(5):70-71.
[10]Mak Collette, Ellingson Margaret, Lancaster Charla. Does Your Data Deliver for Decision Making? New Directions for Resource Sharing Assessment[J].Interlending & Document Supply,2013,41(4):104-112.
[11]汪俊. 美國科學數據共享的經驗借鑒及其對我國科學基金啟示:以NSF和NIH為例[J]. 中國科學基金,2016(1):69-75.