周慶華
摘 要:文章首先簡述了、我國圖書館情報學發展現狀,然后分析了我國圖書情報資源存在的問題,最后重點探討了情報學領域研究熱點分析。
關鍵詞:圖書館;情報;云計算;統計分析
隨著我國經濟和互聯網信息化的發展,在現代化計算機科學應用技術環境下,數據已成為科學研究項目重要組成部分,以互聯網“云計算”數據管理為核心的圖書館情報領域數據研究,越來越多地受到關注。本文針對我國圖書情報領域大數據研究熱點進行分析。
1 我國圖書館情報學發展現狀
我國圖書館學情報學期刊網絡信息化進程中逐漸形成自身特色的欄目、網站,極大地方便讀者、編者和作者之間的相互交流。就讀者而言,除可以及時獲取最新的相關信息以外,還可以真正做到對信息的“各取所需”。由此,我國圖書館學情報學期刊網絡信息化不但面向國內讀者需求,更應提高期刊的國際知名度,這就要求充分利用網絡優勢,在國家的統籌規劃和協調之下,以我國目前各學術期刊編輯部形成的完備、規范的編輯網絡作為質量控制的基礎平臺,以中國期刊網等各大型專業數據庫的協同運作作為我國學術信息傳播的網絡發行平臺,由全國范圍內遴選各學科各專業權威專家組成的專門機構作為學術成果的評價平臺,實現開放出版、開放獲取,促進我國圖書館學情報學期刊穩定、可持續的發展。
2 我國圖書情報資源存在的問題
1、圖書資源數字化程度不高,網絡化硬件建設的基礎薄弱。盡管我國圖書文獻紙質資源內容豐富、數量巨大,但由于數字化程度不高,加之網絡化建設基礎薄弱,致使讀者無法從異地,甚至于本地網絡上查閱文獻信息資料,尤其是早期的部分珍貴文獻資料。
2、我國圖書情報機構分屬系統有別,缺乏統一管理。我國圖書情報機構分屬四個獨立的系統管轄,即隸屬于教育部的高校圖書館系統,隸屬于文化部的公共圖書館系統,隸屬于中科院的科學院文獻情報系統和隸屬于科技部的綜合科技情報系統。這樣就造成了圖書館管理上的條塊分割,致使我國圖書館網絡信息資源建設缺乏統一的標準和規范,從而影響各個圖書館的鏈接和共建。
3、資源共享共建缺乏統一的建設規劃。信息資源建設是一項長期的系統工程,這就要求各館要高度重視,建設資金的投入要有連續性,圖書館之間要有協調性,避免重復建設,資源浪費。但是由于目前尚無至上而下的統一規劃,致使各館為了達到評估要求盲目上項目,使本來就數目不多的資金也沒有用在刀刃上。總體上使我國的信息資源建設處于一種混亂無序的狀況,這都不利于圖書館信息化、網絡化的發展。
4、數據庫建設缺乏統一標準,使數據對接難度增大。目前各圖書館的數據庫建設仍然以自建為主,各個館獨立建庫,數據庫類型千差萬別,致使各數據庫之間不能實現無縫對接,增加了網絡化的成本。
5、信息安全和版權問題制約資源共享的發展。網絡安全是網絡建設的一個重要保證,但由于網絡病毒的大流行,加之目前尚無完備的網絡信息資源保護法,致使網絡黑客恣意妄為,網絡安全問題變得更加嚴峻和復雜。知識產權法的完善,與出版物的網絡化或多或少的存在矛盾,這使得許多圖書館信息資源網絡化時存在顧慮。如何在網絡資源共享與知識產權之間尋找一個平衡點是當務之急。
6、專業技術人才普遍缺乏。從全國范圍看,專業技術人才普遍缺乏,館員的信息技術知識普遍匱乏,能力偏低。初步建成的共享體系,因工作人員的微機水平不高,無法正確操作或維護而不能充分發揮應有的作用,造成資源的浪費。
3 情報學領域研究熱點分析
1、構造高頻關鍵詞矩陣
高頻關鍵詞表中“情報學”出現的頻次最高,但是其與本研究的內容完全重合,故舍棄;圖書情報學與圖書館學情報學的意義相同,故將它們合并為圖書情報學。在此基礎上共計得到12個高頻詞作為共詞分析的原始數據。
將這12個高頻關鍵詞進行兩兩組合,統計出它們同時出現在一篇文獻中的次數,形成共詞矩陣。該矩陣為對角矩陣,對角線上的數字代表任一關鍵詞自身出現的頻次,非對角線上的數字代表兩個關鍵詞同時出現的次數。為了更清晰地表示關鍵詞之間的關系,我們將用Ochiia系數計算關鍵詞相似矩陣,“Ochiia系數等于AB兩詞共同出現的頻次除以AB各頻次乘積的開方。”
2、因子分析
因子分析簡單地說就是用少數幾個因子來描述原始多個變量因子之間的聯系,能反映原始資料的大部分信息。“因子分析有以下5個特點:提取的因子個數小于原有變量數;因子可代替原有變量參與數據建模,減少了計算量;因子能夠反映原有變量的大部分信息;因子之間的線性關系不顯著;因子具有命名解釋性。”
3、聚類分析
聚類分析是研究“物以類聚”這類問題的一種有效方法,“它的實質是建立一種分類方法,將一批樣本數據按照它們在性質上的親密程度在沒有先驗知識的情況下自動進行分類,同類間較為相似,不同類之間區別較大。”具體操作步驟為:一是將相異矩陣導入SPSS19.0中,選擇分析――分類――系統聚類(即是層次聚類);二是將所有變量選擇到右邊的變量列表中,依次設置聚類分析的選項,輸出內容為統計量和圖。
生成的聚類表中第一列表示聚類分析的第幾步;第二、三列表示本步聚類中哪兩個變量或者小類聚為一類;第四列表示變量距離或者小類距離;第五本步聚類中參與的是變量還是小類,0表示變量,非0表示由第幾步聚類生成的小類參與本步聚類;第七列表示本步聚類結果將在以下第幾步中用到。如:首先進行合并的是第九和第十二個變量,他們之間的相關系數為0.886,此聚類結果將在以下第四步聚類中用到。
樹狀圖更加客觀清晰地展現了聚類分析中每一次類合并的情況,首先合并為一類的是研究熱點和知識圖譜,依次按照距離大小合并為一類的是圖書館學和文獻計量學,圖書情報學和被引分析,合著網絡和社會網絡分析,各變量合并之后,就是變量與小類及小類與小類之間的合并,最終所有小類合并為一類,此時類間的距離已經非常大了。
4、多維尺度分析
“多維尺度分析和因子分析一樣都是
降維分析,在多維尺度分析中,各數據點在空間中的位置是分析解釋的重要內容,聚類分析可以確定組別,但是無法在空間中標出觀測值,因此可以用多維尺度分析對聚類分析進行補充說明”具體操作步驟為:將相異矩陣導入SPSS19.0中,選擇分析――度量――多維尺度;將所有變量選擇到右邊的變量列表中,對模型,選項依次進行設置。
經以上研究本文將情報學領域的研究熱點分為以下四類,一是基礎理論研究。理論研究是其學科確立的根本,5年來,情報學基礎理論研究成果不斷豐富。二是社會網絡分析法研究。社會網絡分析法通過定量分析方法,擴散到社會的各個領域中,目前合著網絡的研究是情報學領域的研究熱點。三是共詞分析法研究。共詞分析法屬于內容分析法的一種,其原理為統計一組詞兩兩出現在一篇文獻中的次數,對其進行聚類等分析,得到研究領域的主題。四是文獻計量學研究。引文分析及被引分析都屬于文獻計量分析法,引文分析一直以來都是文獻計量學方法的一個重要研究方向。
4 結束語
綜上所述,我國圖書情報領域大數據建設是一項基礎性核心工作,我們應必須高度重視,我國圖書情報領域數據管理應更多地借鑒國內外相關學科的研究,從而使圖書情報資源,盡早實現共享。
參考文獻
[1]周文駿.什么是圖書館怎么研究圖書館學[J].大學圖書館學報,2014
[2]趙明臻.圖書館網絡信息資源共享障礙論析[J].圖家圖書館學刊,2014
[3]程煥文,潘燕桃.信息資源共享[M].北京:高等教育出版社,2014