陳大平
摘 要:近年來我國經濟高速發(fā)展也帶動了互聯網信息化的快速發(fā)展,大數據已成為科研的重要項目。
關鍵詞:圖書情報;大數據;熱點研究
在現代化計算機科學應用技術的環(huán)境下,大數據研究已成為重要的組成部分,以互聯網“云計算”數據管理為核心的圖書情報領域的大數據研究也越來越受到社會各界的關注。本文將著重介紹我國圖書情報領域大數據研究熱點,希望給圖書情報領域帶來些許的借鑒意義。
1 我國的圖書館學情報學的發(fā)展現狀
圖書館學情報學在我國的快速發(fā)展的網絡信息化進程中漸漸形成了鮮明的欄目、網站。這極大的促進了讀者獲取知識的能力,還進一步的方便了作者、讀者和編者之間的相互經驗的交流。對于讀者來說,可以很快地獲取最新的咨詢,其中提供了豐富的內容篩選功能,真正的做到了讀者對信息的“各取所需”。隨著圖書館學情報學的發(fā)展,對于期刊網絡信息化來說,不僅要努力滿足國內的用戶的使用,還需要進一步提升國際知名度。目前我國在國家的統籌規(guī)劃和協調處理之下,很大一部分的學術期刊形成了比較完備的學術期刊編輯部,編輯網絡的規(guī)范性也得到了一定的保證。以中國期刊網等各大型專業(yè)數據庫的協同運作作為我國學術信息傳播的優(yōu)良的網絡發(fā)行平臺,由全國范圍內遴選各學科各專業(yè)權威專家組成的專門機構作為學術成果的評價平臺,實現開放出版、開放獲取,促進我國圖書館學情報學期刊穩(wěn)定、可持續(xù)的發(fā)展。
2 我國圖書情報資源存在的問題
2.1 缺乏統一的管理
因為我國情報機構分屬的系統不一致,就難免使管理很難統一。現今我國的圖書情報機構分別屬于四個獨立的管轄機構。分別是,隸屬于中國科學技術院的文獻情報系統;隸屬于我國文化部的公共圖書館系統;隸屬于教育部的高等院校圖書館系統;隸屬于中國科技部的綜合科技情報系統。這就把圖書管理分割開來,難以統一有效管理,致使我國現今很難確立圖書館網絡技術信息資源建設較為統一的實施標準和規(guī)范,圖書館的鏈接和共享也受到了一定影響。
2.2 圖書資源數字化程度有待提升
盡管我國的紙質圖書文獻十分豐富,無論是在類別上還是數量上都很巨大,但是由于網絡化硬件建設的基礎還比較薄弱,加之本身的額數字化程度不高,就很難讓讀者從異地或者本地網絡上查閱到想查閱的信息資源,尤其是比較早期的一些比較珍貴的文獻資料。
2.3 數據對接的難度大,數據庫的建設缺乏規(guī)范完善的標準
現今我國的各圖書館的數據建設任然是先自行建設為主,數據庫的類型也是花樣繁多,加之獨立建庫,就導致了各個獨自建立的數據庫不能很好的實現無縫對接,增加了圖書館網絡化的成本。
2.4 資源共享共建缺乏統一的完善的建設規(guī)劃
信息資源建設是一項長期的系統工程,這就要求各館要高度重視并認真的完成,建設資金的投入要有連續(xù)性不能中斷,圖書館之間要有協調性,避免重復建設導致的資源浪費。但是由于目前尚無至上而下的統一規(guī)劃,致使各館為了達到評估要求盲目上項目,使本來就數目不多的資金也沒有用在刀刃上。總體上使我國的信息資源建設處于一種混亂無序的狀況,這都不利于圖書館信息化、網絡化的發(fā)展。
2.5 版權問題不能很好解決,信息安全無保障
目前我國的網絡安全形勢不容樂觀,網絡安全是發(fā)展網絡建設的重要保障。目前我國沒有建立完整的網絡信息資源保護法,導致黑客盛行肆意妄為。網絡安全問題比較復雜嚴峻。今年我國的知識產權法進一步的完善了,但是這也導致了出版物網絡化的版權問題。使得許多圖書館信息資源網絡化時存在顧慮。如何在網絡資源共享與知識產權之間尋找一個平衡點是當務之急。
2.6 人才的普遍缺乏
科學技術是第一生產力,而專業(yè)的技術人才是發(fā)展科學技術的保證。但是現今從全國范圍看,專業(yè)技術人才普遍比較少,館員的計算機信息技術知識普遍也比較匱乏,專業(yè)處理能力也比較低。由于整個共享系統處于初步建成運行的狀態(tài),但是工作人員的微機水平不足,無法正確操作或維護而不能充分發(fā)揮應有的作用,造成資源的浪費。
3 情報學領域大數據熱點研究
3.1 構建高頻關鍵詞矩陣
高頻關鍵詞表中“情報學”出現的頻次最高,但是其與本研究的內容完全重合,故舍棄;圖書情報學與圖書館學情報學的意義相同,故將它們合并為圖書情報學。在此基礎上共計得到12個高頻詞作為共詞分析的原始數據。
將這12個高頻關鍵詞進行兩兩組合,統計出它們同時出現在同一篇文獻中的次數,形成共詞矩陣。該矩陣為對角矩陣,對角線上的數字代表任一關鍵詞自身出現的頻次,非對角線上的數字代表兩個關鍵詞同時出現的次數。為了更清晰有效地表示關鍵詞之間的某些關系,我們將用Ochiia系數計算關鍵詞相似矩陣,“Ochiia系數等于AB兩詞共同出現的頻次除以AB各頻次乘積的開方。”
3.2 因子分析
用少數幾個因子來描述解釋原始的很多個變量因子之間的關系就是因子分析,因子分析可以反映原始資料里面的大部分有效信息。以下的5個特點是因子分析固有的,能減少計算量,因為因子替代了原有的變量參與了數據建模;因子分析能反映原有變量的大部分信息;因子有命名解釋性;因子之間的線性關系不顯著;因子分析中所需提取的因子個數小于原有的變數量。
3.3 聚類分析
俗話說物以類聚,那么在大數據研究里也是一個十分可行的方法。“它的實質是建立一種分類方法,將一批樣本數據按照它們在性質上的親密程度在沒有先驗知識的情況下自動進行分類,同類間較為相似,不同類之間區(qū)別較大。”具體操作步驟一般分為兩點,首先是,異矩陣導入SPSS19.0中,選擇分析――分類――系統聚類;其次將所有變量選擇到右邊的變量列表中,依次設置聚類分析的選項,輸出內容為統計量和圖。
在聚類分析中時常用到樹狀圖加以解釋分析,它能比較完整清晰的展示聚類分析中的每一次類合并的狀況,達到最終的所有小類合為一類,此時的類間的距離已經十分大了。
3.4 多維尺度分析
多維尺度分析屬于降維分析,各數據在空間中的位置是進行分析解釋的重要前提和參照物,聚類分析雖能確定相應的組別,但是不能在空間中標出觀測值,就難免影響了實際的判斷。因此就可以用多維尺度分析來對聚類分析進行更完善的補充說明。具體操作步驟為:將相異矩陣導入SPSS19.0中,選擇分析――度量――多維尺度;將所有變量選擇到右邊的對應的變量列表中,對模型、選項依次進行合理的設置。
4 總結
近年來,我國圖書情報學理論研究成果不斷增多不斷豐富,但是其中存在的問題也較多,這就需要廣大的專業(yè)領域的工作者孜孜不倦的探索,努力做好本職工作。我國圖書情報領域大數據建設是一項基礎性核心工作,我們應必須高度重視,我國圖書情報領域數據管理應更多地借鑒國內外相關學科的研究,從而使圖書情報資源,盡早實現共享。
參考文獻
[1]張文彥,武瑞源,于潔.大數據時代的圖書館初探[J]圖書與情報;2012
[2]鄧仲華.大數據環(huán)境下嵌入科研過程的信息服務模式研究[J]圖書與情報;2014
[3]周力青.大數據時代下的圖書館移動服務創(chuàng)新研究[J]圖書與情報;2015
[4]劉紅霞,白萬豪.大數據背景下的應用情報學研究[J]情報資料工作;2014
[5]王捷.大數據時代下圖書館開展信息服務的對策[J]現代情報;2013
[6]李小剛,程舒.大數據時代檔案館服務創(chuàng)新研究[J]北京檔案;2014