我國圖書情報領(lǐng)域大數(shù)據(jù)研究熱點分析

2015-01-07 10:50:18周慶華

卷宗 2015年12期

周慶華

摘要：文章首先簡述了、我國圖書館情報學發(fā)展現(xiàn)狀，然后分析了我國圖書情報資源存在的問題，最后重點探討了情報學領(lǐng)域研究熱點分析。

關(guān)鍵詞：圖書館；情報；云計算；統(tǒng)計分析

隨著我國經(jīng)濟和互聯(lián)網(wǎng)信息化的發(fā)展，在現(xiàn)代化計算機科學應(yīng)用技術(shù)環(huán)境下，數(shù)據(jù)已成為科學研究項目重要組成部分，以互聯(lián)網(wǎng)“云計算”數(shù)據(jù)管理為核心的圖書館情報領(lǐng)域數(shù)據(jù)研究，越來越多地受到關(guān)注。本文針對我國圖書情報領(lǐng)域大數(shù)據(jù)研究熱點進行分析。

1 我國圖書館情報學發(fā)展現(xiàn)狀

我國圖書館學情報學期刊網(wǎng)絡(luò)信息化進程中逐漸形成自身特色的欄目、網(wǎng)站，極大地方便讀者、編者和作者之間的相互交流。就讀者而言，除可以及時獲取最新的相關(guān)信息以外，還可以真正做到對信息的“各取所需”。由此，我國圖書館學情報學期刊網(wǎng)絡(luò)信息化不但面向國內(nèi)讀者需求，更應(yīng)提高期刊的國際知名度，這就要求充分利用網(wǎng)絡(luò)優(yōu)勢，在國家的統(tǒng)籌規(guī)劃和協(xié)調(diào)之下，以我國目前各學術(shù)期刊編輯部形成的完備、規(guī)范的編輯網(wǎng)絡(luò)作為質(zhì)量控制的基礎(chǔ)平臺，以中國期刊網(wǎng)等各大型專業(yè)數(shù)據(jù)庫的協(xié)同運作作為我國學術(shù)信息傳播的網(wǎng)絡(luò)發(fā)行平臺，由全國范圍內(nèi)遴選各學科各專業(yè)權(quán)威專家組成的專門機構(gòu)作為學術(shù)成果的評價平臺，實現(xiàn)開放出版、開放獲取，促進我國圖書館學情報學期刊穩(wěn)定、可持續(xù)的發(fā)展。

2 我國圖書情報資源存在的問題

1、圖書資源數(shù)字化程度不高，網(wǎng)絡(luò)化硬件建設(shè)的基礎(chǔ)薄弱。盡管我國圖書文獻紙質(zhì)資源內(nèi)容豐富、數(shù)量巨大，但由于數(shù)字化程度不高，加之網(wǎng)絡(luò)化建設(shè)基礎(chǔ)薄弱，致使讀者無法從異地，甚至于本地網(wǎng)絡(luò)上查閱文獻信息資料，尤其是早期的部分珍貴文獻資料。

2、我國圖書情報機構(gòu)分屬系統(tǒng)有別，缺乏統(tǒng)一管理。我國圖書情報機構(gòu)分屬四個獨立的系統(tǒng)管轄，即隸屬于教育部的高校圖書館系統(tǒng)，隸屬于文化部的公共圖書館系統(tǒng)，隸屬于中科院的科學院文獻情報系統(tǒng)和隸屬于科技部的綜合科技情報系統(tǒng)。這樣就造成了圖書館管理上的條塊分割，致使我國圖書館網(wǎng)絡(luò)信息資源建設(shè)缺乏統(tǒng)一的標準和規(guī)范，從而影響各個圖書館的鏈接和共建。

3、資源共享共建缺乏統(tǒng)一的建設(shè)規(guī)劃。信息資源建設(shè)是一項長期的系統(tǒng)工程，這就要求各館要高度重視，建設(shè)資金的投入要有連續(xù)性，圖書館之間要有協(xié)調(diào)性，避免重復(fù)建設(shè)，資源浪費。但是由于目前尚無至上而下的統(tǒng)一規(guī)劃，致使各館為了達到評估要求盲目上項目，使本來就數(shù)目不多的資金也沒有用在刀刃上。總體上使我國的信息資源建設(shè)處于一種混亂無序的狀況，這都不利于圖書館信息化、網(wǎng)絡(luò)化的發(fā)展。

4、數(shù)據(jù)庫建設(shè)缺乏統(tǒng)一標準，使數(shù)據(jù)對接難度增大。目前各圖書館的數(shù)據(jù)庫建設(shè)仍然以自建為主，各個館獨立建庫，數(shù)據(jù)庫類型千差萬別，致使各數(shù)據(jù)庫之間不能實現(xiàn)無縫對接，增加了網(wǎng)絡(luò)化的成本。

5、信息安全和版權(quán)問題制約資源共享的發(fā)展。網(wǎng)絡(luò)安全是網(wǎng)絡(luò)建設(shè)的一個重要保證，但由于網(wǎng)絡(luò)病毒的大流行，加之目前尚無完備的網(wǎng)絡(luò)信息資源保護法，致使網(wǎng)絡(luò)黑客恣意妄為，網(wǎng)絡(luò)安全問題變得更加嚴峻和復(fù)雜。知識產(chǎn)權(quán)法的完善，與出版物的網(wǎng)絡(luò)化或多或少的存在矛盾，這使得許多圖書館信息資源網(wǎng)絡(luò)化時存在顧慮。如何在網(wǎng)絡(luò)資源共享與知識產(chǎn)權(quán)之間尋找一個平衡點是當務(wù)之急。

6、專業(yè)技術(shù)人才普遍缺乏。從全國范圍看，專業(yè)技術(shù)人才普遍缺乏，館員的信息技術(shù)知識普遍匱乏，能力偏低。初步建成的共享體系，因工作人員的微機水平不高，無法正確操作或維護而不能充分發(fā)揮應(yīng)有的作用，造成資源的浪費。

3 情報學領(lǐng)域研究熱點分析

1、構(gòu)造高頻關(guān)鍵詞矩陣

高頻關(guān)鍵詞表中“情報學”出現(xiàn)的頻次最高，但是其與本研究的內(nèi)容完全重合，故舍棄；圖書情報學與圖書館學情報學的意義相同，故將它們合并為圖書情報學。在此基礎(chǔ)上共計得到12個高頻詞作為共詞分析的原始數(shù)據(jù)。

將這12個高頻關(guān)鍵詞進行兩兩組合，統(tǒng)計出它們同時出現(xiàn)在一篇文獻中的次數(shù)，形成共詞矩陣。該矩陣為對角矩陣，對角線上的數(shù)字代表任一關(guān)鍵詞自身出現(xiàn)的頻次，非對角線上的數(shù)字代表兩個關(guān)鍵詞同時出現(xiàn)的次數(shù)。為了更清晰地表示關(guān)鍵詞之間的關(guān)系，我們將用Ochiia系數(shù)計算關(guān)鍵詞相似矩陣，“Ochiia系數(shù)等于AB兩詞共同出現(xiàn)的頻次除以AB各頻次乘積的開方。”

2、因子分析

因子分析簡單地說就是用少數(shù)幾個因子來描述原始多個變量因子之間的聯(lián)系，能反映原始資料的大部分信息。“因子分析有以下5個特點：提取的因子個數(shù)小于原有變量數(shù)；因子可代替原有變量參與數(shù)據(jù)建模，減少了計算量；因子能夠反映原有變量的大部分信息；因子之間的線性關(guān)系不顯著；因子具有命名解釋性。”

3、聚類分析

聚類分析是研究“物以類聚”這類問題的一種有效方法，“它的實質(zhì)是建立一種分類方法，將一批樣本數(shù)據(jù)按照它們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進行分類，同類間較為相似，不同類之間區(qū)別較大。”具體操作步驟為：一是將相異矩陣導(dǎo)入SPSS19.0中，選擇分析――分類――系統(tǒng)聚類（即是層次聚類）；二是將所有變量選擇到右邊的變量列表中，依次設(shè)置聚類分析的選項，輸出內(nèi)容為統(tǒng)計量和圖。

生成的聚類表中第一列表示聚類分析的第幾步；第二、三列表示本步聚類中哪兩個變量或者小類聚為一類；第四列表示變量距離或者小類距離；第五本步聚類中參與的是變量還是小類，0表示變量，非0表示由第幾步聚類生成的小類參與本步聚類；第七列表示本步聚類結(jié)果將在以下第幾步中用到。如：首先進行合并的是第九和第十二個變量，他們之間的相關(guān)系數(shù)為0.886，此聚類結(jié)果將在以下第四步聚類中用到。

樹狀圖更加客觀清晰地展現(xiàn)了聚類分析中每一次類合并的情況，首先合并為一類的是研究熱點和知識圖譜，依次按照距離大小合并為一類的是圖書館學和文獻計量學，圖書情報學和被引分析，合著網(wǎng)絡(luò)和社會網(wǎng)絡(luò)分析，各變量合并之后，就是變量與小類及小類與小類之間的合并，最終所有小類合并為一類，此時類間的距離已經(jīng)非常大了。

4、多維尺度分析

“多維尺度分析和因子分析一樣都是

降維分析，在多維尺度分析中，各數(shù)據(jù)點在空間中的位置是分析解釋的重要內(nèi)容，聚類分析可以確定組別，但是無法在空間中標出觀測值，因此可以用多維尺度分析對聚類分析進行補充說明”具體操作步驟為：將相異矩陣導(dǎo)入SPSS19.0中，選擇分析――度量――多維尺度；將所有變量選擇到右邊的變量列表中，對模型，選項依次進行設(shè)置。

經(jīng)以上研究本文將情報學領(lǐng)域的研究熱點分為以下四類，一是基礎(chǔ)理論研究。理論研究是其學科確立的根本，5年來，情報學基礎(chǔ)理論研究成果不斷豐富。二是社會網(wǎng)絡(luò)分析法研究。社會網(wǎng)絡(luò)分析法通過定量分析方法，擴散到社會的各個領(lǐng)域中，目前合著網(wǎng)絡(luò)的研究是情報學領(lǐng)域的研究熱點。三是共詞分析法研究。共詞分析法屬于內(nèi)容分析法的一種，其原理為統(tǒng)計一組詞兩兩出現(xiàn)在一篇文獻中的次數(shù)，對其進行聚類等分析，得到研究領(lǐng)域的主題。四是文獻計量學研究。引文分析及被引分析都屬于文獻計量分析法，引文分析一直以來都是文獻計量學方法的一個重要研究方向。

4 結(jié)束語

綜上所述，我國圖書情報領(lǐng)域大數(shù)據(jù)建設(shè)是一項基礎(chǔ)性核心工作，我們應(yīng)必須高度重視，我國圖書情報領(lǐng)域數(shù)據(jù)管理應(yīng)更多地借鑒國內(nèi)外相關(guān)學科的研究，從而使圖書情報資源，盡早實現(xiàn)共享。

參考文獻

[1]周文駿.什么是圖書館怎么研究圖書館學[J].大學圖書館學報，2014

[2]趙明臻.圖書館網(wǎng)絡(luò)信息資源共享障礙論析[J].圖家圖書館學刊，2014

[3]程煥文，潘燕桃.信息資源共享[M].北京：高等教育出版社，2014