[摘要]本文采用詞頻統計和共詞分析法,利用SPSS為數據統計和分析工具,以我國情報學領域5種核心期刊近10年刊載文獻為樣本,對我國情報學領域主要研究內容和研究熱點作了分析,并概括出目前情報學技術化、理論化、寬泛化3個特性。以期能為我國情報學領域論文選題、科研立項及學科規劃提供參考依據。
〔關鍵詞〕詞頻分析;共詞分析;多元統計分析;情報學
DOI:10.3969/j.issn.1008-0821.2011.07.040
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)07-0163-06
The Empirical Analysis of Information Science in China from 2000 to 2009Fan Hao
(School of Information Management,Sun Yat-sen University,Guangzhou 510006,China)
〔Abstract〕By word frequency statistics and co-word analysis,this paper used SPSS statistical and analytical tools,with five kinds of information science in core journals published literatures in recent 10 years as samples,analyzed the contents and research hotspots of the information science,and briefly summarized the current development situation of Information Science,hoping to provide some reference for information science in this fields article expatiates,scientific research project and discipline planning.
〔Keywords〕word frequency analysis;co-words analysis;multi-analysis;information science
情報學在我國已有半個多世紀的發展歷史,并取得了一系列的研究成果,很多學者對情報學的發展歷程及現狀做了研究總結[1-5],但大部分所采用的定性總結的方法不能反映文獻所隱含的內在信息。本文以SPSS為統計分析工具,采用關鍵詞詞頻統計、共詞分析方法,對我國情報學領域5種核心期刊十年來所刊載文獻中的關鍵詞詞頻和共現頻次進行統計分析, 探討分析2000-2009年我國情報學研究內容的發展變化,科學地反映了目前我國情報學領域主要研究內容和研究熱點,概括出情報學發展的特性,為我國情報學領域論文選題、科研立項及學科規劃提供決策支持。
1 數據來源與分析方法
1.1 數據來源
一個學科的核心期刊能夠較全面的反映該學科的研究熱點與水平。為保障本研究的科學性,本文選取了2000-2009年中文社會科學引文索引(CSSCI)來源期刊中的《情報學報》、《情報科學》、《情報理論與實踐》、《情報雜志》、《情報資料工作》5種情報學專業核心期刊所刊載的文獻為研究樣本。本文所有數據均來源于中國知網(CNKI),在檢索時選擇期刊年限與來源期刊為檢索控制條件,獲得除會議通知、會議報道、征文通知等消息類文獻的全部學術性研究文獻,將這些文獻的題錄(作者、題名、摘要、關鍵詞、期刊名等)導出保存為文本文件。為了保證研究結果真實可信,刪除了沒有關鍵詞的文獻題錄,最后得到學術文獻題錄15 682條。利用SPSS統計軟件對獲得的數據進行了分析處理。
1.2 分析方法
詞頻分析法是利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域文獻中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量方法[6]。關鍵詞或主題詞是論文的文獻檢索標識,是表達文獻主題概念的自然語言詞匯,在很大程度上反映了論文的主要研究內容,在大量同領域論文的關鍵詞集合中,隱含著該學科的研究現狀、熱點、發展規律和趨勢等線索,如果某一關鍵詞或主題詞在其所在領域的文獻中反復出現,則可反映出該關鍵詞或主題詞所表征的研究主題是該領域的研究熱點[7]。
共詞分析方法最早是在20世紀70年代中后期由法國文獻計量學家M.Callon J.Law和A.Rip[8]提出的。經過30多年的發展,共詞分析方法已經成為一種成熟的文獻計量方法。它的原理主要是對出現在同一篇文獻中的,能夠代表本領域研究主題或方向的一組詞進行兩兩統計,出現的次數越多則關系越親密,次數越少則關系越疏遠,以此為基礎對這些詞進行聚類分析,進而分析這些詞所代表的學科和主題的內容變化。學者們已經利用共詞分析方法產生了大量的應用成果,如人工智能、科學計量學、信息科學和信息系統、信息檢索等領域。
2011年7月第31卷第7期2000-2009年我國情報學研究的實證分析July,2 基于關鍵詞的詞頻統計
《情報理論與實踐》2000-2003年所刊載的文獻其關鍵詞均為英文,為了便于統計分析,結合文獻題名與摘要將這些關鍵詞譯成中文,再利用統計工具,將上述5 種情報學專業期刊2000-2009年間每年刊載的學術論文所有的關鍵詞按詞頻高低進行排序。為了消除不同年份論文數波動所造成的影響,筆者以某年度每個關鍵詞出現的次數占當年論文總篇數的百分比作為該年度該關鍵詞的詞頻值(見表1)。并將10年來所有文獻全部關鍵詞按總詞頻的高低排序輸出。表2列出了累計頻次達到所有關鍵詞總頻次20%的高頻關鍵詞。
從表1可以看出,10年來情報學研究熱點主要包括數字圖書館、信息服務、高校圖書館、競爭情報、網絡、信息資源、信息檢索、知識管理、本體、數據庫、電子政務等。
表2 累計頻次達總關鍵詞頻次20%的高頻詞
排序關鍵詞頻次排序關鍵詞頻次排序關鍵詞頻次1圖書館1 22416數據挖掘21731Web1322數字圖書館81817企業21132對策研究1273信息服務71118信息技術21133知識服務1244知識管理64819信息19334信息產業1225高校圖書館53520電子政務19035比較研究1216信息資源48021信息管理19036知識共享1157競爭情報41322本體18337信息資源管理1148信息檢索36623信息系統18238因特網1099網絡36224中國18039評價10810網絡環境33225知識經濟16140網絡信息10411情報學31926元數據16041圖書館學10412電子商務26827知識產權15742理論研究10313信息化23228信息組織14443企業信息化10214搜索引擎23029XML14444圖書館管理10215數據庫22430網絡信息資源13645引文分析99
3 基于共詞矩陣的研究熱點分析
表2所示的關鍵詞在情報學領域文獻中出現頻率最高,一定程度上代表了10年來我國情報學的研究熱點,但僅按出現頻次對這些詞線性排列,還不能全面反映它們之間的關系。為了更好的描述高頻關鍵詞所隱含的內容,我們采用共詞分析方法來揭示目前我國情報學所研究的主要內容。首先,兩兩統計45個高頻關鍵詞出現在同一篇文獻中的次數,形成共詞矩陣并根據需要轉換為相關矩陣;其次,運用多元統計方法對轉換后的相關矩陣進行分析處理,生成聚類圖;最后,分析聚類圖,揭示我國情報學目前研究的主要內容。
3.1 構建共詞矩陣
利用統計工具,對表2所示的45個高頻關鍵詞統計出它們在15 682篇學術論文中兩兩同時出現的頻次,形成一個45×45的共詞矩陣(部分數據如表3所示)。該矩陣為對稱矩陣,對角線上的數據為該詞出現的總頻次,如關鍵詞圖書館共出現了1 224次,它與數字圖書館同時在26篇論文中出現,即表示有26篇論文同時使用了圖書館與數字圖書館這兩個關鍵詞。
表3 高頻關鍵詞共詞矩陣(部分)
高頻關鍵詞圖書館數字圖書館信息服務知識管理高校圖書館信息資源圖書館1 2242616360152數字圖書館2678731121134信息服務16331711107335知識管理601210648132高校圖書館111731353514信息資源523435214480
表3中列出關鍵詞兩兩共現頻次,反映的是一種表象,因為兩個關鍵詞共現頻次的多少直接受兩個關鍵詞各自詞頻大小的影響。為了消除頻次懸殊造成的影響,用Ochiia系數[9]將共詞矩陣轉換成相關矩陣,即將共詞矩陣中的每個數字都除以與之相關的兩個詞總頻次開方的乘積,其計算公式是Ochiia系數=A、B兩詞同時出現頻次/(A次出現的總頻次×B次出現的總頻次)1/2。如關鍵詞圖書館和數字圖書館的Ochiia系數=26/(1224×787)1/2=0.0265。對角線上的數據表示某個詞與自身的相關程度,經過換算得1。為了便于統計,再用1減去每個數字,這樣對角線上的數變為0,如表4所示,限于篇幅,僅列出部分。
3.2 研究熱點分析
借助SPSS統計軟件,對轉換后的共詞矩陣進行處理,主要采用的方法是因子分析和和聚類分析方法。
3.2.1 因子分析
因子分析于1931年由Thurstone首次提出。因子分析的基本目的是用少數幾個因子去描述多個變量之間的關系,被描述的變量一般是能實際觀測到的隨機變量,而那些因子則是不可觀測的潛在變量。因子分析反映了一種降維的思想,通過降維將相關性高的變量聚在一起,不僅便于提取容易解釋的特征,而且減少了需要分析的變量數目,降低了分析問題的復雜性。
將轉換后的共詞矩陣導入SPSS統計軟件中,選取主成分分析法進行分析,碎石圖如圖1所示。從碎石圖來看,提取5~7個因子較為合適。圖1 因子個數碎石圖
3.2.2 共詞矩陣的聚類分析
聚類是將某個對象集劃分為若干組的過程,使得同一個組內的數據對象具有較高的相似度,而不同組中的數據對象是不相似的。系統聚類是一種逐次合并類的方法,在規定了樣品之間的距離和類與類之間的距離后,先讓N個樣品各自成為一類;開始時,因每個樣品自成一類,類與類之間的距離與樣品之間的距離是相等的;然后,將距離最近的兩個類合并;如此重復,每次循環減少一個類別,直到達到某個類水平數時停下來,在此得到的聚類就是分析的結果[10]。SPSS自動將各類間的距離映射到0~25之間,并將凝聚過程近似地表現在圖上。聚類分析的結果可以反映這些關鍵詞之間的親疏程度,將“親緣關系”較近的關鍵詞重新組合起來,能反映出這些關鍵詞所代表的主題結構,從而獲得目前我國情報學研究的熱點[11]。
本文采用分層聚類方法,參數設置方面選擇歐氏距離平方作為變量距離的測度方法,類間距離的計算方法采用組間連接,根據碎石圖指定聚為5~7類,聚類結果如圖2所示。
3.2.3 聚類結果分析
結合高頻關鍵詞的共詞矩陣(表3)和層次聚類分析樹狀圖(圖2),并對其共現文獻進行深入分析,可以揭示目前我國情報學的主要研究內容與研究熱點。
(1)圖書情報學基礎理論研究
從圖2可以看出,情報學與圖書館學距離最近。在當今數字環境中,“圖書館學”與“情報學”的融合發展已成為世界性潮流[12]。在理論基礎、研究方法、分析內容與學科性質方面,“情報學”與“圖書館學”有著很多的相似點。一直以來,學術界存在著學科研究對象認識不統一、范圍泛化、學科定位不清楚的固疾。同行學者們潛心致力于圖書情報學基礎理論的研究,從不同方面、不同層次對該學科的研究對象、內容、范圍、研究方法、學科與思想體系進行探討,對圖書館、情報、信息、資源、知識、數字、文獻的基本概念,它們之間的區別、聯系與特點等進行辨析,使圖書情報學理論體系建設邁上了新高度[13]。
(2)網絡環境下的信息檢索
信息檢索一直是情報學領域的核心內容,10年里共有366篇文獻使用了該關鍵詞。目前,跨語言信息檢索、語義檢索、與數據挖掘相結合的信息檢索等都是該領域的研究方向。這反映了信息檢索的專業人員不僅僅關注傳統意義上的檢索問題,其視野已拓展到搜尋、瀏覽與檢索網絡環境中的更廣闊的信息資源。網絡環境下信息檢索的應用正在走向成熟。
(3)技術的大量應用
現代化信息技術在情報學研究領域得到廣泛應用。聚類圖中“元數據”、“XML”、“Web”、“數據挖掘”等聚成一類,表明我國情報學呈現出明顯的技術化趨勢,傳統的研究應用工具已被現代信息技術所取代。然而,技術只是解決問題的手段,情報學發展的根本動力應該是基礎理論研究。國外情報學研究已經改變“技術至上”的傾向,開始探索技術與理論、技術與人文、技術與經濟并重的模式。
(4)競爭情報研究
競爭情報誕生于80年代,其標志為美國1986年成立的“競爭力情報專業人員協會”。作為情報學的一個分支學科,我國競爭情報研究已取得了豐碩的成果,其研究主題主要包括:競爭情報理論研究,競爭情報方法,競爭情報技術,競爭情報應用研究,競爭情報教育與人才,反競爭情報研究等。從圖2看出,競爭情報應用研究特別是中小企業競爭情報應用成為關注重點。這說明,我國競爭情報研究正在突破理論層面的研究,開始理論聯系實際。
(5)高校圖書館、數字圖書館建設及服務
網絡時代的到來,對高校圖書館、數字圖書館的建設提供了新的契機,與此相關的電子服務也成為情報學領域的研究對象。圖書館中電子資源不斷增加,圖書館館際互借、資源共享、及不斷增長的用戶需求等使得圖書館的發展成為情報學的研究熱點;高校圖書館外部環境的變化及豐富的內部資源等多種因素,也引起了情報學者的廣泛關注。
(6)知識管理
知識經濟的發展帶動了知識管理的發展,知識管理成為情報學研究對象始于1999前后,到2004年左右達到了高潮。知識管理與知識服務密不可分,知識管理的目的是圍繞知識增值與創新,為讀者提供專業化、個性化的知識服務,而圖書情報工作核心能力的定位是知識服務,這樣看來對知識管理的研究還有上升的趨勢。
4 結 語
本文以2000-2009年國內情報學領域文獻的高頻關鍵詞為數據基礎,通過詞頻分析方法、共詞分析方法對研究熱點進行了分析,以期望能夠清晰地揭示出近十年國內情報學領域內主要研究內容與研究熱點,并概括了情報學的發展特性。
4.1 技術化
情報學越來越趨向于定量研究,技術化是情報學發展不可避免的趨勢。新興技術為情報學技術化趨勢提供了可能。
4.2 理論化
情報學理論性極強,實際應用效果反而不顯著。應當注重理論聯系實際,將情報學理論運用到現實生活中。
4.3 寬泛化
情報學與其他學科交叉、滲透、整合的趨勢越來越明顯,在情報學發展過程中,一方面引入了其他學科的理論、方法,使得情報學出現了許多新的分支學科和研究熱點,極大的豐富了自身的研究領域;另一方面卻與這些交叉學科展開了激烈的競爭,甚至面臨著被眾多學科蠶食的危險,給情報學的發展帶來了危機。圖2 聚類樹狀圖參考文獻
[1]嚴怡民.情報學研究現狀與展望[J].情報學報,1994,13(1):6-12.
[2]靳娟娟.情報學學科建設研究歷程的回顧與展望[J].圖書情報工作,2003,(10):31-36.
[3]段宇鋒,寇功杰.中國情報學研究的繼承與發展(1990-2005)[J].情報學報,2008,27(2):285-294.
[4]劉旭旭.我國情報學研究的發展狀況[J].情報理論與實踐,2005,(6):577-580.
[5]雷銀枝.對我國情報學學科發展現狀的幾點思考與建議[J].圖書#8226;情報#8226;知識,2007,(5):70-73.
[6]馬費成,張勤.國內外知識熱點研究——基于詞頻的統計分析[J].情報學報,2006,(4):163-171.
[7]邱均平,丁敬達,周春雷.1999-2008我國圖書館學研究的實證分析[J].中國圖書館學報,2009,(5):72-79.
[8]Callon M,Law J,Rip A.Mapping the Dynamics of Science and Technology:Sociology of Science in the Real World[M].Macmillan,1986.
[9]曹玲,楊靜,夏嚴.國內競爭情報領域研究論文的共詞聚類分析[J].情報科學,2010,(6):923-925.
[10]杜強,賈艷麗.SPSS統計分析從入門到精通[M].北京:人民郵電出版社,2009.
[11]Newman,MEJ.Coauthorship networks and patterns of scientific collaboration[J].PNAS,2004,101(1):5200-5205.
[12]陳傳夫.改革開放三十年我國圖書情報學教育的發展[J].圖書情報知識,2008,(9):9-12.
[13]鄭俊生.2009年我國情報學圖書館學研究熱點分析[J].圖書館工作與研究,2010,(3):169-173
注:“本文中所涉及到的圖表、公式、注解等請以PDF格式閱讀”