[摘要]文章利用當前最著名的可視化分析軟件Citespace Ⅱ對從SCI與SSCI中下載的1989-2010年間可視化信息檢索研究的全部文獻做了詳細的可視化分析,描述了可視化信息檢索研究的發展軌跡,揭示了其研究熱點的變化情況,分析了此項研究的國家與研究機構分布情況。
〔關鍵詞〕可視化信息檢索;Citespace Ⅱ;共引網絡圖譜
DOI:10.3969/j.issn.1008-0821.2011.03.030
〔中圖分類號〕G350 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)03-0122-05
International Visualization Information Retrieval Research
Literature Visualization Analysis:1998-2010Yan Liguang
(Library,Hebei Normal University of Science Technology,Changli 066600,China)
〔Abstract〕The article use current most famous visualization analysis software Citespace Ⅱ pair during 1989-2010 years which downloaded from SCI and SSCI the visualization information retrieval research complete literature has made the detailed visualization analysis,described the visualization information retrieval research development path,has promulgated its research hot spot change situation,has analyzed this research country and the development facility distributed situation.
〔Keywords〕visualization information retrieval;Citespace Ⅱ;electrophoretograms cocitation network
可視化技術最早是針對科學計算提出的,目前的研究更多集中在信息可視化方面,可視化技術不僅在揭示信息資源的廣度與深度上有很大的優勢,而且它能夠將隱藏在信息資源內部的、復雜的、抽象的語義以直觀的圖形方式呈現給用戶??梢暬畔z索是信息檢索與信息可視化相結合產生的新的研究領域,既能夠給用戶帶來直觀的感受,也把檢索過程變成一種探索性、趣味性的活動;它也展示了一種新的用戶體驗式發現信息的檢索模式。這種文檔之間按照邏輯關系形成的語義圖對信息檢索來說是非常重要的,它能夠使用戶對文檔的內容進行整體的跟進,使用戶能夠真正確定查找的方向[1],這也正是可視化信息檢索研究的重要性之所在。為了弄清可視化信息檢索研究的演進軌跡,把握該領域研究熱點的變化情況,筆者擬用信息計量學中最著名的軟件Citespace Ⅱ對Web of Science中有關可視化信息檢索研究的文獻進行可視化實證分析,以期有益于我國信息檢索研究工作的發展。
1 數據來源與分析工具
1.1 數據來源
本文以美國Thomson.ISI最著名的引文索引數據庫SCI網絡版——Web of Science中的科學引文索引擴展版(Science Citation Index Expanded)和SSCI(Social Science Citation Index)數據庫為文獻來源。檢索方法選定為高級檢索,檢索式為:“TS=Information Visualization Retrieval OR ts=Visual information retrieval OR TS=Information retrieval visualization”。檢索年限設定為1998-2010,其中文獻類型設定為“Article”,共計1 619條記錄符合條件。數據下載的方式設定為“作者、標題、來源出版物、摘要以及所引用的參考文獻”,數據下載結束的時間為2010年6月23日。
1.2 可視化分析工具
本文使用的可視化分析工具是基于JAVA平臺的CiteSpace Ⅱ,版本號為2.2.R8。該軟件是由美國費城德雷克塞爾大學(Drexe1)信息科學與技術學院的陳超美博士開發。Citespace Ⅱ可用于探測和分析學科研究前沿的變化趨勢以及研究前沿與其知識基礎之間、不同研究前沿之間的相互關系。通過對文獻信息的可視化,能夠較為直觀地識別學科前沿的演進路徑及學科領域的經典基礎文獻。同時,選擇機構共現分析,可以得到基于研究機構共現的機構合作網絡圖譜,實現對某技術研究領域中研究機構合作情況的可視化分析[2]。CiteSpace Ⅱ可以在陳超美博士的博客主頁(http:∥cluster.cis.drexe1.edu/~cchen/citespaee/)上自由下載,免費使用。
2 可視化分析的研究結果
將下載的文獻記錄數據全部導入Citespace Ⅱ軟件中,然后進行相關選項的設定。首先設置時間,本文檢索年限為1998-2010共計12年,設定時間跨度為2年,這樣就形成6個時間段。其次設定c,cc,ccv(其中c為文獻被引頻次;cc為兩篇文獻的共引頻次;ccv為文獻的共引系數)的閾值分別為(4,3,20)、(4,3,20)和(4,3,20),選定路徑搜索(pathfinder)算法。最后依據分析研究的需要,選定相應的網絡節點。
2.1 關鍵節點分析
將網絡節點設定為參考文獻(reference)和主題詞(terms),將主題詞來源設定為文獻標題、文摘、描述符(descriptor)3種。由于Citespace Ⅱ軟件中主題詞又包括名詞短語(noun phrase)與“涌現”詞(burst terms)2種,我們先將主題詞設定為“涌現”詞,然后運行Citespace Ⅱ,不僅可以看到輸出網絡所涵蓋的節點(Nodes=136)與連接線(Links=260數),同時也可得到可視化信息檢索研究文獻的共引網絡圖譜,見圖1。圖1 可視化信息檢索研究文獻的共引網絡圖譜
從圖1中可以看出網絡中有8個關鍵節點(關鍵節點是共引網絡中連接2個以上聚類群組且具有較高中介作用的節點)。一般而言,關鍵節點的點度中心性比較高,在整個網絡中所起的橋梁作用也很大。從知識理論的角度看,關鍵節點文獻通常是在該領域中提出重大理論或是創新概念的文獻,也是最容易引起新的研究前沿熱點的關鍵文獻[3]。可視化信息檢索研究領域的關鍵節點見表1。
點文獻的重要性,筆者利用Google Scholar對表1中按中心度的排序的文獻做了進一步的檢索。發現中心度最高的關鍵節點文獻是Richard O.Duda等著的《Pattern Classificati》(紐約Wiley出版社)第二版,在谷歌學術中被引頻度高達14 589次。Richard O.Duda是美國加州圣何塞州立大學(不僅是全加州歷史最悠久的大學,而且是全美西地區最頂尖的公立大學之一)最著名的聲音定位與模式識別專家,其代表作《Pattern Classificati》第一版《模式分類與場景分析》出版于1973年,是模式識別和場景分析領域奠基性的經典著作。在第二版中又新增了許多近25年來的新理論和新方法,其中包括神經網絡、機器學習、數據挖掘、進化計算、不變量理論、隱馬爾可夫模型、統計學習理論和支持向量機等,該書已被卡內基-梅隆、哈佛、斯坦福、劍橋等120多所大學采用為教材;其次是Eleanor Rosch于1976年發表的論文“Basic Objects in Natural Categories”被引頻度高達2 898次。Eleanor Rosch是美國加利福尼亞大學伯克利分校的著名認知心理學家,其主要成就是與其他學者一起提出了著名的“原型理論”,原型理論在認知科學中,是一種分級歸類的模式,也是一種徹底揚棄傳統亞里士多德邏輯中的必要和充分條件的理論。在許多認知科學與認知語義學的模型中,原型理論都是主要的核心概念;第三是Michael J.Swain于1991年發表在《International Journal of Computer Vision》上的文章“Color indexing”被引頻度為3 734次。Michael J.Swain是美國芝加哥大學的著名計算機科學家,在信息可視化與人機交互訪問方面卓有建樹;第四是美國紐約大學著名認知心理學家Joan Gay Snodgrass于1980年發表的文章“A standardized set of 260 pictures:Norms for name agreement,image agreement,familiarity,and visual complexity”,被引頻度為2 438次;第五是美國華盛頓大學教授Wheeler,Mark E.于2000年在《Proceedings of the National Academy of Sciences USA》上發表的文章“Memorys echo:Vivid remembering reactivates sensory-specific cortex.”,被引頻度為283次;第六是美國腦與認知心理國家實驗室著名學者Alex Martin于2001年發表的“Semantic memory and the brain:structure and processes”,被引頻度457次;第七是Myron Flickner等編寫由IEEE Computer Society Press出版的專著《Query by Image and Video Content:The QBIC System》,被引頻度3 201次。Myron Flickner是美國IBM公司阿爾馬登研究中心的高級工程師,長期從事圖像檢索和QBIC系統的研究;最后一個關鍵節點文獻是加拿大著名認知心理學家Paivio,Allan撰寫、由Oxford University Press.出版的《Mental Representations:A Dual Coding Approach》,被引頻度高達2 520次。Paivio,Allan的主要貢獻在于認知心理學方面。他在研究中想方設法促進人們對心理表象以及它在記憶、語言和思維方面的作用的理解。他的研究結果推動了雙重編碼理論的發展。正是這幾個關鍵節點將認知心理學、計算機圖形科學、信息科學等相關學科緊密地聯系在一起,共同構成了可視化信息檢索研究的學科基礎,這些文獻也因此成為信息可視化研究領域的經典文獻。
2.2 研究熱點的演進分析
隨著時間的推移,科學文獻的內容會逐漸變得陳舊過時。而研究內容的陳舊過時,具體體現在代表該研究內容的詞匯或短語出現的次數的變化[4]。由于CiteSpace Ⅱ軟件所調用的主題詞(Terms)全部來源于SCI—E與SSCI數據記錄中的題名(Titles)、摘要(Abstracts)、標識符(identifier)和描述符(descriptor),其完全可以用于表征該文獻的內容。因此,筆者將網絡節點設定為關鍵詞(keyword),結合軟件自帶的涌現檢測算法(burst detection algorithm),然后運行Citespace Ⅱ,繪制出1989-2010各年度的研究主題變化的時區可視圖譜,見圖2。
在此基礎上,使用CiteSpaceⅡ自帶的聚類軟件對全部主題詞進行Expectation Maximization簡稱(EM)聚類,最后得到了全部主題詞的年度變化分布表,限于篇幅,這里只給出比較重要的部分,在表2中詳細列出了1989-2010各年度重要主題詞變化的詳細信息,如主題詞、詞頻與中心度等關鍵指標的數值。
由于導出的全部主題詞變化分布表列出了1998-2010各年度主題詞的中心度與詞頻及其詳細的變化情況,因此這些主題詞的變化也比較準確地反映了可視化信息檢索研究領域中研究熱點的演進情況。從表中可以看出1998-1999年的研究熱點主題詞主要是檢索(詞頻343,中心度0.13)、識別(詞頻102,中心度0.18)、信息、情節記憶與可視化等;2000-2001年研究熱點主題詞是圖像檢索、基于內容的檢索、數據庫檢索、對象識別、人腦成像機制的研究等;2002-2003年研究熱點主題詞則是多媒體、數據庫、信息可視化以及形狀、顏色、視覺皮層等;2004-2005年研究熱點主題詞是詞匯檢索、基于內容的圖像檢索、數據庫以及視覺關注等;2006-2007年熱點主題詞是語義記憶、組織、工作記憶、腦活動以及分類等;2008-2009年的研究熱點主題詞是整合、認知模式、視覺記憶、信息過濾、視頻檢索、聚類分析、人機交互、知識管理、數據挖掘、視覺感知與心理意向等;2010年研究熱點主題詞則面部識別、降維分布等等。通過這種研究熱點主題詞的演進變化,可以看出可視化信息檢索的研究熱點始終緊緊圍繞著信息檢索與認知心理學、計算機圖形學等基礎學科的交叉點,學科基礎交叉融合的結果,也代表了信息檢索科學的發展方向。這種演進過程與張進等的研究結論[1]可以相互佐證。圖2 可視化信息檢索研究主題變化的時區分布圖
2.3 各國研究實力與研究機構分析
在利用CiteSpace Ⅱ進行數據分析時,將網絡節點分別設置成“Country”,然后加以運行即可得到有關國家研究實力分布圖譜,見圖4。
從圖4中可以清晰地看出在可視化信息檢索研究領域中,美國具有絕對的優勢,居于世界首位,獨占第一集團;英國雖然遠遜于美國,但明顯超出其它國家很多,獨占第二集團;第三集團由德國與加拿大構成,略強與第四集團。第四集團相互之間差距不太大:它們是法國、日本、荷蘭、意大利與中國。由此可見,我國在可視化信息檢索研究領域起步較晚,還沒有形成穩定而且具有一定規模的研究隊伍,與國際先進水平相比還有一定的差距,見表3。
將網絡節點分別設置成“Institution”,然后運行CiteSpace Ⅱ,得出從事信息可視化研究的機構分布圖,由于分布圖中的科研機構的分布情況沒有任何規律可循,筆者將有關數據又轉化成表格,可得到從事可視化信息檢索研究的重要機構信息表,其前4名見表4。表4 可視化信息檢索研究的重要機構
序號機構涌現值詞頻1Univ Illinois252Harvard Univ173Univ Oxford2.6134Univ Texas3.0510
從表4可以看出,第一位是美國的芝加哥伊利諾大學(University of Illinois at Chicago),該大學始建于1867年,共有芝加哥、厄巴那一香檳和春田3個校區,是全美國10所最大的州立大學之一。第二位是美國的哈佛大學(Harvard Univ),她也是美國最古老、最著名的大學。第三位是英國的牛津大學(Univ Oxford UK),它有歷史、有世界聲譽。盡管由于國家和資源的優勢相對衰落,牛津和劍橋高居于世界大學之冠的日子早已不再。但它仍在英國社會和高等教育系統中具有極其重要的地位,也仍然有著世界性的影響。第四位是美國的德克薩斯大學(Univ Texas),創立于1890年,是德克薩斯州境內占地最大的公立學校,1992年該校又獲選為美國國家大學聯盟成員〈Full membership in the National Association of State Universities〉?!睹绹侣勁c世界報道》將它評為學術聲譽第193位,連續兩年評為“Americas Best College Buys”之一的學校。另外,從科研機構的性質來看,大學是可視化信息檢索研究的重要力量,推動者可視化信息檢索研究工作的向前發展。
3 討 論
通過以上分析研究,我們可以得出如下結論:
(1)由于可視化信息檢索是將信息資源、用戶提問、信息檢索模型、檢索過程以及檢索結果中各種語義關系或關聯數據轉換成圖形,顯示在一個二維、三維或多維的可視化空間中,幫助用戶理解檢索結果、把握檢索方向,以提高信息檢索的效率與性能,因此可視化信息檢索的誕生基礎是信息檢索、認知心理學和計算機圖形學的交叉與融合。信息檢索是可視化信息檢索的學科基礎;認知心理學揭示了人類感知和認識世界的方式,是可視化信息檢索的理論指導;計算機圖形學則是可視化信息檢索得以實現的工具??梢暬畔z索具有形象性、交互性、輔助認知、趣味性和探索體驗等特點,它能夠為用戶提供一個可視化的信息空間和工作空間,幫助用戶更方便地接受和理解信息,并支持充分高效的人機交互,因而為改進信息檢索效果、提高信息檢索效率提供了有效手段。面對日益嚴峻的信息爆炸與信息饑渴之間的對抗,可視化信息檢索能夠成為緩解這一矛盾的一種有效方法[5]。
(2)通過使用CiteSpace Ⅱ對Thomson.ISI公司SCI于SSCI中收錄的可視化信息檢索研究文獻的可視化分析,可以看出,我國可視化信息檢索研究工作起步較晚。雖然在國家的綜合排名中處于中等位置,但從研究機構排名情況來看,還沒有一個國內研究機構能夠憑借自己研究團隊的實力而進入世界前列。當然這與我國信息可視化研究總體水平相對落后有很大關系,雖然清華大學、大連理工大學、上海交通大學等一批國內重點大學都開展了相關研究工作,但絕大多數還屬于個體隨意的研究行為,既沒有明確的長遠研究目標,又缺乏橫向的聯合攻關與團體協作。因而總體上還沒有形成一定的規模,與國外先進水平還有較大的差距。
(3)可視化搜索引擎Bing的推出[6],
既給互聯網的搜索引擎界帶來一種耳目一新的感覺,有給廣大網民帶來了一種全新的分類搜索體驗。搜索引擎Bing通過Silverlight技術以圖片的形式顯示某一類別中的內容,供用戶篩選以找到需要的信息。可見,可視化信息檢索技術是一種跨學科的、面向用戶的信息技術;它能夠改善以往單一的檢索模式,帶給用戶的不僅是找信息更是娛樂或體驗,甚至能夠幫助用戶發現一些未知的相關信息,因而具有較好的發展前景,也為國內搜索引擎企業提供了一個良好的發展商機。
參考文獻
[1]張進,袁澤林,陸偉.可視化信息檢索的主流路徑[J].圖書情報知識,2008,(5):24-27.
[2]C Chen.CiteSpace Ⅱ:Detecting and Visualizing Eme~ing Trends and TrarLsient Patterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2005,57(3):359-377.
[3]侯劍華,陳悅,王賢文.基于信息可視化的組織行為領域前沿演進分析[J].情報學報,2009,28(3):422-430.
[4]高繼平,丁.專利研究文獻的可視化分析[J].情報雜志,2009,28(7):12-16.
[5]黃豐.信息可視化檢索模型及應用探析[J].情報探索,2007,(10):45-47.
[6]搜狐.微軟發Bing可視化搜索功能助用戶處理信息[EB].http:∥tools.yesky.com/200/9171200.shtml,2009-09-15.