王博 戴欣穎 楊儒仲
摘要:在現代科技的推動下,人們追求更嚴密更有效的參考數據。citespace軟件在提供具體、有力的數據方面有十分重要的作用,如領域研究熱點或突顯詞。通過結合可視化分析的發展以及可視化為文獻分析所帶來的便捷,闡述現代技術citespace對信息檢索的影響。本文運用citespace分析3100篇關于“可視化分析”文獻,希望可以推動可視化分析的發展,完善可視化的功能。
關鍵詞:文獻分析;網絡發展;數據挖掘
引言
信息檢索是一種在進行論文或其他文章寫作時,進行的必要的文獻參考,通過在知網、web of science等網站上獲取所需信息或數據,使文章獲得更有力的支撐或補足缺失的信息。
在現代化科學技術的快速發展與時代的進步下,人們對可視化的研究在不斷深入,進而對有關信息檢索的研究也在不斷增長。目前,國內對可視化分析的研究群體在不斷擴展,人們對信息檢索可視化研究的范圍也在不斷擴大。這種高效且便捷的方法無疑在以后的信息檢索中占據更重要的位置,隨著逐漸完善系統功能,在將來或能根據用戶的設定習慣,優先篩選出符合條件信息,更方便清晰的操作環境也會需要改進的,用citespace對在CNKI檢索出的關于“可視化分析”的為例探討。
通過在知網上對相關主題文獻進行檢索,發現從2010年開始,關于citespace的文獻信息逐漸增加,可見人們對于可視化的數據分析越來越重視,應用越來越廣泛。Citespace是由陳超美團隊研發的,在Java語言運行環境下的可視化分析軟件,本文基于5.3.R4版本,對從CNKI數據庫檢索到的文獻進行分析,得到該領域重要研究機構、主要研究作者、研究熱點及研究演化路徑,并用圖譜加以展示。
1文獻分析與知識圖譜
1.1文獻時間及數量分布
根據在CNKI上檢索2010年——2018年間,主題關于“可視化分析”,得出的3100個文獻數據,通過數據分析,可知2010年有94篇文章發表,從2010年開始,發表數量呈指數增長,到2018年已有808篇。在2014年到2018年間,是可視化分析的研究的快速增長期,也說明了數據的可視化分析在工作中越來越重要,學界逐漸對該領域有更高的關注。
1.2文獻的機構分析
在citespace的運行界面中,把Node types設置成Institution,實現對文獻的研究機構的分布情況。得到知識圖譜如圖 1
在圖譜中,各節點表示其研究機構,節點間的連線表示各機構間的合作情況,節點的大小代表了機構發文量的多少。從圖上看出,共59個節點,提出發文不足3次與無效的研究機構,節點連線僅為17條,可以說明該領域的研究有許多的機構參與,但各機構的聯系與合作不足,還多處于獨立研究。圖中的圓形節點越大表示關鍵詞出現的次數越多,出現頻次較多的關鍵詞一定程度上可以代表相關研究熱點。
對頻次進行整理排序,發文量第一的武漢大學信息管理學院為26篇,第二名陜西師范大學教育學院是23篇。遠高于后面的學院,兩家機構都保持著每年的持續發文,是該領域的研究主力。
1.3文獻的作者分析
在Node types 中設置為Author,再次運行citespace,得到對可視化分析作者的知識圖譜(表2)。從圖譜得知,作者之間的網絡關系散亂,之間沒有過多聯系,中心作者與其他合作者至多有5條連線,說明領域內作者之間的合作較少,且多是兩人之間的小型合作模式,大多數作者也都是單獨研究。通過對比分析剔除無效作者,統計出前十發文數的作者,由表1看出,唐云芝發文數18篇,在該領域十分突出,熊華軍、田金徽、何曉萍、趙蓉英、祁占勇分別有9篇的發文數,且都是在近幾年發表,說明對于可視化分析的研究正在逐步發展,在今后會有更卓越成績。
1.4=文獻的關鍵詞分析
通過關鍵詞的分析,可以直觀的看出文章的主要信息或熱點詞匯,通過文獻關鍵詞,可以快速了解文章主題與觀點。下面從關鍵詞的共現分析和聚類分析進行數據列舉,探討關鍵詞在文獻中的重要作用。
1.4.1關鍵詞共現分析
在citespace界面,將Node Types選擇keyword,時間選擇2010年到2018年,跨度為1,采用pathfinder算法,點擊run,開始運算,生成“可視化分析”的關鍵詞共現知識圖譜如圖2。
圖譜中的一個加號圖形代表一個關鍵詞,顏色深淺代表發表文獻的時間,節點的范圍越大代表發表的文獻越多,越外層的顏色越淺,代表年份越近。各節點之前有連線,代表關鍵詞之間有共現,粗細代表共現頻率系數。圖譜共163個節點,185條連線,密度為0.014。從圖中可直觀看出,“可視化分析”、“知識圖譜”、“citespace”、“可視化”、“研究熱點”,這五個關鍵詞的體積較大且位于中心位置,相互之間有所關聯。且從節點、連線、密度的數據表明,可視化分析的研究領域已經有所發展,并且受到廣泛關注有一定規模,其研究網絡也相互之間有關聯,使文獻具有多樣性。
通過羅列關鍵詞頻率,可以分析目前該研究領域的熱點情況,數據包括關鍵詞名稱、出現頻次、中心度、年份。分別代表了關鍵詞在文獻出現的總次數,關鍵詞之間的信息流的數量對網絡體系的相關程度。有必要從頻次和中心度兩方面來進行數據對比,保留了排行前十的數據分別了解(表2與表3)。
從表2與表3可看出,排名前十的頻率和中心度的關鍵詞,存在很高的相似度,如:可視化分析、可視化、citespace、研究熱點、研究前沿。說明研究熱點集中在這幾個類信息上,有著重要的主導作用。但從年份上看出大都集中在2011-2014年,近年的研究有些像其他方向發展,說明人們已經對可視化有了初步了解并且向其他領域開拓新的發現。
1.4.2關鍵詞聚類分析