朱猛男,張耀軍
(1.上海出版印刷高等專科學校信息化辦公室;2.上海出版印刷高等專科學校規劃發展處,上海 200093)
軟件工具對于科學研究具有重要輔助作用,可用于問題識別、數據存儲、數據分析、數據建模、可視化結果呈現等。然而,長久以來,軟件的學術價值一直被低估甚至被忽略[1]。在科研大數據時代,基于科學文獻挖掘研究內容的知識關聯、結構關系與發展趨勢已成為一種新方向,科學知識圖譜的理論、技術與方法應運而生,為科學研究提供了一種新范式。知識圖譜軟件運用數據分析技術和信息可視化技術展示學科領域的發展進程和結構概況,輔助文獻計量分析和可視化研究,逐漸受到學術領域的重視,一些學者指出軟件應被視為學術研究產出。據不完全統計,目前國內外開發的免費使用的知識圖譜軟件有幾十種,其 中CiteSpace、VOSviewer、SCI 2、BibExcel、HistCite、CitNetExplorer、Gephi、Pajek、NetDraw、Ucinet、CRExplorer 較為流行。
國內外對知識圖譜軟件的研究持續升溫,從理論、繪制方法、實證分析、應用等諸多方面展開研究,研究領域已擴展到計量學、工程學、生物學、管理學、文學等學科。如Liao 等[2]使用GraphPad Prism 5、VOSviewer 和CiteSpace 軟件對醫學大數據(Medical Big Data,MBD)進行文獻計量分析,從多層面可視化展現MBD 的發展現狀和趨勢;Yeung等[3]將299 602 篇有關抗氧化劑的文獻題錄及引用文獻導入VOSviewer 軟件進行文獻計量分析,通過標簽視圖的形式可視化展示研究關鍵詞,并繪制出關鍵期刊的引文網絡標簽圖譜;徐建國等[4]基于CiteSpace 和VOSviewer 繪制出國內深度學習領域相關文獻的知識圖譜,通過分析關鍵詞時區、突變詞檢測、關鍵詞共現權重等圖譜,發現該領域的研究熱點主要集中在卷積神經網絡模型及其應用、深度學習模型創新改進等方面。
目前,較多學者開始關注軟件工具的學術價值及影響力,將學術文獻作為載體研究軟件的擴散規律和擴散模式[5-6],還有一些學者嘗試采用被引次數、使用頻次、下載次數等指標定量分析軟件的影響力[7]。如Pan 等[8]以擴散廣度、擴散時間、擴散速度為指標衡量CiteSpace、HistCite 和VOSviewer 的使用、引用和傳播情況;Cobo 等[9]對9 個代表性知識圖譜軟件的核心功能進行比較研究,運用科學計量和繪制知識圖譜的方法突出不同軟件工具之間的主要差異和協同合作關系。然而學術界對知識圖譜軟件擴散的定量研究較少,缺少對軟件擴散特征、學科擴散規律、擴散網絡以及擴散路徑等多維度的研究。
本文基于創新擴散理論,對2000-2019 年Web of Science 核心合集中提及知識圖譜軟件的論文進行實證分析。首先對文獻進行計量,繪制出知識圖譜軟件的擴散曲線;然后運用主路徑分析法從引文網絡中析出關鍵主路徑,識別出擴散過程中的重要人物和重要事件,揭示重要軟件的傳播影響力;最后構建主路徑擴散網絡,梳理擴散脈絡。探索知識圖譜軟件的擴散規律可以豐富和發展軟件技術擴散的理論和研究方法,追溯軟件擴散軌跡,了解軟件發展過程,加深學術界對知識圖譜軟件學術價值的認知,促使其更新迭代與持續創新擴散。
以Web of Science 核心合集為數據來源,對CiteSpace、HistCite、VOSviewer、BibExcel、Ucinet、Pajek、Gephi、NetDraw共8 種主流知識圖譜軟件的名稱或擴展詞進行主題檢索,檢索表達式為:TS=(CiteSpace)OR TS=(“Cite Space”)OR TS=(HistCite)OR TS=(“Hist Cite”)OR TS=(VOSviewer)OR TS=(“VOS viewer”)OR TS=(BibExcel)OR TS=(“Bib Excel”)OR TS=(Ucinet)OR TS=(Pajek)OR TS=(Gephi)OR TS=(NetDraw)OR TS=(“Net Draw”),時間跨度為2000-2019年。共檢索得到1 494篇文獻,以此作為實證分析的數據集。
創新擴散理論指出創新的擴散是一種社會過程,需要經過一定的時間,通過某種渠道在特定的社會系統中進行傳播。大多數創新的擴散過程符合S 型曲線規律,即某項創新的累積采納數隨時間變化呈現為S 型趨勢。擴散過程可分為3 個階段,即起步階段、起飛階段和穩定階段[10]。知識圖譜軟件是一種技術創新,其擴散可定義為:在科學研究系統中,知識圖譜軟件被應用到研究論文中,在一定的時間范圍內通過科學文獻或專利等載體進行知識交流,逐漸被研究學者等潛在使用者所接受。
知識圖譜軟件被研究學者采納的過程類似于科學文獻的被引過程,本研究從提及知識圖譜軟件的文獻數量、文獻內容和文獻間的引用關系方面研究知識圖譜軟件的擴散規律。將1 494 篇文獻導入VOSviewer 軟件建立原始引文網絡,其中789 篇文獻之間存在引用關系。使用Pajek軟件進行主路徑提取,深入研究關鍵文獻和重要知識圖譜軟件,借助Gephi 工具繪制主路徑成分引文網絡,采用社會網絡分析法分析擴散網絡的結構特征、擴散中心性。
將論文累積數量表示為累計采納數,每年新增的文獻數量定義為采納速率,繪制出2000-2019 年知識圖譜軟件總體擴散曲線,如圖1 所示,基本顯示為一條S 型擴散曲線。近20 年提及知識圖譜軟件的文獻數量穩步增長,增幅較為穩定。2000-2011 年采納速率較低,只有少數學者的研究論文提及知識圖譜軟件,累積采納曲線坡度平緩,擴散速度慢,這一階段為擴散起步階段;2012 年起擴散曲線上升趨勢明顯,且沒有回落趨勢,因此2012 年開始進入擴散起飛階段;2012 年以后擴散采納速率持續增長,沒有出現擴散曲線的拐點,尚且不能描述S 型曲線的全貌。
Fig.1 Overall diffusion curve of knowledge domain visualization software圖1 知識圖譜軟件總體擴散曲線
Bass 模型主要用于時間序列預測,知識圖譜軟件根據時間順序向外擴散,呈現出上升或下降的變化趨勢,因此可采用Bass 模型對知識圖譜軟件的擴散趨勢進行預測。Bass 模型的一般表達式為:
以發文年作為自變量t,如2000 年為第一年,則t=1,將累積采納數作為因變量N(t),采用非線性最小二乘法,利用SPSS 軟件進行回歸分析,得到估計參數值m=88 964,p=0.000 044 19,q=0.286 5。然后利用MATLAB 軟件對擴散曲線進行擬合,擬合圖見圖2,參數估計值如表1 所示,可決系數R2的值接近于1,表示曲線擬合效果良好。根據Bass 模型對知識圖譜軟件未來30 年的累計采納數進行預測,得出知識圖譜軟件的擴散過程符合S 型曲線規律,預計2036 年進入擴散穩定階段。
Table 1 Estimation of cumulative adoption number diffusion model parameters based on Bass model表1 基于Bass 模型的累積采納數擴散模型參數估計
Fig.2 Bass model fitting curve圖2 Bass 模型擬合曲線圖
擴散路徑是擴散過程的重要體現,從原始引文網絡中析出的擴散主路徑有兩條(見圖3),分別為路徑1:3→6→9→30→41→68→161→176→189→201→225→298→334→366→372→420→447→627→704→709→766;路徑2:3→6→10→41→68→161→176→189→201→225→298→334→366→372→420→447→627→704→709→766。 圖 中 節 點標簽采用“文獻編號+第一作者+發文年”表示,箭頭方向表示知識圖譜軟件的擴散方向,連線上的值表示權重,主路徑上共有22 篇關鍵文獻,詳見表2。可以看出,擴散主路徑結構簡單、樣式單一,沒有復雜的分支結構。
Fig.3 Diffusion main path diagram of knowledge domain visualization software圖3 知識圖譜軟件擴散主路徑圖
主路徑文獻的第一作者中,Garfield E 出現了4 次,Merigo J M 出 現4 次,Chen C M 和Yu D J 各 出 現2 次;主 路徑文獻的其他作者中,Pudovkin A I、Istomin V S、Cancino C A、Wang X X、Xu Z S 各出現2 次,Merigo J M 出現10 次。表2 中,編號41 的文獻被引頻次為1 063,編號10 的文獻被引842 次,對應的第一作者分別為Van Eck N J 和Chen C M。綜上分析可知,在知識圖譜軟件的擴散過程中核心人物有4 位,分別為Garfield E、Merigo J M、Van Eck N J 和Chen C M。Garfield E 是美國著名的情報學家,編制出版了《科學引文索引》,被譽為“SCI 之父”,其致力于研究可視化圖譜并開發了HistCite 軟 件;Van Eck N J 和Waltman L 合作開發了VOSviewer 軟件;Chen C M(陳朝美)開發了CiteSpace 軟件;另有核心作者Merigo J M。
主路徑關鍵文獻最早于2002 年出現在計算機科學、信息學與圖書館研究領域,2012 年擴散到生物技術與應用微生物學、醫學研究和實驗等領域,2016 年逐漸擴散至其他研究領域,以工程學為主,還涉及商業與經濟學、社會科學、運營研究與管理、化學、食品科學與工程、營養學與膳食學以及自動化及控制系統等學科領域。
Table 2 List of key literatures on the main path of knowledge domain visualization software diffusion表2 知識圖譜軟件擴散主路徑關鍵文獻
主路徑上關鍵文獻使用頻次較多的知識圖譜軟件為HistCite、CiteSpace 和VOSviewer,是擴散主路徑上的3 個重要事件。結合擴散曲線的分析結果,將擴散主路徑分為2002-2010 年和2012-2019 年兩個階段。
2.2.1 第一階段:2002-2010 年
Garfield E 于2001 年開發出HistCite 軟件,隨后發表一些實證分析論文推廣HistCite,其中文獻[11](對應表2 編號3)發表于2002 年,遍歷權值最高,介紹了HistCite 軟件的主要功能,展示了引文數目列表、引文關系以及“gene flow”的引文編年史圖。HistCite 經過優化功能逐漸完善,書目列表和可視化圖譜比上一版本更加美化。文獻[12](對應表2 編號6)采用研究主題、期刊、作者等數據實證展示文獻列表和圖譜。文獻[13](對應表2 編號9)使用HistCite 對特定研究領域的知識進行實證分析,將文獻計量分析方法與可視化圖譜相結合。文獻[14](對應表2 編號30)考察了從科學到科學計量學的歷史發展軌跡,論證強調了科學計量學的重要性。綜上可知,正是得益于Garfield 對文獻計量學和可視化研究的貢獻和影響,知識圖譜研究才有如今的發展。
2003 年,陳超美教授基于Java 平臺開發了CiteSpace 這款用于分析科學文獻的可視化軟件,并于2004 年發表了論文《Searching for intellectual turning points:progressive knowledge domain visualization》,該篇文獻[15]在Web of Science 核心合集中被引355 次。其對CiteSpace 軟件識別關鍵節點的方法進行了詳細闡述,介紹了軟件的核心功能與實現方式,并實證展示了共被引網絡圖譜。2006 年,陳教授發表了文獻[16](對應表2 編號10),被引842 次,為高被引論文,該篇文獻通過恐怖主義和大規模滅絕兩個案例實證了CiteSpaceII 的聚群視圖和時區視圖功能。CiteSpace 自對外發布以來不斷更新迭代,軟件使用簡單、功能強大,被研究學者廣泛使用,產出的研究論文也隨之快速擴散,由最初的計算機科學領域傳播到多個學科領域。
VOSviewer 軟件于2009 年被開發出來,文獻[17](對應表2 編號41)于2010 年發表,其作者即為VOSviewer 軟件的開發者Van Eck N J 和Waltman L。該篇文獻被主路徑上14篇文獻引用,是擴散過程中的一個重要文獻。其介紹了VOSviewer 的4 種視圖,闡述了可視化圖譜的技術實現方式,同時實證展現了5 000 個主要科技期刊的共引標簽視圖,以及計算機科學和經濟學領域之間的文獻分布視圖。VOSviewer 既能分析標題和摘要中的共現詞匯,又能以網絡圖譜的形式直觀展現文獻、期刊、作者、機構的共引與耦合關系,其功能和可視化效果優于其他同類軟件,基本實現了成功擴散。
2.2.2 第二階段:2012-2019 年
該階段較少出現新研發的知識圖譜軟件,主要是對已有軟件進行更新和版本迭代,不斷優化產品功能,實現知識圖譜軟件的再創新。2012-2019 年間,Web of Science 核心合集中發表了大量實證分析類論文,充分體現了知識圖譜軟件的學術價值,促進了不同研究領域的學術發展。表2 中編號為68、161、176、189 的文獻使用CiteSpace 進行實證分析,編號為709 和766 的文獻同時使用CiteSpace 和VOSviewer 軟件進行實證分析,余下文獻均使用VOSviewer開展實證研究。以上文獻的研究內容可以概括為檢索并獲取數據庫中特定研究領域、主題或期刊在特定時間范圍內的文獻數據,將文獻計量分析法與可視化圖譜相結合,研究領域內的研究熱點、發展趨勢,識別出關鍵作者、核心期刊、主要研究機構/國家等。其中,使用VOSviewer 軟件的實證分析類論文研究內容體現在4 個方面:①通過統計詞頻、關鍵詞共現聚類圖譜、主題標簽圖、密度圖以及引文共被引聚類圖譜識別領域研究熱點;②繪制出作者共引分析標簽圖,識別出核心作者或核心作者群及其互引關系;③通過期刊共被引聚類分析和多維度分析展示期刊標簽圖或密度圖,識別出核心期刊及其相關性,揭示核心期刊的影響力;④通過國家/機構的共現分析,展示國家/機構分布標簽圖或密度圖,識別主要國家/機構及其合作關系,發現國家/機構間的關聯程度。
主路徑文獻僅識別出HistCite、CiteSpace 和VOSviewer 3 種知識圖譜軟件工具,不能完全反映出其他知識圖譜軟件在擴散過程中形成的精細結構。為擴大擴散范圍,根據表2 關鍵主路徑文獻的最低遍歷權值0.060 469(文獻編號709),選取0.06 作為截斷閾值,提取出46 個文獻組成主路徑成分,繪制出有向主路徑擴散引文網絡圖譜(見圖4,彩圖掃OSID 碼可見),共有46 個節點和212 條有向邊,節點文獻標簽用“文獻編號+第一作者”表示,根據文獻被引頻次設置圓圈大小,箭頭由被引文獻指向引用文獻,節點顏色按照知識圖譜軟件進行分類:紫色代表VOSviewer、青色代表CiteSpace、橙色代表HistCite、粉色代表Pajek。需要說明的是,編號為709、766、777 的文獻同時使用了VOSviewer 和CiteSpace 軟件。為方便描述引文網絡圖譜的特征,根據VOSviewer 和CiteSpace 描述內容占文獻篇幅的比例,將其劃分到VOSviewer 類別。可以看出紫色約占圓形面積的2/3,青色點亮右半邊一小部分面積,粉色和橙色在邊緣零星分布,可見VOSviewer 在擴散網絡中占據重要地位。
圖4 的網絡直徑為6,密度為0.102,節點平均度為4.609,提示網絡中的節點關系密切程度不高,連通性不強,不利于知識圖譜軟件的擴散。網絡的平均路徑長度為2.34,平均聚類系數為0.272,可見主路徑成分之間關系疏遠,知識擴散路徑離散,知識圖譜軟件的傳播效率不高。結合擴散網絡節點的度和中介中心性指標,可以發現編號為41 的文獻中介中心性為104.79(最高),位居中心位置,在擴散網絡中處于重要地位,其入度為31,出度為29,在擴散過程中為其他文獻提供知識,表現積極。編號為334、298、10、225 的文獻出度排名靠前,對外擴散表現活躍,構成了擴散網絡的重要知識源,是知識交流的積極推動者。整體來看,節點的入度值不高,可見主路徑成分不太重視吸收知識。文獻編號為176、41、189、627、68 的文獻中介中心性較高,在擴散網絡中具有一定影響力。編號為778、760、766、777、754 等文獻的中介中心性值為0,表明其位于擴散網絡邊緣,對整體擴散沒有太大影響。綜合來看,主路徑成分之間的引用行為主要集中在靠近網絡中心位置的文獻之間,越靠近網絡邊緣,文獻之間的引用活動越不積極,知識擴散效率越低。
Fig.4 Main path component diffusion network map圖4 主路徑成分擴散網絡圖譜
主路徑成分文獻使用的知識圖譜軟件工具共有4 種,分 別 為HistCite、CiteSpace、VOSviewer 和Pajek,其 中 提 及Pajek 軟 件 的 有3 篇、HistCite 4 篇、CiteSpace 12 篇、VOSviewer 30 篇,表明VOSviewer 軟件對于知識圖譜軟件的傳播發揮著重要作用。HistCite 和Pajek 出現在2002-2008年,擴散起步早,持續時間短,可見該階段HistCite 和Pajek軟件并沒有得到廣泛傳播,這與軟件自身功能與可視化效果有關。CiteSpace 在該階段出現兩次,還未實現有效擴散,而此時VOSviewer 還沒有被開發出來。2010-2019 年VOSviewer 和CiteSpace 開 始 快 速 擴 散,VOSviewer 一 出 現 就憑借其自身功能的完善性、易操作性以及美觀的可視化效果被研究人員所接受。
綜合上述分析內容可知,8 個知識圖譜軟件中Hist-Cite、CiteSpace 和VOSviewer 為擴散的主力軍。在擴散過程中,HistCit 軟件是領頭羊,開創了從引文角度研究科學文獻的新領域;擴散初中期,CiteSpace 成為文獻計量學領域的新星,此后CiteSpace 軟件不斷升級迭代,豐富完善了文獻、期刊、作者、機構、國家等不同維度的可視化圖譜,版本從CiteSpaceI 到CiteSpaceV 實現多次再創新,促使CiteSpace 軟件循序漸進地擴散;VOSviewer 軟件是后發突起,在擴散中后期被大范圍采納,占據擴散主路徑成分的半壁江山(占比61.2%)。2014-2019 年,提及VOSviewer 軟件的研究論文數量、被引頻次均占領先地位,可以認為VOSviewer 是知識圖譜軟件擴散路徑上的獲勝者。
本文以Web of Science 核心合集在2000-2019 年間提及知識圖譜軟件工具的研究論文為研究對象,主要運用主路徑分析法和社會網絡分析法進行研究,得出知識圖譜軟件的擴散規律如下:①知識圖譜軟件在2000-2010 年處于擴散起步階段,2012 年開始進入起飛階段,擴散速度仍持續增長,通過建立Bass 模型進行驗證可知,知識圖譜軟件的擴散過程基本符合S 型曲線規律,并預計在2036 年進入擴散穩定階段;②隨著時間的推移,知識圖譜軟件擴散路徑分化出兩條關鍵主路徑,主路徑上有4 個核心人物(Garfield E、Merigo J M、Van Eck N J 和Chen C M)和3 個重要事件(HistCite、CiteSpace 和VOSviewer)。結合S 型曲線規律可將擴散過程劃分為兩個階段:2002-2010 年為第一階段,主要介紹知識圖譜軟件的功能和展示實證分析圖譜;2012-2019 年為第二階段,該階段較少出現新開發出來的軟件,大多是優化已有軟件功能,升級用戶使用體驗,但是知識圖譜軟件的實證分析研究成果逐漸增多;③8 個知識圖譜軟件中HistCite、CiteSpace 和VOSviewer 是擴散的主力軍,其中VOSviewer 在擴散網絡中占據重要地位。
本文以知識圖譜軟件為研究對象,豐富了知識擴散的研究內容,創新性地對主路徑成分文獻使用的知識圖譜軟件工具進行聚類,識別出關鍵軟件和核心人物。但研究仍存在一定的局限性:由于軟件評測尚未有統一標準,數據來源單一,選取的8 個主流知識圖譜軟件不能充分說明整個知識圖譜軟件的擴散情況。此外,根據知識圖譜軟件名稱檢索獲得的文獻不能完全保證使用知識圖譜軟件開展實證分析,也有可能是對知識圖譜軟件進行理論分析和文獻綜述。本文采用主路徑分析法析出的關鍵文獻是粗線條的,未能直接反映出知識圖譜軟件的擴散歸集,也沒有添加時間軸分析其隨時間的演化過程。后續研究將擴大數據范圍,優化檢索表達式,將主路徑分析法與文獻內容分析法等多種方法相結合,從學科、作者、期刊、機構等多個角度展開全面細致的研究。