夏紅玉,胡 潛,王忠義
(華中師范大學信息管理學院,武漢 430079)
卡爾·波普爾的科學知識增長論將知識的生產(chǎn)增長過程描述為達爾文進化論式的過程,是知識在流動過程中優(yōu)勝劣汰的過程[1],而這個過程通過學術(shù)文獻的引用過程得以體現(xiàn)。學術(shù)文獻之間的引用關系反映了知識采集、組織、生產(chǎn)、傳播和應用的過程,引用信息表明,知識從被引文獻傳播到施引文獻。因此,引文網(wǎng)絡中的知識流可用于跟蹤技術(shù)或科學知識的發(fā)展軌跡。1964年,科學引文索引之父Garfield基于學術(shù)文獻間知識的溯源與繼承關系,提出通過分析引文關系來追尋科學研究的歷史脈絡的想法[2];隨后學者們相繼通過分析引文網(wǎng)絡來追蹤科學的歷史和發(fā)展脈絡[3-5]。然而引文網(wǎng)絡通常是巨大且復雜的,需要有效的方法來降低引文網(wǎng)絡的復雜性,從而識別出最重要的路徑來追蹤科學發(fā)展的軌跡。1989年,Hummon等[6]提出了主路徑分析方法,從引文網(wǎng)絡的內(nèi)部結(jié)構(gòu)衡量引文鏈接重要性,然后按時間順序追蹤這些鏈接,建立引文網(wǎng)絡中最重要的路徑,研究特定科學領域的發(fā)展軌跡。
作為一種定量分析方法,傳統(tǒng)基于引文網(wǎng)絡分析的主路徑方法沒有考慮引文對施引文獻的相對價值,認為施引文獻中的所有引文對該文獻具有同等的重要性,導致主路徑分析方法無法客觀體現(xiàn)引文網(wǎng)絡中知識流的傳播、利用與創(chuàng)新的關系。本文以Altmetrics主題研究領域為例,收集了1985—2020年Web of Science核心數(shù)據(jù)集中的512篇全文數(shù)據(jù),在施引文獻全文引用位置和全文引用頻次統(tǒng)計基礎之上,構(gòu)建引文重要度指標來表示引文對施引文獻的重要性,用來加權(quán)調(diào)節(jié)主路徑分析的鏈接遍歷計數(shù),探索提高主路徑分析方法的可靠性和合理性,并測度了改進后的主路徑分析方法在提取知識流方面的性能表現(xiàn)。
引文分析對于評估被引文獻的科學貢獻具有重要意義,但傳統(tǒng)基于引文著錄分析的方法對所有引文一視同仁,不區(qū)分引文對施引文獻的重要性,導致作為科學影響力衡量標準之一的引文計數(shù)的準確性與合理性飽受質(zhì)疑[7]。學者們指出,每次引用行為背后的原因各有不同,一篇文獻的全部引文中只有少數(shù)引文對施引文獻研究的影響大于其他文獻,因此需要對引文的重要性進行區(qū)分[8]。Moravcsik等[9]的研究顯示,在大多數(shù)科研文獻中40%的引文僅提供常識和背景知識,并指出將引文一視同仁的計量方法會影響引文分析定量評估的準確性。1965年,Garfield[10]通過定性分析引文出現(xiàn)的位置和引文上下文信息總結(jié)出15種引用動機,首次通過引用動機來對引文進行分類。起初大多數(shù)研究側(cè)重于區(qū)分引文的不同意圖或引用的目的[11-14],后來學者們開始關注如何識別對施引文獻具有核心影響力的引文[15-17]。目前學者們發(fā)表了許多識別引文對施引文獻重要性的研究,例如,從引文動機的角度選擇衡量指標[18-19];基于全文引文計數(shù)[8,20-21],基于引文和施引文獻的標題、摘要、關鍵詞或引文上下文信息等內(nèi)容之間的相似度[22-25],基于引文的引用位置[26],基于引文句子長度[27-28]等來識別重要引文。但這些研究中使用的特征相對有限,無法比較并準確捕獲能夠有效用于區(qū)分引文重要性的特征。事實上,每次引用行為都從統(tǒng)計學角度和語義內(nèi)容角度為我們提供了分析引文重要性的途徑。引用行為的統(tǒng)計學角度包括引用的次數(shù)、引文的句子長度、引用出現(xiàn)的段落,引用行為的語義內(nèi)容角度包括引文的極性(態(tài)度)、引用位置、引文與施引文獻的相似度等[29]。因此,在最新的研究中,Wang等[30]從統(tǒng)計學和語義內(nèi)容角度提取了21個指標來構(gòu)建識別重要引文的特征空間,研究結(jié)果顯示,統(tǒng)計學角度的全文引用頻率、引用句子總長度最能有效識別重要引文,語義內(nèi)容角度的引用位置、引文與施引文獻的內(nèi)容相似性等指標也能有效識別重要引文。
本文從引用行為的統(tǒng)計學視角和語義信息視角分別挑選全文引用頻次和引用位置,作為綜合衡量引文重要性的指標。事實上長久以來眾多關于全文引文分析的研究都試圖根據(jù)被引文獻在施引文獻全文中出現(xiàn)的引用次數(shù),或者引用位置來確定引文對施引文獻的相對價值。目前眾多學者對此已經(jīng)達成了初步共識:①被引文獻對施引文獻的重要程度與其在施引文獻全文中的引用頻次成正比。Voos等[8]認為,引文對施引文獻的重要性可以用其在全文中的引用頻次來計算。胡志剛等[31]認為基于全文引用頻次的統(tǒng)計方法用于科學評價與預測具有更好的效果。Zhu等[16]和Hou等[32]的研究顯示,引文在全文中出現(xiàn)的頻次可以代表該引文對施引文獻的知識價值貢獻;并且隨著全文引用次數(shù)的增加,引文對施引文獻的價值貢獻也會增加[33]。②在文獻介紹性部分(引言、相關研究)之外提到的參考文獻對施引文獻的價值往往更高。Mari?i?等[34]在研究了357篇文獻的全文引用語境與位置后提出,應根據(jù)引文在文獻中引用位置的不同來對其進行重要性的評估。學者們發(fā)現(xiàn),大部分引文出現(xiàn)的位置集中在文獻的開頭(引言、相關研究)和結(jié)尾(討論和結(jié)論),但出現(xiàn)在介紹性章節(jié)之外的引文對于施引文獻往往更有價值[20,35]。出現(xiàn)在文獻方法與結(jié)果部分的引文對施引文獻的價值比僅出現(xiàn)在簡介或引言部分的引文更高[36-38]。
主路徑分析方法自提出以來,已被廣泛應用到學術(shù)論文和專利文獻的引文網(wǎng)絡分析中,用于跟蹤研究領域的發(fā)展歷史和演化路徑,如繪制技術(shù)軌跡[39]、檢測技術(shù)變化[40]、探索知識的傳播和技術(shù)的擴散[41-42]、進行文獻綜述[43-44]等。在主路徑分析的發(fā)展過程中,學者們從主路徑分析方法的不同角度對其進行了改進,如優(yōu)化主路徑分析的鏈接遍歷計數(shù)方法。2003年,Batagelj[45]提出了搜索路徑計數(shù)(search path count,SPC)的方法來計算引文鏈接重要性,改進了主路徑分析方法;Verspagen[46]提出最優(yōu)主路徑演化網(wǎng)絡(network of the evolution of top path,NETP)算法,通過劃分不同時間間隔來計算最優(yōu)主路徑,考察路徑節(jié)點的知識流隨時間的發(fā)展情況;Choi等[47]提出前向引證節(jié)點對統(tǒng)計值算法(forward citation node pair,F(xiàn)CNP),通過前向引文節(jié)點對數(shù)確定連邊的權(quán)值來識別主路徑。針對主路徑方法產(chǎn)生的知識軌跡單一,無法展示知識體系多分支、知識流融合的局限性,學者們從不同角度擴展了路徑搜索算法。Liu等[48]提出了關鍵路徑搜索(key-route search)方法進行修正,對主路徑中所遺漏的關鍵路線進行了補充;Park等[49]提出基于知識遺傳適應性的前后路徑方法,減少了對重要節(jié)點的遺漏;冷伏海等[50]和萬小萍等[51]提出了基于主路徑算法的綜合運用來解決知識軌跡單一問題;劉向等[52]提出了構(gòu)建基于引文路徑疊加的主路徑發(fā)現(xiàn)方法。
傳統(tǒng)主路徑分析方法認為每篇引文對施引文獻的價值同等重要,而事實上學術(shù)文獻中的引用動機和引用情景非常復雜[53],每次引用行為都從統(tǒng)計學角度和語義內(nèi)容角度為我們提供了分析引文重要性的信息,將所有引文一視同仁的研究方法會使傳統(tǒng)主路徑分析方法無法客觀體現(xiàn)引文網(wǎng)絡中知識流的傳播、利用與創(chuàng)新的關系。因此,學者們將引文與施引文獻的內(nèi)容相關性用于衡量引文的重要性,從引用行為語義分析角度改進主路徑分析法。例如,陳亮等[54]將文本相似度引入主路徑搜索過程,通過用語義相似度衡量路徑重要性來計算主路徑;彭澤等[55]設計了一種基于文本相似度的知識流量計算方法,結(jié)合知識流動路徑類型提取主路徑。或者通過數(shù)據(jù)庫的內(nèi)容相關度標引項來表征引文相關性,例如,Liu等[56]利用法律數(shù)據(jù)庫West Law中KeyCite標引項,通過引入4級內(nèi)容相關度對鏈接遍歷計數(shù)進行加權(quán)調(diào)節(jié)來確定主路徑。
雖然已經(jīng)陸續(xù)有相關學者從引用行為的語義分析角度,通過計算引文內(nèi)容的語義相似度來提高主路徑分析方法的可靠性和合理性,但目前尚沒有文獻從引用行為的統(tǒng)計學層面和語義信息層面綜合區(qū)分引文重要性,探討引文對施引文獻的重要性對構(gòu)造主路徑的影響。本文選擇全文引用頻次和引用位置作為引文重要性識別的特征,擬從統(tǒng)計學角度和語義內(nèi)容角度更好地區(qū)分引文的重要性。
為了提升主路徑分析方法的可靠性,改善該方法在分析引文網(wǎng)絡知識流動路徑的性能,本文試圖構(gòu)建引文重要度指標來加權(quán)調(diào)節(jié)引文鏈接的重要性,對主路徑分析方法中的鏈接遍歷數(shù)進行調(diào)節(jié),并作為路徑搜索的參考變量,提高主路徑方法在衡量鏈接權(quán)重指標的合理性與準確性。主路徑分析方法的鏈接遍歷計數(shù)基準方法采用SPC方法,引文重要度指標使用引用頻次和引用位置加權(quán)方法。
結(jié)合上文所述,本文采用引用位置和引用頻次相結(jié)合的方法來計算引文對施引文獻的重要性。首先將文獻根據(jù)IMRaD(Introduction,Materials and methods,Results,Discussion)科研論文寫作結(jié)構(gòu)將引文出現(xiàn)位置標記為4級位置權(quán)重參數(shù),然后計算引文在該處的引用權(quán)重,最后計算引文在該處的引文重要性。某篇引文在文獻某處的單次引文重要度r等于其出現(xiàn)的位置權(quán)重參數(shù)L乘以它在該處的引用權(quán)重w,即

在科學文獻創(chuàng)作中引文與引用之間是多對多關系,一篇引文可以被同一文獻多次引用。引文在文獻中的引用權(quán)重,通常采用引用句子長度計算法或引用頻次整數(shù)計算法,但這兩種方法都會導致權(quán)重高估問題[33,57]。Pak等[58]發(fā)現(xiàn)引用頻次分數(shù)計數(shù)法可以有效解決引用計數(shù)的權(quán)重高估問題,因此,本文采用基于引用頻次的分數(shù)計算法。引用內(nèi)容是包含參考文獻引用的句子或短語。若引用內(nèi)容僅有一條參考文獻,則稱之為“獨立引用”;若引用內(nèi)容包含多條參考文獻,則稱之為“非獨立引用”。學者們認為獨立引用的參考文獻貢獻大于非獨立引用的參考文獻,因此,每條非獨立引用的引文在計算“引用權(quán)重”時應將貢獻平均分配給每條參考文獻[58]。假設某處引文內(nèi)容包含m條參考文獻,則該處每條參考文獻的“引用權(quán)重”w為

引 文1:“Batagelj(2003)further improves that method by proposing fast algorithms to calculate the sig‐nificance of citation links.”
引文2:“The concept of main path analysis has since been used to map technological trajectories(Fon‐tana et al.,2009;Verspagen,2007).”
引文1僅引用了一條參考文獻,參考文獻“Batagelj(2003)”為“獨立引用”;引文2同時引用了兩條參考文獻,參考文獻“Fontana et al.,2009”和“Verspagen,2007”為“非獨立引用”。因此,文獻“Batagelj(2003)”的引用權(quán)重是1,文獻“Fon‐tana et al.,2009”和“Verspagen,2007”的引用權(quán)重是1/2。引用權(quán)重的取值范圍為0<w≤1。因此,引文在單篇文獻中的總體引文重要度R等于其在全文中的單次引文重要度之和,即

在使用分數(shù)計數(shù)的情況下,L i是引文的位置權(quán)重,n是文獻全文內(nèi)的引用數(shù)量,w j是第j條引文在文獻中的引用權(quán)重,由上文可知,引文在一篇文獻全文中的引文重要度R是其在全文中參考文獻的對應位置權(quán)重與對應引用權(quán)重乘積之和。
在引文網(wǎng)絡中知識從被引節(jié)點流向施引節(jié)點,節(jié)點之間的鏈接關系代表了知識流動的方向,節(jié)點之間通過鏈接通道傳播知識。給定節(jié)點連接到終端節(jié)點的一系列鏈接稱為“搜索路徑”。在一個復雜的引文網(wǎng)絡中,一個給定節(jié)點可以有多個搜索路徑,但每個搜索路徑的意義可能不同。主路徑是在引文網(wǎng)絡所有搜索路徑中最重要的搜索路徑,代表著引文網(wǎng)絡中最重要的知識流動的序列。構(gòu)造主路徑通常分為兩步。首先,采用某種遍歷計數(shù)方法作為衡量引文網(wǎng)絡鏈接顯著性的指標,將二元引文網(wǎng)絡將轉(zhuǎn)化為加權(quán)網(wǎng)絡,每個鏈接的權(quán)重表示鏈接的重要性。其次,在遍歷計數(shù)后,采用某種路徑搜索算法來構(gòu)造主路徑[6]。采用遍歷計數(shù)作為引文網(wǎng)絡鏈接顯著性指標的邏輯是,如果引用鏈接占據(jù)了大量知識流動的路徑,那么它必須在知識傳播過程中具有一定的重要性。SPC算法是當前主路徑分析中鏈接遍歷計數(shù)的經(jīng)典算法,它通過計算相鄰兩節(jié)點之間的鏈接被網(wǎng)絡中所有的路徑所遍歷的次數(shù),來衡量該鏈接在網(wǎng)絡中的重要性[59]。假設一個引文網(wǎng)絡N=(D,R)是由一組文檔D構(gòu)成的,這些文檔的關系由R表示,其中R?D×D,而(u,v)表示文檔v引用文檔u。如圖1a所示,引用網(wǎng)絡被其他節(jié)點引用而未引用其他節(jié)點的文檔,稱之為“源(source)”;引用其他節(jié)點而不被其他節(jié)點引用的文檔,稱之為“匯(sink)”;引用了其他節(jié)點并被其他節(jié)點引用的文檔,稱之為“中間文檔(intermediate)”。知識沿著引文網(wǎng)絡中的鏈接在文檔之間傳播流動。

圖1 不同SPC值的主路徑計算方法
假設知識從文檔u傳遞到文檔v,根據(jù)Batagelj[45]對搜索路徑計數(shù)(SPC)的定義,鏈接(u,v)的遍歷計數(shù)是從源點到u的路徑數(shù)與從v到匯點的路徑數(shù)的乘積,計算方法為其中,

因此,圖1a中有A和B兩個源點,以及H、I和J三個匯點。對于鏈接(D,G),從源點A、B到D有兩條路徑(A-D,B-D),因此,從G到匯點I、J有兩條路徑(G-I,G-J),因此,2;鏈接(D,G)到Wspc(u,v)=4。對于鏈接(A,C),因此其SPC值為3。
傳統(tǒng)的主路徑分析對所有引用鏈接都一視同仁,直接使用遍歷計數(shù)來搜索主路徑。但考慮引用鏈接的相關性時,應該將遍歷計數(shù)與引文重要度權(quán)重結(jié)合起來。因此,基于引文重要度的遍歷計數(shù)計算方法為

其中,R(u,v)是文獻u和v之間的引文重要度;Wspc(u,v)是鏈接u和v之間的搜索路徑計數(shù)。假設引用鏈接(D,G)、(G,I)的重要度為0.6,(D,F)的重要度為2,(C,I)的重要度為4,其余鏈接重要度為1,則調(diào)整后它們的鏈接遍歷重要性如圖1b所示。根據(jù)調(diào)整后的鏈接遍歷計數(shù)在引文網(wǎng)絡中搜索主要路徑。全局搜索算法強調(diào)總體重要性,選擇最大總體遍歷計數(shù)的路徑作為主路徑[48]。圖2展示了基于原始SPC值和利用引文重要度調(diào)節(jié)引文網(wǎng)絡SPC值后的引文網(wǎng)絡全局搜索算法的主要路徑。以圖2a為例,路徑A-D-G-I、A-D-G-J、B-D-G-I和B-D-G-J的SPC總值都為11,在所有潛在路徑中SPC總值最大。圖2a與圖2b主路徑的差異表明,考慮引文重要性會改變主路徑。因此,我們將所有信息轉(zhuǎn)化為引文網(wǎng)絡,構(gòu)造了一個加權(quán)有向網(wǎng)絡,其中文獻是節(jié)點,引用頻次和引用位置被轉(zhuǎn)化為以相應的“引文重要度”指標作為權(quán)重的鏈接。從這一引文網(wǎng)絡出發(fā),運用主路徑分析法探討了引文與施引文獻的重要性對構(gòu)造主路徑的影響。

圖2 不同SPC值調(diào)節(jié)后的主路徑
本文構(gòu)建了基于引文重要度指標的主路徑分析方法,探討了Altmetrics的知識流動路徑。隨著社交媒體的發(fā)展,傳統(tǒng)的學術(shù)評價方法不能全面有效反映出科學研究工作的影響力,因此2010年Alt‐metrics一經(jīng)提出便獲得了廣泛的關注[60]。Altmetrics通常被譯為“替代計量”或“補充計量”,它作為一種補充性指標用于計量網(wǎng)絡環(huán)境下的學術(shù)影響力[61],因其可評價多種類型學術(shù)資源、開放性強和及時的特點,許多學者討論了Altmetrics指標的優(yōu)勢、缺陷和應用價值,探究了其指標的內(nèi)涵及其與引文指標之間的相關性。在一定程度上,這些文獻圍繞Altmetrics形成了一個研究的主題領域,在這個研究領域中必然存在著相應的知識流動。因此本研究在Web of Science核心數(shù)據(jù)集中,以檢索詞=“Altmetric*”或“Alt-metric*”或“Alternative met‐ric*”在主題項中進行檢索,檢索時間為1985年1月1日至2020年11月9日,得出檢索結(jié)果512條,共計21109條引文。
先將根據(jù)科研論文的IMRaD寫作結(jié)構(gòu)將文獻劃分為Introduction、Method、Results、Discussion這4個部分。其中262篇文獻能根據(jù)論文章節(jié)的標題順利劃分為四段體,其他論文并不完全符合IMRaD寫作結(jié)構(gòu)。然后采用引用頻次分數(shù)計數(shù)法計算每條引用內(nèi)容處相關引文的引用權(quán)重,并記錄引文出現(xiàn)的位置。在如圖3所示的引文文檔關系中,文檔D1、D2與引文C5的引文關系可表示為:D1:C5(1,L1);D1:C5(1/2,L3);D2:C5(1,L0)。其中,“:”表示施引關系;括號內(nèi)的值分別是引用權(quán)重與引用位置;文檔D1是可劃分為IMRaD結(jié)構(gòu)的文檔,文檔D2為非IM‐RaD結(jié)構(gòu)文檔;L1=Introduction位置,L2=Method位置,L3=Results位置,L4=Discussion位置,L0為非IMRaD結(jié)構(gòu)文獻的引文位置標記。

圖3 文獻的引文分布
對512篇文獻的引文在全文中的引用強度進行計算后,發(fā)現(xiàn)引文在全文中的引用權(quán)重的值分布在[0.06,18.33]。“0.06”表示在21109條引文數(shù)據(jù)中,某些引文在全文中僅提及一次,且為非獨立引用(引用權(quán)重為1/16);“18.33”表示某條引文在全文中提及多次,經(jīng)檢查發(fā)現(xiàn)該條引文在全文中共計出現(xiàn)22次,其中16次為獨立引用,6次為非獨立引用。表1為引用權(quán)重值域區(qū)間的分布情況。引用權(quán)重≤0.5的引文有7546條,占總體引文的35.75%,說明有近35.75%的引文在全文中僅出現(xiàn)一次,且為非獨立引用,這部分引文在施引文獻全文中沒有獨立的知識價值貢獻;引用權(quán)重≤1的引文占總體的79.74%,即有近80%的引文在全文中僅獨立引用一次,或非獨立引用幾次;1<引用權(quán)重≤2的引文占總體的12.81%,引用權(quán)重>2的引文占總體的7.45%。表2為262篇符合IMRaD結(jié)構(gòu)文獻的引文分布情況,統(tǒng)計了其中文獻占比排名前六位期刊的引用位置平均分布情況,發(fā)現(xiàn)這些分布相對穩(wěn)定,大部分引用更多地集中在引言部分中,約83.27%,方法部分的引用相對少于結(jié)果和討論部分。整體引用在不同位置的數(shù)量分布為:Introduction部分>Dis‐cussion部分>Results部分>Method部分。雖然學者們認為出現(xiàn)在方法、結(jié)果和討論部分的引文對施引文獻的價值比僅出現(xiàn)在簡介部分的引文更高,但對各部分出現(xiàn)引文的重要程度并無統(tǒng)一論斷。張琳等[62]在使用IMRaD結(jié)構(gòu)測量文獻的學科交叉度時,采用熵值法計算出四個部分引文的權(quán)重。本研究對其參數(shù)進行歸一化處理后得到各個位置的權(quán)重分別為:L1=1,L2=1.5,L3=1.35,L4=1.1;對不能劃分位置的引文位置權(quán)重L0賦值為1。

表1 基于全文的引文權(quán)重分布

表2 基于全文的引用位置分布
本文在構(gòu)造主路徑時計算了4種“遍歷計數(shù)”方法,作為衡量引文網(wǎng)絡鏈接重要性指標:①傳統(tǒng)搜索路徑鏈接計數(shù)(SPC);②基于引用頻次加權(quán)的搜索路徑鏈接計數(shù);③基于引用位置加權(quán)的搜索路徑鏈接計數(shù);④基于引文重要度的搜索路徑鏈接計數(shù)。接著為了展示基于引文重要度的加權(quán)調(diào)節(jié)對知識流動主路徑產(chǎn)生的影響,分別采用全局(glob‐al)和關鍵主路徑(key-route)兩種路徑搜索算法來構(gòu)造主路徑。全局搜索算法構(gòu)造的主路徑使一個領域的主要發(fā)展路徑清晰可見,關鍵主路徑搜索算法有助于從不同的角度揭示許多重要的發(fā)展路徑[20]。根據(jù)已采集的數(shù)據(jù)集的特征,實驗分為兩個數(shù)據(jù)集進行。圖4是數(shù)據(jù)集1的512篇文獻構(gòu)造的主路徑,圖5是數(shù)據(jù)集2的262篇文獻構(gòu)造的主路徑。每張圖中所有的節(jié)點和鏈接為關鍵主路徑(keyroute)搜索算法構(gòu)造的主路徑,加粗鏈接是采用全局(global)搜索算法構(gòu)造的主路徑;箭頭指示知識流的方向。
主路徑分析作為一種定量分析方法,從給定的引文網(wǎng)絡中提取出重要路徑,并將其作為知識通過引文鏈接從被引文獻向施引文獻的傳播軌跡。從圖4a與圖5a可以看出,數(shù)據(jù)源的不同會直接影響主路徑分析結(jié)果。圖4的主路徑來自512篇文獻,21109條引文構(gòu)造的32162條鏈接所形成的引文網(wǎng)絡;圖5的主路徑來自262篇文獻,10797條引文構(gòu)造的17564條鏈接所形成的引文網(wǎng)絡。數(shù)據(jù)集的不同會導致主路徑不同,如果缺失的文獻具有一定的重要性或是潛在的主要路徑文獻,那么結(jié)果將受到很大影響。

圖4 數(shù)據(jù)集1不同SPC值調(diào)節(jié)后的主路徑
假設主路徑分析的目的是從能代表特定領域研究發(fā)展關鍵節(jié)點的目標文獻數(shù)據(jù)集中檢索相關文獻,那么可以使用3個指標來檢查主路徑分析的性能:精確度(Precision)、召回率(Recall)和F1值(F1-Score)。在本研究中,檢索到的相關文獻是指同時存在于主要路徑和目標文獻數(shù)據(jù)集中的文獻,因此精確度是檢索到的相關文獻數(shù)量除以主路徑上的文獻總數(shù),召回率是檢索到的相關文獻數(shù)除以目標文獻數(shù)據(jù)集中的文獻數(shù)。本研究篩選了一個包含98篇文獻的核心文獻數(shù)據(jù)集,其中512篇文獻集中包含98篇核心文獻,262篇文獻集中包含70篇核心文獻。在圖4和圖5中,空心圓節(jié)點代表該文獻不在核心文獻數(shù)據(jù)集中,不是重要的發(fā)展節(jié)點,實心圓節(jié)點代表該文獻在核心文獻數(shù)據(jù)集中。

圖5 數(shù)據(jù)集2不同SPC值調(diào)節(jié)后的主路徑
通過圖4a與圖4b,以及圖5a與圖5d的對比可以發(fā)現(xiàn),經(jīng)過引文重要性加權(quán)調(diào)節(jié)后構(gòu)造的主路徑與原始主路徑知識流動的路徑和節(jié)點基本一致。通常只在源點、匯點和關鍵的分叉路徑處有差別,而路徑的主干相對穩(wěn)定;而且樣本數(shù)據(jù)量越大,路徑越穩(wěn)定。我們進一步對各種引文重要度指標加權(quán)調(diào)節(jié)構(gòu)成的關鍵主路徑和全局主路進行分析,比較它們的精確度、召回率和F1值(表3),結(jié)果顯示,不同調(diào)整方法的主要路徑包含不同數(shù)量的核心文獻以及不同總量的節(jié)點文獻。通過分析表3可知,數(shù)據(jù)集1和數(shù)據(jù)集2的主路徑在經(jīng)過引用頻次加權(quán)調(diào)節(jié)后其精確度、召回率都有明顯提升,數(shù)據(jù)集1全局主路徑的精度由0.750提升至0.788,F(xiàn)1值由0.210增加至0.242;數(shù)據(jù)集2的關鍵主路徑精度由0.652提升至0.714,全局主路徑精度由0.769升至0.846。數(shù)據(jù)集2經(jīng)過引用位置加權(quán)調(diào)節(jié)后,雖然全局主路徑的精確度和召回率均不變,但在關鍵主路徑的精確度有所提升;而數(shù)據(jù)集2經(jīng)過綜合相關度加權(quán)調(diào)節(jié)后的關鍵主路徑和全局主路徑F1值均為本實驗的最佳值,分別為0.348和0.265。實驗結(jié)果表明,考慮引文重要性可以提升主路徑分析方法的性能。

表3 不同加權(quán)調(diào)節(jié)主路徑分析效果
傳統(tǒng)主路徑分析不考慮被引文獻對施引文獻的相對價值,將所有引文一視同仁,本文試圖通過計算引文重要度來解決這個問題。通過分析發(fā)現(xiàn),基于引文重要度的加權(quán)確實會對主路徑產(chǎn)生影響,但不會改變整個主要路徑。圖4b與圖4a相比,在節(jié)點(Copiello S(2020)SCIENTOMETRICS,V124)與節(jié)點(Repiso R(2019)SCIENTOMETRICS,V119)之間增加了兩個2020年的文獻節(jié)點;而對比于圖5a,圖5c在2020年至2016年之間雖然丟失了一個2017年的文獻節(jié)點,但增加了3個2018年的文獻節(jié)點,這表明考慮引文重要度會增加主路徑節(jié)點與節(jié)點之間在時間上的連續(xù)性。通過引文重要度的加權(quán)調(diào)節(jié)能提升主路徑分析方法找到關鍵節(jié)點的能力,增加主路徑節(jié)點鏈接間的相關性。在全局主路徑上,圖4b比圖4a多兩個核心文獻節(jié)點,圖5d比圖5a多一個核心文獻節(jié)點;在關鍵主路徑上,圖4b比圖4a多兩個核心文獻節(jié)點,圖5d比圖5a多兩個核心文獻節(jié)點。同時,通過引文重要度的加權(quán)調(diào)節(jié)也能增加主路徑分析的鏈接溯源能力,加權(quán)調(diào)節(jié)后圖4b的源點修正為(Priem J(2010)MONDAY,V15),正是在2010年,Priem J提出“Altmetrics”這一概念。
通過圖5b、圖5c與圖5d的兩兩對比可以發(fā)現(xiàn),引文重要度加權(quán)調(diào)節(jié)與引用頻次加權(quán)調(diào)節(jié)的全局主路徑結(jié)果完全一致,關鍵主路徑只多一個文獻節(jié)點,關鍵主路徑的F1值差值僅為0.19,區(qū)別不大。這表明在本研究中,基于引用頻次的加權(quán)調(diào)節(jié)在主路徑的構(gòu)成中起決定性作用,即基于全文引用頻次的加權(quán)方法比基于全文位置對加權(quán)方法更能區(qū)分引文對施引文獻的相對價值。
通過分析引用頻次與引文網(wǎng)絡中的鏈接關系發(fā)現(xiàn)(表4),在數(shù)據(jù)集1和數(shù)據(jù)集2中分別有4321和2276條引文對在數(shù)據(jù)集全文中的引用頻次≤0.33。刪除這些引文對后,數(shù)據(jù)集1和數(shù)據(jù)集2的引文網(wǎng)絡分別減少4181和1956條鏈接,即減少這20%的數(shù)據(jù)量,整體引文網(wǎng)絡的鏈接僅分別減少13%和11.14%。這表明絕大部分在全文中非獨立引用1次的文獻,不僅在施引文獻中的知識貢獻低,且在整體的引文網(wǎng)絡的鏈接中也不具有顯著性。從這個角度來看,引文對施引文獻的價值貢獻隨著其在全文中提及頻率的增加而變得更加清晰,大多數(shù)非獨立且僅使用一次的參考文獻屬于敷衍性的引用,刪除這些節(jié)點并不影響主路徑的構(gòu)造。

表4 引用頻次與引文鏈接關系
為了克服傳統(tǒng)主路徑分析不考慮引文對施引文獻相對價值的問題,本文構(gòu)建了參考文獻的“引文重要度”指標來衡量引文鏈接的重要性,對主路徑分析方法中的鏈接遍歷計數(shù)進行加權(quán)調(diào)節(jié),改善主路徑分析方法在引文網(wǎng)絡中進行知識流動路徑分析的應用效果。研究結(jié)果發(fā)現(xiàn),通過引文重要性的加權(quán)調(diào)節(jié)可以增加主路徑鏈接在時間上的連續(xù)性,提高主路徑分析方法的鏈接溯源能力,增加鏈接節(jié)點間的相關性,提升主路徑分析方法找到關鍵節(jié)點的能力。本文雖然通過引文重要度指標來表示被引文獻對施引文獻的重要程度,并進行了探索性研究,但實際學術(shù)文獻中的引用行為非常復雜,不同的引用動機和引用語境在知識的擴散、傳播、利用與創(chuàng)新中承擔著不同的作用,后續(xù)研究應更加準確地衡量不同引文語境和引文動機對引文重要性的影響,更加客觀體現(xiàn)引文網(wǎng)絡中知識流的傳播、利用與創(chuàng)新等關系。