





關鍵詞:被引廣度;被引深度;學術影響力
中圖分類號:G353.1 文獻標識碼:A DOI:10.3969/j.issn.1003-8256.2024.04.007
引證和被引證是科學活動中的普遍現象,在一定程度上反映出知識的轉移與擴散情況。Rogers[1]認為擴散就是新思想有意或無意傳播的過程,其包含深度、廣度和速度3個方面[2-4]。廣度指的是擴散的寬度或橫向距離,即衡量擴散的范圍大??;深度即向下或者向里的距離,即衡量擴散的有用性[5];速度則是事物運動的快慢,即衡量擴散的時間[6]。
在學術網絡中,文獻中所包含科學知識動態擴散的過程可稱之為引文擴散,即知識主體(如單篇論文、一個作者的論文集)的被引狀態[7],其最直接的擴散對象是它的施引文獻。什么樣的文獻引用了一篇目標文獻,目標文獻就獲得了一次相應的微觀評價[8]。引文擴散與知識擴散存在共通之處,二者均包含知識的擴散,但是知識擴散指的是廣義上不同領域內各種知識形態的創新、傳播的過程,引文擴散指的是狹義上新知識在科學共同體中傳播、擴散的過程。類比于知識擴散,引文的擴散程度表現在廣度、深度和速度3個方面。梁國強等[9]認為速度主要體現在論文發表后達到某一被引量所需的時間;深度則反映在論文發表后發生引文級聯的次數,即一篇論文發表后被后續論文引用,后續論文又會被再后續論文引用,如此往復,從而形成的一個有向無環逐層引用的引文網絡;廣度則體現在論文發表后影響到本領域外其他研究領域的程度;Wang等[10]認為一項研究被引用的次數并不能代表其被引廣度,只能表示其被認可和被引用的情況。因此采取被引頻次和主題相關性來衡量引文擴散的重要性和有用性;溫芳芳[11]認為“廣度”則是從覆蓋范圍的角度對擴散進行描述,即施引文獻覆蓋范圍越大,則知識擴散的廣度越大。目前在引文擴散概念中,對被引廣度(Cited Breadth,簡稱為“CB”)和被引深度(Cited Depth,簡稱為“CD”)的概念和計算方法尚未有明確定義。因此本文結合以上學者的觀點,認為CB是單篇文獻的傳播范圍,CD則是施引文獻對被引文獻知識吸收和利用的程度。
引文擴散是一個較新的概念,縱觀已有的引文擴散相關研究,該類研究多介紹引文擴散概念、基本要素、量化方式與增長機理,并以實證研究揭示引文擴散的特點及規律,較少涉及CB、CD間關系及與學術影響力之間的關系。目前,學術影響力在學術生態中扮演著至關重要的角色[12],其結果對學術資源分配、人才引進、科研獎勵等都具有重要的指導意義[13]。因此,嘗試對學術論文的CB和CD進行探索,并進一步研究CB、CD與作者引用影響力、合作影響力、社會影響力的關系,以驗證CB和CD是否能夠在一定程度上代表作者學術影響力。本文在豐富引文擴散相關研究具有一定的現實意義,以期為學術研究、創新傳播等實用場景提供一定的理論支持與實踐依據。
1 指標設計
1.1 CB指標設計
論文之間的引文關系,影響到論文的知識流動。當一個引用活動發生時,知識將從被引文獻傳播到施引文獻,而且鑒于引用信息范圍不同,在每一次引用活動過程,均可能在主題、國家、機構、期刊、語言、文獻等領域產生不同程度的知識擴散,因此,一篇論文的傳播范圍能夠體現其擴散特征。Wang 等[10]研究證明,在學科、期刊、國家、機構這四個維度上的知識擴散有助于提高論文的引文影響。因此本文用F ={學科、期刊、國家、機構}的特征空間描述論文的知識擴散特征。
1.2 CD指標設計
Cano[16]在研究中提出效用級別,這一概念是指從效應觀點出發所考察的被引深度。對于效用級別來說,它首先要求施引文獻的主題與被引文獻的主題相一致或切合[17]。由彭秋茹等[18]的研究可知,普遍存在一篇施引文獻多次引用同一篇實證論文的現象,而一篇論文被某篇論文的使用次數能夠在一定程度上評估被引文獻的影響力[19]。同時兩篇文獻的主題相似度越大,說明被引文獻對施引文獻的貢獻度越高,其價值越高[10]。由此可知,計算使用次數(論文在其他文獻中被引用的次數,以考察論文在句法層面的貢獻)和主題相似度(施引論文與被引論文之間的主題相似度,從語義層面評價被引論文的貢獻)都有助于衡量一篇論文對被引文獻的認可程度。文檔向量指標是在文檔級層面計算文獻間的相似度,因得到文獻間相似度SSij,具體計算過程見公式(2)。本文利用Doc2vec模型訓練生成語料的詞向量空間,將不同論文都映射到固定的維度上,這種方法的最終值在0和1之間,最終值越接近1,兩篇文獻的相似性越高。然后,將使用次數和主題相似度結合起來,以公式(3)評價單篇論文的CD。
2 數據來源與處理
為精選研究樣本,以Web of Science(WoS)核心數據庫為數據源。首先從Web of Science核心數據集中構造檢索式SU=(Information Science and Library Science),得到信息科學與圖書館學高發文作者名單,根據鏈接得到相應作者的被引次數,選擇高發文與高被引的作者共計10名,導出全記錄與引用的參考文獻作為樣本數據。其次,為對比分析不同學科在CB和CD方面的差異性,選擇跨學科作為對照,原因在于跨學科在問題涉及面和復雜度都超過了某個單一學科所能處理的范圍[20],更能凸顯CD和CB的特征;而且信息科學與圖書館學跨學科性較強[21],與跨學科學科具有一定可比性。因此,從科睿唯安中得到2020年跨學科領域的前1%高被引作者,通過報告可知,跨學科領域的高被引作者共計有2 492名作者。由于高被引作者報告中按姓名字母降序排列,而且缺少發文量,因此為保證公平性,本文劃分層次抽取10名高影響力作者,并導出全記錄與引用的參考文獻作為樣本數據。
在此基礎上利用R語言、Python自編程序提取作者的多項數據:
(1)從Web of Science核心數據集中得到20名作者的CB數據,包括被引學科、被引期刊、被引國家、被引機構頻次,以此獲取CB指數中各特征一維被引數據,計算公式(1)中的p ( X )部分。為方便計算,使用Huang等[22]的方法將每位作者的文獻按總被引次數大小分為高引、中引和低引三部分,以此計算公式(1)中總被引對應的部分,即p (Y )部分;在二者的基礎上,通過作者每篇文獻的四個特征被引數據,計算聯合分布概率p ( X,Y )。
(2)利用R語言控制臺運行plcstop函數獲取各文獻DOI編號,以便檢索到對應文獻并進行內容深度解析。
(3)根據預處理后的數據,提取存在引證關系的作者,基于Python 自編程序計算兩位作者文獻集的相似度。
(4)基于Python自編程序提取存在引證關系的文獻摘要以及計算被引論文在某篇論文中被使用的次數。
(5)通過公式(1)(3)計算信息科學與圖書館學作者的CB、CD(簡稱為CBinfor、CDinfor)和跨學科作者的CB、CD(簡稱為CBinter、CDinter)。在過濾掉CB和CD值等于0的作者(未被他人引用的作者)之后,得到20位作者文獻數據記錄包括CB值、CD值、H指數、發文數量、被引次數、Altmetrics 等數據。利用R 語言和Excel 軟件計算、匯總20位作者的各種參數值,見表1~2。
3 結果分析
3.1 CB與CD關系分析
3.1.1 對比分析20名作者CB與CD的特點
為對比分析20名作者CB與CD的特點,繪制其數據變化情況。由于CD和CB的數值相差太大,難以統一度量,因此將二者歸一化,并以發文量降序排列,詳見圖1~4。
由圖1、圖2看出,跨學科作者、信息科學與圖書館學作者的CB 和CD 趨勢大體一致,其中跨學科作者CBinter 和CDinter 的契合度高于信息科學與圖書館學作者的CBinfor 和CDinfor;由圖3、圖4看出,CBinfor 值高于CBinter值,CDinter 值高于CDinfor 值。由表1和表2可以看出,跨學科作者中,Miller" Christopher A 的CDinter 數值最高,Warren Wesley C的CBinter 數值最高;信息科學與圖書館學作者中Egghe L 的CBinfor 數值最高,Thelwall M 的CDinfor 數值最高。
結合表1、表2可探究其中的原因,首先跨學科作者的被引次數和篇均被引次數遠高于信息科學與圖書館學作者的被引次數和篇均被引次數,CD的計算原理是通過文獻摘要間的詞向量計算施引文獻與引用文獻的相似度,單篇文獻的施引文獻越多其CD值越高。例如Miller Christopher A是跨學科作者,其發文112篇,被引次數達到13569次,篇均被引次數為212.73,居于跨學科作者首位,CDinter 值為8 284.963;Thelwall M是信息科學與圖書館學作者,其發文249篇,被引次數為5239,篇均被次數為33.93,居于信息科學與圖書館學作者首位,CDinfor 值為2 409.428。由此可見,無論是跨學科作者還是單一領域的作者,CD與被引次數具有較高的相關性。
其次結合具體數據發現,信息科學與圖書館學作者和跨學科作者在四個維度上的數值大致相同,均是被引機構的頻次最高,被引期刊、被引學科、被引國家的頻次依次遞減。從整體上看CBinter 值在四個維度上的數值均高于CBinfor 值。CB是計算被引學科、被引期刊、被引國家、被引機構與被引次數的關系的,四個維度上的數據越多,總被引次數越多,二者的關系越緊密,其數值也就越高。例如Egghe L是信息科學與圖書館學作者,其發文128 篇,總計被引1 666 次,CBinfor 值為0.047 9;Warren Wesley C 是跨學科作者,發文187篇,總計被引15563次,CBinter 值為0.0186。具體看兩位作者單篇文獻在四個維度上的數據,發現二者均是樣本數據中數值最高的。由此可見,即使作者的被引次數并不是最高的,但是該作者單篇文獻在四個維度上出現的次數越多,其CB值也就越高。因此,相較于被引次數,CB更能多元化表示作者的影響力。
3.1.2 CB與CD的相關性分析
相關性分析要求數據滿足正態性,鑒于Kolmogorov ? Smirnov 檢驗可以快速對單樣本的擬合優度進行檢驗,推斷樣本是否來自正態分布總體、均勻分布總體或Poisson分布總體等,一般ngt;5000時才使用它,本文數據量共計116721條,因此選擇KS檢驗。根據檢驗結果顯示,信息科學與圖書館學、跨學科作者的CB、CD均呈正態分布(Plt;0.001),因此,對二者進行Pearson等級相關檢驗。據結果可知,CBinfor 和CDinfor 的相關性最低,僅為0.049,CBinter 和CDinter 相關性較高,為0.406;CBinfor和CBinter 的相關性較高,為0.438,CDinfor 和CDinter 相關性較低,僅為0.261。但是總體上來說,信息科學與圖書館學、跨學科作者的CB和CD間相關性都比較低,僅有看似不相關的CBinfor 和CDinter 相關性較高,達到0.620。結合3.1.1結果可以發現,無論是單一學科還是跨學科作者,其CD與CB均具有相關性,且四類數據兩兩之間均具有相關性。
為進一步探究CB與CD之間的關系,需要分析20名作者CB、CD 與其他數據之間的相關性。經Kolmogorov ? Smirnov檢驗,發文量、被引次數、篇均被引次數均呈偏態分布,因此,各指標之間的相關關系采用Spearman相關檢驗。
由結果可知,CBinfor 與發文量、被引次數、篇均被引次數、高中低被引文獻數量相關性較低,甚至是負相關,而CDinfor 與上述六個數據均呈正相關;CBinter 與發文量、被引次數、篇均被引次數、高中低被引文獻數量的相關性有高有低,與中被引文獻數量呈負相關。CDinter 與上述六個數據相關性也是高低不定,與被引次數和高被引文獻數量的相關性最高,與中被引文獻數量、篇均被引次數呈負相關,與發文量和低被引文獻數量的相關性較低?;仡櫼延醒芯?,被引次數自1927年開始被當作評估科研工作重要性的依據[23],能夠在一定程度上代表作者的發文質量,發文量則在一定程度上代表作者的學術能力。由研究結果可知,CD與被引次數、發文量呈正相關,更能代表作者的發文質量和發文水平,而CB與被引次數和發文量的相關性較低,因此既不能代表發文數量也不能代表發文質量。根據已有研究結果可知,高中低被引文獻數量代表作者的引文分布,結合本研究可知,CD更能表示作者的引文分布情況。
3.2 CB、CD 與作者學術影響力關系分析
科研人員的學術影響力是在科學交流過程中產生的,作者之間的引用關系體現作者間的“正式交流過程”,衡量作者的引用影響力;合作關系反映作者間的“非正式交流過程”,衡量作者的合作影響力[24]。在傳統交流之外,互聯網帶來了“全民參與”的研究成果傳播和交流方式,衡量作者的社會影響力。這三者之間互為補充,能夠更加完整、客觀地反映作者的學術影響力。
3.2.1 CB、CD與引用影響力、社會影響力的關系
由上述分析可知,無論是單一學科還是跨學科,CB與CD相關性均較低,相較于CB,CD與學術影響力的關系更大,因此進一步分析CD與學術影響力的關系。開放環境下,作者學術影響力表現維度多元化,其中學術和社會兩個維度是作者影響力評價的重要部分[25],學術維度測度作者學術貢獻以及同行對其研究成果的認同度,直接反映作者學術水平的高低;社會維度測度作者的研究成果引起的社會關注度與知名度,以及大眾在研究過程中的參與情況[26]。本文選擇傳統指標H 指數、替代計量指標Altmetrics與CD比較,觀察CD與學術影響力雙維度的關系。其中,H 指數、Altmetrics 指標數值從Altmetrics.com網站中獲取。
由結果可知,CDinfor 與H 指數的相關性最高,高達0.921,與Altmetrics 相關性達到0.855。CDinter 與H 指數、Altmetrics 的相關性分別達到0.396和0.503。H 指數是目前應用最為廣泛的作者影響力評價指標,但是由于其存在數值只增不減、未考慮低被引論文、未考慮作者社會影響力等缺陷,為人詬病。相較而言,替代計量學指標能更全面地表現作者的社會影響力和學術影響力[27]。結合具體作者如跨學科Gunasekaran Angappa、信息科學與圖書館學Bornmann L 等信息來看,Gunasekaran Angappa的發表文獻和被引文獻多以兩個以上學科門類的理論資源為依托展開同一主題研究或學科之間在方法論層次上相互的融合與滲透[28],研究方向涉及運籌學、管理科學、工程工業、工程制造、計算機科學、跨學科應用等,而Bornmann L的發表文獻和被引文獻多為單一主題、學科、方法,在發文量低的情況下,Gunasekaran Angappa 的Altmetrics 分值遠高于Bornmann L。而且經過檢驗,CDinfor 與學科、期刊、國家、機構四個維度上的被引次數均呈正相關,相關系數分別為0.721,0.624,0.503,0.600。綜上,可見CD 與代表作者學術、社會雙維度影響力的指標均有關系,且更能展現作者研究工作和其他不同類別研究成果在不同維度的影響力[29],兼顧揭示學術寫作中所引起的公眾參與情況。
3.2.2 CB、CD與合作影響力的關系
為進一步探究CB、CD與合作影響力的關系,從學科內、學科外合作兩個視角,計算信息科學與圖書館學、跨學科的科研合作與CB、CD的關系。因此,分別計算兩種學科的CB、CD與專業度[30]、集中度[31]、離散度[32]等指標的相關性,以發現CB、CD的意義,結果如表3~4所示。
由結果可知,CD則與專業度、集中度、離散度、具有較高的相關性,其中,CDinfor 與專業度、集中度呈正相關,與離散度呈負相關性。專業度代表作者跨學科研究程度,數值越大,表明研究的學科領域越集中,科研合作越低,專業度越高;當作者發文僅有一個學科類別時,作者學科集中程度最大,當發文分布在n 個學科類別時,作者發文離散程度大。可見CD越高,學科的集中度、專業度越高,離散度越低,作者間跨學科科研合作越松散,這與CD計算文獻間相似度有關,文獻間的相似度越高,其二者之間的學科集中度、專業度也就越高,離散度也就越低。在跨學科領域中,CBinter 與專業度、集中度、離散度的相關性較低,其中與專業度、集中度均呈負相關。CDinter 則與專業度、集中度的相關系數均高,其中與專業度呈負相關,與集中度呈正相關。換言之,學科的跨學科數量越多,專業度、集中度越低,離散度越高,跨學科間科研合作越高??鐚W科作者多涉及兩個或兩個以上領域,并沒有局限于專一領域,而且在涉及的領域內深耕,因此其專業度低,但是信息科學與圖書館學作者的研究方向集中于幾個領域內,其集中度、專業度相應增加。
杜建等[24]認為,合著論文的署名次序是衡量作者合作影響力的重要維度之一;喬家昌[33]和趙蓉英等[34]的研究也發現,作者合作數和知名度會影響論文的被引頻次,并且這種關系與發表年限相關。因此,獲取作者署名次序(第一作者、第二作者、第二作者以上)的頻次,探究CB、CD與作者合作影響力之間的關系。通過相關性分析可知CB、CD與作者署名次序均有相關性,其中CDinfor 與作者位次相關系數最高,與第一作者數量、第二作者數量、第二作者以上的數量相關系數分別為0.36、0.455、0.127??梢?,CB、CD 能夠反映出作者在學術團體中的非正式影響力,尤其在一定程度上代表學科間合作影響力,但是與署名次序相關性并不高,僅能夠反映出區別于引用影響力的另外一種角度的影響力。
4 總結
依據WANG等[10]提出的CB和CD計算公式來分析CB、CD的關系以及二者與作者引用影響力、合作影響力、社會影響力的關系。為進一步研究學科差異性對CB、CD的影響,選擇信息科學與圖書館學作者和跨學科作者進行對比研究。結果表明:(1)跨學科作者、信息科學與圖書館學作者的CB和CD趨勢大體一致,其中CBinter 和CDinter 的契合度高于CBinfor和CDinfor。結合具體數據發現,無論是跨學科作者還是單一領域的作者,其CD與被引次數具有較高的相關性,更能表示作者的引文分布,而且相較于被引次數,CB能多元化表示作者的影響力;(2)CD與作者的學術影響力、社會影響力呈正相關,CB則與作者學術影響力的相關性較低,CD更能展現作者研究工作和其他不同類別研究成果在不同維度的影響力,兼顧揭示學術寫作中所引起的公眾參與情況;(3)CD與專業度、集中度、離散度具有較高的相關性,尤其是CDinfor與作者署名次序的相關系數最高,能夠在一定程度上展現作者間跨學科科研合作影響力。綜合來看,CB、CD四類數據兩兩之間均具有相關性,且與學術影響力具有一定關系,其不僅能體現作者間引用影響力,甚至一定程度上表征作者間的合作影響力,兼顧研究領域之外的社會影響力,能更全面完整體現作者的學術影響力,但是并不能代表作者學術影響力,只能作為參考性的依據。
引文是正式交流和科學知識擴散的重要形式之一[35],分析引文擴散的深度與廣度有助于認識研究工作的內在價值與長遠影響。本文僅從學術背景和學術影響力兩個角度檢驗CB和CD的特征,檢驗的角度有限;影響CB的因素還有時間、網絡等指標,CD不僅與文獻間相似度相關,還與引用位置、引用情感、引用次數等相關,本文尚未考慮;在引文擴散中還有其他基本要素如被引速度、被引強度等,本文囿于篇幅限制未做一一詳述。后續研究中,應當著重關注CB、CD與作者特征的其他關聯,進一步探究引文擴散的其他要素特征。