Altmetric TOP100榜單對論文被引量的影響研究
——基于傾向得分匹配

2023-02-24 11:28:30許林玉

現(xiàn)代情報 2023年1期

關(guān)鍵詞：研究

許林玉

(徐州醫(yī)科大學(xué)管理學(xué)院，江蘇徐州 221004)

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，網(wǎng)絡(luò)學(xué)術(shù)社交平臺得到了廣泛的發(fā)展和應(yīng)用，形成了開放自由的學(xué)術(shù)交流體系。在此背景下，學(xué)術(shù)成果交流、傳播與利用的時空發(fā)生了變化，需要反應(yīng)更為及時的評價指標(biāo)來豐富傳統(tǒng)引文評價指標(biāo)。Priem J等[1]認(rèn)為網(wǎng)絡(luò)環(huán)境的學(xué)術(shù)行為也可以測度，并首次提出Altmetric指標(biāo)來表征基于社交網(wǎng)絡(luò)的影響力。研究者們普遍認(rèn)為，Altmetric指標(biāo)以反應(yīng)及時、數(shù)據(jù)更新快、傳播范圍廣、公共深度參與等特點(diǎn)豐富了傳統(tǒng)評價指標(biāo)，延展了學(xué)術(shù)影響力，在一定程度上完善了學(xué)術(shù)評價體系[2-3]。

自2018年以來，中共中央辦公廳、國務(wù)院辦公廳等機(jī)構(gòu)先后印發(fā)了關(guān)于深化項目評審、人才評價、機(jī)構(gòu)評估等措施及指導(dǎo)意見，其中反復(fù)提到科研領(lǐng)域要關(guān)注“標(biāo)志性、代表性成果”。在這樣的背景下，探索學(xué)科領(lǐng)域高社會影響和高學(xué)術(shù)影響力論文成為國內(nèi)學(xué)術(shù)界持續(xù)關(guān)注的熱點(diǎn)問題。Altmetric TOP100論文榜單和高被引論文等標(biāo)簽作為領(lǐng)域內(nèi)高關(guān)注度論文，有效解決了研究者搜尋領(lǐng)域內(nèi)的高活躍度、高影響力論文過程中的信息不對稱和信息不完全等問題。

現(xiàn)有研究主要側(cè)重于探索Altmetric各指標(biāo)與被引量的關(guān)系，且不同的研究結(jié)果存在差異。但Altmetric TOP100榜單是否對論文被引量有影響，這個問題較少被提及，雖然Altmetric值及學(xué)術(shù)論文被引量這兩個指標(biāo)是不同受眾群體對學(xué)術(shù)論文的關(guān)注、認(rèn)可所引發(fā)的結(jié)果，但是二者之間存在因果關(guān)系，正如電影豆瓣評分會影響電影的播放量、下載量等，學(xué)術(shù)論文的Altmetric值亦會影響學(xué)術(shù)論文的被引量，特別是學(xué)術(shù)論文在社交媒體平臺形成口碑效應(yīng)后對被引量具有較大的影響，而進(jìn)入Altmetric TOP100論文榜單在一定程度上體現(xiàn)了學(xué)術(shù)論文在社交媒體平臺的高口碑效應(yīng)。故而本文在前人研究基礎(chǔ)上通過傾向得分匹配的因果分析方法探究Altmetric TOP100論文榜單與論文被引量之間的因果關(guān)系，進(jìn)一步細(xì)化學(xué)術(shù)論文的社會影響力與學(xué)術(shù)影響力關(guān)系研究，拓寬Altmetric的理論和實(shí)證研究；進(jìn)一步推進(jìn)因果分析法在圖情領(lǐng)域的應(yīng)用。

1 研究綜述

1.1 Altmetric TOP100榜單相關(guān)研究

高Altmetric主要通過Altmetric TOP100榜單來表征。Altmetric TOP100是Altmetric.com官網(wǎng)根據(jù)Altmetric指標(biāo)數(shù)據(jù)，評選出的每年最受公眾關(guān)注的前100項研究成果[4]。現(xiàn)有研究者對于高Altmetric的研究主要圍繞Altmetric TOP100榜單論文的特征及論文Altmetric分?jǐn)?shù)與其被引量關(guān)系等。

1.1.1 Altmetric TOP100榜單論文的特征分析

李根等較早對Altmetric TOP100的來源期刊、學(xué)科領(lǐng)域、作者地域分布和論文傳播途徑等方面展開分析[5]；邱均平等學(xué)者將時間跨度擴(kuò)大到2016—2018年，并對Altmetric TOP100論文的來源機(jī)構(gòu)、來源期刊、所屬學(xué)科及傳播途徑進(jìn)行更細(xì)致的探究[6]；趙蓉英等團(tuán)隊在上述研究的基礎(chǔ)上探究Altmetric TOP100榜單論文的合作模式[7]及Altmetric TOP100論文的來源期刊、學(xué)科分布等特征的動態(tài)演化[8]；歐桂燕等研究2013—2018年Altmetric TOP100論文的特征演化趨勢[9]等。

1.1.2 論文Altmetric分?jǐn)?shù)與其被引量關(guān)系研究

現(xiàn)有研究對學(xué)術(shù)論文的Altmetric分?jǐn)?shù)與其被引量相關(guān)性的結(jié)果莫衷一是，主要有弱相關(guān)及不相關(guān)兩種結(jié)論。

有研究者指出Altmetric分?jǐn)?shù)與被引量存在弱相關(guān)性，如Popla?en L等利用2014年Altmetric TOP100論文，證實(shí)了被引量與Altmetric分?jǐn)?shù)的弱相關(guān)關(guān)系[10]；Tornberg H N等從COVID-19領(lǐng)域Altmetric分?jǐn)?shù)前100篇論文得出Altmetric分?jǐn)?shù)與被引量弱相關(guān)關(guān)系[11]。

而Kim J E等以中樞神經(jīng)系統(tǒng)炎性脫髓鞘病(CIDD)的Altmetric TOP100的論文為研究數(shù)據(jù)，沒有發(fā)現(xiàn)Altmetric分?jǐn)?shù)與被引量的顯著相關(guān)性[12]；譚貝加以2014—2017年Altmetric TOP100論文為研究對象，認(rèn)為Altmetric得分與被引量不相關(guān)[13]。

有學(xué)者對上述結(jié)論展開了進(jìn)一步的思考，提出高Altmetric分?jǐn)?shù)與論文被引量的相關(guān)性與累計時間效應(yīng)有關(guān)，如王睿等“采用公平性測試方法”消除時間窗口影響后得出高Altmetric分?jǐn)?shù)與被引量的關(guān)系較強(qiáng)[14]等；亦有學(xué)者認(rèn)為，高Altmetric分?jǐn)?shù)與論文被引量的相關(guān)性可能與研究領(lǐng)域相關(guān)，如郭飛等運(yùn)用Altmetric TOP100數(shù)據(jù)得出學(xué)科差異性顯著影響Altmetric分?jǐn)?shù)與被引量的相關(guān)性[15]。

1.2 傾向得分匹配方法在圖情領(lǐng)域的應(yīng)用

目前，國內(nèi)外有少量學(xué)者運(yùn)用PSM方法解決圖情領(lǐng)域問題。國外學(xué)者如Mirnezami S R等采用傾向得分匹配法探討是否具有“研究主席”職位的科學(xué)家論文產(chǎn)出量的差異性[16]；Mutz R等運(yùn)用PSM方法論證具有“VIP論文”稱號對論文被引量的影響[17]；Shimada Y A等使用PSM-DID探討科研項目類型對項目參與者論文的數(shù)量及內(nèi)容的影響[18]；Liu M J等通過PSM發(fā)現(xiàn)多語種期刊和線上期刊的存續(xù)時間更長[19]等。

國內(nèi)情報學(xué)主流期刊也逐漸出現(xiàn)了基于傾向得分匹配法的因果關(guān)系研究，如趙宇翔等探索“優(yōu)秀回答者稱號”及“進(jìn)行個人認(rèn)證”等用戶標(biāo)識對回答者在問答平臺轉(zhuǎn)移行為的影響[20]；宋士杰等探討了互聯(lián)網(wǎng)環(huán)境對公民健康素養(yǎng)的影響[21]以及使用互聯(lián)網(wǎng)對老年人孤獨(dú)感的影響[22]；陳玲等運(yùn)用PSM-DID方法探究政務(wù)大數(shù)據(jù)政策與技術(shù)創(chuàng)新之間的因果關(guān)系[23]；李廣威等運(yùn)用PSM探究解密和脫密的政策實(shí)施效果[24]；張克群等運(yùn)用PSM對專利價值的影響因素進(jìn)行分析[25]等。

1.3 研究述評

已有Altmetric TOP100榜單的研究多集中于Altmetric TOP100論文特征演化研究及Altmetric分?jǐn)?shù)與被引量的相關(guān)性等視角的研究，且相關(guān)性結(jié)果有弱相關(guān)及不相關(guān)等相悖的結(jié)論。

目前，對于Altmetric分?jǐn)?shù)與論文被引量的研究多用傳統(tǒng)的回歸方法進(jìn)行驗證，如多元線性回歸及負(fù)二項回歸等，主要研究二者的相關(guān)性關(guān)系。受論文內(nèi)生性、選擇性偏差等問題的影響，直接進(jìn)行相關(guān)及回歸分析難以剝離其他因素對被引量的影響，無法獲得Altmetric TOP100論文榜單對論文被引量影響的“凈”效應(yīng)。本文采用基于匹配思想的傾向得分匹配法，通過控制其他協(xié)變量，比較“同質(zhì)”論文在Altmetric TOP100榜單及非Altmetric TOP100榜單狀況下被引量的差異，并將學(xué)術(shù)論文細(xì)分為高被引論文和普通論文組，深入考察Altmetric TOP100論文榜單對高被引論文和普通論文的影響的差異性，結(jié)果的解釋性及穩(wěn)健性更強(qiáng)。

2 研究數(shù)據(jù)、方法及研究設(shè)計

2.1 數(shù)據(jù)的采集及預(yù)處理

2.1.1 數(shù)據(jù)采集

本文的數(shù)據(jù)集主要包括3部分：Altmetric TOP100論文數(shù)據(jù)、WOS核心合集內(nèi)所有高被引論文的題錄數(shù)據(jù)以及部分普通論文的題錄數(shù)據(jù)。本文選取該數(shù)據(jù)集的理由主要有兩點(diǎn)：①WOS數(shù)據(jù)庫是世界范圍內(nèi)較為核心且權(quán)威的數(shù)據(jù)庫，其認(rèn)定的高被引論文在一定程度上具有權(quán)威性；Altmetric網(wǎng)站日益受到大家的關(guān)注與認(rèn)可，是目前成熟的Altmetric分析工具[4]，其認(rèn)證的Altmetric TOP100受到研究者的廣泛認(rèn)可；②本文的年份選取為2013—2015年，在確保論文超過5年的累積被引量的基礎(chǔ)上，保證足夠的樣本量。

1)2013—2015年Altmetric TOP100論文數(shù)據(jù)：本文通過Altmetric.com官網(wǎng)下載該數(shù)據(jù)集，主要題錄信息包括Altmetric分?jǐn)?shù)、論文標(biāo)題、發(fā)表期刊、發(fā)表日期、作者、摘要及DOI等。數(shù)據(jù)集下載時間為2020年11月，共得300條論文數(shù)據(jù)。

2)2013—2015年WOS核心合集內(nèi)所有高被引論文的題錄數(shù)據(jù)：本文參照科睿唯安官網(wǎng)，將高被引論文定義為“在10年內(nèi)發(fā)表且其引用頻次處于該研究領(lǐng)域同一出版年前1%的研究成果”[26]。下載流程如下：首先選擇WOS核心合集數(shù)據(jù)庫，在高級檢索框中輸入“PY=2013”(出版年為2013年)的檢索條件進(jìn)行搜索，選中“領(lǐng)域中的高被引論文”，并以純文本格式導(dǎo)出文獻(xiàn)題錄的全記錄；題錄主要包括作者、標(biāo)題、期刊名稱、關(guān)鍵詞、摘要、資助機(jī)構(gòu)及DOI等字段。檢索時間為2020年11月27日，一共得到14 413篇高被引論文的數(shù)據(jù)。2014—2015年數(shù)據(jù)亦如此下載，最后共得2013—2015年高被引論文44 620篇。

3)2013—2015年WOS核心合集內(nèi)部分普通論文的題錄數(shù)據(jù)，下載流程如下：首先選擇WOS核心合集數(shù)據(jù)庫，檢索出2013年去除掉高被引論文的其他論文，并以純文本格式導(dǎo)出前20 000篇論文題錄的全記錄，題錄信息與上文高被引論文相同，共下載2013—2015年60 000條數(shù)據(jù)。本文的普通論文定義為不包括高被引論文和零被引論文的其他論文，故而本文將60 000條論文數(shù)據(jù)去除零被引論文數(shù)據(jù)，剩余的數(shù)據(jù)為不包含高被引論文和零被引論文的普通論文數(shù)據(jù)集。

2.1.2 數(shù)據(jù)預(yù)處理

1)數(shù)據(jù)刪除

本文將高被引論文及普通論文數(shù)據(jù)集都剔除少量缺失“標(biāo)題”“作者”“摘要”“關(guān)鍵詞”或“期刊”等關(guān)鍵信息的不完整數(shù)據(jù)，最終高被引論文數(shù)據(jù)集獲得42 776條研究數(shù)據(jù)，普通論文數(shù)據(jù)集30 164條。

2)數(shù)據(jù)匹配

本文主要從兩個數(shù)據(jù)平臺下載數(shù)據(jù)集，需要對2013—2015年Altmetric TOP100及WOS論文這兩個數(shù)據(jù)集進(jìn)行識別匹配。DOI作為論文的標(biāo)識，具有唯一性，故而本文根據(jù)“DOI”字段進(jìn)行匹配。2013—2015年Altmetric TOP100共300條數(shù)據(jù)，有17篇無DOI標(biāo)識，另有10篇預(yù)發(fā)布在arXiv等平臺上未能在WOS平臺檢索，最后共有273篇論文通過匹配，其中高被引論文組有139篇論文通過匹配，故將這139篇論文作為高被引論文組的實(shí)驗組，其余高被引論文作為待匹配的控制組；而在普通論文組，有134篇論文通過匹配，故將這134篇論文作為普通論文組的實(shí)驗組，其他普通論文作為待匹配的控制組。

2.2 研究方法

傾向值(Propensity Score)最早由Rosenbaum P R等學(xué)者于1983年提出[27]，是指被研究的個體在控制混淆變量的情況下受到某種自變量影響的條件概率。傾向得分匹配是指(Propensity Score Matching，PSM)使用傾向值作為距離函數(shù)進(jìn)行匹配的方法，目的是通過建立“控制組”及“實(shí)驗組”構(gòu)造一個近似隨機(jī)化實(shí)驗的場景。

本文運(yùn)用該方法的基本思路是：比較同一篇論文在“AT100榜單”與“非AT100榜單”兩種情形下論文被引量的差異。若同一篇論文在“AT100榜單”與“非AT100榜單”下論文被引量存在差異，則認(rèn)為AT100榜單導(dǎo)致了論文被引量的差異。本文以i代表論文，y代表年份，AT代表論文是否屬于AT100榜單，若屬于AT100榜單為1，否則為0。TC為論文被引量，TC1和TC0分別表示論文是否進(jìn)入AT100榜單狀況下論文的被引量，則AT100對論文被引量影響的“凈”效應(yīng)為：

“匹配”就是在非AT100榜單組將與AT100榜單組“相仿”的論文找出來，具體操作是令A(yù)T100榜單組和非AT100榜單組論文所有協(xié)變量相同或相似。但協(xié)變量指標(biāo)較多，其指標(biāo)權(quán)重難以衡量，故而本文通過傾向得分匹配方法將眾多協(xié)變量合成一個得分，對AT100榜單組和非AT100榜單組相近得分的論文進(jìn)行匹配。由于本文的處理變量是二分類變量，因而可以采用形式更靈活的Logit模型[30]。

傾向得分匹配的匹配方法主要為K近鄰匹配、半徑匹配、核匹配以及局部線性回歸匹配等。其中K近鄰匹配指尋找傾向得分最近的K個不同組個體；半徑匹配是將傾向得分的絕對距離限制在某個范圍內(nèi)，上述兩種方法都是匹配最近的個體，本質(zhì)上屬于近鄰匹配；而核匹配及局部線性回歸匹配是基于不同權(quán)重計算方法的整體匹配法，核匹配使用核函數(shù)計算權(quán)重；使用局部線性回歸來估計權(quán)重則稱為局部線性回歸匹配。本文使用Stata15實(shí)現(xiàn)傾向得分匹配法。

2.3 變量設(shè)計

2.3.1 結(jié)果變量

本文考察的是Altmetric TOP100榜單對論文被引量的影響，并將論文細(xì)分為高被引論文和普通論文兩個組。故而本文的結(jié)果變量為高被引論文被引量和普通論文被引量，其中被引量用總被引量表征。

2.3.2 處理變量

本文將Altmetric TOP100榜單作為處理變量，若該篇論文屬于Altmetric TOP100榜單，賦值為1，若不屬于Altmetric TOP100榜單，則賦值為0。

2.3.3 協(xié)變量

1)協(xié)變量的選取及定義

協(xié)變量又稱控制變量，本文基于論文內(nèi)外部特征選取協(xié)變量，主要包括標(biāo)題長度、作者合作規(guī)模、國家合作規(guī)模、關(guān)鍵詞數(shù)量、摘要長度、基金資助、學(xué)科數(shù)量、參考文獻(xiàn)數(shù)量、文章篇幅、文獻(xiàn)類型、研究領(lǐng)域、期刊所屬分區(qū)、開放獲取及出版年份等。本文根據(jù)協(xié)變量的數(shù)據(jù)結(jié)構(gòu)又將其分為離散變量和分類變量，其中離散變量主要為標(biāo)題長度、作者合作規(guī)模、國家合作規(guī)模、關(guān)鍵詞數(shù)量、摘要長度、學(xué)科數(shù)量、參考文獻(xiàn)數(shù)量、文章篇幅等，分類變量主要為基金資助、開放獲取、文獻(xiàn)類型、研究領(lǐng)域、期刊所屬分區(qū)以及出版年份等。各變量的選取及定義如表1所示。

表1 變量選取及定義

2)協(xié)變量的處理

①協(xié)變量的清洗處理

直接獲得的研究數(shù)據(jù)使用之前需要進(jìn)行一定的清洗處理。如國家合作規(guī)模，本文基于“Addresses”字段獲取地址中國家信息，清洗、去重后最終獲得國家數(shù)量，作為國家合作規(guī)模指標(biāo)值；WOS數(shù)據(jù)庫期刊分區(qū)的更新會滯后1年，本文在填充期刊分區(qū)字段時，根據(jù)期刊名稱匹配論文出版年前一年所對應(yīng)的WOS平臺公布的期刊分區(qū)列表，并填充到相應(yīng)字段，沒有被匹配到的期刊說明當(dāng)年沒有被JCR收錄，故而沒有匹配到的期刊為其他。對于研究領(lǐng)域字段，本文將所有研究領(lǐng)域分別填充到WOS平臺公布的五大研究領(lǐng)域中，分別為藝術(shù)與人文、生命科學(xué)與生物醫(yī)學(xué)、自然科學(xué)、社會科學(xué)以及應(yīng)用科學(xué)，其中標(biāo)注多個學(xué)科的為跨學(xué)科研究。其他變量的處理在表1中有明確的定義說明。

②分類變量的處理

對于分類變量，本文引入虛擬變量，即取值設(shè)為0或者1，當(dāng)有多分類變量時，如研究領(lǐng)域、期刊分區(qū)及出版年份等，設(shè)置多個虛擬變量，而不能只設(shè)置1、2、3等數(shù)值來區(qū)分，因為分類變量之間的區(qū)分度比較大，引入虛擬變量表明處于不同的分類水平使用不同的截距項，如果只設(shè)置數(shù)值標(biāo)注在回歸過程中無法起到區(qū)分效果。

3 數(shù)據(jù)分析及實(shí)證結(jié)果

3.1 描述性統(tǒng)計分析

3.1.1 高被引論文與普通論文的描述性統(tǒng)計

表2顯示了高被引論文與普通論文各變量的描述性統(tǒng)計分析結(jié)果。由表2可得，高被引論文與普通論文部分變量的差異性較大：高被引論文與普通論文被引量的平均值相差16倍多；基金資助高被引論文占比較多，為81.32%，而普通論文只占比51.58%；高被引論文開放獲取的比例比普通論文高近16%；普通論文的文獻(xiàn)類型主要為研究型論文(Paper)，占比高達(dá)95.16%；而高被引論文中綜述也占有一定的比重；在研究領(lǐng)域方面，除了跨學(xué)科領(lǐng)域外，高被引論文與普通論文占比最高的都是生命科學(xué)與生物醫(yī)學(xué)，最低的是藝術(shù)與人文，且藝術(shù)與人文領(lǐng)域論文只有4篇論文入選高被引論文，在普通論文組也只占0.32%，樣本量較少，無法得出可靠的研究結(jié)論，故而在下文的分析中將藝術(shù)與人文領(lǐng)域的數(shù)據(jù)去除；在期刊分區(qū)方面，大部分高被引論文都發(fā)表于一區(qū)期刊中，占比80.23%，可見高被引論文多發(fā)表于優(yōu)質(zhì)的期刊，而普通論文的期刊分布在4個區(qū)較為均衡。

表2 高被引論文與普通論文的描述性統(tǒng)計

表2(續(xù))

3.1.2 高被引論文AT100榜單與非AT100榜單的描述性統(tǒng)計

表3展示了高被引論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計結(jié)果。由表3可得，高被引論文AT100榜單組與非AT100榜單組的差異性主要集中于被引量、開放獲取、文獻(xiàn)類型及研究領(lǐng)域等變量，其中，AT100榜單論文被引量的平均值比非AT100榜單論文高370篇左右；AT100榜單組開放獲取占比較多，為71.22%，而非AT100榜單組只占比49.29%；AT100榜單組的文獻(xiàn)類型主要為研究型論文(Paper)，高達(dá)95.68%，而非AT100榜單組中綜述也占有一定的比重；在研究領(lǐng)域方面，AT100榜單組占比最高的是應(yīng)用科學(xué)，其次是生命科學(xué)與生物醫(yī)學(xué)，非AT100榜單組占比最高的是跨學(xué)科研究。

表3 高被引論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計

表3(續(xù))

3.1.3 普通論文的AT100榜單與非AT100榜單的描述性統(tǒng)計

表4展示了普通論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計結(jié)果。由表4可得，普通論文AT100榜單組與非AT100榜單組差異性主要集中于被引量、基金資助、開放獲取、研究領(lǐng)域及期刊分區(qū)等變量。其中，AT100榜單組被引量的平均值是非AT100榜單組的10倍；AT100榜單組84.33%的論文被基金資助，而非AT100榜單組基金資助只占51.43%；開放獲取AT100榜單組占比較多，為75.37%，而非AT100榜單論文組只占33%；在研究領(lǐng)域變量中，AT100榜單組占比最高的是應(yīng)用科學(xué)，非AT100榜單組占比最高的是跨學(xué)科研究；AT100榜單組91.79%的論文都發(fā)表于一區(qū)期刊中，而非AT100榜單組論文的期刊分布在4個區(qū)，較為均衡。其他變量的差異性較小，不一一贅述。

表4 普通論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計

表4(續(xù))

3.2 實(shí)證分析結(jié)果——基于傾向得分匹配

本文采用傾向得分匹配方法(PSM)嘗試探究AT100榜單與論文被引量的因果關(guān)系，其中，處理組為AT100榜單論文，控制組則為非AT100榜單的論文。如果實(shí)驗組中的論文可以在控制組中匹配到一個或多個協(xié)變量相同或類似的論文，則論文被引量的差異即認(rèn)為是AT100榜單帶來的平均處理效應(yīng)(ATT)。為了檢驗研究數(shù)據(jù)是否適用于傾向得分匹配及保證論文匹配結(jié)果的可靠性，本文需要對匹配后變量的平衡性及共同支撐等進(jìn)行檢驗。

3.2.1 平衡性檢驗

本文構(gòu)建了高被引論文及普通論文各變量的平衡性檢驗結(jié)果，以檢驗匹配后結(jié)果是否較好地平衡了數(shù)據(jù)，以K值匹配中的1∶1匹配為例，如表5所示。平衡性檢驗的標(biāo)準(zhǔn)一般為兩點(diǎn)：其一是匹配后的標(biāo)準(zhǔn)化偏差小于10%視為平衡效果較好；其二是匹配后的兩組論文的變量無顯著性差異，主要通過T檢驗的P值來表征，若P>0.1，未通過顯著性檢驗，即表明AT100榜單組與非AT100榜單組變量在匹配后無顯著性差異。

由表5可看出，大部分高被引論文和普通論文變量的標(biāo)準(zhǔn)化偏差都小于10%(高被引論文組關(guān)鍵詞長度、普通論文組標(biāo)題長度及研究領(lǐng)域為自然科學(xué)組除外)，可見匹配后數(shù)據(jù)得到了較好的平衡，匹配效果較好。本文在表5的基礎(chǔ)上繪制了高被引論文和普通論文各變量的標(biāo)準(zhǔn)化偏差圖，如圖1、圖2所示，其中橫坐標(biāo)為各變量標(biāo)準(zhǔn)化偏差值，縱坐標(biāo)為各變量名稱。由圖1、圖2可直觀看出，匹配前，變量分布較為零散，大部分變量距離原點(diǎn)較遠(yuǎn)；而匹配后，大部分變量都圍繞在原點(diǎn)附近，可見大部分變量的標(biāo)準(zhǔn)化偏差在匹配后都明顯減小，匹配效果較好。而且由表5可得，高被引論文和普通論文所有變量匹配后的P值都較高，即AT100榜單組與非AT100榜單組在匹配后無顯著性差異。綜上可得，本文高被引論文組和普通論文組平衡性檢驗效果較好。

表5 高被引論文及普通論文各變量的平衡性檢驗結(jié)果

表5(續(xù))

圖1 高被引論文各變量的標(biāo)準(zhǔn)化偏差圖

圖2 普通論文各變量的標(biāo)準(zhǔn)化偏差圖

3.2.2 共同支撐性假定

為了顯示傾向得分的共同取值范圍，本文繪制了匹配得分箱圖及匹配后的核密度圖，如圖3～4及圖5～6分別為高被引論文及普通論文傾向得分的共同取值范圍箱圖和匹配后的核密度圖。其中，箱圖中橫坐標(biāo)的0值代表控制組，1值代表處理組，縱坐標(biāo)表示傾向得分；核密度曲線中，虛線表征實(shí)驗組，實(shí)線表征控制組。由匹配得分箱圖可看出，高被引論文及普通論文的AT100榜單組與非AT100榜單組的傾向得分有較大的共同取值部分。且由匹配后傾向得分核密度曲線圖可看出，高被引論文組和普通論文組匹配后AT100榜單組與非AT100榜單組的核密度曲線幾乎重合，曲線重合的下方有較大的共同支撐區(qū)域，故而綜上可得，高被引論文與普通論文數(shù)據(jù)滿足共同支撐假定。

圖3 高被引論文傾向得分的共同取值范圍箱圖

3.2.3 匹配結(jié)果估計及穩(wěn)健性檢驗

為了保證結(jié)果的穩(wěn)健性，本文采用多種匹配方

圖4 高被引論文傾向得分的核密度曲線(匹配后)

圖5 普通論文傾向得分的共同取值范圍箱圖

法來計算AT100榜單對論文被引量的平均處理效應(yīng)(ATT值)及其顯著性，包括K近鄰匹配法(1∶1、1∶2、1∶3以及1∶4)、半徑匹配、核匹配以及局部線

圖6 普通論文傾向得分的核密度曲線(匹配后)

性回歸匹配，其中，半徑匹配與核匹配沒有通過平衡性檢驗，故在結(jié)果中去除，最終通過檢驗的傾向得分匹配結(jié)果呈現(xiàn)，如表6所示，模型1和模型2不同匹配方法下的ATT值有細(xì)微差別，但總體差別不大，且都通過了顯著性檢驗，可見結(jié)果具有較強(qiáng)的穩(wěn)健性。由模型1可得，AT100榜單對高被引論文的平均處理效應(yīng)(ATT值)為312.156，可見AT100榜單平均能使高被引論文提高312篇被引量；由模型2可得，AT100榜單對普通論文的平均處理效應(yīng)為134.069，可見AT100榜單能使普通論文提高134篇被引量。故而可得AT100榜單對高被引論文和普通論文被引量都具有顯著的正向促進(jìn)作用，AT100榜單對高被引論文比普通論文被引量具有更大的正向影響。

表6 高被引論文與普通論文的傾向得分匹配結(jié)果

本文最后使用馬氏匹配對上文傾向得分匹配結(jié)果進(jìn)行驗證，如表6所示。馬氏匹配先于傾向值匹配被提出來，也是一種基于變量之間相似度或距離進(jìn)行匹配的方法，只是對于相似度或距離的計算方法與傾向得分匹配不同，是一種被廣泛應(yīng)用的匹配方法。由表6可看出，無論是平均處理效應(yīng)，亦或是顯著性，馬氏匹配的結(jié)果都與傾向得分匹配結(jié)果類似，可見傾向得分匹配的結(jié)果具有較強(qiáng)的穩(wěn)健性。

4 研究結(jié)論

隨著Altmetric指標(biāo)的興起，越來越多的研究者關(guān)注于Altmetric TOP100論文與其學(xué)術(shù)影響力的關(guān)系研究，本文梳理前人的研究成果，從Altmetric TOP100榜單的視角考察其對論文被引量的因果影響。本文運(yùn)用2013—2015年Altmetric TOP100論文及WOS數(shù)據(jù)庫的高被引論文、普通論文題錄數(shù)據(jù)，在平衡性檢驗及共同支撐檢驗的基礎(chǔ)上，綜合采用近鄰匹配、半徑匹配、核匹配以及局部線性回歸匹配等匹配方法，在非AT100榜單組尋找與AT100榜單論文相似的匹配對象，進(jìn)而通過比較AT100榜單組與非AT100榜單組論文被引量的差異來評估AT100榜單對論文被引量影響的凈效應(yīng)，并最終通過馬氏匹配來檢驗結(jié)果的穩(wěn)健性。研究結(jié)果表明：

1)高被引論文與普通論文變量值存在較大差異，主要為被引量、基金資助、開放獲取、文獻(xiàn)類型、研究領(lǐng)域及期刊分區(qū)等方面；高被引論文AT100榜單論文與非AT100榜單論文的差異性主要集中于被引量、開放獲取、文獻(xiàn)類型及研究領(lǐng)域等變量；普通論文組AT100榜單論文與非AT100榜單論文變量的差異性主要集中于被引量、基金資助、開放獲取、研究領(lǐng)域及期刊等。

2)AT100榜單論文作為科研領(lǐng)域的“強(qiáng)信號”，極大地增加了論文的可見性，對論文被引量具有顯著的正向影響。由上文可得，AT100榜單對高被引論文的平均處理效應(yīng)為312.156，而AT100榜單對普通論文的平均處理效應(yīng)為134.069，可見AT100榜單平均能使高被引論文提高312篇被引量，而AT100榜單能使普通論文提高134篇被引量，AT100榜單對高被引論文被引量的影響比普通論文更大。可能是AT100榜單極大地提高了論文的“曝光量”，但是在引用過程中，施引者仍會優(yōu)先考慮領(lǐng)域的優(yōu)質(zhì)論文，故而AT100對高被引論文被引量比普通論文有更大的影響作用，是施引者施引行為的擇優(yōu)過程。

本研究存在一些不足，首先對于普通論文組數(shù)據(jù)的選擇，因為WOS核心合集每年的普通論文數(shù)據(jù)量較多，無法下載所有普通論文，只能選取部分?jǐn)?shù)據(jù)，可能無法涵蓋所有普通論文數(shù)據(jù)信息，故而普通論文得到的平均處理效應(yīng)可能有些許偏差。其次，本文基于前人研究選取了學(xué)術(shù)論文被引量的核心影響因素作為本文的協(xié)變量，無法窮盡并控制所有可能引起被引量的影響因素，以考察AT100對學(xué)術(shù)論文被引量的因果關(guān)系，所以本文得出的平均處理效應(yīng)可能會有些許偏差，在以后的研究中，將探尋更多可能影響學(xué)術(shù)論文被引量的因素，以得出更為嚴(yán)謹(jǐn)?shù)难芯拷Y(jié)果。

Altmetric TOP100榜單對論文被引量的影響研究——基于傾向得分匹配