,,
隨著Web 2.0環境下社會媒體的普及以及開放存取的興起,信息收藏、信息管理、信息評論、信息推薦和信息共享等已成為學術研究成果在社會媒體上交流的普遍方式。單篇論文評價不再局限于傳統的評價方法,即主要依賴于同行評議的專家評審和基于引用的被引分析,Altmetrics便應運而生[1]。
論文層面計量學(Article-Level Metrics,ALMs)是由美國科學公共圖書館(the Public Library of Science,PLoS)在2009年提出并應用的。引文是論文最重要的影響力測度,但引文僅代表用戶與論文之間交互的一小部分[2]。據Lin J等人報道,截至2013年5月20日,PLoS出版的80 602篇文獻中網頁閱覽次數達199 913 959次,PDF下載次數僅占24.7%,其中下載PDF版本的用戶中僅有七十分之一的人會在論文中引用該文獻,而大多數人則用其他方式與論文發生交互,這些可以通過Altmetrics方法捕捉到[3]。
PLoS自2009年開始應用論文層面計量學以來,根據實際應用和擴展,PLoS ALMs指標和分類一直在不斷調整,最新的指標分類如表1所示,包括五大類型及24個指標。五大類型分別為閱覽(Viewed)、保存(Saved)、討論(Discussed)、被引(Cited)和推薦(Recommended),既反映了用戶行為活動的順序,也表明了論文影響的深入。PLoS ALMs各指標數據值是計算其頻次而來,各類型數值為分指標值之和,因而結果有所交叉重合,尤其是被引,Web of Science和Scopus被引頻次有很大重合,所以本文在數據采集時僅統計WOS被引頻次[4]。CiteULike是一款參考文獻管理工具,允許用戶保存和分享學術論文的引用情況,是基于社會書簽的在線服務。Mendeley是免費的跨平臺文獻管理軟件,可對文獻進行添加與組織、閱讀與標注,與全球同行協作備份、同步與移動文獻等。Figshare可使研究者保存和分享研究成果,文件類型包括數據、數據集、圖像和影音等。

表1 PLoS ALM指標分類
單篇論文學術影響力通常用被引頻次表示。自h指數[5]被提出后,Schubert A[6]也將其應用到單篇論文評價,其計算方法是:如果引用某論文的所有論文中有n篇論文,每篇至少被引用了n次,則該篇論文的h指數就是n。葉鷹[7]根據h指數和整體綜合測度指標I3(Integrated Impact Indicators,I3)的優缺點,將其相互結合,提出了一個新的學術評價指標——學術跡(Academic Track,T)。學術跡需采集5個基本參數:單篇論文評價論文數P(實際等于該篇論文的被引頻次)、論文h指數h、單篇論文評價引文數C(即被引文獻被引數)、評價論文中零被引論文數Pz、Ch為評價論文被引頻次大于或等于h的評價引文數[8]。
學術跡不僅能應用于學術主體(如國家、學術團體、單個學者),還能評價學術客體(如期刊、論文等)。學術跡用字符T表示,T值越高,學術成就越高。
國內外已經開展PLoS ALMs的研究。劉春麗認為ALMs可以從論文的使用、引用、社會書簽和傳播活動、社交媒體討論和評級等多個角度綜合評價單篇論文的影響力[9];顧立平分析了ALMs與傳統文獻計量的不同,運用案例分析法介紹了PLoS-ALMs的數據流程、數據源與數據類型、開放數據模型等[10];de Winter分析了PLoS ONE推薦文章數量與Mendeley、Facebook等社交媒體活動、被引和文獻閱覽之間的關系,發現推薦文章數量和被引頻次呈顯著性弱相關,但和PubMed Central上的文獻閱覽次數無統計學相關[11];劉曉娟等人基于PLoS ALMs數據,對當前主要的Altmetrics指標進行覆蓋率、穩定性、時效性和交叉性分析,發現不同類型的指標在反映文獻影響力上側重角度不同,差異較大[12];Priem J等人對PLoS的樣本文獻進行分析,發現5%的文獻在Wikipedia中被引用,至少有80%在Mendeley中被提及[13];楊思洛等人以中美學者發表在PLoS平臺的7種OA期刊上的論文為樣本,以PLoS Article-Level Metrics為工具,統計五大類指標的分指標數據,從指標相關性、不同年份、不同類型論文、不同分指標等方面,系統比較中美OA論文影響的異同[14]。
綜上所述,已有研究從不同方面對PLoS ALMs進行了探索,但仍限于個別論文層面計量指標與引用次數的相關性分析,或是論文層面計量分指標的相關性分析,而與Almetrics評分、h指數和學術跡T,目前鮮有比較研究。本文以PLoS系列期刊為例,基于PLoS ALMs論文層面計量指標數據,比較分析閱覽量、下載量、討論量、保存量、推薦量與Altmetrics評分、h指數、學術跡T之間的相關性以及對單篇論文的評價效果。
本文選取PLoSBiology和PLoSMedicine兩種期刊,在http://almreports.plos.org/檢索并下載2014年發表的Research Article類型文獻,PLoS Biology有148篇,PLoS Medicine有102篇。利用www.altmetric.com 網站的Bookmarklet得到每篇文章的Altmetrics評分。在WOS中檢索每篇文章的總被引頻次P,并使用該庫的引文分析功能直接或間接得到測算學術跡T所需基本參數(檢索時間:2017年10月18日)。
PLoS ALMs將24個指標分為五大類型(表1)。本文根據用戶習慣,新增“下載量”類型,各類型計算方法:閱覽量為PLoS Journals HTML、PLoS Journals PDF、PLoS Journals XML、PubMed Central HTML、PubMed Central PDF次數相加,下載量為PLoS PDF、PMC PDF和PLoS Journals XML次數相加,討論量為Facebook、Reddit、Twitter、Wikipedia、Nature Blogs、Research Blogging、Science Seeker、Wordpress.com次數之和,保存標注量為CiteULike,Mendeley,Figshare之和;推薦量則是F1000 Prime分值,被引頻次P選取WOS數據庫中的總被引頻次。
最終得到的樣本數據包含以下字段:DOI、論文標題、閱覽量、下載量、討論量、保存量、推薦量、Altmetrics評分、被引頻次P、論文指數h和學術跡T(表2、表3)。因篇幅所限,只列出部分數據。

表2 PLoS Biology部分樣本數據

表3 PLoS Medicine部分樣本數據
利用SPSS 20.0,使用單樣本K-S正態性檢驗方法,按顯著性水平α=0.05的檢驗水準分別檢測兩組樣本數據總體的分布情況。結果表明大部分指標的概率P值小于顯著性水平,樣本數據不服從正態分布。
由于2組樣本數據均不符合正態分布,因此采用Spearman秩和相關檢驗進行相關性分析。當P值小于檢驗水準時,拒絕原假設,可認為2個統計指標之間具有相關性,并分別計算出每個指標之間的相關性系數r,相關性系數反映了兩變量間相關程度的強弱。|r|≥0.7表示高度相關,0.4≤|r|<0.7為中度相關,|r|<0.4是低度相關。具體結果見表4和表5。
在PLoS Biology樣本數據中(表4),閱覽量和各指標之間兩兩均成正相關。其中與下載量高度正相關(r=0.832,P<0.01),與被引頻次、h指數、學術跡呈中度相關(0.4≤r<0.7,P<0.01,),與保存量、推薦量呈低度相關(r<0.4,P<0.01);下載量與h指數、學術跡相關性較高(r=0.721,0.659,0.606,P<0.01),與討論量、保存量、Altmetrics評分雖有相關性,但相關性并不高;討論量和推薦量、學術跡T無相關性(P>0.05);保存量與大部分指標無相關性,即使有也是低度相關;推薦量與保存量類似,和各指標低度相關或無關;Altmetrics評分與討論量高度相關(r=0.781,P<0.01),與閱覽量中度相關(r=0.445,P<0.01),與其他指標低度相關或無關;被引頻次、h指數、學術跡T彼此之間互為高度相關,與閱覽量相關度也較高。
在PLoS Medicine樣本數據中(表5),閱覽量與推薦量、學術跡無關,與其他指標均有相關性(P<0.05);下載量與推薦量、學術跡無關,與其他指標均有相關性(P<0.05);討論量與保存量、推薦量無關;保存量僅與閱覽量、下載量有相關性,與其他指標無相關性;推薦量與各指標均無相關性;Altmetrics與被引頻次有關;h指數與閱覽量、下載量、討論量有關,與其他ALMs指標無關。

表4 PLoS Biology統計指標的相關性(N=148)
**在置信度(雙測)為0.01時,相關性是顯著的;*在置信度(雙測)為0.05時,相關性是顯著的

表5 PLoS Medicine統計指標的相關性(N=102)
**在置信度(雙測)為0.01時,相關性是顯著的;* 在置信度(雙測)為0.05時,相關性是顯著的
PLoS ALMs指標與Altmetrics評分、學術評價指標之間的相關性差異較大。
Jason Priem自2010年提出Altmetrics以來,Altmetrics在學術界引起了廣泛討論[15]。目前國際上比較常見的Altmetrics工具有Altmetrics.com、PLoS ALM、Plum Analytics和ImpactStory。PLoS ALMs是論文層面計量工具,不僅有網絡社交媒體的評價、討論和推薦,也包括論文的傳統引用、閱覽和下載次數。本文將PLoS ALMs的指標整理為6類,分別是閱覽、下載、討論、保存、被引和推薦。根據PLoS Biology和PLoS Medicine的2個樣本數據進行相關性分析,閱覽、下載和討論呈兩兩正相關性,這也與實際情況相符,對文獻進行討論之前需要閱覽、下載全文。閱覽、下載與其他指標基本相關,推薦量在不同樣本數據中的相關性不太穩定。討論量為社交媒體討論次數之和,主要來自于Facebook、Twitter和Wikipedia,其他社交網絡討論頻次基本為零。社交媒體討論量和保存量、下載量都呈正相關。Haustein S[16]等人選取大量論文的Twitter提及數與被引頻次,結果表明Twitter提及數與文章早期的被引頻次呈正相關,與文章后期的被引頻次無相關性。
保存量是學術論文的在線使用與分享次數,保存量與閱覽量、下載量及被引量都有相關性。推薦量僅包括F1000 Prime分值,F1000以事后評議方式為研究人員甄選生物學與醫學領域重要文獻,采用加權平均的方式將專家意見匯總,計算出每篇論文的F1000因子,作為論文同行評議結果。推薦量在樣本數據中的相關性不穩定,是因為在PLoS Medicine中數據大多為零,在PLoS Biology中分值有所區分。推薦量與討論量、保存量無相關性,完全獨立。
相較于PLoS ALMs論文層面計量指標,Altmetrics.com僅收集來自社交媒體和文獻管理軟件的數據,不包括對論文引用數據[17]。PLoS ALMs不僅有網絡社交媒體的評價、討論和推薦,也包括論文的傳統引用、閱覽和下載。Altmetrics評分與閱覽量和討論量呈中度相關。不管Altmetrics評分如何計算,權重如何分配,關注文章的第一步都是閱覽下載,社交媒體討論量多的文獻是引起大眾關注的文獻,是社會影響力的充分體現。Altmetrics評分與被引頻次呈弱相關,與論文指數h、學術跡T無相關性。王睿[18]、趙蓉英[19]等研究Altmetrics指標學術影響力時均發現,Altmetrics在一定程度上可視為一種早期指標,預測文章在未來能否獲得高被引。Altmetrics評分關注公共網絡媒體中測度單篇論文的社會影響力,h指數反映出高被引和優質論著的特征點,學術跡T則體現了單篇論文被引文獻數量與質量的綜合面,各指標從各自的角度給出了一定的評價效度,同時也表現出各自的獨立性[20]。
閱覽量與被引頻次、h指數呈顯著相關,論文被使用或被引用是建立在深入閱讀的基礎上。國內外已有很多研究探討下載次數與引用次數關系,但下載次數并不等同于閱覽次數。本文的研究數據顯示閱覽量與文章被引頻次、論文指數h均有正相關關系,可反映一定的學術影響力。
下載量與被引頻次、h指數均呈正相關關系,下載次數反映了文章被社會關注的程度,也可以反映學術論文的質量和學術影響力。Dan O比較了SSCI、Scopus及Google Scholar 3個引文數據庫中引用與下載次數的關系,發現二者高度相關[21];牛昱昕等人基于“中國科技論文在線”的論文引用、下載數據,對開放存取論文的被引頻次與下載次數進行相關性研究,發現從長期整體角度來看,開放存取論文的下載次數與被引頻次之間呈正相關趨勢[22]。本文研究結果與上述結論保持一致,且下載次數與論文指數h也有正相關關系。下載次數不僅體現了文獻的網絡傳播力,而且也可以反映了學術影響力,甚至能基于下載量預測未來下載和被引情況。Watson AB以期刊JournalofVision的下載量和被引量為研究對象,分析發現下載量能提前2年對未來可能達到的最終被引量做出很好的預測[23]。
2個樣本數據中討論量與被引頻次、h指數均表現出相關性,雖然強弱不同,但說明大眾媒體的討論能反映一部分的學術熱點論文。一部分研究前沿內容也是大眾感興趣和關注的內容,如果一篇文章在社交媒體引起熱議也是其學術影響力的體現。郭飛等人發現熱點論文在Twitter上的傳播一般在10-30天達到峰值,影響其傳播力的因素主要包括學術內容的顯著性和新奇性、學術傳播的內需、開放獲取、營銷途徑等[24]。
保存量統計的是學術論文的在線使用與分享次數(表4、表5)。當保存量以3個平臺頻次之和進行相關性分析時,結果并不穩定;將3個平臺數據分別與Altmetrics評分、被引頻次、單篇論文學術評價指標進行相關性分析時(表6),Mendeley與學術化指標均呈正相關,與CiteULike、Figshare均無相關性。匡登輝對SCI高被引論文進行實證分析時發現論文的高被引與其對應的在線使用分享的相關度不高,顯示出在線使用(Mendeley,CiteULike)與分享(Figshare)的數據在揭示高影響力文獻時存在一定不足[25];Ebrahimy S等人分析社交平臺CiteULike、Mendeley、Figshare與Scopus、WOS、PubMed central和Crossref被引頻次之間的關系時發現CiteULike,Mendeley標記數與被引量呈顯著正相關,Figshare與被引呈顯著負相關[26]。

表6 保存量分指標與學術化指標相關性
注:**在置信度(雙測)為0.01時,相關性是顯著的;* 在置信度(雙測)為0.05時,相關性是顯著的;左下角和右上角分別是PLoS Biology和PLoS Medicine的數據
推薦量在PLoS Biology樣本數據中顯示與被引頻次、h指數、學術跡T均有相關性,而在PLoS Medicine中完全獨立,可能是因為PLoS Medicine樣本數據推薦量大多為零,故高影響力論文中推薦量和學術指標可能具有相關性趨勢,較低影響力論文中不能體現,因此在分析具體問題時要理性看待。由慶斌等人在F1000網站中選取F1000評分、Altmetrics評分和谷歌學術引用量進行相關性分析時發現F1000評分不能獨立反映學術影響力的指標[12];陳小清等人比較F1000評分與學術跡相關性時發現學術跡T與F1000評分無相關性[27]。
近年來,論文層面計量學越來越進入研究者、出版商、學校、基金管理者、研究機構的視野,其最大的挑戰就是確認標準并廣泛使用和理解。PLoS ALMs的閱覽量、下載量、討論量與被引頻次、h指數均有相關性,說明閱覽量、下載量、討論量不僅能反映論文被社會關注的程度,也可以反映學術論文的質量和學術影響力。保存量中的Mendeley與學術化指標均呈正相關關系,與CiteULike和Figshare無相關性,說明文獻管理軟件的在線分享可能會提高成果的可見度和未來的引用次數。推薦量F1000與學術化指標無關。PLoS ALMs的保存量在與學術評價指標相關性上基本和Altmetrics評分保持一致,但PLoS ALMs能夠提供更詳盡的數據支持。不論是反映社會影響力的討論、保存、推薦,還是反映學術影響力的被引頻次、h指數、學術跡T,都只能從某個側面揭示論文的影響力,不能完全替代彼此的地位。
論文層面計量學(Article level metrics)是一個多維的評價,與Altmetrics在研究與應用中有所交叉,但研究范圍不同。論文層面計量學包括Altmetrics,試圖在論文層面測量單篇論文的影響力,包括傳統學術方面的,也包括隨著社會媒體普及興起的社會化評價。在評價單篇論文時應運用多指標測度,體現研究成果的綜合實力,使科學研究為更多大眾所熟知,擴大科研的影響力。