于琦 田玥 賀培鳳



摘 要:[目的/意義]頂級科研論文代表了世界學術領域內重大的獨創研究成果,其在網絡中的受關注程度體現了社會大眾對重大科研進展的關心熱度。研究頂級期刊論文在網絡中的關注度及其影響因素,可以為提出全面科學的論文評價體系奠定基礎,為論文在網絡中獲得高的網絡關注提供指導意見。[方法/過程]利用2016年發表在《Nature》和《Science》的1584篇科研論文的Altmetrics數據和題錄信息,從分布特征和相關系數兩個維度描繪了論文社會影響力與學術影響力的關系,從論文研究主題和來源國家兩個維度探析了論文網絡關注度的影響因素。[結果/結論]頂級期刊論文的Altmetrics指標和被引量波動范圍較大,各指標分布均呈現長尾偏右的尖頂曲線;論文的Attention score與被引量的相關性較弱;探討與人類健康和生活相關研究主題的論文更容易獲得高的網絡關注度。不同國家的論文網絡關注度呈現出3類較突出的特征;論文的國際合作程度越高,越有機會獲得高的網絡關注度。
關鍵詞:Altmetrics;社交媒體;頂級科研論文;關注度
DOI:10.3969/j.issn.1008-0821.2019.07.019
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)07-0153-09
Abstract:[Purpose/Significance]Top academic papers represent the significant original scientific research in the worldwide academic field,and their popularity on the social network reflects what the public interest is for major scientific research progress.Research on the degree of attention of top academic papers on the social network and its influencing factors can lay a foundation for the comprehensive scientific paper evaluation system,and provide guidance for papers to gain high network attention on the social network.[Method/Process]Using altmetrics data and bibliographic information from 1584 papers published in《Nature》and《Science》in 2016,the relationship between social influence and academic influence were depicted from two perspectives of the distribution characteristics and correlation coefficient,and the influencing factors of the network attention were investigated from two perspectives the research topic and country.[Result/Conclusion]The fluctuation range of Altmetrics indicator and citations of top journal papers was relatively large,and the distributions for all indicators presented a sharp curve with a long tail to the right.The relationship between the Attention score and the citation score was relatively weak.Papers with topics related to human health and life were more likely to gain high network attention.The network attention for different countries presented three prominent features,and the higher of the papers international collaboration rate,the greater of network attention the papers would receive.
Key words:Altmetrics;social media;top academic papers;degree of attention
傳統的論文評價方法一般使用論文的被引量來評價論文的價值,測度的是論文的學術影響力,周期較長且具有滯后性,逐漸變得難以適應現代科學研究的需要[1]。隨著互聯網技術的普及、開放獲取運動的深入和在線科學交流方式的繁榮,Altmetrics應運而生[2],它測度的是論文的社會影響力,是對傳統計量學的一種補充[3]。廣義的Altmetrics是面向學術成果全面影響力的評價指標體系;狹義的Altmetrics則是專門研究基于社交網絡數據的計量指標[4],包括學術成果在Facebook、Twitter、Mendeley等社交網絡中被轉載、推送和提及的次數等。目前提供社交網絡計量指標的服務平臺主要有Altmetric.com、ImpactStory、PLOS ALMs和Plum Analytics等。由于社交網絡計量指標反映的是學術成果在網絡中受關注的程度,故可用來衡量學術成果的社會影響力。
文獻的網絡關注度與被引量之間的關系一直受到學者們的廣泛關注。對于網絡關注度是否與被引量存在顯著的正相關性,不同研究給出的結論不盡相同。一些研究表明論文網絡關注的增加會導致被引量的顯著增加,例如Shu F等[5]的研究表明,在同年同期刊發表的論文中,被Twitter轉發的論文比未被Twitter轉發的論文被引量高30%。而另一些研究[6-8]則發現論文網絡關注度與被引量之間的關系較弱。可見,論文的網絡關注度與被引量之間的關系仍然是個開放性的話題。本文選取2016年發表在《Science》和《Nature》兩本期刊上的所有論文作為研究對象,綜合運用論文的Altmetrics數據和題錄信息,探討頂級期刊論文的網絡關注度與被引量之間的關系,并從論文的內在特征和外顯特征兩個角度,對論文網絡關注度的影響因素進行深入分析,以期為全面科學的論文評價體系構建提供理論依據。
1 研究設計
首先,確定論文集合,收集論文的Altmetrics指標數據(見表1)和在學術數據庫中的題錄信息。然后,從分布特征和相關系數兩個角度探討論文社會影響力與學術影響力之間的關系。最后,從內在特征和外顯特征(國家)兩個維度對論文網絡關注度的影響因素進行剖析,內在特征主要選取論文的研究主題,外顯特征主要選取論文的來源國家。
1.1 數據采集
論文的題錄信息來源于Web of Science(WoS)。在WoS核心合集數據庫中,設置檢索式“出版物名稱:Nature or Science AND 時間跨度:2016-2016”,共檢索到5 306篇記錄。選取文章類型為“Article”,得到1 584篇論文的題錄信息,包括題目(TI)、摘要(AB)、作者機構隸屬(C1)、DOI號(DI)和被引量(Z9)等。
論文的Altmetrics指標數據來源于Altmetrics.com。通過本項目組開發的Python程序訪問Altmetrics API,通過上述1 584篇論文的DOI號獲取對應Altmetrics指標數據。
兩類數據集的獲取時間均為2018年9月12日。
1.2 論文社會影響力與學術影響力關系分析
以論文的Altmetrics指標數據表征其社會影響力,以被引量表征其學術影響力,從分布特征和相關系數兩個維度探討論文社會影響力與學術影響力之間的關系。
1.2.1 論文Altmetrics指標與被引量的分布特征
本文利用統計學基本方法,從集中趨勢、離散程度和分布形態3方面對論文Altmetrics指標與被引量的分布特征進行刻畫分析,其中,集中趨勢的統計量包括均值和中位數,離散程度的統計量包括極大值、極小值、極差和標準差,分布形態的統計量包括偏度和峰度。
1.2.2 論文Altmetrics指標與被引量的相關分析
根據論文Altmetrics指標與被引量的分布特征,判斷二者是否服從正態分布。若服從正態分布,則選擇Pearson相關系數描繪各Altmetrics指標與被引量之間的關系,若不服從正態分布,則選擇Spearman相關系數描繪兩者之間的關系。
根據相關性分析結果,確定一個可代表網絡關注度的綜合指標,用于下一步論文網絡關注度的影響因素分析。
1.3 論文網絡關注度的影響因素分析
借鑒論文被引量的影響因素,結合論文在網絡中傳播的特點,本文從內在特征(標題)和外顯特征(國家)兩個維度對關注度不同的論文進行研究。
1.3.1 不同關注度論文主題分析
論文標題是論文主題的濃縮,一個吸引眼球的標題必然會在網絡上引起高度關注,故本文選取標題進行論文的主題分析。按論文的Attention Score和被引量分別排序,選擇位于前1/4的值為閾值,將論文分為4類,即高關注高被引論文、低關注高被引論文、高關注低被引論文和低關注低被引論文。首先,分別對4類論文的標題進行切詞、去停用詞、詞頻統計、刪除意義不明確的詞等操作,并選取各類前10個高頻主題詞。然后,將每個主題詞對應回原論文,將論文的Attention Score和被引量賦給對應的主題詞,計算每個主題詞的平均Attention Score值和被引值,并以此作為主題詞的橫縱坐標。最后,將這些主題詞繪制在戰略坐標圖中進行主題分析。
1.3.2 不同關注度論文的來源國別分析
為了探明論文的網絡關注度是否受來源國家的影響,我們從國家差異度和國家合作程度兩個角度進行剖析。
1)國家差異分析
運用1.2.1中的描述性統計量,從集中趨勢、離散程度和分布形態3方面對發文量前20國家綜合網絡關注度指標的分布特征進行刻畫分析。
2)國家合作程度分析
統計每篇論文的合作國家數量,按照前述的相關系數選擇標準,選擇合適的相關系數指標,描繪論文Attention Score和國別數量之間的關系。
2 結果與討論
2.1 論文社會影響力與學術影響力關系研究
2.1.1 論文Altmetrics指標與被引量的分布特征
由表2可知,Post、Twitter、Mendeley和Attention Score 4種Altmetrics指標的均值與中位數存在顯著差異,標準差亦較大,說明其向中心集中的程度較低,兩極化離散程度較高。Facebook、Msm、Feed、Reddit和Google+ 5種Altmetrics指標的均值與中位數較為接近,且標準差相對較小,說明其向中心集中的程度較高、離散程度較低。表中除Reddit外,其余9項指標的極大值與極小值的差距都較為明顯,說明指標的波動范圍較大。從分布形態上看,10個指標的偏度、峰度均為正值,說明其分布都呈現長尾偏右的尖頂曲線,其中Mendeley和被引量指標的值較大,說明二者的分布曲線形態相近,更為尖峭。
2.1.2 論文Altmetrics指標與被引量的相關分析
根據前述分析,本文中論文的9種Altmetrics指標和被引量指標均不服從正態分布,故本文采用Spearman相關系數計算各指標之間相關關系。
表3的相關矩陣顯示,各指標之間的相關性均具有統計學意義。除Mendeley指標外,其余8種Altmetrics指標之間的相關系數均較高,呈現出較強的正相關性。結果與之前的研究[7-9]不一致:2017年Hassan對15個學科的論文Altmetrics數據進行研究,發現各Altmetrics指標間的相關系數在0.1~0.4之間,屬于弱相關的范圍。2015年Costas分析了5個領域的718 315篇論文Altmetrics指標間的相關性,得出各指標間的相關性較弱的結果。這說明頂級期刊論文不同于普通期刊論文,在各個工具上的訪問具有一致性。
相反,除Mendeley指標外,其余8種Altmetrics指標與被引量之間的相關系數均較低,呈現出較弱的正相關性。這一方面再次表明了Altmetrics指標所反映的影響力維度與被引量并不一致;另一方面提示可以利用論文的Mendeley指標預測論文的被引量,由于Mendeley的時效性遠強于被引量,因此可以幫助科研人員更快地發掘論文的學術價值。
Attention Score與其它各Altmetrics指標之間均表現出較強的相關性,這表明作為對論文接收到的各種網絡關注度的加權綜合值,Attention Score可以反映論文的綜合社會影響力。本文采用Spearman相關系數對Attention Score與被引量之間的關系進行詳細分析(見表4)。首先,分別計算《Nature》和《Science》期刊上所有論文Attention Score與被引頻次之間的相關系數,并進行對比分析。結果顯示,兩期刊論文的Attention Score和被引頻次相關系數均具有統計學差異,但相關系數不高,處于弱相關范圍,且前者的相關系數(0.208)大于后者(0.110)。然后,分別對《Nature》和《Science》期刊論文按照Attention Score進行降序排列,選取前25%和后25%兩個集合,計算Attention Score與被引頻次之間的相關系數,并進行對比分析。結果顯示,《Nature》期刊中Attention Score排名前1/4論文的Attention Score與被引量之間的相關系數具有統計學意義,但相關程度不高(0.165),低于《Nature》所有論文集合的相關系數。最后,分別對《Nature》和《Science》期刊論文按照被引量進行降序排列,選取前25%和后25%兩個集合,計算Attention Score與被引頻次之間的相關系數,并進行對比分析。結果顯示,《Nature》期刊中Attention Score排名前1/4論文的Attention Score與被引量之間的相關系數具有統計學意義,且其相關系數(0.397)高于所有論文集合的相關系數。以上表明,對于刊登在不同期刊上的論文,其Attention Score與被引量之間的相關性存在差異;高被引論文受網絡關注的程度相較于高關注論文受學術界關注的程度更高。
2.2 論文網絡關注度的影響因素分析
2.2.1 不同關注度論文主題分析
對論文標題進行切詞、去停用詞、詞頻統計、刪除意義不明確的詞(如“結構(Structure)”、“規則(Regulation)”、“系統(System)”、“通路(Pathway)”、“通道(Channel)”、“相互作用(Interact)”)等操作,繪制高頻主題詞戰略坐標圖(見圖1)。
由于部分詞的坐標值較接近,導致繪制出來的點有重合,故本文對這些詞的坐標進行了細微調整。
由圖1可知,“細胞(Cell)”和“人類(Human)”是四類論文共同的研究主題。在高關注高被引論文中,“癌癥(Cancer)”、“病毒(Virus)”、“DNA”、“進化(Evolution)”等均是與人類生命健康息息相關的主題。而高關注低被引論文中,“記憶(Memory)”、“氣候(Climate)”、“冥王星(Pluto)”、“全球(Global)”等主題較為生活化,與人類生活息息相關。低關注高被引的論文與低關注低被引的論文研究主題具有一定的相似性,如“蛋白質(Protein)”、“量子(Quantum)”、“分子(Molecular)”、“鈣鈦礦(Perovskite)”等均為較專業化的主題。以上表明,偏生活化的主題在網絡中的受關注度較高,專業化的主題在網絡中受關注度則較低。
為了更直觀地展現高關注度論文的研究主題,表5列出了Attention Score排名前10的論文。這10篇論文的研究主題包括:海平面上升、人類壽命、阿爾茨海默病、細菌的降解同化、自動駕駛汽車的困境等。這些主題與大眾的生活聯系比較緊密,易引起大眾的興趣并被大眾所理解。其中論文“南極洲海平面上升對過去和未來的貢獻”獲得的網絡關注度最高,其研究內容事關全世界人民的生存發展,被全球46個國家/地區轉載,美國轉載次數最高(112次),全球轉載人數共計達到516人。
2.2.2 不同關注度論文來源國家分析
1)國家差異度
本文將1 584篇論文的Attention Score值降序排序,以四分位間距分成4份,選取前1/4(25%)的論文(396篇)和后1/4(25%)的論文(396篇)分別代表高關注論文和低關注論文,對這兩類論文進行研究。分別統計兩類論文的來源國家/地區發文量。每個國家/地區的發文量根據論文的通訊作者所屬國家/地區進行計算。例如,1篇論文有3位通訊作者,2位來自中國,1位來自美國,那么,中國對這篇論文的貢獻記2/3,美國記1/3。
表6列出了兩類論文中發文量前20的國家,美國在兩類論文中均居首位,且發文量遠高于其它國家,這說明美國在頂級期刊《Nature》和《Science》上的發文量占主導地位。德國和英國緊跟其后。由表6可以將國家分為3類。第一類,高關注論文與低關注論文占本國發文量的比例相當,例如美國和日本,這說明這兩個國家的論文在不同類別中分布均勻。第二類,高關注論文量占本國發文量比重較高,低關注論文量占本國發文量比重較低,例如澳大利亞,這說明該國發表的論文大部分獲得相對較高的網絡關注度。第三類,高關注論文量占本國發文量比重較低,低關注論文量占本國發文量比重較高,例如中國,這說明我國發表的論文大部分獲得相對較低的網絡關注度。
表7展示了發文量前20名的國家論文網絡關注度的分布特征。美國的發文量最高,且論文網絡關注度的極大值和極小值均位于首位,表明美國發表論文的網絡關注度懸殊較大。中國的發文量位居第四,但論文的篇均網絡關注度、中位數和極大值均較低,表明我國的論文網絡關注度整體處于較低水平。澳大利亞的發文量較少,但其論文的篇均關注度最高,位列第一,屬于典型的論文“少而精”的國家。從分布形態上看,各國論文網絡關注度的偏度、峰度均為正值,說明其分布都呈長尾偏右的尖頂曲線。
以上表明,我國在頂級期刊上發表論文的數量已經顯現出優勢,但受網絡關注的程度仍處較低水平,故論文質量有待進一步提升。
2)國家合作程度
表8顯示論文的Attention Score和國別數量之間存在顯著相關性(p<0.01),相關系數r為0.234,屬于弱相關范圍。表9顯示,論文的Attention Score隨著參與撰寫論文的國家數量的增多而增加,由7個國家合作撰寫的論文獲得網絡關注度最高(742.33),合作國家數量大于7時,論文的網絡關注度雖有所下降,但仍保持較高水平(>500)。前期研究[10]證實,論文在網絡上的擴散首先是從本地區、本國開始的。因此論文的合作國別個數越多,就越有可能同時在多個國家進行擴散,從而獲得更多學者和大眾的關注。
3 結論與展望
3.1 結 論
1)高水平期刊論文的Altmetrics指標和被引量波動范圍較大。其中,Post、Twitter、Mendeley和Attention Score 4種Altmetrics指標兩極化離散程度較高,Facebook、Msm、Feed、Reddit和Google+ 5種Altmetrics指標向中心聚攏程度較高。各指標分布均呈現長尾偏右的尖頂曲線,其中Mendeley和被引量的分布曲線更為尖峭。
2)Attention Score指標與其他Altmetrics指標的相關系數均較高,故可以選做衡量論文網絡關注度的一個綜合指標。Mendeley指標與各Almetrics指標的相關度較低,但與被引量的相關度很高,故可用于預測論文的被引量,評價論文的學術價值。
3)對于高水平期刊論文而言,關注人類健康和生活話題的論文容易在網絡中獲得更高的關注度,而關注專業性話題的論文在網絡中獲得的關注度則較低。這與之前的研究結果[11]一致,即在社交媒體中,研究主題會影響論文在網絡中的關注度。
4)不同國家的論文網絡關注度呈現出3類較突出的特征,分別是以美國為代表的“均勻分布型”、以中國為代表的“中低關注型”和以澳大利亞為代表的“高度關注型”。論文的國際合作程度會影響論文的網絡關注度。論文的國家合作度越高,越有機會獲得較高的網絡關注度。這提示科研人員要重視并加強國際合作,一方面可以實現優勢互補,另一方面也能促使論文獲得高的社會認可度。
3.2 展 望
本文選取刊登在頂級期刊上的論文,在分析其網絡關注度與被引量之間關系的基礎上,從論文的內在特征和外顯特征兩個角度,對網絡關注度的影響因素進行了分析。由于Altmetrics指標受時間的影響比較大,所以本文只選取了《Nature》和《Science》一年的發文量作為研究對象。下一步可以選取適當方法消除時間帶來的影響,擴大數據量,以便得出更可靠的結果。未來也有待從關注渠道、關注網絡等多角度開展論文網絡關注度研究。
參考文獻
[1]Weller K,Puschmann C.Twitter for Scientific Communication:How Can Citations/References Be Identified and Measured?[C]//Proceedings of the ACM WebSci11.Koblenz:ACM,2011:1-4.
[2]余厚強,邱均平.替代計量學視角下地在線科學交流新模式[J].圖書情報工作,2014,58(15):42-47.
[3]Remedios,M.Altmetrics-A Complement to Conventional Metrics.[J].Biochemia Medica,2015,25(2):152-160.
[4]魏思廷.結合替代計量學的數字圖書館知識服務新模式[J].圖書情報知識,2015,(2):87-92.
[5]Shu F,Haustein S.On the Citation Advantage of Tweeted Papers at the Journal Level[C]//Proceedings of the Association for Information Science & Technology,2017,54,366-372.
[6]Wang X,Liu C,Fang Z,Mao W.From Attention to Citation:What are Altmetrics and How Do They Work?[J].Computer Science,2014:1-10.
[7]Hassan Su,Imran M,Gillani U.Measuring Social Media Activity of Scientific Literature:An Exhaustive Comparison of Scopus and Novel Altmetrics Big Data[J].Scientometrics,2017,113(1):1-21.
[8]Costas R,Zahedi Z,Wouters P.Do“Altmetrics”Correlate with Citations?Extensive Comparison of Altmetric Indicators with Citations from a Multidisciplinary Perspective[J].Journal of the Association for Information Science and Technology,2015,66 (10):2003-2019.
[9]Zhou J,Wang F,Hu J.From Micro to Macro:Data Driven Phenotyping By Densification of Longitudinal Electronic Medical Records.[C]//Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2014.
[10]Wang X,Fang Z,Li Q,Guo X.The Poor Altmetric Performance of Publications Authored By Researchers in Mainland China[J].Frontiers in Research Metrics and Analytics,2016:1-15.
[11]Holmberg K,Vainio J.Why Do Some Research Articles Receive More Online Attention and Higher Altmetrics?Reasons for Online Success According to the Authors[J].Scientometrics,2018,116(2):1-13.
(責任編輯:陳 媛)