邱均平 豐鸝萱 舒非



DOI:10.3969/j.issn.1008-0821.2021.09.002
[中圖分類號]G250.252 [文獻標識碼]A [文章編號]1008-0821(2021)09-0012-10
近年來,隨著互聯網技術的發展和知識共享趨勢的推動,學術評價不再只是依賴傳統學術指標,Altmetrics開始產生,并引起廣泛關注和利用。2005年,Bollen J等學者就提出將社交媒體數據作為補充性計量指標,用于期刊影響力評價。Altmetrics最早是由計量學領域學者Priem J提出,之后同Taraborelli D等學者發表宣言,正式提出Ahmet-rics。
自2010年Altmetrics在境外提出后,我國學者劉春麗迅速反應,于2012年將其譯為“選擇性計量學”,并說明其與網絡計量學和傳統科學評價的差異,以及選擇性計量學在時效、覆蓋面和科學交流中的獨特意義;隨后,邱均平等學者將其譯為替代計量學,闡述其提出過程和研究進展;由慶斌等學者將其譯為補充計量學,對補充計量學和補充性指標作了詳細介紹。這是目前我國學者3種主要翻譯形式,許多學者對其有不同理解,具有代表性的理解就多達十幾種,但使用較多的是替代計量學。
目前,關于Altmetrics的研究主要分為理論、工具、方法及應用,理論主要是其概念和問題分析,較多涉及Ahmetrics指標與傳統指標之間的關系。例如:Alhoori H等學者發現Altmetrics與出版物的數量、h指數、被引量之間存在相關關系;Eysenbach G等學者指出Altmetrics指標與傳統的引文指標呈現弱相關,論文的社會影響力與學術影響力之間關聯度并不大;王妍等學者采用Spearman方法嘗試探究學者被引頻次與Ahmetrics中社會影響力指標之間的相關性,以及各項社會影響力指標之間的相關性。隨后,越來越多的Alt-metrics工具開始出現,吳勝男等學者以目前比較常見的Altmetrics應用工具Altmletric.com、Plum Analytics、ImpactStory、PLOS ONE Altmetrics、Readermeter、ScienceCard、PaperCritic以及CitedIn為研究對象,針對每一種工具的功能特征、優勢和不足進行詳細的分析和論述。其中,Altmetric.com是一款分析評估單篇論文Altmetrics指標的工具,由Digital Science公司開發,該工具綜合計算某一篇學術論文在Twitter、Google+、CiteULike、Mendeley、博客以及主流新聞媒體等信息源的引用數據,Altmetrics指標具有多種,一般被學者分為幾類進行研究。例如:Waltman L等學者對Altmetrics的11個指標通過因子分析分為3類。目前,Ahmetrics研究主要方法為社會網絡分析、數據挖掘與分析等,更多應用于論文、期刊、機構、學者等各種影響力評價領域,并通過不斷構建評價指標應用到多個領域,王凱利等學者融合了Alt-metrics和引文分析法構建期刊影響力評價體系,并對國際圖情期刊的影響力進行分析:Boetto E等學者發現傳統引用計數,社交媒體上的引用以及新聞和博客上的提及之間存在適度的相關性,并且定義一種方法,即綜合影響力得分(CIS),該方法可以協調不同的指標以提供多維影響力指標。另外,關于Ahmetrics指標的研究,更多則是關于各指標之間相關性,許丹等學者對比分析SCIE被引頻次、ESI高被引、FS、Ahmetrics各項指標之間的關系;陳勝龍等學者驗證其與學者H5指數間存在顯著相關性。
大數據的迅速發展,帶動了數據挖掘領域的研究,數據挖掘領域一般具有C4.5、K-Means、SVM、Apriori等多種具有影響力的算法,可涵蓋分類、聚類、統計學習、關聯分析和鏈接挖掘,其中關聯規則最早是由Agrawal R等學者提出,是數據挖掘領域的一種方法,可以挖掘數據的隱含特征,關聯規則經常應用于購物籃分析,從而為商品促銷提供參考,基本方法常為Apriori算法,并被許多學者應用于各種領域。例如:游立清等學者利用此算法提出卷煙物理指標關聯性的分析方法。目前,關于關聯規則的研究主要是關聯規則算法創新、關聯規則應用等方面,許多學者提出改進算法進行有關應用。例如:常見的多最小支持度的關聯規則挖掘、分類關聯規則挖掘等方法,田建勇、徐樾等學者將改進算法應用于計算機和動力工程等不同領域。關聯規則應用范圍較廣,學者紛紛創新,廣泛應用于多種領域,常見的是應用于中醫藥,探析用藥規律等問題,申玲玲等學者針對急性痛風性關節炎用藥規律研究。另外多是利用關聯規則進行影響因素的相關研究,曹磊等學者利用關聯規則對路面損壞狀況影響因素進行探討。
綜合來看,Altmetrics相關研究目前主要集中在與各指標進行相關性分析的研究,以及通過指標構建應用于不同領域進行評價,關于高社會影響力論文的論文特征和傳播特征相對較少,聚類分析和關聯規則作為常用方法,但較少結合應用于論文特征方面。因此,本文將Ahmetric TOP榜文獻作為高社會影響力文獻,利用頻數統計與分析探討高社會影響力文獻特征,同時利用聚類與關聯規則進行分析,探討不同學科、國家(地區)、文獻獲取方式、AAS值、被引次數等方面的傳播渠道特征。
1研究方法與數據來源
1.1研究方法
本文采用定性與定量分析的方法,首先從Ah.metric,com得到Ahmetric TOP榜文獻,基于所得數據進行頻數統計與分析,然后通過K-Means聚類將不同指標劃分級別,最后利用基于Apriori算法的關聯規則探討不同被引次數區間、AAS值區間、學科、國家(地區)和獲取方式的傳播特征。其中關聯規則是常用的數據挖掘領域方法,能夠有效挖掘數據隱含特征,Apriori算法是一個經典的挖掘規則算法。一般以商品交易為例,假設被研究對象稱為項(Item),所有項的集合為,={i1,i2,…,im},每條交易ti項對應的項的集合為I的子集,I的任何一個子集被稱為項集(Itemset),即X={ij1,ij2,…,ijm},事務數據庫為D={t1,t2,…,tm},每條交易數據ti構成事務D,每個項集包含的項的個數稱為項集的長度,一個長度為k的項集被稱為k項集,一個項集X在數據庫D中出現的次數稱為頻數,記為count(X)。關聯規則需要從數據中找出滿足最小支持度和置信度的關聯規則,其中定義如下:
1)支持度(support)。一個項集X的支持度指的是在數據集中包含該項集的記錄所占比例。如式(1)所示。若給定一個最小支持度support(min),所得support(X)≥support(min),則X稱為頻繁項集。
support(X)=count(X)/|D} (1)
2)置信度(confidence)。也可稱為可信度,它是針對一條比如X→Y的關聯規則來定義的,指的是包含X的交易中包含Y的比例。即:
cofidence(X=>Y)=|XY|=support(XY)/sup-port(X) (2)
3)增益(lift)。也可稱為提升度,是一個評判關聯規則的重要標準,大于1表示具有強關聯性,小于1視為無效規則,等于1則代表相互獨立。即:
lift(X=>Y)=|XY|/|X||Y|=support(XY)/support(X)support(y) (3)
1.2數據來源
本文所用源數據來自于Altmetric.com官方網站,選擇2015—2020年高社會影響力文獻,即榜單前100篇文獻,針對Altmetrics指標數據進行下載,除了2018年榜單數據下載200篇,其余年份各下載100篇文獻,并對缺少的數據進行查找補充,然后匹配期刊影響因子,去除期刊名稱來源于電子網站、會議等未匹配到影響因子的文獻,如來源于arXiv、CHI20:Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems等文獻,共得到文獻676篇,同時在谷歌學術中查詢被引次數,同時查詢和匹配第一作者的所屬國家(地區),以及第一作者與第二作者的附屬高校。
2 Altmetric TOP榜文獻整體特征分析
本文從學科、期刊、獲取方式、第一作者隸屬國家(地區),以及第一、二作者所屬高校幾個方面對Altmetric TOP榜文獻進行特征分析。
2.1學科分布
對2015—2020年文獻的學科進行整合,選取占比前10名學科,如表1所示。
可以看出,醫療健康排名靠前,占比較大,突出了醫療健康學科的社會影響力,同時由于新冠疫情的暴發,醫療健康領域就更加受學者和大眾的關注。隨后生物科學、人類社會研究、地球環境科學、物理科學、歷史與考古學、地球科學、信息和計算機科學等學科也具有較大影響力和傳播力度,但法律、哲學與宗教、工程、材料等許多學科占比較小,需要提高大眾關注度,努力提高社會影響力,利用大眾易于接受和理解的方式進行傳播。
通過計算不同學科的單篇被引次數、單篇Alt-metric Attention Score(AAS)和開放或自由獲取的占比,可以看出,信息和計算機科學單篇被引次數較大,單篇AAS較大,開放或者自由獲取的比重有待提升。由此可知,信息計算機科學領域具有較大的社會影響力,其研究文獻也具有較高的學術價值。心理學與認知科學、歷史與考古學及地球科學等學科單篇被引次數較少,單篇AAS僅有部分差距,也說明了提高社會影響力的同時,應該致力于提升文獻質量。
不同學科開放獲取占比有所差異,自然科學和技術、醫藥衛生等領域,OA論文的比例最高。在本文所研究Altmetric TOP榜文獻中,即屬于高社會影響力文獻,其中醫藥健康、地球科學等領域開放或自由獲取占比較大,物理科學、歷史與考古學等學科開放或自由獲取占比較小??傮w來看,醫藥健康領域文獻在高社會影響力文獻占比最大,同時開放或自由獲取占比較大,社會影響力較大。
2.2期刊分布
對高社會影響力論文進行匯總排序,部分期刊子刊并未歸類于正刊,即分為不同期刊進行整合,同時通過JCR查取2019年各期刊影響因子,所得結果如表2所示。
由表2可知,《Nature》《Science》《The Lan-cet》《Proceedings of the National Academy of Sci-ences of the United States of America》(PANS)、《New England Journal of Medicine》《Journal Of The American Medical Association》(JAMA)、《British Medical Journal》(BMJ)等排序靠前,其中在不計算子刊情況下,仍占比較大,同時期刊影響因子、單篇被引次數及單篇AAS較大,具有強大的學術價值和社會影響。許多科學研究領域中,很多最重要、最前沿的研究結果往往都是以短訊的形式發表在此期刊上,讀者主要是從事研究工作的科學家,但雜志前部的文章概括使得一般公眾也能理解雜志內最重要的文章?!禢ature》開放獲取比例較小,90.43%屬于付費獲取;《Proceedings of the National Academy of Sciences of the United States of America》(PANS)屬于高社會影響力文獻所占數量較大的期刊,2019年Top榜單占據5篇,但2019年期刊影響因子較小,同樣《The Public Library of Science ONE》(PLoS ONE)、《Scientific Repots》《Current Biology》等期刊影響因子較小,也說明了部分期刊社會影響力文獻數量與影響因子未必成正比關系,社會影響力較大的文獻數量占比較大,期刊影響因子不一定較大。綜合來看,《New England Journal of Medicine》《The Lancet》期刊各項指標數據較大,《The Public Library of Science ONE》(PLoS ONE)期刊各項指標數據較小。另外,絕大多數期刊開放(Open Access)或者自由獲?。‵ree to Read)占比較大,大眾獲取更為容易,同時也更容易得到傳播。
2.3文獻獲取方式情況
在所研究全部文獻中,付費獲取的方式占較大比重,為45.12%,開放獲取的比重僅次于付費獲取,占比38.61%,自由獲取占比最小。開放獲取(OA)是指學術論文發表后立刻在互聯網上公開發布,供讀者免費獲取,可以讓學術成果提高傳播力和影響力,為學者和大眾提供更便捷的知識獲取方式,也增強了知識共享與交流,所以,越來越多的國家(地區)積極促進知識開放。通過圖1可以發現,Closed(付費獲?。┍壤鹉杲档?,說明自由和開放獲取方式逐步增加,2020年開放獲取比例得到較大提升,自由獲取有所減少,分別對3種方式作線性預測可以看出,付費獲取占比呈現下降趨勢,而開放和自由獲取都呈現增長趨勢,進一步說明了知識獲取更加服務大眾,順應了知識共享的趨勢。
2.4國家(地區)分布
整合第一作者所屬國家(地區),并計算出單篇被引次數、單篇Altmetric Attention Score(AAS),以及各個國家(地區)開放或自由獲取占比,所得結果部分如表3所示??梢钥闯?,美國所占比例最大,接近一半,同時綜合指標都比較突出,說明美國具有較強的學術實力和影響力:英國開放或者自由獲取的比例較大,并且單篇被引次數較大,同樣具有較強影響力。綜合來看,第一作者所屬國籍統計中,美國和英國占比較大,其中美國最多,其他國家(地區)占比較少,需要進一步提高社會影響力和傳播能力,把握學術界的熱點前沿。
2.5學校分布
整合第一作者和第二作者的所屬機構,篩選前兩位作者隸屬于大學的文獻,所得結果部分如表4所示。文獻第一作者和第二作者對文獻具有較大的貢獻,據此統計,可以進一步得出不同高校的學術實力??梢钥闯?,哈佛大學所占比重最大,斯坦福大學、劍橋大學、牛津大學等占比較大,這些大學都屬于實力較強和知名度較高的院校。
3 Altmetric TOP榜文獻傳播特征分析
利用SPSS軟件對數據進行K均值聚類.根據數據大小,劃分為A、B、C、D、E 5類,以被引次數K均值聚類為例,如表5所示,將文獻按照指標數值大小劃分為5類,被引次數(E)屬于被引次數較低的區間,但占比較多,均值為154。其中,E級別占比普遍較大,反映了大多指標數值集中于某一區間。根據每篇文獻特征構建矩陣,然后利用SPSS MODELER進行關聯規則分析,探討各項特征之間的聯系。Apriori算法是常用于挖掘出數據關聯規則的算法,能夠發現事物數據庫中頻繁出現的數據集。設置最小置信度為0.8,最小支持度為0.1,最大前項數設為1,選擇增益大于1,最后結果以置信度排序。
3.1不同被引次數值區間下文獻傳播特征分析
以前項為被引次數進行研究,共得到關聯規則9項,如表6所示??梢园l現,后項為被引次數E級,即被引次數較小,與各項指標等級呈現強關聯,較多指標表現為E級,即數目平均較小的一類,說明了被引次數較少的文獻,微博、谷歌、博客、問答、維基、政策、影片、Reddit提及數普遍較小,也側面反映出被引次數較小,Altmetrics許多指標值普遍較小。所研究文獻中,被引次數和多指標值都屬于較小區間,而被引次數在A至D類的文獻,屬于被引次數較高文獻.與同行評審和推特提及數E等級呈現關聯性。同時可以發現,被引次數越大,微博、谷歌、問答、維基百科、政策、影視及Reddit提及數可能越大。
3.2不同AAS區間下文獻傳播特征分析
以AAS值為對象進行研究,共得到關聯規則9項,如表7所示,其中前項分為D和E級別,AAS值聚類均值集(A,B,C,D,E)=(33853,25814,8179,3637,1803),其中E類占比較大。從所得關聯規則可以看出,AAS值聚類級別為D類和E類的文獻特征仍有較大差異,AAS值E類文獻,普遍是推特、影視、維基百科、Reddit提及數較小,而D類文獻,普遍是微博、同行評審、問答、政策和谷歌提及數較小,可以看出,不同AAS值區間的文獻,具有較大的特征差異。同時也可以看出,AAS值越大,文獻推特、影視、維基百科、Reddit提及數可能越大。
3.3不同國家(地區)的文獻傳播特征分析
在所研究的Altmetric TOP榜文獻中,美國和英國占比較大,以前項為美國和英國,構成關聯規則10項,如表8所示,可以看出,第一作者國籍為美國和英國的文獻傳播呈現不同特征,第一作者隸屬于美國的文獻,微博、維基、影片、政策和問答提及數值普遍屬于E類,即屬于較低區間,而第一作者隸屬于英國的文獻,表現為同行評審、推特、谷歌、Reddit和政策提及數普遍屬于E區間,除了政策提及數普遍較少的特征外,其他特征具有較大差異。第一作者隸屬于兩個國家(地區)的文獻屬于E區的指標有很大差異,可以根據自身特征提高各項指標數值,從而提高社會影響力。
3.4不同期刊的文獻傳播特征分析
《Nature》和《Science》作為國際知名期刊,有著巨大的社會影響力和學術價值,同時在Alt-metric TOP榜文獻中,來源期刊為《Nature》和《science》及其子刊的論文占比較大,以兩者為前項,構成關聯規則為9項,如表9所示,可以看出兩大期刊論文的特征差異,來源于《Nature》期刊及子刊的文獻,與《Science》及其子刊相同的是同行評審和影視提及數都屬于E類,即數值區間屬于最低聚類區間,但存在部分差異,《Nature》期刊論文表現為谷歌和被引次數都屬于E類區間,說明Altmetric TOP榜文獻中,《Nature》期刊及子刊的論文,谷歌和影視提及數普遍不高,有待加強,而《Science》及其子刊的論文,微博、維基百科和政策提及數大都呈現出較低的特征。
3.5不同學科的文獻傳播特征分析
醫藥健康科學和生物科學在所研究文獻中占比較大,同樣以兩者為自變量構建關聯規則,所得結果如表10所示。生物科學和醫藥健康科學都與推特和Reddit提及數E類具有關聯性,有所不同的是生物科學微博提及數和AAS值屬于E類,均值為1803,說明了生物科學領域論文的社會影響力需要進一步提升,針對學科提出正確的方式進行傳播。醫藥健康領域文獻占比較大,微博、推特、維基百科、谷歌、影視、Reddit以及政策提及數集中屬于E類區間,不同學科的文獻傳播渠道有很大差異。
3.6不同獲取方式的文獻傳播特征分析
所研究Altmetric TOP榜文獻中,3種獲取方式的論文傳播特征有較大差異,如表11所示,開放獲取(OA)的文獻維基百科、影視和政策提及數為E類,屬于較小區間,付費獲取文獻則是Twitter Mentions和Reddit Mentions處于較小聚類區間,自由獲取的文獻微博、谷歌、問答及政策提及數都較小,不同獲取方式的文獻傳播特征差異明顯,付費獲取的文獻應該更注重推特和網站傳播。
4總結
通過對數據的統計與分析,可以發現AhmetricTOP榜文獻具有以下特征。
4.1文獻整體特征
1)學科分布情況。醫藥健康領域占比較大,為41.42%,生物科學、人類社會、地球環境科學、物理科學、信息與計算機科學等排名靠前,但總體占比不大,法律、哲學與宗教、工程、材料等學科占比過小,這些學科有待提高社會關注度與影響力。信息與計算機科學領域單篇AAS值和被引次數等總體較大,在學術界和社會都有著較大影響力,但開放或自由獲取比例仍有待提高。另外,不同學科開放獲取占比有所差距,醫藥健康、地球科學等領域開放或自由獲取占比較大,物理科學、歷史與考古學等學科開放或自由獲取占比較小。
2)期刊分布情況。期刊子刊并未劃分為主刊,期刊主要來源于《Nature》《Science》《The Lancet》《Proceedings of the National Academy of Sciences of the United States of America》(PANS)、《New Eng-land Journal of Medicine》《Journal of The American Medical Association》(JAMA)、《British Medical Jour-nal》(BMJ)等期刊,其中,《Nature》除去子刊以外,仍占比較大,體現期刊巨大的影響力,但在所研究文獻中,開放或自由獲取占比較小。綜合來看,《New England Journal of Medicine》《The Lan-cet》期刊單篇AAS值、單篇被引次數,開放獲取比例等各項指標占比較大,《The Public Library of Science ONE》(PLoS ONE)期刊各項指標數據較小。一般開放或者自由獲取比例較大,AAS值會較大。
3)獲取方式情況。在所研究文獻中,付費獲取比例仍然較大,占45.12%,開放獲取比例僅次于付費獲取,占比38.61%,自由獲取占比最小。通過線性預測可以發現,開放和自由獲取比例都呈現增長趨勢,付費獲取呈現下降趨勢,順應了知識共享和免費的趨勢。
4)第一作者國家(地區)分布情況。美國占比最大,接近于一半的比例,同時單篇AAS值和單篇被引次數、開放或者自由獲取比例都較大,第一作者隸屬于英國的占比僅次于美國占比,其他國家(地區)占比較小,需要進一步提升影響力和傳播力,把握學術前沿。
5)學校分布情況。以第一作者和第二作者所屬高校進行統計,可以發現,哈佛大學所占比例最大,斯坦福大學、劍橋大學、牛津大學等高校占比位列其后,Altmetric TOP榜文獻第一、二作者較多來自于知名高校。
4.2文獻傳播特征
本文通過構建關聯規則發現,不同被引次數區間、AAS值區間、國家(地區)、期刊、學科和獲取方式下,文獻傳播渠道特征差異明顯,由此可以根據不同情況,采取一定的措施進一步提高文獻影響力。
1)被引次數較小情況下,Altmetrics多項指標處于較小區間,與微博、谷歌、博客、問答、維基百科、政策、影片、Reddit提及數E類呈現強關聯,而被引次數位于A-D區間時,僅與推特提及數處于E類具有強關聯規則。可以看出,被引次數越小,Altmetrics多項指標可能較小,因此,提高文獻質量仍是提高影響力的重中之重。
2)AAS值較小時,文獻推特、影視、維基百科、Reddit提及數值較小,而D類文獻,微博、同行評審、問答、政策和谷歌提及數較小,可以看出不同AAS值的文獻傳播渠道有很大差異。
3)除政策提及數都較小以外,第一作者隸屬于美國的文獻微博、維基百科、影片和問答提及數值普遍屬于E區,第一作者隸屬于英國的文獻則是同行評審、推特、谷歌和Reddit提及數普遍屬于E區,可以看出不同國家(地區),文獻傳播渠道特征有較大差異。
4)來源于《Nature》及其子刊和《Science》及其子刊的文獻占比較大,除兩者文獻的影視和同行評審提及數都不高以外,來源于《Nature》期刊的文獻,谷歌和影視提及數普遍較小,而來源于《Science》期刊的文獻,微博、維基百科和政策提及數都較小。
5)醫藥健康和生物科學領域文獻占比較大,構成關聯規則。生物科學領域的文獻微博、推特和Reddit提及數普遍較小,并且AAS值普遍較小,需要進一步提高社會影響力,注重微博、推特和Reddit等渠道的傳播。醫藥健康領域文獻占比較大,但微博、推特、維基百科、谷歌、影視、Red-dit以及政策提及數所在聚類區間值較小。
6)開放獲?。∣A)的文獻傳播更多的是維基百科、影視和政策提及數為E類,付費獲取的文獻則是推特和Reddit提及數處于較小聚類區間,自由獲取的文獻微博、谷歌、問答及政策提及數都處于較小區間,3種文獻獲取方式下,文獻傳播渠道有較大差異。
5結束語
本文通過頻數統計分析得到文獻的學科、期刊、獲取方式、第一作者隸屬國家(地區),以及第一、二作者隸屬學校的分布情況,并利用K-Means聚類以及基于Apriori算法的關聯規則對Alt-metric TOP榜文獻進行分析,得到不同被引次數區間、AAS值區間、期刊、國家(地區)、學科和獲取方式情況下,文獻傳播渠道有較大差異。利用聚類和關聯規則分析文獻特征,具有一定的研究意義,并可以進一步拓展到挖掘評價指標,應用到更多學術影響力的評價中去。