999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多維特征的學術論文被引頻次預測與分析

2023-12-29 00:00:00蘇中琪
圖書館研究與工作 2023年4期

摘 要:被引頻次是評價論文影響力的重要指標,預測論文未來的被引頻次對政府科研政策制定、研究機構師資評聘、研究人員識別有影響力論文具有重要意義。文章根據論文發表3年內的作者層面、期刊層面和論文早期表現層面共27個指標,利用GBRT、Lasso、Linear Regression、AdaBoost和BP神經網絡五種算法,預測論文發表第4—10年的被引頻次。在構建的論文被引頻次預測數據集上比較算法效果,并以GBRT算法在2006年、2009年和2012年的預測結果為樣本,利用SHAP值分析指標的重要性。實驗表明GBRT算法在論文被引頻次預測數據集上R2指標最高達到0.97,優于其他模型。論文發表3年內累計被引頻次、論文發表3年內年均被引頻次、論文發表第3年被引頻次、期刊IF值、第一作者篇均被引頻次、論文發表第2年被引頻次、作者累計被引頻次最大值和作者論文篇均被引頻次近兩年變化最大值是GBRT模型最為重要的8個指標。

關鍵詞:學術論文;被引頻次預測;GBRT;指標;SHAP值

中圖分類號:G252.8 " "文獻標識碼:A

Prediction and Analysis of Citation Counts for Academic Papers Based on Multi-dimensional Features

Abstract Predicting the future citation counts of a paper is important for government research policy-making, research institution faculty evaluation, and researcher identification of influential papers. The article predicts the citation counts of papers in the 4th-10th year of publication based on a total of 27 indicators measured by the author, journal and early performance within 3 years of publication. The author also employs five algorithms: GBRT, Lasso, Linear Regression, Adaboost and BP neural network. The algorithm effects were compared on the constructed paper citation counts prediction dataset, and the importance of the indicator was analyzed using SHAP values to predict the results of the GBRT algorithm in 2006, 2009 and 2012. Experiments show that the GBRT algorithm achieves the highest R2 index of 0.97 on the paper citation counts prediction dataset, which is better than other models. Cumulative citation counts within 3 years of publication, average annual citation counts within 3 years of publication, citation counts in the third year of publication, IF value of the journal, average citation counts of the first author, citation counts in the second year of publication, maximum cumulative citation counts of the author, and maximum change in the average citation counts of the author's paper in the last 2 years are the eight most important indicators of the GBRT model.

Key words academic paper; citation counts prediction; GBRT; indicator; SHAP value

1 引言

隨著世界各國對科學技術的重視,科研人員開展了大量研究工作并以論文的形式發表。這些論文的影響力各不相同,對其進行影響力評估勢在必行。目前對論文影響力的評估有多種標準,其中最為重要的是論文被引頻次。論文被引頻次是一個便捷且高效的評價指標,廣泛應用于論文影響力的評估[1-2]。但是一篇文獻的引文積累是需要時間的[3],政府、研究機構和領域學者迫切需要在論文發表的早期階段,提前預測論文在數年后的被引頻次,以期為政府科研政策的制定、研究機構師資評聘、研究人員識別有影響力的論文提供一定參考。機器學習等人工智能技術的發展,為解決論文被引頻次預測問題提供了方向。如何選擇預測論文被引頻次的機器學習模型,并發現對模型預測起到重要作用的因素,成為了亟需解決的問題。

本文基于Semantic Scholar數據庫構建了共計56 289篇文章的被引頻次預測數據集,并選定了作者層面、期刊層面和論文早期表現層面共27個指標,結合Gradient Boosting Regression Tree(GBRT,梯度提升回歸樹)、Lasso(Least Absolute shrinkage and Selection Operator, 套索回歸)、Linear Regression(線性回歸算法)、AdaBoost(自適應增強算法)和BP(Back-propagation)神經網絡等五種模型,預測論文發表后4—10年的論文被引頻次,同時基于機器學習模型可解釋性原理,利用SHAP值(Shapley Additive Explanations)對GBRT模型在2006年、2009年和2012年的預測進行指標重要性分析,以確定能夠準確預測論文未來被引頻次的機器學習模型和起到重要作用的指標。

2 研究現狀

在國外的相關研究中,Robson等人[4]利用線性回歸模型基于論文和作者等14個特征預測6 122篇文章被引頻次,并發現作者數量、文章主題和發表期刊對預測較為重要。Tanmoy等人[5]利用SVR(Support Vector Regression)回歸模型基于作者和期刊等特征預測被引頻次。Lawrence等人[6]利用線性回歸模型基于作者和期刊等12個特征預測生物醫學論文的被引頻次。Kavita等人[7]基于2011到2016年700所大學論文的累計被引頻次和H指數分別預測2017年到2019年的論文被引頻次。Chen等人[8]基于論文特征和期刊特征,利用梯度提升回歸樹算法預測論文被引頻次。Alfonso等人[9]基于論文相關特征,利用樸素貝葉斯和邏輯回歸模型預測被引頻次。Lawrence等人[10]利用作者和論文相關特征基于SVM(Support Vector Machine)模型預測生物醫學研究論文的被引頻次。Xiao等人[11]利用作者和期刊等20個特征基于強化泊松模型預測論文被引頻次。Lokker等人[12]利用論文和期刊特征基于線性回歸模型預測臨床研究論文的被引頻次,R2指標為0.56。Li等人[13]利用SVR算法預測了論文發表第10年、11年和12年的被引頻次,R2(相關性系數)為0.68。Yan等人[14]利用KNN(K-Nearest Neighbor)和SVR算法預測了論文發表后第5年和第10年的被引頻次,其中預測發表第5年的R2為0.86。

國內學者對學術論文被引頻次預測也進行了一定研究,程子軒等人[15]基于作者特征和期刊特征,利用回歸方法預測526篇論文在發表第7年的被引頻次。牟象禹等人[16]通過實證研究發現,作者聲望和作者文章被引情況影響論文被引頻次。孟凡蓉等人[17]通過國內5本高被引核心期刊實證發現,論文發文時間和作者合作人數影響論文被引頻次。侯佳偉等人[18]發現期刊的聲譽影響論文的受關注度。

現有國外預測模型所利用的特征僅考慮了部分與論文被引頻次相關的特征,同時對這些特征在預測中起到的主要作用沒有進行深入分析。國內研究較多是論證作者H指數(H-index)、作者發文量、作者被引頻次、期刊影響因子(Impact factor, IF值)等指標與論文頻次的相關性,對預測論文未來被引頻次研究涉及較少。因此本文基于前人研究的相關成果,選擇作者層面、期刊層面和論文早期表現層面三個維度進行特征工程,利用機器學習的方法構建論文發表后4—10年的被引頻次預測模型,并利用SHAP值確定指標的重要性。

3 數據與方法

3.1 指標構建

論文作者因素、期刊因素、論文早期表現因素與論文被引頻次相關,但這三類因素是否能夠預測論文未來的被引頻次有待檢驗,因此本文從作者層面、期刊層面和論文早期表現層面三個維度進行特征工程,選定了論文發表3年內的27個預測指標(見表1)。

3.2 數據集

以“computer science”作為檢索詞,筆者在Semantic Scholar數據庫檢索2002年發表的計算機學科期刊論文和會議論文。以2005年作為時間節點獲取論文發表3年內的作者層面、期刊層面和論文早期表現層面數據。作者被引頻次、發表論文數、H指數和期刊發表論文數、被引頻次、H指數等數據從該數據庫的元數據中獲取,期刊的影響因子結合Web of Science數據庫獲取,部分期刊和會議論文集直接以影響因子計算公式計算獲取?;谏鲜鰲l件,以論文的被引頻次≥1來獲取論文2006—2012年的被引頻次,最終形成了共56 289條數據的論文被引頻次預測數據集。

3.3 算法選擇

3.3.1 Linear Regression算法

給定數據集D={(x1,y1),(x2,y2),……,(xm,ym)},線性模型通過學習數據集D得到屬性為x的線性組合的函數,能夠反映xi,yi之間的對應關系f(xi),模型利用以下公式表示:

(1)

3.3.2 Lasso算法

Lasso方法在求解時加入L1正則項,利用絕對數函數作為懲罰項來約束模型的回歸系數,在特定約束條件下保證回歸系數最小化殘差平方和。Lasso可以在數據中選取具有主要作用的因素,能夠降低模型的復雜度。

(2)

3.3.3 AdaBoost算法

AdaBoost是一種集成學習算法,通過訓練個體模型,將訓練好的個體模型集合起來,形成性能更強的模型。本文擬使用CART(Classification And Regression Trees,分類與回歸樹)模型作為個體模型。

(3)

3.3.4 BP神經網絡

BP神經網絡是目前應用比較廣泛的神經網絡,該模型模仿了人腦神經的特征,可以對數據進行并行式處理。BP神經網絡由輸入層、隱藏層和輸出層組成。各層節點分別與下一層節點相連接,連接會被賦予權重,體現上一層神經元輸出對下一層神經元的影響。

3.3.5 GBRT算法

GBRT算法性能較強,是目前廣泛應用的機器學習算法,對數據具有較高的預測精度和魯棒性,能夠處理線性和非線性數據。GBRT算法是一種迭代的回歸樹算法,其核心思想是每一棵數是從全部樹的殘差中來學習的。首先計算殘差并擬合殘差學習一個回歸樹:

(4)

更新后,得到回歸問題提升樹:

(5)

4 實驗與分析

實驗將論文被引頻次預測定義為回歸問題,由模型根據作者層面、期刊層面和論文早期表現層面等數據進行學習,輸出為論文被引頻次的預測值。

4.1 實驗環境

實驗以Intel(R) Xeon E5 @2.30GHz作為CPU,運行內存為16G,以Python3.6作為編程環境。

4.2 數據集劃分

實驗將數據集按照8:2的比例隨機劃分為訓練集和測試集,并打亂數據順序,隨機種子設置為42。

4.3 評價指標

為了評估模型的預測效果,實驗采用R2和MSE(均方誤差)作為評價指標。其中表示第篇論文真實的被引頻次,表示模型預測的第篇論文的被引頻次,N表示樣本總數。

(6)

(7)

本實驗采用機器學習可解釋性方法,利用SHAP值評估模型指標對于模型預測效果的貢獻度。設數據集中第i篇論文樣本為xi,第i篇論文的第k個特征為xik,論文被引頻次預測模型對該篇論文的預測值yi,論文被引頻次預測模型的基線即該模型所有樣本目標變量的均值為ybase,那么論文被引頻次預測模型的SHAP值服從以下公式:

(8)

為xik的SHAP值,由公式可以看出,為第i個樣本的第一個特征對模型預測值為yi的貢獻值。當gt;0,說明該特征對于最終預測值正向貢獻度較大,有助于提升預測效果。反之,則說明該特征對模型預測值貢獻度較小,具有負向作用,降低了預測效果。

4.4 參數設置

GBRT:learning_rate設置為0.1,n_estimators設置為100,min_samples_split設置為2,min_samples_leaf設置為1,max_depth設置為3。

BP神經網絡:BP神經網絡共四層,輸入層神經元設置為10,隱藏層神經元設置為10和6,輸出層神經元為1。各層激活函數設置為elu,kernel_initializer設置為RandomNormal',bias_initializer設置為zeros,l2正則化設置為0.009,優化器設置為Adadelta,學習率設置為1.0,rho設置為0.95,epsilon設置為1e-07,損失函數為MSE。

Adaboost regressor:n_estimators設置為50,learning_rate設置為1.0,loss設置為linear。

Lasso模型和Linear Regression模型無需設置參數。

4.5 實驗結果

根據表2和圖1,GBRT算法的R2指標在2006—2012年論文被引頻次的預測中均優于其他算法,在2006年被引頻次的預測中最高達到了0.97,在2012年的預測中達到了0.787 1。與AdaBoost相比,GBRT算法在2012年被引頻次預測的R2指標比AdaBoost算法最高提升了0.271,在2006年最少提升了0.054 7。BP神經網絡算法在2006年、2007年、2008年和2010年的R2指標均優于除GBRT之外的其他算法。Lasso算法和Linear Regression算法的預測R2指標較為接近,Linear Rgression算法的表現略優于Lasso。從整體的趨勢上看,各算法在2006年和2007年論文被引頻次預測的表現均優于后續年份的預測,除了AdaBoost算法分別在2009年論文被引頻次的R2優于前一年指標外,其他模型預測的R2均成逐年下降趨勢。

根據表3和圖2,GBRT算法在整體的誤差上除2010年和2012年高于BP神經網絡外,均低于其他算法。GBRT算法在2006年論文被引頻次預測的MSE最低為3.573。AdaBoost算法在各預測年份的誤差均高于其他算法,最高達到了489.006。從整體趨勢上看,隨著預測年份的遞增,各算法的預測誤差均有不同程度的上升。

4.6 指標重要性分析

實驗選擇了2006年、2009年和2012年預測作為樣本進行GBRT預測指標重要性的分析(見表4)。

在2006年的預測中,GBRT模型SHAP值最高的三個指標分別為論文發表3年內累計被引頻次、論文發表3年內年均被引頻次和論文發表第3年被引頻次,可以看出論文早期表現被引指標在預測2006年被引頻次時最為重要。其次,期刊的IF值和第一作者篇均被引頻次SHAP值相同,重要性高于其他指標。此外,論文發表第2年被引頻次、作者論文篇均被引頻次近兩年變化最大值、作者論文篇均被引頻次最大值和作者單篇論文最大被引次數的重要性高于剩余的18個指標。從整體上看,對GBRT模型較為重要的指標主要為論文早期表現指標和作者層面的指標,論文早期被引的表現、第一作者以及其他作者既往的學術成就對模型預測的作用比較大。對于期刊指標僅關注了IF值,可以看出在GBRT算法論文被引頻次預測中IF值的重要性強于其他期刊層面指標。

在2009年的預測中,GBRT模型SHAP值最高的三個指標與2006年相同,僅次序發生了變化,論文發表第3年被引頻次最為重要。作者累計被引頻次最大值和作者累計被引頻次近兩年變化最大值的SHAP值超過了期刊IF的SHAP值,這與2006年的指標重要性排序不同,說明在預測2009年被引頻次時作者的學術影響力比期刊影響力重要。第一作者篇均被引頻次的SHAP值大于論文發表第2年被引頻次的SHAP值,這與2006年指標重要性排序相同。與2006年預測不同之處是,作者發表的論文數最大值取代了作者單篇論文最大被引次數成為了排名第9的指標,說明作者發文量在論文作者層面指標中的重要性強于單篇論文被引頻次。

在2012年的預測中,GBRT模型SHAP值最高的三個指標與2006年和2009年的結果相同。與2009年結果不同的是,期刊IF值的重要性排名第四位,強于作者層面指標。期刊H指數和作者論文篇均被引頻次近兩年變化最大值出現在了排名前9的指標中,可以看出在預測論文長期被引頻次時,期刊層面部分指標的重要性強于部分作者層面指標。

雖然GBRT模型在2006年、2009年和2012年預測中指標重要性結果排序有部分差異,但總的來看,論文發表3年內累計被引頻次、論文發表3年內年均被引頻次、論文發表第3年被引頻次、期刊IF值、第一作者篇均被引頻次、論文發表第2年被引頻次、作者累計被引頻次最大值和作者論文篇均被引頻次近兩年變化最大值是GBRT模型最為重要的8個指標。

5 結語

本實驗基于論文發表3年內的27個作者層面指標、期刊層面指標和論文早期表現指標預測論文發表第4—10年的被引頻次。實驗選擇了四種機器學習模型和BP神經網絡模型進行對比,通過實驗結果可以看出GBRT算法的預測效果最好,且預測論文發表較近年份被引頻次的效果優于較遠年份。實驗利用SHAP值對模型進行了可解釋性分析,可以看出論文早期表現因素占有較大比重,說明學術界對論文的早期認可對被引頻次預測具有重要作用。在作者層面和期刊層面因素中,論文的第一作者或其他作者所累積的學術影響力及期刊影響因子能夠對被引頻次預測起到一定作用。

論文被引頻次預測模型可以有多種應用前景。對政府來說,可以利用模型對現有學科文獻進行影響力預測,為學科評估或科研政策制定提供一定參考。對科研人員來說,可以在文獻調研階段利用模型對收集的文獻進行未來被引頻次預測,從而尋找未來學術研究的趨勢和熱點,提前規劃研究方案。對高校或科研機構來說,可以利用模型評估應聘人員或現有研究人員的論文影響力,從而將預測的未來論文影響力作為評價體系的一部分,著眼未來進行招聘或業績評價。

本實驗的局限性在于,數據集的構建限定在了計算機學科和Semantic Scholar數據庫,對其他學科和其他數據庫的論文被引頻次預測需要進一步研究。

參考文獻:

[1] GARFIELD E,EMERITUS C.The use of journal impact factors and citation analysis for evaluation of science[C]//41st Annual Meeting of the Council of Biology Editors,April 17,1998,DoubleTree Hotel,Salt Lake City,UT,USA.Northbrook:Council of Biology Editors,c1998:1-15.

[2] MOED H F.Citation Analysis in Research Evaluation (Information Science and Knowledge Management)[J].Analysis,2005:57(1):13-18.

[3] 葛夢蕊,何開煦.替代計量學與OA資源的相關性研究[J].圖書情報知識,2016(5):84–92.

[4] ROBSON B J,MOUSQUèS A.Can we predict citation counts of environmental modelling papers? Fourteen bibliographic and categorical variables predict less than 30% of the variability in citation counts[J].Environmental Modelling and Software,2016(75):94–104.

[5] CHAKRABORTY T,KUMAR S,GOYAL P,et al.Towards a stratified learning approach to predict future citation counts[C]//Proceedings of the ACM/IEEE Joint Conference on Digital Libraries,September 08-12,2014,The City University London,London,UK.New York:IEEE,c2014:351–360..

[6] AHUJA K K.Prediction for citation and publication count using regression analysis[C]//Proceedings of the International Conference on I-SMAC IoT in Social,Mobile,Analytics and Cloud,August 30-31,2018,Coimbatore,India.New York:IEEE,c2018:460–463.

[7] AHUJA K K.Prediction for citation and publication count using regression analysis[C]//Proceedings of the International Conference on I-SMAC IoT in Social,Mobile,Analytics and Cloud,August 30-31,2018,Coimbatore,India:IEEE,2019:460–463.

[8] CHEN J,ZHANG C.Predicting citation counts of papers[C]//Proceedings of 2015 IEEE 14th International Conference on Cognitive Informatics and Cognitive Computing,July6-8,2015,Tsinghua University,Beijing,China.New York:IEEE,c2015:434–440.

[9] IBá?EZ A,LARRA?AGA P,BIELZA C.Predicting citation count of bioinformatics papers within four years of publication[J].Bioinformatics,2009,25(24):3303–3309.

[10] CHEN J,ZHANG C.Predicting citation counts of papers[C]//Proceedings of 2015 IEEE 14th International Conference on Cognitive Informatics and Cognitive Computing,July6-8,2015,Tsinghua University,Beijing,China.New York:IEEE,c2015:434–440.

[11] XIAO S,YAN J,LI C et al.On modeling and predicting individual paper citation count over time[C]//International Joint Conference on Artificial Intelligence,July 9-15,2016,Rutgers University,Newark,NJ,USA.New York:AAAI,c2016:2676–2682.

[12] LOKKER C,MCKIBBON K A,MCKINLAY R J,et al.Prediction of citation counts for clinical articles at two years using data available within three weeks of publication:Retrospective cohort study[J].BMJ,2008,336(7645):655–657.

[13] LI C T,LIN Y J,YAN R.Trend-based citation count prediction for research articles[J].Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics),2015,9077,659–671.

[14] YAN R,HUANG C,TANG J,et al.To better stand on the shoulder of giants[C]//Proceedings of the ACM/IEEE Joint Conference on Digital Libraries,June 10-14,2012, The George Washington University,Washington,DC USA.New York:IEEE,c2012:51-60.

[15] 程子軒,張向先,郭順利.基于作者特征和期刊特征的學術論文被引頻次預測模型構建與分析[J].情報科學,2021,39(3):179-184,192.

[16] 牟象禹,龔凱樂,謝娟,等.論文被引頻次的影響因素研究:以國內圖書情報領域為例[J].圖書情報知識,2018(4):43–52.

[17] 孟凡蓉,鄭燁,楊若愚.科技管理核心期刊論文被引頻次影響因素:基于國內5本高被引期刊的實證研究[J].出版科學,2016,24(2):57–63.

[18] 侯佳偉,黃四林,劉宸.學術論文的“馬太效應”——基于2009年度CSSCI人口學期刊的分析[J].人口與發展,2011,17(5):96–100.

作者簡介:蘇中琪,中國醫科大學圖書館數字服務組主任,館員,研究方向為文獻計量分析。

收稿日期:2022-06-10本文責編:孫曉清

主站蜘蛛池模板: 久草视频一区| 成人欧美日韩| 亚洲国产亚洲综合在线尤物| 韩日午夜在线资源一区二区| 国产黑人在线| 特级精品毛片免费观看| 99爱视频精品免视看| 国产网友愉拍精品| 国产成人禁片在线观看| 午夜毛片福利| 国内精自视频品线一二区| 综合天天色| 色婷婷综合激情视频免费看| 国产高清不卡视频| 91麻豆精品国产91久久久久| 欧美一区中文字幕| 成人va亚洲va欧美天堂| 国产综合日韩另类一区二区| 男女性色大片免费网站| 亚洲三级成人| 又猛又黄又爽无遮挡的视频网站| 国产日韩精品一区在线不卡| 欧美啪啪网| 免费福利视频网站| 国产喷水视频| 国产在线精品香蕉麻豆| 中文纯内无码H| 98超碰在线观看| 国产探花在线视频| 呦女精品网站| 亚洲人成人无码www| 国产在线精彩视频论坛| 美女黄网十八禁免费看| 毛片免费高清免费| 日韩福利在线观看| 国产激情无码一区二区三区免费| 亚洲无码视频喷水| 91九色国产porny| 久久国产精品77777| 亚洲娇小与黑人巨大交| 国产女人喷水视频| 精品欧美一区二区三区在线| 欧洲日本亚洲中文字幕| 九九热免费在线视频| 真实国产精品vr专区| 亚洲人成亚洲精品| 91视频青青草| 亚洲免费播放| 91精品情国产情侣高潮对白蜜| 欧美国产日韩在线播放| www.精品国产| 天堂成人av| 免费看美女自慰的网站| 成人福利在线观看| www.99在线观看| 国产一区二区福利| 国产永久无码观看在线| 国产精品欧美在线观看| 国产毛片一区| 全免费a级毛片免费看不卡| 激情乱人伦| 欧美成人日韩| 91偷拍一区| 毛片a级毛片免费观看免下载| 国产成人免费手机在线观看视频| 在线播放精品一区二区啪视频| 亚洲天堂成人| 午夜一级做a爰片久久毛片| 国产成人av一区二区三区| av手机版在线播放| 国产综合色在线视频播放线视| 欧美成人区| 国产精品视频系列专区| 亚洲国产欧美国产综合久久 | 一本大道无码高清| 国产噜噜在线视频观看| 国产亚洲精品yxsp| 国产精品夜夜嗨视频免费视频| 1024你懂的国产精品| 亚洲愉拍一区二区精品| 日日摸夜夜爽无码| 成年免费在线观看|