潘黎姿,龍俊羽,袁 藝,陳 娟,歐陽昭連△
(1.中國醫學科學院醫學信息研究所,北京 100020; 2.北京大學醫學部,北京 100191)
論文被引頻次可反映其在研究領域的影響力,是目前用于評判個人研究成果重要的傳統指標。期刊引證報告(JCR)影響因子較高的期刊,其論文被引頻次可能更高[1],但同一期刊的論文被引頻次可能差異較大[2]。隨著互聯網的快速發展,越來越多的科研成果以電子形式在網絡發布,Twitter,YouTube,Facebook,Blog等社交媒體和主流媒體平臺逐漸成為傳播研究成果的常見工具,加強了研究人員之間及其與社會的聯系,且可能影響論文被引頻次[3]。PRIEM等[4]提出了以Altmetric(替代計量學)指標來衡量論文基于社交網絡的影響力。Altmetric 網站是2011 年由英國人ADIE 開發的一款研究工具,通過提取單篇論文在不同社交網絡平臺和在線媒體提及的次數,以綜合計算論文網絡影響力。Altmetric網站提供文章在十二大數據源中的表現數據,包括公共政策文件、博客文章、主流媒體報道、Web of Science 引文數據、在線文獻管理軟件、同行評審出版平臺、學術社交論壇(Research highlights)、社交媒體(Facebook,Twitter,LinkedIn,Google +)等。合成生物學旨在通過挖掘基因功能元件和模塊,對底盤細胞代謝調控網絡進行基因設計、修改或補充,使活細胞產物滿足人類的需求,是生命科學、工程學、信息學等多種學科融合而成的一門新興學科[5]。本研究中探討了合成生物學領域高被引論文替代計量學指標和文獻計量學指標與被引頻次的相關性。現報道如下。
采用主題檢索方式,在Web of Science 數據庫的科學引文索引擴展版(SCIE)核心合集中以摘要、關鍵詞和標題字段檢索合成生物學相關論文,檢索式為(TS=(″synthetic biolog*″)OR SO =(ACS SYNTHETIC BIOLOGY));在檢索結果中選擇“article”類型的論文,且對其他字段不作限制。將檢索結果按被引頻次由高到低排序,以排名前1%的論文作為高被引論文,統計其標題、作者、發表時間、發表期刊和被引頻次。檢索時間為2023年6月21日,對論文的發表時間不作限定。
數據獲取:通過Web of Science 數據庫獲取高被引論文被引頻次和JCR影響因子作為文獻計量學指標。通過Altmetric 網站獲取替代計量學指標。1)Altmetric 評分,為Altmetric 網站根據論文在不同公共平臺的曝光情況加權計算獲得的綜合評分,通常用以衡量論文在公共平臺的綜合表現;2)Twitters,為論文在Twitter 的分享次數;3)Facebook Pages,為論文在Facebook 的分享次數;4)Mendeley,為論文用Mendeley軟件保存的次數,該軟件可提供一系列文獻管理功能,能有效地對文獻進行組織、標注和存儲管理;5)Patents,為論文被專利引用的次數,專利是指對產品、方法或其改進所提出的新的技術方案,專利申請材料中需對方案進行詳細描述,必要的原理闡述部分需引用文章等依據;6)Blogs,為論文被Blog 引用的次數;7)Weibo User,為論文在微博(Weibo)中被引用的次數。各指標數據獲取時間與論文檢索時間一致。
數據預處理:將所有數據匯總,查看缺失情況,排除缺失比例超20%的指標;其余指標用平均值填補缺失值。數據填補完整后,將所有指標值進行歸一化處理,即。其中,i表示上述9個指標中的第i個指標,xi表示指標原值,xi,new表示歸一化后的指標值,min(xi)和max(xi)分別表示xi的最小值和最大值。
采用R Studio 軟件分析高被引論文的年度發表情況,分別采用多變量、單變量回歸模型分析文獻計量學指標和替代計量學指標與被引頻次的相關性。
共獲得9 784 篇論文,以被引頻次排名前100 的論文為高被引論文,其中有2 篇會議論文(被引頻次排名分別為第23 和第54)無法獲取替代計量學指標而不納入,故選取排名為第101和第102的論文遞補。
指標數據缺失情況見表1。排除Facebook Pages,Blogs,Weibo User 3 個指標,納入6 個指標(見表2),其中包括文獻計量學指標2 個,替代計量學指標4 個。將缺失數據填補并將所有數據歸一化處理后,形成最終的數據集。

表1 指標數據缺失情況(%)Tab.1 Data missing of each indicator(%)

表2 納入指標的描述性統計Tab.2 Descriptive statistics of included indicators
1999 年至2021 年,高被引論文的發表趨勢為先上升后下降,集中發表于2011 年至2015 年(51 篇);2015 年后,發文數量明顯下降,可能是由于論文從發表到積累一定量的被引頻次需要時間。詳見圖1。

圖1 100篇合成生物學高被引論文年度發表情況Fig.1 Annualpublicationof100highly-citedpapersinsyntheticbiology
多變量回歸模型:以被引頻次為因變量,文獻計量學指標和替代計量學指標為自變量,共擬合2個多變量回歸模型。模型Ⅰ探究文獻計量學指標和替代計量學指標對被引頻次的總體影響。由于Altmetric 評分可反映替代計量學指標的綜合情況,故僅以Altmetric 評分和JCR 影響因子為自變量。結果顯示,Altmetric 評分與被引頻次呈顯著正相關,JCR 影響因子與被引頻次相關性不顯著;該模型僅可解釋被引頻次8.8%的變化。模型Ⅱ探究不同細化指標與被引頻次之間的關系,故將Altmetric 評分替換為Twitters,Mendeley,Patents。結果顯示,Mendeley 和Patents 與被引頻次均呈顯著正相關,JCR 影響因子和Twitters 與被引頻次相關性不顯著;Twitters 的影響力低于Mendeley 和Patents;該模型可解釋被引頻次92.9%的變化。詳見表3(其中95%CI為95%置信區間,表4同)。

表3 多變量回歸模型分析結果Tab.3 Results of multivariate regression model analysis

表4 單變量回歸模型分析結果Tab.4 Results of univariate regression model analysis
單變量回歸模型:對5 個自變量分別進行擬合(見表4)。結果顯示,僅Twitters的擬合結果不顯著。擬合結果顯著的4個模型中,Mendeley和Patents分別解釋了被引頻次90.0%和85.6%的變化,JCR 影響因子和Altmetric評分僅分別解釋了被引頻次0.1%和8.6%的變化。
本研究中,多變量回歸的2 個模型分析結果顯示JCR 影響因子與被引頻次無顯著相關性,單變量回歸模型分析結果顯示JCR影響因子與被引頻次呈弱相關,提示合成生物學高被引論文的被引頻次與期刊的JCR 影響因子相關性弱或無關。這與文獻[6 - 7]的研究結果一致。提示高JCR影響因子的期刊對論文被引頻次的貢獻可能較低,提示學者應專注提高論文水平,而非一味追求高JCR 影響因子。多變量、單變量回歸模型分析結果均顯示替代計量學指標(Altmetric 評分)與被引頻次顯著相關,且國內外多位學者用不同的替代計量學指標和統計學方法得出公共平臺對論文引用有正向影響的結論[8-12]。提示在互聯網高速發展的時代,論文影響力的傳統評價體系已發生改變,互聯網的及時性可提高論文的傳播速度和范圍。科研人員在發表科研成果的同時,應充分利用公共社交媒體平臺,及時發布最新的研究進展,增加公眾和其他學者對研究成果的了解和關注,從而提高論文的被引頻次和影響力。
本研究中,Twitters 與被引頻次無顯著相關性,Mendeley 和Patents 相關性均較高。有研究發現,Twitters對論文被引頻次的影響程度在不同學科中不同,其中對普外科[13]、泌尿外科[14]、神經外科[15]學術論文被引頻次的影響程度較低,對心血管外科[16]、整形外科[17]、兒科[18]學術論文的影響程度較高。分析原因,心血管外科、整形外科和兒科患者群體大、公眾關注度高或主題與日常生活貼近,更易在Twitter平臺傳播,故Twitters與被引頻次相關性高。合成生物學是一門新興學科,發展歷史短,研究內容較前沿,難以受到大眾的關注,故在Twitter平臺傳播效果欠佳。Mendeley 作為一款文獻管理軟件,其使用者多為專業學者和研究人員;專利申請因具有創新性和新穎性,需緊跟領域最新理論進展來支撐技術創新。故上述兩類使用人員更加關注行業前沿,在合成生物學領域表現出與論文被引頻次顯著的相關性。本研究的不足之處在于,僅對合成生物學領域的高被引論文進行研究,在研究樣本的選擇上有一定偏倚,故對不同學科及不同引用水平的論文可能產生不同的結論,未來應擴大研究范圍,針對更多學科的全范圍論文進行建模,同時納入更多指標,獲得更普遍適用的結論。
綜上所述,合成生物學高被引論文的被引頻次與期刊JCR 影響因子相關性小或無關,替代計量學指標(除Twitters 外)在一定程度上可反映論文的影響力。未來可利用替代計量學指標預測論文的影響力或將其融入現有文獻評價系統中,使研究成果影響力的評價方法更符合當代互聯網時代的發展趨勢。