侯劍華,李 昊,張 洋,高繼平
(1.中山大學信息管理學院,廣州 510006;2.中國科學技術信息研究所,北京 100038)
2004年,van Raan[1]將科學文獻在發表后的一段時間未被引用(“沉睡”),而后突然獲得了大量引用(“被王子喚醒”)的現象稱為“科學睡美人”(SBs)。而后,Li等[2]又提出“全要素科學睡美人”對這一概念進行補充。科學文獻演化的這一現象也被稱為“抵制發現”(resisted discovery)[3]、“過早發現”(premature discovery)[4]、延遲識別(delayed recognition)[5]。實際上,科學睡美人是基于引文軌跡的科學知識擴散的一種特殊現象,其揭示了科學信息通過引文進行擴散的重要機制[6],是科學發展不可或缺的[7]。本文將基于引文指標揭示的科學睡美人稱為citation-based sleeping beauty(C-SB),在其演化軌跡中,“沉睡-蘇醒”階段的轉換特征以及蘇醒機制等都是通過引文指標的變化進行測度的。
然而,社交媒體的快速發展給科學交流和知識擴散模式帶來了革命性的變化,科學文獻在社交媒體平臺獲得的瀏覽、保存、討論等大量數據,以及由此建立起來的定量測度指標,為研究科學睡美人文獻的演化機制提供了新的視角和途徑。科學文獻在發表后的知識演化軌跡不僅包括基于引文指標的演化軌跡,而且包括基于社交媒體指標的演化軌跡。本文將基于引文指標和社交媒體指標綜合作用形成的睡美人,稱為Altmetrics-based sleeping beauty(A-SB)。從引文指標和社交媒體指標綜合視角下,重新審視科學文獻的知識擴散和演化軌跡,是對傳統基于引文的科學睡美人研究的重要補充和創新發展。
因此,本文基于社交媒體平臺,綜合社交媒體指標和引文指標,對基于引文的科學睡美人的研究進行拓展,在Altmetrics視角下揭示科學睡美人在延遲識別階段的動態演化特征。本文的貢獻主要包括:
(1)揭示了科學睡美人在社交媒體平臺的一種動態演化機制,從Altmetrics指標的分布特征以及各階段的演化特征兩個維度分析了A-SB的動態演化過程;
(2)定義了A-SB沉睡階段的假寐狀態,并分析了假寐狀態對A-SB在延遲識別階段演化特征的影響;
(3)在綜合視角下重新測度C-SB的演化軌跡,驗證了在文獻演化軌跡測度與演化類型研究中加入Altmetrics指標的必要性。
在科學中,一篇科學文獻發表后被引頻次隨時間的分布被稱為引文軌跡[8],其在一定程度上可以反映文獻的演化規律。其中,科學睡美人(SBs)是一種特殊類型的引文軌跡。目前,對科學睡美人演化的研究主要集中在科學睡美人的引文演化特征、科學睡美人的形成原因及影響因素、王子文獻的識別以及科學睡美人的喚醒機制。現有研究對科學睡美人的“沉睡-蘇醒”時間進行了界定(表1)。科學睡美人的沉睡和蘇醒都是指一段持續的時間狀態,其中,①睡眠期:在3~5年內平均每年被引不超過2次;②蘇醒期:在睡眠期以后的某個時期內(4年以上)得到大量的引用(被引20次以上)[9-14]。

表1 科學睡美人文獻沉睡和蘇醒狀態的界定(部分)
在引文演化軌跡中,早期的引文長尾分布是科學睡美人進入睡眠狀態的重要表征。這種長尾可以量化為被引的延遲[15],其分布可以用于科學睡美人的識別與測量[16-17],同時,也在一定程度上對科學睡美人的形成進行預測[18]。雖然學術發展是科學睡美人文獻形成的重要因素[19],但是也需要慎重看待早期的引文軌跡[20]。另外,科學睡美人在演化軌跡后期可能被高度引用[12],仍需要注意睡眠晚期的自引[21]。
在引文演化軌跡中,引文也是研究科學睡美人蘇醒機制的唯一指標。引文喚醒了科學睡美人,并使SBs受到廣泛的科學關注[22]。這種引文被稱為“王子文獻”[1]。因此,王子文獻的特征[23]和識別標準[24]成為研究睡美人蘇醒機制的主要手段。然而,“睡美人”文獻也有其被喚醒的必然性[25]。最近,van Raan等[26-28]發現睡美人文獻更容易被專利文獻引用,技術驅動是睡美人文獻的主要喚醒機制[29]。
在現有研究中,一方面,對睡美人文獻演化軌跡的關注主要集中在“沉睡”“蘇醒”兩個狀態的研究,而忽視了沉睡過程中的被引用情況對科學睡美人演化各階段的影響①童話睡美人的原始故事中,在王子吻醒睡美人之前,曾經有許多試圖前來喚醒睡美人的“王子”們(準王子),最終以失敗告終。。科學睡美人在沉睡過程中同樣會受到某些文獻的引用,卻未被成功喚醒。梁立明等[30]介紹睡美人概念時,用“引路人”來稱呼引導王子文獻去喚醒科學睡美人的一種影響因素,而沒有關注睡美人文獻在沉睡過程中的其他引證文獻。Li等[31]提出的“心跳譜”注意到了沉睡期間每一年的被引頻次與SBs蘇醒概率之間的關系,但尚未討論其在科學睡美人整體演化中的作用。另一方面,這些研究均是基于引文演化軌跡來開展有關科學睡美人文獻的研究,然而,隨著社交媒體平臺的迅速崛起,基于引文演化軌跡來衡量科學論文的影響力得到了極大地拓展。測度科學論文的動態演化軌跡,除了引文軌跡,還應體現在包括Viewed、Saved、Discussed和Recommended在內的Altmetrics指標的演化軌跡。
隨著社交媒體的快速發展,科學文獻的演化軌跡不僅包括基于引文演化軌跡的視角,也包括基于社交媒體的演化軌跡[32-33]。并且基于社交媒體平臺的科學文獻演化軌跡,對揭示科學文獻的演化機制具有重要價值。用于測度科學文獻的社會影響力演化軌跡的計量指標,被稱為Altmetrics[34]。有研究發現,部分Altmetrics指標與引文之間的相關性較弱[35-36],如推文數量與引用之間的相關性較弱[37-38]。也眾多研究發現Altmetrics指標(save,discussion,download,read in Mendeley[save],number of readers in Mendeley,recommendation measures,the number of tweets,F1000,bookmarks,等等)與引文指標之間具有強相關性(表2)[39-47]。然而,Altmetrics指標與引文指標并不是簡單的相關與否,不同學科之間的差異直接影響了其相關性[48],目前的Altmetrics并不足以取代傳統的文獻計量學[49],而是對文獻計量學和科學計量學的重要補充[50-53]。

表2 Altmetrics指標與引文指標相關性的研究(部分)
基于上述研究,研究者結合Altmetrics指標,來拓展引文視角下不同演化類型文獻視域,發現高被引文獻在Altmetrics指標上的累積特征與在引文上的演化軌跡相比存在差異[60-61]。這些研究僅僅將社交媒體指標作為計量體系的補充,并沒有嘗試構建新的計量模型。不過,隨著引文數據來源的日益豐富和開放存取平臺的推廣與完善[62],學者們開始嘗試通過結合引文指標與替代計量學指標,驗證了社交媒體軌跡與引文軌跡相結合的可行性[63-64],構建了文獻綜合評分體系[65-67]與期刊綜合評價體系[64,68],并進行了實證研究[69-70]。這些研究在一定程度上驗證了綜合引文與Altmetrics來衡量學術論文影響力的可行性。
現有研究主要關注Altmetrics指標與被引量之間的關系,尚未對引文與Altmetrics共同作用下的科學文獻的綜合性演化軌跡進行深入的研究和關注。即側重于在Altmetrics視角下為科學論文提供的一個綜合評分體系,目的在于科學評價,本質上是在探討社交媒體在科學計量中的作用與價值,沒有對Alt‐metrics指標與引文指標共同作用下的科學論文的演化軌跡進行測度。基于引文指標與社交媒體指標綜合視角的指標體系構建方法傾向于成熟,為在新視角下拓展SBs等不同文獻演化類型的研究提供了基礎。Hou等[71]提出了基于社交媒體的科學睡美人(so‐cial media-based sleeping beauty)。然而,該研究中沒有融合引文指標,社交媒體與引文相結合的綜合指標作用下的科學睡美人演化軌跡及特征與基于社交媒體指標作用的睡美人演化軌跡存在一定的差異。
因此,本文結合引文指標與Altmetrics指標,基于綜合視角下科學睡美人(A-SB)的識別結果,重點分析A-SB在延遲識別階段各指標的分布特征以及動態演化特征,并對樣本中的C-SB與A-SB進行比較分析,對傳統上基于引文軌跡的科學睡美人的演化研究進行拓展與補充。
本文以PLoSBiology期刊創刊以來發表的文獻數據(共3541篇)為樣本,數據獲取自PLoSBiology開放存取平臺和Web of Science(WoS)核心合集數據庫。其中,文獻的Citation指標的數據來自Web of Science核心合集數據庫中收錄的PLoSBiology期刊每年出版的文獻數量,并獲取每一篇文獻每年獲得的被引數量。文獻社交媒體指標,主要包括View、Save、Discussed、Recommended指 標[72-73],數據來自PLoSBiology期刊網站開放存取的數據,其具體來源與含義如表3所示。其中,Viewed、Discussed來源于開放存取平臺、社交網站,Saved來源于文獻管理網站,Recommended來源于科學論文在線推薦平臺,Citation來源于學術數據庫。指標來源為文獻樣本集在plos.org上截至2019年3月的數據。對PLoSBiology期刊中的每一篇文獻的相關數據進行匯總和清洗,去除撤稿、Correction、Letter、Biographical Item等類型的文獻,將剩余文獻數據作為本文的目標數據,使用Excel和Matlab 2018b對選定的目標數據進行分類計算處理。

表3 PLoSBiology期刊的文獻數據指標及來源
本文使用Altmetrics-based beauty index(Ab in‐dex)來描述一篇文獻發表后每個月產生的綜合性影響力,即引文指標(IA)和社交媒體指標(IS)共同體作用的函數值,即

具體地,本文采用Citation(C)、Viewed(V)、Save(S)、Discussed(D)、Recommended(R)五類指標來描述一篇文獻發表后產生的綜合性演化軌跡的變化情況。
因此,一篇文獻自發表后,第i個月的Ab index動態變化公式為

其中,Wtv、Wts、Wtd、Wtr、Wtc分別為V、S、D、R、C指標對應的權重;i為時間,表示為一篇文獻發表后第i個月,Abi為一篇文獻發表后第i個月的綜合性影響力。需要注意的是,由于無法在WoS數據庫中獲取每一篇文獻具體在每一個月的被引情況,只能獲取一篇文獻在每一年的被引數據,訪問文獻的單個月的引文軌跡是困難的。因此,這里的Ci為一篇文獻在某一年中,每個月獲得被引量的平均值[74]。例如,一篇文獻在發表后第3年被引了12次,那么在第3年中的每個月的被引量為1次。
對于權重Wtv、Wts、Wtd、Wtr、Wtc的確定,本文基于層次分析法,按照五類指標對一篇文獻綜合性演化軌跡的作用程度構建結構矩陣,進一步對各個指標賦予不同的權重值。層次分析過程的基本步驟如下。
比較某一層次的n個因素X1,X2,…,Xn對上一層次一個因素(影響力)的影響,可以從X1,X2,…,Xn中任取Xi與Xj比較其對于影響力的貢獻(或重要性)大小。按照表4的“1~9比例標度”對Xi/Xj賦值[75]。

表4 標度的含義
構建模型矩陣,如表5所示。

表5 Altmetrics指標與引文指標權重的確定

矩陣B的最大特征值為λmax=5.2837,最大特征值的特征向量為(0.05150.07700.28270.28270.9919)T。

在引文視角下,SBs的研究所采用的時間統計單位是年。由于許多文獻的出版周期是月,按年統計時,將給每年1月和12月出版的文獻帶來較大的時間差距。例如,1篇1月出版的文獻,沉睡4年后發生蘇醒,那么其沉睡期大于等于47個月,但是1篇12月出版的文獻,沉睡四年后發生蘇醒,那么其沉睡期大于等于36個月。
然而,在Altmetrics-based視角下,文獻在社交媒體平臺的擴散速度較快,以月為單位統計文獻的演化軌跡,更能夠精確地反映文獻的動態演化過程,因此,為了更加精確地衡量文獻的演化軌跡,在社交媒體視角下識別SBs,區別于基于引文軌跡的科學睡美人(citation-based sleeping beauty,C-SB),本文以月為單位,重新界定了基于社交媒體的科學睡美人(Altmetrics-based SB,A-SB)及全要素科學睡美人現象(Altmetrics-based all-elements SB,Aa-SB)的識別標準,并對相關概念進行定義。
Altmetrics-based SB(A-SB):是指在社交媒體上一種特殊的文獻演化類型,具體表征為文獻自發表后,連續36個月或36個月以上處于沉睡或假寐,隨后突然得到大量且持續的“關注”(量化為連續4個月或4個月以上超過閾值的Ab值),從而得以蘇醒。A-SB在延遲識別階段的演化軌跡可描述為“沉睡(假寐)-蘇醒”。
Altmetrics-based all-elements SB(Aa-SB):受Li等[2]的啟發,本文認為在社交媒體上同樣存在著“全要素科學睡美人”這一特殊的SBs曲線,其具體表征為文獻自發表后,即受到了大量且持續的“關注”,隨后進入沉睡階段,再進入蘇醒。Aa-SB在延遲識別階段的演化軌跡可描述為“第一次蘇醒-沉睡(假寐)-第二次蘇醒”。
蘇醒:在C-SB的識別研究中,通常以年作為時間單位。C-SB在連續4個時間(年)保持蘇醒狀態被稱為真正蘇醒,但是按每月的時間來看,其蘇醒的狀態不一定是連續的。為保證研究的一致性,本文同樣選取連續4個時間間隔來對A-SB的蘇醒進行界定:在社交媒體平臺下,文獻連續4個月時間的綜合性影響力值(Abi)均大于該期刊所有文獻在每個月綜合性影響力的平均值即時,A-SB進入蘇醒階段。


本文對PLoSBiology期刊中所有文獻在每個月的綜合性影響力進行計算。首先計算出綜合性影響力的平均值----Ab=5.38。因此,對PLoSBiology期刊上出版的文獻而言,定義其蘇醒狀態為(Abn…Abn-3)>5.38,沉睡狀態為AbΔn≤2.69。計算出3541篇文獻自出版后每個月獲得的綜合性影響力Ab值,并根據第3.3節的定義,識別樣本中的ASB與Aa-SB(表6)。

表6 PLoSBiology期刊的A-SB信息表
為了探討A-SB演化軌跡中各階段的影響因素,從時序分布與累積分布對A-SB與Aa-SB的演化過程中各指標分布特征進行分析。
4.1.1 沉睡階段A-SB的演化過程分析1)引文指標的軌跡分布特征
從時間趨勢圖來看,A-SB在沉睡階段中的引文時間分布具有峰值現象,有的A-SB甚至會產生二次峰值(圖3)。

圖3 A-SB在沉睡階段中的Citation指標時間分布
通過計算11篇A-SB引文第一次出現峰值的時間與沉睡階段總時長之比的平均值,得出A-SB的引文數量第一次出現峰值的時間在沉睡時長的52.1%,即A-SB的引文第一次出現峰值的時間大概在沉睡階段時長的一半。然而,通過計算11篇ASB引文最大值出現的時間與沉睡階段總時長之比的平均值,得出A-SB在沉睡階段中引文獲取數出現最大值的時間在沉睡時長的60.79%。第一次出現峰值的時間與最大值出現的時間并不一致,兩者均影響了A-SB的假寐狀態。不同的是,Citation指標的峰值是A-SB發生假寐現象的原因之一,而較峰值更晚出現的最大值,則是A-SB處于假寐和后期進入蘇醒狀態的原因之一。
2)社交媒體指標的軌跡分布特征
在沉睡階段中,產生主要影響的是Viewed指標,Saved、Discussed的影響較小,Recommended未產生影響。各指標的特征具體如下。

圖2 Aa-SB文獻Alerstam(2007)于延遲識別階段的演化軌跡
Discussed:11篇文獻有8篇在沉睡階段受Dis‐cussed影響。由圖4可知,A-SB在沉睡階段中Dis‐cussed的分布曲線均呈長尾右偏態,A-SB在沉睡階段第一次獲取的Discussed指標數值為最大值。通過計算這8篇A-SB的Discussed指標開始發生作用的時間與沉睡階段總時長之比的平均值,得出A-SB的Discussed集中分布的時間在沉睡時長的81.6%,即A-SB的Discussed指標開始發生作用的時段集中在沉睡階段的后期。通過觀察假寐狀態的時間分布,發現A-SB在臨近假寐或處于假寐狀態時,往往伴隨著Discussed指標的影響。Discussed的分布與作用不足以喚醒A-SB,但其最大值是A-SB進入假寐的原因之一。

圖4 A-SB在沉睡階段中的Discussed指標時間分布
Saved:11篇文獻有7篇在沉睡階段受Saved影響。通過計算這些文獻的Saved指標開始發生作用的時間與沉睡階段總時長之比的平均值,可得出ASB的Saved指標開始發生作用的時間在沉睡階段的59.89%,即A-SB的Saved指標開始發生作用的時間集中在沉睡階段的中期。通過計算得出Saved指標達到最大值的時間是沉睡總時長的71.8%,即A-SB的Saved指標達到最大值的時間主要集中在沉睡階段的后期,比開始發生作用的時間較晚。此外,Saved在時間分布上不具有連貫性。與Discussed指標相似的是,A-SB在沉睡階段的假寐狀態中時常伴隨著Saved指標的影響。
Viewed:在沉睡階段中,Viewed發揮著重要的作用,其在A-SB與Aa-SB的演化過程中又具有較大區別。觀察4篇A-SB的Viewed指標時間分布(圖5)與其趨勢線(圖6),發現Neugebauer(2006)、Tsuriel(2006)、Del Cul(2007)、DeRisi(2003)的Viewed時間分布曲線均呈長尾右偏態,其Viewed指標均在沉睡階段開始的第3個月后便迅速下降,之后進入到相對平穩的長尾期,直到蘇醒前的一段時間才漸漸上升。

圖5 A-SB在沉睡階段中的Viewed指標時間分布

圖6 A-SB在沉睡階段中的Viewed指標趨勢線
由圖7和圖8可得,Aa-SB的Viewed時間分布較A-SB更均勻,但仍具有一定的遞減趨勢,并且數值波動幅度較大,在沉睡階段中易出現峰值。

圖7 Aa-SB在沉睡階段中的Viewed指標時間分布
通過比較發現,A-SB的Viewed指標時間趨勢更加具有規律性。其是A-SB沉睡階段中發生早期假寐的原因,也是A-SB進入假寐狀態的主要影響指標;Aa-SB的Viewed指標整體呈波動遞減趨勢,在沉睡階段的中后期易出現峰值,這是Aa-SB在沉睡階段期間易進入假寐狀態、沉睡狀態不穩定,并且在中后期易發生假寐的原因。
因此,在沉睡階段,A-SB與Aa-SB均獲得較少的Citation、Discussed、Saved、Viewed以及Recom‐mended,這是其進入沉睡的原因。但是,從時序分布來看,Citation的中期峰值、Discussed與Viewed的長尾與后期峰值以及Saved的分散分布特征,共同塑造了A-SB沉睡階段特別是假寐的演化軌跡。
此外,從各指標的累積分布來看(表7),在沉睡階段中,Viewed貢獻的影響力大于Citation、大于Discussed與Saved。這說明,一方面,A-SB在沉睡期間仍會受到一定的瀏覽與下載的影響,但缺乏討論、標注、引用等更深入的關注行為;另一方面,各指標影響力的普遍不足,也反映了基于綜合視角的測度方法,能夠更加完整地反映科學文獻的演化軌跡。

表7 A-SB在沉睡階段各指標數值的累積分布
4.1.2 蘇醒階段A-SB的演化過程分析
從累積分布來看(表8),在蘇醒階段,A-SB與Aa-SB受Discussed指標的影響都較小,且完全不受Recommended指標的影響。A-SB受Saved指標的影響較小,只有1篇受Saved指標影響;而Aa-SB受Saved指標影響較大,7篇Aa-SB中有5篇受到Saved指標的影響,并且Saved具有一定的影響力。這些指標的分布都是不連續的,只有Viewed指標具有較大的數值,并呈時序分布的特征。由于Aa-SB經歷了兩段蘇醒,因此,為了進一步分析各指標的具體作用,對A-SB蘇醒階段、Aa-SB早期蘇醒與第二次蘇醒階段的Viewed時序分布特征進行分析。

表8 A-SB、Aa-SB在蘇醒階段各指標總數值

圖10 Aa-SB在第一次蘇醒階段中的Viewed的時間分布曲線
從時序分布來看(圖9~圖11),A-SB與Aa-SB在蘇醒階段的Viewed數值基本高于蘇醒邊界線。這說明Viewed是A-SB與Aa-SB維持連續的蘇醒狀態并進入蘇醒階段的最主要因素。將Aa-SB的第一次蘇醒與第二次蘇醒的軌跡分離后進行觀察,發現Aa-SB第一次蘇醒的Viewed均值大于第二次蘇醒的Viewed均值,第二次蘇醒的Viewed均值大于A-SB蘇醒階段的Viewed均值。究其原因,一方面,是由于發表于社交媒體的文獻一經開放就會得到大量的瀏覽與閱讀,隨后逐漸趨于平穩[76];另一方面,ASB與Aa-SB可能是具有重大價值,但爭議性較強,從而不被主流接受的研究成果,因而在早期受到短暫關注后便進入沉睡。此外,Aa-SB的Discusse、Saved、Citation都集中在第二次蘇醒中發生作用。

圖1 A-SB文獻Neugebauer(2006)于延遲識別階段的演化軌跡

圖9 A-SB在蘇醒階段中的Viewed的時間分布曲線

圖11 Aa-SB在第二次蘇醒階段中的Viewed的時間分布曲線
綜上所述,從累積分布特征(表9)來看,Viewed是A-SB在延遲識別階段演化過程的最大影響因素,Viewed和Citation在A-SB的蘇醒中發揮著重要的作用。從時序分布特征來看,Viewed也是各階段轉換的主導指標。盡管其他Altmetrics指標與Citation影響力較小,但是其分布對A-SB、Aa-SB在演化軌跡特征起著重要的影響作用。

表9 Altmetrics各指標在A-SB、Aa-SB延遲識別階段的影響力占比(%)
這些表征說明,在社交媒體上,與大部分新研究的命運類似,A-SB與Aa-SB在發表后會獲得平臺用戶的大量瀏覽與下載。然而,這一關注是短暫的,由于缺乏持續且足夠的瀏覽、討論以及保存,這些文獻逐漸淡出人們的視野,從而進入漫長的沉睡階段。它們的蘇醒則是多種傳播路徑共同作用的結果。
為了進一步探討A-SB文獻在延遲識別階段中的整體動態演化,本文使用SPSS軟件對各階段指標信息進行相關性分析(表10)。

表10 A-SB、Aa-SB指標數據計算結果
首先,對各階段指標數據進行正態性檢驗(表11),發現A-SB、Aa-SB的假寐程度、沉睡深度的S-W檢驗顯著性P<0.05,即存在不符合正態分布的數據。因此,本文使用Spearman相關系數對各指標之間的相關性進行分析。

表11 正態性檢驗(Shapiro-Wilk)
在Spearman相關分析結果中(表12),可以看出以下特征。

表12 A-SB各階段指標數據相關性分析
一方面,假寐均值、標差與沉睡標差之間,以及假寐時長與沉睡均值、獲得的Viewed之間,都存在顯著的中度相關性。這說明假寐時長與強度對ASB的沉睡深度有著正向的促進作用,若A-SB的假寐強度越強,持續時長越長,則A-SB可能沉睡得更深,而難以受人關注。也說明了“假寐”這一特殊的狀態與沉睡階段之間具有明顯聯系,前者能夠反映A-SB沉睡的穩定程度,并且若假寐強度越強,則A-SB的沉睡越不穩定。
另一方面,沉睡階段綜合影響力標差與蘇醒階段的均值之間,存在著顯著的中度負相關性。這說明A-SB沉睡的穩定程度還影響著蘇醒強度,對ASB的蘇醒強度起著阻礙的作用;假寐均值與蘇醒階段的Viewed值之間、假寐狀態的Viewed值與蘇醒均值之間,都存在著顯著的中度負相關性。這說明假寐程度還影響著蘇醒階段的強度,對蘇醒階段的蘇醒強度與受關注度起著負面的作用。
此外,蘇醒階段的Viewed值與該階段的時長、強度都呈現出了顯著的強相關性,再次說明了Viewed指標對喚醒A-SB、AA-SB的主導作用。
為了驗證Altmetrics指標的加入是否是識別傳統引文視角下SBs以及其他文獻類型的有益補充,將C-SB在綜合視角與單一引文視角下的演化軌跡進行對比。
首先,根據van Raan[1]和Li[18]分別對Citationbased Sleeping Beauty和Citation-based all elements Sleeping Beauties的定義,在PLoSBiology期刊中識別出了5篇睡眠時間不同的C-SB文獻,但是并沒有找到Ca-SB文獻(表13)。

表13 PLoSBiology期刊的C-SB信息表
由圖12~圖16的演化軌跡可知,與A-SB相比,以年為單位進行軌跡測度的C-SB具有較長的引文窗口。然而,與單一引文軌跡相比,在綜合性演化軌跡視角下,C-SB被提前喚醒了。5篇C-SB在早期均獲得了持續較高的Ab數值,即在引文視角下的蘇醒之前,C-SB就已經獲得了大量的綜合影響力。同時,不同于A-SB在演化軌跡早期的不連續和數值小,C-SB在其延遲識別階段初期獲得的綜合影響力是大量的、持續時間超過4個月的。

圖12 McKay(2004)在延遲識別階段中的各指標時間分布

圖16 Market(2003)在延遲識別階段中的各指標時間分布
因此,盡管C-SB在早期均未受到學者們的大量引用,但由于其在早期獲得了穩定、大量的瀏覽量、下載量,這些指標的加入大大加快了C-SB的蘇醒速度,使得C-SB文獻在綜合性指標作用下的蘇醒時間要比在Citation-based指標作用下的文獻蘇醒時間提前4~5年。這說明盡管未被大量引用,但C-SB在早期就已經受到學者們的關注,單一引文視角所測度的軌跡未必能夠完整反映科學文獻的演化過程。從演化過程來看,基于綜合影響視角所識別的A-SB可能更能滿足社交媒體平臺視域下科學睡美人的定義。

圖13 Servedio(2004)在延遲識別階段中的各指標時間分布
本文將科學睡美人從基于引文指標演化軌跡的研究視角,擴展到基于Altmetrics的綜合性演化軌跡的研究,通過對識別得到的A-SB、Aa-SB的特征進行分析總結,從Altmetrics指標的分布特征、ASB動態演化過程中的階段轉換兩個維度揭示了ASB的演化特征,為科學睡美人文獻的識別方法和重要特征進行了補充。在研究過程中,主要得出以下結論。

圖14 Gibson(2003)在延遲識別階段中的各指標時間分布

圖15 Rodriguez-Girones(2004)在延遲識別階段中的各指標時間分布
(1)本文基于結合了引文與Altmetrics指標的綜合影響力(Ab)的演化軌跡測度模型,從微觀上和宏觀上分析A-SB的演化軌跡,揭示了綜合影響力演化軌跡下科學睡美人的動態演化過程的特征(圖17)。通過C-SB與A-SB的比較分析,發現Ab指數所測度的演化軌跡能更完整地反映社交媒體平臺下科學睡美人的演化過程。在綜合影響力演化軌跡視角下,Altmetrics指標加快了C-SB的蘇醒,盡管未被大量引用,但是C-SB在早期就已經受到學者們的關注,單一引文視角所測度的軌跡未必能夠完整地反映科學文獻的演化過程。從演化過程來看,基于綜合影響視角所識別的A-SB,或許更能滿足社交媒體平臺視域下科學睡美人的定義,Ab指數能更加準確地反映科學文獻在社交媒體上綜合影響力的演化軌跡。

圖17 A-SB的動態演化過程
(2)在宏觀上,A-SB各階段之間具有一定的關聯性。A-SB沉睡的穩定程度對其蘇醒強度起著阻礙的作用。其中,假寐作為A-SB沉睡的一種特殊狀態,其程度越強,持續時長越長,則A-SB可能沉睡得更深,并加劇沉睡的不穩定程度,使ASB難以受人關注。同時,假寐程度還影響著蘇醒階段的強度,對蘇醒階段的蘇醒強度與受關注度起負面作用。總之,假寐狀態會加重其沉睡,阻礙其蘇醒,并且能夠反映沉睡狀態的穩定程度。
(3)在微觀上,Ab指數中所包括的各指標的累積分布與時序分布是A-SB演化特征的重要表征。在社交媒體上,A-SB與Aa-SB在發表后由于成果的創新性,會受到平臺用戶的大量瀏覽與下載。然而,這一關注是短暫的,由于這些成果的主題內容過于超前或爭議性較強,而不被用戶群體所接受或不被主流所認可,缺乏持續且足夠的瀏覽、討論以及保存,因而進入漫長的沉睡階段。隨著知識體系的不斷完善,學界逐漸認識到了其所具有的價值,在受到學者的承認與引用后,引發了PLoS平臺用戶對該成果大量且持續的瀏覽與下載,并開始受到其他平臺用戶的關注與使用。總之,在綜合演化軌跡視角識別睡美人,能夠反映多種行為動機和傳播路徑對科學文獻演化的影響作用,是對科學睡美人識別方法研究的有益補充。
不同于傳統的睡美人文獻軌跡測度研究,本文在選取測度單位時以月為單位,主要基于以下兩個原因。
第一,C-SB研究所使用的時間統計單位是以年為單位的。然而,由于多個文獻的出版周期是每月一次,因此,在每年收集統計數據時,每年1月和12月出版的文件之間會產生巨大的時間差距:假設以年作為單位,如果1月出版的文獻在沉睡4年后醒來,那么其沉睡時間為47個月;但是,如果12月出版的文獻在沉睡4年后醒來,那么其沉睡時間為36個月。因此,本文結合引文和社交媒體指標來描述文獻的演化軌跡,并按月記錄,有助于確保建模的一致性和準確性,從而更加準確地反映ASB的演化軌跡。
第二,Web of Science并沒有提供所有文獻的引文逐月分布情況,而只能獲取一篇文獻的年被引量。因此,本文采用一篇文獻在特定年份的月平均被引量作為該文獻的特定月份的被引量。例如,若一篇文獻在發表后在某一年被引了12次,則本文認為該年中的每個月的被引量為1次。這可能會對本文的研究結果產生一定的影響。然而,這種影響不會對研究結果造成重大偏差。在未來,隨著開放獲取平臺指標體系的逐步完善,只要獲得完整的月度引文數據成為可能,就能更好地解決這一問題。
本文在取得上述研究結論的同時,也存在一些不足。首先,樣本期刊覆蓋的學科較為單一,其數據來源于2003—2019年PLoSBiology的出版文獻,學科集中在生物學領域,A-SB演化特征分析的學科普適性仍有待跨學科樣本的實證。其次,識別的11篇A-SB文獻均存在“推薦”指標的影響力最小的現象,這一現象產生的原因可能是推薦平臺注冊門檻高、推薦所需時間成本大等,即用戶覺得某文不錯,也未必會采取推薦的行動。這并不表明推薦不重要,其或許與其他指標特別是Viewed存在某種關系。推薦的缺失與A-SB的形成是否具有必然聯系?是否有其他作用于A-SB演化特征的影響因素?這些都仍有待深入探討。最后,在目前的研究中,僅討論了科學睡美人蘇醒階段的演化軌跡的影響因素,尚未進一步探討A-SB的蘇醒原因。大量的瀏覽與下載可能只是A-SB與Aa-SB蘇醒的表征,而未必是真正的蘇醒原因。也很有可能是一次引用或其他行為導致用戶群體對該文獻的大量關注與瀏覽。A-SB的蘇醒是多種行為共同作用的結果,各行為之間的傳播機制是什么?A-SB的蘇醒機制是怎樣的?目前揭示的演化特征的深度仍需進行拓展。
在未來隨著開放存取平臺的推廣與完善,期刊文獻信息將更加豐富,延長文獻的時間窗口也變得可行。本文將重點探索數據樣本拓展后,Altmetrics視角下的科學睡美人的動態演化特征在跨學科背景下的有效性,并進一步研究科學睡美人的演化機制。