在線科研社區,是指由具有相同研究興趣愛好、相似科學背景的學術科研人員組成,以討論學術問題、科研活動、學術會議為主,旨在實現科研觀點的交流以及研究成果的傳播和共享的人類共同體,它為科學知識的交流與分享提供了比傳統方式(如期刊、會議以及面對面交流)更便捷的途徑。隨著互聯網發展,在線科研社區如小木蟲論壇、零點花園、經管之家(原人大經濟論壇)正逐漸成為現代學術交流、知識共享的重要平臺。在線科研社區因其豐富的知識儲備、實時在線交流及個性化服務、開放包容的環境氛圍,吸引著越來越多的科研人員和組織,在實現科學知識的傳播和共享過程中發揮著越來越重要的作用。促進科研成果和科學知識的傳播和共享是用戶參與在線科研社區的主要動機,也是在線科研社區得以生存和發展的關鍵。因此,探究在線科研社區背景下科研知識的傳播和共享狀況的影響因素成為一個重要的研究問題。
文獻、期刊是知識傳播的主要渠道,也是科研工作者之間正式、公開、有序的交流工具。科研人員通過閱讀和引用其他科研人員的論文來撰寫文章,這些文章在發表后又有可能被其他研究人員所引用,這種頻繁的論文引用與被引的過程實現了科研知識的傳播和共享。論文被引用是科研成果、科學知識的傳播和共享的一種具體表現形式,本文以論文被引頻次作為科研成果傳播和共享狀況的量化指標來開展進一步的探討。科研工作者的學術成就主要體現在其發表的論文數量和論文的被引頻次兩方面,而論文被引頻次在一定程度上則說明了論文的質量以及科研人員的學術水平。但由于缺乏完整的學術評估機制和對論文被引頻次的系統性研究,一些科研人員盲目推崇論文被引頻次,更有甚者將其等同于論文質量[1]。實際上,大量研究表明:科研成果的質量并不是影響論文被引頻次的唯一因素,論文的長短、論文類型(如綜述類論文、方法論類的論文、研究型論文等)、作者的數量、參考文獻數量、作者在其研究領域的聲望、性別,還有作者與讀者的文化差異、語言的不同和社會關系等與論文質量關系不大的因素也會影響論文被引頻次。
科研人員的研究活動、科研成果的發表和其他研究人員對論文的引用都屬于社會活動,因此,論文被引頻次不僅反映科研工作的質量好壞,同時體現出一些社會因素和特征[2]。近期大量研究揭示了許多與論文被引頻次密切相關的外在因素。Leimu等[3]發現多作者會大大增加論文被引用的可能性,其解釋是:第一,擁有多作者的論文可能會涉及多個學科領域,因此會引起許多學科的研究人員的關注并被他們所引用;第二,論文的作者越多,文獻被自引的可能性就越大;第三,科研人員之間的正式交流與合作也有可能增加論文的被引頻次。一些學者則認為論文的參考文獻也是影響論文被引頻次的重要因素。Webster等[4]以及Vieira等[5]都發現兩者之間存在正相關關系,Webster等推斷這可能是“一報還一報”的本性在發揮作用,即“我引用你的論文,你引用我的論文”。姜磊等[6]基于Web of Science上的數據進行研究,證實論文的被引頻次與論文的參考文獻的數量和質量間都存在正相關關系,但這種相關性不是很顯著。還有許多研究揭示了一些其它的影響論文被引頻次的因素,如論文發表所在的期刊[7]、研究主題和研究的設計[8]、論文所使用的語言[9]。在在線科研社區蓬勃發展的大背景下,是否存在新的因素影響論文的被引頻次從而潛移默化地影響著科學知識的交流和傳播?本文對論文在在線科研社區中所具有的獨特屬性進行分析,探究其是否對論文被引頻次產生影響,從而了解網絡環境下信息資源的利用情況和科學知識的傳播情況。
社會化標簽是描述Web資源的元數據,是靈活、開放、準確的分類方法,鼓勵用戶根據自己對資源的偏好、需求和理解對資源的主題、類型、功能等進行描述,是聯系客觀信息和主觀認知的中介,是用戶實現資源組織、管理和共享的基礎,是在線科研社區區別于傳統科研社區的一大特征。因此,本文就在線科研社區中的社會化標簽是否對論文被引頻次產生影響,從而對科研知識的傳播和共享發揮作用問題進行探究。
CiteULike是由施普林格出版社(Springer)提供的一款免費的社會化書簽網絡工具,是專門協助用戶存儲、管理和分享學術文章的在線科研社區。CiteULike支持一系列的文獻管理服務和按作者、tags查詢服務,還提供了用戶間可以相互聯系以及用戶組等社交服務[10]。該平臺滿足了該研究所需的在線科研社區環境以及社會化標簽的研究條件,為相關研究提供了很好的數據支持。
本文所選的標簽信息來源于CiteULike網站。其原始數據包括網站自2011年7月1日至2011年12月31日所有的用戶操作數據,每條操作記錄包括文章號、用戶號、標注時間、標注的標簽等4個字段,共截取了573684條數據。如果用戶在收藏文章時沒有提供標簽,網站則會為文章自動生成一個“no-tag”的標簽。根據CiteULike的標注機制,用戶手動標注文章則會產生一個特定的標注時間,因此,一篇文章在同一個時間點被同一用戶標注多次則說明這些標簽是被批量導入的,筆者將這類數據記錄剔除。此外,“no-tag”這一社會標簽對研究無實質性的意義,因此此類標簽的數據也被剔除。
基于上述處理后的數據,根據數據中的文章號(DOI)在Web of Science中檢索和收集論文的相關信息,包括論文的發表年份、參考文獻數量、論文被引總頻次(指論文從發表至2016年12月31日期間的被引總頻次)和被標記后的被引頻次(指論文從被標注至2016年12月31日期間的被引頻次)、論文被下載次數以及論文所屬的學科領域。根據論文信息,選取3個特定學科領域中的論文對其被標注的標簽和被引頻次間的關系進行探究。本文選取的領域是工程類(Engineering)、生物與化學類(Chemistry&Biology)、經濟與管理類(Economics&Business)。之所以選取以上3個學科,是因為其具有一定的代表性。工程類代表了實際應用型的科學領域;生物和化學屬于實驗性科學,可以代表基礎科學領域;經濟和管理則代表非理工類的科學領域,為研究數據添加社會人文因素,從而使數據更加全面、科學。通過數據的篩選、剔除,所得數據如表1所示。

表1 CiteULike數據
基于上述的數據處理結果,對每篇論文的標簽數量分別進行統計、記錄。除標簽數量外,本文還對標簽的語義內容對論文被引頻次的影響進行探究,筆者將根據標簽的語義內容對標簽進行分類來開展這一探究。Sen等[11]提出3種標簽類型,筆者在此基礎上作了改動,即將事實型標簽改為客觀型標簽。數據中的標簽將根據如下分類標準進行歸類:(1)客觀型標簽。主要描述論文的客觀事實,如作者、地點、時間、以及論文類型。(2)主觀型標簽。主要用來表達用戶對某篇論文的觀點、情感、認知等,如general、persuasive、smart。(3)個人型標簽。主要是便于用戶組織、收藏和管理論文,如一位用戶在1月1日閱讀了一篇論文,并在收藏該論文時標注一個“1-Janurry”的標簽,便于今后檢索、查找該論文。此外,如果對某一標簽的分類不明確,即該標簽不包含以上任何一類中,則將該標簽歸入其它標簽類。本研究邀請3位學者對標簽進行編碼歸類,如果對標簽的分類存在異議,則進行討論直至3位學者意見一致。標簽的分類、統計結果如表2所示。
由于標簽類別為分類變量,需設置虛擬變量。選擇客觀型標簽為參照基礎,設置T1,T2,T3三個虛擬變量。若標簽是主觀型則T1=1,否則T1=0;若標簽是個人型則T2=1,否則T2=0;若標簽屬于其他類標簽則T3=1,否則T3=0。此外,學科類別也是分類變量,筆者以生化類為參照,設定S1和S2兩個虛擬變量。若文章屬于工程類則S1=1,否則S1=0;若文章屬于經管類則S2=1,否則S2=0。

表2 標簽類型數據集
根據所得數據繪制標簽數量和論文被引頻次的散點圖。由圖1可知,現有的數據很難反映出標簽數量與論文被引頻次間的相關關系。因此,借助與標簽數量相關聯的其它指標間接的對標簽數量和論文被引頻次的關系進行初步探究。

圖1 標簽數量與被引總頻次的散點圖
科研工作者在引用論文時存在個體傾向,即傾向于引用那些被他們標注過或下載保存過的論文。將科研人員的論文引用行為與標注行為相關聯,則引用行為的發生會涉及多個步驟:第一,為論文添加標簽;第二,社區用戶看到被其他用戶標記的論文(如一些在線科研社區會對被標注次數較多的論文進行推廣);第三,用戶保存、下載論文;第四,閱讀論文;第五,發現、判定論文是否對自己的研究有價值;第六,借鑒、引用論文。由于這一行為鏈較復雜和繁瑣,筆者將只考慮論文被標注、論文被下載和論文被引用等3個主要步驟來簡化這一過程。此外,筆者將通過探究論文下載次數對論文被引頻次的影響而間接地初步推斷標簽數量與論文被引頻次間的關系。
為探究論文下載次數和被引頻次間的相關關系,基于各類標簽,對每一類標簽的論文下載次數的平均值和被引頻次的平均值進行了計算和對比,如圖2。4類標簽分別對應的論文被引頻次的均值和下載次數的均值間具有一定的相關性。下載次數均值較大的值對應著一個較大的被引頻次均值,反之較小的下載次數均值則對應著一個較小的被引頻次均值。這意味著論文下載次數和被引頻次之間可能存在正相關關系。筆者在下面的研究中對這種相關關系作了進一步的驗證。

圖2 各類標簽所對應的論文被引總頻次均值和論文下載次數均值

圖3 工程領域的散點圖

圖4 生物與化學領域的散點圖

圖5 經濟與管理領域的散點圖
基于論文的學科類別,將論文下載次數作為自變量,論文被引頻次作為因變量,分別繪制3個學科領域的散點圖。通過統計軟件SPSS,分別得到了工程領域、生物與化學領域以及經濟與管理領域的散點圖,如圖3-5所示。從3個散點圖中可以看出,論文下載次數與論文被引頻次在一定程度上呈現出正相關關系。所得結果與圖2所得結果一致。雖然3個散點圖中都存在一些異常值,但并不影響論文下載次數和被引頻次間的整體關系。在下面研究中,筆者將對這些異常點進行處理。通過散點圖的檢驗,可以得出結論:論文下載次數和被引頻次間存在線性正相關關系。這在一定程度上也反映了標簽數量和論文被引頻次間可能存在一定的相關關系,對此,筆者將在下面的研究中作進一步的分析探究。
基于上文提到的論文被引過程鏈以及論文下載次數和被引頻次的關系,筆者認為,標簽的數量對論文被引頻次具有一定的影響。下面基于標簽類型的視角,探究標簽類別是否對論文被引頻次產生影響,了解不同標簽在文章被引過程中所起的作用。從圖6可以看出,每一學科中的各類標簽所對應的論文被引頻次均值是明顯不同的,因此,有必要對標簽類型這一分類變量與論文被引頻次之間的關系進行探究。

圖6 論文被引頻次的均值
方差分析是用于兩個及兩個以上樣本均數差別的顯著性檢驗方法,通過推斷自變量各水平下因變量的總體分布是否有顯著差異來實現其分析目標。為了更好地反映標簽對論文被引頻次的影響,筆者將論文被引總頻次和論文被標注后被引頻次作為方差分析中的兩個觀測變量,從標簽類別這一視角進行方差分析。
表3顯示了變量列表和方差分析的結果。從表3可以看出,標簽類別顯著影響論文被引總頻次和被標注后的被引頻次(P值均近似為0),說明不同類別的標簽對論文的引用有顯著的影響。
基于上述研究,將標簽數量、論文下載次數、標簽類別作為回歸模型中的影響因素。考慮到論文自身攜帶的一些特征也會影響論文的被引頻次,因此將論文的學科類別、發表年限和參考文獻數也帶入到回歸模型中。為了更好地反映標注標簽與論文被引用之間的關系,將論文被引總頻次和標注后被引頻次作為兩個因變量。選擇以上兩個因變量的原因有:第一,考慮各自變量對論文被引用的總體影響趨勢。第二,考慮論文被標注后,標簽對其被引用的影響。
筆者分別對被引總頻次為因變量的模型和標注后被引頻次為因變量的模型中的變量進行了多重共線性分析,所得結果完全一致。結果如表4所示,各變量的容忍度均大于0.9(接近于1),且VIF均小于10,說明多重共線性較弱。此外,最大特征值為5.301,其余依次減小,且第三列中的條件指數值均不大。以上結果均證明各變量間不存在多重共線性。因此,以上選定的自變量均可進入到回歸模型中。

表4 自變量共線性分析表
從表5可以看出,共有5個因素(標簽數量、下載次數、標簽類別、學科類別、發表年限)進入到回歸模型中,參考文獻數這一變量被剔除。表5顯示,模型e的R2值最大,表明5個模型中模型e效果最好。如表5所示,整體估計的結果比較令人滿意,且與實際情況和研究預期相吻合。首先,發表年限對被引總頻次有積極的影響。這一結果符合實際情況,論文發表的時間越長越有可能被人所知、閱讀,甚至被引用。其次,標簽數量對被引總頻次產生積極的影響,回歸系數為14.970,且影響非常顯著(p<0.001),該結果與上述散點圖分析的預想一致。此外,標簽類別對論文被引總頻次產生了一定的影響,且除個人型標簽和其他類標簽外(影響不顯著(p>0.05),其余類別的標簽產生的影響顯著度為一般顯著(p<0.05)。出乎意料的是,主觀型標簽對論文被引總頻次有負面的影響。對此筆者猜測,一個用戶根據自己對論文的理解和情感給其添加的標簽可能會與論文本身的主題和中心有所偏差,從而會誤導其他用戶,使他們無法正確地判斷該論文對于自己的研究是否有借鑒價值,進而影響論文的被引用。其余的標簽類則對被引總頻次有積極的影響,可能是這些標簽有助于用戶理解論文并對論文進行價值判定,從而影響論文的被引用。這說明標簽的語義內容對論文被引起著重要的作用。另外,值得注意的是,學科類別對被引總頻次產生消極的影響,且影響顯著(p<0.01)。最后,論文下載次數與被引總頻次之間有顯著的正相關關系,與上述散點圖分析所得結果一致,符合本研究最初的預想。

表5 自變量和因變量(被引總頻次)逐步回歸的回歸系數與顯著性檢驗表
從表6可以看出,將標注后被引頻次作為因變量得到的結果與上面的結果一致,即模型e效果最好。如表6所示,其估計結果與表5中的結果大體一致。唯一的不同點是,除其他類標簽外,其余類別的標簽對標注后被引頻次均產生顯著的影響(p<0.05)。此外,學科類別對標注后被引頻次產生了顯著的消極影響,而標簽數量、下載次數與發表年限對標注后被引頻次均有積極的影響作用,且影響顯著(p<0.001)。此結果與表5中的結果一致,與實際情況和筆者的預期相吻合。

表6 自變量和因變量(標注后被引頻次)逐步回歸的回歸系數與顯著性檢驗表
綜合以上分析可知:(1)標簽數量與論文被引頻次間存在顯著的正相關關系,這符合實際情況和研究預想。一篇論文的標簽越多,說明該論文被越多的用戶關注、閱讀過,因此也就增加了論文被引用的可能性。(2)除主觀類標簽外(產生負面的影響),其余類別的標簽與被引頻次間存在正相關關系,這意味著在很大程度上論文被標注的標簽會引起該論文被引用,且被引用的可能性與標簽的語義內容密切相關,這有可能是因為不同類別的標簽給科研人員傳遞了不一樣的信息。有趣的標簽可以引起研究人員的注意,并幫助他們理解論文和判定該論文的借鑒價值。而有些標簽則無法引起研究人員的注意,甚至這些標簽都不能被他們所認知、理解,所以這些標簽對研究人員來說毫無意義,也就無法對他們的引用行為產生影響。因此,標簽類別對論文被引頻次有顯著的影響。(3)學科類別與被引頻次之間有顯著的負相關關系。對此結果,筆者認為,當某一篇論文歸于某一學科后,該論文很大可能只會被所屬學科領域的科研工作者所引用。而當論文所涉及的學科領域越多,則該論文越有可能被各研究領域的科研人員看到,繼而產生更多的引用。論文的學科屬性劃分一定程度上限制了論文的引用。因此,學科類別對論文被引頻次產生消極的影響。
本文將CiteULike作為實例對象,探究在線科研社區中標簽(包括標簽的數量和類型)對論文被引用的影響。對論文添加標簽可以提高論文的認知度,從而增加論文的下載次數,最后可能增加論文的被引頻次。本文基于提出的問題進行分析檢驗,并對分析結果作出相應的解釋。本研究作出的主要貢獻包括:首先,基于標簽的視角對關于論文被引頻次的影響因素的研究進行擴充。現有研究主要從論文主題或自身所帶的特征、作者和讀者以及期刊、影響因子等視角出發對論文被引頻次的影響因素進行探究。筆者從標簽數量和標簽類別兩個研究視角出發,探究標簽對論文被引頻次的影響。研究發現標簽無論是在數量方面還是語義內容方面都對論文的被引有著顯著的影響。其次,還研究了學科類別對論文被引頻次的影響。筆者選擇3個典型的代表性學科領域(工程類、生化類和經管類)對這一問題進行探究,發現學科類別在一定程度上限制了論文的引用。最后一方面揭示了在線科研社區中用戶標注的標簽與論文的被引頻次間的數量關系,有助于人們從新的角度來理解學術知識的傳播和共享。科研工作者可以在在線科研社區上展示和介紹他們的研究成果,實現研究的學術價值和科學知識的傳播、共享;另一方面,在線科研社區的服務提供商要鼓勵用戶積極的參與到標注活動中,這有助于促進服務平臺的發展。
本文的研究結果具有較強的實證數據支持,可以作為未來引文研究的墊腳石,但在理論框架和研究方法上仍存在一定的改進空間,主要局限包括:第一,該研究基于CiteULike平臺2011年7月1日至2011年12月31日的用戶操作數據進行探究,數據集的時間跨度不是很大,在一定程度上還不能很好地反映出整體趨勢。在今后研究中作進一步的擴充和完善。第二,該研究考慮學科類別這一影響因素時,選擇工程領域、生物與化學領域和經濟與管理領域,發現學科類別對論文被引頻次具有消極影響,但該結果對其他學科可能并不適用。在今后研究中將引入更多學科,并對學科類別和論文被引頻次間的關系作進一步的科學解釋。第三,本研究主要考慮論文的下載次數、參考文獻數、發表年限、學科類別、標簽數量和類別等影響因素,在未來研究中將引入更多的因素來完善當前的研究模型。
參考文獻
[1] 王海濤,譚宗穎,陳挺.論文被引頻次影響因素研究——兼論被引頻次評估科研質量的合理性[J].科學學研究,2016,34(2):171-177.
[2] Bornmann L,Schier H,Marx W,et al.What factors determine citation counts of publications in chemistry besides their quality?[J]. Journal of Informetrics,2012,6(1):11-18.
[3] Leimu R,KorichevaJ.Whatdeterminesthe citation frequency of ecological papers?[J].Trends in Ecology&Evolution,2005,20(1):28.
[4] Webster G D,Jonason P K,Schember T O.Hot Topics and Popular Papers in Evolutionary Psychology:Analyses of Title Words and Citation Counts in Evolution and Human Behavior,1979-2008[J].Evolutionary Psychology,2009,7(3):348-362.
[5] Vieira E S,Gomes J A N F.Citations to scientific articles:Its distribution and dependence on the article features[J].Journal of Informetrics, 2010, 4(1):1-13.
[6] 姜磊,林德明.參考文獻對論文被引頻次的影響研究[J].科研管理,2015,36(1):121-126.
[7] Peng T Q,Zhu J J H.Where you publish matters most:A multilevelanalysisoffactorsaffecting citations of internet studies[J]. Journalof the American Society for Information Science &Technology,2012,63(9):1789-1803.
[8] Willis D L,Bahler C D,Neuberger M M,et al.Predictors of citations in the urological literature[J].Bju International,2011,107(12):1876.
[9] Lansingh V C,Carter M J.Does open access in ophthalmology affect how articles are subsequently cited in research?[J].Ophthalmology, 2009, 116(8):1425-1431.
[10]張鏵予,張潔雪,張巖,等.CiteULike網站用戶標簽分析及推薦機制研究[J].情報探索,2011(1):85-87.
[11]Sen S,Lam S K,Rashid A M, et al.tagging,communities,vocabulary,evolution[C]//Anniversary Conference on Computer Supported Cooperative Work.ACM,2006:181-190.