張 洋,余妍慧
在Web2.0時代,科學文獻被搬上新媒體,學者通過社交網(wǎng)絡(luò)分享和討論科學知識[1]。網(wǎng)絡(luò)的“零距離”與實時更新則加劇了網(wǎng)絡(luò)學術(shù)信息的老化。因此,開展基于社交網(wǎng)絡(luò)的學術(shù)信息老化研究具有重要意義:理論上可以見微知著,揭示網(wǎng)絡(luò)學術(shù)信息的某些特征和規(guī)律,豐富網(wǎng)絡(luò)信息計量學的研究內(nèi)容;實踐上則為預測科技熱點、優(yōu)化社交網(wǎng)絡(luò)用戶的信息需求提供了科學依據(jù)。自1943年美國紐約大學學者C.F.Gosnell發(fā)表《大學圖書館中的文獻老化問題》后,信息老化研究逐漸興起。筆者以時間為順序、關(guān)鍵線索為節(jié)點,將國內(nèi)外的信息老化研究分為3個階段。
傳統(tǒng)文獻老化研究階段主要包括3個方面的內(nèi)容:(1)老化指標的探索。J.Burnal于1958年率先提出以半衰期為測度指標來估計文獻的老化速度。R.E.Burton和R.W.Kebler在1960年代針對科學文獻的半衰期進行了一系列研究,將文獻老化研究進程大大推進[2]。計量學奠基人D.Price提出了另一個衡量文獻老化的指標——普賴斯指數(shù),并且將5年作為劃分情報利用的標準[3]。(2)引文分析法的應(yīng)用。引文分析法以期刊論文的參考文獻為研究對象,分析引文發(fā)表的時間、引用的時間與引文數(shù)量之間的關(guān)系,從而衡量文獻的老化程度[4]。具體分析時,引文分析法又分為歷時法和共時法。歷時法符合過程觀,由M.B.Line和A.Sandison首先提出[5];共時法相比歷時法而言較為簡單,國內(nèi)學者孟連生于1983年發(fā)表《中文科學引文分析》后,有不少學者利用此法研究科學文獻的老化現(xiàn)象[6]。(3)老化模型的建立,即運用數(shù)學理論和方法,以數(shù)學表達式來描述文獻老化中各種因素之間的數(shù)量關(guān)系,從而揭示其規(guī)律的一種方法。目前文獻老化的數(shù)學模型主要有貝爾納提出的負指數(shù)老化模型、巴爾頓-凱普勒老化方程和布魯克斯老化方程等。
隨著1990年代互聯(lián)網(wǎng)的普及,文獻老化的研究對象勢必要擴展到網(wǎng)絡(luò)領(lǐng)域,這是時代發(fā)展的客觀要求和必然趨勢[7]。網(wǎng)絡(luò)信息計量學從理論上促進了網(wǎng)絡(luò)信息老化的發(fā)展,而網(wǎng)絡(luò)信息超載導致的信息過剩、信息污染現(xiàn)象也對網(wǎng)絡(luò)信息老化研究產(chǎn)生了迫切的需求。網(wǎng)絡(luò)信息的老化不同于傳統(tǒng)文獻的老化,因為網(wǎng)絡(luò)信息的動態(tài)性、急速增長等特點,決定了網(wǎng)絡(luò)信息老化的研究與傳統(tǒng)文獻老化的不同[8]。此外,國內(nèi)外的研究方向有所差別,國外學者主要關(guān)注網(wǎng)絡(luò)鏈接的可訪問性和基于網(wǎng)絡(luò)數(shù)據(jù)平臺的電子資源老化;國內(nèi)學者重視信息老化的理論研究、老化測度指標的探索性研究和應(yīng)用對策研究[9]。著名的研究有J.Bar-llan和B.C.Peritz分析了“信息計量學”主題相關(guān)網(wǎng)頁數(shù)量的變化和修改情況,發(fā)現(xiàn)網(wǎng)絡(luò)文獻集合在特定時間段內(nèi)會呈現(xiàn)網(wǎng)頁消失、部分內(nèi)容被引用至其他網(wǎng)站和內(nèi)容發(fā)生修改的3種網(wǎng)絡(luò)信息動態(tài)變化趨勢[10]。國內(nèi)學者馬費成和夏永紅以中外學術(shù)資源網(wǎng)、論壇、新聞網(wǎng)站和一些大型網(wǎng)站為研究對象,揭示了網(wǎng)絡(luò)信息生命周期的基本特征,并發(fā)現(xiàn)其生命周期符合韋布爾分布模型、負指數(shù)模型和對數(shù)模型[11]。
社交媒體擁有Web2.0動態(tài)交互特性,科學家之間及科學家與公眾之間可以直接進行交流,大大提高了科學的傳播速度,并由此在學術(shù)圈得到普及。該階段的研究與Altmetrics的興起密切相關(guān)。Altmetrics是Web2.0環(huán)境中的科學計量學研究,是建立在社交網(wǎng)絡(luò)工具與開放存取分別在科學交流活動與科學成果出版平臺中廣泛應(yīng)用的基礎(chǔ)上而產(chǎn)生的[12]。Altmetrics應(yīng)用平臺的開發(fā)為社交媒體信息老化研究提供了便利。例如,Altmetric.com公司專門收集學術(shù)成果在社交媒體中的下載量、轉(zhuǎn)發(fā)量、點贊量和相應(yīng)的時間信息,為各國學者、科研機構(gòu)和基金組織提供數(shù)據(jù)服務(wù)[13]。該階段主要研究的社交媒體有Twitter、Facebook和微博等社交平臺。例如,張洋和盧橋研究了新浪微博的老化特點,并對新浪微博平臺進行了特征分析;EdgeRank組織的研究員分析Facebook的帖子生命周期時間,最短壽命15分鐘,最長10小時,平均3小時[14]。
總體來看,社交媒體信息老化研究處于起步階段,無論是研究數(shù)量還是深度都很有限。就研究對象而言缺乏針對不同學科的研究,所有學科的文獻一概而論,明顯得出的結(jié)論適用性不強;且研究內(nèi)容主要針對老化特征,如半衰期和普賴斯指數(shù),建立老化模型的相關(guān)文獻較少。針對以上問題,結(jié)合傳統(tǒng)老化規(guī)律指標,本文選取Altmetric.com平臺上2014-2017年每年得分最高的前100名科學文獻(以下簡稱“top100文獻”)在Twitter平臺上的轉(zhuǎn)發(fā)記錄為樣本,針對不同學科對數(shù)據(jù)進行定量化分析,從最大利用時限、半衰期、曲線擬合等多角度透視學術(shù)信息在社交網(wǎng)絡(luò)中的老化特征和規(guī)律。
本文數(shù)據(jù)來自Altmetric.com,該平臺支持多種在線數(shù)據(jù)的追蹤,包括Twitter、Facebook、新聞網(wǎng)站、網(wǎng)絡(luò)百科,并能綜合這些平臺數(shù)據(jù)給出文獻相應(yīng)的綜合關(guān)注分值(Altmetric Attention Score)[15]。該平臺自2013年起,每年評選出分值最高的100篇文獻作為特別專欄分享給學者研究。Twitter是學者使用最多,涵蓋文獻量最大的社交媒體[16],因此,筆者以2014-2017年共4年每年得分最高的top100科學文獻在Twitter上的轉(zhuǎn)發(fā)記錄為研究樣本。
先將top100文獻按學科分類,共有13個學科,其中醫(yī)藥健康學(181篇)、生物科學(72篇)、人類學(36篇)和地球環(huán)境科學(32篇)文獻量較大,因此選擇該4門學科作為研究對象(結(jié)果見圖1)。隨后利用Python語言編寫程序,爬取文獻在Twitter上的轉(zhuǎn)發(fā)日期,統(tǒng)計文獻自公布于Twitter首日至數(shù)據(jù)采集日(2018-03-19)期間每日的轉(zhuǎn)發(fā)次數(shù)。同一學科文獻的每日轉(zhuǎn)發(fā)次數(shù)取平均值,并以此數(shù)據(jù)定量化分析不同學科的老化特征(半衰期、最大利用時限),最后使用SPSS統(tǒng)計分析軟件對老化曲線進行擬合,從而提出適用于社會網(wǎng)絡(luò)的學術(shù)信息老化模型。

圖1 top100文獻學科分類
對于學術(shù)信息的老化特征,本文主要從最大利用時限和半衰期兩個方面進行研究。其中最大利用時限源自傳統(tǒng)信息計量學中最大引文年限的概念[17]。針對網(wǎng)絡(luò)環(huán)境作了進一步引申,用以描述網(wǎng)絡(luò)學術(shù)信息從發(fā)布到被利用價值達到峰值所需的時間。本文“最大利用時限”指的是距離某學科文獻發(fā)布至網(wǎng)絡(luò)的首日,轉(zhuǎn)發(fā)次數(shù)達到最多的天數(shù);以情報學家貝爾納的觀點來看,半衰期表示發(fā)表的文獻情報中有一半不再使用的時間[18]。本文指的是某學科文獻在Twitter上的轉(zhuǎn)發(fā)記錄較舊的一半的時間跨度。半衰期計算方法為:統(tǒng)計每日平均轉(zhuǎn)發(fā)次數(shù)占總次數(shù)的累計百分比,累計百分比首次超過50%的天數(shù)即為該學科的半衰期。由于篇幅限制,筆者以醫(yī)藥健康學為例(見表1),由表可知醫(yī)藥健康學的最大利用時限是第2天,轉(zhuǎn)發(fā)次數(shù)達到253.13次,隨后轉(zhuǎn)發(fā)次數(shù)快速下降;半衰期是5天,累計百分比達到52.17%。以同樣的方法得到各學科的最大利用時限和半衰期(見表2)。
從表2看出不同學科的最大利用時限都是第2天,這說明基于社交網(wǎng)絡(luò)傳播的學術(shù)信息通常在第2天的瀏覽量最大,達到最大峰值。而半衰期則依具體學科而定,地球與環(huán)境科學半衰期最短,為2天,老化速度最快;生物科學和人類社會學半衰期為3天,老化速度較快;醫(yī)藥健康學半衰期最長,為5天,老化速度最慢。傳統(tǒng)出版物老化的影響因素主要有學科特點和學科的發(fā)展階段2個方面[19]。一般而言,應(yīng)用技術(shù)學科的文獻老化速度較快,基礎(chǔ)理論學科的文獻老化速度較慢;學科處于發(fā)展時期,老化速度較快,學科進入相對穩(wěn)定期,老化速度相應(yīng)變慢。而社交網(wǎng)絡(luò)的學術(shù)信息老化因素還需考慮到大眾群體對不同學科的興趣度,與生活息息相關(guān)的學科,熱度會更持久(如醫(yī)藥健康學),而對大眾來說相對枯澀難懂的學科,則興趣不大,相應(yīng)老化得快些(如地球與環(huán)境科學)。

表1 醫(yī)藥健康學的轉(zhuǎn)發(fā)次數(shù)分布(部分)

表2 各學科的老化特征
得益于Twitter的迅速傳播,4門學科的最大利用時限都在第2天,半衰期在2~5天,這在社交媒體盛行之前時不可想象的。社交網(wǎng)絡(luò)中學術(shù)熱點的迅速傳播也是網(wǎng)絡(luò)輿情的體現(xiàn),可以運用網(wǎng)絡(luò)輿情的相關(guān)理論加以解釋。網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生并通過網(wǎng)絡(luò)傳播的,是人們對該事件的所有認知、態(tài)度、情感和行為傾向的集合[20]。傳統(tǒng)出版物在面向公眾之前往往經(jīng)歷這樣一種線性傳播模式:作者投稿—論文審核—期刊發(fā)表。論文需要短則幾個月長則數(shù)年的時間才能公布于世,而且受眾面局限于相關(guān)學科的學術(shù)圈。社交媒體的出現(xiàn)打破了這種線性模式,無論是作者直接發(fā)表在網(wǎng)絡(luò)中的文章還是由期刊轉(zhuǎn)載的網(wǎng)絡(luò)文獻,社交媒體的開放性和方便性使眾多網(wǎng)民在接觸到學術(shù)熱點信息后,可隨時隨地發(fā)表自己的看法,并且所有看法意見都可以隨著網(wǎng)絡(luò)傳播到世界的每一個角落。網(wǎng)民的從眾心理及羊群效應(yīng)使得學術(shù)熱點事件的影響范圍愈加廣泛,對民眾的影響也愈加深遠。例如,2016年熱門文章《美國醫(yī)療改革的進展及其下一步》(United States Health Care Reform Progress to Date and Next Steps),作者是美國前總統(tǒng)奧巴馬[21],該文發(fā)表于頂級醫(yī)學期刊《美國醫(yī)學會雜志》(JAMA)上,該期刊影響因子高達37.684。JAMA的期刊影響力、奧巴馬的總統(tǒng)“光環(huán)”及網(wǎng)民對美國醫(yī)改的重視讓這篇文章在Twitter傳播首日達到945次的轉(zhuǎn)發(fā)量,第二天轉(zhuǎn)發(fā)量更是高達3879次,以8063的綜合關(guān)注分數(shù)拿下2016年世界學術(shù)論文影響力第一名,遠遠超過第二名的4912分。
以時間為橫坐標,當日轉(zhuǎn)發(fā)次數(shù)為縱坐標,繪制各學科的老化曲線圖(見圖2)。通過觀察各學科老化曲線的變化軌跡,繪制出基于Twitter數(shù)據(jù)的學術(shù)信息老化曲線(見圖3)。該曲線定性地描繪了科學文獻從公布于社交網(wǎng)絡(luò)以后的轉(zhuǎn)發(fā)數(shù)變化趨勢,反映了科學文獻利用價值變化的總體過程。筆者根據(jù)曲線的變化過程,將老化曲線劃分為迅速遞增期、震蕩老化期和緩慢衰老期3個階段,分別對應(yīng)圖3中的O~A段、A~B段、B~C段,其中O點表示社交網(wǎng)絡(luò)學術(shù)信息的產(chǎn)生點,A點表示學術(shù)信息的利用價值達到最大值,B點表示學術(shù)信息價值經(jīng)過震蕩變化后的逐漸老化點,C點表示社交網(wǎng)絡(luò)學術(shù)信息的消亡點。其變化過程并非嚴格按照此種規(guī)律進行,若有外界因素刺激,老化過程可循環(huán)再現(xiàn)。
經(jīng)過對原始數(shù)據(jù)的初步分析后,筆者利用SPSS軟件的曲線估計功能對數(shù)據(jù)集進行建模。從老化的時間點開始(A點),以時間為自變量,轉(zhuǎn)發(fā)次數(shù)為因變量,并選擇SPSS提供的4種模型(對數(shù)函數(shù)、反向函數(shù)、冪函數(shù)和指數(shù)函數(shù))進行曲線擬合,得到以下結(jié)果(見表3),其中對數(shù)函數(shù)表達式為y=k+bIn(x),反向函數(shù)表達式為y=k+b/x,冪函數(shù)表達式為y=kxb,指數(shù)函數(shù)表達式為y=kebx常數(shù),k為常數(shù),b為方程系數(shù)。

圖2 醫(yī)藥健康學、生物科學、人類社會學和地球與環(huán)境科學老化曲線

圖3 基于Twitter數(shù)據(jù)的學術(shù)信息老化曲線

表3 老化曲線擬合檢驗報告
根據(jù)表3可知,四種模型的Sig值都小于0.01,差異性顯著。比較4種函數(shù)的R方,對數(shù)函數(shù)的R方在0.45~0.55之間,反向函數(shù)的R方在0.55~0.7之間,冪函數(shù)的R方在0.75~0.9之間,指數(shù)函數(shù)的R方在0.65~0.8之間。從擬合效果來看:冪函數(shù)>指數(shù)函數(shù)>反向函數(shù)>對數(shù)函數(shù)。所以最終選定冪函數(shù)作為4門學科文獻的老化模型,其中醫(yī)藥健康學模型表達式:y=2.86.455x-1.294,生物科學模型表達式:y=352.638x-1.428,人類社會學模型表達式:y=535.844x-1.511,地球與環(huán)境科學模型表達式:y=396.213x-1.720。
從冪函數(shù)的性質(zhì)來看,當b<0時,函數(shù)在第一象限內(nèi)單調(diào)遞減,b可以用于描述曲線的下降速度,b越小,曲線下降越快,越貼近軸。該特性反映到學科老化上則是公眾對該學科的熱度下降越快,學術(shù)信息老化更快。通過比較b的大小,可知4門學科的老化速度:地球環(huán)境科學>人類社會學>生物科學>醫(yī)藥健康學。常數(shù)k則表示曲線在y軸上的焦點距離原點的截距,k越大,截距越大。該值反映了學術(shù)信息的初始熱度,比較k的大小,4門學科的初始熱度:人類社會學>地球與環(huán)境科學>生物科學>醫(yī)藥健康學。老化速度和初始熱度的排名驗證了本文在第三節(jié)中的觀點,不管是熱度還是持久度,普通群眾更重視與生活相關(guān)的學科,對于健康生活知識的訴求明顯大于與自身關(guān)系不大的其他學科知識。
通過對樣本數(shù)據(jù)的分析,得到3條結(jié)論:(1)社交媒體的發(fā)展使得學術(shù)交流的互動性不斷增加,傳統(tǒng)學術(shù)的傳播方式發(fā)生了重大的變化。學術(shù)熱點經(jīng)過社交媒介地積極轉(zhuǎn)載和討論分享后演變?yōu)闊狳c輿情事件,反過來又加深了學術(shù)熱點的覆蓋面和影響力,原來一直處于學術(shù)圈外的網(wǎng)絡(luò)民眾逐漸成為學術(shù)熱點的傳播主體。(2)雖然在傳統(tǒng)的信息老化研究領(lǐng)域,學者更習慣運用貝爾納的負指數(shù)方程[22]來描述老化規(guī)律,但是本研究發(fā)現(xiàn)冪函數(shù)模型更適合描述社交網(wǎng)絡(luò)中的學術(shù)信息老化規(guī)律。(3)不同學科的老化速度不同,地球與環(huán)境科學文獻老化速度最快,其次是生物科學和人類社會學,醫(yī)藥健康學文獻老化速度最慢,原因不僅限于學科特點及學科的發(fā)展階段,很大程度上還與社交網(wǎng)絡(luò)使用者的興趣有關(guān),總體而言,與自身健康相關(guān)的學術(shù)信息老化更慢,而相對枯燥的信息則老化得更快。
學術(shù)信息老化規(guī)律是文獻信息流的基本規(guī)律之一。它從文獻利用率隨時間流逝而衰減的角度揭示文獻情報工作的規(guī)律和科學發(fā)展的特征[23]。本文在已有的老化測算指標的基礎(chǔ)上,通過對Twitter中的科學文獻進行實證研究,以期測算出基于社交網(wǎng)絡(luò)的學術(shù)信息老化規(guī)律,盡可能揭示網(wǎng)絡(luò)學術(shù)信息的老化現(xiàn)象。為了求得更準確的基于社交網(wǎng)絡(luò)的學術(shù)信息老化規(guī)律,本文研究期待更大規(guī)模數(shù)據(jù)的驗證。