●郭強,趙瑾
(1.鄭州大學信息管理系,鄭州450001;2.中國人民解放軍陸軍軍官學院軍事運籌教研室,合肥230031)
基于被引次數的論文影響力下載類指標研究
●郭強1,趙瑾2
(1.鄭州大學信息管理系,鄭州450001;2.中國人民解放軍陸軍軍官學院軍事運籌教研室,合肥230031)
學術影響力;多屬性描述
在對論文的下載次數與被引次數之間的相關性進行考察的基礎上,對發表兩年后的論文下載次數以及相應的論文影響力分值在論文中的分布狀況進行了考察,以期從側面對所得下載次數能否作為對論文實際下載情況的近似進行探討。
由于論文的被引次數與論文的學術影響力之間具有相關性,所以,在對論文的學術影響力進行描述時,能夠利用論文的被引次數對論文的影響力進行側面反映。網絡環境與數字技術的發展使得被引次數的獲取具有了便捷性,因此也能夠將論文的被引次數作為反映論文學術影響力的指標。而且為考慮建立在被引次數基礎上的相關指標,從而盡可能地滿足對被引類指標的全面性要求,在利用論文的被引情況來反映論文的影響力時,需要納入論文施引期刊的影響力差異,這是因為當論文被具有不同影響力的期刊引用時,論文獲得的影響力也會有所不同。考慮施引期刊差異時,對論文的總被引次數與論文發表三年后的被引次數以及最大年度被引次數等被引類指標所表征的論文影響力進行考察,并在此基礎上對相應的論文影響力多屬性描述的合理性進行探討。此外,在對被引類指標與下載類指標之間差異性進行考察的基礎上,也需要在影響力描述中對論文的下載情況進行探討。需要指出的是,有時需要用論文總下載次數對其發表兩年后的下載次數以及最大年度下載次數進行大致估算,并且需要對相應的論文影響力分值的分布情況進行考察,從而對論文下載類指標取值的合理性進行側面地檢驗。同時也需要考慮對相關的論文下載情況與被引情況之間的關系以及相應的期刊下載情況進行探討,以期對下載類指標值近似的適用性進行考察。
利用論文總的下載次數對論文發表兩年后的下載次數以及最大年度下載次數進行考察時,需要利用被引類指標與下載類指標之間的相關性,從而通過變量之間的相關關系來對變量的取值進行大致估計。如對于圖書情報領域的期刊論文而言,論文在某年度的被引次數與論文在該年度兩年前的下載次數之間會具有一定的相關性,那么,能夠利用論文在考察年度兩年后的被引次數以及被引次數與下載次數之間的相關關系對考察年度的論文下載次數進行估算。由此,能夠得到論文在發表兩年后的下載次數和論文的最大年度下載次數。同時,在此基礎上也能夠對相應的論文影響力描述以及影響力分值的分布情況進行考察。需要指出的是,在這里選取論文發表兩年后的下載次數對論文的下載情況進行表征,是將論文的下載半衰期取為兩年。此外,由于論文的逐年下載次數有時需要利用論文的其他已知指標值來進行估計,所以,在這里只是對期刊的下載指標與被引指標之間的相關性進行類似的探討。對圖書情報領域的期刊論文而言,如果假設論文從其被下載到作者在其最終成果中引用該文獻需要的時長為兩年,那么從直觀上對于該領域的期刊而言,其兩年前的下載次數與考察年度的被引次數之間也會具有一定的相關性。如對情報科學期刊而言,能夠得到各年度的期刊被引次數與其兩年前的下載次數之間的相關系數為0.799,并且在0.01水平下該兩變量在總體上等級相關,其中期刊在各考察年度的被引次數以及下載次數是由CNKⅠ鏡像站版獲取的,期刊下載次數與期刊被引次數的時間范圍分別為1980~2010年以及1982~2012年。期刊的下載次數與被引次數在考察年度中可能均不嚴格服從正態分布,較多年份的被引次數會相對較為居中,被引次數相對較高或相對較小的年份都會相對較少的情形在直觀上并不顯著。特別是隨著期刊的發展,期刊的逐年被引次數會具有上升趨勢,期刊的下載次數也會具有類似的情形。由于在這里是對兩個期刊指標之間的等級相關性進行考察,類似地也能夠對該期刊的下載次數與其被引次數在不同時間間隔情形下的相關情況進行探討。如當取時間間隔為3年時,能夠得到期刊在各年度的被引次數與其前三年的下載次數之間的等級相關系數為0.734,并且也能夠在0.01水平下在總體上具有等級相關性,其中下載次數與被引次數的時間范圍分別為1980~2009年以及1983~2012年,能夠得到這種相關系數隨時間間隔的變化情況,如圖1所示。

圖1 期刊被引次數與下載次數之間的相關系數與考察時間間隔的關系
圖1 中,橫軸為情報科學期刊的后期被引次數與其前期下載次數的時間間隔,縱軸為該兩變量之間的相關系數。可以看出,隨著時間間隔的增加,兩變量之間的相關系數具有下降趨勢,并且相對而言,當時間間隔為兩年時,期刊被引次數與下載次數之間也會具有較好的相關性。從直觀上,某年度的被引次數會與前期各年度的下載次數有關聯,畢竟對論文的前期下載會帶來對論文進行后期引用的可能性。因此,不同考察年度的被引次數與下載次數之間的相互作用均會影響該兩變量之間的相關性,而且從論文被下載到論文被最終引用所需要的時間延遲也是變量間相關關系的影響因素。在這里,只是希望對建立在這種時間延遲因素上的被引次數與兩年前的下載次數所具有的相關性進行側面地檢驗,畢竟所得的相關系數與這種直觀認識并不相違背。另外,當時間間隔為負時,能夠對應于被引次數對下載次數的影響,因為當期刊具有相對較高的被引次數時,也會為期刊帶來更多的后期被下載的可能性。此外,需要調整期刊的考察范圍,并對期刊下載次數與兩年后的被引次數之間的相關性進行類似地檢驗,從而使得這一考察能夠具有一般性。如對圖書情報類期刊而言,類似地能夠得到每份期刊在各個時間間隔的相關系數,那么,如果將相關系數的平均值作為相應時間間隔相關系數的整體表征,就能夠對該領域期刊下載次數與被引次數之間的相關性的整體特征進行考察。需要指出的是,在假設被引次數與其前期下載次數均具有相關性的基礎上,在圖1中所選取的時間間隔最大為10年,其原因是使得下載次數與被引次數的對數足夠多,從而使得該兩變量在0.05水平下在總體上等級相關。另外,能夠得到時間間隔為兩年時的期刊下載次數與被引次數的線性回歸方程為d’=22.14c’+100.79,其中c’與d’分別為情報科學期刊的被引次數及其兩年前的下載次數,且判定系數能夠達到0.983。同時需進一步對期刊被引次數以及下載次數在各考察年度的分布狀況進行探討,對該兩變量之間線性關系的顯著性進行檢驗。
那么,假設論文在某年度的被引次數與論文前兩年的下載次數之間存在相關性,認為該兩變量在總體上具有線性關系的條件下,假設樣本的回歸關系為d=bc+a。其中,c與d分別為論文的被引次數以及論文兩年前的下載次數,且b為回歸系數。由于在CNKⅠ的鏡像站版中能夠得到論文的逐年被引次數,所以,由該回歸方程能夠得到論文在各年度的下載次數與相應年份的兩年后的被引次數之間的關系。進一步對所得的各年度論文下載次數進行求和,并由該下載次數的累計和對論文總下載次數進行近似,其原因是假設論文的下載半衰期為兩年。如果考察時長足夠長以至于在該考察時段內論文的下載次數累計和具有其統計意義或者是能夠對論文的下載情況進行大致的表征,那么,利用該時段內的下載次數對論文總的下載次數能夠進行近似地反映。如選取圖書情報類期刊在2004年6月與2005年6月出版的論文作為考察對象,選取考察時間為2011年10月,假設論文的被引半衰期為三年,那么根據每篇論文在其發表后的各年度被引次數以及建立在上述回歸關系基礎上的兩年前的下載次數,并且在所得下載次數的累計和能夠近似等于論文總的下載次數的條件下,能夠得到回歸關系中系數b與a的關系式。假設論文的下載半衰期為兩年,那么,論文發表后兩年中的下載次數會等于論文總下載次數的一半,由此能得到系數b與a的關系式。如對在2004年6月出版的情報科學期刊論文而言,能夠得到相應的b與a的關系式并嘗試對兩系數的取值進行確定。需要指出的是,論文的下載次數與其兩年后的被引次數相關聯的假設是對于兩變量在總體上具有相關性而言的,盡管在此基礎上能夠假設樣本所具有的回歸關系,但是樣本的實際下載性質與由總體下載性質得到的樣本回歸關系會有差異。并且上述論文下載半衰期為兩年的假設也會具有粗糙性,所以,在所得的b與a的關系中,對于部分論文而言會出現兩系數無法確定的情形。其中,包括b與a的關系式的不相容,回歸系數b的取值為負數以及會出現論文在某年度下載次數為負數的情況。同時,由于論文的逐年下載次數是由兩年后的被引次數得來的,因此,當論文總的被引次數為零時也會出現關系式不相容的情形。除此之外,如果將剩余的回歸系數以及逐年下載次數均有意義的情形作為對相應論文實際下載情況的近似,并且如果上述假設在總體上具有一定的合理性,或者會有相對較多的論文的下載性質與這些假設之間具有相對較小的偏離,那么,按照假設硬性得到下載次數時會有相對較多的論文的逐年下載次數為有意義的情形。盡管所得的下載次數在數量上具有意義,但是由上述假設所得到的論文逐年下載次數與論文實際下載情況之間仍然存在偏離,由此需要對所得的下載次數進行檢驗,或者是對偏離的程度是否能夠在可接受的范圍內進行大致的考察。在此基礎上,對所得的下載次數是否能夠成為對論文的逐年下載次數的近似進行探討,一種粗略的考察是如果能夠認為上述的假設在總體上仍然具有合理性,能夠接受所得下載次數與實際下載次數之間的偏離,那么所得的論文下載次數至少在整體上應當具有一定的合理性,或者是應當在整體上與相關的直觀認識相吻合,并且這種整體性質應當與論文實際下載次數的性質相一致。
在不考慮關系式不相容的情況下,將所得的系數b與a代入上述回歸關系,能夠得到相應的論文逐年下載次數,論文發表后兩年中總的下載次數以及最大年度下載次數也能夠得到。對于其中在數量上有意義的情形,包括逐年下載次數以及系數b均為正數的論文而言,需要對這些具有偏差的下載情形的總體情況進行考察,如在每個考察年度中均會有較多的論文具有相對較低的下載次數,較少的論文的下載次數相對較高,同時即使對于下載性質與上述假設具有較小偏離的論文而言也會具有相似的分布狀況。在上述回歸假設以及下載半衰期為兩年的基礎上所得到的論文在其發表后各年度的下載次數與論文的實際逐年下載次數之間會存在偏差,盡管論文的下載次數與其兩年后的被引次數相關聯,而且論文的被引次數也會具有類似情形,即較少的論文的被引次數會相對較高,但是,每篇論文對應的系數b與a并不相同,因此,由上述假設所得的論文下載次數未必能夠與論文被引次數的指數分布狀況相一致,或者是保持原有的被引次數在論文中的分布性質。利用對所得論文下載次數分布的直觀要求,盡可能地從側面對數量有意義情形下的偏差的可接受程度進行探討,目的是在此基礎上研究利用所得下載次數對實際下載次數進行近似的合理性。任意選取論文發表后的年份例如發表后的第五年,能夠得到每篇論文在該年度的下載次數(如圖2所示)。

圖2 考察年度的下載次數在論文中的分布
圖2 中,橫軸為論文的序號,縱軸為相應論文在其發表后第五年的下載次數。由圖2可以注意到,相對較多的論文具有相對較低的下載次數以及較少的論文的下載次數相對較高,同時也存在下載次數為負數的偏差情況,對于論文在發表后的其余年份中的下載次數也會具有類似情形。需要指出的是,在圖2中,關系式不相容、存在某年度下載次數為負數以及b為負數的情形能夠占到考察論文數量的66.7%,因此,如果利用所得下載次數進行近似,仍然需要建立在較多論文的下載性質與上述假設之間具有較小偏離基礎上,并且需要進一步調整論文的考察范圍,對能否有相對較多的論文的下載次數在數量上是否會有意義進行檢驗。
此外,在得到論文的各年度被引次數時是將期刊引用與學位論文、會議論文引用的情形包含在內,而且由于期刊影響力與學位論文、會議論文影響力描述之間的可比性,在對論文影響力分值進行考察時沒有將期刊的影響力差異納入由被引次數所表征的論文影響力中。
在上述回歸關系以及論文的下載半衰期為兩年能夠在整體上具有一定的合理性的假設基礎上,考慮將論文發表兩年后的總的下載次數、最大年度下載次數納入到對論文下載情況的反映以及對論文學術影響力的描述中,其余的指標選取為在文獻[1]中所建立的論文影響力指標與這些指標的相對指標以及相關的下載類指標,[1]其中的論文被引總量以及論文下載總量是建立在考察時長為足夠長的基礎上,利用該時段內的被引及下載情況對論文的總的被引次數以及下載次數進行近似。如對于情報科學期刊在2004年6月出版的論文而言,考察時間為2011年10月,那么,在認為論文的下載半衰期為兩年的基礎上,可以近似地利用該時段內的下載次數來對論文總的下載次數進行表征。相對指標的取值仍然是利用指標的取值與在2004年6月出版的圖書情報類期刊論文的相應指標的平均值進行相除得到。由于所選取的論文具有相同的出版年份,所以在所選取的影響力指標中沒有考慮論文的年均被引次數以及年均下載次數。而且論文在發表后的兩年中的下載次數是建立在論文的下載半衰期為兩年的基礎上,所以對于每篇論文而言,該指標的取值均能夠等于論文在該時段內的下載次數的一半,由于在這里僅納入了論文的最大年度下載次數而沒有將論文在發表兩年后的下載次數考慮在內,因此,需要對這里的下載類指標值的獲取過程進行進一步地探討。在得到論文在某年度的下載次數時,是在該年度兩年后的被引次數中納入了論文被學位論文和會議論文引用的情形,所以在考察由論文的被引次數與其發表三年后的被引次數、最大年度被引次數所表示的論文影響力時,沒有將施引期刊的影響力差異考慮在內。
進一步需要對指標的權重進行探討,進而對論文的影響力分值進行考察。由于所選取的論文均屬于相同的期刊,所以,在這里仍然利用判斷矩陣的特征值與特征向量來對指標的權重進行初步確定。在對指標的相對重要性進行考察的基礎上能夠得到這些指標的判斷矩陣,該矩陣的最大特征值為7.400,與該特征值相對應的特征向量為(0.342,0.104,0.037,0.122, 0.256,0.102,0.037)。另外,該矩陣的一致性指標為0.067且一致性比率小于0.1(為0.050),由此矩陣的不一致性能夠接受,其中該特征向量初步作為上述指標的權重并且分別與論文總的被引次數、發表三年后的被引次數、最大年度被引次數、發表三年后的相對被引次數、論文所屬期刊的影響因子、論文總的下載次數以及最大年度下載次數相對應。由于這些指標與論文的影響力之間均具有正相關性,在假設這些指標之間能夠具有一定獨立性的基礎上,取論文的影響力分值等于各指標值的線性加權求和,其中要求所選取的指標對于論文影響力的反映具有一定的全面性,并且各指標的取值為其均值化后的取值,由此能夠得到在考慮論文最大年度下載次數時的論文影響力分值。由于指標均值化后的取值均為正數,因此,能夠對論文影響力的累計分值以及相應的影響力分值的分布狀況進行考察,以期能夠從論文的影響力分值出發來對上述得到的論文逐年下載次數的合理性進行進一步的探討。

圖3 論文影響力分值在論文中的分布
圖3 中,橫軸為論文的序號,縱軸為論文的影響力分值。由于所得的逐年下載次數是建立在論文的下載次數與其兩年后的被引次數具有相關性以及論文的下載半衰期為兩年在總體上具有合理性的假設基礎上,那么,如果在數量有意義的情形下,所得的下載次數能夠作為對論文實際下載情況的近似,由這種下載次數得到的論文影響力分值至少應當在整體上與由實際下載次數得到的論文影響力相一致。如會有相對較多的論文的影響力分值會相對較低。同時從直觀上對于與上述下載假設具有較小偏離的論文而言,也會具有類似的分布狀況,由此仍然需要對納入最大年度下載次數時的論文影響力分值進行考察。盡管單個論文樣本的下載情形與該論文實際下載情況之間會具有偏差,但是如果這種偏差能夠接受,那么對于樣本整體而言,建立在上述假設基礎上的論文影響力的分布情況就需要與相關的直觀認識相一致。在圖3中能夠注意到這樣的趨勢,即較少的論文的影響力分值會相對較高,相對較多的論文也會具有相對較低的影響力分值。由此希望從側面檢驗所得的下載次數能否作為對論文實際下載次數的近似,仍然需要進一步地調整論文的范圍,從而使得這里的考察能夠具有一般性。而且當論文在某年度的下載次數沒有意義、系數b為負數以及b與a的關系式不相容時,均沒有將該論文的最大年度下載次數考慮在內。此外,上述最大年度下載次數的權重相對較低,因此,論文總的被引次數的分布對于論文影響力分值分布的影響會更多地顯現出來,這樣就需要進一步對所得下載次數的偏離程度進行考察以及檢驗。如直接對論文最大年度下載次數的分布狀況進行探討,以確定是否能夠利用所得論文逐年下載次數來對實際下載情況進行估計的考察具有有效性。
需要指出的是,在所得下載次數的偏離程度能夠接受的基礎上,這里的估計只是針對數量有意義的情形或者是下載性質與下載假設具有較小偏離的論文而言。實際上對于偏離程度的考察也只是局限于樣本整體,因此單個樣本情形有可能會存在相對較大的偏差,從而需要從單個樣本出發,對相應論文的逐年下載次數進行探討以及近似,由此來避免整體性質與樣本性質的差異所帶來的與論文實際下載情況之間的偏離。
[1]金晶,等.不同學科領域自然科學論文學術影響力評價與比較的可行性研究[J].科技管理研究,2010(14):279-284.
G252.8
A
1005-8214(2014)11-0050-04
郭強,男,博士,鄭州大學信息管理系教授,研究方向:信息管理理論分析及績效評估、系統復雜度評價,發文多篇;趙瑾(1977-),男,博士,中國人民解放軍陸軍軍官學院軍事運籌教研室講師,發文多篇,研究方向:復雜系統分析。
2014-01-08[責任編輯]閻秋娟