毛國敏,吳何珍,任 蕾,蔣知瑞,生冬梅,孫振凱,袁志祥,宋勝合
(1.中國地震局地球物理研究所文獻信息中心,北京100081;2.首都醫科大學附屬北京口腔醫院《北京口腔醫學》編輯部,北京100050;3.中國地震局工程力學研究所,黑龍江 哈爾濱150080;4.《災害學》編輯部,陜西西安710068;5.《地震》編輯部,北京100036)
學術期刊論文下載次數和被引次數是兩個非??陀^的指標,顯示論文被使用和受重視的程度,論文下載或被引的次數越多說明該論文受到同行的關注和重視也越高.從直覺和常理推斷,論文下載次數會對被引次數產生正的影響.多年來,論文下載次數和被引次數之間的關系是期刊計量指標分析中最簡單、最為人們普遍關心的問題,引起相關學者的廣泛研究興趣[1~13].
萬錦堃等[1]分析了期刊論文網上下載頻次的年代分布和被引頻次的年代分布,得到“去年發表的論文下載多,前年發表的論文被引用多,當年發表的論文下載頻次與被引頻次的比值高”;龐景安[2]對中文科技期刊的下載計量指標和引用計量指標進行定量研究,利用Spearman等級相關分析方法,探討了中文科技期刊兩類計量指標之間的相關性問題,認為全部1 471種期刊總被引頻次與總下載頻次指標間存在較強的相關關系;劉筱敏[3]以15種化學類電子期刊為統計樣本,分析2003~2005年的全文下載量,利用中國科學引文數據庫中國科學院著者引用這15種期刊的引用數據,分析下載行為與引用行為的相關關系,認為下載行為與引用行為存在正向相關關系;趙大良[4]以1996~2000年發表在《西安交通大學學報》的論文為例,選取被引頻次最多的前100篇文章與訪問量最高的前100篇共22篇論文,統計其在發表以后的被引用頻次、網絡訪問量,發現無論是Web下載、網絡瀏覽還是訪問量的變化趨勢都與文章的被引用的發展趨勢相反,即呈負相關性;杜秀杰等[5]以《西安交通大學學報》的數據為例,對1994年第1期、2006年第1~3期和2007年第1期發表文章的下載頻率和被引頻率進行相關分析,表明網絡傳播是提升期刊影響力的必要條件和手段;丁佐奇等[6]根據《中國天然藥物》和《中國藥科大學學報》2003~2008年發表的論文在中國知網《中國學術期刊文獻評價統計分析系統》下載數據庫與引證數據庫中的下載頻次與被引頻次,對兩種期刊下載與被引頻次最高的前20(Top20)篇文章進行分析,探討影響科技論文被引頻次和下載頻次相關性,認為單篇論文的被引頻次與下載頻次的相關性較差,不能用先期的下載次數對后期的被引次數進行預測;張小強[11]以中國知網中中國科學引文數據庫(CSCD)和中國人文社會科學引文數據庫(CHSSCD)來源期刊為統計分析樣本,對下載頻次、被引頻次與影響因子之間的相關性進行分析,表明期刊被引頻次與下載頻次具有高度的正相關性.
檢索相關研究文獻發現,目前多數是針對特定時間段、多是以期刊或某期刊類別為觀察對象進行分析,得到了一些有意義的研究結果,絕大多數忽略了研究指標的分布問題或假定指標是服從正態分布的.為此,本文在考慮原始數據概率密度分布的基礎上,通過對原數據的合理變換,運用相關和線性回歸方法,對不同學科類別、載文規模和學術影響力、有一定代表性的3種期刊進行分析,探討單刊論文全時域(從創刊至現在)下載次數與被引次數兩個變量之間的關系問題.
本文以《CT理論與應用研究》期刊(簡稱A刊)為例,研究學術期刊論文被引次數與下載次數之間的關系.A刊在中國學術期刊影響因子年報[14]中的學科類別為自動化技術計算機技術(TP)類或軍事醫學與特種醫學(R8)類,2013年起科學類別更改為綜合性科學技術(N/Q,T/X)類或綜合性醫藥衛生(R)類,學術影響力一般,載文規模較?。疄榱蓑炞C期,我們再利用其他兩種不同學科類別、載文規模和學術影響力的B刊和C刊資料,進一步研究論文被引次數與下載次數相關性并作回歸分析.其中:B刊為某地球物理(P)類精品期刊,學術影響力較大,載文規模中等;C刊為某高校學報,學術影響力較大,載文規模較大.
考慮到論文自發表至下載和被引的時滯,數據采集的時間段分別為各刊創刊年至2011年12月,3種期刊的樣本數據分別為1 059、2 156和14 017,原始數據來源于文獻15~16.表1為3種期刊論文下載次數和被引次數基本統計量情況,3種期刊論文下載次數和被引次數數據見表2.

表1 期刊論文下載次數和被引次數基本統計情況

表2 期刊論文下載次數和被引次數數據
設X=(x1,x2,…,xn),Y=(y1,y2,…,yn),分別為來自X和Y的兩個樣本,則樣本相關系數為[17]:
(1)
r取值在-1與1之間,它描述了兩變量(或兩指標)線性相關的方向和程度.r>0,兩變量之間為正相關,r<0為負相關.|r|≥0.8時,可認為兩變量之間高度相關;0.5≤|r|<0.8時,可認為中度相關;|r|<0.3時,說明兩個變量之間的相關程度極弱,可視為不相關[17].
設X=(x1,x2,…,xn),Y=(y1,y2,…,yn)分別為來自X和Y的兩個樣本,樣本值(xi,yi),如果變量滿足一元線性方程
y=c+bx
(2)
則有n個方程,通過求解正規方程組,可得到c和b的最小二乘估計

我們使用SPSS20軟件對3種期刊論文被引次數與下載次數分別進行相關和回歸分析,相關和回歸分析要求分析變量的概率密度滿足正態分布[17、18].圖1為3種期刊原始被引次數v與下載次數u散布圖,由于v和u的概率密度都呈左偏(偏度系數S>0)、高窄(峰度系數K>0)態,遠離正態分布(|S|>3,|K|>8)(見表1),v和u值小的概率高,隨著v和u的增加,v和u的概率快速減小,高被引和高下載的概率僅占很小部分[19~21].因此,圖中左下方的數據點很密集,而在右上方數據點卻非常稀少,從圖中可看出原始下載次數u與被引次數v之間沒有明顯的關系.
因為論文下載次數u的概率密度服從對數正態分布[21],理論上,只要對u作對數變換,即令x=ln(u),那么x變量的概率密度就是正態分布的,可以利用x做各種對數據有要求的分析.
文獻[20]認為,被引次數v的概率密度服從漂移冪律函數分布,理論上總能找到一種變換,使變換后的變量近似服從正態分布,但是考慮到簡潔性,更主要是為了與下載次數的變換以及變換后的數值分度一致,我們也對v作簡單的對數變換,即令y=ln(v+a),根據文獻[20]的結果,A、B和C三種期刊的a的取值分別為1.540、4.311和3.827.對v先平移再作對數變換的優點是:(1)簡單;(2)與x的變換一致;(3)與x值的分度一致;(4)避免了零被引(v=0)不能取對數的情況.其缺點是:y的概率密度并非完全正態分布,但y的偏度系數Sy和峰度系數Ky的絕對值遠小于v的偏度系數Sv和峰度系數Kv的絕對值(表3),尤其是Ky與Kv相比有了很大的改善,y變量的峰態更接近標準正態,Sv的絕對值小于8(表3),可以認為y基本滿足正態分布的要求.

表3 三種期刊論文被引次數變換前后的偏度和峰度系數
對下載次數v和被引次數u作變換得到y和x,表4為3種期刊論文被引次數y與下載次數x之間相關系數及其檢驗,經統計檢驗(表4),3種期刊y與x相關的顯著性P值均為0.000,相關系數分別為0.651、0.374和0.548.由此我們可以得出,至少在顯著性Pα=0.01的水平上,A刊、B刊和C刊論文的被引次數與下載次數有顯著正相關關系,其中A刊和C刊為中度正相關,B刊為正弱相關.3種期刊論文被引次數y和下載次數x的散布圖如圖2所示,從圖2中可以比較直觀地看出y與x呈正相關關系.

表4 三種期刊論文被引次數與下載次數相關分析及其檢驗



表5 三種期刊論文被引次數與下載次數回歸模型檢驗
注:均方和=平方和/自由度;F值=回歸均方和/殘差均方和;R2為模型的擬合優度,R2=1-殘差平方和/總平方和.

(3)
類似于A刊的分析過程,經檢驗(表5和表6,見106頁),B刊和C刊論文被引次數與下載次數之間也存在線性關系,線性回歸方程分別為:
(4)
(5)

表6 三種期刊論文被引次數與下載次數回歸參數估計及其檢驗


在撰寫本文過程中還做了一些探索性工作,我們對3種期刊論文被引次數y與下載次數x兩變量直接做回歸分析,也能得到模型參數并且各參數都通過統計檢驗,但是,回歸模型的擬合優度差,決定系數R2分別為0.424、0.140和0.300,這說明A、B和C刊3種期刊變量y關于x的線性回歸模型不能成立.通過這些探索性的分析工作,表明當原始的概率密度遠偏離正態分布時,需要對原始數據做必要的變換和適當的處理,才能做有關的統計分析,得到合理的預期結果.
本文在了解原始數據概率密度分布的基礎上,通過對原數據作合理的變換,運用相關和線性回歸方法,對不同學科類別、載文規模和學術影響力、有一定代表性的3種期刊進行分析,探討單刊論文全時域(從創刊至現在)下載次數與被引次數兩個變量之間的關系問題,得出:(1)學術期刊原始論文被引次數v與下載次數u之間沒有明顯的關系;(2)經變換,論文被引次數y與下載次數x呈正相關關系;(3)對數據再做適當處理后,論文被引次數y和與平均下載次數存在簡單的線性關系,隨著論文下載次數增加,與之對應的論文被引次數也隨之而增加.本文的分析方法對今后其他類似利用非正態分布數據進行相關和回歸分析也有一定的參考價值.