俞立平 舒光美
(1.常州大學商學院,江蘇 常州 213159;2.廣州商學院數(shù)字經濟產業(yè)學院,廣東 廣州 510700)
在學術期刊評價中,不同類型指標之間相關是一種容易被觀測到的正常現(xiàn)象。通常情況下,同類指標相關更容易被理解,如影響因子、他引影響因子、h指數(shù)之間,被引半衰期與引用半衰期之間。不同類型指標之間的相關其實也比較正常,如優(yōu)秀期刊的傳播力和影響力均較高,引用指標與時效性指標均較好等。本質上,這源自優(yōu)秀趨同效應,即優(yōu)秀期刊的表現(xiàn)不是某一個方面優(yōu)秀,而是全方位優(yōu)秀。
不同類型指標相關帶來的信息重疊問題會影響評價結果。同類指標相關帶來的信息重疊問題總體上還好,畢竟說明的是同一問題,但是不同類型指標相關會帶來相關信息的重復計算,必然會扭曲評價結果。這個問題是學術期刊評價方法的基礎問題,如果不加以解決,勢必會影響學術期刊評價的科學性,降低學術評價的公信力[1-2]。
關于指標相關導致的信息重疊問題的危害,Harrigan N等[3]指出,信息重疊的表現(xiàn)是用戶關注或收到許多內容相同或相似的信息。劉翠杰[4]認為,在一個指標體系中,指標數(shù)量與信息重疊是一對矛盾,指標越多越全面,信息重疊問題也就越嚴重。王偉夏[5]從集合論的角度分析了指標信息重疊對評價造成的不利影響。秦爍等[6]提出信息重疊降低了傳播效率,嚴重時會喪失信息自身價值。
關于評價指標信息重疊的消除方法,一種觀點認為可以通過改進評價方法實現(xiàn),如采用主成分分析、因子分析等方法進行評價,問題是基于降維的評價方法容易犧牲評價指標的部分信息,進而扭曲評價結果;另一種觀點是通過刪除信息冗余指標實現(xiàn),Destrero A等[7]指出,應刪除相關系數(shù)較大指標中的次要指標,以提高評價指標信息獨立水平。陳洪海[8]提出信息可替代性標準,然后刪除信息重疊較大指標。遲國泰等[9]構建了基于信息敏感性的指標篩選與賦權模型。
從現(xiàn)有的研究來看,關于評價指標的信息重疊或數(shù)據冗余問題,學術界已充分認識到問題與危害。關于這個問題的解決方法,目前總體上停滯不前,因為以犧牲部分指標信息的降維方法解決了信息重疊問題但帶來了新的問題,而刪除評價指標并不能從根本上解決問題,其他指標之間還是會相關,何況刪除指標會帶來信息損失。至于不同類型指標之間的相關問題,缺乏專門的研究,相關討論尚處于探索階段。在以下方面有待進一步深入研究:
第一,對于學術期刊評價而言,其指標分類標準是什么?基于現(xiàn)有的指標分類標準,不同類型指標之間相關的形成機制是什么?只有弄清不同指標相關的形成機制的基礎上,才能更好地解決相關問題。
第二,不同類型指標之間相關會對學術期刊評價帶來什么影響,現(xiàn)有的研究盡管提及相關問題,但缺乏深入分析。
第三,解決不同類型指標信息重疊的方法,總體上缺乏研究,本文提出一種基于不同類型指標復相關系數(shù)的調整方法,試圖解決這個問題。
本文基于中國知網期刊數(shù)據庫,以環(huán)境科學與技術學科期刊為例進行實證。首先構建期刊評價指標分類框架,并分析不同類型期刊評價指標信息重疊的形成機制,然后提出消除不同類型指標信息重疊的解決方法,最后比較原始指標評價與消除信息重疊后指標評價結果的差異,從而得出結論。本文的研究推進了多屬性評價與學術評價方法的進一步完善,對于提高學術期刊評價方法的科學性和公信力具有重要意義。
期刊評價指標是指用于期刊評價、具有價值判斷的指標。那些無法體現(xiàn)價值判斷的指標一般不能稱為期刊評價指標,比如平均發(fā)表周期、地區(qū)分布數(shù)等。
本文重點研究不同類型指標之間的相關問題,對于同類指標相關,考慮到信息重疊對其影響較小,因此不做重點研究。這樣就涉及評價指標的分類問題,為了研究方便,主要從一級指標角度進行分類,一級指標之間的相關是不同類型指標相關的典型代表,因此主要對一級指標之間的信息重疊問題進行深入研究。
期刊評價指標的分類依據有很多,如指標內涵、外表形式、時間跨度、統(tǒng)計特征等,本文重點研究不同類型評價指標之間的相關關系,因此從指標內涵角度進行分類。
關于期刊評價指標的分類,盡管不少文獻在期刊評價應用中進行過分類,但缺乏系統(tǒng)研究。趙惠祥等[10]將期刊評價指標分為影響力指標、文獻指標、載體指標、管理指標。本文根據當前期刊評價的實際,將其分為編輯出版指標、知識傳播指標、影響力指標、引用類指標、時效性指標、來源特征指標。
編輯出版指標包括政治指標以及體現(xiàn)期刊編輯出版質量的指標,如編排規(guī)范化、差錯率、印刷質量等,一般在學術期刊評價中,評價目的也是多樣的,基于期刊學術質量的評價一般不選擇此類指標進行評價,而相關學術期刊管理部門往往比較重視該類指標評價。

圖1 期刊評價指標分類
知識傳播指標包括網絡下載指標、網絡評論指標等,目前許多Altmetrics指標可以歸到此類。
影響力指標眾多,如影響因子、h指數(shù)、即年指標等,該類指標也是非常重要的引文指標,是傳統(tǒng)文獻計量學中最重要的指標。
引用類指標指期刊論文中與引用相關的指標,如平均引文數(shù)、引用期刊數(shù)、引用外文文獻數(shù)等,該類指標對期刊質量具有潛在的影響。需要說明的是,影響力指標與引用類指標還是有較大差異的,影響力指標主要是被引指標,是期刊論文的“輸出”指標,引用類指標是期刊引用其他期刊論文的指標,是期刊的“輸入”指標。
時效性指標指典型的如引用半衰期、被引半衰期等、平均發(fā)表時滯等,用來反映期刊文獻的老化速度,期刊類別不同,文獻老化速度不同,一般側重基礎研究的期刊文獻老化速度慢。
來源特征指標是體現(xiàn)期刊內在信息又不包括編輯出版的指標,如平均國家基金數(shù)量、基金論文比、海外論文比、平均作者數(shù)等,其實這些指標涉及范圍比較廣泛,有時可以劃分到其他類型中去。
對于同類指標而言,評價指標相關信息適當重復是可以的,而對于不同類型指標而言,其對評價結果的影響可能很大,因此,評價指標的分類對實證研究結果影響很大,必須進行全方位分析。
學術期刊評價指標的分類方法有兩種,一種是人工分類,這也是傳統(tǒng)分類方法;另一種是采用機器分類,分類方法包括聚類分析、因子分析等。機器分類有時是必要的,俞立平等[11]在學術期刊評價指標分類中發(fā)現(xiàn)聚類方法并不適用,建議采用因子分析。本文綜合采用聚類分析、因子分析進行數(shù)據分析,再進行人工分類,這樣可以使得期刊評價指標分類更加全面。

圖2 期刊不同類型指標之間關系
1.3異類指標相關的原因分析
第一,作者同源效應。比如引用類指標與來源特征指標相關。引用類指標是評價期刊引用其他期刊的一些指標,如平均引文數(shù)、引用期刊數(shù)等,表面看它與其他期刊相關,但實際引用行為卻是作者在論文中進行的引用,作者水平越高,引用期刊的檔次、論文水平等越高。來源特征指標本質上也是由作者和稿件決定,作者水平越高,期刊篇均國家基金數(shù)量、基金論文比等指標值越大。所以由于作者同源效應,導致引用類指標與部分來源特征指標相關。
第二,先后次序效應。如期刊知識傳播指標與期刊影響力指標相關。期刊論文首先要進行傳播,在互聯(lián)網時代,傳播主要通過網絡進行,作者下載論文后才能在后續(xù)研究中將其列入引用,兩者有先后次序關系,當然具有一定的相關性。其相關性大小又受到具體的期刊評價指標內容、不同學科期刊評價數(shù)據、指標之間滯后關系等因素的影響,有些指標之間相關性較大,有些指標之間相關性相對較小。
第三,期刊質量效應。如時效性指標、知識傳播指標、影響力指標之間相關,當期刊論文水平較高時,比如會取得較好的時效性,同時傳播指標與影響力指標也較高,所以它們三者之間存在一定程度的相關。
傳統(tǒng)線性指標加權匯總方法如下:
Ci=w1X1+w2X2+…wnXn
(1)
式(1)中,wi代表權重,i為評價指標的序號,n為評價指標的數(shù)量,Xi為標準化的評價指標。
假設指標分類評價結果為L1、L2……Lk,為簡化起見,假設L為一級指標評價值,各分類的權重為ω1、ω2……ωk。這里L為X的線性組合,ω為w的線性組合。那么期刊評價結果也可以寫成:
Ci=ω1L1+ω2L2+…+ωkLk
(2)
假設L由兩部分組成,一部分是其沒有重疊的獨立信息P,另一部分是重疊信息Q,則有:
Ci=ω1(P1+Q1)+ω2(P2+Q2)+…+ωk(Pk+Qk)=(ω1P1+ω2P2+…+ωkPk)+(ω1Q1+ω2Q2+…+ωkQk)
(3)
式(3)包括獨立信息與重疊信息評價結果之和,這樣獨立信息評價結果值就會小于實際評價值,并且當學術期刊數(shù)量較多時,會對排序的影響較大。
如果假設分類評價結果L的獨立信息與重疊信息比重分別為α、β,很顯然有α+β=1,并且每類指標的獨立信息與重疊信息比重并不相同,即αi≠αj,βi≠βj,則式(2)也可以寫成:
Ci=ω1(α1+β1)L1+ω2(α2+β2)L2+…ωk(αk+βk)Lk=(ω1α1L1+ω2α2L2+…+ωkαkLk)+(ω1β1L1+ω2β2L2+…+ωkβkLk)
(4)
從式(4)既可以得出式(3)的結論,同時從獨立信息評價部分也可以看出,由于信息重疊問題存在,實際上導致了獨立信息評價中權重被扭曲了,同時評價值變小了,顯然有ωiαi<ωi,并且:
ω1α1+ω2α2+…+ωkαk<1
(5)
2.2獨立信息測度
借鑒Diakoulaki D等[12]提出的CRITIC評價方法中測度指標獨立信息的方法,其基本思路是采用復相關系數(shù)的原理。以指標分類評價結果L1為例,其與L2、L3……LK相關。以L1為因變量,其他分類評價結果為自變量進行回歸:
L1=c0+δ2L2+δ3L3+…+δkLk+μ
(6)
式(6)中,c0為常數(shù)項,δi為回歸系數(shù),μ為殘差,這樣L1就被分解為兩部分,一部分是由L2……Lk可以解釋的重疊信息部分,重疊比例為擬合優(yōu)度R,而另一部分就是獨立信息部分,用1-R表示。所以獨立信息評價結果為:
ω1(1-R1)L1+ω2(1-R2)L2+…+ωk(1-Rk)Lk
(7)
式(7)中,由于存在權重扭曲,因此要重新進行歸一化處理:
(8)
所以最終獨立信息評價結果為:
C′i=ω′1L1+ω′2L2+…+ω′kLk
(9)
本文選取中國知網定期發(fā)布的學術期刊影響因子年報,以2020版環(huán)境科學與技術期刊來進行分析。環(huán)境科學期刊屬于自然科學期刊,在中國知網收錄的中文自然科學期刊中屬于數(shù)量中等偏多的期刊,這樣可以保證較大樣本,便于后續(xù)進行統(tǒng)計分析。此外還有一種重要的原因是,開展異類指標相關對期刊評價的影響研究,必須以一個學科為例進行說明,不同學科期刊不能混在一起,因為可比性首先是評價和進一步研究的前提條件。評價指標包括:總被引頻次、影響因子、即年指標、被引期刊數(shù)、Web即年下載率、總下載量、引用期刊數(shù)、平均引文數(shù)、基金論文比、引用半衰期、被引半衰期,共11個評價指標。
環(huán)境科學與技術學科期刊共有74種,因為6種期刊部分數(shù)據缺失,將其刪除后實際還有68種期刊,評價指標描述統(tǒng)計如表1所示。

表1 評價指標描述統(tǒng)計

表1(續(xù))
首先采用聚類分析中的系統(tǒng)聚類進行評價指標分類,結果如圖3所示。聚類分析中,被引期刊數(shù)與引用期刊數(shù)被分為一類,這是可以解釋的,因為論文作者決定了引用期刊數(shù),而引用期刊的相關知識和思想又體現(xiàn)在論文中,從而對被引期刊數(shù)產生影響。總被引頻次被分為單獨一類,其他指標也被分為單獨一類,總體上,這種分類體系并不合理,主要原因還是評價指標之間的相關造成的。

圖3 指標聚類分析結果
繼續(xù)采用因子分析降維進行評價指標分類,KMO檢驗值為0.736,Bartlett檢驗值為702.426,p值為0.000,具備因子分析的前提條件。公共因子共分為3類,其解釋總方差如表2所示,第一公共因子的方差貢獻率為35.548%,第二公共因子為31.473%,而第三公共因子的方差貢獻率相對較小,僅為12.298%,三者之和為79.319%。從另外一個角度看,如果采用因子分析進行評價,也意味著存在20.681%的信息損失,這無疑會嚴重影響評價結果。

表2 解釋總方差

表2(續(xù))
因子分析旋轉矩陣如表3所示。從結果看,第一公共因子主要相關指標包括總被引頻次、被引期刊數(shù)、總下載量、Web即年下載率、引用期刊數(shù)、引用半衰期;第二公共因子主要相關指標包括影響因子、即年指標、平均引文數(shù)、基金論文比;第三公共因子主要相關指標為被引半衰期,這個分類結果難以解釋,主要原因是指標之間的復雜相關關系。

表3 旋轉矩陣
從機器分類結果看,目前機器分類方法并不總是有效,因此本文采用人工分類,權重賦值采用專家賦值,選取了7位專家,1名是相關領域國家級科研院所教授,4名為985高校圖書館情報學領域教授,2名為環(huán)境科學期刊編輯,最后根據專家權重求平均并適當進行取整處理,經過兩輪打分,結果如表4所示。
首先對4個一級指標進行評價,然后分別進行回歸,得到其擬合優(yōu)度,影響力、傳播力、來源特征、時效性的擬合優(yōu)度分別為0.836、0.779、0.512、0.145,影響力指標的擬合優(yōu)度最高,為0.836,說明其獨立信息最低,而時效性的擬合優(yōu)度最低,說明其能夠提供更多獨立信息。
用1減去擬合優(yōu)度,得到獨立信息,再分別乘以專家權重,最后進行歸一化處理,得到4個一級指標的綜合權重,影響力、傳播力、來源特征、時效性的綜合權重分別為0.236、0.177、0.313、0.274,很明顯這個權重組合與專家權重相差較大。

表5 指標分類獨立信息權重計算
首先采用原始指標數(shù)據和專家權重進行評價,再用4個一級指標數(shù)據和歸一化權重進行評價得到獨立信息評價結果,兩者比較如表6所示。其平均排序位次差為2.94個,即兩種評價結果平均每個期刊的排序誤差為2.94,這個是不應該被忽視的。當然由于對一級指標獨立信息權重進行了歸一化處理,獨立信息評價值較小的問題得到了克服。

表6 原始指標與獨立信息評價結果對比
原始指標評價值X與獨立信息評價值Y的散點圖如圖4所示,兩者高度相關,總體上獨立信息評價結果值要大于原始指標評價,但這并不具有必然性,也許是數(shù)據原因偶然產生的。兩者回歸結果如下:

圖4 原始評價與獨立信息評價散點圖

表6(續(xù))
log(Y)=1.344+0.710log(X)
(10)
(19.123***)(35.397***)
R2=0.950n=68
原始數(shù)據評價值與獨立信息評價值描述統(tǒng)計分別如圖5、圖6所示,原始數(shù)據評價結果并不服從正態(tài)分布,而獨立信息評價結果服從正態(tài)分布,獨立信息評價結果的均值提升較大,原始指標評價結果離散系數(shù)為42.91%,而獨立信息評價結果的離散系數(shù)為28.11%。以上充分說明,獨立信息評價結果與原始指標評價結果的差距還有很多隱性的東西,對評價的影響是巨大的。

圖5 原始數(shù)據評價值描述統(tǒng)計

圖6 獨立信息評價值描述統(tǒng)計
1)不同類學術期刊評價指標之間相關具有內生機制
本文在理論分析的基礎上,將期刊評價指標分為編輯出版指標、知識傳播指標、影響力指標、引用類指標、時效性指標、來源特征指標等,通過分析這些指標之間的關系發(fā)現(xiàn),它們之間之所以相關,是存在作者同源效應、先后次序效應、期刊質量效應3種內生效應,所以這種相關是必然的。
2)機器分類在學術期刊評價中有時并不適用
本文實證研究發(fā)現(xiàn),無論是采用聚類分析,還是采用因子分析進行學術期刊的機器分類,其結果都是難以解釋的,其根本原因是學術期刊評價指標之間存在復雜相關關系。在學術期刊評價中,涉及評價指標分類時,應采用人工分類方法。
3)不同類型評價指標相關會影響期刊評價結果
通過理論研究發(fā)現(xiàn),不同類型評價指標相關會使評價權重扭曲,并且影響評價結果的排序,同時使得真實評價值低于實際評價值,這3個方面的影響無疑使得學術期刊評價結果產生較大誤差,降低了學術評價方法科學性與公信力。
4)基于獨立信息的修正方法可以有效克服不同類型評價指標的相關問題
基于不同類型指標之間的擬合優(yōu)度,間接得到各類指標的獨立信息,經權重歸一化后可以有效克服不同類型指標之間的相關問題。基于中國知網環(huán)境科學與技術期刊的研究結果表明,原始指標評價與獨立信息評價在數(shù)據分布、評價結果排序、離散系數(shù)等方面均有較大差異,這從另外一個角度說明不同類型指標相關問題的嚴重性。
需要說明的是,本文提出的研究方法大大降低評價指標之間的相關性,可以采用評價指標的獨立信息來進行評價,進而降低異類指標相關對學術評價的影響,但在具體的評價過程中,受評價期刊學科、評價數(shù)據、指標選取等諸多因素的影響,異類指標相關對學術期刊評價帶來的影響也存在一定的差異。