江永眾 ,陶虹琳,杜彥璞,b
(成都理工大學a.管理科學學院;b.四川省數學地質重點實驗室,成都 610059)
Garfield[1]開創文獻計量學以來,期刊評價指標的選擇問題一直是一個重要的研究問題。期刊是科學研究中的重要學術資源,在科學研究中發揮著非常重要的作用。期刊的使用者集中在高校師生,圖書館選購部門以及期刊愛好者等。隨著期刊名目的逐漸增加,學者們將面臨從數量眾多、內容繁雜的期刊名目中選擇符合自身研究方向或感興趣的期刊的難題,從而經常陷于如何高效選購、閱讀相關刊物以及在何種期刊上發表論文的困境。期刊評價體系來源于Eugene Garfield的《科學引文索引》(Science Citation Index,簡稱SCI),目前引文索引已經成為評價期刊質量的重要指標。國內最早源于1992年北京大學圖書館出版的《中文核心期刊要目總覽》,對期刊評價進行了研究。現階段國內多家機構對期刊都開展了評價工作,對期刊評價指標的選擇方法在我國已有少量研究[2-9]。本文基于現有國內期刊評價指標體系,首先對套索方法做了簡要的介紹,通過統計學研究中的Lasso方法,解決指標間的多重共線性,把它運用于期刊評價指標選擇的實證研究中,通過定量分析的方法篩選主要評價指標,使科研人員,特別是一些跨學科研究人員,例如勞動關系研究人員可以選擇合適的期刊進行發表,也可以使圖書館結合實際選購合適的期刊。
Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非負絞除法(NNG)的基礎上,對NNG不足之處做了改進。非負絞除法的預測誤差相對較小并且由于非負絞除法去除了模型中很多接近0但非0的特征,從而增強了模型的解釋性。在高維數據分析中,非負絞除法由于對高維特征進行了壓縮,模型簡化了計算過程并且增強了重要特征的解釋性。但是非負絞除法的缺點是其運算結果要依賴于最小二乘估計的符號和數值大小。并且存在過擬合和多重共線性情況時,由于最小二乘估計效果不好而會影響預測準確性。
對于一般線性回歸模型見式(1):

其中β是pn×1維列向量,εi是獨立同分布的。在一般的回歸模型中,常常認為觀測值彼此獨立或者被解釋特征Yi在給定解釋特征xij的條件下相互獨立。同時假設xij是經過標準化之后得到的,即當訓練集維數和樣本量幾乎相等或者超過樣本量時,有些回歸系數是稀疏的即有些元素為0,這時傳統的最小二乘法將不再適用,需要尋找其他的相關方法比如正則化方法或者懲罰方法來代替。常用的有嶺回歸和Lasso方法,但是,通過嶺回歸得到的模型包含全部的特征,不能進行特征選擇。和嶺回歸不同的是Lasso方法采用L1范數,而嶺回歸是L2范數Lasso算法的參數估計見式(2):

式(2)中λ∈[0,+∞)作為調和參數,能夠通過對它進行控制從而使回歸系數總體變小。若令為回歸參數的最小二乘估計值,這樣將會讓一些回歸系數縮小并逐漸趨近于0,有些甚至會等于0。式(1)的第一部分表示的是模型擬合的優良性,第二部分表示的是對參數的懲罰。如果調和系數λ越小,那么模型的懲罰力度就會越小,從而保留的特征就會越多;反之則特征就會減少。由此,Lasso方法經常被用來特征選擇,它有兩個優點。其一,Lasso方法在特征選擇的過程中是連續的且很穩定;其二,對于高維數據而言,Lasso方法使其時間復雜度較低
在期刊評價中,各個指標代表回歸模型中的自變量,所研究的目標變量定義為因變量。對于Lasso方法的求解,Tibshirani[11]提出使用二次規劃方法,但Efron認為這種求解方法較為復雜,后來兩個合作共同提出了的最小角回歸算法,極大加快了計算速度。利用該方法求解Lasso,得到Lasso中未知參數的求解變化路徑。對于Lars算法,在R和Python中均提供了相應的計算工具包,比如R中的lars和glmnet以及Python的Scikit-learn軟件程序包。
本次實驗平臺為R-3.2.4,R語言是一種免費的開源語言,并提供了大量可以調用的接口函數,對于一般的統計實驗均可用R實現。同時,為了確保實驗結果的可靠性,將利用同樣的數據信息通過Python環境進行了一次實驗。Python語言同樣擁有非常豐富的數據分析、處理的工具,可以輕松完成本文提到方法的實現。實驗數據來源于中國知網CNKI2015年的年度統計報告,選取了圖書情報領域41種期刊作為研究對象見表1所示。表2為本文待選擇的評價指標。

表1 41種圖書情報領域的期刊

表2 待選擇的指標說明
其中中國圖書館學報、情報理論與實踐、圖書情報知識等18種期刊在中國知網CNKI期刊評價中暫被列為核心期刊,本文選擇的41種期刊中,核心期刊占比為43.90%。
影響力指數CI值即學術期刊影響力指數(簡稱CI)作為一個綜合指標,它反應的是一組期刊中各個期刊影響力的大小。在本文中,將CI值作為因變量,其他變量作為自變量,分析各自變量之間的多重共線性問題。限于篇幅,表3列出了5種期刊的實驗數據。另外,由于各個指標的計算方式不盡相同,因此,在采用Lasso方法之前,首先需要對指標數據進行標準化處理。

表3 部分實驗數據
對于Lasso方法中的調和參數λ的確定是非常重要的,一般采用交叉驗證的的辦法求得λ的最優值,即當交叉驗證取最小值時λ為最優值λmin。為了取得模型的最優精度,需要選擇合適的λ,使得模型的預測誤差降低到最小值。本文使用AIC/BIC準則確定模型大小,一般當AIC/BIC越小時表示該模型越精確。AIC準則其實是BIC準則的一個特殊形式,具體解釋見文獻[12]。實驗采用5折交叉驗證[13]的方法,即首先將數據隨機分為5份,然后依次將其中一份用于計算誤差,剩余4份用于擬合模型,這樣可以得到5個預測誤差,最后取這5個誤差的平均值。圖1(見下頁)為AIC/BIC信息準則用于模型選擇的變化圖,圖2(見下頁)為Lasso的系數解路徑,可以看出當約束λ最大時所有特征被選入模型,隨著約束的減少,特征逐漸減少。

圖1 AIC/BIC準則用于模型選擇

圖2 Lasso系數解路徑圖
本文利用AIC準則確定模型最優解,根據Lasso回歸參數估計結果,發現在第9步時,AIC達到最小值并最終選擇了12個特征,由表4(見下頁)可以看出指標x2,x4,x5,x6,x8,x12,x17,x19,x21,x22,x23,x24的系數為 0 ,其他均不為 0。因此,選取了可被引文文獻量、基金論文比、引用期刊數、他引總引比、互引指數、web即年下載率、量效指數、影響力指數CI值、復合總被引、復合影響因子、復合5年影響因子、綜合總被引共計12個指標作為最終的評價指標體系。對系數表進一步觀察可以看出,對前三位重要指標排序依次是復合5年影響因子、復合總被引、量效指數。這與實際聯系是一致的,比如在研究人員論文投稿時一般會關注其5年影響因子,如果比較高可以認為是比較優秀的期刊。通過對原始數據的5年影響因子倒序排序得到了在41種圖書情報領域中有較大影響力的三大比較優秀的期刊,他們分別是:《大學圖書館學報》、《中國圖書館學報》、《情報學報》。這進一步應證了本文應用方法的合理性。

表4 Lasso系數表
目前我國較為權威且得到多數人認可的期刊評價體系是由中國科技信息研究所通過層次分析法得到的,首先由專家打分確定權重,對不同的學科期刊進行綜合評價。這樣做的優點主要是避免了單一指標的局限性,缺點主要是評價結果受專家打分的個人主觀因素的影響。本文通過實際數據分析,采用科學的計算方法最終得到關鍵指標,具有一定的說服力。
針對指標數量增多所帶來的諸多問題,本文從在以往期刊評價方法研究的不足出發,利用套索方法減少期刊評價因子,提取關鍵指標,通過科學的計算過程避免了專家打分的個人主觀性,另一方面套索方法可以降低期刊評價中的多重共線問題,以提高期刊的評價效率。
套索方法在期刊評價中指標因子選擇方面具降低多重共線性等優點,利用套索方法的連續性和穩定性,使對不重要的指標懲罰更加合理。通過研究,套索方法可以達到指標選擇的作用,為有關人員提供另一種參考標準。比如本文使用的24個指標中篩選了12個指標,這樣讀者和研究人員可以僅根據可被引文文獻量、基金論文比、引用期刊數、他引總引比、互引指數、web即年下載率、量效指數、影響力指數CI值、復合總被引、復合影響因子、復合5年影響因子、綜合總被引這12個指標來選擇合適的期刊閱讀、發表、購買等。對于跨學科研究來說,應該對多學科期刊進行綜合考量。針對后續的研究,同樣可以利用本文的方法,一方面可以檢驗新的指標因子的合理性,另一方面為構建新的指標提供理論依據。