套索方法在期刊評(píng)價(jià)指標(biāo)選擇中的應(yīng)用

2018-10-09 05:54:00江永眾陶虹琳杜彥璞

統(tǒng)計(jì)與決策 2018年17期

江永眾，陶虹琳，杜彥璞,b

（成都理工大學(xué)a.管理科學(xué)學(xué)院；b.四川省數(shù)學(xué)地質(zhì)重點(diǎn)實(shí)驗(yàn)室，成都 610059）

0 引言

Garfield[1]開創(chuàng)文獻(xiàn)計(jì)量學(xué)以來(lái)，期刊評(píng)價(jià)指標(biāo)的選擇問(wèn)題一直是一個(gè)重要的研究問(wèn)題。期刊是科學(xué)研究中的重要學(xué)術(shù)資源，在科學(xué)研究中發(fā)揮著非常重要的作用。期刊的使用者集中在高校師生，圖書館選購(gòu)部門以及期刊愛好者等。隨著期刊名目的逐漸增加，學(xué)者們將面臨從數(shù)量眾多、內(nèi)容繁雜的期刊名目中選擇符合自身研究方向或感興趣的期刊的難題，從而經(jīng)常陷于如何高效選購(gòu)、閱讀相關(guān)刊物以及在何種期刊上發(fā)表論文的困境。期刊評(píng)價(jià)體系來(lái)源于Eugene Garfield的《科學(xué)引文索引》（Science Citation Index，簡(jiǎn)稱SCI），目前引文索引已經(jīng)成為評(píng)價(jià)期刊質(zhì)量的重要指標(biāo)。國(guó)內(nèi)最早源于1992年北京大學(xué)圖書館出版的《中文核心期刊要目總覽》，對(duì)期刊評(píng)價(jià)進(jìn)行了研究。現(xiàn)階段國(guó)內(nèi)多家機(jī)構(gòu)對(duì)期刊都開展了評(píng)價(jià)工作，對(duì)期刊評(píng)價(jià)指標(biāo)的選擇方法在我國(guó)已有少量研究[2-9]。本文基于現(xiàn)有國(guó)內(nèi)期刊評(píng)價(jià)指標(biāo)體系，首先對(duì)套索方法做了簡(jiǎn)要的介紹，通過(guò)統(tǒng)計(jì)學(xué)研究中的Lasso方法，解決指標(biāo)間的多重共線性，把它運(yùn)用于期刊評(píng)價(jià)指標(biāo)選擇的實(shí)證研究中，通過(guò)定量分析的方法篩選主要評(píng)價(jià)指標(biāo)，使科研人員，特別是一些跨學(xué)科研究人員，例如勞動(dòng)關(guān)系研究人員可以選擇合適的期刊進(jìn)行發(fā)表，也可以使圖書館結(jié)合實(shí)際選購(gòu)合適的期刊。

1 套索模型

Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非負(fù)絞除法(NNG)的基礎(chǔ)上，對(duì)NNG不足之處做了改進(jìn)。非負(fù)絞除法的預(yù)測(cè)誤差相對(duì)較小并且由于非負(fù)絞除法去除了模型中很多接近0但非0的特征，從而增強(qiáng)了模型的解釋性。在高維數(shù)據(jù)分析中，非負(fù)絞除法由于對(duì)高維特征進(jìn)行了壓縮，模型簡(jiǎn)化了計(jì)算過(guò)程并且增強(qiáng)了重要特征的解釋性。但是非負(fù)絞除法的缺點(diǎn)是其運(yùn)算結(jié)果要依賴于最小二乘估計(jì)的符號(hào)和數(shù)值大小。并且存在過(guò)擬合和多重共線性情況時(shí)，由于最小二乘估計(jì)效果不好而會(huì)影響預(yù)測(cè)準(zhǔn)確性。

對(duì)于一般線性回歸模型見式（1）：

其中β是pn×1維列向量，εi是獨(dú)立同分布的。在一般的回歸模型中，常常認(rèn)為觀測(cè)值彼此獨(dú)立或者被解釋特征Yi在給定解釋特征xij的條件下相互獨(dú)立。同時(shí)假設(shè)xij是經(jīng)過(guò)標(biāo)準(zhǔn)化之后得到的，即當(dāng)訓(xùn)練集維數(shù)和樣本量幾乎相等或者超過(guò)樣本量時(shí)，有些回歸系數(shù)是稀疏的即有些元素為0，這時(shí)傳統(tǒng)的最小二乘法將不再適用，需要尋找其他的相關(guān)方法比如正則化方法或者懲罰方法來(lái)代替。常用的有嶺回歸和Lasso方法，但是，通過(guò)嶺回歸得到的模型包含全部的特征，不能進(jìn)行特征選擇。和嶺回歸不同的是Lasso方法采用L1范數(shù)，而嶺回歸是L2范數(shù)Lasso算法的參數(shù)估計(jì)見式（2）：

式（2）中λ∈[0，+∞)作為調(diào)和參數(shù)，能夠通過(guò)對(duì)它進(jìn)行控制從而使回歸系數(shù)總體變小。若令為回歸參數(shù)的最小二乘估計(jì)值，這樣將會(huì)讓一些回歸系數(shù)縮小并逐漸趨近于0，有些甚至?xí)扔?。式（1）的第一部分表示的是模型擬合的優(yōu)良性，第二部分表示的是對(duì)參數(shù)的懲罰。如果調(diào)和系數(shù)λ越小，那么模型的懲罰力度就會(huì)越小，從而保留的特征就會(huì)越多；反之則特征就會(huì)減少。由此，Lasso方法經(jīng)常被用來(lái)特征選擇，它有兩個(gè)優(yōu)點(diǎn)。其一，Lasso方法在特征選擇的過(guò)程中是連續(xù)的且很穩(wěn)定；其二，對(duì)于高維數(shù)據(jù)而言，Lasso方法使其時(shí)間復(fù)雜度較低

在期刊評(píng)價(jià)中，各個(gè)指標(biāo)代表回歸模型中的自變量，所研究的目標(biāo)變量定義為因變量。對(duì)于Lasso方法的求解，Tibshirani[11]提出使用二次規(guī)劃方法，但Efron認(rèn)為這種求解方法較為復(fù)雜，后來(lái)兩個(gè)合作共同提出了的最小角回歸算法，極大加快了計(jì)算速度。利用該方法求解Lasso，得到Lasso中未知參數(shù)的求解變化路徑。對(duì)于Lars算法，在R和Python中均提供了相應(yīng)的計(jì)算工具包，比如R中的lars和glmnet以及Python的Scikit-learn軟件程序包。

2 實(shí)證研究

2.1 實(shí)驗(yàn)指標(biāo)選擇與研究對(duì)象

本次實(shí)驗(yàn)平臺(tái)為R-3.2.4，R語(yǔ)言是一種免費(fèi)的開源語(yǔ)言，并提供了大量可以調(diào)用的接口函數(shù)，對(duì)于一般的統(tǒng)計(jì)實(shí)驗(yàn)均可用R實(shí)現(xiàn)。同時(shí)，為了確保實(shí)驗(yàn)結(jié)果的可靠性，將利用同樣的數(shù)據(jù)信息通過(guò)Python環(huán)境進(jìn)行了一次實(shí)驗(yàn)。Python語(yǔ)言同樣擁有非常豐富的數(shù)據(jù)分析、處理的工具，可以輕松完成本文提到方法的實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng)CNKI2015年的年度統(tǒng)計(jì)報(bào)告，選取了圖書情報(bào)領(lǐng)域41種期刊作為研究對(duì)象見表1所示。表2為本文待選擇的評(píng)價(jià)指標(biāo)。

表1 41種圖書情報(bào)領(lǐng)域的期刊

表2 待選擇的指標(biāo)說(shuō)明

其中中國(guó)圖書館學(xué)報(bào)、情報(bào)理論與實(shí)踐、圖書情報(bào)知識(shí)等18種期刊在中國(guó)知網(wǎng)CNKI期刊評(píng)價(jià)中暫被列為核心期刊，本文選擇的41種期刊中，核心期刊占比為43.90%。

影響力指數(shù)CI值即學(xué)術(shù)期刊影響力指數(shù)（簡(jiǎn)稱CI）作為一個(gè)綜合指標(biāo)，它反應(yīng)的是一組期刊中各個(gè)期刊影響力的大小。在本文中，將CI值作為因變量，其他變量作為自變量，分析各自變量之間的多重共線性問(wèn)題。限于篇幅，表3列出了5種期刊的實(shí)驗(yàn)數(shù)據(jù)。另外，由于各個(gè)指標(biāo)的計(jì)算方式不盡相同，因此，在采用Lasso方法之前，首先需要對(duì)指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

表3 部分實(shí)驗(yàn)數(shù)據(jù)

2.2 期刊評(píng)價(jià)指標(biāo)選擇結(jié)果分析

對(duì)于Lasso方法中的調(diào)和參數(shù)λ的確定是非常重要的，一般采用交叉驗(yàn)證的的辦法求得λ的最優(yōu)值，即當(dāng)交叉驗(yàn)證取最小值時(shí)λ為最優(yōu)值λmin。為了取得模型的最優(yōu)精度，需要選擇合適的λ，使得模型的預(yù)測(cè)誤差降低到最小值。本文使用AIC/BIC準(zhǔn)則確定模型大小，一般當(dāng)AIC/BIC越小時(shí)表示該模型越精確。AIC準(zhǔn)則其實(shí)是BIC準(zhǔn)則的一個(gè)特殊形式，具體解釋見文獻(xiàn)[12]。實(shí)驗(yàn)采用5折交叉驗(yàn)證[13]的方法，即首先將數(shù)據(jù)隨機(jī)分為5份，然后依次將其中一份用于計(jì)算誤差，剩余4份用于擬合模型，這樣可以得到5個(gè)預(yù)測(cè)誤差，最后取這5個(gè)誤差的平均值。圖1（見下頁(yè)）為AIC/BIC信息準(zhǔn)則用于模型選擇的變化圖，圖2（見下頁(yè)）為L(zhǎng)asso的系數(shù)解路徑，可以看出當(dāng)約束λ最大時(shí)所有特征被選入模型，隨著約束的減少，特征逐漸減少。

圖1 AIC/BIC準(zhǔn)則用于模型選擇

圖2 Lasso系數(shù)解路徑圖

本文利用AIC準(zhǔn)則確定模型最優(yōu)解，根據(jù)Lasso回歸參數(shù)估計(jì)結(jié)果，發(fā)現(xiàn)在第9步時(shí)，AIC達(dá)到最小值并最終選擇了12個(gè)特征，由表4（見下頁(yè)）可以看出指標(biāo)x2，x4，x5，x6，x8，x12，x17，x19，x21，x22，x23，x24的系數(shù)為 0 ，其他均不為 0。因此，選取了可被引文文獻(xiàn)量、基金論文比、引用期刊數(shù)、他引總引比、互引指數(shù)、web即年下載率、量效指數(shù)、影響力指數(shù)CI值、復(fù)合總被引、復(fù)合影響因子、復(fù)合5年影響因子、綜合總被引共計(jì)12個(gè)指標(biāo)作為最終的評(píng)價(jià)指標(biāo)體系。對(duì)系數(shù)表進(jìn)一步觀察可以看出，對(duì)前三位重要指標(biāo)排序依次是復(fù)合5年影響因子、復(fù)合總被引、量效指數(shù)。這與實(shí)際聯(lián)系是一致的，比如在研究人員論文投稿時(shí)一般會(huì)關(guān)注其5年影響因子，如果比較高可以認(rèn)為是比較優(yōu)秀的期刊。通過(guò)對(duì)原始數(shù)據(jù)的5年影響因子倒序排序得到了在41種圖書情報(bào)領(lǐng)域中有較大影響力的三大比較優(yōu)秀的期刊，他們分別是：《大學(xué)圖書館學(xué)報(bào)》、《中國(guó)圖書館學(xué)報(bào)》、《情報(bào)學(xué)報(bào)》。這進(jìn)一步應(yīng)證了本文應(yīng)用方法的合理性。

表4 Lasso系數(shù)表

目前我國(guó)較為權(quán)威且得到多數(shù)人認(rèn)可的期刊評(píng)價(jià)體系是由中國(guó)科技信息研究所通過(guò)層次分析法得到的，首先由專家打分確定權(quán)重，對(duì)不同的學(xué)科期刊進(jìn)行綜合評(píng)價(jià)。這樣做的優(yōu)點(diǎn)主要是避免了單一指標(biāo)的局限性，缺點(diǎn)主要是評(píng)價(jià)結(jié)果受專家打分的個(gè)人主觀因素的影響。本文通過(guò)實(shí)際數(shù)據(jù)分析，采用科學(xué)的計(jì)算方法最終得到關(guān)鍵指標(biāo)，具有一定的說(shuō)服力。

3 結(jié)論與討論

針對(duì)指標(biāo)數(shù)量增多所帶來(lái)的諸多問(wèn)題，本文從在以往期刊評(píng)價(jià)方法研究的不足出發(fā)，利用套索方法減少期刊評(píng)價(jià)因子，提取關(guān)鍵指標(biāo)，通過(guò)科學(xué)的計(jì)算過(guò)程避免了專家打分的個(gè)人主觀性，另一方面套索方法可以降低期刊評(píng)價(jià)中的多重共線問(wèn)題，以提高期刊的評(píng)價(jià)效率。

套索方法在期刊評(píng)價(jià)中指標(biāo)因子選擇方面具降低多重共線性等優(yōu)點(diǎn)，利用套索方法的連續(xù)性和穩(wěn)定性，使對(duì)不重要的指標(biāo)懲罰更加合理。通過(guò)研究，套索方法可以達(dá)到指標(biāo)選擇的作用，為有關(guān)人員提供另一種參考標(biāo)準(zhǔn)。比如本文使用的24個(gè)指標(biāo)中篩選了12個(gè)指標(biāo)，這樣讀者和研究人員可以僅根據(jù)可被引文文獻(xiàn)量、基金論文比、引用期刊數(shù)、他引總引比、互引指數(shù)、web即年下載率、量效指數(shù)、影響力指數(shù)CI值、復(fù)合總被引、復(fù)合影響因子、復(fù)合5年影響因子、綜合總被引這12個(gè)指標(biāo)來(lái)選擇合適的期刊閱讀、發(fā)表、購(gòu)買等。對(duì)于跨學(xué)科研究來(lái)說(shuō)，應(yīng)該對(duì)多學(xué)科期刊進(jìn)行綜合考量。針對(duì)后續(xù)的研究，同樣可以利用本文的方法，一方面可以檢驗(yàn)新的指標(biāo)因子的合理性，另一方面為構(gòu)建新的指標(biāo)提供理論依據(jù)。