999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

套索方法在期刊評(píng)價(jià)指標(biāo)選擇中的應(yīng)用

2018-10-09 05:54:00江永眾陶虹琳杜彥璞
統(tǒng)計(jì)與決策 2018年17期
關(guān)鍵詞:特征評(píng)價(jià)方法

江永眾 ,陶虹琳,杜彥璞,b

(成都理工大學(xué)a.管理科學(xué)學(xué)院;b.四川省數(shù)學(xué)地質(zhì)重點(diǎn)實(shí)驗(yàn)室,成都 610059)

0 引言

Garfield[1]開創(chuàng)文獻(xiàn)計(jì)量學(xué)以來(lái),期刊評(píng)價(jià)指標(biāo)的選擇問(wèn)題一直是一個(gè)重要的研究問(wèn)題。期刊是科學(xué)研究中的重要學(xué)術(shù)資源,在科學(xué)研究中發(fā)揮著非常重要的作用。期刊的使用者集中在高校師生,圖書館選購(gòu)部門以及期刊愛好者等。隨著期刊名目的逐漸增加,學(xué)者們將面臨從數(shù)量眾多、內(nèi)容繁雜的期刊名目中選擇符合自身研究方向或感興趣的期刊的難題,從而經(jīng)常陷于如何高效選購(gòu)、閱讀相關(guān)刊物以及在何種期刊上發(fā)表論文的困境。期刊評(píng)價(jià)體系來(lái)源于Eugene Garfield的《科學(xué)引文索引》(Science Citation Index,簡(jiǎn)稱SCI),目前引文索引已經(jīng)成為評(píng)價(jià)期刊質(zhì)量的重要指標(biāo)。國(guó)內(nèi)最早源于1992年北京大學(xué)圖書館出版的《中文核心期刊要目總覽》,對(duì)期刊評(píng)價(jià)進(jìn)行了研究。現(xiàn)階段國(guó)內(nèi)多家機(jī)構(gòu)對(duì)期刊都開展了評(píng)價(jià)工作,對(duì)期刊評(píng)價(jià)指標(biāo)的選擇方法在我國(guó)已有少量研究[2-9]。本文基于現(xiàn)有國(guó)內(nèi)期刊評(píng)價(jià)指標(biāo)體系,首先對(duì)套索方法做了簡(jiǎn)要的介紹,通過(guò)統(tǒng)計(jì)學(xué)研究中的Lasso方法,解決指標(biāo)間的多重共線性,把它運(yùn)用于期刊評(píng)價(jià)指標(biāo)選擇的實(shí)證研究中,通過(guò)定量分析的方法篩選主要評(píng)價(jià)指標(biāo),使科研人員,特別是一些跨學(xué)科研究人員,例如勞動(dòng)關(guān)系研究人員可以選擇合適的期刊進(jìn)行發(fā)表,也可以使圖書館結(jié)合實(shí)際選購(gòu)合適的期刊。

1 套索模型

Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非負(fù)絞除法(NNG)的基礎(chǔ)上,對(duì)NNG不足之處做了改進(jìn)。非負(fù)絞除法的預(yù)測(cè)誤差相對(duì)較小并且由于非負(fù)絞除法去除了模型中很多接近0但非0的特征,從而增強(qiáng)了模型的解釋性。在高維數(shù)據(jù)分析中,非負(fù)絞除法由于對(duì)高維特征進(jìn)行了壓縮,模型簡(jiǎn)化了計(jì)算過(guò)程并且增強(qiáng)了重要特征的解釋性。但是非負(fù)絞除法的缺點(diǎn)是其運(yùn)算結(jié)果要依賴于最小二乘估計(jì)的符號(hào)和數(shù)值大小。并且存在過(guò)擬合和多重共線性情況時(shí),由于最小二乘估計(jì)效果不好而會(huì)影響預(yù)測(cè)準(zhǔn)確性。

對(duì)于一般線性回歸模型見式(1):

其中β是pn×1維列向量,εi是獨(dú)立同分布的。在一般的回歸模型中,常常認(rèn)為觀測(cè)值彼此獨(dú)立或者被解釋特征Yi在給定解釋特征xij的條件下相互獨(dú)立。同時(shí)假設(shè)xij是經(jīng)過(guò)標(biāo)準(zhǔn)化之后得到的,即當(dāng)訓(xùn)練集維數(shù)和樣本量幾乎相等或者超過(guò)樣本量時(shí),有些回歸系數(shù)是稀疏的即有些元素為0,這時(shí)傳統(tǒng)的最小二乘法將不再適用,需要尋找其他的相關(guān)方法比如正則化方法或者懲罰方法來(lái)代替。常用的有嶺回歸和Lasso方法,但是,通過(guò)嶺回歸得到的模型包含全部的特征,不能進(jìn)行特征選擇。和嶺回歸不同的是Lasso方法采用L1范數(shù),而嶺回歸是L2范數(shù)Lasso算法的參數(shù)估計(jì)見式(2):

式(2)中λ∈[0,+∞)作為調(diào)和參數(shù),能夠通過(guò)對(duì)它進(jìn)行控制從而使回歸系數(shù)總體變小。若令為回歸參數(shù)的最小二乘估計(jì)值,這樣將會(huì)讓一些回歸系數(shù)縮小并逐漸趨近于0,有些甚至?xí)扔?。式(1)的第一部分表示的是模型擬合的優(yōu)良性,第二部分表示的是對(duì)參數(shù)的懲罰。如果調(diào)和系數(shù)λ越小,那么模型的懲罰力度就會(huì)越小,從而保留的特征就會(huì)越多;反之則特征就會(huì)減少。由此,Lasso方法經(jīng)常被用來(lái)特征選擇,它有兩個(gè)優(yōu)點(diǎn)。其一,Lasso方法在特征選擇的過(guò)程中是連續(xù)的且很穩(wěn)定;其二,對(duì)于高維數(shù)據(jù)而言,Lasso方法使其時(shí)間復(fù)雜度較低

在期刊評(píng)價(jià)中,各個(gè)指標(biāo)代表回歸模型中的自變量,所研究的目標(biāo)變量定義為因變量。對(duì)于Lasso方法的求解,Tibshirani[11]提出使用二次規(guī)劃方法,但Efron認(rèn)為這種求解方法較為復(fù)雜,后來(lái)兩個(gè)合作共同提出了的最小角回歸算法,極大加快了計(jì)算速度。利用該方法求解Lasso,得到Lasso中未知參數(shù)的求解變化路徑。對(duì)于Lars算法,在R和Python中均提供了相應(yīng)的計(jì)算工具包,比如R中的lars和glmnet以及Python的Scikit-learn軟件程序包。

2 實(shí)證研究

2.1 實(shí)驗(yàn)指標(biāo)選擇與研究對(duì)象

本次實(shí)驗(yàn)平臺(tái)為R-3.2.4,R語(yǔ)言是一種免費(fèi)的開源語(yǔ)言,并提供了大量可以調(diào)用的接口函數(shù),對(duì)于一般的統(tǒng)計(jì)實(shí)驗(yàn)均可用R實(shí)現(xiàn)。同時(shí),為了確保實(shí)驗(yàn)結(jié)果的可靠性,將利用同樣的數(shù)據(jù)信息通過(guò)Python環(huán)境進(jìn)行了一次實(shí)驗(yàn)。Python語(yǔ)言同樣擁有非常豐富的數(shù)據(jù)分析、處理的工具,可以輕松完成本文提到方法的實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng)CNKI2015年的年度統(tǒng)計(jì)報(bào)告,選取了圖書情報(bào)領(lǐng)域41種期刊作為研究對(duì)象見表1所示。表2為本文待選擇的評(píng)價(jià)指標(biāo)。

表1 41種圖書情報(bào)領(lǐng)域的期刊

表2 待選擇的指標(biāo)說(shuō)明

其中中國(guó)圖書館學(xué)報(bào)、情報(bào)理論與實(shí)踐、圖書情報(bào)知識(shí)等18種期刊在中國(guó)知網(wǎng)CNKI期刊評(píng)價(jià)中暫被列為核心期刊,本文選擇的41種期刊中,核心期刊占比為43.90%。

影響力指數(shù)CI值即學(xué)術(shù)期刊影響力指數(shù)(簡(jiǎn)稱CI)作為一個(gè)綜合指標(biāo),它反應(yīng)的是一組期刊中各個(gè)期刊影響力的大小。在本文中,將CI值作為因變量,其他變量作為自變量,分析各自變量之間的多重共線性問(wèn)題。限于篇幅,表3列出了5種期刊的實(shí)驗(yàn)數(shù)據(jù)。另外,由于各個(gè)指標(biāo)的計(jì)算方式不盡相同,因此,在采用Lasso方法之前,首先需要對(duì)指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

表3 部分實(shí)驗(yàn)數(shù)據(jù)

2.2 期刊評(píng)價(jià)指標(biāo)選擇結(jié)果分析

對(duì)于Lasso方法中的調(diào)和參數(shù)λ的確定是非常重要的,一般采用交叉驗(yàn)證的的辦法求得λ的最優(yōu)值,即當(dāng)交叉驗(yàn)證取最小值時(shí)λ為最優(yōu)值λmin。為了取得模型的最優(yōu)精度,需要選擇合適的λ,使得模型的預(yù)測(cè)誤差降低到最小值。本文使用AIC/BIC準(zhǔn)則確定模型大小,一般當(dāng)AIC/BIC越小時(shí)表示該模型越精確。AIC準(zhǔn)則其實(shí)是BIC準(zhǔn)則的一個(gè)特殊形式,具體解釋見文獻(xiàn)[12]。實(shí)驗(yàn)采用5折交叉驗(yàn)證[13]的方法,即首先將數(shù)據(jù)隨機(jī)分為5份,然后依次將其中一份用于計(jì)算誤差,剩余4份用于擬合模型,這樣可以得到5個(gè)預(yù)測(cè)誤差,最后取這5個(gè)誤差的平均值。圖1(見下頁(yè))為AIC/BIC信息準(zhǔn)則用于模型選擇的變化圖,圖2(見下頁(yè))為L(zhǎng)asso的系數(shù)解路徑,可以看出當(dāng)約束λ最大時(shí)所有特征被選入模型,隨著約束的減少,特征逐漸減少。

圖1 AIC/BIC準(zhǔn)則用于模型選擇

圖2 Lasso系數(shù)解路徑圖

本文利用AIC準(zhǔn)則確定模型最優(yōu)解,根據(jù)Lasso回歸參數(shù)估計(jì)結(jié)果,發(fā)現(xiàn)在第9步時(shí),AIC達(dá)到最小值并最終選擇了12個(gè)特征,由表4(見下頁(yè))可以看出指標(biāo)x2,x4,x5,x6,x8,x12,x17,x19,x21,x22,x23,x24的系數(shù)為 0 ,其他均不為 0。因此,選取了可被引文文獻(xiàn)量、基金論文比、引用期刊數(shù)、他引總引比、互引指數(shù)、web即年下載率、量效指數(shù)、影響力指數(shù)CI值、復(fù)合總被引、復(fù)合影響因子、復(fù)合5年影響因子、綜合總被引共計(jì)12個(gè)指標(biāo)作為最終的評(píng)價(jià)指標(biāo)體系。對(duì)系數(shù)表進(jìn)一步觀察可以看出,對(duì)前三位重要指標(biāo)排序依次是復(fù)合5年影響因子、復(fù)合總被引、量效指數(shù)。這與實(shí)際聯(lián)系是一致的,比如在研究人員論文投稿時(shí)一般會(huì)關(guān)注其5年影響因子,如果比較高可以認(rèn)為是比較優(yōu)秀的期刊。通過(guò)對(duì)原始數(shù)據(jù)的5年影響因子倒序排序得到了在41種圖書情報(bào)領(lǐng)域中有較大影響力的三大比較優(yōu)秀的期刊,他們分別是:《大學(xué)圖書館學(xué)報(bào)》、《中國(guó)圖書館學(xué)報(bào)》、《情報(bào)學(xué)報(bào)》。這進(jìn)一步應(yīng)證了本文應(yīng)用方法的合理性。

表4 Lasso系數(shù)表

目前我國(guó)較為權(quán)威且得到多數(shù)人認(rèn)可的期刊評(píng)價(jià)體系是由中國(guó)科技信息研究所通過(guò)層次分析法得到的,首先由專家打分確定權(quán)重,對(duì)不同的學(xué)科期刊進(jìn)行綜合評(píng)價(jià)。這樣做的優(yōu)點(diǎn)主要是避免了單一指標(biāo)的局限性,缺點(diǎn)主要是評(píng)價(jià)結(jié)果受專家打分的個(gè)人主觀因素的影響。本文通過(guò)實(shí)際數(shù)據(jù)分析,采用科學(xué)的計(jì)算方法最終得到關(guān)鍵指標(biāo),具有一定的說(shuō)服力。

3 結(jié)論與討論

針對(duì)指標(biāo)數(shù)量增多所帶來(lái)的諸多問(wèn)題,本文從在以往期刊評(píng)價(jià)方法研究的不足出發(fā),利用套索方法減少期刊評(píng)價(jià)因子,提取關(guān)鍵指標(biāo),通過(guò)科學(xué)的計(jì)算過(guò)程避免了專家打分的個(gè)人主觀性,另一方面套索方法可以降低期刊評(píng)價(jià)中的多重共線問(wèn)題,以提高期刊的評(píng)價(jià)效率。

套索方法在期刊評(píng)價(jià)中指標(biāo)因子選擇方面具降低多重共線性等優(yōu)點(diǎn),利用套索方法的連續(xù)性和穩(wěn)定性,使對(duì)不重要的指標(biāo)懲罰更加合理。通過(guò)研究,套索方法可以達(dá)到指標(biāo)選擇的作用,為有關(guān)人員提供另一種參考標(biāo)準(zhǔn)。比如本文使用的24個(gè)指標(biāo)中篩選了12個(gè)指標(biāo),這樣讀者和研究人員可以僅根據(jù)可被引文文獻(xiàn)量、基金論文比、引用期刊數(shù)、他引總引比、互引指數(shù)、web即年下載率、量效指數(shù)、影響力指數(shù)CI值、復(fù)合總被引、復(fù)合影響因子、復(fù)合5年影響因子、綜合總被引這12個(gè)指標(biāo)來(lái)選擇合適的期刊閱讀、發(fā)表、購(gòu)買等。對(duì)于跨學(xué)科研究來(lái)說(shuō),應(yīng)該對(duì)多學(xué)科期刊進(jìn)行綜合考量。針對(duì)后續(xù)的研究,同樣可以利用本文的方法,一方面可以檢驗(yàn)新的指標(biāo)因子的合理性,另一方面為構(gòu)建新的指標(biāo)提供理論依據(jù)。

猜你喜歡
特征評(píng)價(jià)方法
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學(xué)習(xí)評(píng)價(jià)
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
保加利亞轉(zhuǎn)軌20年評(píng)價(jià)
主站蜘蛛池模板: 国产精品久久久久久久久kt| 欧美亚洲激情| 国产91线观看| 四虎AV麻豆| 国产在线小视频| 高清不卡一区二区三区香蕉| 青青久视频| 色婷婷丁香| 久久不卡国产精品无码| 国产熟睡乱子伦视频网站| 最新午夜男女福利片视频| 国产成人精品一区二区三在线观看| 亚洲性日韩精品一区二区| 国产在线第二页| 91黄视频在线观看| 国产欧美日韩另类| 成人在线亚洲| 国产白浆一区二区三区视频在线| 在线免费无码视频| 国产自在线播放| 精品日韩亚洲欧美高清a | 2021精品国产自在现线看| 国产麻豆精品在线观看| 色综合a怡红院怡红院首页| 五月婷婷导航| 欧美成人区| 亚洲一区波多野结衣二区三区| 青草国产在线视频| www.日韩三级| 亚洲国产综合自在线另类| 亚洲欧美日韩精品专区| 2022国产无码在线| 一级福利视频| 97se亚洲综合在线韩国专区福利| 亚洲欧美成人网| 国产精品播放| 成年人视频一区二区| 国产欧美高清| 98精品全国免费观看视频| 欧美三级视频在线播放| 99热亚洲精品6码| 国产女人在线观看| 激情无码字幕综合| 亚洲成在人线av品善网好看| 人妻出轨无码中文一区二区| 日韩毛片免费| 亚洲视频二| 亚洲成a人片| 亚洲精品无码久久久久苍井空| 国产精品福利导航| 亚洲h视频在线| 三级毛片在线播放| 精品国产Ⅴ无码大片在线观看81 | 亚洲精选高清无码| 婷婷激情五月网| 欧美日韩动态图| 国产成人精品一区二区| 欧美亚洲一区二区三区在线| 免费看a级毛片| 91久久精品日日躁夜夜躁欧美| 日韩毛片免费视频| 2021国产乱人伦在线播放| 无码aaa视频| 天天躁夜夜躁狠狠躁图片| 亚洲国产成人久久精品软件| 亚洲成av人无码综合在线观看| 久久精品国产亚洲麻豆| 精品人妻无码中字系列| 亚洲国产成人在线| 久久黄色一级视频| 美女视频黄又黄又免费高清| 亚洲系列中文字幕一区二区| 天堂成人av| 中美日韩在线网免费毛片视频| 亚洲一区免费看| www成人国产在线观看网站| 久草视频中文| 亚洲视频无码| 日韩欧美网址| 天堂在线视频精品| 亚洲国产在一区二区三区| 国产国产人在线成免费视频狼人色|