999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso-logistic回歸和隨機(jī)森林模型的院校評(píng)價(jià)結(jié)果影響因素研究

2022-03-16 03:04:16趙國(guó)瑞崔慶岳
關(guān)鍵詞:高職評(píng)價(jià)模型

何 雙,趙國(guó)瑞,崔慶岳

(1.陽(yáng)江職業(yè)技術(shù)學(xué)院數(shù)學(xué)系,廣東 陽(yáng)江 529566;2.廣東海洋大學(xué)陽(yáng)江校區(qū),廣東 陽(yáng)江 529566)

0 引言

我國(guó)大力推動(dòng)本科“雙一流”高校與學(xué)科、高職“雙高”院校與專(zhuān)業(yè)建設(shè),分別在2017年、2019年評(píng)出第一批“雙一流”、“雙高”院校.如何厘定各因素指標(biāo)對(duì)評(píng)價(jià)結(jié)果的影響程度,厘清其內(nèi)部的作用機(jī)制,目前是教育技術(shù)學(xué)、教育評(píng)價(jià)學(xué)等領(lǐng)域,尤其是教育數(shù)據(jù)挖掘領(lǐng)域(Education Data Mining,EDM)研究的熱點(diǎn)問(wèn)題,其研究?jī)r(jià)值在于對(duì)高校精準(zhǔn)施策、實(shí)現(xiàn)內(nèi)涵式建設(shè)與發(fā)展具有參考意義.

就該領(lǐng)域研究對(duì)象與方法來(lái)看,崔育寶等[1]就我國(guó)在世界一流大學(xué)建設(shè)評(píng)價(jià)標(biāo)準(zhǔn)與體系的構(gòu)建等問(wèn)題進(jìn)行了深入的分析;孔曉明等[2]對(duì)“雙一流”建設(shè)評(píng)價(jià)的原則及方法進(jìn)行了分析;余波等[3]對(duì)“雙一流”高校數(shù)據(jù)跟蹤評(píng)估平臺(tái)的構(gòu)建進(jìn)行了研究;林春樹(shù)[4]對(duì)“雙高”院校績(jī)效評(píng)價(jià)指標(biāo)體系的設(shè)計(jì)進(jìn)行了系統(tǒng)的分析;陳保榮等[5]對(duì)各高職院校排行評(píng)價(jià)指標(biāo)體系進(jìn)行了分析.縱觀現(xiàn)有研究文獻(xiàn),從研究對(duì)象上來(lái)說(shuō),“雙一流”研究較多,也較為深入,“雙高”研究較少;從研究方法上來(lái)說(shuō),定性研究多,定量研究少,并且從我們前期文獻(xiàn)搜索來(lái)看,基于機(jī)器學(xué)習(xí)算法研究院校評(píng)價(jià)結(jié)果影響因素厘定方法與路徑的文獻(xiàn)偏少.

Lasso(least absolute shrinkage and selection operator)作為機(jī)器學(xué)習(xí)近些年發(fā)展起來(lái)的模型被廣泛應(yīng)用到生物信息學(xué)、醫(yī)學(xué)與經(jīng)濟(jì)學(xué)等領(lǐng)域,較為典型且具有拓展性的文獻(xiàn)有:方匡南等[6]將Lasso引入銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域;張興祥等[7]將Lasso引入國(guó)民幸福感指標(biāo)體系構(gòu)建領(lǐng)域;孫怡帆等[8]將Lasso引入大學(xué)生畢業(yè)去向預(yù)測(cè)領(lǐng)域.但將Lasso應(yīng)用到教育領(lǐng)域,尤其是EDM領(lǐng)域的文獻(xiàn)不多.

本文研究的貢獻(xiàn)主要體現(xiàn)在三個(gè)方面:第一,在入選“雙高”評(píng)價(jià)指標(biāo)體系構(gòu)建上,追本溯源,整理了所有申報(bào)的230所院校的申報(bào)書(shū),結(jié)合已有文獻(xiàn),全面梳理了盡可能納入模型的客觀、可量化指標(biāo);第二,已有Lasso應(yīng)用于實(shí)踐的文獻(xiàn)多數(shù)采用單個(gè)模型算法篩選與回歸,僅有篩選的結(jié)果,過(guò)程往往忽略,本文將Lasso與隨機(jī)森林模型結(jié)合,共同篩選解釋變量,全面展現(xiàn)分析過(guò)程,佐證模型選擇的合理性;第三,在Lasso變量篩選的基礎(chǔ)上,對(duì)入選“雙高”院校具有顯著影響的因素進(jìn)行了分析,并提供了相關(guān)的政策建議.

1 Lasso-logistic模型機(jī)理

Lasso作為一種兼具變量選擇與參數(shù)估計(jì)的算法最早由TIBSHIRANI[9]在1996年提出,其機(jī)理梗概如下:

給定數(shù)據(jù)集D=(Xj,yj),j=1,2,…,n,其中,Xj=(xj1,…,xjm)和yj分別表示為解釋變量與被解釋變量,

(1)

當(dāng)樣本較少而變量很多時(shí),模型容易產(chǎn)生過(guò)擬合,為緩解過(guò)擬合的問(wèn)題,可引入L1范數(shù)正則化.

再次,能夠多角度的呈現(xiàn)事物。信息技術(shù)能輕松實(shí)現(xiàn)事物的伸縮、定格、整體和局部等,利于幼兒觀察,幼兒觀察的越廣泛、深刻,在大腦中留下的表象就越豐富、清晰,豐富的表象有助于幼兒想象力的發(fā)揮,從而提高幼兒的創(chuàng)造力。

(2)

(2)式中第二項(xiàng)表示對(duì)系數(shù)的懲罰,λ是控制各變量的壓縮程度的調(diào)節(jié)系數(shù),通過(guò)λ的變化調(diào)節(jié)變量的選擇,使不重要的變量系數(shù)壓縮為0.λ越小,懲罰力度越小,保留下的變量越多;而λ越大,懲罰力度越大,保留下的變量越少.在模型求解方面,2004年EFRON等[10]引入了最小角回歸算法,使Lasso模型得以更高效地求解.

對(duì)于λ的求解,采用R語(yǔ)言中的lars程序包,結(jié)合MallowsCp準(zhǔn)則與廣義交叉驗(yàn)證得到.從p個(gè)自變量中選取s個(gè)做回歸,

(3)

對(duì)Lasso壓縮剩余的變量做Logistic回歸,假設(shè)壓縮后的變量個(gè)數(shù)為m,解釋變量yj為二元0-1變量,設(shè)

(4)

2 數(shù)據(jù)描述

本研究數(shù)據(jù)來(lái)源于教育部、財(cái)政部2019年中國(guó)特色高水平高職學(xué)校和專(zhuān)業(yè)建設(shè)計(jì)劃(簡(jiǎn)稱(chēng)“雙高計(jì)劃”)申報(bào)材料.共收集230個(gè)院校樣本,其中,深圳職業(yè)技術(shù)學(xué)院等56所院校被列入高水平高職學(xué)校建設(shè)單位,北京農(nóng)業(yè)職業(yè)學(xué)院等141所院校被列入高水平專(zhuān)業(yè)群建設(shè)單位,33所院校未入選.

考慮到若以是否入選高水平學(xué)校和專(zhuān)業(yè)群建設(shè)單位為研究對(duì)象,就會(huì)造成樣本數(shù)據(jù)存在過(guò)大的非對(duì)稱(chēng)性分布問(wèn)題,即入選數(shù)量遠(yuǎn)遠(yuǎn)大于未入選數(shù)量,因此以是否入選高水平高職建設(shè)單位計(jì)為被解釋變量,0表示“否”,1表示“是”.另外,依據(jù)各院校申報(bào)書(shū)構(gòu)建二級(jí)指標(biāo)體系,其中,解釋變量包括2個(gè)一級(jí)指標(biāo)、50個(gè)二級(jí)指標(biāo),具體分級(jí)指標(biāo)體系見(jiàn)表1.為驗(yàn)證模型預(yù)測(cè)效果,將樣本數(shù)據(jù)集按照8∶2的比例隨機(jī)切分為訓(xùn)練集和測(cè)試集.

表1 解釋變量分級(jí)指標(biāo)體系

續(xù)表

3 實(shí)證分析

3.1 變量選擇與模型估計(jì)

采用Lasso-logistic模型分析被解釋變量是否入選雙高計(jì)劃(Y)的影響因素,利用R語(yǔ)言中的lars程序包,通過(guò)交叉驗(yàn)證法(cross validation,CV)選取調(diào)和參數(shù)λ,λ在CV下估計(jì)值對(duì)應(yīng)趨勢(shì)見(jiàn)圖1,其中使均方誤差最小的飽和度在0和0.2之間.由于CV是隨機(jī)分組,每次分組的不同導(dǎo)致λ結(jié)果的不同.而λ的取值不同,Lasso模型壓縮程度也將有變化,每次模型選出的變量數(shù)目也將受到影響.Tibshirani認(rèn)為,在模型均方誤差較小時(shí),一般選取使模型相對(duì)簡(jiǎn)潔的λ.因此,為保證模型的穩(wěn)定性,本文重復(fù)設(shè)定不同隨機(jī)數(shù),進(jìn)行10次CV取參數(shù)λ的均值,得到λ的均值約為0.101.

圖1 調(diào)和參數(shù)λ對(duì)應(yīng)趨勢(shì)圖

圖2顯示了系數(shù)隨著調(diào)和參數(shù)λ的選入的路徑,對(duì)于λ的最小值,只有x37被選入,隨著λ的增加,x41、x35等依此被選入模型,當(dāng)λ接近1時(shí),50個(gè)解釋變量全都被選入模型.基于CV得到的理想取值λ=0.101,共有x21、x35、x37、x38、x41、x42、x43、x46、x47被選入模型.

圖2 Lasso系數(shù)的路徑

表2 Lasso-logistic模型參數(shù)估計(jì)

由于數(shù)據(jù)集本身質(zhì)量,尤其是解釋變量眾多,導(dǎo)致Logistic回歸及逐步Logistic回歸模型復(fù)雜度過(guò)高,算法不收斂或過(guò)擬合情況,因此僅展示Lasso-logistic模型的參數(shù)估計(jì)結(jié)果(表2),據(jù)此可得到回歸方程(3),其中,P為入選雙高院校的概率.

1.440x38+1.293x41+0.271x42+0.074x43+1.471x46+2.142x47.

(5)

3.2 各模型準(zhǔn)確率的比較

為比較各模型的訓(xùn)練精度,引入支持向量機(jī)、決策樹(shù)、隨機(jī)森林等模型,分別在訓(xùn)練集和測(cè)試集上對(duì)入選雙高院校和未入選雙高院校預(yù)測(cè)準(zhǔn)確率進(jìn)行對(duì)比分析,具體見(jiàn)表3.

表3 各模型預(yù)測(cè)準(zhǔn)確率比較 單位:%

模型預(yù)測(cè)的準(zhǔn)確率直接關(guān)系到模型的合理性,各模型在訓(xùn)練集上的總體準(zhǔn)確率均超過(guò)90%,但對(duì)于入選雙高院校而言,Lasso-logistic模型準(zhǔn)確率遠(yuǎn)高于支持向量機(jī)和決策樹(shù),僅次于隨機(jī)森林;但在測(cè)試集上Lasso-logistic模型總體準(zhǔn)確率最高,達(dá)到79%,尤其在入選雙高院校的準(zhǔn)確率上遠(yuǎn)高于支持向量機(jī)和隨機(jī)森林,僅次于決策樹(shù),說(shuō)明其具有良好的外推性.另外,Lasso-logistic模型壓縮了絕大多數(shù)變量,較之其它模型復(fù)雜度較低,其次,Lasso-logistic模型可解釋性更強(qiáng),可用于是否入選雙高院校的影響因素的厘定.

3.3 解釋變量重要性的挖掘

為進(jìn)一步驗(yàn)證各個(gè)解釋變量相對(duì)于被解釋變量Y的重要性,引入集成算法中的隨機(jī)森林模型,采用平均精度下降值(mean decrease accuracy,MDA),本文記為M,評(píng)估各特征對(duì)結(jié)果準(zhǔn)確率的影響,具體計(jì)算如下:

任取一個(gè)特征或解釋變量定義為X,第一,對(duì)于隨機(jī)森林中的所有決策樹(shù),采用袋外數(shù)據(jù)OOB估計(jì)袋外數(shù)據(jù)誤差,計(jì)作B1;第二,對(duì)袋外數(shù)據(jù)OOB所有樣本的特征X隨機(jī)加噪聲干擾,例如改變特征X處的值,再計(jì)算其袋外數(shù)據(jù)誤差,計(jì)作B2;第三,假定隨機(jī)森林中有N棵決策樹(shù),將特征X的重要性記作M(X),則

(6)

上述MDA的原理可大致看作:對(duì)某一特征隨機(jī)加入噪聲后,若袋外準(zhǔn)確率大幅度降低,說(shuō)明該特征對(duì)樣本分類(lèi)結(jié)果的影響很大,進(jìn)而說(shuō)明其重要程度較高.

根據(jù)(6)式可求得50個(gè)特征的M值,限于篇幅,僅展示重要性排名前十的特征,見(jiàn)表4.對(duì)比表2中Lasso-logistic篩選出的變量,除x38(排名17)、x46(排名16)、x47(排名12)以外,均在隨機(jī)森林模型變量重要性中排名前十,再次驗(yàn)證了Lasso-logistic篩選變量的高效性與一致性.

表4 各變量平均精度下降值

3.4 結(jié)果分析

雙高院校評(píng)價(jià)結(jié)果受到了諸多主、客觀因素的影響,呈現(xiàn)出多因性,而且維度較高,仍有很多解釋變量未納入指標(biāo)體系.結(jié)合Lasso-logistic和隨機(jī)森林模型結(jié)果(表2),得到如下結(jié)果:

第一,在院校基本狀態(tài)與基本條件組別共34個(gè)解釋變量,Lasso僅篩選了教學(xué)、科研儀器設(shè)備總值x21,且在10%的顯著性水平下顯著,其對(duì)于入選“雙高”具有重要作用且統(tǒng)計(jì)上顯著影響,而該變量表征的是學(xué)校辦學(xué)實(shí)力的一個(gè)重要體現(xiàn).

結(jié)合隨機(jī)森林對(duì)于變量排序結(jié)果,學(xué)校固定資產(chǎn)總值x4與在校生數(shù)x13對(duì)入選“雙高”也有重要影響,x4與x21表征的內(nèi)涵基本一致,這說(shuō)明學(xué)校加大教學(xué)、科研設(shè)備及固定資產(chǎn)投資是入選“雙高”的前置因素;在校生數(shù)x13雖未被Lasso選出,但仍對(duì)入選“雙高”有重要影響,這說(shuō)明規(guī)模效應(yīng)仍是高職院校發(fā)展的主流.入選“雙高”對(duì)于在校生人數(shù)仍有相當(dāng)?shù)拈T(mén)檻限制,這是有別于本科院校的地方.

在基本狀態(tài)與基本條件組別,其它解釋變量未產(chǎn)生實(shí)質(zhì)性影響.例如,建校時(shí)間x1未被選出,原因或許是各高職院校大多是經(jīng)過(guò)轉(zhuǎn)置、合并而來(lái);校內(nèi)專(zhuān)任教師人數(shù)x23、生師比x30未被選出,說(shuō)明不要單純追求數(shù)量的堆積,更應(yīng)該加強(qiáng)成果、內(nèi)涵建設(shè).

第二,在標(biāo)志性成果組別共16個(gè)解釋變量,Lasso篩選了國(guó)家級(jí)教學(xué)資源庫(kù)數(shù)量x35、國(guó)家級(jí)重點(diǎn)專(zhuān)業(yè)數(shù)量x37、全國(guó)就業(yè)創(chuàng)業(yè)典型數(shù)量x38、國(guó)家級(jí)教學(xué)成果獎(jiǎng)勵(lì)數(shù)量x41、全國(guó)職業(yè)院校教學(xué)能力比賽獲獎(jiǎng)數(shù)量x42、學(xué)生國(guó)家級(jí)及以上競(jìng)賽獎(jiǎng)勵(lì)數(shù)量x43、承擔(dān)國(guó)家級(jí)教育教學(xué)改革試點(diǎn)數(shù)量x46、國(guó)家示范、骨干高職學(xué)校重點(diǎn)專(zhuān)業(yè)數(shù)量x47等8個(gè)變量,其中,x35、x41、x42、x43、x47在5%的顯著性水平顯著,這意味著它們對(duì)入選“雙高”具有重要作用,說(shuō)明國(guó)家級(jí)專(zhuān)業(yè)、教師競(jìng)賽、學(xué)生競(jìng)賽等教學(xué)成果是入選“雙高”院校的關(guān)鍵影響因素.

4 結(jié)論

本文將Lasso-logistic模型引入教育數(shù)據(jù)挖掘領(lǐng)域的院校評(píng)價(jià)結(jié)果影響因素研究中來(lái),挖掘隱藏在評(píng)價(jià)結(jié)果背后的因素與作用機(jī)理,主要研究結(jié)論有:第一,從研究問(wèn)題來(lái)看,高職院校不應(yīng)過(guò)分追求學(xué)生與教師規(guī)模等,國(guó)家級(jí)別的專(zhuān)業(yè)教師競(jìng)賽、學(xué)生競(jìng)賽是入選“雙高”院校的核心因素,各學(xué)校應(yīng)夯實(shí)基礎(chǔ),做好此類(lèi)標(biāo)志性成果的建設(shè)與積累;第二,從研究方法來(lái)看,Lasso更有效地壓縮、篩選關(guān)鍵變量,降低了模型的復(fù)雜度,而且總體精度優(yōu)于其它算法,并且其結(jié)果與隨機(jī)森林模型驗(yàn)證的結(jié)果基本一致,因此,采用Lasso厘定院校評(píng)價(jià)結(jié)果的影響因素是較為合理與科學(xué)的.第三,從研究局限來(lái)看,教育評(píng)價(jià)影響因素的厘定作為教育數(shù)據(jù)挖掘領(lǐng)域的一類(lèi)問(wèn)題,其背景交叉了教育技術(shù)學(xué)等學(xué)科,諸多因素很難甚至不可能量化到解釋變量中來(lái),這也影響了數(shù)據(jù)集的質(zhì)量.總之,將機(jī)器學(xué)習(xí)的模型算法,尤其是Lasso等稀疏化算法引入到教育數(shù)據(jù)挖掘領(lǐng)域,仍不失為有益的嘗試.

猜你喜歡
高職評(píng)價(jià)模型
一半模型
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
高職應(yīng)用文寫(xiě)作教學(xué)改革與創(chuàng)新
活力(2019年21期)2019-04-01 12:18:24
3D打印中的模型分割與打包
基于Moodle的學(xué)習(xí)評(píng)價(jià)
高職人才培養(yǎng)模式創(chuàng)新探討
誰(shuí)
海峽影藝(2012年1期)2012-11-30 08:15:44
保加利亞轉(zhuǎn)軌20年評(píng)價(jià)
主站蜘蛛池模板: 亚洲成在人线av品善网好看| 中文字幕av无码不卡免费| 婷婷五月在线| 午夜啪啪网| 精品国产网站| 伊人色在线视频| 性做久久久久久久免费看| 国产伦片中文免费观看| 第一区免费在线观看| 欧美中日韩在线| av手机版在线播放| 国产va免费精品观看| 国产无码性爱一区二区三区| 欧美视频在线不卡| 18禁黄无遮挡免费动漫网站| 国产成人禁片在线观看| 亚洲av日韩av制服丝袜| 制服丝袜一区| 91破解版在线亚洲| 国产成人盗摄精品| 国产精品永久久久久| 欧美福利在线观看| av一区二区无码在线| 国产精品综合久久久| 亚洲色欲色欲www网| 国产精欧美一区二区三区| 国产对白刺激真实精品91| 欧美日韩中文国产| 国产毛片一区| 国产资源免费观看| 99r在线精品视频在线播放| 亚洲综合欧美在线一区在线播放| 国产一线在线| 久久精品亚洲专区| 国产激情第一页| 日韩久草视频| 中文字幕亚洲无线码一区女同| 亚洲av综合网| 成人毛片免费观看| 91小视频在线播放| 黄色网站在线观看无码| 亚洲天堂日韩在线| 99这里只有精品免费视频| 亚洲娇小与黑人巨大交| 在线观看91精品国产剧情免费| 精品人妻一区二区三区蜜桃AⅤ | 亚洲精品天堂自在久久77| 99热国产这里只有精品9九| 色天堂无毒不卡| 在线免费看黄的网站| 国产免费好大好硬视频| 亚洲欧美日韩天堂| 国产欧美日韩在线一区| 亚洲男人天堂网址| 亚洲国模精品一区| 欧美亚洲一二三区| 国产福利拍拍拍| 奇米精品一区二区三区在线观看| 欧美 亚洲 日韩 国产| 青青操视频免费观看| 亚洲精品视频在线观看视频| 欧美区国产区| 国产资源站| 999福利激情视频| 欧美高清视频一区二区三区| 欧美日韩成人在线观看| 欧美日韩中文字幕在线| 欧美日韩在线成人| 国产精品久久久久久久久| 97国产成人无码精品久久久| 久久精品国产精品国产一区| 色综合热无码热国产| 色综合a怡红院怡红院首页| 亚洲精品777| 日本成人一区| AV无码一区二区三区四区| 2019年国产精品自拍不卡| 黄色网在线| Jizz国产色系免费| 亚洲中文字幕97久久精品少妇| 最新国产精品第1页| 久久精品这里只有精99品|