999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的大學英語四級通過率預測模型

2021-06-25 11:10:40袁樂泉朱亞輝
電子測試 2021年4期
關鍵詞:分類大學英語

袁樂泉,朱亞輝

(陜西學前師范學院數學與統計學院,陜西西安,710100)

0 引言

隨著國際化進程的不斷推進,英語能力已經成為衡量高校人才能力的重要指標之一,大學英語四級成績也成為眾多公司招聘的門檻之一。通過預測大學英語四級成績,既可以對學生英語四級成績進行合理化評估,也可以有針對性地向成績高危的學生進行成績預警,幫助學生順利通過大學英語四級考試。常用的數據挖掘模型包括決策樹[1]、貝葉斯網絡和支持向量機[2]等,雖然能夠對大學英語四級成績進行預測,但它們的預測準確率不高。

隨機森林模型具有泛化能力較強、對輸入數據誤差的不敏感性、具備分析輸入特征重要度功能等優點,具有較強的通用性。近年來,許多學者[3,4]應用隨機森林模型進行預測,并取得了較高的預測準確率。因此,本項目利用隨機森林模型對某學院大學生英語四級通過率進行預測,旨在預測和識別處于成績高危的學生,督促其認真學習英語知識,提高大學英語四級成績。

1 隨機森林算法簡述

隨機森林是由LeoBreiman[5]提出的一種經典的機器學習算法,它是由弱模型決策回歸樹(Classification And Regression Tree, CART)結合裝袋算法(Bagging)和隨機特征子空間(Random Subspace Method, RSM)構成。CART既能用于回歸也能用于分類,相應的隨機森林也可用于分類和回歸分析,其基本結構如圖1所示[1]。

圖1 隨機森林模型基本結構

構建隨機森林的主要步驟大致如下:

(1)boostrap方法隨機抽樣,每個樣本均構建一棵決策樹;

(2)每棵決策樹持續分裂,直到節點的所有訓練樣例都屬于同一類;

(3)構建好的多棵決策樹組成隨機森林,用隨機森林分類器對待測試數據進行分類。

2 大學英語四級通過率預測模型

根據隨機森林基本原理,采用隨機森林預測大學英語四級通過率的模型構建基本流程為:

Step 1:特征向量的建立

大學英語四級通過率主要受到大學生基本信息(性別、民族、專業)、高考英語成績、大學英語成績(共計4學期)、大學生課外英語使用情況(英語社交參與、英語APP使用、英文期刊訂閱、英語學習資料件數)等因素的影響。例如:1)女生較男生更適合語言的學習,女生英語四級的通過率優于男生[6]。表1給出了某院校男、女生英語四級的通過率,從表1可以看出,女生英語四級通過率遠高于男生;漢族學生英語四級通過率優于少數民族;文科專業學生英語四級通過率優于理科專業學生;2)從高考成績和大學英語成績能夠直接反映學生實際的英語水平;3)除了開設英語課以外,還需要在課外通過其他方式進行學習,例如英語APP使用、是否訂閱英語期刊等。

表1 男女生英語四級通過率[7]

Step 2:采用CART決策樹作為隨機森林中的基分類器。

由k個分類器集合而成的隨機森林模型可以表示為:

其中,T是輸入特征集,hq(T)代表基分類器,每個基分類器是一棵CART決策樹。

基于隨機森林算法的大學英語四級通過率預測方法原理如下:

(1)設置隨機森林模型中基分類器的個數k,基于boostrap抽樣方法,隨機且有放回地從含有n個訓練樣本的數據集中抽取n個樣本作為一個子樣本集,重復k次上述抽樣過程,得到k個子樣本集。

(2)利用CART算法為每個boostrap子樣本集構建決策樹。基于CART算法的決策樹使用基尼指數作為特征選擇與分裂的衡量標準。

(3)將k棵CART決策樹組成隨機森林,每個樣本包含9個特征,設定一個常數m=2,構建每棵決策樹時,隨機地從9個特征維度中抽取2個特征作為一個特征子集,決策樹每次從特征子集中選擇最優分裂特征,按照基尼指數最小的原則進行分裂。

(4)k棵CART決策樹按照分類結果進行投票,投票數最多的類別作為隨機森林模型的分類結果。

3 實證分析

本研究從某院數據庫中提取1000位本科生的性別(女賦值為1,男賦值為0)、民族(漢族賦值為1,少數民族賦值為0)、專業(文科賦值為1,理科賦值為0)、高考英語成績、4個學期的大學英語成績、大學生課外英語使用情況統計數據,將它們作為大學英語四級通過率預測模型的輸入變量;大學英語四級通過類別作為分類變量,其中通過類別標記為1,沒有通過類別標記為0。

基于隨機森林算法的大學英語四級通過率預測模型構建步驟如下:

Step1:輸入包含特征的樣本數據集。輸入經過處理的1000個樣本,設定輸入變量與分類變量。隨機選擇70%的專利樣本作為訓練集,30%作為測試集,用于模型預測效果的檢驗。

Step 2:根據大學英語四級通過率預測模型的輸入變量個數和分類變量,設置模型參數如下:k= 2 ,M= 9 ,m=2,并根據基尼指數最小的規則進行決策樹的分裂,知道直到所有特征全部分裂結束。

Step3 :所有的CART決策樹按照分類結果進行投票,投票數較多的類別作為隨機森林模型的分類結果。

為了驗證基于隨機森林算法的大學英語四級通過率預測模型的效果,在測試集上計算分類結果的預測準確率、召回率、命中率,結果如下:預測準確率=90%,召回率=89.5%,命中率=93.3%。結果表明,基于隨機森林算法的大學英語四級通過率預測模型具有較好地分類效果,預測結果較為準確。

4 結束語

本文將隨機森林模型應用到大學英語四級通過率預測,以學生基本情況(性別、民族、專業)、高考英語成績、大學英語成績(共計4學期)、大學生課外英語使用統計數據為輸入變量,以通過和未通過作為分類變量,模型預測準確率達到90%,召回率達到89.5%,命中率為93.3%,表明基于隨機森林的大學英語四級通過率預測模型是有效的。

猜你喜歡
分類大學英語
“留白”是個大學問
《大學》
大學(2021年2期)2021-06-11 01:13:12
分類算一算
48歲的她,跨越千里再讀大學
海峽姐妹(2020年12期)2021-01-18 05:53:08
大學求學的遺憾
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
讀英語
酷酷英語林
主站蜘蛛池模板: 日韩欧美中文亚洲高清在线| 尤物国产在线| 色婷婷在线播放| 伊人中文网| 二级特黄绝大片免费视频大片| 黄色在线不卡| 国产日韩丝袜一二三区| 久久婷婷国产综合尤物精品| 在线视频一区二区三区不卡| 在线观看国产小视频| 国产喷水视频| 韩日无码在线不卡| 热这里只有精品国产热门精品| 精品三级网站| 久久久久国产一区二区| 亚洲第一精品福利| 萌白酱国产一区二区| 久无码久无码av无码| 色哟哟国产精品| 国产在线视频导航| 亚洲欧洲一区二区三区| 亚洲无线视频| 好紧太爽了视频免费无码| 国产免费高清无需播放器| 亚洲小视频网站| 国产精品手机在线播放| 国产精品尤物铁牛tv| 国产成人h在线观看网站站| 四虎成人精品| 久久亚洲美女精品国产精品| 国产精品爽爽va在线无码观看 | 在线中文字幕网| 亚洲人视频在线观看| 为你提供最新久久精品久久综合| 亚洲国产天堂久久综合226114| 亚洲水蜜桃久久综合网站| 国产一区二区三区精品欧美日韩| 国产97视频在线观看| 国产乱子伦一区二区=| 亚洲bt欧美bt精品| 欧美亚洲国产精品第一页| 日韩天堂视频| 狠狠综合久久| 毛片一级在线| 五月丁香伊人啪啪手机免费观看| 欧美翘臀一区二区三区| 五月天香蕉视频国产亚| 亚洲成av人无码综合在线观看| 青青热久免费精品视频6| 无码中字出轨中文人妻中文中| 91欧洲国产日韩在线人成| 国产综合欧美| 国产91蝌蚪窝| 国产亚洲视频中文字幕视频 | 亚洲欧洲日产国码无码av喷潮| 日韩不卡高清视频| 欧美午夜在线视频| 啪啪国产视频| 亚洲国产系列| 99一级毛片| 99re在线观看视频| 国产日韩欧美在线播放| 久久久久国产一级毛片高清板| 40岁成熟女人牲交片免费| 亚洲天堂色色人体| 久久亚洲中文字幕精品一区| 国产成人永久免费视频| 狠狠五月天中文字幕| 中文字幕第1页在线播| 一级毛片在线播放| 国产成人免费手机在线观看视频| 沈阳少妇高潮在线| 亚洲人成网7777777国产| 麻豆精品在线| a级毛片在线免费观看| 美女一级毛片无遮挡内谢| av在线5g无码天天| 日韩精品一区二区三区大桥未久| 玖玖免费视频在线观看| 大陆国产精品视频| 国产精品女在线观看| 人妻无码AⅤ中文字|