張新蕾,張春蕾
(1.天津市和平區(qū)勸業(yè)場小學(xué),天津,300041;2.河北工業(yè)大學(xué)經(jīng)濟管理學(xué)院,天津,300401)
在大數(shù)據(jù)時代的背景之下,教育與信息技術(shù)深度融合衍生出以云計算、大數(shù)據(jù)處理、機器學(xué)習(xí)等新手段為載體的數(shù)據(jù)驅(qū)動教學(xué)模式,引領(lǐng)教育走向“互聯(lián)網(wǎng)+”的個性化新時代。在海量的教育大數(shù)據(jù)中,無論是學(xué)習(xí)者還是教育者,普遍關(guān)注的是學(xué)生的學(xué)業(yè)等級評價。這不僅是評估教育者教學(xué)質(zhì)量的重要指標(biāo),而且是評價學(xué)習(xí)者綜合素養(yǎng)的重要依據(jù)。在素質(zhì)教育理念的引領(lǐng)下,成績雖然不再是衡量學(xué)生綜合素質(zhì)的唯一因素,但它仍然是當(dāng)下學(xué)業(yè)等級評價中較為重要的參考依據(jù)。因此,挖掘影響學(xué)生成績的重要因素顯得尤為迫切。本研究對天津市某地區(qū)1000名小學(xué)五年級學(xué)生閱讀學(xué)習(xí)的相關(guān)數(shù)據(jù)進行分析,挖掘影響學(xué)生學(xué)業(yè)發(fā)展的重要因素。
許多研究者利用多種技術(shù)手段,從不同學(xué)段、不同學(xué)科切入,挖掘影響學(xué)生成績的因素并進行相關(guān)性分析。例如,易芳等人對中小學(xué)生學(xué)習(xí)成績主要影響因素進行元分析,結(jié)果顯示在學(xué)生的個人因素中,學(xué)習(xí)動機、自我效能感與學(xué)習(xí)成績的關(guān)聯(lián)度最高。[1]楊建奇等人對影響學(xué)生成績的因素進行相關(guān)性和方差分析后得出,家庭因素、網(wǎng)絡(luò)接觸、早戀均能影響學(xué)生成績。[2]
隨著機器學(xué)習(xí)技術(shù)的發(fā)展,諸多學(xué)者開始借助數(shù)據(jù)處理技術(shù)挖掘影響學(xué)生成績的因素,并對學(xué)生的學(xué)習(xí)成績進行預(yù)測分析。例如,吳青等人運用決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和支持向量機(SVM),分別構(gòu)造了不同的學(xué)習(xí)成績預(yù)測模型,比較得出基于貝葉斯網(wǎng)絡(luò)的成績預(yù)測模型具有較好的分類性能,自主學(xué)習(xí)行為是高校學(xué)員在線學(xué)習(xí)成績的直接影響因素。[3]謝娟英等人利用密度全局K-means 算法對UCI機器學(xué)習(xí)庫中葡萄牙兩所學(xué)校的學(xué)生成績數(shù)據(jù)集和我國蒲城縣第三高級中學(xué)學(xué)生成績數(shù)據(jù)集進行聚類、關(guān)聯(lián)、成績預(yù)測分析后得出,父母的陪伴、母親受教育程度、學(xué)習(xí)態(tài)度直接影響學(xué)生成績。[4]
隨機森林(Random Forest)是近年來新興的一種機器學(xué)習(xí)算法,它以決策樹為基分類器,采用Bootstrap方法從原始訓(xùn)練樣本集中有放回地抽取多個訓(xùn)練樣本集,以實現(xiàn)樣本的隨機選取,并將抽取的多個樣本集生成不同決策樹以形成隨機森林。[5]在決策樹的生長過程中,特征選擇采用隨機的方式分裂每一個節(jié)點,保證了特征屬性的隨機選擇。這樣生成的多棵決策樹組合在一起就形成隨機森林,最終對所有的決策數(shù)據(jù)進行投票,投票數(shù)最多的作為隨機森林算法的最終輸出結(jié)果。
為了提高預(yù)測模型的性能和預(yù)測精度,部分學(xué)者采用了集合多個分類器處理數(shù)據(jù)的隨機森林算法。何韻竹等人利用高校大學(xué)生成績數(shù)據(jù)集,對幾類經(jīng)典的數(shù)據(jù)挖掘算法進行研究,表明隨機森林算法具有較高的分類性能,能分析出影響學(xué)生綜合學(xué)習(xí)效果的重要因素。[5]王岳卿利用多元線性回歸、支持向量機和隨機森林算法,從家庭因素方面對學(xué)習(xí)葡萄牙語的學(xué)生成績進行預(yù)測并構(gòu)建模型,對比得出隨機森林算法具有較強的預(yù)測性。[6]顧金池利用多元線性回歸、決策樹模型以及隨機森林算法建立學(xué)生成績預(yù)測模型,表明學(xué)生學(xué)習(xí)時間、母親受教育程度成為影響大學(xué)成績最主要的兩個因素。[7]
基于上述研究可知,運用機器學(xué)習(xí)的數(shù)據(jù)處理技術(shù)預(yù)測學(xué)生成績,并對影響成績的因素進行挖掘和分析,已受到研究者關(guān)注。但現(xiàn)有研究也反映了數(shù)據(jù)處理技術(shù)預(yù)測學(xué)生成績的局限性。從研究內(nèi)容看,數(shù)據(jù)較多源于中高等教育,缺少對基礎(chǔ)教育領(lǐng)域的調(diào)查和研究,而且著重從學(xué)生、學(xué)校、家庭、社會等較為宏觀層面分析影響因素,缺少對學(xué)習(xí)者自身機制的挖掘。從研究方法看,部分學(xué)者多采用決策樹、神經(jīng)網(wǎng)絡(luò)等單一分類器建立成績預(yù)測模型,而單一分類器的性能和預(yù)測精度易受參數(shù)影響,具有不穩(wěn)定性。還有學(xué)者雖然綜合介紹了多種數(shù)據(jù)處理算法,但其研究中對各模型運行環(huán)境和具體運行過程涉及較少,導(dǎo)致數(shù)據(jù)處理算法的可操作性不強,推廣較少。
對此,本研究運用隨機森林算法對小學(xué)五年級學(xué)生的閱讀、學(xué)習(xí)等方面的數(shù)據(jù)及期末語文成績數(shù)據(jù)進行分析,構(gòu)建學(xué)生語文成績等級預(yù)測模型,并根據(jù)特征重要性排序分析影響學(xué)生語文成績的重要因素。
本研究通過問卷調(diào)查和現(xiàn)場訪談,收集了天津市某地區(qū)1000名小學(xué)五年級學(xué)生的相關(guān)數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理,保留有效數(shù)據(jù)960條,每條數(shù)據(jù)記錄包括學(xué)生的基本情況(性別、家庭所在地、是否獨生子女、父/母親的學(xué)歷、父/母親每天的陪伴時長)、閱讀情況(是否喜歡閱讀、每天閱讀時長、每周閱讀量、閱讀時是否邊讀邊做標(biāo)記、父母對閱讀是否了解/支持、教師是否指導(dǎo)閱讀方法等)、學(xué)習(xí)及課余(是否想上大學(xué)、課上聽講狀態(tài)、課前預(yù)習(xí)情況、作業(yè)完成情況、寫作業(yè)前復(fù)習(xí)情況、每周娛樂游戲時長、每周鍛煉時長等)共計28個特征屬性和0(優(yōu)秀)、1(良好)、2(合格)、3(不合格)共計4個成績類別屬性。
數(shù)據(jù)預(yù)處理,即對原始數(shù)據(jù)中的缺失值、重復(fù)值、異常值進行刪除,對性別、家庭類別、是否獨生子等屬性數(shù)據(jù)進行量化,對學(xué)生成績數(shù)據(jù)進行離散化。為了避免各維屬性間因取值范圍的差異對模型訓(xùn)練造成影響,本研究還對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。
預(yù)測模型構(gòu)建,即采用隨機森林算法構(gòu)建學(xué)生成績的預(yù)測模型,對學(xué)生語文成績進行預(yù)測。隨后,本研究利用隨機森林算法中的Gini指數(shù)對特征重要性進行排序,挖掘影響學(xué)生學(xué)業(yè)發(fā)展的重要因素。
隨機森林是一種靈活、簡易、實用性較強的機器學(xué)習(xí)算法,在樣本集和特征集上兩次引入隨機性,使算法具有較好的抗噪能力。同時,隨機森林算法能夠通過Gini值實現(xiàn)對特征重要性的排序,從而為特征的選擇和分析提供依據(jù)。[8]
本研究借助python的工具包scikit-learn(sklearn)完成實驗,通過對數(shù)據(jù)的預(yù)處理,得到學(xué)生成績有效數(shù)據(jù)960條。然后,本研究將70%的數(shù)據(jù)用于訓(xùn)練模型,30%的數(shù)據(jù)用于后續(xù)測試,具體建立過程如下。[9]第一,導(dǎo)入算法模塊,即導(dǎo)入sklearn包中隨機森林算法建模所需模塊。第二,實例化模型類并設(shè)置模型參數(shù)。第三,創(chuàng)建數(shù)據(jù),即導(dǎo)入預(yù)處理的特征集(X)與類別標(biāo)簽(Y),分割訓(xùn)練集與測試集。其中,X包含0—27共28個屬性,Y包含0—3共4個類別。本研究利用train_test_split()函數(shù)將數(shù)據(jù)劃分為訓(xùn)練集與測試集,其中,test_size劃分比例設(shè)為0.3,即70%的樣本作為訓(xùn)練集,其余30%的樣本作為測試集用于后續(xù)測試。第四,模型建立與訓(xùn)練。
基于上述的隨機森林算法的預(yù)測模型,本研究用70%的數(shù)據(jù)集完成參數(shù)調(diào)優(yōu)和模型訓(xùn)練,用30%的測試數(shù)據(jù)集進行測試。實驗結(jié)果顯示,該模型的預(yù)測準(zhǔn)確率為88.89%,能較好地實現(xiàn)對五年級學(xué)生期末語文成績等級評價的預(yù)測。
1.不同類別的學(xué)生在各項特征的重要性分布
實驗結(jié)果表明,基于隨機森林算法的成績預(yù)測模型達到了較高的預(yù)測精度,可以為學(xué)生提供學(xué)業(yè)預(yù)警,增強教師對學(xué)生學(xué)習(xí)的規(guī)劃和指導(dǎo)。依據(jù)模型的預(yù)測結(jié)果,將模型中Gini指數(shù)各變量重要性的得分情況進行可視化后發(fā)現(xiàn),屬性12、13、19、21、22等的重要性排名靠前,屬性0、1、2、14、27等的重要性排名靠后。各類特征變量的重要性分布如圖1所示,據(jù)此可以找出影響小學(xué)生語文成績的重要因素。
如圖1所示,重要性排名靠前的是屬性12、13、19、21、22,分別對應(yīng)父母對閱讀是否支持、每周閱讀量、課上聽講狀態(tài)、作業(yè)完成情況、寫作業(yè)前復(fù)習(xí)情況。其中,每周閱讀量(屬性13)是影響學(xué)生語文成績最為重要的因素。屬性3、8、9、18、26等的重要性分值緊隨其后,說明母親的學(xué)歷、每天閱讀時長、對閱讀能否幫助提高語文成績的認知、是否想上大學(xué)、每周鍛煉時長等對語文成績存在一定影響。屬性10、16、23、24、27等對語文成績的影響不大,即學(xué)生閱讀時是否邊讀邊做標(biāo)記、教師是否指導(dǎo)閱讀方法、學(xué)生課后寫作業(yè)時長及每周課外補習(xí)班時長和每周缺勤時長等與語文學(xué)習(xí)成績的關(guān)聯(lián)較弱。而屬性0、1、15等的重要性分值相對較低,說明性別、家庭所在地、教師是否布置閱讀任務(wù)等對成績的影響微弱。

圖1 影響小學(xué)生語文成績的各項特征重要性分布圖
分析可知,影響小學(xué)生語文成績的因素不僅有學(xué)生自身因素,而且有家庭因素。值得注意的是,在眾多因素中,學(xué)生每周閱讀量及父母對閱讀是否支持成為影響成績的兩個極為重要因素。這一發(fā)現(xiàn)在幫助教師和家長關(guān)注學(xué)生的課上和課后學(xué)習(xí)情況的同時,還可以引導(dǎo)教師和家長加強對學(xué)生閱讀情況的關(guān)注,也為教育研究者制訂下一步的教學(xué)規(guī)劃提供新思路。
2.重要特征排序
為進一步發(fā)掘影響學(xué)生成績關(guān)鍵因素,根據(jù)Gini指數(shù)得到的特征重要性分值,本研究提取了分值排名前8個重要屬性,其重要性排序如圖2所示。不同成績類別的學(xué)生在重要特征的屬性值如圖3所示。

圖2 影響學(xué)習(xí)成績的重要特征排序圖

圖3 不同成績類別學(xué)生重要特征屬性值分布圖
在圖2、圖3中,屬性13表示每周閱讀量,屬性12表示父母對閱讀是否支持,屬性22表示寫作業(yè)前復(fù)習(xí)情況,屬性19表示課上聽講狀態(tài),屬性21表示作業(yè)完成情況,屬性18表示是否想上大學(xué),屬性3表示母親的學(xué)歷,屬性9表示閱讀能否幫助提高語文成績。由此分析得出,語文成績的影響因素如下。
一是閱讀活動的影響。在影響學(xué)生成績的特征變量中,屬性13排在首位,其次是屬性12。由此看來,閱讀已經(jīng)成為影響學(xué)生語文成績的首要因素。隨著教育改革不斷深化,尤其是統(tǒng)編版教材的廣泛使用,閱讀變得更為重要。從屬性9的排序看,學(xué)生已經(jīng)意識到閱讀的重要性,但閱讀實踐還需要一個過程。從重要特征的屬性分布圖可知,成績優(yōu)秀的學(xué)生的閱讀量均值遠遠高于其他三類學(xué)生,四個類別的學(xué)生在屬性12上呈現(xiàn)出梯度性。由此可以看出,父母越支持孩子閱讀,孩子的語文成績越高,側(cè)面反映出家庭環(huán)境對閱讀的重要作用。這也說明了廣泛開展中小學(xué)生閱讀活動的重要性。學(xué)生多讀經(jīng)典、原著,才能在系統(tǒng)閱讀、大量閱讀、深層次閱讀中發(fā)現(xiàn)問題、思考問題、提升素養(yǎng)、增長知識見識。[10]
二是學(xué)習(xí)活動的影響。屬性22、19、21被普遍認為是影響語文成績的因素,但與屬性19、21相比,屬性22略勝一籌。這充分說明了,作為學(xué)習(xí)內(nèi)容輸入的過程和學(xué)習(xí)結(jié)果輸出的過程,課上聽講狀態(tài)和作業(yè)完成情況跟學(xué)生的學(xué)習(xí)成績有關(guān),但寫作業(yè)前復(fù)習(xí)情況影響著輸入與輸出間的內(nèi)化吸收。在內(nèi)化吸收過程中,學(xué)生通過不斷加工整理知識框架,在腦海中形成知識圖譜,進而呈現(xiàn)在作業(yè)上。從屬性22的屬性值來看,四個類別的學(xué)生存在明顯的差異,成績優(yōu)秀和成績良好的學(xué)生課后復(fù)習(xí)情況遠遠優(yōu)于其他兩類學(xué)生,但所有學(xué)生課后復(fù)習(xí)的整體情況不容樂觀。這提醒教育工作者務(wù)必關(guān)注學(xué)生學(xué)習(xí)后的復(fù)習(xí)情況,引導(dǎo)學(xué)生對已學(xué)知識進行內(nèi)化吸收。
三是學(xué)習(xí)動機的影響。除閱讀活動和學(xué)習(xí)活動外,屬性18也成為影響學(xué)生成績的重要因素。這說明學(xué)生的學(xué)習(xí)不僅要有實際的行動,而且要有強烈的學(xué)習(xí)主觀愿望和學(xué)習(xí)動機。因為強烈的愿望和動機能夠促使學(xué)生端正學(xué)習(xí)態(tài)度,提高學(xué)習(xí)積極性,進而收獲良好的學(xué)習(xí)效果。如圖3所示,學(xué)習(xí)目標(biāo)明確和學(xué)習(xí)動力較強的學(xué)生更容易獲得較高的成績等級。這進一步明確了,教育工作者需加強對學(xué)生學(xué)習(xí)態(tài)度和正向價值觀的引領(lǐng),通過良好學(xué)習(xí)態(tài)度和積極價值觀的引領(lǐng),幫助學(xué)生形成正向?qū)W習(xí)力,激發(fā)學(xué)生學(xué)習(xí)興趣。
四是家庭環(huán)境的影響。在影響學(xué)生成績的前八項特征中,除了學(xué)生自身的因素,家庭環(huán)境因素對學(xué)生成績也有一定影響。屬性3反映了母親受教育程度對學(xué)生成績的影響,屬性12從側(cè)面反映出家庭環(huán)境通過影響學(xué)生閱讀情況進而對學(xué)生成績產(chǎn)生影響。從圖3得出,成績優(yōu)秀/良好學(xué)生的屬性3、12的屬性值均高于其他兩類學(xué)生。由此可見,良好的家庭環(huán)境和氛圍能為學(xué)生提供更好的學(xué)習(xí)環(huán)境,為學(xué)生健康快樂地學(xué)習(xí)成長保駕護航。因此,家長要注重家庭、注重家教、注重家風(fēng),自覺成為立德樹人的有生力量。[10]
本研究運用隨機森林算法構(gòu)建出學(xué)生成績預(yù)測模型,并對收集到的有效數(shù)據(jù)進行實驗分析。實驗結(jié)果顯示,該預(yù)測模型具有較高的預(yù)測準(zhǔn)確率和精度,有助于實現(xiàn)對學(xué)生的學(xué)業(yè)預(yù)測,能夠幫助教師及時提醒幫扶成績相對落后學(xué)生取得學(xué)業(yè)的進步。本研究還運用模型中的Gini指數(shù)找出影響學(xué)生成績的因素,其中小學(xué)生的每周閱讀量對其語文成績的影響最大,即學(xué)生閱讀活動與語文成績的關(guān)系最為密切。這不僅為教育工作者制訂未來教學(xué)規(guī)劃、加強學(xué)校管理提供了參考和依據(jù),而且為因材施教提供了有效途徑,同時為家長如何做好家庭教育指明了方向,為倡導(dǎo)全民閱讀、構(gòu)建書香校園、推進語文教學(xué)的變革發(fā)展提供理論支撐。