孫振華



摘要: 文章利用RapidMiner工具決策樹算法,對學(xué)生學(xué)習(xí)策略進(jìn)行預(yù)測分析,并從中找到有價值的信息。通過對學(xué)習(xí)策略數(shù)據(jù)集的預(yù)處理、模型選擇和模型評估等步驟,獲得了一個準(zhǔn)確率較高的決策樹模型。該模型對學(xué)生的學(xué)習(xí)策略進(jìn)行了分類,并揭示了不同分類和成績之間存在的關(guān)聯(lián)。實驗結(jié)果表明,決策樹算法在學(xué)習(xí)策略預(yù)測方面具有較高的價值,并為教育工作者提供了指導(dǎo)學(xué)生學(xué)習(xí)策略的新方法。
關(guān)鍵詞:數(shù)據(jù)挖掘;RapidMiner;決策樹;學(xué)習(xí)策略
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)14-0070-03 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :
0 引言
如何提高學(xué)生的學(xué)習(xí)成績是教師和家長普遍關(guān)心的問題。除了正確的學(xué)習(xí)方法、端正的學(xué)習(xí)態(tài)度、良好的學(xué)習(xí)習(xí)慣,學(xué)習(xí)策略也是影響其學(xué)習(xí)成績和學(xué)習(xí)效果的重要因素之一。以鎮(zhèn)江高職校信息工程系專業(yè)為例,學(xué)生的學(xué)習(xí)除課堂教學(xué)外,還包括課前預(yù)習(xí)、課后復(fù)習(xí)、網(wǎng)絡(luò)學(xué)習(xí)平臺中的微課、模擬仿真、在線自測等。然而,不同的學(xué)生學(xué)習(xí)策略不相同,取得的成績也不同。為了更好地進(jìn)行研究,隨機(jī)選取信息系物聯(lián)網(wǎng)專業(yè)22級的30名學(xué)生,通過問卷調(diào)查收集學(xué)生一個月以來的學(xué)習(xí)策略數(shù)據(jù),并進(jìn)行研究前后兩次難度相當(dāng)?shù)木C合測試。根據(jù)學(xué)生兩次測試成績的變化來判斷學(xué)習(xí)策略是否有效果。利用RapidMiner 工具進(jìn)行數(shù)據(jù)挖掘,對學(xué)習(xí)策略進(jìn)行預(yù)測分析,探究不同學(xué)習(xí)策略對學(xué)習(xí)成績的影響。
1 數(shù)據(jù)分析及算法選擇
數(shù)據(jù)分析是數(shù)據(jù)挖掘中數(shù)據(jù)準(zhǔn)備過程的重要一環(huán),是數(shù)據(jù)預(yù)處理的前提[1]。學(xué)習(xí)策略數(shù)據(jù)通過前期的問卷星調(diào)研形成數(shù)據(jù)集,并導(dǎo)出為Excel表格。表格字段包括序號、姓名、性別、課前、課后復(fù)習(xí)等6項。另外,研究前的原始成績、對比成績也錄入表格中。在數(shù)據(jù)集中,序號、姓名、性別以及兩次測試的成績不屬于學(xué)習(xí)策略,而兩次成績前后的差異作為預(yù)測目標(biāo),判斷學(xué)生是否進(jìn)步還是無進(jìn)步。所以在后續(xù)的數(shù)據(jù)預(yù)處理階段,應(yīng)將序號、姓名、性別字段去除,將兩次成績進(jìn)行比對、生成一個新列存放“進(jìn)步”或“無進(jìn)步”。在算法選擇方面,由于數(shù)據(jù)集呈現(xiàn)離散化特征,可歸納為分類問題,選擇RapidMiner決策樹中的ID3 算法相對合適。ID3算法以信息增益為指標(biāo)判別決策樹各層次節(jié)點上數(shù)據(jù)的特征屬性[2]。信息增益越高,意味著劃分后的子節(jié)點純度越高,對于分類的貢獻(xiàn)越大。因此,ID3算法須選擇信息增益最大的節(jié)點作為父節(jié)點[3]。ID3算法對于小型數(shù)據(jù)集的處理有著較高的計算效率,在小型數(shù)據(jù)集上運(yùn)行速度較快。
2 RapidMiner 數(shù)據(jù)挖掘過程
2.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中的重要步驟,主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、和數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗可以將數(shù)據(jù)集中的異常數(shù)據(jù),如空值、重復(fù)值、缺失值等進(jìn)行處理;數(shù)據(jù)集成可以將多個數(shù)據(jù)集整合成一個數(shù)據(jù)集;數(shù)據(jù)變換可以將數(shù)據(jù)進(jìn)行離散化、標(biāo)準(zhǔn)化等轉(zhuǎn)換;數(shù)據(jù)規(guī)約可以對大數(shù)據(jù)集進(jìn)行精簡,保證數(shù)據(jù)完整性的基礎(chǔ)上形成規(guī)模更小的新數(shù)據(jù)集。在學(xué)習(xí)策略數(shù)據(jù)集中,數(shù)據(jù)較為規(guī)范,只需對數(shù)據(jù)進(jìn)行清洗、變換即可滿足算法要求。具體操作如下:1) 導(dǎo)入數(shù)據(jù)。打開RapidMiner,新建一個空白流程(Process) ,點擊存儲區(qū)域(Repository) 中的“Import Data”按鈕,選擇學(xué)習(xí)策略數(shù)據(jù)集導(dǎo)入存儲區(qū)。2) 生成新屬性列。將數(shù)據(jù)集拖入到流程中,選擇算法區(qū)(Operators) 中的生成屬性“Generate Attributes”算子,將數(shù)據(jù)集out端連接“Generate Attributes”算子的exa端。打開“GenerateAttributes”算子的編輯參數(shù)列表對話框,在生成的新列中輸入“結(jié)論”,函數(shù)表達(dá)式中輸入“if([對比成績]>[原始成績],"進(jìn)步","無進(jìn)步")”。通過“Generate Attri?butes”算子生成的新屬性列,能將兩次成績對比并進(jìn)行變換,生成“進(jìn)步”和“無進(jìn)步”兩類,實現(xiàn)成績數(shù)據(jù)的離散化。3) 去除無用列。在算法區(qū)中拖入“SelectAttributes”算子到流程中,連接“Generate Attributes”和“Select Attributes”算子的exa 端。雙擊“Select Attri?butes”算子打開選擇屬性對話框,在左側(cè)屬性列表中選擇需要到的屬性至右側(cè)列表。算子的編輯,如圖1 所示。
2.2 模型建立
數(shù)據(jù)預(yù)處理完成之后,進(jìn)入到建模階段。本實驗采用的ID3算法的決策樹模型,按照分類準(zhǔn)則(如信息增益、基尼指數(shù)等)從數(shù)據(jù)集所有可選屬性列中選擇一個最佳的屬性,作為當(dāng)前節(jié)點,將數(shù)據(jù)集分成多個子集,對于每個子集,重復(fù)上述步驟直至滿足終止條件。決策樹模型與一般統(tǒng)計方法中的分類模型的主要區(qū)別在于決策樹的分類是基于邏輯的分類,而一般統(tǒng)計方法的分類模型是基于非邏輯的分類[4]。在決策樹模型中通常存在兩類變量:一類是自變量(也稱特征或?qū)傩裕硪皇且蜃兞浚ㄒ卜Q目標(biāo)變量),通過自變量的分類來預(yù)測結(jié)果。在RapidMiner 算法區(qū)中的“Attri?butes”和“Trees”列表中,分別找到“set role”算子和“ID3”算子并拖入至流程中,連接“Select Attributes”算子和“set role”算子的exa 端、“set role”算子的exa端和“ID3”算子的tra 端,最后將“ID3”算子的mod 端連接res 輸出端。“set role”算子用來設(shè)置數(shù)據(jù)集中屬性的角色,在編輯參數(shù)列表中,將“ 在線自測”“學(xué)習(xí)時間”“微課學(xué)習(xí)”等屬性設(shè)置為自變量“regular”角色,將“結(jié)論”設(shè)置為因變量“l(fā)abel”角色,并建立流程,如圖2 所示。
2.3 模型分析及評估
模型建立完成后,點擊RapidMiner 工具欄中的“運(yùn)行”按鈕,決策樹模型開始構(gòu)建,并在“Re?sults”面板中輸出結(jié)果。在決策樹中,包含了各個節(jié)點以及判斷條件,如圖3所示。圖中每一個矩形方框表示一個節(jié)點,箭頭表示分支,葉子節(jié)點表示預(yù)測結(jié)果。可以看出,決策樹的根節(jié)點為“課前預(yù)習(xí)”,根據(jù)“已預(yù)習(xí)”和“未預(yù)習(xí)”進(jìn)行分支,“模擬仿真”和“問題匯總”分別作為它的子節(jié)點,然后再根據(jù)條件進(jìn)行分支直到葉子節(jié)點。從決策樹的根節(jié)點出發(fā),沿著某個箭頭逐步走到葉子節(jié)點,即為該條分支的預(yù)測結(jié)果。例如,已進(jìn)行“課前預(yù)習(xí)”已進(jìn)行“模擬仿真”的學(xué)生容易進(jìn)步;已進(jìn)行“課前預(yù)習(xí)”未進(jìn)行“模擬仿真”但“學(xué)習(xí)時間”大于2小時的學(xué)生容易進(jìn)步。
模型評估就是評估算法模型對挖掘分析和預(yù)測結(jié)果的準(zhǔn)確性影響,根據(jù)預(yù)測結(jié)果是否在置信區(qū)間、誤差是否可以接受,判定結(jié)果是否達(dá)到目的[5]。在本實驗中,由于學(xué)習(xí)策略數(shù)據(jù)集來自一個班30名學(xué)生的數(shù)據(jù),數(shù)據(jù)規(guī)模較小、數(shù)據(jù)分布不均勻、容易產(chǎn)生過擬合的情況,因此采用交叉驗證的方式對模型進(jìn)行評估,并連接Performance算子查看模型的性能指標(biāo),如準(zhǔn)確率、精確率、召回率等。在RapidMiner算法區(qū)中的驗證(validation) 列表下找到“Cross validation”算子并拖入流程中,“Cross validation”算子exa端連接預(yù)處理后的數(shù)據(jù)集,per端連接res輸出端。雙擊“Cross validation”算子進(jìn)入子流程配置,在子流程的訓(xùn)練集(Training) 和測試集(Testing) 中分別添加“ID3”“Apply Model”“Perfor?mance”算子并進(jìn)行連接,如圖4所示。
其中,左側(cè)決策樹模型通過訓(xùn)練樣本進(jìn)行訓(xùn)練,右側(cè)是對模型進(jìn)行測試,并進(jìn)行評估。在訓(xùn)練過程中“Apply Model”算子將訓(xùn)練好的模型應(yīng)用到測試樣本中進(jìn)行預(yù)測,并用“Performance”算子評估模型性能。為了更準(zhǔn)確地評估模型,設(shè)置“Cross validation”的折數(shù)(number of folds) 為10,即數(shù)據(jù)集分成10個部分,其中9個部分用于訓(xùn)練模型,另一個部分用于測試模型,每次使用不同部分重復(fù)10次測試。點擊“運(yùn)行”,評估結(jié)果如圖5所示。從圖中看到,對“進(jìn)步”預(yù)測的準(zhǔn)確率約為82.35%,對“無進(jìn)步”預(yù)測的準(zhǔn)確率為84.62%,平均準(zhǔn)確率為83.33%。
3 預(yù)測結(jié)果對學(xué)習(xí)策略的指導(dǎo)
預(yù)測結(jié)果可以揭示哪些學(xué)習(xí)策略對成績的提升相關(guān)性較高、哪些策略對成績提升無幫助。基于這些結(jié)果,教師可以向?qū)W生推薦使用效果良好的學(xué)習(xí)策略,鼓勵學(xué)生積極進(jìn)行課前復(fù)習(xí)、參與模擬仿真實驗、有意識地進(jìn)行問題匯總、合理規(guī)劃學(xué)習(xí)時間等。通過定期分析預(yù)測結(jié)果,教師可以了解學(xué)生的學(xué)習(xí)情況是否符合預(yù)期,是否需要調(diào)整學(xué)習(xí)策略。要注意的是,預(yù)測結(jié)果只是一種參考,能幫助教師和學(xué)生更好地了解學(xué)習(xí)情況,但不能完全取代教師和學(xué)生的判斷和決策。在實際工作中,仍需要綜合考慮其他因素制定適合學(xué)生特點的學(xué)習(xí)策略。
4 結(jié)束語
在本次實驗中,采用了RapidMiner 決策樹模型對學(xué)生學(xué)習(xí)策略進(jìn)行數(shù)據(jù)挖掘和建模預(yù)測分析,使用交叉驗證方法進(jìn)行評估,得到了平均準(zhǔn)確率約為83.33% 的預(yù)測結(jié)果。這表明決策樹模型在學(xué)生學(xué)習(xí)策略預(yù)測方面具有一定的可靠性和有效性。當(dāng)然,預(yù)測結(jié)果只是學(xué)生學(xué)習(xí)策略制定的輔助工具,教師需要從多方面綜合考慮,制定最適合的學(xué)習(xí)策略,提升學(xué)生成績和學(xué)習(xí)效果。
參考文獻(xiàn):
[1] 李冠利.基于RapidMiner數(shù)據(jù)挖掘技術(shù)的NCRE成績預(yù)測分析[J].南京廣播電視大學(xué)學(xué)報,2018(4):80-82.
[2] 吳金桃,丁鑫龍.基于ID3決策樹算法高校經(jīng)管類虛擬仿真實驗平臺[J].佳木斯大學(xué)學(xué)報(自然科學(xué)版),2023,41(6):48-51.
[3] 陳韜宇,安海燕,陳杰.基于ID3算法對農(nóng)民工城市融入影響因素分析[J].軟件工程,2023,26(10):45-48.
[4] 馬月.數(shù)據(jù)挖掘技術(shù)在教育信息化中的應(yīng)用研究[D].西安:西安郵電大學(xué),2014:38.
[5] 劉文開,焦飛.基于RapidMiner的校園一卡通數(shù)據(jù)挖掘與預(yù)測[J].電腦知識與技術(shù),2021,17(28):34-36.
【通聯(lián)編輯:聞翔軍】