石振強


摘要:數據挖掘在教育領域的應用隨著數據的增多變得極為重要,該文主要針對在線評測系統中學習者相關數據集進行分析與研究,構造多個學習者特征,并以此對學習者進行聚類分析,從而得出不同學習者之間的特點,并對每類學習者進行深入分析,挖掘出隱含信息。一方面教育者可以針對不同類別的學習者采取不同的教育策略,另一方面使學習者更好地了解自己,發現不足的原因。將挖掘到的知識應用到教育環境中,不僅完善了在線教育平臺,同時也使學習者和教育者達到了雙贏的目的。
關鍵詞:教育數據挖掘;在線評測系統;學習者;特征;聚類分析
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)06-0154-03
1概述
隨著開源教育平臺的興起,教育數據挖掘技術融入教學已成為一種趨勢,將教育系統的數據通過數據挖掘技術轉換為有用的知識,并將挖掘到的知識再次應用到教育環境中去,提供更多更客觀的反饋信息,一方面使教育者能夠更好地調整和優化教學策略、改進教學過程、完善課程開發,基于學習者的學習情況來實現教學內容組織、創新以及構建教學模式等;另一方面可以使學習者更好地了解自己,有助于自己更好的學習。
本文中主要研究XXX大學在線評測系統(Online Judge,以下簡稱OJ),此系統是學習者通過在線提交代碼,系統即時檢測代碼的正確性并給出判定結果。OJ中,存儲著學習者的相關數據,通過分析這些數據,更深入的了解學習者,以便針對不同類別學習者提供不同的教學方法。本文主要是通過分析學習者數據,建立特征,得出不同類別學習者的特點,使教學者有針對性做出策略。
2數據挖掘介紹
數據挖掘,就是從大量無序的數據中發現隱含的、有效的、有價值的、可理解的模式,進而發現有用的知識,并得出時間的趨向和關聯,為用戶提供問題求解層次的決策支持能力。
隨著開源教育平臺的興起,平臺上的數據分析變得異常重要,將數據挖掘應用在教育領域成為一種趨勢。如通過研究大規模教育數據中,可以為教育者提供更多潛在的不易發現的信息,以解決某教育中存在的問題,或者來預測學習者所需要的服務。
3問題提出
學習者數據存儲在數據庫中,因此在選取數據時,可以直接從數據庫中導出數據,然后在其中提取具有研究價值的完整的數據集。
如何更深入的了解學習者,挖掘出不同學習者之間的差異,以及如何找出需要進行考前預警的學習者,是本文研究的重點。
3.1山東某大學在線評測系統學習者群體的數據介紹
自2011年以來,注冊用戶的提升和題目的增加,使OJ系統的學習者數據集更加完備,便于研究和學習分析。
OJ系統中的學習者主要涉及計算機,軟件,網絡,物聯網,電科,數字媒體,信息安全,數學等專業,學習者按時完成專業老師安排的作業和規定的考試,表1是五個年級學習者數據的匯總,表示學習者的對題目的提交情況。最終選取了2014級,2015級,2016級學習者數據。
3.2問題解決的角度
由于數據繁雜,各個年紀的學習者提交記錄都存儲在一個數據表中,學習者的分類僅僅依靠成績是不夠的,而且也是片面的,影響學習者做題的因素很多,所以對于學習者進行有效的分析至關重要,對于教學者也有很好的幫助,可以對于不同學習者采取不同的教育方式。
不同于以往僅僅按照成績將學習者進行優良中差的分類,本文采取多個學習者特征,建立一個基于在線評測系統的學習者模型。克服了單一分類標準所得最終結果的片面化的弊端。
4學習者數據集的預處理
4.1數據集成
2011年以來,隨著題目數量的增加,在教學方面,題目數據的涵蓋的內容越豐富,越有利于學習者學習,從而才能更好地針對學習者的數據集進行分析。所以,本文選取2014級,2015級,2016級的學習者數據。
數據集成主要將很多數據的屬性集合在一起,本文中主要將數據從數據庫中導出,按照學號的特點,針對不同的年級,不同的專業,不同的班級,依次整理,下圖是將2014級學習者的信息進行集成。
表2 2014級總提交記錄
圖中包括提交號,題號,用戶,提交時間,用戶IP,競賽號,判題情況,代碼長度,判題時間等,涵蓋了學習者在本系統的所有屬性。
4.2數據清理
數據清理試圖填充缺失的值,光滑噪聲并識別利群點,糾正圖中數據的不一致性。去掉不合理的、異常的數據,比如只注冊者、注冊學號不合法、學習者補考數據、缺失數據等。
對于學習者數據中,一些重要的屬性缺少屬性值,對于本部分的空缺,可以使用數據清理技術來填充。填補缺失值補全主要有下面幾個方法:
1)忽略缺失數據;
2)人工填寫缺失值:此方式比較費時,數據量較小的情況下可以行得通;
3)使用均值填充;
4)使用最有可能的一個值進行填充:通過回歸或者使用貝葉斯形式化的基于推理的工具或者決策樹歸納確定。
本文中的數據清理,選取學習者參與度較高的十四次程序設計基礎作業。
①因某種原因缺失作業較多學習者直接刪除,只缺少兩次甚至更少的學習者,通過其前幾次作業的做題情況,使用第四種方式填充。此方式主要用于學習者的做題時間。包括平均做題時間和每次作業的第一次提交時間。
②非法用戶、不按照學號形式注冊一律刪除。
③缺失值補全主要采用第四種方式進行填充。
④刪除數據量過少的用戶,比如只登錄過幾次,或者提交次數過少。
⑤偏差檢測,發現噪聲、離群點和需要考察的不尋常的數據。
通過數據清理,數據更加規范,合理。
4.3特征構造
特征之間存在較高的相關度,而且很多特征可以通過計算減少特征的個數。
在線評測系統中,與學習者相關的重要特征主要為:提交次數,正確提交次數,做題個數,正確率,做題時間(單位做題時間),作業提交首次時間平均值。
1)提交次數:選取學習者學年總的提交次數,通過統計每位學習者的提交的信息,包括其所有提交記錄:錯誤次數、運行錯誤次數、正確次數、編譯錯誤次數等
2)正確提交次數:每一級學習者正確提交的次數
3)正確率:提交正確的題目個數與提交的題目個數之比;
4)正確做題個數:選取程序設計基礎課程十三次作業中,學習者總的完成題目個數。
5)單位做題時間:選取第i次作業中第一次提交時間與最后一次正確提交時間之差,與此次作業中完成的題目數之比。
6)作業首次提交時間與作業開始時間間隔平均值:計算所有作業首次正確提交時間與作業開始時間間隔的平均值。
4.4特征描述
數據處理完成后,對于評測系統中學習者的數據集的各個特征所代表的含義如下:
正確做題數目:代表了學習者在在線評測系統中的完成度。
登錄次數:代表了學習者在在線評測系統中的參與度。
總提交次數:代表了學習者在在線評測系統中的嘗試次數。
正確率:代表了學習者在在線評測系統中的通過率。
平均做題時間:代表了學習者在在線評測系統中的做題效率。
首次正確提交時間:代表了學習者在在線評測系統中的積極度。
5聚類分析
聚類分析僅根據在提交記錄數據集中發現的描述學習者及其關系的信息,將學習者分組。其目標是,組內的學習者相互之間是相似的(相關的),而不同組中的學習者是不同的(不相關的)。組內的學習者相似性越大,不同學習者組間差別越大,聚類就越好。
5.1算法實現
根據本文研究數據,對個樣本點進行一聚類,這里取n:
1)準備數據集,選取2014年學習者的數據集(處理完成);
2)隨機選取個點作為數據集的聚類中心;
3)計算每個點到數據集聚類中心的距離,并聚類到離該點最近的聚類中去,此處距離采用歐式距離;
4)計算每個聚類中所有樣本點的坐標平均值,并將這個平均值作為新的聚類中心;
5)重復3),計算每個點到聚類中心的距離,并聚類到離該點最近的聚類中去;
6)重復4),計算每個聚類中所有樣本點的坐標平均值,并將這個平均值作為新的聚類中心。
5.2算法評估
聚類分析是無監督的,并不像有監督的算法可以有全面的評估函數,對于聚類結果的好壞,本文使用輪廓系數來評估聚類結果的好壞。此方式也較為通用。
輪廓系數的檢驗標準如下:
1)輪廓系數接近1,則說明樣本x聚類合理;
2)輪廓系數接近-1,則說明樣本x更應該分類到另外的簇;
3)若輪廓系數近似為0,則說明樣本x在兩個簇的邊界上。
多次實驗得出:當聚類個數取到5時,得到一個相對較好的聚類結果,所以本文選取聚類個數為5,即將學習者聚為5類。
5.3結果分析
通過選取的特征將學習者聚為5類,下面將詳細分析各類的特點。
第一類,屬于很積極的學習者,平均做題時間一般,努力型學習者。
第二類,很積極,平均做題時間快,聰明型學習者。但是一類二類學習者的通過率都很一般,詳細分析得出結論:因為這兩類學習者完成度高,由于做題數目很多,導致其通過率一般。
第三類,學習者表現最為不同,完成度低,但是通過率高,而且平均做題時間最快。對于此類學習者,進行了詳細的分析。發現此類學習者存在作弊嫌疑,因為做題數目很少,正確率很高,但是發現他們的做題時間很快,深入分析發現他們每道題之間的間隔時間也很短。故此類學習者有作弊嫌疑。并且參考此類學習者,最終的成績往往不及格,應該對此類學習者進行考前預警。
第四類和第五類可以對比說明,前者屬于沉穩型,后者屬于做題快而且通過率高,高效型學習者。
6總結與展望
根據上述分析,本文得出五類學習者之間的差異。并對每類進行了更加深人的分析,針對每類學習者的情況,教育者可以更深入地了解學習者。有助于幫助教育者對于每類學習者采取不同的教育策略。同時可以使學習者更好地了解自己,在平時的學習中得到及時的反饋。數據挖掘技術應用在教育環境中,并將挖掘出的知識反饋到教育環境中,促進了教育事業的發展。
信息時代,必將有更多的先進的技術應用到教育領域,通過分析教育數據,可以得到更多隱藏的信息,也勢必得到更多有用的知識。從教育環境中挖掘知識,最終再反饋給教育環境,這樣有效的循環,最終受益的還是學習者和教育者。