王乙先+楊絮+張海+羅立成

教育數據挖掘是在教育領域中,使用數據挖掘技術分析教學系統中的數據,來解決教育研究問題的新興學科。目前,很多基于計算機的學習系統都能收集大量的可用數據,如學習管理系統、大規模在線開放課程以及智能輔導系統。借助教育數據挖掘中多種多樣的方法和應用,既可以改進和提高學習質量,也可以幫助我們提高對學習過程的理解。本文回顧了當前教育數據挖掘的研究與文獻,并結合已有研究對教育數據挖掘的應用進行了介紹。這些案例可以幫助我們更好地了解當前世界各國教育數據挖掘前沿的新進展。隨著基于計算機的學習和數據可用性的增長,相信教育數據挖掘的使用還會繼續增長,從而產生更多更豐富的新型應用。
● 教育數據挖掘的主要方法與應用
教育數據挖掘最常用的方法包括分類、回歸、聚類、關聯規則挖掘、模型發現、異常值檢測、社會網絡分析、文本挖掘、順序模式挖掘及可視化技術。
教育數據挖掘中的應用和任務可以根據不同的屬性進行分類。經過文獻研究,本文列出了教育數據挖掘的可能應用,并嘗試根據其最終目標將教育數據挖掘的應用進行分類。文中已經確定了十三種應用,形成了專門針對教育數據挖掘定制的新分類法,將教育數據挖掘設定為數據挖掘的具體子領域。其中四個應用分組在“學生建模”下,六個在“決策支持系統”下,最后三個表示為“其他”,因為它們與其他應用不同。本文將在與各類應用相關的研究實例幫助下,對這些應用進行描述和說明。
為了更好地分類所識別的應用,我們可以查看每個應用的目標用戶。教育環境中的最終用戶是學習者、教育者、管理人員和研究人員。
學習者一直是教育數據挖掘在各種應用中的主要目標用戶,如分組學生、產生推薦和自適應系統。教育數據挖掘整體的一個重要目標是提高學習質量。在學習過程中,首先要考慮兩組用戶,即學習者和教育者。學生建模和決策支持系統類別中的大多數應用將教育者定位為最終用戶。學生建模能更好地了解學生的學習狀態,決策支持系統可以直接幫助教育者做出更好的決策,改善學習過程,同時這也適用于制定更高層次決策的教育機構的管理者。研究人員也代表一類終端用戶,因為研究的目的是了解學習過程、開發理論和測試。例如,研究人員可以使用社交網絡分析(SNA)來確定在預測學生表現方面有價值的屬性。下頁表列出了每個應用程序的可能的目標用戶。
● 應用于學生建模的教育數據挖掘
學生建模是一個表達學生活動認知方面的過程,如分析學生的表現或行為、隔離潛在的錯誤認知、表示學生的目標和計劃、識別先前獲得的知識、維持情境記憶和描述個性特征。
我們運用此定義來對教育數據挖掘中某些應用進行分類,該類別中的應用提供了一種描述學生嘗試達成目標的模型。對學生活動和行為進行建模可用于預測和表示學生的一些特征或發現描述學生的結構。因此,學生建模中有兩個子類別為預測和結構發現。
1.預測學生表現、學習成果的實現或特點
這類應用的目標是評估描述學生的表現、學習成果的實現和特征,有的研究也關注與其他學生的合作學習的特征。這類應用中回歸和分類方法使用最為廣泛。例如,Zimmermann 等人引入了基于模型的方法,即使用本科績效指標來預測研究生績效;Galyardt和Goldin利用最近的學生使用數據來提高ITS系統的預測精度;Waters等人的研究使用貝葉斯分類識別學生在網絡課程中的協作。
2.檢測學生不良行為
在這一分類中重點是檢測學生的不良行為,如動機低、錯誤行為、作弊、輟學、學業失敗等。在這類應用中主要使用分類和聚類技術,也綜合使用了特征選擇和異常值檢測等技術。Bravo和Ortigosa進行的研究中提出了一種使用生產規則檢測電子學習中潛在癥狀的方法;Dekker等人使用決策樹分類器來預測電氣工程學中的學生的輟學;Lykourentzou等人使用多機器學習技術如支持向量模型和神經網絡來對學生的輟學進行預測。
3.分析和分組學生
這類應用的目標是根據不同的變量來分析或分組學生,對學生進行分組可以根據個人資料信息的各種屬性來完成。這類應用中使用較多的數據挖掘方法是特征選擇和聚類。例如,Azarnoushetal提出了一種使用基于隨機樹的不相似度測度進行學習者分類的方法;Kinnebrew等人使用序列挖掘技術來識別不同學生群體的學習行為模式。
4.社交網絡分析
這一分類應用的目的是以圖形的形式構建學生模型,并顯示出不同的可能關系。在社交網絡分析中,重點是學習者之間的關系。例如,Reffay和Canier使用社會網絡分析來衡量協作遠程學習環境中的凝聚力;Reyes和Tchounikine基于使用社會網絡分析技術的關系視角研究了學習小組的結構性質。
● 應用于決策支持系統的教育數據挖掘
教育數據挖掘中另一個主要的應用分類是決策支持系統。這一類型的應用主要通過幫助利益相關者做出決策來增強學習過程,如提供反饋、創建警報、規劃、生成建議和增強課件等。這些決策支持系統的目標人群主要是教師,也可以是學生、管理者或研究人員。
1.提供反饋
數據分析和可視化在很多應用中充當著重要角色,它們本身也可以向教育者和管理者提供有用的信息來幫助他們進行決策。這類應用的目的是找到并突出顯示可能對教育者和管理者有用的課程活動相關信息,并向他們提供反饋。例如,Romero等人進行的研究,他們使用關聯規則挖掘,從多項選擇測驗數據中提取有用信息向教師提供反饋。
2.為利益相關者創建警報
這類應用類似于學生建模分類中的應用,其目的是預測學生的特征并檢測不需要的行為,并作為在線工具來通知利益相關者或實時創建警報,當出現低動機、誤用、作弊等情況時可能需要警報。這一類別的研究范例是Knowles的研究,他引入了使用統計模型和回歸的退學預警系統;另一項研究中,Macfadyen和Dawson為使用績效預測的教育者制定了一個預警系統。endprint
3.規劃和調度
這一類應用的目的是幫助利益相關者進行規劃和調度任務,它可以幫助教育者和管理者規劃未來的課程、協助入學和咨詢等任何涉及計劃和安排的任務,并在課程招生規劃方面幫助學生。這些研究大多數采用模型發現、聚類分析和分類等方法。Hsia等人根據學生的偏好和職業來確定參加者完成課程的可能性,并以此來加強課程規劃。
4.創建課件
課件被稱為提供內容、視頻、測試和其他學習資料的教育軟件。這類應用的目的是幫助教育者根據學生使用的信息自動創建或開發課程資料。在等人的研究中可以找到相關例子,他們提出了一個使用關聯規則挖掘和協同過濾來開發、改進和維護基于網絡的課程的系統。
5開發概念圖
概念圖是用于組織和表達知識的圖形工具。這類應用的目的是制作各個方面的概念圖來幫助教育工作者界定教育進程,它們可以幫助明確不同的概念彼此間的關系。例如,Agrawal等人的研究通過為學生閱讀的概念提供參考,提供了學習電子教科書的導航。
6.生成推薦
推薦可以針對任何利益相關者,如給學生提供課程建議或給教育者提供測試項目建議。推薦系統中最常見的方法是協同過濾、基于內容的方法、基于關聯規則的算法和其他混合方法。生成推薦的另一個方法是使用模型發現。例如,Vialardi等人使用績效預測模型來產生建議。預測模型可以預測每個學生在每門課程中的成功,并向學生推薦最有可能幫助他們獲得成功的課程。
● 其他教育數據挖掘應用
1.自適應系統
這類應用與基于計算機的學習中的智能系統的應用有關,我們需要系統適應用戶的行為。在許多在線學習系統中,有很多不同需求的學習者,而且隨著參與者人數的增加,在線學習系統越來越難以滿足所有學習者的具體需求。自適應系統可以幫助我們滿足每個學習者的需求。這種適應可以采取適應課程材料、指導步驟、提供提示、排序和生成測試等的形式。例如,Alaofi等人的研究中通過使用學生的個人資料信息來探索數字圖書館的個性化以改善搜索結果。
2.評估
評估是教育環境的一個重要方面,但某些情況下評估并不總是直觀的,特別是在基于計算機的學習環境中。這類教育數據挖掘應用的目的是為教育者提供一個評估手段來輔助評估,它是可以在探索性學習環境和基于計算機的課程中完成的。例如,Hao等人提出了一種使用距離函數對基于游戲/場景的任務進行評分的新方法。
3.科學查詢
教育數據挖掘的一個用途可以是基于大數據的各種記錄來測試,甚至開發新理論。這類應用程序主要以研究人員作為最終用戶,但是任何開發或測試的理論都可以在以后針對其他利益相關者的其他應用中使用。endprint