李方圓+楊絮+張海+羅立成
● 自適應教育超媒體課程系統開發的現狀與問題
自適應教育超媒體系統(AEHS)是一種在線學習系統,它根據每個學生的特點和需求,通過網絡平臺隨時向學生推薦最合適的教學內容,以使學生的學習過程更容易。目前,AEHS已經在不同的情境下成功使用,并且一些研究者已經開發了許多在線教育系統(如AHA、TANGOW、NavEx和CoMoLE等)。雖然大多數AEHS對學生不太適應的一些課程進行了測試和評估,但它在真實的教育環境中應用的潛力并未被完全挖掘,而充分采用AEH技術的主要障礙是創建和測試自適應課程。
自適應課程創建的一個主要問題是,教師需要分析自適應課程如何才能在不同學生的學習特征中起作用。因此,設計專門用于支持自適應系統開發和評估的方法及工具對于教師來說有很大的幫助。一些國外研究者提出了一種自適應課程的生命周期螺旋開發模型。在這一模型中,首先,教師(或教育內容設計者)使用創作工具開發課程,并將其加載到課程交付系統中;然后,將課程交付給學生,并搜集學生與系統(日志文件)的交互;接下來,教師借助數據挖掘工具檢查日志文件,檢測課程可能失敗的地方或弱點,并提出改進課程的建議;最后,教師按照這些建議,利用創作工具對課程進行相應的修改,并再次在交付系統中加載課程。
用上述方法,教師可以改進每個周期的課程。然而,方法雖然可行,但對于非專業用戶來說,使用數據挖掘工具分析交互數據并解釋結果可能是一個艱巨的任務。因此,要解決這一問題,就需要幫助教師和課程設計者掌握分析數據的方法。本文將展示一些海外案例,介紹如何采用關鍵節點法、使用決策樹來協助開發AEH課程。
● 使用關鍵節點法發現學習者的自適應問題
AEHS的學生模型屬性或維度與不同的AEH系統,甚至同一系統的不同課程都是不同的,它們包括先前的知識、語言、年齡和學習風格等,且學生模型的維度就是學生的特征。學生可以在自適應課程中遵循不同的活動路徑,教師可以從學生的活動路徑中了解學生選擇的某些路徑是不是正確的學習方式,以及這些路徑是否與學生的特征相關。因此,在自適應規則中尋找問題的一種方法是,在用戶與AEHS的交互中尋找不良適應的潛在癥狀。通過這些癥狀就能夠檢測到相關的自適應問題,而發現這些癥狀的方法則是數據挖掘技術(Web挖掘)。
關鍵節點法就是使用數據挖掘技術(決策樹)尋找潛在的癥狀,以表明系統中存在適應不良。該方法利用可讀輸出的C4.5算法,具體步驟如下:
①清理階段。選擇活動類型為實際活動或測試的記錄,所有條目必須包含每個活動成功或失敗的指標。
②應用C4.5算法,具體參數如下:
屬性,學生模型的維度和活動變量的名稱。
分類變量,成功變量指標。此指標表示學生是否通過了一個給定的實際活動或測試。該變量有Yes和No兩個值,Yes表示學生成績高于教師指定的最低要求,否則其值為No。
③評估結果。生成決策樹,該樹包含每個屬性的節點。換句話說,該樹由與學生基本特征維度相關的節點組成,并且節點與活動變量的名稱相關。樹的葉子是分類變量的值也即成功指標。然后根據指標找出癥狀:選擇成功指標的值為No的葉子,這些葉子表示學生在給定的某個活動中失??;分析從先前選擇的葉子到樹根的每個路徑。對于每個路徑,需要兩個步驟:①在路徑中查找具有活動名稱的節點并存儲。自適應問題應該與此活動密切相關。②在路徑中找到學生基本特征的值。
● 關鍵節點法的兩個應用案例
下面為海外研究中關鍵節點法應用的兩個案例。這兩個案例使用了Simulog和Weka兩個工具。Simulog用于生成日志文件,Weka用于分析這些數據。Simulog是能夠模擬幾個學生基本特征的日志文件工具,其中包含不良適應癥狀。Weka提供學習算法的實現,如分類技術、關聯規則和聚類。此外,Weka包含的各種工具可用于預處理數據和數據可視化。在下面的案例中,日志文件是由一門有關交通規則的記錄良好的課程生成的。
第一個案例的數據是來自240個模擬學生的互動,第二個案例的數據是來自480名學生。
TANGOW教育系統中日志文件的條目由以下幾個屬性組成:戶名、基本特征、活動、完成、等級、訪問次數、行動、活動類型、合成時間、成功。如下表所示。
用戶名為s100的學生的條目示例為:
“s100,年輕,西班牙語,新手,S_Ag_Exer,0.0,0.0,1,初次訪問,實踐活動,否”
“s100,年輕,西班牙語,新手,S_Ag_Exer,0.0,0.0,1,離開原子活動,實踐活動,否”
第一個條目顯示,具有“西班牙語,新手,年輕”基本特征的學生s100參加了“交通警察標志練習”活動(S_Ag_Exer),完成0.0,等級0.0,是這次活動的第一次訪問。第二個條目表明,學生離開這個活動,沒有完成活動(完成=0.0),并且在練習中得分不足,為此,成功設定為否。
案例一:
研究者首先對Simulog生成的240名學生的數據進行研究。交互數據包含的不良適應的癥狀為70%具有“西班牙語、新手、年輕”基本特征的學生在“交通警察標志練習”活動中失敗。
接著,根據關鍵節點法分析數據。第一步(清理階段)是清理數據。它包括清除日志文件中不同于“LEAVE-ATOMIC”和“P”的活動,最后記錄集包含960條。第二步(應用C4.5算法)是生成決策樹(如下頁圖1)。最后一步(評估結果)是找到節點活動和學生基本特征,具體描述為:在樹中,只有一個葉子的值為No。這個葉子有77%的良好分類的例子,節點活動的值是“S_Ag_Exer”,學生基本特征是“年輕”“新手”“西班牙語”。
決策樹表明很多學習西班牙語版本的課程,具有新手經驗且年輕的學生在S_Ag_Exer活動中多次失敗,但需注意的是,該樹的良好分類例子的百分比很高。這一結果是由于當學生與不良適應癥狀無關時,可變等級中缺乏隨機效應,因而學生總是能完成這一活動。
案例二:
研究者首先對480名學生的數據進行研究,由Simulog生成了兩個不良適應的癥狀,并在可變等級中增加了隨機效應。因此,在該案例中有兩個噪音來源,它們分別是癥狀的數量和隨機效應。這些癥狀有60%具有“西班牙語、新手、年輕”基本特征的學生未能通過S_Ag_Exer(交通警察標志練習)活動,60%具有“英語、新手、年輕”基本特征的學生不能通過S_Circ_Exer(循環標志練習)活動。
本案例中,關鍵節點法的第一步與案例一相同,都要實現清理數據(清理階段)。第二個步是應用決策樹算法處理清理階段最后產生的1920個記錄(如圖2)。最后一步得到以下結果:
①在樹中找到值為No的兩個葉子。兩個活動與兩個葉子相關,因此可以找到兩個可能很強的不良適應癥狀。
②第一個葉子的No與節點“活動=S_Ag_Exer”相關,學生的基本特征是變量“經驗=新手”“年齡=年輕”和“語言=西班牙語”。
③第二個葉子的No與節點“活動=S_Circ_Exer”有關,學生的基本特征是變量“經驗=新手”“語言=英語”和“年齡=年輕”。
檢測到兩個不良適應的癥狀,由于兩個為No的葉子的良好分類例子的百分比(超過70%)相當高,因此,學習西班牙語課程和英語課程的新手經驗的年輕學生分別在S_Ag_Exe、S_Circ_Exer活動中都有很多困難。
● 結論
兩個案例旨在說明決策樹技術是檢測自適應程序潛在問題癥狀的有用方法。案例一證明了決策樹的有效性,它可以在無噪聲的數據中檢測適應不良的現有癥狀。案例二是以大量的學生為對象進行研究,通過等級變量中的隨機因素將噪聲包含在數據中,使生成的數據更加接近現實。當然,決策樹也有它的缺點,因為算法C4.5處理的是概率事件,所以提取的信息可能不會完整。因此,未來的工作應集中在測試決策樹與其他技術的組合上,如通過關聯規則為決策樹提供額外的信息,了解失敗的閾值指標以表明學習者的不適應癥狀。
基金項目:本論文獲得吉林省教育廳“十三五”社會科學研究規劃項目重點課題“基于數據挖掘的卓越教師能力結構與培訓研究”、東北師范大學本科教改研究課題“卓越新聞傳播人才創新培養模式與評價研究”、吉林省高等教育教學改革課題重點項目“卓越新聞傳播人才創新培養模式與評價研究”資助。