賀媛婧
(國家開放大學,北京 100039)
網絡信息技術的發展及應用極大程度上影響著現代遠程教育的發展,國家開放大學作為新型有特色的遠程教育大學,一直在推進信息技術與遠程教育的深度融合工作。國家開放大學以滿足遠程教育系統辦學背景的教學模式為目標,搭建了以Moodle為基本模型,以云計算技術為基礎的集約化學習平臺,給學習者提供了更加簡潔、便捷、開放的學習平臺,并為教師教學管理活動提供了更為便捷的平臺。[1]當大量的學習內容資源和學習活動同時呈現于平臺中時,雖然Moodle提供了對于學習資源的分類和搜索功能,[2]但是學習者難免會造成對于過載信息資源的困惑,很難快速找到適合自己學習的資源。如何既能滿足不同學生的專業類型、學習特征的學習需求,又能滿足學生的一般學習需求,怎樣幫助學習者找到適合自己的學習資源,[3]具有重要的研究意義。個性化推薦技術就是通過挖掘學習者的屬性特征,分析學習者的歷史學習記錄,預測學習者可能感興趣的學習資源給目標學習者。
本文以國開Moodle學習平臺為依托,通過平臺真實數據設計實驗,對比分析不同的個性化推薦技術,研究選擇恰當的推薦方法,提高學習資源推薦的有效性。
遠程教育與普通高校最大的區別就是教師的導學作用,因此,教師不僅要對所有學生的一般學習活動有詳細的了解,更重要的是學習平臺可以為每個學生提供個性化的學習服務,可以針對不同學習者提供符合個人特征的學習資源,發揮學習資源本身對于學習者學習的主動助推作用。Moodle平臺可以全面跟蹤和記錄學習者的歷史活動,其中包括學生訪問資源的時間、次數以及場所,其中積累了大量對分析學習者行為非常有價值的信息。那么,有效利用這些記錄信息,并從中挖掘出每個學習者的學習特征及群體學習者之間的相似性,可以有效地為學生的遠程主動學習提供智能化、個性化的學習支持服務。[4]此時,采用個性化推薦技術來挖掘這些被忽略的有價值的數據,包括學習者的屬性特征和學習活動記錄,來向學習者推薦其感興趣的學習資源,一方面通過學習平臺為學習者提供完全個性化的信息服務,另一方面也為教師指導和管理學生提供了決策支持,同時也增強了學習者利用平臺開展學習的興趣。因此,本研究對促進遠程教育的發展具有重要的科學意義。
(1)數據采集及預處理模塊
獲取Moodle平臺中每個學生的學習記錄,包括訪問課程的時間、閱讀次數、停留時間及訪問的URL等,這些歷史日志都為推薦提供了大量的基礎數據。然后合并相關數據并清除冗余數據,過濾掉多余的數據項,通過唯一標識符識別用戶,為下一步的數據分析提供格式化數據。[5]
(2)數據挖掘推薦模塊
通過個性化推薦技術對學生信息和學習記錄進行數據挖掘,預測學習者對于平臺學習資源的興趣度,將興趣度從大到小的前若干個學習資源作為推薦結果。
(3)推薦結果顯示模塊
經過推薦模塊后,生成的推薦結果采用學習者易于理解和接受的形式動態地呈現給學生,應用在學習者學習過程中,為學習者提供個性化學習資源和教學指導。
根據不同的推薦原理,有多種不同的個性化推薦技術,其中典型的推薦技術包括基于人口統計學的推薦、基于內容的推薦、基于用戶的協同過濾推薦等。為了給Moodle平臺的每一位學習者提供個性化的有價值的學習資源服務,最核心的就是要選取合適的推薦技術。本文結合學習資源的特殊性,分析對比幾種不同的個性化推薦技術,并力圖找到一種推薦準確率較高的推薦技術。
(1)基于人口統計學的推薦
它是一種最為簡單的推薦算法,主要特點是該技術不依賴于學習資源的具體屬性,僅僅通過學習者的基本信息就可以推薦。例如,學習者A與學習者B都具有“工商管理專業”、“市場營銷方向”及“本科”三個屬性,則系統會根據學習者間固有屬性相同,給二者推薦相同的學習資源。這種推薦算法簡單,但是算法比較粗糙缺乏精度,同時學習者的個人信息也較難得到,推薦效果很難令人滿意,不適合于提升學習者的主動積極性。
(2)基于內容的推薦
該方法是第一代推薦領域中應用最流行的算法,它根據用戶過去喜歡的項目,為用戶推薦和他過去喜歡的項目相似的項目,該方法最早主要應用于信息檢索及過濾系統,可以僅僅根據學習者個人的學習興趣,給學習者合理的推薦理由。但是由于該推薦需將每個項目抽取出一些特征或屬性來表示,應用于學習資源推薦難免存在一些缺點:學習資源是非結構化資源,屬性復雜不好處理,非結構化的屬性往往表示其意義不太明確,屬性取值也沒有限制,不方便直接使用。即使可以將非結構化的學習資源通過標簽進行結構化處理形成描述文件,但由于學習資源屬性的復雜性和多維性,抽取屬性僅僅代表資源的一些方面,不可能代表資源的所有方面,無法通過有限的維度來精確識別某一個學習資源。這樣帶來的直接問題就是:可能從兩個不同的學習資源中抽取出來完全相同的屬性特征,這種情況下基于內容的推薦就完全無法區分這兩個學習資源。[6]
(3)基于用戶的協同過濾推薦
上述推薦方法,對于學習資源的推薦都具有一定的片面性,而基于用戶的協同過濾推薦充分考慮了學習者在推薦中的核心作用,有效彌補了基于內容的推薦的不足之處。協同過濾是基于一組興趣相同的學習者進行的推薦,它根據與目標學習者興趣相似的鄰居學習者的偏好信息,產生對目標學習者的推薦列表,其本質是從學習者的歷史記錄來計算學習者間的相似度,從而進行預測推薦。該方法最大的優點就是能夠處理復雜結構的項目分析,這剛好適合處理多樣復雜的學習資源;其次,該方法有推薦的新穎能力,可以推薦給學習者內容上與歷史信息完全不相似的資源,可以發現學習者潛在的但是學習者自己尚未發現的學習興趣,引導學習者學習新的感興趣的資源。
綜合上述三種推薦技術的優缺點,目前從應用實踐上看,基于用戶的協同過濾推薦是最適合于Moodle平臺學習資源的推薦方法。基于該方法,如何選擇一種合適的相似度度量方法,如何為學習者提供最優的推薦結果是下面重點研究的內容。
為了驗證不同的相似度度量方法推薦學習資源的效果,實驗設計采用Moodle平臺真實數據,用平均絕對偏差作為測量標準,對預測學習者興趣度的實驗結果進行度量,并通過對比分析選擇有效的相似度計算方法。
(1)實驗一
實驗通過三種不同的相似度計算方法來對比分析,其中包括皮爾森相關系數法、調整的余弦相似性度量法以及Tanimoto相似度量法,采集國開Moodle平臺的1000條學習者記錄作為基礎數據,為第900個學習者,推薦20個學習資源,其中A-T分別表示編號從0-19的不同學習資源,表格中的數字代表目標學習者對于對應學習資源的預測評價。三種相似度計算方法對于同一學習者的預測興趣度對比分析結果如表1所示。
(2)實驗二
實驗進行5次,每次隨機選取學習者總數的30%作為目標用戶來產生推薦項目,結果取平均絕對偏差MAE的均值,結果如表2所示。

表1 興趣度預測結果對比分析表

表2 不同相似度推薦結果的MAE對比
(1)實驗一結果分析
統計上表1中數據,可以得出如下結果:采用調整的余弦相似性和皮爾森相關系數法度量學習者相似性,預測目標學習者的興趣度產生推薦的結果中,16個學習資源的預測值是相同的;采用皮爾森相關系數法和Tanimoto相似度量法度量用戶相似性,預測目標學習者的興趣度產生推薦的結果中,14個學習資源的預測值是相同的;采用Tanimoto相似度量法和調整的余弦相似性度量用戶相似性,預測目標學習者的興趣度產生推薦的結果中,15個學習資源的預測值是相同的。
以上數據可以得出,雖說采用不同的相似度進行推薦的結果存在一定的差異,但是整體上是一致的,不同推薦結果的相互覆蓋率都超過了75%。這說明通過這三種度量學習者間相似性的方法來預測其對于不同資源的興趣度都是比較有效的。為了對比三種度量方法對于推薦結果的性能,設置實驗二。
(2)實驗二結果分析
從表2中可見,通過平均絕對誤差這一評價標準,得出Tanimoto相似度量法的性能明顯優于其他幾種相似性度量方法。綜合實驗一和實驗二的結果可知:幾種不同相似度計算方法的覆蓋率在整體上差別不大,而且都符合推薦系統的正常實驗覆蓋范圍,但是Tanimoto相似度量法的性能相比較而言,從一定程度上提高了推薦的效果和質量,減小了推薦產生的偏差。
本文結合學習資源的具體特性,得出將基于用戶的協同過濾技術應用于Moodle平臺最為合適,并通過設計兩組不同的實驗,結果顯示采用Tanimoto相似度量法可以提高推薦性能和推薦效果。因此,在遠程教育的實踐應用中,在準確把握個性化推薦技術功能特點的基礎上,必須結合推薦應用的具體情境,不斷提升推薦性能,才能最大程度發揮推薦技術在遠程教育的應用價值,為學習者和教師提供真正個性化的智能體系服務。
[1]楊志堅.國家開放大學建設:改革與創新[J].中國遠程教育(綜合版),2013(4).
[2]張雪云,馬志強.國內Moodle平臺研究綜述[J].開放教育研究,2007,13(6).
[3]陳麗麗.個性化推薦技術在B2C教育網站上的應用分析[J].時代教育(教育教學版),2010(2).
[4]張國榮.Moodle平臺數據挖掘方法設計與實現[J].計算機技術與發展,2014(5).
[5]巫莉莉,張波,李濤.Web數據挖掘在遠程教育個性化中的應用研究[J].微型電腦應用,2010,26(2).
[6]張秀偉,何克清,王健,劉建曉.Web服務個性化推薦研究綜述[J].計算機工程與科學,2013,35(9)