袁文翠,于文娟,趙建民
網絡教學方興未艾,各大高校也紛紛推出自己網絡教學平臺,但大多數都只是給予學生被動接受式教育,沒有充分從學生個人角度出發考慮學生的興趣、需求及認知風格,造成了交互性差,學習效率低等問題。本文從學生個人角度出發,通過對學生行為特征的調查分析,評估其興趣課程并對具有相同興趣的學生聚類,為其提供個性化課程推薦服務,從而建立個性化課程推薦系統,為學生選課做出參考。本系統的構建有助于提高學生的學習效率,避免耗費過多時間尋找課程,實現自主學習,因材施教。
通過查閱文獻,主要有以下研究與本文相關:文獻1基于協同過濾技術對相關課程的評分進行聚類,以此為基礎根據學生對相似課程的評分高低預測學生的興趣課程。這種方法的缺點在于只根據課程評分單方面的數據推斷學生興趣度過于片面,而且很多用戶對自己的興趣課程也不一定很明確,特別是當課程領域較復雜時,即使用戶愿意提供評分,也不一定是準確的[1]。文獻2提出一種隱式的用戶興趣度獲取方法。該方法用多元線性回歸模型來計算用戶對某網頁的興趣度 ,以用戶瀏覽時間和拉動滾動條次數作為主要影響因素,較準確地計算了用戶對網頁的興趣度[2][3]。本文將以學生為主體,分析其行為特征,運用聚類分析和線性回歸模型,將興趣課程相似的學生聚類到同一個學生群中,并找出其中的關聯性,最終完成興趣課程的推薦[4]。
學生行為信息可分為兩大類,第一類為可以直接獲取的靜態信息,由學習者通過信息注冊或填寫問卷調查來完成,這是最直接的獲得學生興趣和需求的方式,但缺點是依賴于學生的主動提供,而學生通常不注意或不愿意花時間去認真填寫,這在很大程度上降低了可用性。第二類為間接獲取的動態信息,包括學生的學習歷史、學習時間或出勤率、考試成績等,這些信息可通過現有的教務系統直接獲取。另外,我們將學生劃分為新用戶和老用戶,老用戶有自己的修課記錄,通過訪問學生行為信息數據庫,可以得到學生的動態信息,如選課記錄、出勤率、考試成績等,將這些信息進行處理和挖掘,便可提供個性化課程推薦;新用戶沒有動態行為信息,因此,必須依據學生填寫的靜態數據,測評其興趣課程,從而給予推薦服務。
基于學生行為分析的個性化課程推薦系統分為 3個步驟,如圖1所示:

圖1 興趣課程推薦流程
(1)數據收集與預處理
當學習者注冊成為用戶時,系統會從已有教務系統中獲取與該學習者相關的信息,并存入學生行為信息庫。這些信息包括選課記錄、出勤率、考試成績,以及系統自身提供的靜態信息。對于注冊過程中可能出現的數據項空缺、數據類型不一致等問題,需要進行有效的數據預處理,預處理包括轉換整合、抽樣、隨機化、缺失值處理等。
(2)數據挖掘建模
為了確定向目標學習者推薦哪些課程,首先,要確定學生對選修課程的興趣度模型,興趣度模型通過分析前面處理后的學生動態信息和靜態信息,利用多元線性回歸方程建立。其次,需要建立學生分群模型,分群模型是通過上一步計算得到的不同課程的興趣度,結合 K-means聚類分析算法,確定學生群模型。
(3)個性化推薦服務
兩個學生屬于同一個簇(學生群)表明他們感興趣的課程是相似的,但某學生選修了某門課程并通過學習后,對該課程的評價也可能會非常低,而另一個學生可能恰恰相反。因此,還需要將評價信息進行反饋更新,預測目標學習者對候選課程集合中每門課程的評價,取評價值高、興趣度高的課程推薦給學生。
學生學習過程中的心理活動與其表現出的行為密切相關,心理活動在某一層面上可以理解為課程興趣度;學生在學習時的各種行為特征同樣決定了課程興趣度,這些相關因素之間存在某種線性關系,為了量化興趣度,本文建立多元線性回歸模型,計算課程興趣度,并采用K-means聚類分析算法構建學生群細分模型實現個性化課程推薦功能。
從直觀看,能夠揭示用戶對課程的興趣度的行為有很多,為了找到學生行為信息與課程興趣度之間的定量關系,本文查閱了大量文獻,發現起關鍵作用的是兩種行為:選修課出勤率和考試成績,最終將多元線性回歸的方法應用到獲取學生對課程的興趣度中[6]。設I(P)(課程興趣度)是與t(P)(某選修課出勤率)、o(P)(某選修課考試成績)有關的隨機變量,方程如公式(1)所示:

其中,a、b、c都是與t(P)和o(P)無關的未知參數,服從正態分布,a和b稱為回歸系數(本文稱a、b、c為學生行為影響因子),通過代入具體的行為參數值與興趣值求出。對一組樣本點用最小二乘法得到一線性回歸方程(1),但它未必有意義。當且僅當 I(P)與 t(P)、o(P)之間的確存在線性相關關系時,回歸方程才有意義,因此必須對回歸方程和回歸系數分別進行顯著性檢驗,只有得到有效性驗證后,才可將其用作課程興趣度的量化估算公式。根據收集到的用戶數據,利用最小二乘法求得 a=0.1112,b=0.0056,c=0.0794,r=0.9440,其中r為相關系數,r越接近于1說明相對誤差越接近于0,線性回歸的效果也就越顯著。為了檢驗該模型的正確性,再隨機選擇其他10個學生,處理他們的行為特征數據,利用求得的方程計算他們對某課程的興趣度,與預測的課程興趣度作比較,分析結果如圖2所示:

圖2 課程興趣度
從圖2中可以看出,計算出的課程興趣度結果與預估課程興趣度的結果非常接近,計算可得兩者的比值有60%在0.9以上,最低的也可達到69.57%,平均值達到88.11%,這說明了通過回歸模型計算得到的學生課程興趣度與預估的課程興趣度比較一致,同時驗證了采用回歸模型來計算學生對選修課程興趣度的合理性及準確性。
學生群細分是根據學生對每一門課程的興趣度將學生劃分成為同類群體的過程。細分的目的是按照學生之間的密切關系或相似程度劃分到各個學生群中。這里我們將課程興趣度作為樣本數據,采用K-means聚類[5]分析的算法將具有相同愛好的學生分到同一學生群中,實現思路是:
給定一個數據集D(包含n個學生對每一門課程的興趣度,興趣度的值由前面的興趣度模型算出),把D中的n個對象(學生)分配到k個簇(學生群)中,使得評分函數E在此劃分下取值最小,即該評分函數E是以簇內學生感興趣課程高相似性,和簇間學生感興趣課程低相似性為目標,定義為公式(2):

其中,E是數據集中所有對象(學生)的誤差的平方和;p是空間中的點(代表某個特定學生)表示給定的數據對象;Oi是第i個簇的中心點(任意選擇k個學生)。對于每個簇中的每個對象,求對象到簇中心點距離的平方,然后求和。算法流程如下:
從n個學生樣本中,任意選擇k個對象作為初始的簇的中心點k-center;
利用公式(2)計算數據集D中的每個學生 p 到 k 個中心點學生的距離;
(3)把每個學生 p分配到距離他最近的中心點所屬的簇中;
(4)重新計算選取每個簇(學生群)的中心點;
(5)重復(1)(2)(3)步驟遍歷完所有對象之后,直到算法收斂,即平方誤差最小。
根據得出的學生群分類就可以對目標學生的興趣課程進行預測,生成推薦結果。通常根據推薦目的不同,可以進行多種形式的課程推薦。基于學生行為分析的個性化課程推薦系統可以說是從學生個人的角度來進行相應推薦的,而且是自動的,即學生獲得的推薦是系統從學生行為信息隱式獲得的,不需要用戶努力地去找到自己感興趣的推薦信息。
本文采用MATLAB統計工具包對學生課程推薦的準確性進行驗證,我們隨機抽取42名學生對11門選修課程的興趣度作為實驗數據集,根據課程的關聯性將簇(代表學生群個數)分為4類,運用k-means算法構建學生群細分模型。
當聚類準確率達到最高 0.8333時,可以得出聚類結果如表1所示:

表1 聚類結果
學生群1對CAD、flash動畫制作、計算機維護課程比較感興趣,對其他課程關注一般。
學生群2對衛生學、養生學課程比較感興趣,對其他課程不太關注。
學生群3對哲學、心理學課程比較感興趣,對其他課程不太關注。
學生群4對籃球、排球、網球課程比較感興趣,對其他課程不太關注,如表2所示:

表2 簇中心學生對課程的興趣度
本文提出了一種基于線性回歸模型和聚類分析算法的興趣課程推薦方法,首次將數據挖掘技術和線性回歸模型相結合引入到興趣課程推薦中來。實驗證明,該方法可以為學生準確地提供課程推薦服務,有效提高學生學習效率,減少了學生選課的盲目性。本研究的特色:(1)為學生建立一個課程推薦機制,讓學生不用再憑主觀臆想隨便選課,本系統的建立希望可以為學生最優選課做參考;(2)將學生個人的出勤率和考試成績等行為信息作為學生最優選課推薦的依據;(3)將多元線性回歸模型和聚類分析算法相結合,將具有相同興趣愛好的學生聚集到同一群中,從而有效的區別對待不同學生,達到最優化配置學習資源的目的。
在未來研究中可加入更多的課程、興趣課程推理算法以及評價反饋策略使系統更加完善,從而提供全方位的課程推薦服務;也可以在學校教務系統中掛接此系統,為學生選課提供有效的參考。
[1]周麗娟,徐明升,張研研,張璋.基于協同過濾的課程推薦模型[J].計算機應用研究,2010,27(4):1316-1318
[2]付關友,朱征宇.個性化服務中基于行為分析的用戶興趣建模[J].計算機工程與科學, 2005, 27(12): 76-78.
[3]趙銀春,付關友,朱征宇.基于 Web瀏覽內容和行為相結合的用戶興趣挖掘[J].計算機工程,2005, 31(12): 93-108.
[4]郝興偉,蘇雪 E-learning中的個性化服務研宄[J]山東大學學報理學版2005, 40(2) :67-71
[5]MacQueenJ.Some Methods for Classification and Analysis of Multivariate Observations [C].In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,University of California Press,1967: 281-297.
[6]劉兆興,張寧,李季明.基于協同過濾和網絡結構的個性化推薦算法[J].復雜系統與復雜性科學,2011,8(2):45-50.