聶黎生
(江蘇師范大學 計算機科學與技術學院,江蘇 徐州 221116)
隨著網絡技術的飛速發展,良好的交互技術和豐富的在線資源使學習變得更加便捷、自由、開放,徹底改變了傳統的學習方式,實現了教育領域的顛覆性創新。不同的學習者知識結構、知識能力、學習能力和興趣偏好千差萬別。通過挖掘學習者的學習偏好,在線學習系統可以準確推薦符合學習者學習需求的個性化學習資源,從而為其提供及時的資源推薦服務[1-2]。為了提高學習資源個性化推薦精度,眾多學者進行了深入研究。文獻[3]分析在線學習的行為特征,挖掘學習者的性格特征與學習效率的關系,實現個性化學習方法推薦。文獻[4-5]認為用戶之間的相似關系對于發現利益重疊的群體至關重要,可以產生多重相似關系和利益集群的形成。基于此開發了一種層次興趣重疊檢測方法,并提出了個性化推薦模式。文獻[6-7]通過利用知識圖譜構建知識點體系,提出了知識表示-協同過濾相結合的方式推薦有效資源,解決在線學習導航問題。文獻[8]采用聚類算法將具有相同興趣的用戶聚集到同一個集群中為用戶推薦可能喜歡的項目,從而提高推薦效率和精度。文獻[9]基于本體和順序模式挖掘的混合知識對電子資源進行有效推薦。文獻[10]則將地理位置近鄰的用戶具有更為相似的訪問服務作為預測依據。文中基于學習者的學習行為和興趣偏好,采用改進的協同過濾個性化推薦算法,從學習者自主學習的角度實現學習資源個性化推薦,有效緩解傳統協同過濾推薦算法存在的冷啟動和矩陣稀疏性等問題。
數字化時代在線學習產生的行為數據凸顯重要,通過挖掘其背后隱含的重要信息,能夠得到更加豐富的內容甚至超出人們的期望。文中基于“學習者-資源”二元網絡,依據學習者在線學習生成的學習行為,以協同過濾技術算法為核心,構建學習資源個性化推薦系統模型,如圖1所示。該模型的關鍵是通過個性化主動推薦服務,實現推送符合學習者本身知識水平和學習偏好的學習資源,達到與原有知識主動、快速的銜接,提高學習者的學習效率。

圖1 個性化資源推薦系統模型
學習行為是個性化推薦系統的依據。學習者在線學習過程中會產生大量的學習行為直接或間接地反映了學習者的學習偏好。通過收集和記錄學習者的學習行為,進一步挖掘學習過程中產生的瀏覽、收藏、分享、評論等學習行為數據進行量化分析處理,并建立學習者行為模型,清楚地了解學習者的學習偏好。
學習資源是個性化推薦系統的基礎。學習資源庫支持文本、音頻和視頻等多種媒體類型,為學習者提供全面、完善且有助于提高認知水平的學習資源。為了方便對學習資源內容進行分類,實現資源的統一管理和高度共享,學習資源庫將所有資源都加入了知識點屬性標簽。
協同過濾是個性化推薦系統的核心。文中通過挖掘和分析學習者的歷史學習行為,準確預測學習者潛在的學習偏好,進而向其推送適合的學習資源,實現個性化推薦服務,優化學習者的學習體驗。傳統的協同過濾推薦算法存在冷啟動和矩陣稀疏性等問題,其過分依賴學習者對資源的評分導致推薦結果精度受到影響。文中將學習行為融入到協同過濾算法并對其做出改進,在矩陣初始化時,如果學習者對某學習資源評價較少,則挖掘學習者對資源的其他行為并且將學習者行為模型數字化為學習權重加入到相似性計算中,有效地緩解矩陣的稀疏性問題,使推薦精度大幅提高。
學習者模型構建過程其實質就是學習者-學習資源評分矩陣的形成過程,在推薦過程中若計算出的矩陣過于稀疏,該算法通過挖掘學習者隱式學習行為并融入到推薦系統,避免矩陣稀疏對推薦結果造成的不利影響。通過充分利用與其相似學習者信息進行學習者聚類分析,基于相似學習者的學習偏好預測目標學習者的學習需求,實現學習資源個性化推薦,提高學習效率。
系統采用知識結構對學習資源建立知識體系。首先將學習者對學習資源的評價轉化為n*m階矩陣:
(1)
該矩陣由n個學習者參與對m個學習資源的評分構成,式中Rij(i∈[1,n],j∈[1,m])代表了學習者i對學習資源j的評分。
一方面由于學習者之間選擇的差異性,導致學習者的評分差別非常大;另一方面學習資源和學習者數量的增長,必然存在有些學習資源沒有經過學習者的評價,同時由于系統無法獲取新進入學習者的學習偏好,從而導致新增的學習者和學習資源無法獲得推薦。為了緩解上述數據稀疏性和冷啟動帶來的問題,可以為矩陣稀疏性設置一個臨界閾值x,并通過式(2)初步判別矩陣是否稀疏:
(2)
其中,NumEval為學習者對學習資源的評價數量,NumLearner、NumRes分別為學習者和學習資源數量。當Sparsity S(Learner)=1*B+2*F+3*S+5*C (3) 其中,對不同行為賦予的分數為1,2,3,5,但這個值應該不斷調整。當學習者數量少的時候,各項事件都小,此時需要提高每個事件的行為分值來提升學習者行為的影響力[11];當學習者規模變大時,行為分值也應該逐漸降低。考慮到學習者數量的動態變化,采用自適應調整行為權重得分φ: (4) 其中,S(Learner)i表示第i個學習者行為得分,n表示學習者總數。這樣就保證了在學習者規模的動態變化情況下仍能產生基本穩定的行為得分,然后將格式化學習者權重值φ,添加到評價矩陣中。 在協同過濾算法中,最近鄰居表示是最為關鍵的一步,決定著學習資源個性化推薦的精度。依據學習者之間相似度的計算值,發現相似度較高的目標學習者并且根據其學習行為信息,預測與學習者興趣偏好相匹配的學習資源并推薦[12]。根據式1,取出n個學習者對m個學習資源的評分,計算學習者之間的相似度。由于不同評價算法之間存在差異性,為了降低學習者主觀性評分對研究結果的不利影響,通過對余弦相似度算法進行修正,在相似度計算時將每個資源的評分減去該學習者對所有資源的平均評分[13]。該算法將學習者對資源的評分看作是m維的向量,假設i和j分別代表兩個不同的學習者,采用修正后余弦相似度算法計算兩者間的相似度Sim(i,j)。具體計算方法為: (5) 文中對式(5)相似性計算方法進行了改進,將計算的學習行為權重φ融入到相似性計算中。改進后的計算方法為: Sim(i,j)= (6) 相似度計算完成后,按照目標學習者a和其他學習者的相似度,選擇相似度最為接近的n個學習者構成待推薦近鄰集Z={Ld,d∈[1,n]}。余弦值越接近1,表明兩個向量越相似;反之越接近0,表明兩個向量越不相似。 根據式(6),基于生成的目標學習者a的近鄰集,在包含學習者a的全部學習者評分集合中除去目標學習者的所有已評分學習資源,可得目標學習者的待預測評分資源Sa。計算目標學習者a對每一學習資源t∈Sa的預測評分,降序排序選取評分最高的前N項作為Top-N推薦給目標學習者。由于不同學習者評價存在差異性,推薦結果采用以下方式: (7) 為驗證文中個性化推薦方法的有效性,實驗數據集來源于“LiveCourse在線課程平臺”,利用MySQL數據庫存儲領域專家對課程學習資源標注了90個知識點以及知識點之間的關聯關系和相應的學習資源。數據集由65名學習者在4個月內對900個學習資源,包含138個視頻、287個幻燈片、475個文本資源的21 738條學習行為數據構成。實驗主要提取瀏覽(B)、收藏(F)、分享(S)、評論(C)這四種學習行為數據,按照1∶4分成訓練集和測試集兩部分。 依據學習者在訓練集中的學習行為,通過文中算法與基于矩陣分解的協同過濾算法(probabilistic matrix factorization,PMF)、基于卷積神經網絡的推薦算法(convolutional neural networks,CNN)分別向學習者推薦學習資源,評估算法的性能。精確率和召回率通常用來反映推薦算法性能,精確率反映推薦的精度,召回率衡量推薦系統的查全率。但也有可能出現推薦系統具有較高的精確率而召回率卻很低的矛盾狀況,因此單一的指標不能較為全面地評價推薦算法的好壞[14]。為了平衡二者之間的影響,通過引入了綜合評價指標F-Measure和MAE評價各算法性能。F-measure值越高表明實驗結果越好,其計算公式如下: (8) 平均絕對誤差(MAE)用于計算預測評分和實際評分之間的差異,是評判推薦系統結果精準與否的重要指標。推薦算法中,設置預測推薦結果為二元值1或0,分別代表推薦資源和學習者習知識點是否一致。其計算公式如下: (9) 其中,N表示推薦的學習資源數量,Pu,i表示學習者已學習的資源,此處Pu,i的值為1,ru,i表示推薦結果是否準確的指標值,如果推薦結果和學習者學習的知識點一致,則ru,i的值為1,否則ru,i的值為0。因此,MAE值越小表示算法推薦精度越高,反之則表示推薦精度越低。 實驗分別選取推薦資源數量12,24,36,48,60驗證不同算法的性能,通過圖2可以看出文中算法F-measure值高于其他兩種算法,具有明顯的優勢,表明推薦結果較好;在推薦資源數量M為36左右時,可以得到較高的推薦精度,學習資源個性化推薦結果更加符合學生的實際需求。M值的選取對于推薦系統精度比較重要,但是推薦結果的精度對M值也不是非常敏感,二者之間不成線性關系,只要選擇合適的范圍就可以獲得較高的推薦精度。 圖2 不同算法F-Measure值對比 圖3顯示了近鄰集數量分別為10,20,30,40,50,推薦學習資源數量為36的情況下不同算法的MAE值,測試結果表明文中算法的MAE值在不同近鄰集數量下都明顯低于其他算法,說明文中算法推薦質量最高,推薦結果符合目標學習者的學習偏好。隨著近鄰集數量的增加、數據的稀疏性降低,算法收斂的速度加快[15],MAE值逐漸降低最后趨于穩定。實驗結果中Top-N的N值為選取的學習者相似度較大的N個學習者作為近鄰集,非最終推薦列表的Top-N。 圖3 不同算法MAE值對比 針對如何提高學習資源個性化推薦的精度與效率問題,通過構建學習者-學習資源的評分矩陣,綜合考慮學習者的學習行為,采用改進的相似度算法實現學習資源的個性化推薦。實驗結果表明該方法優化了學習資源個性化推薦過程,推薦結果精度更高,效果更好。未來將挖掘更多能反映學習偏好的行為數據,以改進和完善推薦模型,促進學習系統提供更加精準的個性化服務,并將其推廣應用到其他資源推薦領域。2.3 學習者近鄰集生成


2.4 生成推薦結果

3 評價指標及結果分析
3.1 實驗數據
3.2 評價指標


3.3 結果分析


4 結束語