□孫 歆 王永固 邱飛岳
基于協同過濾技術的在線學習資源個性化推薦系統研究*
□孫 歆 王永固 邱飛岳
在線學習資源建設已經成為了當今數字化學習研究的熱點問題.本文以學習過程中學習者學習行為和在線學習資源的特點為基礎,結合協同過濾算法,設計了基于協同過濾技術的在線學習資源個性化推薦系統模型.實踐證明,該模型可以更好地為學習者創造數字化學習環境,提高學習者的自主學習效率.
協同過濾;個性化推薦;學習行為;自主學習
E-learning作為一種基于計算機通信技術的學習方式,可以最大限度地利用網絡教學資源,學習者在學習過程中不必受到時空環境的限制,隨時隨地根據自身需要進行自主學習.這種新型的學習形式目前已經廣泛的應用于各種在線課堂教學和技能培訓領域.雖然E-learning教學資源建設已經取得了階段性成果,但是主要有以下幾個問題:(1)資源數量爆炸性增長.如今在線學習資源數量繁多,資源的質量和水平參差不齊,學習者往往無法辨別資源的優劣,導致學習資源的利用水平并不理想.(2)資源種類多樣化.在線學習資源除了傳統的文本類型以外,還有聲音、圖像、視頻等多種媒體類型,媒體類型的不一致也給資源的搜索和歸類帶來了不便. (3)資源非線性呈現.與傳統教學中的書本不同,在線學習資源一般以超文本鏈接聯系各個知識點,學習者以非線性的方式進行學習,知識點的"跳躍性"也容易讓學習者在學習時產生迷茫感.以上問題使得目前很多的E-learning系統無法根據不同學習群體的不同學習特征來提供個性化的學習支持服務.隨著人們對在線學習資源認識的不斷深入,具有智能分析技術的在線學習資源系統將是未來資源建設發展的趨勢之一.由于學習者群體的特殊性,每位學習者都有其潛在的學習興趣,協同過濾技術可以幫助學習者快速地發現有價值的資源,自主選擇學習內容,根據自身的興趣度來完善知識體系.因此,本文將協同過濾技術手段和在線學習資源的特征相結合,從學習者自主學習的角度來構建滿足學習者個性化需要的在線學習資源系統.
個性化推薦是對用戶的興趣、愛好、行為進行分析和建模,根據分析得出的結果給用戶提供"個性化"、"定制化"的服務,以解決目前互聯網中信息過載這一問題.目前,個性化推薦技術可以分為內容過濾推薦、規則過濾推薦和協同過濾推薦.
基于內容的推薦是較早提出的一種推薦技術,該算法的原理是利用概率或者機器學習技術將用戶的已有興趣表示為模型,然后與資源進行比較,通過兩者之間的相似程度來為用戶進行推薦.
基于規則的推薦是將推薦規則事先進行保存,然后通過這些規則對用戶進行推薦.規則過濾推薦系統中規則的質量和數量決定了推薦的效果,從本質上說規則就是"if-else"類型的語句,這些語句分別描述了不同情境下以何種方式進行推薦.
協同過濾技術最早于1992年出現在Tapestry系統中,當時主要用于解決電子郵件系統的篩選問題.隨著協同過濾技術的發展,協同過濾技術在商業領域取得了較大成功.國外最具代表性的協同過濾系統有Amazon和Facebook的廣告系統,Amazon是根據用戶購買和查看圖書的記錄來為其推薦可能感興趣的書籍,Facebook則是依托其龐大的用戶群,根據朋友間的興趣來進行廣告營銷.與國外相比,國內的協同過濾系統研究起步較晚,目前國內比較成熟的協同過濾系統主要有當當網和豆瓣猜.當當網和A-mazon的功能類似,同樣是用于圖書商品的推薦,豆瓣猜是通過分析用戶讀書記錄來預測用戶可能喜愛的書籍.協同過濾技術為網站增加了收入來源,增強了用戶體驗度,受到了用戶的好評.
以上三種個性化推薦技術的優缺點如表1所示.

表1 個性化推薦技術分類及其優缺點
協同過濾技術從算法上分類可以分為基于用戶的(User-based)協同過濾算法和基于項目的(Item-based)協同過濾算法.基于用戶的協同過濾算法認為相似用戶評價的項目之間存在相似性,可以以此來預測某個用戶對該項目可能的評價;基于項目的協同過濾算法則采用計算項目之間相似度的方法來預測用戶對其他項目的評價.
圍繞協同過濾技術算法,國內外研究人員從個性化推薦的角度進行了一系列的研究工作.關于User-based算法,2009年Xia提出了一個改進的User-based協同過濾算法[1],在算法中引入用戶加權值,來提高算法的準確度;2010年,Robert和Istvan將分布式技術與User-based協同過濾算法相結合,提出了一個完全的分布式推薦系統[2];Zhao和Shang提出了一個云平臺的用戶協同過濾算法,提高了協同過濾算法的可擴展性能[3];Mu和Chen在User-based協同過濾算法基礎上引入了猶豫度概念(Hesitation Degree)來提高協同過濾算法的準確性[4].關于Item-based算法,2009年,Luo和Tian采用slope-one方案來應對協同過濾中的評級矩陣稀疏性問題[5];2011年,Lei和Junzhong將用戶從眾的心理和一般用戶評價心理區分開來,采用均衡的基于項目的預測方法來對項目進行評價預測[6]; Gao和Wu以Userrank排名的數據模型為基礎計算項目之間的差異性,提高算法的推薦質量[7].以上研究工作的重點是從協同過濾的算法效率和擴展性的角度來提高個性化推薦的精度,而對于學習者進行在線學習時產生的學習行為特殊性并沒有給予太多的關注.鑒于以上問題,本文的研究重點是設計出一個基于協同過濾技術的在線學習資源模型,該模型能夠利用協同過濾技術的突出優點,分析學習者的學習行為特征,為學習者推薦出可能感興趣的學習資源,提高在線資源的利用率,促進學習者完成知識的加工和建構.
通過對國內外研究成果進行分析,本文將學習者在線學習過程中的學習行為與在線學習資源特點作為設計基于協同過濾技術的數字化學習資源模型的依據,在強調學習者自主學習的基礎上結合協同過濾技術算法,形成一套基于協同過濾技術的在線學習資源個性化推薦系統模型,如圖1所示.該模型中最重要的部分有3個:學習者行為日志和學習資源庫、數字化模型以及協同過濾引擎.

由于學習者在線學習的過程中不僅僅是對學習資源庫中資源的簡單提取,同時會產生收藏、下載、瀏覽和評價等學習行為.這些學習行為顯性或隱性地表現了其學習興趣,所以在該模型中,我們將學習者的學習行為收集并記錄下來,挖掘學習者的學習行為軌跡,建立學習者的行為模型.
學習資源是個性化推薦系統的基礎.作為學習者學習資料的來源,學習資源庫提供了文本、音頻和視頻等資源供學習者學習.由于資源庫中資源數量龐大,推薦系統對于每個資源都加入了社會化標簽,標簽的引入有助于對資源內容進行分類,實現資源的統一管理和高度共享.
協同過濾引擎是個性化推薦系統的核心.該引擎將學習資源庫中帶有社會化標簽的"孤立"資源關聯起來,并且將學習者行為模型數字化為學習權重值,選擇合適的推薦策略,產生候選推薦資源集,以多種媒體呈現的方式為學習者推薦其可能感興趣的學習資源.協同過濾引擎能夠有效地解決目前學習資源建設水平低,不利于學習者搜索等問題,保證了個性化推薦的質量.
協同過濾算法基于以下假設:(1)用戶之間的興趣是具有相似性的.(2)由于用戶對資源的操作評價包含了他們的興趣偏好,所以我們以此來作為對其他用戶預測項目的依據來源.傳統的協同過濾算法主要分為三個步驟:獲取用戶-項目信息、計算查找相似用戶集、產生推薦結果.協同過濾技術主要依賴于用戶對項目的操作和評價,可以篩選出從內容和類型上難以區分的項目,用戶之間可以共享資源和經驗,而且其自動化和個性化的程度相比傳統推薦方式要高出很多.但是從以上步驟我們可以看出,傳統的協同過濾算法推薦結果依賴于用戶對項目的評分,當用戶對項目的評分過少時,推薦結果就會出現誤差,這也就是我們常說的矩陣稀疏性問題.
本文將協同過濾算法引入到數字化學習領域,針對矩陣的稀疏性問題提出了一種改進的協同過濾算法.解決矩陣稀疏性問題的傳統方法主要是通過給矩陣添加默認值,這種方法雖然能從一定程度上緩解矩陣的稀疏性問題,但是不能有效地對用戶的興趣傾向給出正確的分析.基于以上問題,本文給出的推薦算法的思路是在矩陣初始化時,如果用戶對項目的評價較少,則挖掘用戶對資源的其他行為(如:瀏覽、收藏、下載等),將用戶的行為操作作為權重值加入到用戶相似性計算中,該算法與傳統的協同過濾算法相比,能夠有效地解決矩陣的稀疏性問題,推薦精度也有了大幅提高.
基于協同過濾技術的在線學習資源個性化推薦算法流程如圖2所示,在推薦過程中當學習者-資源矩陣過于稀疏時,該算法會對用戶行為進行挖掘,填補矩陣稀疏的缺陷,以此提高推薦的精度.

首先將M個學習者對N個教學資源的評價轉化為分值(主要是學習者對學習資源的顯式評分),然后形成如表1所示的MN矩陣.其中第i行j列的Ei,j代表了第i個學習者對第j個教學資源的評分.

表2 學習者-學習資源評價矩陣
首先我們給矩陣稀疏性設定一個最小限定值Φ,然后計算矩陣的實際稀疏情況.

表3 學習者隱式行為分值
在協同過濾算法中,計算查找相似的鄰居集是最為關鍵的一步,首先從表3取出中m個學習者對n個教學資源的評分,然后通過相似度計算方法計算出學習者之間的相似度.其中相似度計算方法主要有兩種:余弦相似性算法和修正的余弦相似性算法.
(1)余弦相似性算法是最為典型的相似性計算方法,過程是將用戶對項目的評分看做是n維的向量,然后通過計算其余弦的夾角來得出用戶之間的相似度,其具體算法如公式(1)所示.

(2)修正的余弦相似性算法將余弦相似性算法做出了修改,為了減少用戶主觀性引入用戶對項目平均評分的概念.在計算時將項目的評分減去該用戶對所有項目的平均評分.其具體算法如公式(2)所示.

本文將步驟2中的用戶行為權重值Θ加入到相似性算法中,形成了一種改進的相似性計算方法,為加入權重值的學習者-資源評價數值,改進的相似性算法如公式(3)所示.

相似度計算完成后將會得到與用戶相似度最為接近n個用戶的鄰居集Z={User_1,User_2,User_3,…User_n;}
一般根據上步得出的鄰居集中用戶對項目Itemn,s的評分,就可以預測出目標用戶對該項目的評價,并且產生最終的推薦結果.因為學習者學習和評價的風格有所不同,所以本文采用如下推薦方式.

在公式(4)中Pj,k為推薦系統預測的學習者j對資源k的評分,為學習者j所有已經評分分值的平均值,Z為上一步得出的最近鄰居集,最后取出相似度最高的N個資源,得出推薦結果,推送給學習者.
本文在上述研究成果的基礎上,結合在線學習資源和協同過濾技術的特點,設計開發了基于協同過濾技術的在線學習資源個性化推薦系統(如圖3所示),并作為推薦模塊應用于網絡培訓教學中.與傳統的在線培訓系統相比,在線學習資源個性化推薦系統能有效收集網絡教學中學習者的反饋信息,為其他學習者提供需求相似的資源列表,與學習者進行交互,節省在線學習者獲取信息和知識的成本.接下來,我們以該推薦系統中實際的用戶數據為例,闡述系統是如何為用戶推薦個性化資源的.

圖3 基于協同過濾技術的在線學習資源個性化推薦系統
首先,個性化推薦系統中的行為收集模塊從用戶日志文件中收集用戶行為,建立用戶行為模型(如表4所示),并將其數據化.

表4 用戶行為矩陣模型
然后,推薦系統中的用戶顯示評價模塊收集用戶主觀評價數據(分值代表用戶對資源的喜好程度,分值越大代表用戶對該資源的興趣度越高,如表5所示).

表5 用戶主觀評價模型
最后,以用戶的行為數據和評價數據為依據,計算資源相似度,產生用戶最近鄰居集,預測出用戶n在使用資源n時可能感興趣的資源列表(如表6所示).該資源列表由推薦系統自動分析生成,以此來提高學習者的學習效率.

表6 目標用戶n使用資源n時最近相似資源列表
本文首先分析了傳統協同過濾技術普遍存在的問題,進而提出了一種改進的協同過濾算法,該算法引入了用戶行為權重值概念,緩解了協同過濾算法普遍存在的冷啟動問題.其次將協同過濾技術與在線學習資源相結合,設計了在線學習資源個性化推薦系統,實現了學習者自主學習,自主評價,資源共享等功能,提升學習者的學習效果.雖然在線學習資源內容不會發生變化,但是隨著用戶學習的不斷深入,學習興趣和方向可能不斷變化,如何根據用戶興趣的變化進行實時地推薦,需要進行深入的研究.
[1]Xia Jianxun.An Improved Similarity Algorithm Based on Hesitation Degree for User-Based Collaborative Filtering[A].Conference on CommunicationFaculty[C].Nanning,PEOPLESRCHINA: Proceedingsof2009ConferenceOnCommunicationFaculty, 2009,104-108.
[2]Ormandi,Robert;Hegedus,Istvan.OverlayManagementforFully Distributed User-Based Collaborative Filtering[A].16th International Euro-Par Conference on Parallel Processing[C].Ischia,ITALY: EURO-PAR 2010 PARALLEL PROCESSING PT I,2010,446-457.
[3]Zhao Zhi-Dan;Shang Ming-Sheng.User-based Collaborative-FilteringRecommendationAlgorithmsonHadoop[A].3rd International Conference on Knowledge Discovery and Data Mining [C].Phuket,THAILAND:ThirdInternationalConferenceOn Knowledge Discovery And Data Mining Proceedings,2010,478-481.
[4]Mu,XW;Chen,Y.An Improved Similarity Algorithm Based on Hesitation Degree for User-Based Collaborative Filtering[A].5th InternationalSymposiumonIntelligenceComputationand Applications[C].Wuhan,PEOPLES RCHINA:AdvancesIn Computation And Intelligence,2010,261-271.
[5]Luo,Q;Tian,X.A Personalized Recommendation Algorithm Combining Slope One Scheme and User Based Collaborative Filtering[A] International Conference on Industrial and Information Systems[C] Hankou,China:2009 International Conference On Industrial And Information System,Proceeding,2009,152-154.
[6]Lei Ren;Junzhong Gu.An Item-based Collaborative Filtering ApproachbasedonBalancedRatingPrediction[A]2011 International Conference on Multimedia Technology[C].Hangzhou, China:2011 International Conference on Multimedia Technology, 2011.
[7]Gao,M;Wu,ZF.Userrank for item-based collaborative filtering recommendation[J].Information Processing Letters,2011,(9):440-446.
王永固,副教授,博士,浙江工業大學教科學院副院長(310014).
邱飛岳,教授,博士,浙江工業大學教科學院院長,現代教育技術研究所所長(310014).
責任編輯 平果
G40-057
A
1009-458x(2012)08-0078-05
本文接受浙江省重大科技專項"浙江中小企業信息化服務平臺關鍵技術研究及應用" (2009C11026)、國家社會科學基金"網絡環境下個體行為與群體行為研究"(10BGL095)、教育部人文社會科學研究項目"虛擬社區中基于社會網絡的知識共享機理及實證研究"(09YJC630207)的支持.
2012-04-15
孫歆,碩士生,浙江工業大學教科學院(310014).