趙旭 呂鶴軒


摘? 要:隨著我國教育信息化、數字化概念的提出,教育信息化資源以極快的速度大量涌現,導致信息呈現爆炸式增長,用戶在面臨海量信息時,需要花費大量的時間和精力去篩選所需的資源。本文針對此現狀提出基于個性化推薦技術實現微課程視頻的篩選方案。通過本系統可以為用戶提供有針對性的、符合用戶興趣的相關資源,從而使用戶獲取信息的方式發生翻轉,從以往的主動獲取變為被動的接收,并保證用戶接收的資源對其而言價值最高。
關鍵詞:推薦系統;協同過濾算法;用戶興趣模型;資源評價機制
中圖分類號:TP391? ? ?文獻標識碼:A
Application of Personalized Recommendation Technology in Micro-Course System
ZHAO Xu,LV Hexuan
(Dalian Neusoft University of Information,Dalian 116023,China)
Abstract:With the development of educational informatization and digitization in China,the reform of education informatization has made positive progress,but it has also led to explosive growth of information.Users need to spend a lot of time and energy to screen out the resources they need in the massive information.In view of this situation,this paper proposes a corresponding solution to realize video filtering of micro-course based on personalized recommendation technology.Through this system,users can be provided with targeted and relevant resources in line with their interest,so as to change the way users obtain information from the previous active acquisition to passive reception,and ensure that the resources received by users are of the highest value for them.
Keywords:recommendation system;cooperative filtering algorithm;user interest model;resource evaluation mechanism
1? ?引言(Introduction)
互聯網的發展帶動了教育的信息化發展,但是我們一方面享受這海量資源帶來的便利,另一方面也承受著信息爆炸帶來的搜索迷霧問題。那么如何在眾多資源中快速、準確地找到自身所需的信息,進而發揮出網絡資源的效用,從而最終服務于用戶、便利人們的生活是當下互聯網領域的重點關注與研究課題,由此越來越多的個性化推薦技術,以及推薦系統應運而生。
本文針對教育領域的微課系統[1],利用個性化推薦技術可以實現為學生、教師提供有針對性的、符合用戶興趣的相關資源,使用戶獲取信息的方式發生變革,從以往的主動獲取變為被動的接收,并且接收的信息對其最為有用。本文研究的核心主要包括三方面內容[2]:創建用戶興趣模型:挖掘、表示以及更新用戶興趣項;創建視頻資源評價體系;結合個性化推薦算法將用戶興趣與資源特征進行合理匹配,從而完成推薦。
2? ?用戶興趣模型(User interest model)
用戶興趣模型[3]是整個系統的數據基礎,為后續的推薦功能提供依據和支撐,因此在收集用戶數據時,要盡量保證能夠較為全方位、無差錯的數據收集,良好的用戶興趣收集機制將直接影響到系統的推薦質量,進而直接決定用戶在使用系統時的直觀感受。
2.1? ?用戶興趣收集
在本文的研究中,主要通過顯式收集和隱式收集兩種方式來收集用戶數據[4]。
(1)顯式收集
顯式收集方式主要包括收集用戶自然屬性數據以及用戶評價反饋數據。其中,用戶自然屬性數據包括用戶所屬年級、課程等,這部分數據的主要功能是用戶首次使用本系統時,在系統中無任何用戶的個人信息記錄,系統可以根據用戶自然屬性作為用戶初始興趣加入用戶興趣模型中,從而一定程度上避免“冷啟動”[5]問題;用戶評價反饋數據是用戶在使用系統時,主動向系統提交他們對資源的評價。
(2)隱式收集
隱式收集的行為主體為系統本身,系統通過技術手段記錄用戶的操作記錄,從本系統自身特點出發,本文中采集用戶的搜索、瀏覽、下載、觀看等行為記錄作為隱式收集的主要收集數據。采用這種方式的好處是收集過程中,不要用戶刻意配合參與,所有的收集行為均發生在服務器端,不會給用戶帶來任何的使用負擔。
通過上述分析,需要尋找一種表達機制,不但能夠準確的記錄、表達用戶行為,同時還要方便系統對行為數據進行分析、計算及統計,通過調研,本文采用日志文件的方式記錄表達用戶行為。
2.2? ?用戶興趣表示
針對系統記錄的日志文件,我們需要過濾掉噪音信息:即本系統不關注的、對生成用戶興趣沒有任何作用的信息,同時盡最大可能提取出對采集用戶興趣發揮作用的數據,最終生成用戶的興趣數據。關于采集的用戶興趣數據,我們更多關注的是用戶對哪一類數據感興趣以及對該類數據的興趣程度,結合該特點,本文中采用向量空間模型(VSM)[6]表示法建立和表達用戶興趣。并將用戶興趣模型方法的表示可以表示為以下形式:{(tag1,w1),(tag2,w2),…,(tagi,wi),…,
(tagn,wn)}。其中,tagi(i∈{1,2,3,…,n})是系統根據收集到的用戶行為記錄進行清洗、過濾后得到的用戶興趣項,wi(i∈{1,2,3,…,n})則代表用戶對tagi的感興趣程度。
同時,需要特殊強調的是冷啟動的問題,本文針對第一次使用系統的用戶,會將注冊用戶的自然屬性作為其默認的初始興趣項,并為其賦予初始興趣權重值,進而解決了系統冷啟動時用戶興趣模型數據為空的問題。
模型中的興趣項權重的計算,本文采用TF-IDF方法[7]進行計算。TF-IDF的原始計算公式如下:
(1)
其中,wij表示特征項ti在文本Dj中的權重,tfij為特征項ti在當前文檔中出現的頻次,N為是訓練項目集合中包含的文檔數目,ni是訓練項目集合中包含特征項ti的文檔總數。
通過對公式進行分析,我們可以發現用戶興趣的權重值的取值區間為[0,1],權重值的大小與用戶對該興趣項的關注程度高低成正比關系,因此更加證實該方法對于本文切實可行。
2.3? ?用戶興趣更新
心理學的相關研究發現[8],人類大腦中對于某段記憶的深刻程度與該段記憶生成的時間、該段記憶被調取的頻率都有著不可分割的關系,間隔時間越長、記憶被調取的頻率越低,該段記憶越容易被遺忘,與此同時,新的記憶也不斷地生成并存儲與我們的大腦之中,因此,在創建用戶興趣模型時,也要考慮人類的這種記憶的逐漸遺忘、不斷生成的特點,對用戶的興趣模型數據進行更新。
在本文中,我們側重的是對于調用記憶的間隔時間這一記憶影響因素對興趣項權重值的影響,利用的是用戶對該興趣項的最后一次訪問時間與當前時間的時間間隔這一數據,將用戶原有興趣項的權重值按如下公式進行衰減處理:
(2)
其中,oldWeight、newWeight分別是記憶衰退前、后的興趣項權重值,Dvalue是針對該興趣的訪問時間差,Date為時間調節因子。通過公式可以發現,當訪問時間差Dvalue逐漸接近Date時,用戶對該興趣項的權重值逐漸降低。
3? 微課資源評價機制(Evaluation mechanism for micro-course resources)
本文的目標是系統不但能夠為用戶生成較為準確的推薦,并且推薦的微課質量為同類型中質量較高、普遍好評的資源,因此本文需要有一套合理的機制能夠對微課質量的高低進行評價,而質量的高低最有發言權的則是系統的使用用戶,因此本文根據用戶的反饋來對資源質量做出評價,用戶的反饋行為仍然可以分為顯式反饋和隱式反饋兩種形式,分別對應著用戶評分的兩種形式。
用戶顯式評分:用戶主動、直接對視頻資源進行的打分行為對應的評分值。本文選用5分制評分機制,定義為r1。
用戶隱式評分:隱式評分仍然不需要用戶的主觀參與,一方面這種收集方式對用戶的使用不產生任何負面影響,另一方面這種采集方式采集到的數據相對客觀,系統會自動地對用戶的觀看視頻時長進行記錄,最終通過用戶觀看視頻時長與視頻總時長的比值p來反映其對視頻的滿意程度,計算公式為:
(3)
其中,t為觀眾觀看微課視頻的實際時長,Ttotal代表所看微課視頻的總時長。隱式評分同樣采用五分制的評分制度,則將觀眾對某視頻的隱式評分r2定義為:
(4)
綜上,在獲取到顯式評分和隱式評分后,我們采用兩種評分的平均值作為視頻的最終總體評分,計算公式如下:
(5)
4 基于用戶的協同過濾算法(User-based collaborative filtering algorithm)
4.1? ?算法思想
基于用戶的協同過濾算法(User-CF)[9]就是以相似用戶為切入點作為推薦依據,將相似用戶感興趣的資源推薦給目標用戶。因此,根據算法的思想,其實現主要分為尋找相似用戶、用戶興趣度計算、生成推薦三個核心步驟。
4.2? ?用戶相似度計算
如何與目標用戶需求接近的用戶是本算法需要解決的第一個問題。本文中,因為用戶興趣模型我們采用了向量的表示方式,因此可以計算向量間的夾角余弦值[10],計算公式分別如下:
(6)
其中,a、b分別為用戶u1和用戶u2的評分向量,r1i和r2i分別表示用戶u1和用戶u2對視頻i的評分值。本文研究的研究是利用向量空間模型為計算依據,同時結合基于用戶的協同過濾算法,利用上文提到的余弦相似度的計算方法對用戶間的相似度進行計算,針對用戶u和用戶v,計算二者的相似度,那么相似公式表達為:
(7)
其中,tag(u)和tag(v)表示用戶u和用戶v的興趣集合。通過該方法,系統可以得到與目標用戶相似度最大的前k個用戶集合,設為S(u,K)={u1,u2,…,uk}。
4.3? ?用戶興趣度計算
目標用戶最近鄰居集合S(u,K),然后利用集合中每個用戶與目標用戶的相似度,預測目標用戶對沒有過有效行為視頻的興趣大小,預測公式如下:
(8)
其中,S(u,K)表示和用戶u的K個最近鄰居集合,U(j)表示對tagj有興趣的用戶集合,用戶v是在用戶u的最近鄰居中對tagj感興趣的用戶。simuv是用戶u和用戶v的興趣相似度,bvj表示用戶v對tagj的興趣權重。
最終選取用戶興趣集合中興趣值最大的M個興趣,我們將其定義為Im={I1,I2,…,Im}。
4.4? ?生成推薦
通過上文中得到的用戶興趣項結合,進而可以在系統中查找到與興趣項想匹配的相關微課集合作為待推薦資源,不過在待推薦結果最終呈現給用戶之前,根據用戶的常規使用習慣,我們將用戶最有可能關注的視頻資源放置在排位靠前的位置進行顯示,因此需要對帶推薦微課資源的排序進行設計,我們主要考慮兩方面因素:用戶興趣值和視頻評價,微課資源排序權重計算公式如下:
wv=p(u,j)×α+R×β,其中α+β=1? ? ? ? (9)
式(9)中,p(u,j)是表示用戶對該類微課的關注程度,R是該微課的評分值,α和β則分別表示用戶關注程度以及視頻評價對排序的影響因子。通過計算待推薦微課的wv數值,對所有帶推薦微課資源按照wv的值進行降序排序形成最終推薦微課資源,因此最終呈現給用戶的將是用戶感興趣且評價較高的視頻資源。
5? ?實驗結果(Experiment results)
5.1? ?實驗數據收集
實驗時,邀請100位人員進行模擬真實用戶測試,實驗通過收集測試人員的操作行為數據形成log日志,截取2M的用戶行為操作數據對其進行分析提取,并分別收集用戶對系統推薦的前三個視頻、前五個視頻以及前十個視頻的滿意程度,并形成調查問卷,進而得出實驗結果數據。
5.2? ?實驗結果
通過對調查問卷進行統計,得出測試用戶對推薦視頻資源的滿意度統計數據如表1所示。
通過上述實驗結果數據,發現推薦結果能夠滿足大部分用戶的期望和使用需要。在前十個微課視頻推薦中,因為互聯網用戶的使用習慣,大部分用戶在使用時,主要停留在前五條數據中,而不會花費過多精力逐個瀏覽全部結果,導致不予評論人數增多,進而拉低了用戶的滿意程度。
6? ?結論(Conclusion)
本文將推薦技術應用到教育領域的微課系統中,通過采集用戶興趣、生成資源評分,最終將基于用戶的推薦算法作橋梁將用戶興趣與微課視頻資源鏈接起來,將用戶主動搜索變為被動接收信息,進而完成了個性化的推薦過程。
參考文獻(References)
[1] Yiu-Kai Ng,Jane Linn.CrsRecs:A Personalized Course Recommendation System for College Students[A].Proceedings of 2017 8th International Conference Information,Intelligence,System&Applications[C].Larnaca:IEEE,2017:1-6.
[2] 冷亞軍,黎忠雪.個性化推薦及其相關技術分析[J].內蒙古科技與經濟,2019(5):58-60.
[3] Gong Yuyun,Zhang Qi.Hashtag Recommendation Using Attention-BasedConvolutional Neural Network[A].Proceeding of the 25th International Joint Conference on Artificial Intelligence[C].Palo Alto:AAAI Press,2016:2782-2788.
[4] 項亮.推薦系統實踐[M].北京:人民郵電出版社,2012.
[5] Rashid A M,Albert I,Cosley D,et al.Getting to know you:learning new user preferences inrecommender systems[C].Proceedings of the 7th international conference on Intelligent user interfaces.ACM,2002:127-134.
[6] 鄧娟,陳西曲.基于用戶興趣變化的協同過濾推薦算法[J].武漢工業學院學報,2013,32(4):48-51.
[7] 郭俊霞,徐文生,盧罡.基于用戶瀏覽軌跡的商品推薦[J].計算機科學,2016,43(12):223-228.
[8] DING Y,LI X.Time weight collaborative filtering[C].Proceedings of the 14th ACM International Conference on Information and Knowledge Management.ACM,2005:485-492.
[9] Resnick P,Iacovou N,Suchak M,et al.GroupLens:an open architecture for collaborative filtering of netnews[J].Proceedings of the 1994 ACM Conference on Computer Supported Cooperative Work:Chapel Hill,1994:175-186.
[10]? Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Fourteenth Conference on Uncertainty in Artificial Intelligence,1998:43-52.
作者簡介:
趙? 旭(1989-),女,碩士,講師.研究領域:數據挖掘,算法.
呂鶴軒(1996-),男,本科生.研究領域:數據挖掘,算法.