摘 要:隨著移動互聯網技術的普及和移動互聯業務的爆炸性增長,互聯網業務個性化推薦技術日益受到重視,其中協同過濾算法是應用最為廣泛的推薦算法之一,但是在校園移動互聯網應用中,傳統的協同過濾算法難以準確定位目標用戶的最近鄰,因此其推薦效果并不理想。本文將業務影響權重參數引入協同過濾算法中以便更加精確計算校園用戶間的相似度,同時采用層次分析法(APH)確定權重數值,最后采用實際收集的數據進行算法仿真實驗,結果表明該算法較傳統協同過濾算法具有較好的推薦精度。
關鍵詞:個性化推薦;協同過濾算法;APH;相似度計算
隨著移動通信網絡的發展和智能手機的普及,移動互聯網業務日益豐富著人們的生活,移動增值業務的數量也呈現爆炸性的增長[1],[2]。與此同時,不論是用戶還是運營商都感覺到了類型繁多的業務和多元化的用戶需求之間信息連接的迫切性,移動互聯業務的個性化推薦研究由此進入了人們的視線。其中,協同過濾算法是應用最為廣泛的推薦算法之一。
協同過濾算法由Goldberg等在1992年提出,其主要原理是如果某些用戶對一些業務的評價很相似,那么他們對其他業務的評價也會很相似。目前協同過濾算法主要分為兩類:1)基于用戶的協同過濾算法:該算法的關鍵在于尋找與目標用戶具有相似興趣的最近鄰居,將這些鄰居的選擇推薦給目標用戶。2)基于項目的協同過濾算法:該算法的關鍵在于使用目標用戶對相似項目的評分來預估該用戶對某個新項目的評分,根據評分的高低來決定推薦的次序[3]。總體來看基于用戶的協同過濾算法更適用于移動互聯網業務的個性化推薦。
1 傳統的基于用戶的協同過濾算法
該算法的核心思想是根據用戶對各種業務的評價情況統計出與目標用戶興趣最為接近的用戶群,稱為目標用戶的“最近鄰居”。目標用戶對某個未曾使用的業務的評價可以基于他的“最近鄰居”對該項業務的評價結果預測得到。根據不同業務的預測評價決定該業務的推薦排序。移動增值業務中,傳統的協同過濾推薦算法是按照以下步驟進行:
(1)建立不同用戶對于各項業務的評分矩陣R(m,n),代表共有m個用戶和n種增值業務,矩陣元素Rij代表用戶i對業務j的評分,取值區間一般位于[0,1]之間。
(2)為目標用戶尋找最近鄰居集。通過計算用戶之間的相似度,為目標用戶形成相似度從大到小排列的鄰居集合。用戶i和用戶j的相似度的計算采用Pearson相關度計算公式:
式中,用戶i和用戶j共同評分過的業務集合為Iij,Ri,k表示用戶i對業務k的評分, 和 表示用戶i和j對業務的平均評分。
(3)根據目標用戶的最近鄰居集合對某項業務的評分來預測目標用戶對該項業務的評分,并根據預測評分的高低決定業務的推薦排序。用戶u對項目i的預測評分為:
式中,Su是目標用戶u的最近鄰居集合。 和 分別表示用戶u和用戶n對增值業務的平均評分。Sim(u,m)表示用戶u和用戶n之間的相似度。Rn,i表示用戶n對業務i的評分。
很明顯,該算法在計算用戶相似度時,并沒有權重值,或者說對每項業務賦予相同權重,因此對某些用戶群體,如校園互聯網用戶,該算法是不適用的,需要進行改進。
2 校園移動互聯網用戶的特殊性
校園用戶是目前移動互聯網增值業務的主要用戶群體之一,他們年齡段集中,學歷經歷相似,時間較空閑,集聚性強同時經濟能力有限,因此他們對于增值業務的選擇有一定的趨同性。從我們收集分析的1000份在校大學生增值業務使用情況的調查問卷的數據看來,有多項業務開通比率超過50%,其中最高的彩信業務開通比率接近70%。在此情況下,如果采用傳統的相似度計算方法,那么就很難真正區分出真正具有相同興趣的用戶。因此對于相似度計算算法必須進行改進以適應校園用戶的特殊性。
3 算法的改進
為使用戶間相似度的計算值能夠更加準確地描述校園用戶間個人興趣的相似度,我們對被校園用戶過于廣泛使用的業務賦予較低的權值,這樣用戶間的相似度計算值將會更加精確。
為了將我們對各項業務重要性的定性分析轉變為具體權值,在此引入了層次分析法(APH)。該方法由美國運籌學家T.L.saaty于上世紀70年代提出,是一種將定性和定量結合起來的系統分析方法,它將人的主觀判斷數量化。在此處應用該方法,我們可以用收集的實證數據和經驗判斷各業務之間的相對重要程度,并給出每種業務的影響權重。層次分析法的一個重要特點就是用兩兩重要性程度之比的形式表示出兩個方案的相應重要性程度等級。在本文里我們對所涉及業務進行兩兩對比,并按其重要性程度評定等級。
在此處運用AHP方法,大體可分為以下三個步驟:
步驟1:分析各增值業務間的關系,建立主觀判斷的客觀化標度;
步驟2:對各項業務的重要性進行兩兩比較,根據上表的標度方法構造兩兩比較的判斷矩陣;
步驟3:由判斷矩陣計算被比較業務對于該準則的相對權重,并進行判斷矩陣的一致性檢驗。
通過AHP法的應用,我們能夠獲得各項業務的影響權重。設增值業務k的影響權重為Wk,那么用戶i和用戶j的相似度計算公式為:
根據公式(2)計算目標用戶對于各項未選取增值業務的預測評價后,我們就可以獲得針對目標用戶的推薦序列了。
4 實驗研究
為了驗證該算法,我們通過問卷調查的方式收集了1000名在校大學生對于11種常用移動互聯網增值業務的使用和興趣情況的數據。根據問卷結果首先建立了用戶打分矩陣,同時根據各項業務的使用率建立其兩兩比較的判斷矩陣。對判斷矩陣進行歸一化處理后,得到各業務權重值如下表,并通過一致性驗證。
我們將各業務權值代入公式3,獲得了各用戶間相似度數值,為每個用戶選取相似度最高的N名用戶作為其最近鄰居集合,得到每名用戶的推薦列表。將推薦列表與用戶自己提供的興趣列表相比,本文所提出的算法比傳統的協同過濾算法推薦精度提升了15%以上。
5 結論
本文主要根據移動互聯網校園用戶的特點,對基于用戶的協同過濾算法個性化推薦應用過程和算法的改進進行了論述。我們將業務影響權重引入了用戶間相似度的計算過程中,并使用層次分析法來將經驗判斷轉化為權重數值。改進后的算法提升了對業務的推薦精度, 算法仿真效果良好。由于移動增值業務種類繁多,我們此次僅選取了部分常用業務來進行實驗驗證,因此如何建設自適應性權重計算模型,以便當業務種類擴展時,能夠簡單快捷的自動計算業務影響權重,將是我們今后研究的重點。
[參考文獻]
[1]Mobile Pholle Research RePort(2007-l0-30),http://bbs.8.i.eo;n/toPledetail.html?id=19284.
[2]Accomplishment instance of main target in communication industry in 2007.
[3]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions. IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.