崔剛
【摘要】 本文借鑒互聯網協同過濾算法,根據電信運營商實際狀況,合理選取輸入指標,探索“基于用戶”和“基于物品”算法和用途的差異,將算法應用到手機應用個性化推薦中,應用效果提升明顯,較好地符合互聯網時代客戶需求特征。
【關鍵詞】 大數據 協同過濾算法 智能推薦 互聯網應用
一、引言
4G時代,用戶流量規模及價值提升至關重要,河南移動公司一直致力于以客戶需求為中心,以運營為導向的流量經營研究。積極踐行傳統電信服務轉型中“數字內容和應用”的發展模式理念,通過應用個性化應用推薦的探索,逐步完善“數字內容及應用精益運營體系”的建設目標。
傳統的手機應用推薦沒有深入識別真正有需求的客戶,盲目下發營銷推薦短信,客戶轉化率不足1%,造成資源的浪費且降低了客戶滿意度。本課題將重點解決根據用戶消費行為快速、準確找到手機應用潛在目標用戶的問題,通過引入互聯網協同過濾算法,預先計算相似度, 從而迅速對推薦要求做出響應,滿足真正有需求的客戶,避免客戶騷擾,提升客戶轉化率,驅動流量增長。
二、 實施思路
2.1 實施方法
手機應用個性化推薦的核心技術是根據用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的物品或信息。基于協同過濾的推薦機制是利用集體智慧的典型方法,根據所有用戶對物品或者信息的偏好,發現用戶的相關性,或是發現物品或者信息本身的相關性,然后再基于這些關聯性進行推薦。
2.2 模型選型
協同過濾( Collaborative Filtering, 簡稱 CF),一般是在海量的用戶對物品或者信息偏好中,發掘出小部分和目標用戶品味比較相似的用戶成為鄰居用戶群,基于鄰居歷史偏好信息組織成一個排序的目錄,為指定用戶進行推薦。
核心問題是:如何找到與目標用戶相似品味的用戶集合?如何找到具有相似屬性的物品或信息?
為了解決第一個問題“找到相似品味的用戶”,采用基于用戶的協同過濾推薦機制,在用戶的歷史偏好的數據上計算用戶的相似度,基于相似用戶的歷史偏好信息,為當前用戶進行推薦。
針對第二個問題“找到具有相似屬性的物品或信息”,采用基于物品的協同過濾推薦機制,使用所有用戶對物品或者信息的偏好,發現物品和物品之間的相似度,然后根據用戶的歷史偏好信息,將類似的物品推薦給用戶。
三、實施方案
協同過濾的核心步驟,主要包括如下三個步:1)收集用戶偏好信息;2)找到相似的用戶或物品;3)計算推薦。
算法實現流程如圖1。
3.1 收集用戶偏好
用戶偏好度定義:根據不同行為反映用戶喜好的程度將它們進行加權,得到用戶對于物品的總體喜好,按照系統現有數據,選取“日均使用頻次”作為偏好評估指標。

應用個性化推薦中,用戶對某種應用的偏好度評價指標取“日均使用頻次”。日均使用1次得1分,2次得2分,3次得3分,4次得4分,5次及以上得5分,生成評價結果清單。
3.2找到相似的用戶或物品
1)相似度計算方法:
計算基礎:向量(Vector)
計算結果:主要是計算兩個向量的距離,距離越近相似度越大。
應用思路:基于用戶-物品偏好的二維矩陣。
將一個用戶對所有物品的偏好作為一個向量來計算用戶之間的相似度;將所有用戶對某個物品的偏好作為一個向量來計算物品之間的相似度。
2)如何根據相似度找到“用戶 ”或“ 物品”的鄰居:
(1)固定數量的鄰居:不論鄰居的“遠近”,只取最近的 K 個,作為其鄰居。
(2)基于相似度門檻的鄰居:以當前點為中心,距離為 K 的區域中的所有點都作為當前點的鄰居,此方法得到的鄰居個數不確定,但相似度不會出現較大的誤差。
3.3 計算推薦
1)基于用戶的協同過濾(User CF)
計算思路:
(1)建立向量:按照每個用戶對所有物品的偏好得到一個向量;(2)計算用戶相似度:通過向量間的計算得到用戶之間的相似度;(3)找到相似鄰居:通過計算方法,找到當前用戶X的 K 鄰居群體;(4)推薦清單:根據鄰居的相似度權重及對物品的偏好,預測當前用戶X無偏好記錄或未購買的物品,計算得到一個排序的物品列表向當前用戶X推薦。
具體示例:對于用戶 A,根據用戶的歷史偏好,這里只計算得到一個鄰居 - 用戶 C,然后將用戶 C 喜歡的物品 D 推薦給用戶 A。
2)基于物品的協同過濾(Item CF)
計算思路:
(1)建立向量:將所有用戶對某個物品的偏好作為元素建立該物品的向量(2)得到物品相似度:通過向量間的計算得到物品之間的相似度(3)找到相似物品:通過計算方法,找到某個物品的相似物品(4)推薦清單:根據每個用戶歷史的偏好,預測當前用戶尚未表示偏好的物品,計算得到一個排序的物品列表作為向當前用戶推薦的清單。
具體示例:對于物品 A,根據所有用戶的歷史偏好,喜歡物品 A 的用戶都喜歡物品 C,得出物品 A 和物品 C 比較相似,而用戶 C 喜歡物品 A,那么可以推斷出用戶 C 可能也喜歡物品 C。
3)協同過濾推薦實例
假設要向U1推sohu,選擇兩個最近鄰居
基于用戶的協同過濾推薦得分:
U1:(U2 :0.85,U3:0.70, U4:0,U5:-0.79)
兩個相鄰的鄰居為U2和U3,Sohu計算推薦的得分為:(0.85*3+0.70*5)/(0.85+0.7)=3.9
基于物品的協同過濾推薦得分:
Sohu: (QQ: 0.99, WeChat: 0.92, MSN:0.72,LeTV:0.93) 兩個相鄰的鄰居為QQ和LeTV,Sohu計算推薦的得分為: (0.99*5+0.93*4)/(0.99+0.93)=4.5
3.4用戶/物品的協同過濾(UserCF/ItemCF)適用場景
UserCF適合用于內容推薦,因為做為一種物品,內容的更新非常快,每時每刻都有新的內容出現,而ItemCF需要維護一張物品相關度的表,如果物品更新很快,那么這張表也需要很快的更新,在技術上很難實現。絕大多數相關度表都只能做到一天一次更新,這在內容推薦的時候是不可接受的。
而UserCF只需用戶相似度表,雖然UserCF也需要對新增用戶更新相似度表,但在內容推薦中,內容的更新速度遠高于新入網用戶的加入速度,完全可以給用戶相似度高的用戶推薦熱門內容,因為相比ItemCF,UserCF顯然利大于弊。
同時從技術上考慮UserCF需要維護一張用戶相似度的矩陣,ItemCF也需要維護一張物品相似度的矩陣。ItemCF適用于物品數據量遠小于用戶量,物品更新速度較慢。而UserCF適用于物品數據量遠大于用戶量,且物品更新速度快,推薦要求時效性高。
四、應用情況及效益分析
在實際的流量運營中,開展針對單用戶多應用的組合營銷,實現數據驅動的“輕資源、智能化”的實時營銷。基于應用活性將淘寶、支付寶、微信三個應用組合為網絡達人系列應用,將QQ、QQ空間、QQ音樂、微信四個應用組合為企鵝愛好者,對比運營。基于物品的協同過濾算法(ItemCF)得到網絡達人和企鵝愛好者兩個系列組合應用的潛在目標用戶,經過個性化推薦運營后,網絡達人系列應用高于企鵝愛好者系列應用的新裝用戶轉化率。淘寶應用的新裝用戶轉化率最高為11.45%,QQ音樂新裝用戶轉化率最低為4.45%。運營效果數據如表3。
五、結束語
通過學習互聯網較成熟的協同過濾算法,合理選取輸入指標,探索“基于用戶”和“基于物品”算法和用途的差異,將協同過濾算法固化到大數據分析平臺中,通過對全部目標用戶相似度的計算,可以支持對推薦要求做出迅速響應,從而達到拉升客戶轉化率的目的,有效緩解移動公司促銷成本壓力,較好地符合互聯網時代客戶需求特征。
參 考 文 獻
[1]周軍鋒,湯顯,郭景峰;一種優化的協同過濾推薦算法[J];計算機研究與發展;2004年10期
[2]張鋒;常會友;使用BP神經網絡緩解協同過濾推薦算法的稀疏性問題[J];計算機研究與發展;2006年04期.
[3]張光衛;李德毅;李鵬;康建初;陳桂生;;基于云模型的協同過濾推薦算法[J];軟件學報;2007年10期
[4]張亮;推薦系統中協同過濾算法若干問題的研究[D];北京郵電大學;2009年
[5]施鳳仙;陳恩紅;;結合項目區分用戶興趣度的協同過濾算法[J];小型微型計算機系統;2012年07期