摘 要:在內憂外患的市場環境下,電信運營商推出大量的電信套餐用以滿足用戶的各類電信服務需求,但是過量套餐加大了用戶選擇合適套餐的難度,對用戶造成了困擾。針對電信套餐的個性化推薦問題,通過數據挖掘技術構建了基于用戶消費行為的電信套餐個性化推薦模型。
關鍵詞:電信套餐;數據挖掘;協同推薦
引言:近幾年,隨著國內電信市場逐漸飽和,運營商基礎通信服務慢慢呈現供大于求的局面,新用戶凈增數逐年呈下降趨勢,三大運營商之間的競爭也日趨白熱化,運營商在價格競爭的同時,設計推出大量的電信套餐來滿足日新月異的用戶需求。然而大量電信套餐的上市行為并沒有緩解各大運營商的競爭壓力,反而引發一系列的問題[1]:(1)對于用戶來說,電信套餐數量龐大,多種套餐的捆綁內容和額度近似,月租費卻又相差很多,很難從大量的套餐中快速選擇出符合用戶需求的套餐,同時用戶和套餐的不適配會對用戶造成不必要的經濟損失,容易引發用戶對電信企業形象的負面評價,最終造成用戶流失。(2)從企業角度來看,電信企業難以把握用戶的需求和市場熱點,對于新套餐的推廣仍然采用粗放式的廣告投放方式,造成用戶審美疲勞,高成本,低回報,實際推廣效果不理想,造成企業大量資源浪費。因此,電信系統主動向用戶推薦合適套餐的研究十分必要。本文對協同過濾算法及其關鍵技術做了詳細分析,并針對電信行業特點設計了電信套餐的個性化推薦模型,并對模型的主要模塊進行了詳細介紹。
一、協同推薦算法及其關鍵技術
(一)協同過濾推薦的概念。協同過濾推薦[2]也被稱為社會過濾推薦,在社會群體中以興趣相似度為度量尋找用戶間的相關性,或發現項目間的相關性,基于這些關聯性進行推薦活動。實現協同推薦主要有三個步驟:步驟1:收集用戶偏好數據。步驟2:計算相似度,找到相似用戶群或者物品。步驟3:依據推薦策略,進行推薦計算。協同過濾推薦算法根據相似度比較對象的不同,可分為基于用戶的協同推薦和基于物品的協同推薦。
(1)基于用戶的協同推薦算法。根據歷史數據,計算所有用戶對產品的喜好程度,并由此找到目標推薦用戶的相似鄰居集,依據算法原則“鄰居用戶喜歡的產品,目標推薦用戶也可能喜歡”將鄰居用戶喜歡的產品匯總并排序形成推薦集推薦給目標用戶。(2)基于物品的協同推薦算法。根據歷史數據,計算所有用戶對產品的喜好程度,并由此找到相似物品集,依據算法原則“正在使用物品的相似物品,用戶也可能喜歡”將相似物品匯總并排序形成推薦集推薦給目標用戶。
(二)相似度計算。在推薦的場景中,需要進行用戶間的相似度計算,或者進行物品間的相似度計算,以下為幾種常用的相似度計算方法:
(1)歐幾里德距離。歐氏距離是最容易理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。兩個n維向量a
(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離。
d(x,y)=■ 公式(1)
(2)Cosine相似度。Cosine 相似度被廣泛應用于計算文檔數據的相似度。T(x,y)=■=■ 公式(2)
(3)皮爾遜相關系數。皮爾遜相關系數一般用于計算兩個定距變量間聯系的緊密程度,它的取值在 [-1,+1] 之間。
p(x,y)= ■=■ 公式(3)
注:Sx, Sy是 x 和 y 的樣品標準偏差。
(三)相似鄰居的計算。根據相似度計算確定鄰居主要有兩種方式:(1)固定數量鄰居法。不管有多少數量的鄰居,我們只用距離來確認最近的K個,作為其鄰居。該方法容易受K值影響,近似鄰居數小于K值時,會選擇遠距離不太相似的點作為鄰居,對推薦集造成影響,降低推薦準確率。(2)基于相似度門檻的鄰居。以當前目標點為中心,K值為半徑的圓范圍,范圍內的所有點都是其鄰居,該方法不能確認鄰居的數量,但是能夠保證鄰居用戶間的相似度不會產生太大差異,確保推薦結果的準確性。
(四)協同過濾算法的優勢和不足。(1)協同過濾算法的優勢。1)內容難以解析的商品也能夠很好的進行推薦,如電影、音樂。2)能夠挖掘用戶潛在需求,推薦內容新穎。(2)協同過濾算法的不足。1)稀疏性問題:如果用戶歷史評價信息缺失或者稀少,利用評價信息尋找相似用戶的準確性就會大大降低。2)性能問題:隨著推薦用戶數和推薦商品種類數的增加,系統的性能會越加低效。3)冷啟動問題:沒有用戶使用或者評價的新產品,無法運用協同推薦。
二、基于用戶消費行為的電信套餐個性化推薦模型
本文根據電信行業的特點,從用戶消費行為數據出發,結合數據挖掘技術和推薦方法構建了如圖1所示的電信套餐個性化推薦模型。
圖1 電信套餐個性化推薦模型
電信套餐個性化推薦模型共分為7個主要模塊:
(1)信息收集模塊。信息收集,包括用戶基本信息、消費清單賬單數據、用戶業務訂購數據、用戶終端使用信息、套餐產品構成信息、套餐資費等信息的收集。(2)用戶建模。先根據電信業務領域相關知識構建電信業務領域本體模型,每一個用戶模型/套餐模型都是電信業務領域本體的一個實例,業務本體依據用戶消費偏好數據自動生成個性化的用戶模型,每一個電信套餐也依據套餐設計信息由本體生成個性化的套餐模型。(3)聚類分析模塊。電信用戶數據具有基數大、數據結構復雜的特點,造成推薦算法計算量巨大,推薦系統負荷過重,影響推薦效率,針對此問題采取K-means聚類對用戶數據進行預處理操作,大大減少用戶或者物品的最近鄰居搜索范圍,提高計算速度,從而提高推薦效率。為了達到細分用戶的目的,需要進行兩次用戶聚類。一次聚類是根據用戶消費占比數據將用戶群劃分成數個消費偏好存在差異的類簇;二次聚類是在一次聚類結果集的基礎上,選擇目標用戶所在的類簇為第二次聚類的數據源,根據用戶在各業務的消費量值為依據來進行用戶的聚類劃分。(4)尋找鄰居用戶集模塊。在聚類結果集的基礎上,選擇合適的相似度計算方法進行用戶相似度計算,并以目標推薦用戶為中心,以用戶間的相似度為距離值,選取最近的K個用戶作為目標推薦用戶的最近鄰居用戶集。(5)個性化推薦集生成模塊。由鄰居用戶集確定套餐預測集和增值業務預測集,同時進行TOP-N篩選、電信業務規則過濾和用戶-套餐的適配比對過程,最后形成一個滿足用戶電信需求的套餐或者增值業務推薦集。(6)套餐推薦模塊。以分區推薦的方式,將個性化推薦集混合推薦給目標用戶,并給系統反饋推薦結果和相關推薦反饋信息。(7)推薦系統更新模塊。根據反饋信息評估整個推薦模型和過程,確認模型存在缺陷就將更新信息反饋回電信業務領域本體,更新本體結構和概念等信息,生成新本體,同時重新生成用戶模型和套餐模型。
結論:本文主要介紹了協同過濾算法的主要思想、關鍵技術以及算法存在的問題,同時根據電信行業特點和數據特征,研究者提出了基于用戶消費行為的電信套餐個性化推薦模型用以有效解決電信套餐的個性化推薦問題,智能推薦符合用戶需求的電信套餐,從而推進電信服務產品智能化的研究進程。
參考文獻:
[1] 陶如軍. 中國電信:擁抱互聯網思維[J]. 國企, 2014, 09:58-61.
[2] 黃仁, 孟婷婷. 個性化推薦算法綜述[J]. 中小企業管理與科技(中刊), 2015, 03:271-273.