蔣仕寶 陳少權



摘要:為了有效解決重入網用戶運營成本和運營風險“雙高”的難題,在采用改進TF-IDF提取用戶有效交往圈的基礎上,通過加權余弦相似度衡量移動用戶呼叫交往圈的匹配程度來判斷新入網的用戶是否為重入網用戶,以此幫助通信運營商有效甄別市場虛增高和用戶高流失的現象。經過實驗表明,該算法具有較高的識別準確度和識別速度,并具有較好的擴展性。
關鍵詞:呼叫指紋 重入網 改進TF-IDF 匹配度
1 引言
重入網是指移動用戶正在使用或者曾經使用一家移動運營商的通信服務,而在短期內又購買所歸屬的同一移動運營商新號碼入網,新號碼全部或者部分替代原有舊號碼[1]。造成移動用戶重入網的原因主要包括:運營商的營銷方案偏向于吸引新用戶,導致老用戶的忠誠度降低;運營商對社會渠道的激勵政策偏重于銷售傭金,社會渠道通過對部分傭金補貼到新用戶的手段來誘導用戶重入網。
重入網會造成卡號資源浪費、市場虛增高、用戶流失率過高等嚴重后果,極大程度影響運營商精準營銷的戰略布局。如何準確有效地識別重入網用戶,挖掘用戶重入網的原因,進而為運營商提高用戶發展的質量和降低運營的成本及風險,是近年來我國移動通信關注的一項新技術。其中,基于呼叫指紋的重入網用戶的識別技術是當前的研究主流,這種方法的思路是利用移動用戶在使用業務過程中所產生的相關數據,再采用數據挖掘的手段提取其中所隱含的用戶特征。因為在實際生活中,每個用戶都有自己的獨特性,那么用戶對手機的使用行為和呼叫對象也應該有鮮明的特征性。目前主要的研究方法包括:利用交往頻度和通話次數計算交往圈重合度,進而識別重入網用戶[1-2];利用用戶交往號碼的通話次數、通話時長,建立新老用戶的交往圈指紋庫,再通過向量的余弦值計算用戶語音交往圈指紋相似度來識別重入網用戶[3-4];通過改進Hausdorff算法來提高識別重入網用戶的精度和速度[5];利用改進TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)的權重來排除公共號碼,再通過余弦相似性來判斷重入網用戶,進而達到提升速度的目的[6]。本文在已有研究的基礎上,基于用戶的呼叫指紋建立用戶的語音交往圈,再采用改進TF-IDF算法提取用戶的交往圈,最后通過余弦相似度的算法來計算新老用戶的有效交往圈指紋庫的匹配度,并根據匹配度的排序來提取重入網用戶。
2 重入網識別的思路與相關理論研究
2.1 重入網用戶識別
重入網用戶的識別原理是對比新增用戶特征和離網用戶在系統中記錄的特征。如果特征符合判斷條件,則認為該用戶是重入網用戶;如果沒有符合特征的記錄,則認為該用戶是新增用戶[7]。呼叫指紋是指移動用戶在發生移動業務的過程中產生一系列的信息組合:通話群體(與用戶發生通話的對象)的通話習慣(通話頻次與通話時長)。因為任何的兩個移動用戶之間的通話群體和通話習慣都會存在一定的差異,這種差異就類似于人類的指紋一樣,可作為不同用戶的一個標識。因此,本文定義的重入網用戶識別是通過一系列的用戶呼叫指紋進行相似度計算的識別技術,進而判別重入網用戶。重入網用戶識別流程圖如圖1所示。
2.2 建立語音交往圈指
紋庫
首先對用戶交往圈內的呼叫詳單信息進行匯總,提取的字段包括用戶交往號碼的通話次數和通話時長,分別建立新老用戶的呼叫交往圈指紋庫。
交往圈是指移動用戶聯系頻繁且保持長時間交往的用戶群體。但是,如果僅僅根據用戶的通話次數和通話時長等衡量用戶“緊密度”的方式來確定用戶交往圈的重要通話群體,便會把一些公共號碼、快遞號碼、送餐號碼等非重要通話群體納入其中。因此,需要采用一些技術手段處理上述非重要通話群體,提取有效的交往圈指紋庫,以保證重入網用戶識別的質量。本文采用改進TF-IDF算法來計算用戶與通話群體的呼叫特征系數,選取特征系數大于設定的閾值的用戶群體,提取有效的用戶交往圈。
2.3 采用改進TF-IDF算法提取有效的交往圈
有效交往圈是指與一個移動號碼發生通信行為且具有相對重要和緊密程度的對端號碼集合[8]。眾所周知,用戶之間的通話次數越多,表示用戶之間越“緊密”,而衡量用戶之間的重要程度則需要一個重要性的調整系數。
重要性調整系數來源于TF-IDF中的逆文檔頻率(IDF)。TF-IDF方法是Salton和MeGill在1983年針對向量空間信息檢索范例(Vector Space Information Retrieval Paradigm)提出的文檔特征表示方法[4],也就是提取文檔的關鍵詞的方法。該算法有兩個重要的指標:TF和IDF。TF稱為詞頻,也就是關鍵詞在文檔出現的次數;IDF稱為逆文檔頻率,是關鍵詞在全部文檔集中出現的頻率,它作為一個重要性調整系數,來衡量一個關鍵詞是不是常見詞,其在全部文檔集出現的頻率越高,表明該關鍵詞沒有區分度,不能反映該文檔的特征。
TF-IDF的算法為:
(1)
分子是關鍵詞在文檔中出現的頻率,分母是所有關鍵詞出現的頻率合計。
(2)
分子為文檔集中的文檔數量,分母為文檔集中出現過關鍵詞的文檔數量。基于公式(1)和(2),TF-IDF定義為:
tfidf=tf×idf (3)
借鑒TF-IDF算法的思想,本文對TF-IDF進行改進,在通話頻次的基礎上,結合通話時長和通話逆頻率對緊密用戶分配一個“重要性”權重。
假設需要對用戶u的交往圈內的所有用戶進行呼叫指紋處理,那么用戶u交往圈內的其中一位用戶v的緊密度和重要性表達式為:
TF-IDFuv=Tuv/Tu×tfuv×idfuv (4)
其中,Tuv為用戶u與用戶v在一段時間內的總通話時長;Tu為用戶u與所有用戶在一段時間內的總通話時長;tfuv為用戶u與用戶v的通話頻率;idfuv為用戶v與所有用戶通話的逆頻率。
2.4 計算新老用戶的有效交往圈指紋庫的匹配度
匹配度是評價兩個移動用戶之間在重合指標上的相似度。采用加權余弦相似度的方法表示匹配度的公式為:
(5)
其中,xj、yj分別表示匹配移動用戶和待匹配移動用戶的第j個重合指標;α1和β1分別表示兩個用戶每個指標的權重。
基于交往圈的思想,衡量交往圈指紋庫的匹配度就是需要衡量匹配用戶和待匹配用戶的前n個共同朋友的呼叫緊密度及重要性的相似度。
假設用戶u交往圈表示為Du=(a1, a2, …, an),其中an表示用戶u交往圈的前n個共同好友,如果考慮每個用戶的呼叫緊密度和重要性的不一致性,則得到Du=(a1w1, a2w2, …, anwn),簡記為(w1, w2, …, wn),wn表示用戶an的呼叫緊密度和重要性,用戶之間的緊密度和重要性可由公式(4)計算得出。那么,匹配度公式為:
(6)
其中,w1k、w2k分別代表用戶D1及用戶D2第k個朋友的呼叫緊密度和重要性,1≤k≤n,為了縮短計算的時間,根據緊密度和重要性的大小進行排序,取n=top20即可。
3 實驗過程
(1)提取用戶呼叫詳單的關鍵字段
用戶的呼叫詳單字段很多,根據本文的數據挖掘需求,提取用戶呼叫詳單的關鍵字段包括主叫號碼、日期/時間、呼叫時長、被叫號碼。具體如表1所示:
(2)建立新老用戶呼叫交往圈指紋庫
對每個用戶的呼叫詳單進行匯總,分別建立新老用戶的呼叫交往圈指紋庫。號碼為18676445***的用戶呼叫交往圈的部分指紋庫如表2所示:
(3)采用改進TF-IDF算法提取有效的交往圈
采用公式(4)計算號碼為18676445***的用戶與交往圈內部分用戶的緊密度和重要性如表3所示。
采用改進TF-IDF算法計算18676445***交往圈的所有用戶的TF-IDF值,再基于設定的閾值(0.05)提取18676445***的有效交往圈。
(4)計算新老用戶匹配度,識別重入網用戶
采用改進TF-IDF算法確定新老用戶的有效交往圈指紋庫后,需要衡量匹配用戶和待匹配用戶的前n個共同朋友的呼叫緊密度和重要性的相似度。根據公式(6)對多次抽樣3萬新用戶與老用戶的呼叫特征進行余弦相似度計算,匹配結果如表4所示:
由表4可知,相似度的閾值的合理范圍為(0.4537, 0.5536),運營商可以按照該范圍對重入網的新用戶進行重入網原因的分析,為后續的用戶維護和營銷工作提供數據支撐。
4 結束語
本文考慮每個移動用戶呼叫指紋的差異,結合采用改進TF-IDF和加權余弦相似度的算法識別重入網用戶。實驗表明,綜合用戶在交往圈的呼叫頻率和呼叫時長對算法進行改進,有助于提升用戶重入網的識別效率,為通信運營商準確預測市場占有率,及時調整營銷策略,規避經營風險提供強有力的依據。
參考文獻:
[1] 蒲鋒,田真. 基于呼叫指紋的重入網識別研究[J]. 中國新通信, 2007(9): 74-76.
[2] 李鐵鋼,馬駟良,王春勝. 基于“呼叫指紋”的重入網識別算法及其在移動市場占有率預測中的應用[J]. 現代情報, 2006(12): 207-208.
[3] 艾達,羅愛平. 移動通信重入網用戶識別算法分析研究[J]. 西安郵電學院學報, 2012,17(3): 30-33.
[4] 羅亞. 移動電話用戶重入網識別及營銷建議[D]. 北京: 北京郵電大學, 2010.
[5] 李鐵鋼,馬駟良,王彥. 改進的呼叫指紋算法及其在重入網識別中的應用[J]. 吉林大學學報: 理學版, 2007,45(2): 254-255.
[6] 劉清松,王霓虹,王偉. 權重算法在計算移動用戶重入網的應用[J]. 自動化技術與應用, 2009,28(2): 19-21.
[7] 賀彬. 電信經營分析系統重入網子系統的設計與實現[D]. 成都: 電子科技大學, 2007.
[8] 陸菁. 基于移動通信交往圈的家庭用戶識別研究[D]. 上海: 上海交通大學, 2014.
[9] 陳大力,沈巖濤,謝檳竹,等. 基于余弦相似度模型的最佳教練遴選算法[J]. 東北大學學報: 自然科學版, 2014,35(12): 1697-1700.
[10] 徐忠健,陳孚,任小龍,等. 基于TF-IDF算法的家庭關系識別模型構建及其應用[J]. 井岡山大學學報: 自然科學版, 2012,33(5): 54-58.★