雷蕾 余鳳麗
【摘要】 電信行業客戶重入網會帶來大量營銷資源的無效消耗,同時帶來離網率過高和用戶虛增等異常現象,為此,業務分析人員通過建立模型識別出重入網客戶加以管理,但是識別的準確率一直不夠理想。本文總結重入網建模經驗,結合大數據IT建設成果,分析各種識別方法的優劣,為模型優化提供參考。
【關鍵詞】 重入網 模型 大數據
一、背景及研究現狀分析
重入網客戶行為指的是已擁有某電信運營商的A地市分公司一個移動號碼的客戶,由于某種原因又新買了該運營商A地市分公司的另一個同類終端產品(手機、數據卡、上網本、MIFI)的號碼入網。由此消耗的營銷資源包括號卡資源以及渠道銷售成本,還有客戶在重入網后對前一號卡進行棄卡,引發惡意欠費等現象。傳統的重入網識別技術是基本信息識別、IMEI識別和社交匹配度識別,這三種技術或單獨或交叉使用,但是這些識別技術準確率低,例如基于用戶資料的移動用戶身份識別準確率僅為42%,有待改進:1、客戶基本信息在實名制還未普及的情況下,很多信息是錯誤的;2、IMEI識別受山寨機的影響,存在錯誤;3、可引入大數據實現信令數據的采集,對用戶的位置信息進行定位和跟蹤,從而分析兩個用戶是一個客戶的可能性。
二、客戶重入網識別方法優化方案介紹
以下介紹三種模型優化的方法。
2.1客戶基本信息校驗
客戶基本信息主要包括姓名、家庭住址和身份證,先對客戶信息的有效性進行驗證,僅在信息有效的客戶中識別重入網用戶:
1、姓名識別,剔除:
以下一個或多個詞語的用戶:“預開”、“營業廳”、“開戶”、“直郵”、“套卡”、“代銷”、“中心”、“批量”、“批開”、“直供”;
中文字符小于2個的。
2、家庭住址識別:剔除中文字符小于2個的。
3、身份證有效性識別,為防止客戶亂填,號碼有效性識別如下: 參數1:取前17位數字,以i表示其所在位數,從左向右依次為17、16、15...2、1;參數2:每一位上的身份證號碼數字記為Ai 參數3:計算MOD(2^i,11),記為Wi;參數4:將每一個Ai與對應位置上的Wi相乘。
將參數4得到的17個數值求和,然后除以11求余數,得到一個數值n
通過n在下面的對應表中進行查表,得到最終的校驗位字符:
計算值n 0 1 2 3 4 5 6 7 8 9 10
校驗碼 1 0 X 9 8 7 6 5 4 3 2
2.2IMEI信息有效性校驗
采用IMEI識別之前,先判定客戶的唯一有效IMEI,主要分為以下兩種判定方式:
1、剔除1個IMEI對應多個號碼的情況,即山寨機:
IMEI號對應3個以上號碼;
IMEI長度小于14個字符;
IMEI字符全是0或者空的。
2、剔除1個號碼對應多個IMEI 的情況,這類客戶可能存在頻繁換機情況:
IMEI號對應3個及以上號碼 ;
用戶2個IMEI號,取一個月內使用天數最多的標識為用戶的唯一有效IMEI。
三、引入用戶位置軌跡匹配
同一個客戶的上班地點、住宅地點相對固定,而且該客戶出現在這類地點的時間遵循一定的規律,所以,通過比較兩個用戶在上班地點和住宅地點,來識別兩個用戶是一個客戶的可能性。首先,按照工作日白天、工作日晚上、休息日白天、休息日晚上來劃分時段;其次,A口信令數據在客戶進行位置移動、開機、關機、通話時等操作會產生數據,無以上操作時,將按照一定的時間間隔進行采集,由此可以計算出客戶在該基站下的逗留時長;最后,匹配客戶在這四個時段的相同位置的逗留時長,即可評估兩個用戶是同一客戶的可能性。
四、總結及下一步發展
經過對比測試,對客戶基本信息和IMEI信息進行校驗后,分別有30%和38%的信息正確可用,只針對信息有效的用戶識別,重入網準確率達到75%;其余客戶基本信息和IMEI信息錯誤的用戶,采用交往圈和位置軌跡匹配的方案提升重入網客戶識別的覆蓋率,這部分用戶通過外呼確認,準確率為48%。總體而言,通過三種方法的引入,能有效提升模型識別的準確率。通過加強社會渠道的管控,隨著實名制的普及和攜號轉網業務的發展,重入網客戶可在業務辦理時即得到識別和控制。
參 考 文 獻
[1]溫瑞軍.移動代理商渠道養卡套利行為識別與治理[J].電子技術與軟件工程,2015(3):54-55.
[2]羅亞.移動電話用戶重入網識別及營銷建議.北京郵件大學碩士論文,2010.
[3]王征,包磊.基于網絡訪問項序的移動用戶重入網身份識別方法[J].大連理工大學學報,2015(2):016.
[4]日發帖趙麗莎.基于數據挖掘的電信客戶重入網預測系統的研究.昆明理工大學碩士論文,2014.