陳瑩
(中國電信股份有限公司海南分公司,海南 海口 570100)
根據數據顯示,每月平均有多達半數的移動預付費用戶曾因賬戶余額不足但沒有及時充值而導致停機的情況。對運營商則意味著收入的損失。目前中國電信已經為部分用戶提供星級服務。但中低端用戶沒有該信用服務。對這些用戶進行信用評分并授信,對提升用戶滿意度和客戶粘性很有意義。本文旨在探索一種針對非星級用戶的基于SVM的信用評分方法,建模過程如圖1所示[1-2]:(1)確定業務需求;(2)定義標簽;(3)選取合適的樣本,匹配出全部的特征信息;(4)特征工程+模型訓練+模型評價+模型調優;(5)輸出模型報告;(6)上線與監控。

圖1 信用評分建模流程圖
電信非星級客戶信用評分模型的設計目標是篩選出有信用需求的低風險客戶。信用評分結果是:高分數的被評分人意味著比低分數的被評分人具有更強的信用需求和更低的風險。
信用評分模型的主要目的是衡量用戶的信用風險[4-6]。我們從以下幾個角度給非星級用戶構建指標體系:
基本信息:個人基本信息是每個場景下都一定會有的數據,比較典型的信息有年齡、性別、城市、入網時間、是否實名制等。
消費信息:典型的消費信息是用戶每個月的ARPU、充值和套餐信息,從而計算出他的購買需求和購買力。
歷史表現:用戶在使用過程中會有一些歷史表現。如歷史停機和還款表現,這是可以直接體現用戶的還款意愿。
穩定性:除了通過固定維度來看用戶的表現外,還可以將用戶上述的維度變化趨勢做成特征。
用戶特征中的連續型變量的數量級差異較大,這對模型的影響很大,我們將這些連續型變量做歸一化處理,典型的是單位區間[0,1]:

用戶特征中離散型變量,采用WOE(Weight of Evidence)編碼方式。定義格式為:

其中,pyi是這個分組中響應客戶占樣本中所有響應客戶的比例,pin是這個分組中為響應客戶占樣本中所有未響應客戶的比例。
支持向量機(Support vector machine, SVM)是一種基于結構風險最小原則的機器學習分類方法[3]。SVM通過找到兩個類型之間的最大距離方式來劃分類型,即最大邊緣超平面,任意超平面可以用下面的方程來描述:

本文所涉及的實驗數據取自三亞、東方和儋州三個地市的85萬條非星級用戶的95個特征數據,實驗模型建立在Linux系統下,編程平臺采用R語言。所有特征數據均進行歸一化處理。核函數和相應Cost、Gamma參數的選擇是SVM模型訓練的關鍵環節,本文選擇了應用最廣的4種核函數:線性核(Linear kernel,LK)、多項式核(Polynomial kernel,PK)、徑向基函數核(Radial basis function kernel,RBF)和Sigmoid核函數(Sigmoid kernel,SK)。
為了更好的訓練模型,避免模型的過度擬合而影響模型的泛化能力,模型采用k折交叉驗證(k-fold cross validation)。詳細的SVM模型參數取值情況如表1所示:

表1 SVM 模型參數表
本文模型評估采用三個評價指標:查準率(Precision)、查全率(Recall)和F1分數(F1 score)。具體公式如下:


圖2 不同K 值RBF 核模型性能指標圖

表2 RBF 核時不同K 值的模型評估指標表
本文以SVM算法為基礎,結合海南電信非星級用戶的多維度特征,并對Cost、Gamma、核函數類型和K值進行了對比實驗,綜合精度、查全率和F1值三項評價指標。本文提出的信用風險評測方法在運行6個月的情況下,信用需求預測準確度高,整體壞賬率表現穩定,用戶退訂率低,用戶感知率較高。