賈利娟,朱斌杰
(1.陜西廣播電視大學計算機與信息管理教學部,陜西西安710119;2.中國移動北京公司北京100007)
移動通信運營商積累大量的用戶數據,包括用戶基礎信息、通信行為、上網行為、地理位置等數據。如何利用這些數據服務于征信領域是一個值得研究的問題。征信領域主要分為企業征信和個人征信兩類,因為運營商積累的主要是個人通信用戶的數據,所以這里主要研究個人征信問題。運營商的個人征信產品體系中主要包括征信驗真、征信評級、業務追蹤管理3個子產品,其中征信評級是最重要的產品。征信評級產品基于運營商的大數據為用戶進行信用評級,信用評級應用于個人貸款、消費貸款、免押金租賃等金融和商業場景中,實現對業務場景下的業務風險控制。從數據挖掘的角度看信用評級問題就是數據挖掘中的分類預測問題,根據用戶歷史數據建立用戶評級模型,基于評級模型得到每個用戶的信用風險評級并應用于業務場景中。征信評級不僅應用于傳統信貸場景,而且應用于互聯網征信領域[1-5]。大數據征信評級中特別要注意用戶的隱私問題[6]。現有基于大數據的征信模型都是基于信用場景下的數據[7-8],沒有使用運營商大數據。
基于運營商大數據的征信系統由驗真子系統、評級子系統、貸后管理子系統。驗真子系統是對用戶身份以及各種狀態真偽進行判別并返回是否形式的輸出。評級子系統通過運營商大數據建立用戶信用評級模型,根據模型計算輸出用戶的信用評級。貸后管理子系統管理貸款用戶的預警模型,輸出預警信息。
如圖1所示,征信系統在部署上分為3個區域:數據接入區、業務邏輯區、數據處理區。數據接入區從外圍數據系統中接入所需數據,外圍數據系統有CRM、BOSS、BI、網管系統、客服系統等。業務邏輯區處理業務邏輯響應用戶請求。數據處理區包括數據預處理、數據挖掘、指標監控規則管理等功能。

圖1 信用風險控制系統部署圖
一個大數據系統要面臨3個問題:大數據存儲、大數據分析、大數據管理。Hdoop分布式云計算框架是大數據最有力的搭檔,主要由分布式文件系統HDFS和MapRduce編程模型組成。本系統的核心在數據分析處理區,在預處理階段與數據挖掘階段都需要對海量大數據進行存儲和計算,HADOOP技術是為處理大數據而生的技術,通過MapReduce模型把任務分配到分布式的計算機集群中,既降低了成本又提供了可伸縮性。
在挖掘周期和規則識別周期都比較長的情況下,對內容個性化規則挖掘的過程來說無需快速的查詢時間,Hadoop架構是能夠勝任的。如果挖掘周期和規則識別周期都比較短,可以考慮采用SPARK技術。SPARK同樣能夠實現Hadoop的基于MapReduce的并行計算,任務運行的中間結果保存在內存中,而不需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。
運營商的數據主要有用戶基本信息、通信行為、上網行為、客服投訴行為、增值業務使用行為等數據。這些數據需要從分散在各個部門的系統集中到統一的大數據平臺系統中。用戶基本信息包括用戶的實名認證數據,主要是身份信息,從身份證號碼能解析出的信息包括籍貫、性別、年齡等信息。通信行為數據包括主要是話單數據、消費數據、終端數據,話單數據主要能解析出通話行為、短信行為、位置信息。DPI技術是運營商大數據分析的基礎[9-12]。上網行為數據主要是對用戶上網行為作出DPI解析,從而得到用戶對網站以及APP類型的訪問記錄,然后根據訪問記錄可以得到用戶偏好。通信網絡是移動通信用戶上網的通路,通信網元中的Gn口中可以提取每個用戶的上網行為,包括APP使用行為或者網站訪問行為。Gn口用戶上網行為的獲取是通過DPI解析技術來實現的。深度包解析DPI中的“深度”是和普通的報文分析層次比較而言的,普通報文檢測僅分析IP包4層以下的內容,包括源地址、目的地址、源端口、目的端口以及協議類型,而DPI除了這些層次,還增加了應用層分析,能夠識別各種應用及其內容。對這些原始數據進行處理解析得到所需的用戶屬性維度,然后對數據進行ETL工具把數據處理成標準的基礎數據表。基礎數據表是一張存儲用戶屬性的寬表。從業務層面寬表包括身份特質、履約能力、立信歷史、人際網絡、行為特征等幾個方面的數據,如圖2所示。

圖2 信用風險控制模型維度分類
身份特質數據對用戶的基礎信息進行畫像。身份特質相關數據包括:會員級別、被舉報次數、惡意投訴次數、年齡、性別、職業特征。性別、年齡數據來源于用戶的實名制信息,從身份證信息上可以提取計算出性別和年齡數據。惡意投訴次數、會員級別來源于客服系統。被舉報次數來源于客服系統以及騷擾電話智能識別模型。
履約能力對用戶的消費能力進行畫像。履約能力數據包括:賬單金額、近3個月流量、繳費方式、承諾消費、賬戶余額、終端類型、省際漫游、國際漫游。履約能力相關的數據來源于CRM、BOSS系統。通過系統數據直接計算得到。
立信歷史數據對歷史信息用情況進行畫像。立信歷史數據包括:通信賬戶開立時長、固定電話、家庭寬帶開立時長。通信賬戶開立時長就是用戶的移動通信業務入網時間,固定電話、家庭寬帶等業務的開立時長也是與立信歷史相關的數據。
人際網絡數據對用戶的通信圈、即時通信朋友圈等人際關系進行畫像。人際網絡相關數據包括:本地朋友圈比例、國際長途、朋友圈質量、家庭套餐、親情號碼。本地朋友圈比例、國際長途、朋友圈質量主要通過話單數據來建立模型進行計算的。家庭套餐、親情號碼來源于相應的業務平臺。
行為特征數據對用戶的通信、上網等行為進行畫像。行為特征相關數據包括:欠費次數、最近一年被查詢次數、公檢法、催收號碼呼入、特服短信號碼分析、一年穩定使用終端數量、補充業務、興趣偏好分析。

表1 用戶屬性寬表
前面預處理環節完成了全網用戶的屬性數據處理工作,得到一張全網用戶的屬性數據寬表,如表1所示。這是進行數據挖掘環節的基礎。用戶征信評級模型是一個分類預測問題。數據挖掘根據歷史數據挖掘出規則然后使用所得到的規則對未來預測。歷史數據就是用作模型訓練的數據,是指在同樣場景下積累的已知結果的個體行為數據。可以根據不同應用場景建立不同的模型,以適應不同場景的需要。
數據挖掘的流程分為5步,具體步驟如下:
第一步:獲得訓練數據。從業務積累的歷史數據獲得訓練數據。訓練數據主要包括用戶標識主鍵和目標字段。目標字段與要預測的結果相對應,目標字段的取值是由用戶真實行為產生的歷史記錄。根據目標字段取值的數量訓練數據相應要取對應組數。
在某商城小額消費貸款業務場景下,業務開展過程中積累了一些用戶使用貸款業務后是否按時還款的歷史數據記錄,根據用戶是否及時還款把用戶分為優質用戶、風險用戶兩個級別,對兩個級別的用戶分別采取不同的業務方案。優質用戶是能及時還款的用戶,風險用戶是指貸款后產生壞賬的用戶。這里目標字段有兩個取值:優質用戶、風險用戶。在選擇訓練樣本的時候需要對應提取出兩組用戶:優質用戶、風險用戶。兩組用戶組成了用戶行為歷史數據,記錄數10萬條,如表2所示。其中8萬條做為訓練數據如表2所示,2萬條做為驗證數據。
第二步:在用戶屬性寬表中提取出訓練數據對應的屬性數據,如表3所示。
第三步:聚類和分析算法都可以作為預測模型使用[13-14]。使用SPARK計算框架保障計算速度[15-16]。運行決策算法C4.5,決策樹。算法的輸入是第二步中的訓練樣本寬表。輸出結果是一個根據屬性重要程度從大到小排列的樹,樹的根節點屬性最重要。從樹的根節點到葉子所經過的一條路徑上的屬性組成一條判斷規則。C4.5算法是基于基于ID3算法進行的擴展。ID3算法進行屬性劃分使用的參數是熵,熵是無序性(或不確定性)的度量指標。假如事件A的全概率劃分是(A1,A2,...,An),每部分發生的概率是(p1,p2,...,pn),那信息熵定義為:


表2 用戶行為歷史數據表

表3 屬性數據
ID3中計算的是“信息增益”,C4.5中則計算“信息增益率”:

vj表示屬性V的各種取值,在ID3中用信息增益選擇屬性時偏向于選擇分枝比較多的屬性值,即取值多的屬性,在C4.5中由于除以了H(V),可以削弱這種作用。
算法首先會計算所有屬性的信息增益率,選出值最大的屬性作為決策樹根節點屬性,然后在葉子節點中迭代此過程。C4.5算法本身是成熟的算法,決策樹分類預測算法可以根據具體情況具體選擇,R、SPSS、SAS等專業數據挖掘工具中都有相應的算法包供調用,算法輸出的是決策樹結果文件或者可視化的決策樹。
第四步:基于決策樹提取出規則,這些規則可以轉化為數據庫中IF-ELSE形式的查詢語句。從決策樹的根節點到葉子節點所經過的屬性組成一條規則的判斷條件屬性,符合這些屬性的用戶被分組到對應的預測分組之中。可以把所有的路徑提取出來作為規則庫,也可以加上專家經驗選取出符合業務邏輯的規則然后再加入到規則庫中。前者是閉環自動的方式完成,效率較高,但準確率較低。后者加上了業務專家的經驗,但挖掘過程不再是自動方式完成。
第五步:在業務邏輯區進行固化規則。固化的規則一組判斷條件和結果的組合。當用戶請求到達后根據規則進行判斷評級,返回用戶相應的等級。規則要根據評級的效果進行持續的優化。根據業務反饋的結果與評級的結果進行比較,判斷評級的質量,進行指標。持續進行指標監控,并持續優化規則。

圖3 數據挖掘流程圖
模型質量通過比對驗證數據與模型預測結果來進行評估。通過8萬條訓練樣本數據訓練出決策樹規則模型,然后通過2萬條驗證樣本數據進行驗證。驗證樣本數據的目標字段的實際類別是已知的,通過決策樹規則得到目標字段的預測類別,然后與實際類別進行對比來評估模型,如表4所示。

表4 預測結果與實際結果對比表
正確率是指模型總體的正確率,是指模型能正確預測、識別1和0的對象數量與預測對象總數的比值。正確率是綜合評價模型準確度的一個指標。

根據公式計算正確率為98.68%。模型正確識別為正的對象占全部觀察對象中實際為正的對象數量比值,指風險用戶的識別度,風險用戶識別度越高業務風險越小。
為了基于通信運營商大數據對個人信用風險進行控制,設計了一種基于運營商大數據的征信評級模型,提高了風險用戶識別準確率。可以通過征信模型對外提供用戶信用評級服務,需要與外部客戶聯合建立個性化模型,這是需要下一步要深入的研究的問題。
[1]張健華.互聯網征信發展與監管[J].中國金融,2015(1):40-42.
[2]劉曉叢.基于P2P網貸的中小企業融資問題研究[J].時代金融,2014(1):216-217.
[3]趙雅敬.P2P網絡借貸緩解科技型中小企業融資難問題研究[J].經濟研究參考,2014(25):57-64.
[4]劉金燕.基于互聯網金融的中小企業融資模式探討[J].中國市場,2014(43):102-103.
[5]王朝霞,張婷婷.互聯網金融在小微企業融資領域的應用現狀及問題研究[J].中外企業家,2014(16):111-112.
[6]馬義玲.我國個人信用征信過程中金融隱私權保護問題探討[J].征信,2014(1):52-54.
[7]陳云,石松.基于PSO-BP集成的國內外企業信用風險評估[J].計算機應用研究,2014,31(9):2705-2710.
[8]崔東文.基于多元變量組合的回歸支持向量機集成模型及其應用[J].水利水運工程學報,2014(2):66-73.
[9]谷紅勛,張霖.DPI:運營商大數據安全運營的基石[J].網絡空間安全,2016(7):23-26.
[10]何高峰,楊明,羅軍舟,等.Tor匿名通信流量在線識別方法[J].軟件學報,2013,24(3):540-556.
[11]董仕,丁偉.基于流記錄偏好度的多分類器融合流量識別模型[J].通信學報,2013,34(10):143-152.
[12]趙博,郭虹,劉勤讓,等.基于加權累積和檢驗的加密流量盲識別算法[J].軟件學報,2013,24(6):1334-1345.
[13]何廣才,周根寶.基于MapReduce的改進蟻群算法在TSP中的應用[J].內蒙古農業大學學報,2015,36(5):125-132.
[14]楊倩倩,生佳根,趙海田.K-means聚類算法在民航客戶細分中的應用[J].電子設計工程,2015(12):25-27.
[15]胡俊,胡賢德,程家興.基于Spark的大數據混合計算模型[J].計算機系統應用,2015(4):216-220.
[16]龔燦,盧軍.基于Spark的實時情景推薦系統關鍵技術研究[J].電子測試,2016(4):48-50.