文/李琦
國內金融行業的競爭日漸加劇以及外資銀行的大量涌進,國內的銀行轉型在不斷的加快和深入,在金融產品同質化嚴重的行情下,服務的個性化、差異化顯得尤為重要,做好客戶群體的細分,對于不同的客戶群體進行分層,根據客戶群體的個性化需求推出差異化的服務,已成為各大銀行網點尋求發展的必經之路。近年來,各個企業開始致力大額客戶行為軌跡研究,得出雖然大額客戶對企業的貢獻很大,對企業的業績的貢獻影響程度也很高,但隨著互聯網的興起,大額客戶的忠誠度也越來越低。而相對大額客戶,代發客群的穩定性更強,且無需過多的維護,研究代發客群經營模式,做好批量大眾客戶服務營銷,提升代發客群的粘度,這對于銀行網點發展有著重要的作用。代發業務是我省郵政金融的一項重要的源頭性業務,代發單位的維護也是夯實存款的基礎性工作,同時,代發是一種批量獲取客戶數據的最有效且最捷徑的方法,著力拓展代發業務,精準掌握代發客戶需求,對我省郵政金融業務發展有著重要的意義,因此,實現對代發客戶的精準識別,有效提升代發客戶群體對企業的價值,是我們目前技術支撐業務發展的一個重要課題,經過3年多的探索,我們找到了一個可靠的新思路和方法--利用貝葉斯網絡算法設計的優質代發客戶識別模型來為企業識別優質代發客戶,并對此類客戶進行專項維護和營銷管理,有效提升客群的價值。下面,主要從識別模型的具體實現過程對項目進行闡述。
本項目首先通過數據清洗和有效的數據預處理方法對數據進行處理,然后采用貝葉斯網絡算法從大量數據中學習知識、提取知識,其具體過程如圖1所示。
貝葉斯網絡主要是描述一組隨機變量所遵從的聯合概率分布,并通過一組條件概率來指定一組條件獨立性假設,其代表的是一個關于X的概率分布,分解過程如下:

代發客戶是否屬于優質代發客戶其影響因素具有不確定性,并且毫無固定性,在情況不確定或數據不完整時,貝葉斯網絡推理算法就變得更為便捷和準確。即使缺少其中某一輸入變量仍然不會影響模型的精確性。同時貝葉斯網絡還允許學習變量之間存在因果關系,在以往的數據建模中,都需要剔除變量之間的因果關系,而貝葉斯方法具有因果和概率語義,可以用來學習數據中的因果關系。從而對客戶進行分類和行為預測。
我省累計簽約代發客戶數量已達1280萬戶,但是存在很大一部分客戶只是臨時性的代發,并且部分客戶存在關鍵信息不全以及一人多卡等問題,通過系統分析近4年的代發交易數據,清洗身份證信息不全、身份證信息不正確、一人批量開多卡,一卡多種類代發協議簽訂等情況的客戶數據,并統計中間業務辦理的批量代發流水,將近一年未有代發交易的客戶剔除,且簽約時間距離計算日期超過一年,交易次數少于5次的客戶進行剔除,得到較為高質量的數據。
在批量代發流水中得到近4年有效代發客戶的代發次數以及代發明細,統計每一筆交易的業務碼和摘要的次數,并結合代發簽約信息所對應的每個客戶簽約的業務碼,對客戶進行標簽化,實現了896.3萬客戶標簽化。其中標簽種類主要為:社保類、煙草類、財政補貼類、公益類、工資類等。并且針對客戶資產情況進行資產星級評定,一星到八星分別代表客戶資產星級,數字的大小代表資產星級的高低,例一星表示該客戶資產星級較低,八星表示該客戶資產星級較高。
依據過去的研究成果和我省代理金融業務的現實情況、資深業務人員的經驗加上我們對模型變量的初步探索,通過與業務部門相關人員的討論,最終將客戶基本信息、客戶交易信息、業務基本信息作為建模的輸入變量。其中這些指標主要為:年齡、性別、代發標簽、資產星級、是否購買理財、是否購買保險、定期余額、活期余額、總資產、年均余額、年均代發金額、本月代發金額、累計代發金額這13個指標作為輸入變量。

圖1
本項目的數據有定性型數據和定量型數據,而定量型數據中既有離散型數據又有連續型數據,且連續型數據的上下幅度很大,比如代發金額寬度在[1107,43189],年齡層級別也分布不均,對于這種不平衡的數據就需要進行預處理。
本項目重點在對定量數據進行離散化處理,主要采用熵最小離散化方法進行離散化處理。輸入變量中年齡X1、定期余額X7、活期余額X8、總資產X9、年均余額X10、年均代發金額X11、本月代發金額X12、累計代發資金X13為定量型數據,且取值范圍較大,需要對這8個變量進行離散化處理。
對于定性數據轉換成數字表示,采用{1,2}代表其取值{否,是}等類似轉換。同時,由于貝葉斯網絡算法是通過計算屬性間的條件概率、后驗概率建模的,這種方法固有的特性使得貝葉斯分類器不擅長處理連續型以及數量過多的離散型數據。數目過多的離散型數據如客戶年齡等,其取值從18到90不等,而且代發集中年齡在30-50歲之間,代發的金額也從1000-10000不等,對于個別類別稀疏,條件概率或后驗概率會出現較多的1值和0值,這些極端的情況會誤導真實的分類。所以將這些連續型的變量也進行離散化處理。
數據規模的大小直接影響分類器的選擇,數據規模落實到具體問題中即為屬性性數量、屬性取值范圍、屬性的關聯屬性數量等呈正相關。屬性數量越多、屬性取值越多、屬性關聯越復雜,對于分類器所需要的樣本量就越大,本項目數據含13個指標,其中3個類別屬性,2個定性屬性,8個定量屬性,數據規模較大,而K2算法的分類器能夠巧妙利用先驗知識,極大減少了搜索空間與計算量。
我們采用K2分類器,并且針對定量型變量,采用 EMD對其進行離散化處理,避免變量取值分布極端、取值過多等誤導真實的分類模型或不利于知識的提取。同時采用ROC曲線評價分類器的好壞,AUC(Area Under the ROC Curve)作為分類器性能的指標。
通過給定的代發客戶訓練數據,建立貝葉斯網絡的拓撲結構(有向無環圖DAG)和結點的條件概率分布參數,在給定貝葉斯網絡的拓撲結構和結點的條件概率的分布后,再使用該網絡,計算未知代發客戶的條件概率和后驗概率,從而達到是否為優質代發客戶分類的目的。并在我局自主開發的湖南郵政金融輔助系統每月對優質代發客戶資產情況以及代發情況報表展示,并不定期的篩選客戶進行專項營銷活動。
本文以我省金融業務關注的代發客戶價值提升為研究點,選取了可能影響客戶價值的13個指標,在研究方法上,將統計學檢驗方法與數據挖掘方法、優化建模方法和業務經驗進行有效結合,實現了統計學與應用實踐的融合、定性分析與定量建模方法的統一,獲得了優質代發客戶識別的目標,很好的解決了業務中遇到的實際問題。
優質代發客戶識別模型在我省郵政金融業務領域應用后,2018年全年代理金融網點代發客戶留存率較上一年提升11.43%,網點針對代發客戶的年均維護率達75.5%, 平均每個網點都借助系統全年開展了一次專項營銷活動,發展最好的地市,平均每個網點全年開展了3次活動,代發客群總資產留存率為13.81%,目前依靠該模型有效識別優質代發客戶月度最高達到18萬戶,為我省郵政代理金融網點余額提升做了很大的貢獻,同時,也進一步加深了網點營銷人員對代發客戶的特征了解,為后期代發客戶群管理和營銷活動開展積累了寶貴的經驗。