顧詩韜 李佳燡
(中央財經大學中國金融發展研究院,北京 100000)
信用評分是運用數學優化理論(包括統計學方法、運籌學方法等),依照既定原則(損失最小原則或風險溢價原則),利用客戶的申請資料區分不同違約率水平客戶的方法。根據客戶的信用分數,授信者可以分析客戶按時還款的可能性[1]。
Mangasarian[2]于1963年首先提出可將線性規劃方法應用于線性及非線性分類問題。20世紀70年代末到80年代初,Freed和Glover[3,4]提出一系列用于解決判別問題的線性規劃模型。
以上提及的研究成果著眼于單個目標的優化,而石勇和他的研究團隊自1998年起研究數據分析和數據挖掘領域的多目標規劃問題,并在前人基礎上提出一系列多目標數學規劃模型(Multiple criteria mathematical program, MCMP)。目前,MCMP已經成為計算金融和商業智能領域應用最優化技術解決數據挖掘問題的最受歡迎的方法之一[5]。
在眾多MCMP模型中,MCLP(多目標線性規劃)于2001年首先由石勇及其團隊提出,并被成功應用在信用卡客戶管理問題中[6]。總結之前的研究成果,MCLP用于個人信用評分領域具有以下優勢:一是,相對于其他方法,線性規劃模型不需要任何假設條件,與實際經濟環境相符;二是,準確率和靈敏度較高,可以滿足實際操作對違約風險控制的要求;三是,作為一種線性分類模型,原理簡單易懂,操作簡便,易于計算機實現;四是,可以處理大樣本數據,滿足多分類需求,受解釋變量相關性和共線性影響小,能較好地適應不同的情況。
線性規劃是一種運籌學方法,它能將個人信用評分轉化為一個帶有不等式約束的最優化問題。其基本思路可以這樣來描述:
假設:我們有一個樣本, 其中有nG個好客戶(將其標記為i=1,2,3…nG+ng)、nB個壞客戶(將其標記為i=nG+1,nG+2,…nG+ng);我們可以從客戶的申請表中得到m個預測變量,因此客戶i的特征項向量為(Xi1,Xi2,Xi3……,Xim)m個預測變量對應的權重為W1,W2,W3,……,Wm;臨界值c值用來區分兩組客戶, WXi≤c,則Xi為好客戶,反之為壞客戶。
此時模型建立如下:


研究獲取德國信用數據German credit data(UCI),英國信用數據集(Credit)_Thomas 《Credit scoring and its applications》(UCI),日本信用篩查數據Japanese Credit Screening Data Set(UCI),信用評估競賽數據(數據堂),通過數據清理獲得最終的平衡數據集。在實驗中,分別使用MCLP,DEA以及Logistic回歸三種分類器對同樣的數據進行計算,由各混淆矩陣可算出分類器的靈敏性、特效性、準確率。
綜合四個數據庫的分類結果,可總結出MCLP、Logistic回歸以及DEA算法的優劣如下:從準確率來看,MCLP模型穩健性較好,始終維持在70%左右,且訓練組測試組準確率變化不大;DEA算法準確率雖略高于MCLP模型,但穩健性不夠,訓練組和測試組之間的準確率相差過多;而logistic回歸相比而言略優于其余兩種算法。
從靈敏性來看,三種算法差別不大。然而在英國數據庫的計算中,測試組的靈敏性出現了異常值,MCLP和DEA算法得出的結論都小于50%,相比而言DEA算法要穩健得多。
從特效性來看,MCLP模型表現出了較大優勢,比率均高于其余兩種算法且較為穩健,而在實際生活中,對于壞客戶的識別非常重要,因此MCLP模型在實際運用中非常適合用于個人信用評分。
由MCLP模型的原理可知,資源數量即臨界值的變化會對模型的準確率產生影響。特對臨界值進行敏感度分析以優化模型。研究選取了數據質量較好的德國數據庫中的數據,以全部屬性為變量,計算當b值在-25到25之間,以步長0.5變化時相應得出的測試集的準確率的變動情況,準確率基本以0為軸對稱分布,隨著與0之差的絕對值的增加,準確率呈現不斷下降的趨勢,而b值在-3到3之間所對應的準確率較高,實驗結果表明,當b值取-3時,準確率最高達75%。因此可得結論,c值的選取以-3到3之間為宜。
對MCLP模型進行評估可得,相比logistic回歸及DEA算法而言,MCLP模型更為穩健,在四個數據庫中的實驗準確率都在70%左右,由于在實際生活中,將壞客戶誤判為好客戶的代價遠高于將好客戶誤判為壞客戶的代價,因此模型的特效性較為重要,而MCLP模型的特效性顯示略高于其余兩種模型,因此選取MCLP模型是合理并且有效的。此外,由靈敏度分析可得,當模型中的臨界值取在-3到3之間時,模型準確度較高,本文認為取-3為宜。