顧詩韜 李佳燡
(中央財(cái)經(jīng)大學(xué)中國金融發(fā)展研究院,北京 100000)
信用評分是運(yùn)用數(shù)學(xué)優(yōu)化理論(包括統(tǒng)計(jì)學(xué)方法、運(yùn)籌學(xué)方法等),依照既定原則(損失最小原則或風(fēng)險(xiǎn)溢價(jià)原則),利用客戶的申請資料區(qū)分不同違約率水平客戶的方法。根據(jù)客戶的信用分?jǐn)?shù),授信者可以分析客戶按時(shí)還款的可能性[1]。
Mangasarian[2]于1963年首先提出可將線性規(guī)劃方法應(yīng)用于線性及非線性分類問題。20世紀(jì)70年代末到80年代初,F(xiàn)reed和Glover[3,4]提出一系列用于解決判別問題的線性規(guī)劃模型。
以上提及的研究成果著眼于單個(gè)目標(biāo)的優(yōu)化,而石勇和他的研究團(tuán)隊(duì)自1998年起研究數(shù)據(jù)分析和數(shù)據(jù)挖掘領(lǐng)域的多目標(biāo)規(guī)劃問題,并在前人基礎(chǔ)上提出一系列多目標(biāo)數(shù)學(xué)規(guī)劃模型(Multiple criteria mathematical program, MCMP)。目前,MCMP已經(jīng)成為計(jì)算金融和商業(yè)智能領(lǐng)域應(yīng)用最優(yōu)化技術(shù)解決數(shù)據(jù)挖掘問題的最受歡迎的方法之一[5]。
在眾多MCMP模型中,MCLP(多目標(biāo)線性規(guī)劃)于2001年首先由石勇及其團(tuán)隊(duì)提出,并被成功應(yīng)用在信用卡客戶管理問題中[6]。總結(jié)之前的研究成果,MCLP用于個(gè)人信用評分領(lǐng)域具有以下優(yōu)勢:一是,相對于其他方法,線性規(guī)劃模型不需要任何假設(shè)條件,與實(shí)際經(jīng)濟(jì)環(huán)境相符;二是,準(zhǔn)確率和靈敏度較高,可以滿足實(shí)際操作對違約風(fēng)險(xiǎn)控制的要求;三是,作為一種線性分類模型,原理簡單易懂,操作簡便,易于計(jì)算機(jī)實(shí)現(xiàn);四是,可以處理大樣本數(shù)據(jù),滿足多分類需求,受解釋變量相關(guān)性和共線性影響小,能較好地適應(yīng)不同的情況。
線性規(guī)劃是一種運(yùn)籌學(xué)方法,它能將個(gè)人信用評分轉(zhuǎn)化為一個(gè)帶有不等式約束的最優(yōu)化問題。其基本思路可以這樣來描述:
假設(shè):我們有一個(gè)樣本, 其中有nG個(gè)好客戶(將其標(biāo)記為i=1,2,3…nG+ng)、nB個(gè)壞客戶(將其標(biāo)記為i=nG+1,nG+2,…nG+ng);我們可以從客戶的申請表中得到m個(gè)預(yù)測變量,因此客戶i的特征項(xiàng)向量為(Xi1,Xi2,Xi3……,Xim)m個(gè)預(yù)測變量對應(yīng)的權(quán)重為W1,W2,W3,……,Wm;臨界值c值用來區(qū)分兩組客戶, WXi≤c,則Xi為好客戶,反之為壞客戶。
此時(shí)模型建立如下:


研究獲取德國信用數(shù)據(jù)German credit data(UCI),英國信用數(shù)據(jù)集(Credit)_Thomas 《Credit scoring and its applications》(UCI),日本信用篩查數(shù)據(jù)Japanese Credit Screening Data Set(UCI),信用評估競賽數(shù)據(jù)(數(shù)據(jù)堂),通過數(shù)據(jù)清理獲得最終的平衡數(shù)據(jù)集。在實(shí)驗(yàn)中,分別使用MCLP,DEA以及Logistic回歸三種分類器對同樣的數(shù)據(jù)進(jìn)行計(jì)算,由各混淆矩陣可算出分類器的靈敏性、特效性、準(zhǔn)確率。
綜合四個(gè)數(shù)據(jù)庫的分類結(jié)果,可總結(jié)出MCLP、Logistic回歸以及DEA算法的優(yōu)劣如下:從準(zhǔn)確率來看,MCLP模型穩(wěn)健性較好,始終維持在70%左右,且訓(xùn)練組測試組準(zhǔn)確率變化不大;DEA算法準(zhǔn)確率雖略高于MCLP模型,但穩(wěn)健性不夠,訓(xùn)練組和測試組之間的準(zhǔn)確率相差過多;而logistic回歸相比而言略優(yōu)于其余兩種算法。
從靈敏性來看,三種算法差別不大。然而在英國數(shù)據(jù)庫的計(jì)算中,測試組的靈敏性出現(xiàn)了異常值,MCLP和DEA算法得出的結(jié)論都小于50%,相比而言DEA算法要穩(wěn)健得多。
從特效性來看,MCLP模型表現(xiàn)出了較大優(yōu)勢,比率均高于其余兩種算法且較為穩(wěn)健,而在實(shí)際生活中,對于壞客戶的識別非常重要,因此MCLP模型在實(shí)際運(yùn)用中非常適合用于個(gè)人信用評分。
由MCLP模型的原理可知,資源數(shù)量即臨界值的變化會對模型的準(zhǔn)確率產(chǎn)生影響。特對臨界值進(jìn)行敏感度分析以優(yōu)化模型。研究選取了數(shù)據(jù)質(zhì)量較好的德國數(shù)據(jù)庫中的數(shù)據(jù),以全部屬性為變量,計(jì)算當(dāng)b值在-25到25之間,以步長0.5變化時(shí)相應(yīng)得出的測試集的準(zhǔn)確率的變動情況,準(zhǔn)確率基本以0為軸對稱分布,隨著與0之差的絕對值的增加,準(zhǔn)確率呈現(xiàn)不斷下降的趨勢,而b值在-3到3之間所對應(yīng)的準(zhǔn)確率較高,實(shí)驗(yàn)結(jié)果表明,當(dāng)b值取-3時(shí),準(zhǔn)確率最高達(dá)75%。因此可得結(jié)論,c值的選取以-3到3之間為宜。
對MCLP模型進(jìn)行評估可得,相比logistic回歸及DEA算法而言,MCLP模型更為穩(wěn)健,在四個(gè)數(shù)據(jù)庫中的實(shí)驗(yàn)準(zhǔn)確率都在70%左右,由于在實(shí)際生活中,將壞客戶誤判為好客戶的代價(jià)遠(yuǎn)高于將好客戶誤判為壞客戶的代價(jià),因此模型的特效性較為重要,而MCLP模型的特效性顯示略高于其余兩種模型,因此選取MCLP模型是合理并且有效的。此外,由靈敏度分析可得,當(dāng)模型中的臨界值取在-3到3之間時(shí),模型準(zhǔn)確度較高,本文認(rèn)為取-3為宜。