基于優(yōu)化CBR的個人信用評分研究

2014-08-22 09:01:40姜明輝韓旖桐

中國軟科學(xué) 2014年12期

姜明輝，許佩，韓旖桐，覃志

(哈爾濱工業(yè)大學(xué) 管理學(xué)院，黑龍江哈爾濱 150001)

一、引言

個人信用評分興起于20世紀(jì)五六十年代，是社會經(jīng)濟(jì)發(fā)展的必然產(chǎn)物，同時也極大地推進(jìn)了社會經(jīng)濟(jì)的發(fā)展。經(jīng)濟(jì)危機(jī)之后，個人信用評分引起了金融機(jī)構(gòu)的高度重視[1]。目前國內(nèi)外的信用評分模型以統(tǒng)計學(xué)模型和人工智能模型為主。統(tǒng)計學(xué)模型理論基礎(chǔ)豐富，具有較強(qiáng)的解釋能力但精度不高，對數(shù)據(jù)分布要求苛刻[2]，人工智能方法精度較高但解釋性及穩(wěn)定性不強(qiáng)。此外，這些成熟的個人信用評分模型都面臨著樣本偏差的問題，亟待解決[3]。

我國的個人信用制度建設(shè)起步較晚，灰色收入和數(shù)據(jù)造假的存在使已有數(shù)據(jù)庫有效性和權(quán)威性較低。同時，我國正處在經(jīng)濟(jì)文化社會的高速發(fā)展時期，個人信用還面臨著人口漂移和信用樣本動態(tài)變化等問題[4]，所以還需要尋求一種新的方法，既能夠解決中國存在的現(xiàn)實問題，又能夠保留傳統(tǒng)方法的優(yōu)點(diǎn)，具備一定精確度，穩(wěn)定性和解釋性，案例推理(CBR)就是在這樣的環(huán)境下應(yīng)運(yùn)而生。

二、基于CBR的個人信用評分模型設(shè)計

(一)CBR原理

案例推理(Case-Based Reasoning，CBR)興起于20世紀(jì)八九十年代，它主要是通過對已有案例的積累來獲取新案例的解決方案[5]。CBR具有自我學(xué)習(xí)，逐步完善的特點(diǎn)，且與RBR相比，CBR不受統(tǒng)計規(guī)則的束縛[6]，因此近年來案例推理逐漸成為人工智能方法中的研究熱點(diǎn)，并在計算機(jī)、自動化、機(jī)械制造、經(jīng)濟(jì)學(xué)等領(lǐng)域得到了廣泛利用[7]。

CBR主要由案例庫及案例推理循環(huán)構(gòu)成。已有的數(shù)據(jù)通過案例表達(dá)形成由特征集及案例解構(gòu)成的案例，形成案例庫；案例推理循環(huán)為CBR的核心步驟，主要包括四步：案例檢索，在案例庫中尋找新案例的相似案例；案例重用，輸出相似案例的解，形成建議解集；案例修正，基于建議解集對新案例的解進(jìn)行判別；案例保存，將新案例保存至案例庫[8]。

(二)模型框架設(shè)計

將CBR應(yīng)用于個人信用評分，可以通過案例推理循環(huán)將拒絕樣本加入案例庫，主要思路如下。

首先，已接受的客戶通過案例表達(dá)構(gòu)成原始案例庫，每個案例包括特征集(個人信用評分指標(biāo)，如表1)和案例解(客戶違約與否)構(gòu)成；其次，采用基于歐式距離的KNN算法檢索與被拒絕的客戶相似的案例，輸出建議解集，并采用基于多數(shù)投票原則的等權(quán)重投票進(jìn)行案例修正，得到被拒絕客戶的解，即其違約情況；最后，將被拒絕客戶通過案例重用加入原始案例庫，形成全面案例庫。對于新的待判案例，將基于全面案例庫進(jìn)行信用評分。

(三)模型優(yōu)勢分析

CBR模擬人類大腦認(rèn)知過程，具有一定的自我學(xué)習(xí)能力，將CBR應(yīng)用于個人信用評分，不僅能夠解決樣本偏差問題，同時能夠?qū)崿F(xiàn)樣本的動態(tài)管理，滿足我國個人信用評分的需求。

(1)解決樣本偏差問題

樣本偏差問題的實質(zhì)為拒絕推論，即已有的模型是以被接受的客戶的數(shù)據(jù)為基礎(chǔ)進(jìn)行信用評分，缺乏被拒絕客戶的數(shù)據(jù)，從而導(dǎo)致信用樣本有偏。CBR可以將被拒絕的客戶作為新案例通過案例循環(huán)加入到案例庫中，且無需因樣本規(guī)模的變動而構(gòu)建新的模型，進(jìn)而解決樣本偏差問題。

(2)實現(xiàn)樣本的動態(tài)管理

對CBR而言，可以通過對特征指標(biāo)的權(quán)值進(jìn)行修正來適應(yīng)人口特征的變化，并且通過及時更新數(shù)據(jù)庫以適應(yīng)新的環(huán)境，實現(xiàn)系統(tǒng)的持續(xù)性學(xué)習(xí)，從而解決個人信用評分中遇到的信用樣本動態(tài)變化的問題。

(3)干擾數(shù)據(jù)的有效處理

與統(tǒng)計學(xué)方法不同，CBR對信用樣本數(shù)據(jù)分布并無嚴(yán)格要求，且CBR通過科學(xué)合理的案例表達(dá)能夠盡可能的將有效信息納入到案例中去，同時剔除噪聲數(shù)據(jù)和冗余數(shù)據(jù)，提高案例庫的有效性。

(四)模型局限性分析

將CBR應(yīng)用于個人信用評分，仍面臨著來自傳統(tǒng)CBR假設(shè)條件的制約。

(1)案例檢索假設(shè)制約

案例檢索是篩選相似案例的關(guān)鍵步驟，傳統(tǒng)CBR方法假設(shè)特征集中各特征變量具有相同權(quán)重，這與個人信用評分實際不符。在個人信用評分中，不同地區(qū)不同指標(biāo)對客戶違約與否的影響不同，且指標(biāo)的權(quán)重也能夠為商業(yè)銀行的政策制定提供很大的指導(dǎo)作用，需要評分模型能夠提供準(zhǔn)確的輸出。

(2)案例修正假設(shè)制約

案例修正是輸出待判案例解的最后一步，傳統(tǒng)CBR方法假設(shè)所有相似案例具有相同權(quán)重，與現(xiàn)實不符，容易導(dǎo)致最近鄰代表的知識將被其他鄰近案例覆蓋，這種影響在k值較大時比較明顯。相似案例權(quán)重相等，將導(dǎo)致已有數(shù)據(jù)信息無法得到充分利用。在我國個人信用數(shù)據(jù)有限的現(xiàn)狀下，這些有效信息更應(yīng)該被充分挖掘。

三、基于CBR的個人信用評分模型優(yōu)化

針對案例推理模型應(yīng)用于個人信用評分時所表現(xiàn)出的局限性，本節(jié)將采用基于Logistic回歸-BP神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整算法對案例檢索進(jìn)行優(yōu)化，以相似案例距離為權(quán)重進(jìn)行投票對案例修正進(jìn)行優(yōu)化，優(yōu)化后模型如圖1所示。

圖1 基于優(yōu)化CBR的個人信用評分模型圖

(一)案例檢索指標(biāo)權(quán)重優(yōu)化

BP神經(jīng)網(wǎng)路具有較強(qiáng)的非線性映射能力，能夠進(jìn)行復(fù)雜的模式識別，能夠較為合理的確定案例檢索中各指標(biāo)權(quán)重。但BP神經(jīng)網(wǎng)絡(luò)穩(wěn)定性較差，易收斂到局部極小值點(diǎn)，且神經(jīng)網(wǎng)絡(luò)還會出現(xiàn)“過擬合”的現(xiàn)象，即隨著訓(xùn)練能力的提高，預(yù)測能力會下降，收斂速度變慢，對樣本存在著過度依賴。鑒于此，本文選取了穩(wěn)健性較強(qiáng)Logisitc回歸方法對BP神經(jīng)網(wǎng)絡(luò)計算出的權(quán)重進(jìn)行調(diào)整。

(1)基于BP神經(jīng)網(wǎng)絡(luò)的權(quán)重計算

本文采用如圖2所示的三層BP神經(jīng)網(wǎng)絡(luò)進(jìn)行指標(biāo)權(quán)重計算。其中，輸入層為客戶指標(biāo)值向量，輸出層為客戶違約情況。

圖2 三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

權(quán)重的計算應(yīng)考慮信息源和測度兩個層面，本文采用如表1所示的權(quán)重計算方法[9-11〗。

表1 四種計算權(quán)重的方法

1.敏感度

敏感度Si指將第i個輸入去除，測度輸出的變化程度。

(1)

其中，P0是每一個訓(xùn)練案例對應(yīng)的正常輸出，Pi是第i個輸入去除后的輸出。L是訓(xùn)練案例庫，n是訓(xùn)練案例的個數(shù)。

2.活躍度

活躍度Aj指第j個神經(jīng)元對訓(xùn)練數(shù)據(jù)活躍程度的方差。

(2)

(3)

則第i個輸入神經(jīng)元的活躍度為：

(4)

其中，d是輸入神經(jīng)元的個數(shù)，M是隱含層神經(jīng)元的個數(shù)。

3.顯著性

一個權(quán)重的顯著性是通過計算相關(guān)權(quán)重的誤差的二次導(dǎo)而測度的，計算方法如下：

(5)

4.相關(guān)性

當(dāng)神經(jīng)元的最大權(quán)重去除后，該神經(jīng)元的相關(guān)性能好的預(yù)測預(yù)期誤差將增加。第j個隱含神經(jīng)元的相關(guān)性計算方法如下：

Rj=(wj)2×var(wji)

(6)

第i個輸入神經(jīng)元的整體相關(guān)性計算方法如下：

(7)

(2)基于Logisitic回歸的模擬群決策權(quán)重計算

為了進(jìn)一步加強(qiáng)Logistic回歸的穩(wěn)定性，本文將抽取s組樣本對Logistic回歸進(jìn)行訓(xùn)練，以取對數(shù)的方式將其轉(zhuǎn)換為線性模型，以各指標(biāo)前的系數(shù)的絕對值(指標(biāo)對違約與否的貢獻(xiàn)程度)與總系數(shù)和之比作為基礎(chǔ)權(quán)重，進(jìn)而得到s組權(quán)重數(shù)據(jù)，并引入群決策算法，將s組權(quán)重數(shù)據(jù)看作s組專家打分結(jié)果，計算每次實驗得出的權(quán)重值和總體實驗得出的權(quán)重值之間的差異，并據(jù)此調(diào)整權(quán)重，縮減二者之間的差異，增強(qiáng)權(quán)重的合理性。

設(shè)s次實驗得到的權(quán)重組和為E={e1,e2,…,e3}，第k次實驗ek的權(quán)重為λk,0≤λk≤1,1≤k≤s。

(8)

從而得到s次的特征重要矩陣為：

A=(aij)m×n

(9)

則第i個案例的第j個特征的初始指標(biāo)權(quán)值為

(10)

每次實驗對于第i個案例的第j個指標(biāo)的得分值為：

(11)

首先，第k次實驗對于第i個案例中的j個指標(biāo)權(quán)重的確定與總體實驗權(quán)重確定的結(jié)果偏差為：

(12)

其次，第k次實驗對于i案例所有指標(biāo)的確定的權(quán)重與總體實驗確定的權(quán)重的偏差和為

(13)

第k次實驗對于第i個案例的第j個特征個體確定的權(quán)重與總體實驗確定的權(quán)重的偏差權(quán)值為：

(14)

根據(jù)偏差進(jìn)行調(diào)整，調(diào)整后的權(quán)重為：

(15)

從而得權(quán)重向量Wi=(ωi1,ωi2，…，ωin)T(1≤i≤m)。

(3)權(quán)重調(diào)整算法

用兩種方法分別計算出各自的權(quán)重之后，本文將以BP神經(jīng)網(wǎng)絡(luò)得到的四種權(quán)重為基礎(chǔ)，以模擬群決策算法得出的權(quán)重為依據(jù)對其進(jìn)行調(diào)整。對這兩種權(quán)重之間的距離進(jìn)行測量，求出權(quán)重調(diào)整系數(shù)以及綜合權(quán)值。這樣，不僅能夠加強(qiáng)權(quán)重確定的穩(wěn)定性，同時能夠充分的利用樣本數(shù)據(jù)中的有效信息。

設(shè)BP神經(jīng)網(wǎng)絡(luò)算法的權(quán)重Wi=(ωi1,ωi2，…，ωin)T，模擬群決策算法的權(quán)重為B=(β1,β2，…,βm)T，則二者間的相似性的量為Si=(si1,si2,…,sin)T，則

(16)

其中，sij=1表示兩種計算方法無差異；若ωij>βi表示兩種計算方法正相似；若ωij≤βi，表示兩種計算方法負(fù)相似。

(17)

(18)

由于本文假設(shè)以模擬群決策算法的結(jié)果為參考，則可以設(shè)正理想解F*=B，則得F*的相似度量為S*=(1,1,…,1)T，由補(bǔ)集關(guān)系知負(fù)理想解F0的相似度量為S0=(0,0,…,0)T，從而有計算結(jié)果與正負(fù)理想解間的差異分別為

(19)

(20)

(21)

則兩種算法的調(diào)整系數(shù)為

(22)

根據(jù)調(diào)整系數(shù)τi對BP神經(jīng)網(wǎng)絡(luò)算法得到的權(quán)重進(jìn)行線性加權(quán)計算和調(diào)整，得

(23)

(二)案例修正相似案例權(quán)重優(yōu)化

為了避免相似案例等權(quán)重問題帶來的有效信息的缺失，本文以各相似案例間經(jīng)過案例檢索所得的距離為基礎(chǔ)賦予各相似案例投票權(quán)，計算其投票權(quán)重。

四、優(yōu)化模型的實證應(yīng)用

(一)數(shù)據(jù)預(yù)處理

本文采用深圳某銀行的數(shù)據(jù)對基于優(yōu)化CBR的個人信用評分模型進(jìn)行實證實驗，指標(biāo)體系及賦值方法見表2。對于存在數(shù)據(jù)缺失的樣本采取了剔除的處理方法。在經(jīng)過數(shù)據(jù)的預(yù)處理之后，數(shù)據(jù)庫中共有4500個個人信用評分樣本。

(二)拒絕樣本的模擬

為了研究方便和排除其他干擾因素的影響，按照信用好壞樣本1∶1的比例，采用分層抽樣的方法隨機(jī)從標(biāo)的銀行的數(shù)據(jù)庫中抽取，共抽取2000個個人信用評分樣本，包括1000個違約樣本及1000個未違約樣本。在這2000個個人信用評分樣本中，以好壞樣本1∶1的比例分別抽取60%作為訓(xùn)練樣本集A，20%作為檢驗樣本集B，10%作

表2 指標(biāo)體系及數(shù)據(jù)預(yù)處理方法表

為拒絕樣本庫CU，10%作為補(bǔ)充樣本庫DU。本節(jié)利用現(xiàn)有標(biāo)準(zhǔn)信用評分模型模擬銀行信用評分機(jī)制來模擬生成拒絕樣本集C，標(biāo)準(zhǔn)信用模型采用logistic回歸模型。具體做法為在拒絕樣本庫CU中，

對樣本進(jìn)行l(wèi)ogistic回歸模型判定，對于違約概率大于65%的樣本將被認(rèn)定為拒絕樣本；違約概率低于65%的樣本將被認(rèn)定為已接受貸款的樣本，共抽取86個樣本形成拒絕樣本集C。為了排除樣本量對模型精確度的影響，本文還將進(jìn)一步從補(bǔ)充樣本庫DU中以好壞樣本1∶1的比例抽取86個樣本形成補(bǔ)充樣本集D，如表3所示。

表3 樣本結(jié)構(gòu)表

(三)優(yōu)化模型的實現(xiàn)

本文構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)，第一層和第二層神經(jīng)元分別采用了logsig和purelin激活函數(shù)。為了確定隱含層個數(shù)，實驗中設(shè)計了一個研究不同隱含層個數(shù)與網(wǎng)絡(luò)預(yù)測誤差關(guān)系的環(huán)節(jié)。實驗結(jié)果表示隱含層神經(jīng)元個數(shù)與預(yù)測誤差的關(guān)系如圖2所示的曲線。

圖2中橫軸為隱含層中神經(jīng)元的個數(shù)，縱軸為BP網(wǎng)絡(luò)預(yù)測誤差。從圖中可以發(fā)現(xiàn)，網(wǎng)絡(luò)預(yù)測誤差隨著隱含層個數(shù)的不同而發(fā)生變化；當(dāng)隱含層數(shù)量設(shè)置為20時，該BP網(wǎng)絡(luò)預(yù)測誤差較小，整體性能最佳。所以，本系統(tǒng)用中的BP網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù)設(shè)置為20個。其中，輸入層神經(jīng)元個數(shù)為10。

圖2 隱含層神經(jīng)元與預(yù)測誤差關(guān)系圖

用訓(xùn)練樣本A訓(xùn)練初始化后的BP網(wǎng)絡(luò)，并分別計算每個輸入變量的敏感度、活躍度、顯著性和相關(guān)性，綜合四種權(quán)重算法結(jié)合Logistic回歸進(jìn)行權(quán)重計算。實驗結(jié)果如圖3所示。

圖3 案例檢索權(quán)重設(shè)計圖

由圖3可知，4種權(quán)重設(shè)計結(jié)果基本一致，而且權(quán)重最小的單位性質(zhì)變量和標(biāo)準(zhǔn)評分模型被排除在模型外的變量相一致。這說明權(quán)重的設(shè)計合理，能夠反映各指標(biāo)在信用評分中的重要程度。這也為將為銀行制定相關(guān)信貸政策提供重要指導(dǎo)信息。

五、優(yōu)化模型應(yīng)用效果分析

為了從多方面比較優(yōu)化案例推理的優(yōu)化效果，分別對模型優(yōu)化前后進(jìn)行了實驗，并將優(yōu)化模型與統(tǒng)計學(xué)模型、人工智能模型對比，對結(jié)果進(jìn)行了分析。

(一)優(yōu)化CBR與傳統(tǒng)CBR效果對比

對優(yōu)化CBR與傳統(tǒng)CBR分別做基于原始案例庫，拒絕樣本判別，基于全面案例庫和系統(tǒng)在線學(xué)習(xí)等四個實驗，實驗結(jié)果如表4所示。其中第一類準(zhǔn)確率是系統(tǒng)將良好客戶識別為良好客戶的比率，第二類準(zhǔn)確率是體統(tǒng)將違約客戶識別為違約客戶的比率。商業(yè)銀行最為關(guān)心的是第二類準(zhǔn)確率。

在基于原始案例庫的實驗中，BP神經(jīng)網(wǎng)絡(luò)選取顯著性和相關(guān)性計算權(quán)重系統(tǒng)整體效果較好，而且這兩種權(quán)重的計算方法較為簡便迅速，故之后的實驗只考慮這兩種權(quán)重設(shè)計方法。

如表4所示，優(yōu)化后的模型雖然在總體分類精度上比傳統(tǒng)的案例推理略有下降，但是最為重要的第二類準(zhǔn)確率明顯提高，這明顯提升了系統(tǒng)的

表4 優(yōu)化CBR與傳統(tǒng)CBR效果對比表

應(yīng)用價值。且在線學(xué)習(xí)的優(yōu)化案例推理系統(tǒng)整體性能又有了一次明顯的提升。兩種權(quán)重設(shè)計方法下的優(yōu)化案例推理系統(tǒng)都已超過了傳統(tǒng)案例推理的表現(xiàn)。特別是最終確定的選取BP神經(jīng)網(wǎng)絡(luò)顯著性權(quán)重設(shè)計方法下的案例推理系統(tǒng)的第二類正確率已經(jīng)比傳統(tǒng)的案例推理方法有了很大程度的提高。

此外，優(yōu)化后的模型不僅能夠?qū)ふ页雠c客戶最相似的K個案例，同時也能輸出特征屬性的權(quán)重，通過這些權(quán)重的賦值，就可以看出各種特征屬性對違約風(fēng)險的影響程度，給出各種特種屬性對信用綜合評分的重要性，有利于銀行制定相應(yīng)的政策。

(二)優(yōu)化CBR與其他模型效果對比

為了進(jìn)一步驗證優(yōu)化CBR在個人信用評分上的應(yīng)用效果，選取統(tǒng)計學(xué)模型及人工智能模型中常用的Logistic回歸與BP神經(jīng)網(wǎng)絡(luò)模型與優(yōu)化模型進(jìn)行對比，其中，優(yōu)化CBR在BP神經(jīng)網(wǎng)絡(luò)權(quán)重計算一步上選取顯著性作為權(quán)重計算標(biāo)準(zhǔn)。樣本使用及分類結(jié)果如表5所示。

表5 優(yōu)化CBR與其他模型分類結(jié)果表

由實驗結(jié)果可知，優(yōu)化的CBR模型整體準(zhǔn)確率較高，且在第二類準(zhǔn)確率上均高于Logistic回歸與BP神經(jīng)網(wǎng)絡(luò)，能夠為銀行政策制定給出更好的參考與指導(dǎo)。

六、結(jié)論

本文針對信用評分領(lǐng)域中存在的問題，尤其是從拒絕推論和個人信用動態(tài)變化問題出發(fā)，分析了CBR應(yīng)用于個人信用信用評分時的優(yōu)勢與局限性。針對局限性對CBR進(jìn)行優(yōu)化，并通過實證數(shù)據(jù)驗證了優(yōu)化后的模型更加適用于個人信用評分，主要研究結(jié)論如下。

1.CBR能夠很好的解決個人信用評分中的樣本偏差及信用樣本動態(tài)漂移的問題，同時能夠?qū)崿F(xiàn)干擾數(shù)據(jù)的有效處理。CBR可以將被拒絕的客戶作為新案例通過案例循環(huán)加入到案例庫中，完善數(shù)據(jù)樣本，且與其他方法相比，CBR無需因樣本規(guī)模的變動而構(gòu)建新的模型，有效解決個人信用評分中的樣本偏差問題。此外，CBR可以通過對特征指標(biāo)的權(quán)值進(jìn)行修正來適應(yīng)人口特征的變化，通過及時更新數(shù)據(jù)庫以適應(yīng)新的環(huán)境，實現(xiàn)系統(tǒng)的持續(xù)性學(xué)習(xí)，有效解決個人信用評分中的信用樣本動態(tài)變化的問題。此外，CBR對數(shù)據(jù)分布無嚴(yán)格要求，且能夠通過合理的案例表達(dá)剔除噪聲數(shù)據(jù)和冗余數(shù)據(jù)，盡可能的保留有效信息。

2.CBR在應(yīng)用于個人信用評分時具有一定局限性。CBR的案例檢索環(huán)節(jié)假設(shè)各指標(biāo)變量具有相同的權(quán)重，而個人信用評分中，不同的指標(biāo)對個人信用的影響不同，其重要性不同，對各指標(biāo)變量設(shè)置相同的權(quán)重與個人信用評分實際不符；CBR的案例修正環(huán)節(jié)假設(shè)所有的相似案例具有相同的權(quán)重，容易導(dǎo)致最近鄰代表的知識將被其他鄰近案例覆蓋，不能充分利用個人信用評分已有的信息。

3. 采用基于Logistic回歸-BP神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整算法及基于距離的投票算法分別優(yōu)化案例檢索和案例修正環(huán)節(jié)，通過實驗證明優(yōu)化的CBR能夠有效的提高個人信用評分模型精確性和解釋性，降低錯分率降低，更加適用于個人信用評分。

結(jié)合BP神經(jīng)網(wǎng)絡(luò)識別能力強(qiáng)和Logistic回歸穩(wěn)定性強(qiáng)的優(yōu)點(diǎn)，設(shè)計了基于Logistic回歸-BP神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整算法。首先，構(gòu)建三層BP神經(jīng)網(wǎng)絡(luò)，考慮信息源和測度兩個層面，從敏感度、活躍度、顯著性、相關(guān)性四個角度出發(fā)計算各指標(biāo)變量的權(quán)重大小；其次，抽取s組樣本對Logistic回歸進(jìn)行訓(xùn)練，得到s組權(quán)重數(shù)據(jù)，并引入群決策算法，進(jìn)一步增強(qiáng)權(quán)重的合理性和穩(wěn)定性；最后，對由BP神經(jīng)網(wǎng)絡(luò)和Logistic回歸兩種方法產(chǎn)生的權(quán)重之間的距離進(jìn)行測量，求出權(quán)重調(diào)整系數(shù)以及綜合權(quán)值，最終得到能夠充分保留樣本數(shù)據(jù)有效信息，體現(xiàn)樣本數(shù)據(jù)特征，同時穩(wěn)定性及解釋性強(qiáng)的個人信用評分特征變量的權(quán)重。

為了避免相似案例等權(quán)重問題帶來的有效信息的缺失，設(shè)計基于距離的投票算法，以各相似案例間經(jīng)過案例檢索所得的距離為基礎(chǔ)，計算案例間距離與相似案例與待判案例距離和之比，賦予各相似案例投票權(quán)。

采用分層抽樣的方法隨機(jī)從標(biāo)的銀行的數(shù)據(jù)庫中抽取，共抽取2000個個人信用評分樣本，抽取10%作為模擬拒絕樣本庫，進(jìn)行實證實驗。實驗建立了三層BP神經(jīng)網(wǎng)絡(luò)，基于預(yù)測誤差確定了神經(jīng)網(wǎng)絡(luò)隱含層數(shù)為20層，并通過實驗得出基于敏感度、活躍度、顯著性、相關(guān)性的四種權(quán)重設(shè)計結(jié)果基本一致，說明了權(quán)重設(shè)計合理，能夠有效的反映各指標(biāo)在信用評分中的重要程度。將優(yōu)化后的CBR與傳統(tǒng)CBR進(jìn)行比較，優(yōu)化后的模型雖然在總體分類精度上偶爾比傳統(tǒng)CBR略有下降，但是最為重要的第二類準(zhǔn)確率明顯提高，且在線學(xué)習(xí)的優(yōu)化案例推理系統(tǒng)整體性能有了明顯的提升，且能輸出指標(biāo)變量及相似案例的權(quán)重，系統(tǒng)的應(yīng)用價值有所提高。將優(yōu)化后的CBR與統(tǒng)計學(xué)模型和人工智能模型中的代表Logistic回歸及BP神經(jīng)網(wǎng)絡(luò)模型對比，得出優(yōu)化的CBR模型整體準(zhǔn)確率較高，且在第二類準(zhǔn)確率上均高于Logistic回歸與BP神經(jīng)網(wǎng)絡(luò)，能夠為銀行政策制定給出更好的參考與指導(dǎo)。

由于研究的問題較為復(fù)雜，本文還有待在以下3個方面進(jìn)一步完善及豐富：一是在案例表達(dá)環(huán)節(jié)的系統(tǒng)研究，如何通過更加合理的案例表達(dá)充分保留個人信用評分的有效信息，可以加入時間因素及環(huán)境因素，考慮二者對個人信用的影響；二是案例檢索環(huán)節(jié)，可以通過建立多個有效子相似案例庫，來提高模型的精確度和穩(wěn)定性；三是將CBR模型進(jìn)一步與個人信貸的政策環(huán)境相結(jié)合，可以通過繪制好客戶先驗概率與準(zhǔn)確率的關(guān)系曲線，根據(jù)該曲線商業(yè)銀行可以在總體后果可預(yù)知的前提下，適當(dāng)調(diào)節(jié)良好客戶出現(xiàn)的先驗概率，更好的適應(yīng)商業(yè)銀行信用政策。

參考文獻(xiàn)：

[1] MARQUéS A I, GARCA V, SNCHEZ J S. A literature review on the application of evolutionary computing to credit scoring[J]. Journal of the Operational Research Society, 2012, 64(9): 1384-1399.

[2] HAND D J, HENLEY W E. Statistical classification methods in consumer credit scoring: A review[J]. Journal of the Royal Statistical Society: Series A：Statistics in Society,1997, 160(3): 523-541.

[3] 張景肖,魏秋萍,姜玉霞,等. 基于兩階段思想處理拒絕推斷的信用評分模型[J]. 數(shù)理統(tǒng)計與管理,2012(6):1049-1060.

[4] 李建平,徐偉宣. 消費(fèi)者信用評估中的PCALWM方法研究[J]. 中國管理科學(xué),2004(2):18-22.

[5] RIESBECK C K, SCHANK R C. Inside case-based reasoning[M]. Psychology Press, 2013.

[6] MARLING C, PETOT G, STERLING L. A CBR/RBR hybrid for designing nutritional menus[C]//Multimodal Reasoning: Papers from the 1998 AAAI Spring Symposium.AAAI Press, Menlo Park,1998.

[7] MARLING C, RISSLAND E, AAMODT A. Integrations with case-based reasoning[J]. The Knowledge Engineering Review, 2005, 20(3): 241-245.

[8] CRAW S. Case-based reasoning[J]. Encyclopedia of Machine Learning, 2010: 147-154.

[9] KWANG HyukIm, SANG Chan Park. Case-based reasoning and neural network based expert system for personalization[J]. Expert Systems with Applications,2007 (32): 77-85.

[10] BUHMANN J M, EMBRECHTS M, ZURADA J M. Special issue on neural networks for data mining and knowledge discovery[M]. IEEE, 2000.

[11] SHIN C K, YUN U T, KIM H K,et al. A hybrid approach of neural network and memory-based learning to data mining[J]. IEEE Transactions On Neural Networks,2000,11(3): 637-644.