趙 凱,黃全生,張 玥
(安徽工程大學(xué) 數(shù)理學(xué)院,安徽 蕪湖 241000)
近年來(lái),我國(guó)信用卡業(yè)務(wù)快速發(fā)展。截至2017年底,我國(guó)信用卡累計(jì)發(fā)行7.9億張,當(dāng)年新增1.6億張,同比增長(zhǎng)25.9%,活卡率(180天)達(dá)73.1%,未償信貸余額為5.56萬(wàn)億元,同比增長(zhǎng)了36.8%。個(gè)人信用消費(fèi)行為日趨增多,個(gè)人信用評(píng)估問(wèn)題成為信貸行業(yè)的研究熱點(diǎn)。最初進(jìn)行的個(gè)人信用評(píng)估主要采用經(jīng)驗(yàn)判別法[1],具有較大的主觀性。為了解決這些問(wèn)題,個(gè)人信用評(píng)估模型應(yīng)運(yùn)而生。最先被用于個(gè)人信用評(píng)估模型的是統(tǒng)計(jì)學(xué)和運(yùn)籌學(xué)的方法[2-3]。隨著計(jì)算機(jī)的發(fā)展,機(jī)器學(xué)習(xí)方法[4-7]、深度學(xué)習(xí)方法[8]、數(shù)據(jù)挖掘方法[9]被不斷地運(yùn)用到個(gè)人評(píng)估領(lǐng)域。關(guān)聯(lián)規(guī)則的概念于1993年被Agrawal[10]等提出,他們同時(shí)給出了相應(yīng)的挖掘算法AIS,但是性能較差。1994年,他們建立了項(xiàng)目集格空間理論,并依據(jù)上述兩個(gè)定理,提出了著名的Apriori算法。在Apriori算法的基礎(chǔ)上,學(xué)者們不斷地對(duì)其進(jìn)行了改進(jìn),CBA算法[11]、WCBA算法[12]、CMAR算法[13]等被開(kāi)發(fā)出來(lái)。CBA算法作為最早出現(xiàn)的數(shù)據(jù)挖掘算法之一,是以支持度和置信度作為測(cè)度,并視所有屬性對(duì)規(guī)則的重要性一致的算法。WCBA算法是在CBA算法的基礎(chǔ)上對(duì)屬性權(quán)重進(jìn)行了專家打分分析,CMAR算法則是在CBA算法的基礎(chǔ)上改進(jìn)了測(cè)度,引入了卡方測(cè)度作為新的測(cè)度。文中AWCBA算法在屬性規(guī)則加權(quán)上利用支持度、置信度以及卡方測(cè)度進(jìn)行標(biāo)準(zhǔn)化處理并取最大值作為權(quán)重,拋棄了傳統(tǒng)的專家打分等主觀方法;在規(guī)則剪枝上采用了利用規(guī)則權(quán)重自動(dòng)化剪枝的方法,避免了傳統(tǒng)的最小支持度、最小置信度閾值設(shè)定不精確的問(wèn)題;在分類預(yù)測(cè)上采用了支持度、置信度以及卡方測(cè)度的調(diào)和均值作為新的測(cè)度,解決了單一測(cè)度造成的誤差影響。在研究中,為了檢驗(yàn)所提出算法的準(zhǔn)確性,與其他算法進(jìn)行了比較,最后使用了某商業(yè)銀行信用卡業(yè)務(wù)客戶的個(gè)人信息中的數(shù)據(jù)來(lái)測(cè)試所提出的AWCBA算法。
自1998年出現(xiàn)第一個(gè)基于關(guān)聯(lián)的分類算法(CBA)以來(lái),關(guān)聯(lián)分類算法的設(shè)計(jì)及應(yīng)用研究一直非常活躍。關(guān)聯(lián)分類算法除了在個(gè)人信用評(píng)估方面有著廣泛的應(yīng)用,在煤炭安全[14]、文本分類[15]、醫(yī)學(xué)圖像數(shù)據(jù)挖掘[16]的研究中,也起到了顯著的效果。在關(guān)聯(lián)分類算法中,人們最關(guān)心的問(wèn)題便是分類結(jié)果的準(zhǔn)確性,而算法的測(cè)度選擇則直接影響分類結(jié)果。在最開(kāi)始的研究中,關(guān)聯(lián)分類算法是將支持度和置信度作為測(cè)度[17]。當(dāng)規(guī)則的支持度和置信度滿足最小閾值時(shí),此規(guī)則被收錄為強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)分類是數(shù)據(jù)挖掘中一種新的分類方法,它將關(guān)聯(lián)規(guī)則挖掘和分類進(jìn)行了算法集成,然而,在關(guān)聯(lián)規(guī)則的分類算法中,分類器的準(zhǔn)確率受到支持度和置信度閾值的影響。以往的關(guān)聯(lián)分類算法都是根據(jù)經(jīng)驗(yàn)人為地設(shè)置支持度和置信度的閾值,很難保證分類器總能達(dá)到較好的分類效果[18]。另外,在實(shí)際應(yīng)用中,數(shù)據(jù)庫(kù)中不同的項(xiàng)目對(duì)規(guī)則起到不同的重要性[19]。在此基礎(chǔ)上進(jìn)行了改進(jìn),提出了AWCBA算法,流程如圖1所示。

圖1 AWCBA算法流程圖
在傳統(tǒng)的挖掘規(guī)則中,屬性是否重要取決于它在事務(wù)集中的計(jì)數(shù),并且假定所有屬性都具有同等的重要性。但是近年來(lái),研究人員發(fā)現(xiàn),屬性是否重要不能單純依賴于數(shù)量方面,事務(wù)集中不同的屬性對(duì)規(guī)則起到不同的重要性。因此有必要加強(qiáng)重要屬性對(duì)規(guī)則的影響,同時(shí)減弱不重要的屬性對(duì)規(guī)則的影響。
Jaber Alwidian[12]等提出了加權(quán)關(guān)聯(lián)規(guī)則挖掘,在數(shù)據(jù)集內(nèi),通過(guò)一個(gè)權(quán)重生成算法使用領(lǐng)域知識(shí)為項(xiàng)目分配權(quán)重,然后將權(quán)重輸入到算法,將權(quán)重應(yīng)用到項(xiàng)目中,并使用加權(quán)支持度生成強(qiáng)關(guān)聯(lián)規(guī)則列表。它通過(guò)對(duì)數(shù)據(jù)庫(kù)中的項(xiàng)目賦權(quán)來(lái)進(jìn)行規(guī)則挖掘,權(quán)重用于反映數(shù)據(jù)庫(kù)中項(xiàng)的重要性。它的優(yōu)點(diǎn)是可以在挖掘過(guò)程中使用加權(quán)支持度發(fā)現(xiàn)那些具有高權(quán)重的強(qiáng)關(guān)聯(lián)規(guī)則。然而大多數(shù)數(shù)據(jù)項(xiàng)不帶有預(yù)先分配的權(quán)重,權(quán)重需要受領(lǐng)域內(nèi)的專家的調(diào)整。其中專家可以分配不同的權(quán)重,從而生成不同的規(guī)則。
對(duì)于大多數(shù)分類器來(lái)說(shuō),特征加權(quán)一直是分類的瓶頸,特征加權(quán)的效果直接影響分類器的分類性能。當(dāng)數(shù)據(jù)集有大量項(xiàng)目時(shí),使用領(lǐng)域知識(shí)確定所有項(xiàng)目的精確權(quán)重可能是不切實(shí)際的,并且在不同的類別中,同樣的屬性可能起到的重要程度也可能是不同的。在這種情況下,文中的AWCBA算法使用了一種新的方法來(lái)加權(quán),這種加權(quán)方法不再依賴于主觀的專家打分加權(quán),同時(shí)還可以把不同屬性對(duì)于不同類別的影響區(qū)分開(kāi)來(lái)。
例如,屬性a對(duì)n類的權(quán)重為:
weight(a→n)=
其中,sup(a→n)代表屬性a→n的支持度,
式中,δ(a→n)是在類標(biāo)簽為n的所有事物中a的出現(xiàn)頻次,T為數(shù)據(jù)總數(shù)。
conf(ra→n)代表屬性a→n的置信度,
ka(a→n)代表a→n的卡方測(cè)度:
它在權(quán)重生成的過(guò)程中,通過(guò)屬性到類的支持度、置信度以及卡方測(cè)度的標(biāo)準(zhǔn)化處理,選擇3種測(cè)度標(biāo)準(zhǔn)化之后的最大正值來(lái)生成這種屬性對(duì)類的權(quán)重。這樣不需要預(yù)先給屬性分配權(quán)重,而是根據(jù)不同屬性對(duì)類的影響程度不同,自適應(yīng)地進(jìn)行加權(quán)。
在傳統(tǒng)的關(guān)聯(lián)分類算法中,規(guī)則的挖掘分為兩個(gè)階段:第一階段是先從數(shù)據(jù)樣本中利用支持度找出所有的大于最小支持度閾值的項(xiàng)集,叫做頻繁項(xiàng)集;第二階段是在這些頻繁項(xiàng)集中挖掘出所有置信度大于最小置信度的規(guī)則,叫做強(qiáng)關(guān)聯(lián)規(guī)則。例如,在CBA和CMAR算法中都有一個(gè)共同的步驟:尋找頻繁項(xiàng)集,生成強(qiáng)關(guān)聯(lián)規(guī)則。此外,最小支持度、最小置信度在他們的規(guī)則挖掘過(guò)程中起著關(guān)鍵的作用。在這個(gè)過(guò)程中研究人員需要根據(jù)經(jīng)驗(yàn)來(lái)設(shè)置支持度和置信度的閾值,利用閾值進(jìn)行規(guī)則剪枝,支持度和置信度比最小支持度和最小置信度小的規(guī)則在剪枝之后會(huì)被忽略。例如,如果最小置信度為0.6,最小支持度為0.2,那么如果有一個(gè)重要規(guī)則的置信度為0.59,則不會(huì)生成此規(guī)則。采用這種方法很難保證分類器能達(dá)到較好的分類效果。
AWCBA算法的理念是取代傳統(tǒng)的支持度、置信度構(gòu)成的關(guān)聯(lián)規(guī)則挖掘模型的加權(quán)模型,與CBA、CMAR算法相比,AWCB算法的不同之處在于不需要尋找頻繁項(xiàng)集,也不需要去從頻繁項(xiàng)集中挖掘強(qiáng)關(guān)聯(lián)規(guī)則。在第一個(gè)階段,即便在不確定最小支持度、最小置信度閾值的情況下,也可以用數(shù)據(jù)樣本的自身屬性去挖掘任何一個(gè)對(duì)規(guī)則產(chǎn)生關(guān)鍵作用的項(xiàng)集,把它稱作關(guān)鍵項(xiàng)集。第二階段,同樣利用關(guān)鍵項(xiàng)集中的每一個(gè)子集的自身屬性來(lái)挖掘?qū)︻悩?biāo)簽產(chǎn)生重要作用的規(guī)則,稱之為重要規(guī)則。
對(duì)于一個(gè)規(guī)則來(lái)說(shuō),它可能包含若干屬性,例如規(guī)則r:ab→n。傳統(tǒng)的CBA算法中,如果sup(ab→n)≥minsup,則此規(guī)則放入頻繁項(xiàng)集中;如果conf(ab→n)≥minconf,則此規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。在AWCBA算法里,在給屬性加權(quán)后,對(duì)于規(guī)則r:ab→n來(lái)說(shuō),如果它的屬性中有任何權(quán)重大于0的屬性,則此規(guī)則納入關(guān)鍵項(xiàng)集中;如果它的每項(xiàng)屬性彼岸準(zhǔn)化之后的帶權(quán)支持度、帶權(quán)置信度、帶權(quán)卡方測(cè)度的最大值之和大于0,則此規(guī)則為重要規(guī)則。接下來(lái),給出一個(gè)具體的示例,示例1如表1所示。
表1示例1

事務(wù)項(xiàng)屬性類標(biāo)簽1ace12bd23bc24abcd15ab1事務(wù)項(xiàng)屬性類標(biāo)簽6bc27ab18abce19abc210ace1
在示例1中,分別按照傳統(tǒng)的關(guān)聯(lián)算法和研究中所述AWCBA算法進(jìn)行了規(guī)則剪枝,其中的強(qiáng)關(guān)聯(lián)規(guī)則和重要規(guī)則對(duì)比如表2所示。

表2 強(qiáng)關(guān)聯(lián)規(guī)則與重要規(guī)則對(duì)照
從示例中可以看出,關(guān)鍵項(xiàng)集不會(huì)遺漏任何一個(gè)包含關(guān)鍵信息的非頻繁項(xiàng)集,重要規(guī)則包含的重要信息遠(yuǎn)大于強(qiáng)關(guān)聯(lián)規(guī)則。在如今的信用評(píng)估領(lǐng)域,信用良好的客戶市場(chǎng)已經(jīng)趨于穩(wěn)定,面對(duì)大量信用中等的客戶,如何從中挖掘?qū)儆谖覀兊目蛻簦珹WCBA算法中的關(guān)鍵項(xiàng)集與重要規(guī)則能產(chǎn)生非凡的影響。
算法分為2個(gè)部分,分別是:尋找規(guī)則和預(yù)測(cè)。
算法1:尋找規(guī)則
步驟1:輸入訓(xùn)練數(shù)據(jù),在訓(xùn)練數(shù)據(jù)中,設(shè)置S,令S為空集;
步驟2:令k=1,Sk為每個(gè)項(xiàng)目k生成的候選集,r為Sk的子集;
步驟3:對(duì)訓(xùn)練數(shù)據(jù)中的r計(jì)算支持度、置信度、卡方測(cè)度,進(jìn)行標(biāo)準(zhǔn)化處理,取三者最大值作為權(quán)重,若最大值大于0,則將r加入S′;若最大值小于0,則對(duì)規(guī)則剪枝;
步驟4:輸出S′。
算法2:預(yù)測(cè)
步驟1:輸入測(cè)試數(shù)據(jù);
步驟2:用S′中的規(guī)則對(duì)測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,根據(jù)類值分組;
步驟3:計(jì)算每組的HM值之和;
步驟4:比較兩組的HM之和,取較大的一組的類值對(duì)數(shù)據(jù)進(jìn)行歸類。
在傳統(tǒng)算法的預(yù)測(cè)階段,對(duì)于任何給定的實(shí)例,首先檢查規(guī)則集中的強(qiáng)關(guān)聯(lián)規(guī)則。但是,使用支持度和置信度作為度量,支持度和置信度的值都傾向于支持度較大的規(guī)則。而使用卡方測(cè)度作為度量,卡方測(cè)度的值又傾向于支持度較小的規(guī)則[20]。尹輝[19]等為了解決此問(wèn)題,提出了改進(jìn)的CMAR算法,引入了帶權(quán)卡方測(cè)度作為新的測(cè)度。這種測(cè)度將支持度和置信度相結(jié)合,構(gòu)造統(tǒng)一度量。Jaber Alwidian[12]等也嘗試了結(jié)合支持度和置信度的調(diào)和均值作為統(tǒng)一度量。所研究AWCBA算法在此基礎(chǔ)上將支持度、置信度和卡方測(cè)度進(jìn)行測(cè)度整合,構(gòu)建了整合支持度、置信度和卡方測(cè)度的調(diào)和均值(即HM)來(lái)作為統(tǒng)一的度量。其中,HM值的計(jì)算如下:
下面針對(duì)示例1比較了各種測(cè)度的預(yù)測(cè)準(zhǔn)確度。在示例1中剪枝之后的關(guān)鍵項(xiàng)集中規(guī)則的各種測(cè)度屬性如表3所示。

表3 重要規(guī)則的支持度、置信度、卡方測(cè)度以及HM值
分別選擇支持度、置信度、卡方測(cè)度以及HM值作為預(yù)測(cè)測(cè)度,預(yù)測(cè)結(jié)果如表4所示。

表4 示例1的4種測(cè)度預(yù)測(cè)準(zhǔn)確度
從上面的例子可以看出,構(gòu)造的統(tǒng)一度量HM值作為預(yù)測(cè)測(cè)度效果優(yōu)于使用支持度、置信度以及卡方測(cè)度的效果。
數(shù)據(jù)來(lái)源于某商業(yè)銀行的客戶信息,總共有1 000條客戶記錄,每條記錄有21個(gè)屬性項(xiàng),首先對(duì)其進(jìn)行概化處理,如表5所示。

表5 數(shù)據(jù)的21項(xiàng)屬性以及概化處理結(jié)果
實(shí)驗(yàn)是在Matlab 2016a上實(shí)現(xiàn)的,結(jié)果如圖2所示。圖2中采用了隨機(jī)抽樣的方法,分別抽取10次,每次遞增總樣本的10%作為訓(xùn)練樣本。用4種算法對(duì)其進(jìn)行了實(shí)驗(yàn)。從圖2中可以看出,AWCBA算法在對(duì)某商業(yè)銀行的客戶信用信息數(shù)據(jù)集上的實(shí)驗(yàn)中獲得了比CMAR算法、WCBA算法和CBA算法更高的預(yù)測(cè)準(zhǔn)確率。隨著測(cè)試樣本取樣數(shù)量的遞增, AWCBA算法的預(yù)測(cè)準(zhǔn)確率也在提升,并且它的準(zhǔn)確率相較于其他3種算法隨折變化的波動(dòng)相對(duì)平穩(wěn)。
采用5次交叉驗(yàn)證的方法對(duì)4種算法的預(yù)測(cè)準(zhǔn)確率的實(shí)驗(yàn)結(jié)果如表6所示。由表6可知, AWCBA算法5次交叉驗(yàn)證的預(yù)測(cè)準(zhǔn)確率均值最高,高達(dá)73.25%,WCBA算法的平均準(zhǔn)確率次之,而CMAR算法和CBA算法的平均準(zhǔn)確度比較低,其中CBA算法的平均準(zhǔn)確度才66.32%;并且AWCBA算法的標(biāo)準(zhǔn)差也是這4種算法中最小的,CMAR算法和CBA算法的標(biāo)準(zhǔn)差甚至高達(dá)8.72%和8.89%。從這些數(shù)據(jù)中不難發(fā)現(xiàn),給屬性加權(quán)了的算法不管是準(zhǔn)確率還是穩(wěn)定性都會(huì)有明顯的提升。其中AWCBA算法不但是分類效果最好的,而且是穩(wěn)定性最高的。這說(shuō)明自適應(yīng)加權(quán)起到了顯著的效果。
表65次交叉驗(yàn)證準(zhǔn)確率

算法名稱均值標(biāo)準(zhǔn)差A(yù)WCBA73.253.75CMAR68.688.72算法名稱均值標(biāo)準(zhǔn)差WCBA70.525.48CBA66.328.89
至于測(cè)度對(duì)分類效果的影響,對(duì)數(shù)據(jù)分別隨機(jī)抽樣25%、50%、75%作為測(cè)試樣本,在AWCBA算法剪枝之后用不同測(cè)度(即支持度、置信度、卡方測(cè)度、HM值)對(duì)它們進(jìn)行了實(shí)驗(yàn),結(jié)果如圖3所示。從圖3中可以看出,進(jìn)行過(guò)測(cè)度整合之后的HM值的預(yù)測(cè)效果要比其他3種測(cè)度好得多。而且隨著隨機(jī)抽樣數(shù)據(jù)的增多,測(cè)度預(yù)測(cè)準(zhǔn)確率也越來(lái)越高。而其他的測(cè)度在面臨大量數(shù)據(jù)時(shí),效果顯然比我們的測(cè)度要差。所以說(shuō),進(jìn)行測(cè)度整合也是提高分類準(zhǔn)確度的有效手段。

圖2 4種算法實(shí)驗(yàn)結(jié)果圖3 AWCBA算法中4種測(cè)度抽樣準(zhǔn)確度
從上面的3個(gè)實(shí)驗(yàn)可以得出,不管是測(cè)度整合還是屬性加權(quán),都可以提升算法的分類正確率。在規(guī)則的剪枝過(guò)程中,關(guān)鍵項(xiàng)集和重要規(guī)則隨著數(shù)據(jù)量的增多,所包含的信息也越來(lái)越完善。相比于頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)規(guī)則,關(guān)鍵項(xiàng)集和重要規(guī)則具有穩(wěn)定、高效、全面的特點(diǎn)。而且,關(guān)鍵項(xiàng)集和重要規(guī)則的篩選方法也至關(guān)重要。所以說(shuō),對(duì)屬性進(jìn)行加權(quán)的方法是否先進(jìn)、對(duì)測(cè)度進(jìn)行整合的方法是否科學(xué),也是影響個(gè)人信用評(píng)估準(zhǔn)確率的重要因素。
研究提出了一種新的基于AWCBA算法的個(gè)人信用評(píng)估模型,通過(guò)對(duì)規(guī)則的支持度、置信度以及卡方測(cè)度的標(biāo)準(zhǔn)化處理,取規(guī)則的3種測(cè)度標(biāo)準(zhǔn)化之后的最大正值來(lái)生成新的規(guī)則權(quán)重,剪枝掉標(biāo)準(zhǔn)化處理之后的3種測(cè)度最大值仍為負(fù)值的規(guī)則,并且構(gòu)建了整合支持度、置信度和卡方測(cè)度的調(diào)和均值(即HM)來(lái)作為統(tǒng)一的度量。在實(shí)際應(yīng)用中,模型不需要主觀的加權(quán)和人為的設(shè)置最小閾值就可以獲得滿意的分類結(jié)果。通過(guò)實(shí)際數(shù)據(jù)實(shí)驗(yàn),獲得了良好的分類結(jié)果,同時(shí)證明了AWCBA算法在信用評(píng)分系統(tǒng)中具有良好的性能。因此,基于AWCBA算法的個(gè)人信用評(píng)估模型確實(shí)可以幫助銀行或貸款人做出正確的決策。當(dāng)然,研究中的AWCBA算法還有著廣闊的提升空間,學(xué)習(xí)更先進(jìn)的理論知識(shí)來(lái)完成算法的升級(jí),是接下來(lái)需要努力的方向。