關(guān)聯(lián)規(guī)則挖掘及其在銀行金融服務(wù)中的應(yīng)用研究

2018-07-12 09:17:15王培靜趙乃萱王培吉

時代金融 2018年29期

關(guān)鍵詞：數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

王培靜趙乃萱王培吉

（1.中國人民銀行包頭支行，內(nèi)蒙古包頭 014010；2.西南大學(xué)經(jīng)濟(jì)管理學(xué)院，重慶 400715；3.內(nèi)蒙古科技大學(xué)理學(xué)院，內(nèi)蒙古包頭014010）

一、引言

為了科學(xué)、有效利用數(shù)據(jù)信息資源，對數(shù)據(jù)只進(jìn)行存取和查詢，已不能滿足人們對數(shù)據(jù)進(jìn)行知識抽取、發(fā)現(xiàn)數(shù)據(jù)間隱藏的依賴關(guān)系，從而為做出合理決策提供科學(xué)支持的需要，由此產(chǎn)生并發(fā)展了多種用于數(shù)據(jù)理解和分析的數(shù)據(jù)挖掘理論和方法，數(shù)據(jù)挖掘[1]是指從數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)源中提取出隱含的、先前未知的、對做出合理決策有潛在價值的知識、規(guī)則、模式，為決策者提供前瞻的，基于知識的科學(xué)、有效的決策意見。

1993年AgrawalR.等人首先提出的挖掘顧客交易數(shù)據(jù)庫中項集之間的依賴關(guān)系(規(guī)則、知識、模式)-關(guān)聯(lián)規(guī)則及其挖掘問題，將關(guān)聯(lián)規(guī)則挖掘用于分析消費(fèi)者的購買習(xí)慣，幫助企業(yè)進(jìn)行科學(xué)決策、制定最優(yōu)營銷策略。AgrawalR.于1994年提出了挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法，這就是一直普遍使用的Apriori算法[2]。

二、關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型中主要解決兩個問題：一是從事務(wù)數(shù)據(jù)庫中挖掘所有的頻繁項集；二是由頻繁項集產(chǎn)生基于支持度-置信度關(guān)聯(lián)規(guī)則評估體系的強(qiáng)關(guān)聯(lián)規(guī)則。

（一）從事務(wù)數(shù)據(jù)庫中挖掘頻繁項集

第一,輸入信息系統(tǒng)S={U，I，F(xiàn)}和最小支持度min-sup,生成分辨矩陣D,壓縮分辨矩陣；

第二,挖掘頻繁項集LK：

求頻繁1-項集(k=1)：(1)把分辨矩陣D中每個項目的支持計數(shù)和最小支持度比較，取那些支持計數(shù)大于或等于最小支持度行,生成頻繁1-項集L1；(2)刪除分辨矩陣中那些支持計數(shù)小于最小支持度所對應(yīng)的行；(3)k=2。

求頻繁k-項集(k＞=2)：(1)將用于保存每個項目在頻繁k-1-項集中出現(xiàn)次數(shù)的數(shù)組置零；將用于統(tǒng)計頻繁k-項集中項集的個數(shù)的變量清零；(2)分辨矩陣中分辨行向量(行向量)進(jìn)行對位與運(yùn)算，通過比較支持計數(shù)和最小支持度,找出頻繁k-項集；(3)k=k+1。

（二）由頻繁項集產(chǎn)生基于支持度-置信度關(guān)聯(lián)規(guī)則評估體系的強(qiáng)關(guān)聯(lián)規(guī)則

給定事務(wù)集D中的關(guān)聯(lián)規(guī)則AB，D中事務(wù)同時包含A，B的百分比S，稱為關(guān)聯(lián)規(guī)則AB在事務(wù)集D中成立具有支持度S；包含A的事務(wù)中同時包含B的百分比C稱為關(guān)聯(lián)規(guī)則AB在事務(wù)集D中成立具有置信度C，分別衡量規(guī)則有用性和確定性。D中事務(wù)包含B的百分比EC，稱為關(guān)聯(lián)規(guī)則AB的期望置信度；置信度C與期望置信度的比值稱為該關(guān)聯(lián)規(guī)則的興趣度i。

擬按以下步驟由頻繁項集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:

第一，當(dāng)興趣度等于1時，事務(wù)包含A與事務(wù)包含B是獨(dú)立的；

第二，當(dāng)興趣度大于1時，事務(wù)包含A與事務(wù)包含B是正相關(guān)的，從頻繁項集L中產(chǎn)生滿足最小支持度、最小置信度和最小興趣度的強(qiáng)關(guān)聯(lián)規(guī)則；

第三，當(dāng)興趣度小于1時，事務(wù)包含A與事務(wù)包含B是負(fù)相關(guān)的,過濾無趣關(guān)聯(lián)規(guī)則,從頻繁項集L中產(chǎn)生滿足最小支持度、最小置信度和最小興趣度的含負(fù)屬性項強(qiáng)關(guān)聯(lián)規(guī)則。

三、對銀行客戶數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則挖掘及應(yīng)用舉例

（一）挖掘目標(biāo)

通過對銀行客戶數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)中隱含的依賴關(guān)系，得出金融信息之間的有用的強(qiáng)關(guān)聯(lián)規(guī)則,依據(jù)數(shù)據(jù)挖掘的結(jié)果，對客戶進(jìn)行科學(xué)的分類,為各類客戶科學(xué)設(shè)計相應(yīng)的金融產(chǎn)品,從而給不同類的客戶提供不同的金融產(chǎn)品,完善銀行的專業(yè)化服務(wù)功能和水平。

（二）數(shù)據(jù)挖掘步驟

1.數(shù)據(jù)預(yù)處理，包括數(shù)據(jù)清理。對銀行客戶數(shù)據(jù)庫，消除噪音或不一致數(shù)據(jù)；數(shù)據(jù)集成：組合多種數(shù)據(jù)源在一起；數(shù)據(jù)選擇：從金融數(shù)據(jù)信息系統(tǒng)中提取與分析數(shù)據(jù)挖掘任務(wù)相關(guān)的數(shù)據(jù)；數(shù)據(jù)變換：數(shù)據(jù)變換或統(tǒng)一成適合數(shù)據(jù)挖掘的形式；

2.利用頻繁項集基本定理：頻繁項集的非空子集是頻繁項集；非頻繁項集的超集是非頻繁項集，識別滿足最小支持度的頻繁項集；

3.從頻繁項集中挖掘滿足最小支持度、最小置信度和最小興趣度的關(guān)聯(lián)規(guī)則；

4.結(jié)合挖掘目標(biāo),識別提供知識的真正有趣的模式，解釋關(guān)聯(lián)規(guī)則；依據(jù)有趣的關(guān)聯(lián)規(guī)則，對客戶進(jìn)行科學(xué)的分類,針對不同客戶，設(shè)計不同的金融產(chǎn)品。

（三）應(yīng)用舉例

1.挖掘?qū)ο蟆ｃy行客戶數(shù)據(jù)庫:存放客戶信息數(shù)據(jù),其中一個客戶看作一個記錄,一種信息看作一個屬性,數(shù)據(jù)記錄數(shù)為客戶人數(shù),屬性數(shù)減1為信息種數(shù)。

金融服務(wù)產(chǎn)品舉例

2.挖掘頻繁項集L。輸入：銀行客戶數(shù)據(jù)庫和最小支持度0.2；輸出：頻繁項集 L={i14，i16，i17,i34，i45，i46，i47，i48，i56，i67，i146，i147，i167,i456，i467}。

3.挖掘關(guān)聯(lián)規(guī)則。輸入：頻繁項集L，最小置信度0.7，最小興趣度 1.5；輸出：R1:i1?i47(s=0.2959,c=0.7632,i=2.3372)，R2:i7i14(s=0.2959,c=0.8788,i=2.6097)等。

4.解釋規(guī)則。規(guī)則R1:客戶是教師、月收人6000元以上，貸款買房的支持度、置信度、興趣度分別為0.2959,0.7632,2.3372。

5.應(yīng)用規(guī)則。如頻繁項集“客戶是教師、月收人6000元以上且貸款買房”產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則的支持度、置信度、興趣度分別滿足支持度、置信度、興趣度的閾值，說明：教師職業(yè)、月收人6000元以上、貸款買房,它們之間具有較強(qiáng)的影響力，銀行由此設(shè)計并提供相應(yīng)的金融產(chǎn)品，提高銀行金融服務(wù)的有效性、科學(xué)性和針對性。