王培靜 趙乃萱 王培吉
(1.中國人民銀行包頭支行,內(nèi)蒙古 包頭 014010;2.西南大學經(jīng)濟管理學院,重慶 400715;3.內(nèi)蒙古科技大學理學院,內(nèi)蒙古 包頭014010)
為了科學、有效利用數(shù)據(jù)信息資源,對數(shù)據(jù)只進行存取和查詢,已不能滿足人們對數(shù)據(jù)進行知識抽取、發(fā)現(xiàn)數(shù)據(jù)間隱藏的依賴關(guān)系,從而為做出合理決策提供科學支持的需要,由此產(chǎn)生并發(fā)展了多種用于數(shù)據(jù)理解和分析的數(shù)據(jù)挖掘理論和方法,數(shù)據(jù)挖掘[1]是指從數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)源中提取出隱含的、先前未知的、對做出合理決策有潛在價值的知識、規(guī)則、模式,為決策者提供前瞻的,基于知識的科學、有效的決策意見。
1993年AgrawalR.等人首先提出的挖掘顧客交易數(shù)據(jù)庫中項集之間的依賴關(guān)系(規(guī)則、知識、模式)-關(guān)聯(lián)規(guī)則及其挖掘問題,將關(guān)聯(lián)規(guī)則挖掘用于分析消費者的購買習慣,幫助企業(yè)進行科學決策、制定最優(yōu)營銷策略。AgrawalR.于1994年提出了挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法,這就是一直普遍使用的Apriori算法[2]。
基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型中主要解決兩個問題:一是從事務(wù)數(shù)據(jù)庫中挖掘所有的頻繁項集;二是由頻繁項集產(chǎn)生基于支持度-置信度關(guān)聯(lián)規(guī)則評估體系的強關(guān)聯(lián)規(guī)則。
第一,輸入信息系統(tǒng)S={U,I,F(xiàn)}和最小支持度min-sup,生成分辨矩陣D,壓縮分辨矩陣;
第二,挖掘頻繁項集LK:
求頻繁1-項集(k=1):(1)把分辨矩陣D中每個項目的支持計數(shù)和最小支持度比較,取那些支持計數(shù)大于或等于最小支持度行,生成頻繁1-項集L1;(2)刪除分辨矩陣中那些支持計數(shù)小于最小支持度所對應(yīng)的行;(3)k=2。
求頻繁k-項集(k>=2):(1)將用于保存每個項目在頻繁k-1-項集中出現(xiàn)次數(shù)的數(shù)組置零;將用于統(tǒng)計頻繁k-項集中項集的個數(shù)的變量清零;(2)分辨矩陣中分辨行向量(行向量)進行對位與運算,通過比較支持計數(shù)和最小支持度,找出頻繁k-項集;(3)k=k+1。
給定事務(wù)集D中的關(guān)聯(lián)規(guī)則AB,D中事務(wù)同時包含A,B的百分比S,稱為關(guān)聯(lián)規(guī)則AB在事務(wù)集D中成立具有支持度S;包含A的事務(wù)中同時包含B的百分比C稱為關(guān)聯(lián)規(guī)則AB在事務(wù)集D中成立具有置信度C,分別衡量規(guī)則有用性和確定性。D中事務(wù)包含B的百分比EC,稱為關(guān)聯(lián)規(guī)則AB的期望置信度;置信度C與期望置信度的比值稱為該關(guān)聯(lián)規(guī)則的興趣度i。
擬按以下步驟由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則:
第一,當興趣度等于1時,事務(wù)包含A與事務(wù)包含B是獨立的;
第二,當興趣度大于1時,事務(wù)包含A與事務(wù)包含B是正相關(guān)的,從頻繁項集L中產(chǎn)生滿足最小支持度、最小置信度和最小興趣度的強關(guān)聯(lián)規(guī)則;
第三,當興趣度小于1時,事務(wù)包含A與事務(wù)包含B是負相關(guān)的,過濾無趣關(guān)聯(lián)規(guī)則,從頻繁項集L中產(chǎn)生滿足最小支持度、最小置信度和最小興趣度的含負屬性項強關(guān)聯(lián)規(guī)則。
通過對銀行客戶數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)中隱含的依賴關(guān)系,得出金融信息之間的有用的強關(guān)聯(lián)規(guī)則,依據(jù)數(shù)據(jù)挖掘的結(jié)果,對客戶進行科學的分類,為各類客戶科學設(shè)計相應(yīng)的金融產(chǎn)品,從而給不同類的客戶提供不同的金融產(chǎn)品,完善銀行的專業(yè)化服務(wù)功能和水平。
1.數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清理。對銀行客戶數(shù)據(jù)庫,消除噪音或不一致數(shù)據(jù);數(shù)據(jù)集成:組合多種數(shù)據(jù)源在一起;數(shù)據(jù)選擇:從金融數(shù)據(jù)信息系統(tǒng)中提取與分析數(shù)據(jù)挖掘任務(wù)相關(guān)的數(shù)據(jù);數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合數(shù)據(jù)挖掘的形式;
2.利用頻繁項集基本定理:頻繁項集的非空子集是頻繁項集;非頻繁項集的超集是非頻繁項集,識別滿足最小支持度的頻繁項集;
3.從頻繁項集中挖掘滿足最小支持度、最小置信度和最小興趣度的關(guān)聯(lián)規(guī)則;
4.結(jié)合挖掘目標,識別提供知識的真正有趣的模式,解釋關(guān)聯(lián)規(guī)則;依據(jù)有趣的關(guān)聯(lián)規(guī)則,對客戶進行科學的分類,針對不同客戶,設(shè)計不同的金融產(chǎn)品。
1.挖掘?qū)ο?。銀行客戶數(shù)據(jù)庫:存放客戶信息數(shù)據(jù),其中一個客戶看作一個記錄,一種信息看作一個屬性,數(shù)據(jù)記錄數(shù)為客戶人數(shù),屬性數(shù)減1為信息種數(shù)。
金融服務(wù)產(chǎn)品舉例
2.挖掘頻繁項集L。輸入:銀行客戶數(shù)據(jù)庫和最小支持度0.2;輸出:頻繁項集 L={i14,i16,i17,i34,i45,i46,i47,i48,i56,i67,i146,i147,i167,i456,i467}。
3.挖掘關(guān)聯(lián)規(guī)則。輸入:頻繁項集L,最小置信度0.7,最小興趣度 1.5;輸出:R1:i1?i47(s=0.2959,c=0.7632,i=2.3372),R2:i7i14(s=0.2959,c=0.8788,i=2.6097)等。
4.解釋規(guī)則。規(guī)則R1:客戶是教師、月收人6000元以上,貸款買房的支持度、置信度、興趣度分別為0.2959,0.7632,2.3372。
5.應(yīng)用規(guī)則。如頻繁項集“客戶是教師、月收人6000元以上且貸款買房”產(chǎn)生的強關(guān)聯(lián)規(guī)則的支持度、置信度、興趣度分別滿足支持度、置信度、興趣度的閾值,說明:教師職業(yè)、月收人6000元以上、貸款買房,它們之間具有較強的影響力,銀行由此設(shè)計并提供相應(yīng)的金融產(chǎn)品,提高銀行金融服務(wù)的有效性、科學性和針對性。