杜海珍 楊超





[摘要]本文采用Apriori算法,以A銀行的實際業務為例,對具體信貸產品客戶信息與信貸分類進行關聯挖掘分析,證明運用關聯規則這類數據挖掘方法對商業銀行內部審計可疑數據定位的可行性和有效性,為銀行內部非現場審計的有效開展提供決策依據。
[關鍵詞]關聯規則? ? Apriori算法? ? 數據挖掘? ? 商業銀行? ? 內部審計
年來,國內各大國有商業銀行、股份制銀行
紛紛成立金融消費公司,多渠道拓寬個人消費貸款類業務。隨著業務量及貸款金額的不斷攀升,相關業務和客戶的數據量也隨之擴大。由于貸款業務的快速發展及信息不對稱等因素,導致銀行面對風險的種類繁多、形式變幻多樣,不良貸款率隨之上升。在日常內部審計中,如何在海量數據中提煉出關鍵信息,并有針對性地對業務進行審計,降低業務風險,對銀行內部審計人員提出了更高要求。傳統的審計方法只對數據的準確性、完整性等進行簡單分析,忽略了數據之間隱藏的關聯關系,已不能滿足當前風險管理的發展需求。為提升銀行內部審計的科學性、有效性,提高內部審計質量,有必要對相關數據進行知識獲取、發現隱藏數據間的關系,并加以研究應用,為銀行的業務發展和風險把控提供更好的對策建議。作為數據挖掘中常用的一種方法,關聯規則(Association Rules)重點關注從大量數據中找出事物間內在的隱含聯系,該方法在醫療數據分析、商業營銷分析、語義分析等領域都有廣泛的運用。近年來,也有相關學者將其應用到銀行業中,分析商業銀行貸款、信用卡等客戶的信用評級。
一、關聯規則Apriori算法及其適用性分析
關聯規則是一種能夠反映事物與其他事物之間相互依存和關聯關系的數據挖掘方法。關聯規則挖掘的典型應用為購物籃分析,若分析得出35%的客戶購買了X產品,這些客戶中的75%還購買了Y,該規則可表示為“X→Y”的蘊含式,其中X為前項,Y為后項。關聯規則的強度可用支持度(Support)和置信度(Confidence)衡量。支持度表示關聯規則的前項在所有項集中出現的百分比,用來衡量關聯規則的重要性;置信度表示在前項出現的情況下,后項同時出現的百分比,代表這條規則成立的概率。上例中,“X→Y”的規則支持度為35%,置信度為75%。
Apriori算法是最常見的關聯規則算法之一,其難點在于需要找到合適的支持度和置信度參數以產生合理數量的關聯規則,該過程可能需要進行大量試驗與誤差評估。假設參數設置過高,會導致沒有規則或規則過于普通而無價值;另一方面如果閾值太低,可能導致規則數量較多,需要運行較長時間或在學習階段耗盡內存。Apriori算法主要使用廣度優先搜索和哈希樹結構有效計算候選項集,其挖掘具體步驟如下:先搜索出候選1-項集及對應的支持度,剪枝去掉低于支持度的1-項集,得到頻繁1-項集;對剩下的頻繁1-項集進行連接,得到候選的頻繁2-項集,篩選去掉低于支持度的候選頻繁2-項集,得到真正的頻繁2-項集;以此類推,迭代下去,直到無法找到頻繁k+1-項集為止,對應的頻繁k項集的集合即為算法的輸出結果,關聯規則挖掘流程見圖1。運用以下公式計算支持度和置信度:
在商業銀行個人貸款業務中,銀行根據客戶提供的信息數據發放不同額度的貸款,客戶則根據簽訂的合同按期按額還款。現實生活中,少數客戶逾期還款或不還款現象增加了銀行相關業務風險,提高了不良貸款率。銀行內部審計理論上應該盡可能地識別出此類風險,在客戶提供信息時作出判斷,決定是否對客戶進行進一步調查,以此降低業務風險。但僅憑客戶提交的基本信息,從橫向角度進行單一分析很難得出有價值信息,因此需要對不同數據間的相關性、依賴性進行多維度分析。
二、模型和數據處理
以A銀行某地區二級分行實際個人貸款業務為例。從個人信貸系統中隨機選取個人信用消費貸款、個人綜合消費貸款的客戶信息22,328條,數據指標主要包括:客戶ID、名稱、性別、出生日期、最高學歷、職業、職務、職稱、貸款分類、結清標志、貸款余額、婚姻狀況、教育水平、月收入、住宅類型等。其中,貸款五級分類是指該筆貸款目前的狀態,包括正常、關注、次級、可疑和損失五種類型。鑒于主要分析貸款尚未結清的數據,剔除系統錄入錯誤、不符合實際情況的異常值以外,共剩余數據13,596條。
由于關聯規則Apriori算法無法處理連續型數值變量,為了將原始數據轉換成適合建模的格式,需要對數據進行進一步處理。根據各指標的實際意義及分析要求,對部分指標進行統計學處理,最終選取10項指標并作分類說明,見表1。
三、關聯規則Apriori算法挖掘
客戶根據自身需求向銀行申請貸款,需要提供上述信息給銀行,銀行根據各項信息指標,針對具體客戶進行信用評級,綜合考慮權衡各方因素,再抉擇是否發放貸款。綜合上述已發放貸款業務的客戶信息結果,顯示部分客戶貸款類型LOANTYPE為UN狀態(包括次級、可疑、損失三類)。值得關注的是,具有哪些信息的客戶最有可能成為貸款類型LOANTYPE為UN狀態,即哪些指標組成的項集對貸款類型為UN的支持度最大。挖掘出這樣的項集,可為審計人員指明方向,提供識別可疑不良客戶的相關線索。
利用R語言來實現Apriori算法,以表1中貸款類型為UN的數據來建模,根據數據實際情況以及統計學理論,經過多次分析實踐,最終將最小支持度和最小置信度分別設置為0.06和0.75,選取模型結果中支持度最大的2-項集和3-項集,運行輸出的結果參數見表2。
表2中3-項集,{SEX=M,POSITION=ZW2,
MARITAL=MS2}對{LOANTYPE=UN}的支持度為41.7%,該規則表明在貸款狀態為UN的客戶中,職務為非管理人員、婚姻狀況為已婚的男性概率達41.7%。{SEX=M,MARITAL=MS2,
HOUSETYPE=HT2}對{LOANTYPE=UN}的支持度為36.32%,該規則表明貸款狀態為UN的客戶中,住宅類型為自購房屋無貸款、婚姻狀況為已婚的男性概率達36.32%。該結果與2-項集的結果相吻合,即可以得出推論:在貸款狀態為UN的客戶中,住宅類型為自購房屋無貸款、職務為非管理人員的已婚男性客戶概率更大。
為驗證上述模型結果推論的準確性,以貸款類型為N的數據再次建模分析,同樣設置最小支持度和最小置信度為0.06和0.75,并選取支持度最小的項集,模型結果見表3。
表3顯示,{CAREER=ZY8,MARITAL=MS2}對{LOANTYPE=N}的支持度最低,為20.04%,該規則說表明在貸款類型為N的客戶中,若客戶職業為其他從業人員,且為已婚狀態,其概率為20.04%;{SEX=M,POSITION=ZW2,JOBTITILE=T3,INCOME=INc2}對{LOANTYPE=N}的支持度為20.67%,該規則表明貸款類型為N的客戶中,若客戶為男性、無職稱、收入在5000-9999元以及職務為非管理人員,其概率為20.67%;{SEX=M,MARITAL=MS2,EDUCATION=E1,HOUSETYPE=HT2}對{LOANTYPE=N}的支持度為20.81%,該規則表明貸款類型為N的客戶中,客戶為男性、婚姻狀況為已婚、教育水平為本科及以上(包括大專)以及住宅類型為自購房屋無貸款的概率為20.81%。將該結果與表2進行比較分析,發現兩者結果近似,進一步表明在貸款類型為UN中,若客戶為男性、住宅類型為自購房屋無貸款、職務為非管理人員以及婚姻狀況為已婚,其概率更大。
四、結論與展望
從關聯規則Apriori算法的兩種建模分析結果來看,兩個結果大致相同,比較符合實際情況,即在貸款類型為UN的客戶群體中,男性、住宅類型為自購房屋無貸款、職務為非管理人員以及婚姻狀況為已婚的客戶概率更大。現實生活中,這類群體的生活狀況較穩定且基數大,大多是工作、收入一般的男性群體,整個家庭擁有一套住房,但由于需要撫養父母子女,日常消費金額相對較大,極易促成個人消費貸款。審計人員在做個貸業務審計時,可針對此類貸款客戶的情況進行進一步研究。
關聯規則等挖掘算法可以改善銀行內部審計非現場分析過程存在的針對性不足問題,為業務風險把控、客戶風險管理以及內部非現場審計線索提供相關思路與建議。但由于本文采用的數據為客戶信用數據中的部分指標數據,對于已發放貸款客戶的最終貸款類型評估來說,考慮的因素不夠全面,結果較為粗糙。因此,在實際內審工作中,要綜合考慮多方面因素,同時結合其他成熟數據挖掘方法,提高評估的準確性。
內部審計是商業銀行風險管理的第三道防線,是為銀行合規經營、高質量發展保駕護航的關鍵所在。應順應發展趨勢,提升計算機輔助審計技巧。面對銀行業積累的海量數據,應及時融入大數據技術,如建設數據倉庫、數據挖掘平臺等。同時,應結合銀行內部審計的需要,不斷推進數據挖掘技術的實際應用,將數據挖掘結果應用到實際工作中,提升非現場挖掘可疑數據的有效性和準確性,為現場審計提供技術支撐,實現審計的精準定位。
(作者單位:中國郵政儲蓄銀行審計局南昌分局,
郵政編碼:330038,電子郵箱:819860249@qq.com)
主要參考文獻
施文君.基于關聯規則的線上線下雙層耦合社交網絡信息傳播規律研究[D].蚌埠:安徽財經大學, 2018
王明哲,基于數據挖掘技術的信用卡客戶的信用評價[J].商場現代化, 2007(8):77-78
許荻迪.基于關聯規則挖掘的商業銀行信貸產品交叉營銷研究[J].商業經濟, 2017(3):103-106
顏龍杰.關聯規則挖掘在銀行客戶信用評估中的應用研究[D].武漢:中南民族大學, 2015
楊親瑤.交互可視化關聯規則挖掘的研究與實現[D].廣州:華南理工大學, 2010