999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在銀行信貸風險管理中的應用

2014-03-05 18:30:41夏春梅
現代電子技術 2014年4期
關鍵詞:數據挖掘分類模型

夏春梅

摘 要: 為了開發一個中國郵政儲蓄銀行某分行的信貸風險管理系統,采用了數據挖掘技術。首先對數據挖掘和數據倉庫技術的相關概念進行了介紹,對現有的信貸管理情況進行了分析,結合我國銀行業的實際特點,得到了一個基于數據挖掘的信貸風險管理模型的設計和實現方法。在此基礎上,通過在分類以前進行屬性選擇,不僅改善了分類器的總體性能,也降低了數據采集成本,可以提高銀行信貸工作的效率。

關鍵字: 數據挖掘; 分類算法; 決策樹; 信貸風險管理

中圖分類號: TN964?34 文獻標識碼: A 文章編號: 1004?373X(2014)04?0078?04

Application of data mining technology in loan risk management

XIA Chun?mei

(Binzhou University, Binzhou 256600, China)

Abstract: In order to develop a loan risk management system for Binzhou Branch of Postal Savings Bank of China, the data mining (DM) technology is applied. The relevant concepts of DM and data warehouse technology are introduced. The available circumstances existing in the credit information management is analyzed. In combination with the actual characteristics of Chinese banking industry, a loan risk management model based on DM was designed. By attributes selection before classification, the overall performance of the classifier was improved, and the data acquisition cost was reduced. As a result, the efficiency of the bank credit service was improved.

Keywords: data mining; classification algorithm; decision tree; loan risk management

0 引 言

長期以來,銀行管理人員由于硬件設施和數據處理技術的限制,不能全面把握貸款的相關信息,往往不能對信貸資產的風險做出正確的評估,從而導致決策失誤。如何從海量的數據中發掘出風險評估的規律使銀行規避風險成為銀行業面臨的一大挑戰。

經中國政府批準,中國郵政儲蓄銀行有限責任公司于2007年3月6日依法成立。郵政儲蓄小額貸款業務不需質押、抵押,具有擔保方式靈活、放款速度快、貸款額度高等優點。對于拓寬城鄉居民融資渠道、有效緩解農民“貸款難”問題、促進農民增收、農村經濟發展具有重要意義。但是,防范風險是金融業永恒的主題,在推出業務的同時要加強宏觀經濟形勢分析和市場調研,密切關注可能出現的各種風險,維護金融安全穩定。在銀行信貸風險管理中使用數據挖掘技術,可以從海量的信貸數據中發現隱藏在其中的客觀規律,還可以更好地降低金融機構存在的業務風險。本文就是運用數據挖掘技術來解決郵政某銀行的信貸風險管理問題。

1 提出問題

數據挖掘(Data Mining),數據挖掘是從大量數據中發現并提取隱藏在內的、人們事先不知道的但又可能有用的信息和知識的一種新技術[1],是從海量數據中發現人們事先未知的、規律性的,隱蔽信息和知識的非平凡過程[2]。數據挖掘和知識發現理論自1989年8月提出至今得到了廣泛的研究,內容包括基礎理論、發現算法、數據倉庫、可視化技術、定性定量互換模型[3]、知識表示方法、發現知識的維護和再利用、半結構和非結構化數據中的知識發現以及網上數據挖掘等。

現在有很多適用于各種商業應用橫向解決方案(Horizontal Solution)的通用數據挖掘系統,而專用的數據挖掘系統的應用多集中在電信、保險、生物醫學、零售業等部門[4]。數據挖掘的所有工作都應該與工作領域的實際業務相掛鉤,銀行業要根據各個銀行不同信貸業務的特點來確定具體的數據分析主題。全國的眾多銀行受各個地方的經濟發展水平等各種因素的影響,肯定會存在一些業務差異和業務特色。所以,只有緊密結合某個具體銀行業的實際業務,確定一個合適的數據分析主題,這樣的數據挖掘成果才具有現實意義。本文定義了貸款風險分類分析作為數據挖掘的目標。

貸款管理一般使用貸款風險分類法對貸款質量進行分類。中國人民銀行按照風險程度將貸款劃分為不同檔次,并于2001年12月頒布了《貸款風險分類指導原則》,把貸款分為5類:正常、關注、次級、可疑和損失。期中后3類合稱為不良貸款[5]。商業銀行可以直接采用此標準對貸款風險進行分類,也可以根據指導原則制定自己的貸款分類制度。但是,要求商業銀行制定的貸款分類制度必須和中國人民銀行采用的貸款風險分類法具有非常明確的對應和轉換關系。

可以通過數據挖掘,分析不同類別貸款的具有的特征,建立一個模型。當有一筆新申請貸款時,可以利用模型估計它的類別,從而針對不同類別的貸款申請采取相應的措施。例如,對屬于正常范圍的貸款可以直接批準通過,而對于關注以下的貸款則需要加強審查,或者加強對該企業的貸后檢查,或者拒絕貸款,從而提高了信貸資產的安全性。當然,信貸資產的風險等級也會隨著企業經營情況發生變化,銀行需要每隔一定的時間對每一筆貸款的當前分類進行重新分析,提高信貸風險的管理力度,降低銀行信貸資產的損失。

2 問題解決

本文采用WEKA3.5.7作為數據挖掘平臺。懷卡托智能分析環境(Waikato Environment for Knowledge Analysis,WEKA)是一個開放源碼的數據挖掘軟件[6]。

2.1 原始數據描述

據統計,由于[23]的郵政儲蓄網點都是在縣及縣以下的地方,自開辦郵政儲蓄小額質押貸款和小額貸款業務以來,80%的貸款發放到了農村地區。郵政儲蓄小額貸款業務又分為農戶小額貸款和商戶小額貸款兩種。其中,農戶小額貸款指的是向農戶發放的用于滿足其農作物種植、養殖業或非農業(日用百貨、生產加工、服務、建筑類、運輸等)生產經營等需要的短期貸款。商戶小額貸款是指向從事批發零售、服務業(餐飲類)、生產加工等部門的微小企業主提供的用來滿足其經營中資金需求的貸款。本文選擇了郵政儲蓄小額貸款業務中的商戶小額貸款作為研究對象。商戶小額貸款又分為2種:商戶聯保貸款和商戶保證貸款。

對于本文所研究的商戶小額貸款業務來說,涉及的數據表很多,如客戶及家庭信息表、業務信息表、采購信息表、季節性分析表、毛利率計算表、資產負債表、損益表、保證人信息表、小組聯保信息表等。這些信息雖然都與業務相關,但并非都有利于本文的研究。為了不侵犯和泄漏商戶的秘密,本文在提取數據過程中過濾了營業執照編號、商戶姓名、居住地址、店名或廠名、聯系方式等屬性。經過分析,抽取了客戶代碼、婚姻狀況、貸款種類、教育程度、年齡、貸款額度、貸款期限、還款方式、主營業務、經營年限、流動資產總額、固定資產總額、負債、月凈收入、月投入、信用、分類結果17個字段作為事實表數據。

2.2 數據預處理

經過初步采集的源數據往往是不完整的、有噪聲的和不一致的。銀行的數據庫中由于人工輸入錯誤,收集數據設備的故障、以及數據傳輸中出現的錯誤造成了銀行數據庫中的大量噪聲數據[7]。并且有些屬性,如客戶的收入狀況,包括收入的來源都沒有詳盡的正確的記錄。有些數據如住房情況、工作單位、職務、家庭人口情況在輸入數據庫時為空值。所以,對于這些錯誤和空值數據有必要先進行預處理。

在這個階段,主要進行數據收集、數據選擇、數據清理、數據變換等工作。在提取數據時選擇了17個屬性字段,從數據庫中隨機抽取整理了100條記錄。其中,婚姻狀況均為已婚(未婚不予貸款),還款方式均為階段性等額本息還款法,對分類沒有參考價值,去除這2個屬性。客戶代碼取值有許多且無概化操作,屬性刪除。對其他屬性字段的概化結果如表1所示。

表1 概化后的屬性字段

在分類抽取整理的客戶資料中一共有52個己分類的案例。其中正常類30個,關注類9個,次級類6個,可疑類5個,損失類2個。

由于損失類的借款人財務資料絕大多數無法獲得,故只有前4類參與。實際是正常類30個,關注類9個,次級類6個,可疑類5個,一共50個。

根據上面的數據準備,得到了此模型的訓練數據集如表2所示。

2.3 構造決策樹

上表的數據已經全部轉換為WEKA可以讀取的數據文件格式(CSV Data Files),接下來利用WEKA來建立模型。啟動WEKA的Explorer界面,并載入數據。然后選擇一種構建決策樹[8]的方法將樹建立起來。通過對BFTree,DecisionStump,J48,LMT,NBTree,RandomForest,Randomtree,REPTree,SimpleCart 9種分類器的實驗結果分析,J48分類器的準確率最高。

2.4 模型評估

根據建立的分類模型和樣本數據,評估模型的預測準確率。模型的準確率可以用被模型正確分類的測試樣本的百分比表示,如模型的預測正確率是可以接受的,就可以用來指導對客戶群分類。應用J48分類器進行分類評估,準確率為82%,即50個樣本數據中,對41個進行了正確分類,有9個分類不正確。該評估結果是通過默認的分層10折交叉驗證得到的。

3 改 進

數據挖掘從源數據發掘、知識發現到應用是一個系統的過程[8],而不僅僅是需要有算法。在分類過程中,一般隨著選擇屬性數目的增加分類性能會有所提高。但是,當屬性增加到一定程度后,有時再增加屬性反而會導致分類性能有所下降,這種現象稱為Hughes現象。因此,雖然從理論角度來講,多選擇幾個屬性意味著信息量的增加,但是屬性過多時反而會使性能變差,因為實際應用總是作用在規模有限的樣本之上。因此,在分類器集成設計中進行屬性消減是十分必要的。

可以通過2種方法消減問題域中的屬性數目:屬性提取和屬性選擇[9]。屬性提取通過某種映射將一個處于高維空間的樣本轉換為一個低維空間的樣本。映射后的屬性稱為二次屬性,它們是原始屬性的某種組合(通常是線性組合)。屬性提取在廣義上就是一種變換。若X是原始的測量空間,X′是屬性空間,則變換X→X′就叫作屬性提取器。屬性選擇是指從一組屬性中挑選出一些最有效的屬性以有效降低空間維數的過程。屬性選擇可以看作屬性提取的一個特例。對變量進行提取往往失去了結果的可解釋性。特別的,對于離散變量而言,進行屬性提取是沒有意義的。因此,本文著重研究屬性選擇方法。

在對樣本數據集建立分類模型之前,先進行屬性選擇處理。WEKA中提供了“Select attributes”專門用于屬性選擇。通過對“Search method”的選擇比較,屬性選擇的結果大部分為6個屬性:年齡、經營年限、負債、月凈收入、月投入、信譽狀況,根據以上屬性選擇結果,從樣本數據集中去掉其他屬性,共保留包括貸款類別在內的7個屬性,重新利用J48分類器建立決策樹模型。準確率提高為86%,即50個樣本數據中,對43個進行了正確分類,有7個分類不正確。

上面利用J48分類器構建的決策樹模型準確率是可以接受的,銀行可以為每一筆新申請貸款通過模型得出一個估計的類別,從而針對不同類別的貸款申請采取相應的措施。例如,對屬于正常范圍的貸款可以直接批準通過,而對于關注以下的貸款則需要加強審查,或者加強對該企業的貸后檢查,或者拒絕貸款,從而提高了信貸資產的安全性。當然,信貸資產的風險等級也會隨著企業經營情況發生變化,銀行需要每隔一定時間重新分析每筆貸款的當前分類,然后總結出貸款分類特征的變化趨勢,提高信貸風險的管理力度,降低信貸資產的損失。

4 結 論

在應用中選擇和概化了與分類結果密切相關的14個屬性字段,將大量的數據進行了預處理,得到訓練集。然后利用WEKA3.5.7挖掘平臺對訓練集進行了有效的數據挖掘。這里選擇了J48分類算法,通過在分類以前進行屬性選擇,不僅改善了分類器的總體性能,也降低了數據采集成本,顯著提高了銀行信貸工作的效率。至此,完成了數據挖掘技術在一個基于決策樹分類技術的貸款風險分類的簡單應用。

參考文獻

[1] 王珊,薩師煊.數據庫系統概論[M].4版.北京:高等教育出版社,2006.

[2] 張云濤,龔玲.數據挖掘原理與技術[M].北京:電子工業出版社,2004.

[3] 陳貴林.一種定性定量信息轉換的不確定性模型:云模型[J].計算機應用研究,2010,27(6):2006?2010.

[4] YU Ming?kai, GOU Xue?rong, ZHANG Xun, et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications, 2009(6): 196?202.

[5] 林躍雄.商業銀行分支機構利用貸款風險分類調節利潤的主要做法和防范對策[J].經濟師,2009(11):195?197.

[6] 佚名.數據挖掘軟件:WEKA [EB/OL]. [2008?09?20]. http:// www.baike.baidu.com/ view/ 1380214.htm.

[7] 王石,李玉忱,劉乃麗,等.在屬性級別上處理噪聲數據的數據清洗算法[J].計算機工程,2005(9):86?87.

[8] KAMBER M.數據挖掘概念與技術[M].2版.范明,孟小峰,譯.北京:機械工業出版社,2007.

[9] 焦鵬,王新政,謝鵬遠.基于屬性選擇法的樸素貝葉斯分類器性能改進[J].電訊技術,2013(3):329?333.

[10] 朱元波.一種數據挖掘系統的研究與實現[J].電子科技,2013(3):99?101.

[11] 周牒嵐,陳琳,向華.數據挖掘算法研究[J].現代電子技術,2011,34(20):75?78.

[12] 陳光海.基于SOA的網上銀行客戶評估系統的研究與實現[J].現代電子技術,2009,32(24):42?44.

[13] 龍海燕,奚振斐,宋國鄉.基于模糊綜合評判防范的電子銀行內部風險分析[J].現代電子技術,2008,31(24):151?153.

[14] 張蕾.電子銀行的風險分析及對策[J].電子設計工程,2009(6):25?27.

4 結 論

在應用中選擇和概化了與分類結果密切相關的14個屬性字段,將大量的數據進行了預處理,得到訓練集。然后利用WEKA3.5.7挖掘平臺對訓練集進行了有效的數據挖掘。這里選擇了J48分類算法,通過在分類以前進行屬性選擇,不僅改善了分類器的總體性能,也降低了數據采集成本,顯著提高了銀行信貸工作的效率。至此,完成了數據挖掘技術在一個基于決策樹分類技術的貸款風險分類的簡單應用。

參考文獻

[1] 王珊,薩師煊.數據庫系統概論[M].4版.北京:高等教育出版社,2006.

[2] 張云濤,龔玲.數據挖掘原理與技術[M].北京:電子工業出版社,2004.

[3] 陳貴林.一種定性定量信息轉換的不確定性模型:云模型[J].計算機應用研究,2010,27(6):2006?2010.

[4] YU Ming?kai, GOU Xue?rong, ZHANG Xun, et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications, 2009(6): 196?202.

[5] 林躍雄.商業銀行分支機構利用貸款風險分類調節利潤的主要做法和防范對策[J].經濟師,2009(11):195?197.

[6] 佚名.數據挖掘軟件:WEKA [EB/OL]. [2008?09?20]. http:// www.baike.baidu.com/ view/ 1380214.htm.

[7] 王石,李玉忱,劉乃麗,等.在屬性級別上處理噪聲數據的數據清洗算法[J].計算機工程,2005(9):86?87.

[8] KAMBER M.數據挖掘概念與技術[M].2版.范明,孟小峰,譯.北京:機械工業出版社,2007.

[9] 焦鵬,王新政,謝鵬遠.基于屬性選擇法的樸素貝葉斯分類器性能改進[J].電訊技術,2013(3):329?333.

[10] 朱元波.一種數據挖掘系統的研究與實現[J].電子科技,2013(3):99?101.

[11] 周牒嵐,陳琳,向華.數據挖掘算法研究[J].現代電子技術,2011,34(20):75?78.

[12] 陳光海.基于SOA的網上銀行客戶評估系統的研究與實現[J].現代電子技術,2009,32(24):42?44.

[13] 龍海燕,奚振斐,宋國鄉.基于模糊綜合評判防范的電子銀行內部風險分析[J].現代電子技術,2008,31(24):151?153.

[14] 張蕾.電子銀行的風險分析及對策[J].電子設計工程,2009(6):25?27.

4 結 論

在應用中選擇和概化了與分類結果密切相關的14個屬性字段,將大量的數據進行了預處理,得到訓練集。然后利用WEKA3.5.7挖掘平臺對訓練集進行了有效的數據挖掘。這里選擇了J48分類算法,通過在分類以前進行屬性選擇,不僅改善了分類器的總體性能,也降低了數據采集成本,顯著提高了銀行信貸工作的效率。至此,完成了數據挖掘技術在一個基于決策樹分類技術的貸款風險分類的簡單應用。

參考文獻

[1] 王珊,薩師煊.數據庫系統概論[M].4版.北京:高等教育出版社,2006.

[2] 張云濤,龔玲.數據挖掘原理與技術[M].北京:電子工業出版社,2004.

[3] 陳貴林.一種定性定量信息轉換的不確定性模型:云模型[J].計算機應用研究,2010,27(6):2006?2010.

[4] YU Ming?kai, GOU Xue?rong, ZHANG Xun, et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications, 2009(6): 196?202.

[5] 林躍雄.商業銀行分支機構利用貸款風險分類調節利潤的主要做法和防范對策[J].經濟師,2009(11):195?197.

[6] 佚名.數據挖掘軟件:WEKA [EB/OL]. [2008?09?20]. http:// www.baike.baidu.com/ view/ 1380214.htm.

[7] 王石,李玉忱,劉乃麗,等.在屬性級別上處理噪聲數據的數據清洗算法[J].計算機工程,2005(9):86?87.

[8] KAMBER M.數據挖掘概念與技術[M].2版.范明,孟小峰,譯.北京:機械工業出版社,2007.

[9] 焦鵬,王新政,謝鵬遠.基于屬性選擇法的樸素貝葉斯分類器性能改進[J].電訊技術,2013(3):329?333.

[10] 朱元波.一種數據挖掘系統的研究與實現[J].電子科技,2013(3):99?101.

[11] 周牒嵐,陳琳,向華.數據挖掘算法研究[J].現代電子技術,2011,34(20):75?78.

[12] 陳光海.基于SOA的網上銀行客戶評估系統的研究與實現[J].現代電子技術,2009,32(24):42?44.

[13] 龍海燕,奚振斐,宋國鄉.基于模糊綜合評判防范的電子銀行內部風險分析[J].現代電子技術,2008,31(24):151?153.

[14] 張蕾.電子銀行的風險分析及對策[J].電子設計工程,2009(6):25?27.

猜你喜歡
數據挖掘分類模型
一半模型
分類算一算
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产91丝袜| 伊人查蕉在线观看国产精品| 欧美www在线观看| 亚洲欧洲日本在线| 日韩天堂视频| 在线网站18禁| 99久久国产精品无码| 欧美精品亚洲二区| 国产精品七七在线播放| 亚洲天堂自拍| 亚洲欧洲免费视频| 国产本道久久一区二区三区| 亚洲日韩精品综合在线一区二区| 91视频国产高清| 国产成人精品高清在线| 久久天天躁狠狠躁夜夜2020一| 黄色一及毛片| 亚洲乱亚洲乱妇24p| 免费国产在线精品一区| 国产亚洲男人的天堂在线观看| 国产拍揄自揄精品视频网站| 99re在线视频观看| 国产视频a| 午夜视频www| 曰韩人妻一区二区三区| 免费看美女自慰的网站| 国产高清毛片| a毛片免费在线观看| 欧美三级日韩三级| AV网站中文| 国产精品林美惠子在线播放| 91久草视频| 亚洲免费毛片| 亚洲欧美日韩成人高清在线一区| 女高中生自慰污污网站| 国产成人91精品免费网址在线| 视频一区亚洲| 91国内视频在线观看| 成人福利在线免费观看| 久久久久久尹人网香蕉 | 狠狠综合久久| 欧美视频二区| av在线无码浏览| 国产日本视频91| 国产精品一线天| 国产精品免费露脸视频| 在线色国产| 茄子视频毛片免费观看| 欧美一级黄片一区2区| 日本高清免费不卡视频| 亚洲成a人片在线观看88| 55夜色66夜色国产精品视频| 手机在线国产精品| 国产91色在线| 久久黄色影院| 久久人妻xunleige无码| 高清无码手机在线观看 | 国产AV无码专区亚洲A∨毛片| 亚洲欧美色中文字幕| 天堂成人av| 日韩中文无码av超清| 女人毛片a级大学毛片免费 | 2024av在线无码中文最新| 欧美午夜在线播放| 久久久久88色偷偷| 99国产在线视频| 91蜜芽尤物福利在线观看| 狠狠色丁香婷婷| 高清无码一本到东京热| 日韩国产亚洲一区二区在线观看| 成人免费一级片| 成年A级毛片| 亚洲三级片在线看| 67194成是人免费无码| 久久久久亚洲av成人网人人软件| 亚洲有码在线播放| 亚洲国产中文精品va在线播放| 女同国产精品一区二区| 国产精品久久久久久搜索| 91欧美在线| 亚洲男人的天堂久久香蕉| 看看一级毛片|