一、數據挖掘的概念
數據挖掘,又稱數據庫中的知識發現,數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程,是一門新興的邊緣交叉學科,涉及到機器學習、模式識別、數據庫、數理統計、數據可視化、高性能計算、神經網絡和空間數據分析等多門學科,被認為是目前具有廣泛應用的一個重要的研究課題。
二、數據挖掘常用技術的種類
(1)人工神經網絡。仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識別。(2)決策樹。代表著決策集的樹形結構。這是一種較常用的技術,決策樹提供了一種展示類似在什么條件下會得到什么值這類規則的方法。比如,在銀行貸款申請中,要對申請的風險大小做出判斷,常用的就是決策樹方法。(3)遺傳算法。基于進化理論,并采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。(4)近鄰算法。將數據集合中每一個記錄進行分類的方法。(5)規則推導。從統計意義上對數據中的“如果——那么”規則進行尋找和推導。
三、擔保公司目前主要的風險
(1)信用風險。借款人由于經營不善或主觀惡意等發生債務危機,無力全部或部分按時償還信用社貸款,造成逾期、呆滯呆賬等擔保風險。(2)市場風險。主要指借款人在投資決策時或在生產經營中因市場行情變化致使生產經營無法繼續維持或嚴重虧損,給信用社造成損失的可能性。(3)政策風險。主要是指由于各種經濟政策和財政稅收政策調整給借款人帶來重大經營影響,間接給信用社造成貸款損失的可能性。(4)道德風險。第一,不按擔保規則發放了一些提高擔保公司營業額的擔保業務,形成呆滯呆賬。第二,與借款人惡意串通,采取種種手段欺騙上級部門,形成貸款無法按時償還。第三,違規違法發放人情擔保和向關系人進行擔保,形成的各種損失。
四、決策樹技術在擔保業風險管理中的應用
(1)決策樹的概念。決策樹表示方法是應用最廣泛的邏輯方法之一,它從一組無次序、無規則的事例中推理出決策樹表示形式的分類規則。決策樹分類方法采用自頂向下的遞歸方式,在決策樹的內部結點進行屬性值的比較并根據不同的屬性值判斷從該結點向下的分支,在決策樹的葉結點得到結論。所以從決策樹的根到葉結點的一條路徑就對應著一條合取規則,整棵決策樹就對應著一組析取表達式規則。決策樹是一個類似于流程圖的樹結構,其中每個內部結點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉結點代表類或類分布。(2)決策樹用于分類的步驟。決策樹用于分類可分為兩大步:建立決策樹模型、使用模型進行分類。其中建立決策樹模型包括創建決策樹產生分類規則和對分類規則進行測試評估兩個階段。(3)預測客戶風險等級的方法和過程。擔保公司各種業務系統中存儲了大量客戶的數據,按照擔保公司以前的客戶風險等級分類方法,把這些客戶分為正常、逾期、呆滯、呆帳四類,其中后三種貸款客戶稱為不良擔保客戶。目前有的擔保公司開始實行新的客戶貸款風險五級分類標準,即正常、關注、次級、可疑、損失五類。把以前的正常客戶定義為低風險客戶,逾期、呆滯、呆帳定義為高風險客戶,現在的正常定義為低風險客戶,關注、次級、可疑、損失定義為高風險客戶。由于評定客戶的屬性特征不一致,將客戶分為企業客戶和個人客戶兩類。個人客戶的主要特征屬性有:貸款金額、貸款方式、家庭人口、貸款期限、借款人資信等級、資產負債率、年度家庭純收入、當地平均水平、生產經營情況、銷售及貨款回籠、經營管理能力、借款人還款意愿、有無不良行為、保證人代償能力、抵押物情況、擔保狀況總體評價。企業客戶的主要特征屬性有:貸款金額、貸款方式、貸款期限、借款人資信等級,資產負債率、主營業務利潤、主營業務收入凈額、銷售利潤率、同行業平均水平、總現金凈流量、生產經營情況、產品市場需求情況、經營管理能力、借款人還款意愿、保證人代償能力、抵押物情況、擔保狀況總體評價。對容易波動的屬性采用取其平均值的做法,離散的屬性通過建立序列對照的辦法也可以用平均法。具體做法是,首先將歷史業務數據、外部數據,經過清洗,轉換,集成加載到數據庫中,在數據庫中建立可供挖掘的以預測客戶風險為主題的數據集,對連續型數值屬性進行離散化處理,然后以客戶的特征屬性為條件屬性,類別屬性為分類屬性,用決策樹算法分別對個人和企業的歷史數據進行挖掘,得到潛在的分類規則,指導決策。
隨著擔保公司在風險管理中對數據挖掘技術的深入應用,數據挖掘技術的其他方法也將會越來越多的應用到風險管理中去,為擔保業務的風險管理提供有力的技術保障。
參 考 文 獻
[1]蔡皎潔,張玉峰.基于數據挖掘銀行客戶信用風險評級體系研究[J].情報雜志.2010(2):47~50
[2]顧慶鋒.數據倉庫、數據挖掘技術在信用社風險控制中的應用研究[D].鎮江:江蘇大學.2006
項目基金:本文系學院自然科學研究項目階段性成果。