摘要:文章主要闡述了數據挖掘技術的基本原理及在國外銀行業中的應用,分析了數據挖掘流程,并在此基礎上提出了將數據挖掘技術應用于商業銀行業務。
關鍵詞:數據挖掘;商業銀行;業務;應用
一、 數據挖掘概述及在國外銀行業中的應用
據挖掘技術起源于20世紀80年代末期的美國。從商業應用來看,首先采用數據挖掘技術的是金融、保險、電信等行業;而銀行則是數據挖掘技術應用的重要領域。在歐美銀行當中,匯豐、花旗和瑞士銀行是數據挖掘技術應用的先行者;當初應用的業務范圍以客戶檔案(Portfolio)分析為主。但是,真正將數據挖掘深度應用到主營業務中去的是以MBNA和FirstUSA為代表的信貸銀行,它們應用的領域主要是信用卡用戶分析。到20世紀90年代末,隨著客戶關系管理(CRM)的興起,數據挖掘逐步成為銀行業的寵兒,美國的美洲銀行和商務銀行、英國的皇家蘇格蘭銀行、法國興業銀行、德意志銀行、荷蘭銀行、澳大利亞國民銀行等紛紛采用數據挖掘技術來提高自己的經營能力。到21世紀,數據倉庫技術的廣泛應用為數據挖掘的深度普及奠定了基礎。在當今的歐美銀行業,很少有不采用數據挖掘或數據分析技術的銀行。
數據挖掘是個比較寬泛的概念。廣義的數據挖掘指的是一般性數據分析,它既包括統計分析方法,也包括挖掘方法。狹義的數據挖掘則是指基于非線性關系的數據分析方法。它融合了數據庫、人工智能、機器學習、統計學等多個領域的理論和技術。數據挖掘技術從一開始就是面向應用的。具體到商業銀行銀行業務的應用,仍然要搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特征,然后可能發現某個客戶、消費群體或組織的金融和商業興趣,并可觀察金融市場的變化趨勢。商業銀行業務的利潤和風險是共存的。為了保證最大的利潤和最小的風險,必須對賬戶進行科學的分析和歸類,并進行信用評估。
銀行業使用比較多的統計方法有描述分析、探索分析、聚類分析、回歸分析、時間序列分析、因子分析、方差分析等等。挖掘方法則包括神經網絡、決策樹、關聯分析、模糊聚類、貝葉斯網絡、馬可夫鏈等等。通常情況下,統計分析和挖掘方法要結合使用。但目前有一種傾向,一些軟件商把統計方法納入或包容到挖掘方法之中,使用戶在界面上見到的只有挖掘方法。
數據挖掘雖然是一門技術,但在實際應用中,它卻是一個過程,一個不斷調整、修正和發現的過程。典型的數據挖掘過程包括以下步驟:第一,數據的抽取、轉換和清洗。第二,數據探索,發現基本分布、缺省值、異常值等等。第三,建立模型,按照業務需求建立分析模型,如聚類/分類、關聯、預測等等。第四,模型修正,將訓練數據中得到的模型應用于真實的大數據量,檢驗和修正分析模型。第五,模型評估,按照特定參數標準對模型進行評估和比較。第六,模型應用,將優化的模型應用到業務流程之中,解決具體業務問題。
二、 商業銀行加強市場風險管理的緊迫性
長期以來我國商業銀行的業務主要集中在存貸款等傳統業務上,因此,如何控制好貸款業務的信用風險,則成為商業銀行穩健經營的基礎。但是,隨著我國金融業開放進程的加快,以及市場化改革的推進,市場風險越來越成為我國商業銀行所必須關注的一個焦點。
第一,市場化進程加快,風險因子波動加劇。市場風險 是指因市場風險因子(利率、匯率、股票價格和商品價格)的不利變動而使銀行表內和表外業務發生損失的風險,所以風險因子波動的加劇將使我國商業銀行面臨更大的市場風險。這種可能性將隨著我國利率、匯率的市場化改革而日益逼近。
第二,市場廣化和深化。金融市場化改革的深入,將會 來市場的廣化和深化。前者是指管制放松所帶來的金融 品數量的急劇增加,后者是指金融創新帶來的金融產品的復雜化。這兩種狀況將造成我國商業銀行持有的資產組合日趨復雜,組合市值的波動更加明顯。因而,商業銀行必對這些變化作出充分的估計并提前打造完善的市場風險管理體系。
第三,經濟資本核算的要求。銀監會《商業銀行資本充足率管理辦法》規定,商業銀行交易賬戶總頭寸高于表內外總資產的10%或超過85億元人民幣的商業銀行,須計提市場風險資本。這意味著,商業銀行必須對市場風險進行合理的管理,以便對市場風險資本金進行管理。
第四,商業銀行業務拓展的需要。國際上比較活躍的商業銀行在業務種類上已經逐步擺脫原有過于依賴傳統業務的模式,大力發展中間業務和表外業務。這一趨勢近年來已經引起了國內商業銀行的廣泛關注。可以預料,隨著業務范圍的拓展,我國商業銀行所面臨的市場風險將越來越明顯化、復雜化。
第五,國際競爭的需要。根據我國加入WTO后行業開放的日程,從2006年底開始,金融業將正式對外資開放。由于商業銀行屬于經營風險型的企業,因此,國內銀行與外資銀行之間的競爭將主要體現為風險管理和經營能力的競爭。
三、 數據挖掘在商業銀行應用中的主要方法
數據挖掘所涉及的學科領域很多,但在商業應用中最主要和最重要的分析方法有以下4種:
1. 關聯分析。關聯分析,即利用關聯規則進行數據挖掘。在數據挖掘研究領域,對于關聯分析的研究開展得比較深入,人們提出了多種關聯規則的挖掘算法,如APRIORI、STEM、AIS、DHP等算法。關聯分析的目的是分析決定哪些事情將一起發生。
2. 序列模式分析。序列模式分析和關聯分析相似,其目的也是為了挖掘數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后序列關系。它能發現數據庫中形如“在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列A—B—C出現的頻度較高之類的知識,序列模式分析描述的問題是:在給定交易序列數據庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數作用在這個交易序列數據庫上,返回該數據庫中出現的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。
3. 分類分析。設有一個數據庫和一組具有不同特征的類別(標記),該數據庫中的每一個記錄都賦予一個類別的標記,這樣的數據庫稱為示例數據庫或訓練集。分類分析就是通過分析示例數據庫中的數據,為每個類別做出準確的描述或建立分析模型或挖掘出分類規則,然后用這個分類規則對其它數據庫中的記錄進行分類。舉一個簡單的例子,信用卡公司的數據庫中保存著各持卡人的記錄,公司根據信譽程度,已將持卡人記錄分成三類:良好、一般、較差,并且類別標記已賦給了各個記錄。分類分析就是分析該數據庫的記錄數據,對每個信譽等級做出準確描述或挖掘分類規則,如“信譽良好的客戶是指那些年收入在5萬元以上,年齡在40歲~50歲之間的人士”,然后根據分類規則對其它相同屬性的數據庫記錄進行分類。目前已有多種分類分析模型得到應用,其中幾種典型模型是回歸模型、決策樹模型、關聯規則模型和神經網絡模型。
4. 聚類分析。與分類分析不同,聚類分析輸入的是一組未分類記錄,并且這些記錄應分成幾類事先也不知道。聚類分析就是通過分析數據庫中的記錄數據,根據定的分類規則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規則是由聚類分析工具決定的。聚類分析的方法很多,其中包括系統聚類法、分解法、加入法、動態聚類法、模糊聚類法、運籌方法等。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結果。聚類分析和分類分析是一個互逆的過程。例如在最初的分析中,分析人員根據以往的經驗將要分析的數據進行標定,劃分類別,然后用分類分析方法分析該數據集合,挖掘出每個類別的分類規則;接著用這些分類規則重新對這個集合(拋棄原來的劃分結果)進行劃分,以獲得更好的分類結果。這樣分析人員可以循環使用這兩種分析方法直至得到滿意的結果。
四、 數據挖掘應用的步驟
數據挖掘是一個完整的過程,該過程包括從大型數據庫中挖掘數據,到對挖掘出的信息做出決策,共有七個步驟:
1. 確定業務對象。清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結果是不可預測的,但要探索的問題應是有預見的。為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。
2. 數據的選擇。搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。
3. 數據的預處理。研究數據的質量,為進一步的分析做準備。并確定將要進行的挖掘操作的類型。
4.數據的轉換。建立一個針對挖掘算法的分析模型,這是數據挖掘成功的關鍵所在。
5.數據挖掘。對所得到的經過轉換的數據進行挖掘。除了完善合適的挖掘算法外,其余一切工作都能自動地完成。
6. 結果分析。通過實際數據和運行環境,來檢查數據挖掘過程中產生的分析結果、模式和模型的可信度。
7. 知識的同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
五、 結論
市場風險控制是商業銀行經營的關鍵環節。商業銀行所面臨的最大挑戰就是市場風險、信用風險和操作風險。通過風險控制銀行在拓展市場的同時可有效減少損失確保經營在風險可控的范圍內。由于目前商業銀行的信貸管理系統對客戶信息、風險信息、產業信息沒有有效地收集、儲存、挖掘、分析和利用數據巨大而信息散亂對風險的控制往往處于滯后的狀態。數據挖掘技術可實現借助計算機網絡系統,共享各業務分支的相關信息針對不同的風險點實施相應的控制措施及時獲取、挖掘有效的風險預警信息建立全面的風險管理預警體系發現經營中存在的問題增強風險識別和防范能力。
參考文獻:
1.周晶平.基于數據倉庫的銀行客戶關系管理系統的設計.中南民族大學學報2006,(4).
2.劉曉華.數據挖掘在銀行中的應用.科技資訊,2006,(2).
作者簡介:高軍,西南石油大學經濟管理學院講師、博士生;王睿,西南石油大學經濟管理學院講師。
收稿日期:2007-07-05。