基于BP神經網絡的農戶小額信貸信用風險評估研究

2012-12-29 00:00:00姚淑瓊強俊宏

西北農林科技大學學報(社會科學版) 2012年2期

摘要：利用2009年楊凌區三家農村信用社的實地調研資料進行了農戶小額信貸信用風險評估的實證研究，對指標變量分別進行正態性檢驗、差異性檢驗和多重共線性檢驗，利用MATLAB7.O軟件建立了8-14-1結構的13P神經網絡農戶信用風險評估模型。模型對訓練集樣本的總體判別正確率為100％，對測試集樣本違約類農戶的預測正確率達90％，總體正確率達84.09％。準確度較高，能夠為農村信用社識別農戶信用風險提供較好的依據。

關鍵詞：小額信貸；信用風險；BP神經網絡

中圖分類號：F830.51 文獻標識碼：A 文章編號：1009-9107(2012)02-0078-06

引言

農戶小額信貸是指農村信用社基于農戶的信譽，在核定的額度和期限內向農戶發放的不需抵押、擔保的貸款。1993年，中國社科院農村發展研究所將小額信貸項目第一次借鑒到中國，我國政府給予了大力支持。自2000年開始，為加大支農力度，緩解農戶貸款難問題，在中國人民銀行推動下，農村信用社作為正規金融機構全面試行并推廣農戶小額信貸。據有關數據顯示，截至2009年3月末，全國農戶小額信用貸款余額2518.6億元，同比增長17.5％，增速同比增加1.9個百分點；農戶聯保貸款余額為2006.3億元，同比增長33.6％，增速同比增加13.4個百分點。農戶小額信貸在解決農戶貸款難問題、促進農民增收、支持農村經濟發展等方面發揮了重要作用。

然而，由于農民控制風險能力有限，農村信用基礎薄弱，農戶小額信貸不需抵押、擔保的特點使得農村信用社在小額信貸實施過程中面臨較大的信用風險。農戶違約現象時有發生，導致農戶小額信用貸款的不良率居高不下，影響農村信用社的整體貸款質量，阻礙了農村信用社的健康發展和小額信貸的可持續發展。銀監會監管部主任楊家才在“2009中國農村金融論壇”上指出，目前涉農貸款不良率是7.4％，工業貸款不良率是2.29％，大企業貸款不良率是1.15％，中小企業貸款不良率是4.5％，涉農貸款的不良率大大高于其他類貸款。另有資料顯示，截至2009年初，廬江農村信用合作聯社農戶小額信用貸款余額1941萬元，不良貸款金額719.8萬元，不良率達37.1％。因此，有效控制農戶信用風險、提高信貸質量已成為農村信用社面臨的重要任務。

目前，農戶小額信用貸款采取“等級管理，分級定額，隨用隨貸，余額控制，周轉使用”的管理辦法。在農戶資信等級評定時，一般是通過信貸員、村委會的主觀意見或使用評分表打分來確定。這些方法雖簡單易行，但主觀性大且執行過程不規范，沒有借助量化的數學模型，容易導致農戶信用狀況評價不準，不能完全滿足農村信用社信用風險管理的需要。本研究嘗試利用BP神經網絡建立農戶信用風險評估模型，以此來識別農戶在小額信貸中的信用風險，嚴把貸款出口關，提高農戶小額信貸質量，促進小額信貸的可持續發展。

一、BP神經網絡介紹

人工神經網絡(Artificial Neural Network，簡稱ANN)，是一種旨在模仿人腦結構及其功能的腦式智能信息處理系統，是由大量處理單元相互連接構成的高度并行的非線性系統，具有高度的非線性映射能力，良好的容錯性和聯想記憶功能，自適應能力較強。神經網絡特有的這些性能，加之其對數據分布沒有嚴格要求，也無需詳細描述自變量和因變量間的函數關系，并且分類精度較高，使其在信用風險分析領域得到廣泛應用。神經網絡對信用風險的評估是通過其分類功能實現的，即先找出一組對信用分類有影響的因素作為網絡輸入，再通過有教師或無教師訓練建立信用風險評估模型，當輸入新樣本時該模型即可對其信用風險進行判別分類。

Rumelhart和Mc Celland于1986年對具有非線性連續變換函數的多層感知器的誤差反向傳播(Error Back Proragation，BP)算法進行了詳盡的分析，實現了多層感知器的設想。采用BP算法的多層感知器是至今為止應用最廣泛的神經網絡，通常將其稱為BP網絡。BP網絡是一種單向傳播的多層前饋網絡，由輸入層、隱含層和輸出層組成，一個三層的BP網絡可完成由任意n維輸入空間到m維輸出空間的非線性映射。BP算法的思想是，學習過程由信息的正向傳遞和誤差的反向傳播這兩個過程組成。在正向傳遞過程中，輸入樣本信息從輸入層經隱含層逐層計算后傳向輸出層，若輸出層實際輸出和期望輸出不符，則計算輸出層誤差值，然后轉入誤差的反向傳播階段。在誤差反向傳播過程中，輸出誤差經隱含層向輸入層逐層反傳，并將誤差攤分給各層所有單元，各層單元的誤差就作為修正其權值的依據。這種不斷調整權值的過程，即是網絡的訓練學習過程。當達到規定的誤差或一定的訓練次數，訓練結束。其網絡結構如下圖1所示。

二、實證研究

(一)樣本選擇與分組

本研究所用樣本來自2009年陜西省楊凌區3家農村信用社提供的資料。按照五級分類標準，逾期3個月以上的貸款為不良貸款，本研究也按此標準來確定農戶是否違約。在樣本選擇過程中考慮到樣本類別的均衡，盡量使違約類樣本數量和不違約類樣本數量大致相等，在按時還貸的農戶中隨機挑選了112戶，在未按時還貸的違約農戶中隨機挑選了106戶，總計218戶。刪除24個部分數據有缺失值的不合格樣本后，最終確定有效樣本為194個，其中不違約樣本有102個，違約樣本92個。

BP神經網絡分為訓練和工作兩個階段，網絡模型性能的好壞主要看其是否具有較好的泛化能力，即對新樣本正確處理的能力。一般將總樣本隨機分成訓練集樣本和測試集樣本兩部分，對模型泛化能力的測試應當用測試集樣本數據進行檢驗。有的資料認為訓練集樣本規模一般應達到有效樣本的75％-80％，本研究將194個樣本分成訓練樣本和測試樣本兩組：利用SPSSl6.0軟件在102個不違約樣本中隨機抽取78個，在違約樣本中隨機抽取72個，將這150個樣本數據作為訓練樣本集，而將其余的24個不違約樣本和20個違約樣本共44個樣本作為測試樣本集。

(二)指標確定

本研究初始選取的指標來自農村信用社農戶小額信用貸款資信等級評定表和農戶借款申請書等檔案，選取了戶主年齡、戶主性別、家庭人口數、家庭勞動力數、耕地面積、農業收入、非農收入、年總支出、信用社入股金額、房屋價值、機械價值、其他資產價值、貸款數額、貸款用途、貸款月利率共15個指標。在以上指標中，戶主的性別和借款用途兩個變量是語言變量，需要轉換為離散的數值量。在本研究中，戶主的性別為男時賦值為0，性別為女時賦值為1；當貸款用途為用于種植業、養殖業等農業基本生產時賦值為1，用于加工、運輸、經商等個體經營時賦值為2，用于生活用品、建房、治病、上學等一般消費時賦值為3。

為了選擇對違約農戶和非違約農戶區分能力最強的指標變量以及消除變量間的多重共線性問題，對以上所選取的15個指標用SPSSl6.0軟件分別進行正態性檢驗、參數及非參數檢驗和指標變量之間的多重共線性檢驗。

1.正態性檢驗。在進行樣本差異性檢驗之前，采用單樣本K-S檢驗即Kolmogorov-Smirnov檢驗法，對每一個變量分別進行正態性檢驗。檢驗結果表明，在0.05的顯著性水平下，變量戶主年齡的概率P值為0.179，大于0.05，而其余14個變量的概率P值均為0，說明除變量戶主年齡服從正態分布以外，另外14個變量都不服從正態分布。

2.差異性檢驗。兩獨立樣本T檢驗。兩獨立樣本T檢驗的前提是樣本來自的總體應服從或近似服從正態分布，本研究對服從正態分布的變量戶主年齡采用兩獨立樣本T檢驗。T檢驗結果的F統計量觀察值的概率P值為0.098，大于顯著性水平0.05，認為兩總體方差無顯著差異；對應的T統計量觀察值的概率P值為0.027小于0.05，認為兩總體均值存在顯著差異。

兩獨立樣本K-S檢驗。對除變量戶主年齡外的其他不服從正態分布的變量采用兩獨立樣本K-s檢驗。在K-s檢驗結果中，耕地面積、農業收入、非農收入、年總支出、房屋價值、貸款數額、貸款用途幾個變量的概率P值小于0.05，認為這幾個變量在兩總體的分布間存在顯著差異，其他幾個變量在兩總體間則不存在顯著差異。因此可以認為戶主年齡、耕地面積、農業收入、非農收入、年總支出、房屋價值、貸款數額、貸款用途這8個變量在違約組和非違約組之間的差異顯著，在模型建立過程中可只保留差異顯著的8個變量，而將其他7個變量予以易II除。

3.共線性檢驗。BP神經網絡具有很強的非線性映射能力和自適應能力，輸入變量之間是否存在共線性問題對網絡的處理結果影響不大，但為使網絡的訓練效果更佳，本文使用方差擴大因子法進行變量問的多重共線性檢驗。VIF值越大，多重共線性問題就越嚴重，一般認為VIF值不應大于5，但也可適當放寬標準至不大于10。當VIF值大于10時，可認為變量之間存在嚴重的共線性。檢驗結果顯示，變量非農收入的方差擴大因子VIF值最大，但也僅為2.974，小于5，表明所選擇的8個變量之間并不存在多重共線性問題，可以將這8個變量直接作為建立BP網絡模型的輸入變量。

(三)數據處理

為消除數據量綱和變量自身變化大小的影響，加快網絡訓練的收斂速度，在模型建立之前，采用最小一最大標準化法對變量進行歸一化即標準化處理，將網絡的輸入、輸出數據限制在[0，1]，從而使各輸入分量在網絡訓練開始時處于同等重要的地位。計算公式如下：

(四)BP神經網絡信用風險評估模型的實現

1.BP網絡結構設計。(1)隱含層確定。單隱層BP網絡能完成由任意n維到m維的映射，與一個隱層相比，采用兩個隱層并無助于改善網絡性能，但隨隱層層數的增加，訓練時間將急劇增加，且在訓練過程中往往容易陷入局部最小誤差而無法收斂。通過調節網絡隱層神經元數目可提高其誤差精度，且訓練效果也比增加層數更明顯。因此本研究以一個隱層建立單隱層的三層BP神經網絡。(2)輸入層和輸出層確定。輸入參數的合理與否對網絡的性能有重要影響。選擇輸入量的基本原則一是變量對輸出有較大影響且能夠提取或檢測，二是各變量之間互不相關或相關性很小。輸入層節點數目取決于輸入數據的維數。通過前述指標篩選，最終有8個指標對農戶是否違約影響較大且變量間不存在相關性，可以作為建立BP網絡模型的輸入變量，因此本研究確定BP網絡輸入層的神經元個數為8個。輸出層的選擇相對容易，其節點數取決于輸出數據類型和表示該類型所需數據的大小兩個方面。當BP網絡用于模式分類問題時，可用二進制數表示輸出結果，其節點數可根據待分類類別數確定。本研究將農戶信用風險分為違約和不違約兩類，因此可定義1個輸出節點，用1表示違約類農戶，0表示不違約類農戶。(3)隱層節點數的確定。隱層節點數太少，網絡提取樣本信息的能力差，將不足以反映訓練集的樣本規律。若隱層節點數太多，又可能會提取出樣本中非規律性的內容如噪聲等，造成“過度吻合”，降低網絡的泛化能力，另外還會增加網絡的訓練時間。對于隱層節點數的確定，至今沒有準確的理論和規則，需要的往往是更多的經驗。在具體設計時，可先根據經驗公式初步確定隱含層節點數，然后通過對不同節點數的網絡進行訓練對比，再最終確定節點數。本研究采用公式作為計算隱層節點數的參考公式，得出隱節點數為17個。在網絡訓練過程中不斷改變隱層節點數，通過比較不同隱節點數下網絡的訓練誤差精度及對兩類樣本的判別準確率，在滿足網絡的訓練誤差精度的前提下，選取判別準確率最高時的節點數作為網絡模型最終的隱層節點數。經過多次測試，最終確定隱層的節點數為14，由此構成了一個8-14-1型的BP神經網絡模型，在滿足誤差精度的情況下，此時模型對兩類樣本的判別準確率最高。(4)傳遞函數的選取。BP網絡常用的傳遞函數有對數S型logsig函數、雙曲正切S型tansig函數和線性函數purelin。由于BP神經網絡的非線性映射能力是通過S型傳遞函數所體現的，所以隱層一般采用S型傳遞函數，而輸出層傳遞函數可以采用s型或線性。當用s型傳遞函數作為輸出層的傳遞函數時，其非線性逼近速度快于線性傳遞函數。本研究將隱層傳遞函數確定為tansig函數，從而將隱層輸出值控制在(-1，+1)之間；因為網絡的輸出值為0或1，所以輸出層傳遞函數采用iogsig函數。(5)訓練函數的確定。對網絡的訓練本研究采用L-M改進算法和批處理的訓練模式。L-M改進算法的收斂速度最快，并且適用于中小型網絡。對于L-M算法，MATLAB神經網絡工具箱提供了批處理模式下的訓練函數trainlm。本研究將選擇trainlm作為網絡的訓練函數。

2.訓練參數設置。(1)學習率。學習率決定網絡每一次訓練中所產生的權值變化量，其選擇合理性是網絡穩定的關鍵，太大可能導致系統不穩定，太小會導致收斂速度慢、訓練時間過長，不過能保證收斂于某個極小值。一般情況下，傾向于選取較小的學習速率以保證網絡系統的穩定性，其選取范圍通常在0.01-0.8之間。當前都是根據經驗來選擇，并沒有合理的解釋與推導。可以通過觀察網絡訓練的誤差變化曲線來判斷選取的學習率是否合理.曲線下降較快說明學習率比較合適，若出現較大的振蕩則說明學習率偏大。經過反復測試，本研究最終確定學習率為0.4。(2)訓練次數。訓練次數將直接影響網絡的準確性和泛化能力，次數過小不能完成訓練所設定的目標誤差，次數過大則容易造成“過度學習”現象，使得網絡在對測試樣本進行仿真測試時的準確度不高。本研究將最大訓練次數確定為10000，當訓練時間超過該設定時，學習過程自動終止。(3)訓練目標誤差。MATLAB中默認目標誤差為0，但實際情況中訓練樣本集很難達到。本研究輸出值設為0和1兩種情況，屬于二分類問題，對訓練精度要求不是特別高，將目標誤差設為0.001。

3.網絡訓練。在網絡訓練時需要注意的是將兩類樣本交叉輸入，因為集中輸入同一類樣本將使網絡在訓練時只建立與該類樣本相適應的映射關系，而集中輸入另一類樣本時，網絡權值的調整又轉向新的映射關系而否定前面訓練的結果。當網絡的隱含層節點數為14時，網絡根據訓練樣本進行訓練的誤差變化曲線圖如圖2所示。

BP網絡模型對訓練集樣本的判別分類準確率達到100％，判定結果如表l所示。

4.網絡測試。在訓練誤差達到要求后，根據測試集樣本的網絡模型輸出與期望輸出的誤差，判斷網絡的泛化性能。當網絡的隱含層節點為14時，測試集樣本的網絡模型輸出見表2。

BP網絡模型對測試集樣本的分類準確率如表3所示。

通過測試樣本集網絡輸出結果表2可以看出，1號、5號、10號、11號、29號、30號及31號樣本的網絡輸出結果與期望輸出不符，判別分類出現錯誤。通過對測試樣本的判別分類表3可以看出，BP網絡模型對違約樣本分類識別的正確率達到了90％，對不違約樣本分類識別正確率為79.17％，整體的分類識別正確率為84.09％，取得了較好的評估結果，證明了所建BP網絡模型的精確性和有效性。

本研究將違約類農戶誤判為非違約類農戶稱為第一類錯誤，將非違約類農戶誤判為違約類農戶稱為第二類錯誤。顯然，對于金融機構來說，第一類錯誤的危害性遠比第二類錯誤嚴重，犯第二類錯誤頂多是沒有將貸款發放出去而損失一筆利息收入，而犯第一類錯誤則會造成貸出的款項無法收回而形成果賬。Ahman曾經得出這樣一個研究結論，犯第一類錯誤造成的損失是第二類錯誤造成的損失的20倍至60倍。因此，應盡量避免第一類錯誤的發生。本研究所建立的BP網絡模型對違約類樣本識別的準確率達到90％，犯第一類錯誤的概率僅為10％，能夠較好的避免第一類錯誤的發生，因而可認為是一個較好的信用風險評估模型，可以將其作為農村信用社識別農戶信用風險的工具。

三、結論及政策建議

(一)結論

隨著小額信貸的發展，如何有效控制農戶信用風險、提高信貸質量以促進小額信貸的可持續發展已成為農信社面臨首要任務。農戶小額信貸信用風險的評估研究對于完善農戶小額信貸業務，實現小額信貸的可持續發展有著重要的意義。

1.本文利用陜西省楊凌區3家農村信用社提供的數據資料，借助SPSSl6.0軟件對樣本數據分別進行正態性檢驗、參數及非參數檢驗和多重共線性檢驗，選擇出對違約農戶和非違約農戶區分能力最強的指標變量，消除變量間的多重共線性問題，在信息量不減少的情況下減少變量的個數，從而減少了神經網絡模型的輸入單元個數，降低網絡模型的復雜程度，提高了訓練速度。

2.利用MATLAB7.0軟件對農戶小額信貸信用風險進行實證研究，建立了8-14-1結構的BP神經網絡模型。模型對訓練集樣本的識別正確率達100％，對測試樣本集違約類農戶的識別正確率達90％，總正確率達84.09％，雖然網絡模型對測試樣本集未違約類農戶的識別準確率只有79.17％，但農村信用社在一定程度上可以容忍此類錯誤發生所帶來的機會損失。因而，BP網絡模型能夠為農村信用社識別和預測農戶信用風險提供較好的依據。

3.BP神經網絡是一種非參數模型，具有較強的非線性映射能力、容錯能力和魯棒性，對數據的分布要求不嚴格，分類精度較高，并且可以很容易地繼承現有領域知識，不斷接受新樣本、新經驗對模型進行調整。另外，BP神經網絡模型中的權重通過網絡對樣本訓練形成，不需要對各項指標確定權重，克服了由人工評價帶來的主觀性及模糊隨機性的影響，保證了結果的準確性和客觀性。

(二)政策建議

健全農戶信用檔案，建立農戶信息數據庫。深入調查農戶的詳細資料是建立農戶信用檔案的基礎工作，也是農戶小額信貸信用評級的依據。當前的農戶信用檔案資料不夠詳細，不能夠全面反映農戶家庭特征，影響農戶小額信貸的質量。詳細規范的信用數據是建立有效的信用風險評估模型的基礎，也能夠使信用風險評估模型選擇更多的特征變量，進而提高模型的識別能力。此外，任何信用風險評估模型的應用都基于充足的歷史數據，也是保證其準確適用的前提。加快農村信用社信息化建設步伐，建立農戶檔案數據庫，對農戶信用檔案實行電子化管理，能夠為信用風險評估模型的建立和完善提供大量的數據支撐，并實現農戶小額信貸的實時發放和日常管理，提高農村信用社的金融管理能力。

引進專業技術人才，提高員工計算機水平。由于諸多歷史原因，當前我國農村信用社員工的年齡結構和知識結構老化，整體文化水平偏低，缺乏高素質的專業人才。BP神經網絡信用風險評估模型和數據庫的建立、維護等需要較強的計算機專業知識，且農村信用社在辦理各項業務也均已實現電子化操作，而能熟練操作計算機和精通軟硬件維修的人員很少，大部分計算機操作人員是經過短期培訓上崗，其專業技能低，設備出現故障不能及時排除。因此，農村信用社有必要引進精通計算機的專業技術人才，以更好的實現對農戶信用風險的評估管理和業務操作能力。另外，定期對現有工作人員進行計算機知識的培訓，提高員工對計算機設備的操作能力和管理維護能力。

西北農林科技大學學報(社會科學版)2012年2期

西北農林科技大學學報(社會科學版)的其它文章: 周至縣獼猴桃產業升級的調查與心思考; 近代早期威尼斯貴族政治的發展與轉型研究; 北京市和諧社會的測度方法及實證研究; 基于供銷社的農產品流通體系創新研究; 中國共產黨解決“三農”問題的理論探索; 慶陽市董志塬水土保持對策研究