蒲京京 蘇巧榮 張朝瑜 肖振東 吳養會


摘 要:針對農戶產權抵押貸款信用問題,利用陜西高陵、臨潼、楊陵3個地區農村金融抵押貸款的有關調研數據,運用貝葉斯網絡分類模型進行分類研究,以農戶所在地區、家庭類型、教育程度等10個因素作為自變量,以產權抵押貸款的意愿作為分類依據,結果表明,采用十折交叉驗證的貝葉斯網絡分類器對解決此類問題具有良好的分類效果,其分類結果可以為農戶抵押貸款研究提供理論參考。
關鍵詞:農村金融;貝葉斯網絡分類器;ROC曲線;交叉驗證
中圖分類號 F832 文獻標識碼 A 文章編號 1007-7731(2018)11-0002-04
Abstract:According to the problem of farmers' property mortgage credit,the Bayes Network classification model was constructed which based on the investigation data related to the property mortgage in Gaoling,Lingtong and Yangling.We chosed the region,family type,level of education and other 7 factors as the independent variables,the property mortgage loan willingness as the independent variables.The analysis results show that Bayes Network classification model which used ten-fold cross validation has good effect in solving these problems.Besides,the classification results provided the certain reference role in the household mortgage policy.
Key words:Rural finance;Bayes network;ROC curve;K-fold cross validation
1 引言
當前中國經濟正在飛速發展,這其中金融業起著至關重要的作用,然而我國農村金融行業的創新能力仍然明顯不足。圍繞農村產權抵押貸款,國內學者展開了大量的研究,現有研究大多局限在對農村產權抵押貸款發展意義、現狀、制約因素及其制度中存在的問題等方面上的定性分析,而基于農戶微觀數據的定量研究則相對偏少。曾慶芬[1]以成都試點為例,利用二項logit模型分析了影響農戶參與土地使用權和宅基地使用權融資意愿的影響因素,并提出了相關政策建議;美國耶魯大學經濟學家Hugh T.Patrick研究中,強調農村經濟主體的金融服務需求以及農村金融組織及相關服務的供給先于農村經濟主體的需求。值得我們借鑒的還有像孟加拉國那樣的農村金融機構,孟加拉國鄉村銀行模式調動了農村的發展積極性,不僅充分發揮了鄉村銀行對農村經濟發展的作用,而且提高了農村銀行自身的發展效率。對于中國農村現狀,孟加拉國的小額扶貧貸款模式適用于我國如此之多的農村人口數量,能有效地帶動銀行資金的流動,促進農村銀行的發展。從以上研究方法可以看出,對農村產權抵押貸款的研究更多的集中于制度研究,少有的實證分析也僅局限與二項logit模型或二項logistic回歸模型,受限于模型同性質和獨立同分布等理想化假設的影響,所得到的結論難以全面、客觀地反映出農戶融資的實際需求。
李旭升[2]在個人信用評估中使用樸素貝葉斯分類器(Neive Bayesian,NB)建立分類模型,對數據類型進行細致分類,實驗表明,NB進行信用分類可以取得更好的效果,由于NB作為一種概率型分類,各類概率以及各屬性的條件概率有明顯的物理意義,具有較好的解釋性??登f[3]在納稅評估方面建立貝葉斯分類納稅評估模型,有效地發現稅法執行偏差,能夠較為準確地發現稅收執行偏差者;吳陳和張明華[4]研究分析了樸素貝葉斯分類算法在個人信用預測方面的應用,實驗表明,基于最大后驗概率熵的最優樸素貝葉斯算法在個人信用預測方面顯著提高了預測的準確性。唐爐亮[5]在針對浮動車數據的城市車道數量信息調查采用樸素貝葉斯分類方法確定目標路段的車道數量,最終結果表明其提取的精度高達76.3%。作為一種良好的分類器,樸素貝葉斯分類器受到越來越多的研究者的關注,在各個研究領域都得到了廣泛的應用。
為研究我國西部農戶產權抵押貸款中的農戶分類問題,本文利用貝葉斯網絡具有較高的分類精度和優良準確性的特征,以農戶抵押貸款的預期為分類指標,建立影響農戶類型的貝葉斯網絡結構,以為金融機構提供有價值的信用參考。
2 貝葉斯網絡分類器
貝葉斯網絡[6](Bayesian Network)是一種概率網絡,是基于概率推理的圖形網,而貝葉斯公式則是這個概率網絡的基礎。貝葉斯網絡又稱為信用網絡(Belief Networks),是用來表示變量之間連接關系與概率關系的一種圖形模型,是目前不確定知識表達和推理領域最有效的理論模型之一。貝葉斯網絡是貝葉斯方法的拓展,提供了一種表示因果信息的方法,適用于不確定性和概率性事件的表達和分析,可以從不完全性、不精確或不確定的知識或信息中進行推理,主要處理人工智能中的不確定性信息,在計算機智能科學、工業控制、醫療診斷等領域等許多智能化系統中得到了重要應用。
貝葉斯網絡采用一個DAG(Directed Acyclic Graph,有向無環圖)表示,由代表變量的節點和連接這些節點的郵箱邊構成。節點代表隨機變量,節點間的有向邊代表了節點間的相互關系(由父節點指向其子節點)。如果變量是離散型,可以采用表的形式表示,稱為條件概率表,列出子節點與其父節點的每一種值的祝賀所對應的概率。有父節點的節點用條件概率表示關系強度,沒有父節點的節點使用先驗概率。貝葉斯分類器的分類原理是經過實驗中某樣本對象的先驗概率,使用貝葉斯公式計算出其相應的后驗概率,從最大的后驗概率的類中進行選擇。貝葉斯分類基于貝葉斯原理,以貝葉斯公式為中心。貝葉斯公式如下:
樸素貝葉斯分類假定所有屬性變量是“類條件下相互獨立”的,即每個屬性變量[Xi]只與類變量[ti]相關。拓撲結構圖如圖1所示。
估計每個類的先驗概率,一般可以按照[P(t=ti)=Ni/N]進行估算,其中:[Ni]為子數據集中[t=ti]的樣本數,[N]為訓練集樣本總數,之后按照最大似然估計準則,在每個由[ti]標定的子集,對類條件下屬性變量的概率進行估計。
3 數據來源、變量選擇及數據處理
3.1 數據來源 本文使用的數據是西北農林科技大學經管學院學生采用調查問卷的方式走訪陜西高陵、臨潼、楊陵3個地區所獲取的。問卷主要分為5個部分,即農戶基本信息、貸款經歷與評價、產權抵押政策的落實情況、未來融資的需要與意見和建議。數據樣本容量為349。
3.2 變量選擇 產權抵押貸款一般是根據個人信用評估的指標進行的。個人信用評估的指標是綜合反映個人本身和環境所共同作用產生的復雜系統的不同屬性的指標,按照隸屬關系、層次結構可將影響個人信用評估的因素加以分類和綜合,使個人信用的特征劃分為5個部分:品行、償付能力、資金。抵押擔保和條件,即常用的“5C評估法”[7]。參考“5C評估法”,最終選取所在地區、家庭規模、家庭經營類型、文化程度、近6年年均收入、近六年年均支出、家庭土地經營面積、當地農信社信譽情況、工作人員服務態度、政策了解程度等10個因素作為本文研究的自變量,并以對產權抵押貸款意愿作為因變量來進行研究。
3.3 數據處理
3.3.1 數據清洗 數據處理旨在清除掉與分類無關的數據,對與本分類無關的數據進行清除。同時還應清除與分類無關的指標以及重復指標,減少計算中帶來的不必要工作。
3.3.2 數據集成 將多個數據按照格式統一起來存儲,并建立信用數據庫。
3.3.3 數據轉換 主要是對數據進行離散化。不同的算法對輸入數據的要求不同,而且獲取的數據較為原始,計算時需要對數據進行相應轉換。本文所使用數據經過預處理后,各變量屬性及編碼如表1所示。
4 農戶分類研究
利用Weka軟件[8]建立貝葉斯網絡模型,利用模型進行預測及檢驗模型的有效性及真實性。該貝葉斯網絡分類模型是以對產權抵押貸款意愿(Class)為因變量,利用349條數據的訓練集建立貝葉斯網絡模型。
采用BayesNet下的local TAN模型構建方法,并采用交叉驗證方法,通過weka軟件分析得到模型。圖2為建立所獲得的貝葉斯網絡結構圖。
從圖2可以看出,家庭規模、文化程度、家庭經驗類型、近6年的平均收入、工作人員服務態度以及當地農信社信譽情況作為子節點時,它們的父節點同時是所在地區和對產權抵押貸款意愿。所在地區作為子節點時,相應的父節點是近6年的平均支出和對產權抵押貸款意愿,近6年的支出作為子節點時,其父節點為政策了解程度和對產權抵押貸款意愿,政策了解程度作為子節點時只有一個相應的父節點為對產權抵押貸款意愿。其中正確分類的實例到達58.7%,Kappa統計為0.3178,案例的覆蓋程度(0.95 level)為99.4269%,表現出較好的分類效果。
ROC曲線指受試者工作特征曲線,是反映敏感性和特異性連續變量的綜合指標,是用構圖法揭示敏感性和特異性的相互關系,它通過將連續變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標、(1-特異性)為橫坐標繪制成曲線,曲線下面積越大,診斷準確性越高。在ROC曲線上,最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。針對上述網絡結構圖分類結果,利用weka軟件構造roc曲線,對貝葉斯網絡分類結果進行分類效果評價。
圖3~5分別表示對應分類結果為a、b及c,根據貝葉斯分類器所獲得結果分類準確性比較,其曲線下對應的圖形面積分別為0.692,0.6902和0.701??梢钥闯?,本次建立的貝葉斯網絡分類模型對金融農村具有較高的正確性及可靠性。在此基礎上,為了改進并提高分類效果,在交叉驗證上進行參數修改,將Cross-validation Fold原定參數15改為10,即采用十折交叉驗證(表2)。通過交叉驗證的參數改變,貝葉斯網絡分類效果,有明顯的提高。
5 結論
本文針對農戶產權抵押貸款,對農村金融數據進行貝葉斯網絡分類研究。在對調查數據進行數據處理后,通過利用“5C評估法”,將大量的數據變量進行篩選,選出了10個有顯著影響的數據變量,并將對產權抵押貸款的意愿作為數據類進行分類研究。分類結果表明,采取十折交叉驗證方法的貝葉斯網絡分類模型中,在農村金融數據中有較高的正確性和覆蓋性。同時,構建反映各因素間相關關系的貝葉斯網絡結構圖,能更進一步解釋影響農戶抵押貸款的各因素及其作用大小,對于農村金融機構進行貸款決策起到了一定的積極作用。由于本研究所獲得數據容量較小,在后續的研究中,將擴大調查范圍,以擴大樣本容量,更進一步提高分類的準確性,為農村金融改革提供有價值的參考。
參考文獻
[1]曾慶芬.產權改革背景下農村居民產權融資意愿的實證研究——以成都“試驗區”為個案[J].中央財經大學學報,2010(11):63-68.
[2]李旭升,郭耀煌.基于樸素貝葉斯分類器的個人信用評估模型[J].計算機工程與應用,2006,30:197-202.
[3]康莊,余元全.基于貝葉斯分類器的納稅評估模型研究[J].經濟問題,2009(06):124-126.
[4]吳陳,張明華.基于最優樸素貝葉斯分類器的個人信用預測[J].江蘇科技大學學報(自然科學版),2012,26(04):376-380.
[5]唐爐亮,楊雪,闞子涵,等.一種基于樸素貝葉斯分類的車道數量探測[J].中國公路學報,2016,29(03):116-123.
[6]吳養會,羅劍朝.農村金融計量研究方法及應用[M].北京:中國金融出版社,2015:244.
[7]王夢琪.應收賬款管理的“5C評估法”及補充[J/OL].經營與管理,2017(07):29-32[2018-05-01].https://doi.org/10.16517/j.cnki.cn12-1034/f.2017.07.012.
[8]袁梅宇.數據挖掘與機器學習-WEKA應用技術與實踐[M].北京:清華大學出版社,2014.
(責編:張宏民)