999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習理論在商業銀行區域性風險影響因素度量中的應用研究

2018-07-10 10:09:26吳金旺顧洲一
財務與金融 2018年3期
關鍵詞:銀行模型

吳金旺 顧洲一

一、引 言

金融是國之重器,在現代經濟體系中處于核心地位,伴隨著我國供給側結構性改革的全面深化,大數據、云金融、區塊鏈、物聯網等新型金融科技技術創新及應用不斷深化,金融科技為經濟產業供給側改革資金來源提供更加多元、精準的渠道,也推動金融產品供給側結構性改革,促進我國金融市場的發展與活躍,金融產品的內涵和外延不斷豐富,尤其是第三方支付、互聯網基金銷售、P2P網貸、股權眾籌、互聯網銀行、互聯網保險、互聯網信托、互聯網消費金融等互聯網金融模式的出現以及云計算、區塊鏈等新技術的出現,對國內銀行業的穩定性帶來了明顯的沖擊,傳統存、貸、匯等方面業務質量和數量下降。同時在資本約束深化、金融脫媒和利率市場化加速的市場環境下,銀行利潤空間受到擠壓,傳統銀行業務面臨著巨大的挑戰。為了應對新時代、新金融形勢下的改革,實現“去產能、去庫存、去杠桿、降成本、補短板”五大任務目標,積極響應“后峰會”時期大力發展數字普惠金融的理念,在這種鯰魚效應下,商業銀行以互聯網化變革來探索新路徑,獨立發展金融科技部門,或者購買社會服務技術外包,行企合作,全面借助技術提高金融服務范圍,為推進區域協同、城鄉一體化發展、全面實現小康社會貢獻社會責任。

銀行是經營貨幣的企業,本質上也是經營風險的特殊企業,通過經營承擔風險,獲得相應盈利,是銀行生存和發展的最基本模式。時代在快速變化,如何適應時代要求,包括經營環境、政府監管、國際金融秩序等,及時、有效、充分、準確的識別、計量、預警和防控風險是商業銀行經營管理的永恒主題。

銀行業面臨的風險主要來自于兩個方面:一是宏觀經濟因素的沖擊,二是銀行體系自身的脆弱性,而這兩個因素除了可能引發單個銀行風險,并通過風險傳染性,造成區域性和系統性的風險(劉春航和朱元倩,2011)。當前的銀行風險評價包括單一銀行風險的微觀評價分析和對一國整體性風險的宏觀評價研究,在宏觀行政區域領域,理論很少涉及。實踐中,每一家銀行都有自己的風險評估模型,但對區域性風險卻無能為力。我國地域廣闊、經濟發展不平衡,經濟呈現出很強的集聚性,比如長三角、珠三角,中部地區、西部地區,各行政區域內的銀行風險并不是隨機的,很容易受到空間外溢作用影響,具有較強的內在關聯,同時又是國家銀行金融系統性風險的基本構成部分,所以宏觀視角來研究是非常有必要的(高旺東,2012)。

在我國商業銀行金融機構實行總分支行制度,均存在典型的區域集中性特征。以大型國有商業銀行郵儲銀行為例,作為銀行業體系中重要的組成部分,擁有近4萬個實體網點,70%以上分布在縣域地區,以服務地方經濟為宗旨,屬于具有強區域性特征的金融機構。當風險小范圍的局限于一家或者幾家空間相鄰的郵儲銀行時,其表現特征為個別銀行風險。但是,由于郵儲銀行在總行層面,至上而下的具有明確統一的戰略定位(服務社區、服務中小企業、服務“三農”),具有相對統一的風險管理體系,相鄰地區的資產負債結構、主營客戶群體、小微企業行業屬性等方面具有較高的相似性,所以當受宏觀經濟因素、技術變革等外部沖擊,或者說自身經營內控能力差、經營脆弱性的內部影響時,很容易導致相鄰區域或者屬性類似地區的郵儲銀行發生風險,從而引發區域性風險,更為嚴重者將產生系統性金融風險。各省市數量眾多的城市商業銀行和農村商業銀行業務更加集中,難以做好分散化經營,區域因素更加明顯。

本文結合現有文獻和大數據因素構建指標,從宏觀經濟的角度和微觀銀行自身的角度入手,通過機器學習的方法對大規模和多維度的歷史數據進行建模挖掘,從理論上預測區域性風險發生的可能性,探索區域性風險的影響因素,為商業銀行推動區域性風險管理提供指導,為監管部門借助大數據實現非現場監管提供借鑒。

二、文獻綜述

科學地、深入的發現和挖掘商業銀行區域性風險的影響因素,實現風險提前有效預警是有效預防和控制銀行風險的客觀方法,一直以來受到了學界和監管者的高度重視,在實際操作過程中,每家銀行、各分支機構也都會形成自己特有的經驗,但系統性、科學性明顯不強,主要依賴主觀判斷。目前,國內學術界關于銀行區域性風險的文獻相對較少,尤其是實證研究類的文獻更少。僅有錢水土等(2016)基于Z省81家農村信用社2006-2012年風險數據,得到可以通過增加資本充足率和生產總值增長,來規避區域性風險。

(一)風險預警模型應用的演變

自上個世紀80年代以來,銀行體系規模不斷擴大,銀行經營更加多元化,銀行危機在全球范圍內頻繁爆發,從貨幣信用危機到銀行危機再到金融危機,最后引發經濟危機,對世界經濟發展造成了嚴重的沖擊,同時銀行破產、清算或倒閉的現象也頻頻發生,由此大量學者對其展開實證研究(Peek and Rosengren,2000;Canbas et al.,2005)。從已有研究文獻來看,預警模型眾多,比如:一元判別分析(SDA)、多元判別分析(MDA)、Z評分模型等,離散選擇Probit回歸模型、Logit回歸模型已經成為判別銀行早期風險的主要方法。Martin(1977)首次將Logit模型應用于銀行破產影響模型構建之中,以1970-1977美聯儲成員銀行中58家困難銀行為樣本,從25個財務指標中選取8個財務比率建立了Logit模型,以此對分析對象進行風險評估和決策。Demirgüc-Kunt和 Detragiache(1999)通過建立多元Logit模型,發現如果實際利率、通貨膨脹率較高、GDP增長率較低,會顯著提高銀行危機發生概率,另外一些因素比如財政赤字、貿易沖擊以及貨幣貶值對銀行危機基本沒有影響。Probit模型與Logit模型在很多地方是類似的,區別在于在Probit模型中,假設條件之一是標準正態分布是量化積分,Logit模型能夠比較不同因素的重要性(Demirgüc-Kunt and Detragiache,1999;Davis and Karim,2008)。綜合來看,在分析銀行風險影響因素時,Logit模型具有獨特優勢,是當前最為主流的方法之一,而且Logit模型中的Logistic分布更為簡單,現實應用更為廣泛,同時也更加容易被解釋(Kliestik et al.,2015)。

隨著大數據時代的迅速到來,數據維度和數據體量爆炸式的增長,特別是出現了很多非結構化數據,傳統統計分析模型的局限制越發明顯,比如:(1)處理變量間的相關性及共線性是建模之前的基本步驟,而當變量個數變多到一定程度時,處理過程就變得異常復雜;(2)統計方法一般先尋找自變量和因變量的相關性,繼而擬定相應函數關系,但是當因變量和自變量之間無法用函數進行描述時,則很難進行深入研究;(3)很多情況下,傳統的統計方法依賴于一些前提假設,而現實應用中很多假設無法滿足,導致模型準確性不高、穩定性無法保障、解釋能力弱(張萬軍,2016)。機器學習技術由于不受到變量分布假設的約束,擁有良好的魯棒性 和泛化性,所以目前將機器學習與傳統統計模型相結合成為了學界和互聯網企業的關注點。

(二)區域性風險的量化

區域性風險可以理解為在某一個特定區域內,由于一些金融機構組織的金融活動從而引發金融損失的現象。在研究商業銀行區域性風險時,國外許多學者將法律意義上的銀行是否破產定義為被解釋變量,采用Logit模型,即將銀行破產定義為1,反之設定為 0(Avery and Hanweck,1984;Demirgü?-Kunt and Detragiache,2005)。然而與國外情況不同,國內政府對銀行提供了隱性擔保,即使出現資不抵債的情況(所有者權益小于或者等于0),依然會正常運行,因此國外采用法律破產定義區域性風險的模式并無法在國內實行。基于此,國內學者在研究銀行風險時采用了替代方法,林平等(2001)將是否被擠兌作為銀行風險的衡量指標,這在我國銀行從國有經濟體制向市場經濟體制過渡時,具有一定的科學合理性性。然而,陳鑫云(2017)根據國內銀行深化改革后的現狀,認為擠兌事件作為虛擬變量具有很大的局限性,不能客觀的量化銀行破產的概念,并創新地提出了以經濟破產的概念作為虛擬因變量來研究銀行區域性風險和系統性風險。本文借鑒最新的研究成果,采用以經濟破產為虛擬變量,用權益資產比率來代表發生區域性風險的概率。

(三)區域性風險的影響因素

目前大多數文獻都以系統性風險為入手點,分別從宏觀經濟層面或微觀內部角度來探究其風險影響因素,并沒有能夠將兩者綜合考慮;同時系統性風險與區域性風險聯系緊密,其影響因素相似度極高(錢水土等,2016)。從宏觀經濟層面來看,主要有以下四大類指標:第一類是信貸存量指標,主要有信貸增長率(Bordo and Meissner,2012)和信貸與GDP之比(Davis et al.,2012),這類指標通常會被滯后 i階,其結果也不盡相同。第二類是資產價格,由于近些年房產在投資中的比例很高,直接影響了社會經濟方方面面的運行,研究過程中運用最多的是房地產價格波動數據(王春麗等,2014),其次就是股票數據(股市收益率、價格波動率),雖然此類數據可獲性相對容易,但是實際效果并不好(Schularick et al.,2009)。第三類是GDP指標,該指標由于容易獲得,且相對準確,被廣泛應用,但是各類研究結果卻又呈現完全相反的兩個方面,一方面經濟增速突然放慢,銀行壞賬增加,緊跟著發生銀行危機(Hagen et al.,2007),另一方面是經濟增長與銀行危機并沒有必然的聯系(Rose et al.,2012)。第四類是對外經濟指標,例如:外貿依存度(王春麗等,2014)、對外開放程度(張紹樂,2017)以及國際資本流動等(Jordàet al.,2011)。此外,還有財政赤字、地方政府債務增長率、M2乘數、高利率等也被用來作為相關指標(王春麗等,2014;Kauko,2014)。

從銀行微觀內部角度來看,早期國外大多數文獻構建的指標主要以銀行的資產負債表和損益表為主(Martin,1977;Avery and Hanweck,1984)。Demirg ü?-Kunt(1989)較早的發現資產質量、資本充足率、收益水平是影響銀行區域性風險的重點指標。國內,仲彬等(2002)對區域性風險指標提出了理論探索,提出了兼顧流動性、盈利性、安全性等方面的指標構建,并從理論上構建了風險預警系統。之后大量的國內學者對區域性風險防范作出巨大的貢獻(鄭凱華,2014;陳強,2014;黃學軍,2015;錢水土等,2016)。

隨著互聯網特別是移動互聯網的普及,以網絡信息技術為代表的科技與產業迅速萌發,大量的網絡信息能夠被采集、篩選、利用。近年來,有相當多的文獻討論了網絡信息對金融決策行為的影響。Karlan(2005)提供了網絡信息影響個體信貸決策的證據。Zhang等(2011)分析每條Twitter所包含的積極情緒和消極情緒,構建一個自變量(總Twitter數量中包含情緒的Twitter數量占的比例)發現這個自變量與芝加哥期權交易所波動率指數顯著正相關,但與標普500指數、納斯達克指數以及道瓊斯指數均顯著負相關。國內學者金雪軍等(2013)利用文本挖掘技術來處理非結構化數據,探討中小投資者在股票論壇的討論與股票收益率與成交量之間的相關關系。楊曉蘭等(2016)以新浪財經博客為數據來源,利用網絡爬蟲技術實時爬取網絡博客數據,定量描述投資者基于博客進行社會互動的程度及其情緒傾向,進一步檢驗了行為金融學中社交互動對股票市場的影響。國內外學者已有的研究充分表明了網絡信息對金融行為的重要性,同時隨著黨的十九大行動綱領和發展藍圖的出臺,明確提出要建設“網絡強國、數字中國和智慧社會”,推動數字化和實體經濟深度融合,認識到數據的價值并深入挖掘,有效利用網絡信息必將成為未來金融研究的熱點。對于區域性風險來說,傳統的風險指標構建中缺乏具有網絡信息的代表性影響因素,目前尚未有學者對其展開深入研究。本文將對傳統風險指標進行優化,并加入網絡信息指標(例如:互聯網輿情數據、微信、微博、博客以及交易類、社交類APP的行為數據)來刻畫區域性風險的影響因素。

雖然銀行區域性風險的系統性還不夠,但學術界對區域金融風險的研究由來已久,并提出很多科學客觀的規避風險的方法。本文在學習借鑒現有文獻資料的基礎上,通過選取科學、合理、適時的區域經濟金融發展特點的評價指標,構建相對完整、多元化的銀行區域風險評價指標體系,為做好銀行區域風險識別、計量和控制打好基礎。

三、商業銀行區域性風險指標體系構建

本文參照國內外文獻,將區域性風險影響指標分為宏觀經濟和商業銀行內部兩大類,同時利用爬蟲等現代信息技術,在傳統金融指標的基礎引入最新的網絡信息因素。

(一)宏觀經濟指標

從宏觀經濟指標來看,本文主要考慮外部發展環境對區域性風險的影響因素,并以月度為時間單位,以省或者市為樣本區域分界。從以下4個角度來刻畫:

第一:經濟總量

金融風險是否會發生跟經濟環境密切相關,本文采用GDP增長率代表經濟發展環境,預期該指標與商業銀行區域性風險具有負相關系數。不同銀行在業務發展過程中,均有側重點,一二三產業分布呈現一定的特征。以郵儲銀行為例,致力于服務三農,而隨著現代化的進步,農業占整個經濟體系的比重有所下降,這也是使得郵儲銀行服務三農的潛在風險可能也會相應增加。基于郵儲銀行扎根三農、服務三農的特點,可以將第一產業在生產總值的比重納入指數模型中,預期該指標與郵儲銀行的區域性風險具有正相關關系。如果是其他類型的銀行,可以依據該銀行業務重點領域,選擇相應的產業比重,納入該銀行的區域性風險指數中。

第二:經濟動力

經濟發展離不開政府,政府財政支出的增加有助于改善金融市場的環境,促進經濟健康發展,本文將財政支出增長率作為指標之一,預期其與商業銀行區域性風險呈負相關;固定資產投資是經濟發展的重要引擎,同時由于現在我國融資結構偏向于以銀行為主的間接融資,直接融資所占總融資比例較小,固定資產投資增長大多數表現為日益增長的銀行貸款需求,故本文以固定資產投資增長率作為指標之一,預期其與商業銀行區域性風險呈正相關。隨著國際化進程的不斷深入,特別是東部沿海地區對外貿出口依存度較大,容易受到來自外部經濟的影響,故本文考慮將外貿依存度納入指標體系,預期該指標與商業銀行區域性風險呈正相關。

第三:區域性金融總量

商業銀行的物理網點的建立和核心業務發展,受該地區金融環境影響很大。假如此區域貸款占生產總值的比重過大,那么貸款支持實體經濟的效率將會下滑,貸款風險也會增加,同時過高的比重意味著后續貸款業務繼續增長的可能性也在降低。本文采用該區域所有貸款占生產總值比重這一指標,預期該指標與商業銀行區域性風險呈正相關關系。存款是商業銀行最主要的負債來源,隨著互聯網金融業務的發展,當前銀行存款流失現象比較明顯,而存款可以為貸款等資產業務提供資金來源,存款的增加可以提高銀行存貸款比例,降低銀行流動性風險,本文采用該地區的存款增長率作為指標,預期該指標與銀行區域性風險兩者呈現負相關關系。當然從另一個角度來看,貸款的增加有助于銀行增加收入,從而提高銀行風險覆蓋力,故本文采用該地區的貸款增長率作為指標,預期該指標與銀行區域性風險呈現負相關。此外,銀行理財業務的發展也會對區域性金融產生影響,本文將銀行理財杠桿率作為指標,預期該指標與商業銀行區域性風險呈正相關關系。不同區域經濟有著不同的行業特色,某地區的失業率增加,可能意味著這個地區相應行業的衰退,借貸中的實際還款能力變弱,增加區域性風險,本文采用失業率指標,預期該指標與銀行區域性風險呈正相關關系。同時,由于近年來房地產市場持續火爆,其價格指數影響著銀行房貸業務,而房貸業務的風控也是銀行資產業務的主要關注點,本文采用該地區房地產價格指數,預期該指標與銀行區域性風險呈正相關關系。

第四:互聯網情緒

從網絡信息來看,隨著網絡爬蟲等領域的快速發展,網絡數據的采集越來越方便,谷歌利用網絡流感類的搜索量來探究美國的流感看診量之間的關系,阿里利用淘寶數據分析平臺來挖掘潛在消費力,可見互聯網數據的價值越來越重要。

互聯網情緒指標需要基于互聯網真實行為數據,包括官方評論、各大論壇、百度貼吧、微博等的文本數據作為研究對象,利用情緒傾向分析進行文本挖掘構造互聯網情緒指標。

(1)媒體導向:利用爬蟲技術對各大權威性財經類官網(例如:21經濟網、網易財經、人民網等)爬取網絡信息,并利用人工和計算機算法(例如:KNN)對爬取數據進行分類,例如:

表1 具有代表性的媒體標題分類

本文將t日媒體報道中情緒傾向為“積極”的新聞數量記為 M·post,“消極”的新聞數量記為 M·negt,情緒指數變量sentiment的構造規則如下(Antweiler and Frank,2004):

sentiment=ln[(1+M·post)/(1+M·negt) (公式1)

當一天內積極情緒的媒體報道累計數量等于消極的數量時,情緒指標為零;當積極情緒的媒體報道數量大于消極情緒報道數量時,情緒指標值大于零;反之,則小于零。由于本文考慮的對象以月度數據為最小時間單位,即可對每日的情緒指數進行求和。本文采用媒體導向的情緒指數作為指標,預期該指標與銀行區域性風險呈負相關。

(2)網民情緒:寬帶的基礎設施已經完善,移動互聯網在智能手機的普及下迅速進度全面化階段,互聯網已經與人們的生活有機融合。截止到2017年5月,中國擁有7.51億網民,這是一個非常巨大的基數,也是我國金融發展過程中難得的人口紅利。而隨著博客、微博、論壇以及貼吧等互聯網產品的落地,網民們有更加多元的途徑對周邊事物或者一些熱點話題進行評論。本文利用爬蟲技術爬取網民評論的文本信息,并利用計算機方法或人為方法對其進行分類(例子見表2),從而間接地反映了網民的情緒(方法同媒體導向的情緒指數)。本文采用網民情緒指標,預期該指標與銀行區域性風險呈負相關關系。

表2 具有代表性的帖子分類

(二)銀行內部層面指標

從商業銀行內部層面來看,指標的選取具體從以下5個角度來分析:

第一、業務發展

對于單一銀行來說,貸款業務的增加,意味著盈利能力在提升,化解風險的能力在增加。本文選取貸款增長率指標,衡量銀行業務發展狀況,預期該指標與銀行區域性風險呈負相關關系。貸款能否收回、貸款的質量如何,直接關系到銀行信貸風險,本文考慮逾期率指標,預期該指標與商業銀行區域性風險呈正相關關系。

第二、業務結構

業務結構實指不同類型業務所占的比重,能否形成合理的業務結構會影響銀行風險。在我國,中間業務的發展比例還不夠高,貸款仍然是各家銀行主要業務。所以存貸差產生的利息收入是銀行最主要的收入,本文選擇非利息收入比重和貸款資產比兩個指標,預期兩者與銀行區域性風險均呈正相關的關系。而隨著普惠金融的落地以及P2P行業發展帶來的影響,傳統商業銀行也逐漸放寬了小微貸的標準,本文將小微經營貸款用戶數納入指標體系,預期該指標與郵儲銀行區域性風險呈正相關。同時,部分地區推出了符合區域特色的理財產品,故本文將區域性理財產品銷售量在總量的占比納入指標體系,預期該指標與銀行區域性風險呈負相關。

第三、風險抵補

發生風險后,銀行自身抵補能力是化解風險的有效保障,銀行核心資本和附屬資本、損失準備金是彌補損失的天然屏障。本文選擇銀行資本充足率、不良貸款撥備覆蓋率這兩個指標,預期與銀行區域性風險均呈負相關關系。

第四、收入盈利

盈利能力除了與收入有關,還取決于成本,通過控制成本能提升銀行的盈利能力,增強銀行風險抵補能力。本文采取成本收入比和凈資產收益率這兩個指標,預期與銀行區域性風險均呈負相關關系。

第五、APP移動端

隨著移動互聯網的發展與創新,商業銀行將業務拓展重點推向移動端,通過APP提供更加便捷的金融理財服務,與傳統線下網點運營有很大差別,成為全新的增長點。關于APP行為數據,通過用戶的開戶行對移動端后臺的數據進行劃分,從而突顯區域特征。首先,用戶與客戶還是有差別的,客戶量是維持銀行發展的生命線,新金融形勢下購買移動理財產品的客戶量,可以用用戶的開戶行來劃分,篩選出移動端參與互聯網投資理財人數,預期該指標與銀行區域性風險呈負相關關系。再者,利用同一個時間段內同一個開戶行不同用戶借貸所選擇的期限,可以得到一個綜合的平均期限,即移動端平均借款期限,預期該指標與商業銀行區域性風險呈正相關。由于很多銀行APP中的客戶之聲的欄目中對留言類型設置為建議、投訴、表揚以及咨詢這四類,其中表揚代表著客戶積極的情緒,投訴代表著客戶消極的情緒,本文將構建客戶之聲情緒指數變量(具體構建方式與互聯網情緒一致),預計該指標與銀行區域性風險呈負相關。

(三)指標體系

機器學習(Machine Learning,ML)是隨著數據量的劇增,新興發展起來的一門多領域交叉型學科,通過計算機強大的功能來模擬或實現人類的學習行為,從而獲取新的知識,重新組織已有的知識結構和技術技能,不斷改善自身性能。本文基于表3的兩大類共26個指標,使用機器學習理論,結合隨機森林模型(Random Forests,RF)和Logistic模型,構建RF-L模型,生成了一系列具有區域性風險評估能力的基分類器(子模型),然后通過XGboost模型對具有不同風險評估能力的子模型進行集成,最終增強模型的評估效果。

表3 商業銀行區域性風險影響因素

(四)被解釋變量的構建

防范金融系統性風險,全面深化金融改革,股份制改革有序開展,金融機構市場化退出機制日趨健全,體制日益完善,如果銀行長期處于經濟破產邊緣,將會逐步被法律化進行破產重組或者處置。本文將經濟破產定義為虛擬變量,設定研究現象包括發生和不發生銀行區域性風險這兩種情況,為進行回歸分析,將Yit設為虛擬變量,其中i代表著個體,t代表著時間,當該現象發生時,Yit取1,反之則取0。鑒于事件發生的概率在0-1之間,引進一個不可觀測的變量Zit來代替Yit,當Zit大于0時,Yit取1,反之則取0。本文定義Zit為區域性銀行的權益資產比率,公式為(所有者權益-不良貸款)/總資產,其中錢水土(2016)將所有者權益定義為:實收資本、資本公積、盈余公積、一般風險準備以及未分配利潤的總和與未彌補歷年虧損的差值,并且將銀行破產的臨界值設定為0。該指標對于區域性中小銀行實用,如果需要研究全國性的股份制銀行,建議以不良貸款率與該銀行全國不良貸款比率的平均值對比,來分析區域性風險是否發生。

四、基于XGboost集成學習的區域性風險評估模型

(一)基于互聯網文本的情緒指標構建

根據知識獲取方式的不同,文本可以分為兩種,一種基于KE(knowledge engineering)的分類系統,另一種基于ML(maching learing)的分類系統。ML是基于統計機器學習的文本分類方法,優勢體現在準確性和穩健性,因此本文采用基于ML的方式,文本情緒傾向分析的過程可分為以下幾個步驟,具體見圖1:

圖1 文本分類

本文涉及的互聯網文本信息可以分為三類,媒體導向情緒、網民情緒和用戶情緒,大數據指標構建方法如下:

STEP1:數據清洗

第一步是數據清洗,通過數據清洗的工作可以對文本數據進行預處理,提取與研究相關的關鍵字段信息。網民的原始數據和媒體導向數據預估主要會包含URL、發布時間、用戶昵稱、導航信息等各類雜質數據,需要進一步提取其中的發布時間、新聞主標題、摘要、帖子名稱等關鍵信息字段。

STEP2:訓練集提取

從全體樣本數據集中,隨機抽取40%信息作為訓練集,對文本信息的情感傾向基于情感詞典進行分類。媒體、網民和用戶的文本信息處理相同。

STEP3:SVM文本分類模型訓練

基于訓練數據集,形成SVM文本分類模型。

STEP4:應用測試集

根據STEP3的基于訓練集建立的情緒分類SVM算法規則,用于剩余的測試樣本數據,獲得媒體導向的每一條新聞報道情緒、網民的每一條文本情緒和APP用戶的情緒。

STEP5:情緒指標構建

對媒體導向信息、網民信息和用戶文本信息,基于前述公式1的情緒構建規則,形成三者的每月情緒指標。

(二)RF-L基分類器

機器學習技術由于不受到變量分布假設的約束,擁有良好的魯棒性和泛化性,不足在于模型的邏輯復雜,不易于直觀展示和解釋變量的風險特性。在穩定性和可解釋性方面,傳統的風險評估模型有獨特優勢,在各類金融場景中已經被廣泛使用。本文的基分類器建模考慮將機器學習算法和傳統風險評估模型進行適當結合,構建組合評估模型,發揮兩者的優點,得到適用于大數據環境下的、分類精度高、穩定性好、解釋力強的風險評估模型。

基分類器機器學習算法采用隨機森林模型,隨機森林的優點是可處理的變量維度多、分類精度高,由于單棵決策樹和隨機森林的生成過程是一個黑箱,建模指標的可解釋性和易讀性不強,不利于直接說明變量的風險特性。基于此,本文采用Logistic回歸模型,該模型相對比較穩定。本文將兩者結合起來,生成風險分類評估子模型,稱之為RF-L模型。

圖2 為RF-L風險評估模型的流程圖

在進行Logistic統計建模前,首先利用隨機森林模型中的決策樹對構建的26項風險指標進行變量的選擇,根據森林樹修剪后的結果得到重要節點風險指標,將輸出的顯著量化指標導入Logistic回歸模型中進行統計建模,從而確定顯著風險因子的風險權重。RF-L克服了單獨使用隨機森林模型或Logistic模型的缺點,發揮二者的優勢,建立一個適用于大數據環境下的RF-L風險評估模型。

(三)XGboost集成學習框架

集成學習是基于統計模型理論的機器學習方法,能極大提升分類器的準確率和算法的泛化能力。如圖3所示,其基本思想:先通過訓練 個基分類器,然后根據一定的組合策略,最后形成一個強學習器,達到所有優勢的集中統一。

圖3 集成學習流程圖

Boosting、Bagging和 Random Forest是常見的集成學習方法,以同質基學習器依賴關系是否成立,集成學習算法主要包括兩類:第一類是一系列的基學習器之間存在依賴關系,需要串行生成,可以使用boosting系列算法;第二類是基學習器之間不存在強依賴關系,需要通過并行生成,可以使用Bagging和Random Forest系列算法。

本文擬采用XGboost集成學習算法,XGboost(eXtreme Gradient Boosting) 是在 GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)的基礎上對Boosting進行改進的一種算法。 Boosting模型具體可用公式2表示為:

D為數據集,即影響商業銀行區域性風險因素的指標體系數據和風險評價結果,n為樣本量,其中每棵樹都是一個樹模型,可用公式3表示為:

q(x)代表的是研究單位x中樹模型葉子節點的映射關系。w是樹模型中用來擬合屬于各自葉子節點的樣本的預測值。基本邏輯思路是,首先,根據RE-L基學習器1的誤差率來調整更新訓練樣本的權重,使弱學習器1中學習誤差率較高的訓練樣本點的權重變高,在弱學習器2中更加重視這些誤差率高的點;然后,基于調整權重后的訓練集來繼續訓練弱學習器2,并一直重復下去,直到弱學習器數與預先給定的數目一致;最終,將以上若干個弱學習器通過結合策略進行不斷整合,得到評價商業銀行區域性風險的強學習器。

與GBDT相比,XGBoost優點是速度快、效果好、支持大規模數據處理等,近年來在大數據建模競賽和應用中得到廣泛使用。由于XGboost能利用CPU多線程并行構建回歸樹,因此其運行速度比同類算法快10倍以上。XGboost優點還包括目標函數,為防止模型過渡擬合,XGboost的目標函數由復雜度和損失函數兩部分組成,復雜度又由葉子數量和L2正則 組成,傳統的GBDT對損失函數只使用一階導數信息,而XGboost要進行二階泰勒展開,使得算法更快收斂到全局最優。

(四)基于XGboost的集成學習算法流程

本文采用RF-L作為XGboost集成學習的基分類器,構建基于RF-L模型的XGboost集成學習區域性風險評價模型,具體的算法設計流程如下:

輸入:

數據集:n個訓練樣本的數據集,包含銀行區域性風險指標體系數據和風險評價結果。

迭代次數設置為T;

學習效率參數為v;

基分類器C(RF-L),運用隨機森林選擇影響區域風險的重要指標,導入Logistic模型進行風險權重估計。

算法:

STEP1:利用ACROA算法在數據集D上求得XGboost模型的最優參數,包括shrinkage、min_child、wight;

STEP2:利用求得的最優參數構建XGboost模型;

STEP3:迭代求解RF-L的最優解;

STEP4:直到達到迭代上限,結束循環

結果的應用:(1)通過對模型自變量X的篩選,構建適應大數據時代數據生成和數據計算的自變量。

(2)通過機器學習,強化模型的學習能力,分析影響區域性風險的最關鍵因素,可以有針對性的開展風險管理工作。

(3)通過預測因變量,判斷區域性風險嚴重程度,為監管部門非現場監管提供技術支持。

(4)樣本的范圍可以以省或者市來劃分,時間可按照月份或者更長維度來劃分,以滿足具體需要。

五、結 論

本文主要基于大數據的視角,從理論上對銀行區域性風險的影響因素進行了模型構建的嘗試,并且為商業銀行預警區域性風險評價和預警提供參考思路。該理論模型的構建重點兼顧適用性、科學性、前沿性和可操作性四大特點,主要表現為:(1)考慮到“互聯網+”背景下,網絡信息的地位越來越重要,利用網絡爬蟲、文本挖掘等技術,去發現、分析以及利用網絡信息,本文提供了文本類數據的爬取、清洗及量化,豐富了原有度量模型的指標體系。(2)指標從宏觀和微觀兩個角度,在原有傳統指標優化后,結合大數據時代的特征,充分考慮區域性、時效性、精確性,構建涵蓋大數據源和大數據技術應用的指標體系,并利用基于統計機器學習的文本分類方法,客觀量化互聯網情緒傾向等非結構化數據。(3)以大數據技術建模,盡量通過先進的信息技術手段來代替人為的主觀判斷,利用互聯網行業內目前主流的集成算法提高模型的精確度,探索了機器學習主流的算法在風險度量中的應用,具有較強的前瞻性。

但是,在度量和評價區域性風險時,對于全國性的商業銀行和區域性商業銀行來說,在功能、指標設計、可采集指標是有差異的,用于銀行自身經營還是政府監管,需求點也存在一定差異。本文提供了一種探索、一種技術層面的應用指導,尚需要在實踐應用過程中,不斷加強數據的獲取和數據的存儲,加強模型的自我學習能力,在應用的過程中逐步完善。

猜你喜歡
銀行模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
10Gb/s transmit equalizer using duobinary signaling over FR4 backplane①
中關村銀行、蘇寧銀行獲批籌建 三湘銀行將開業
銀行家(2017年1期)2017-02-15 20:27:53
保康接地氣的“土銀行”
3D打印中的模型分割與打包
“存夢銀行”破產記
銀行激進求變
上海國資(2015年8期)2015-12-23 01:47:31
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 无码又爽又刺激的高潮视频| 久久精品国产亚洲麻豆| 久久精品免费国产大片| 四虎成人在线视频| 一级做a爰片久久免费| 青青久视频| 久久国产V一级毛多内射| 精品视频一区在线观看| 久热re国产手机在线观看| 91精品国产91久久久久久三级| 98精品全国免费观看视频| 狠狠躁天天躁夜夜躁婷婷| 久久91精品牛牛| 熟妇丰满人妻| 久久久久久国产精品mv| 欧美一级色视频| 亚洲男人的天堂视频| 国产理论精品| 欧美在线综合视频| 久久青草免费91线频观看不卡| 经典三级久久| 精品视频在线观看你懂的一区| 国产日本一区二区三区| 午夜电影在线观看国产1区| 精品亚洲麻豆1区2区3区| 欧美日韩动态图| 国产成人av一区二区三区| 美女无遮挡拍拍拍免费视频| 欧美在线一二区| 国产精品成人免费视频99| 国模沟沟一区二区三区| 欧美国产在线看| 亚洲成人手机在线| 毛片三级在线观看| 狠狠色综合网| 天堂岛国av无码免费无禁网站| 无码免费的亚洲视频| 一级黄色网站在线免费看| 国产免费久久精品44| 亚洲视频欧美不卡| 国产精品吹潮在线观看中文| 在线国产资源| 亚洲国产AV无码综合原创| 色天堂无毒不卡| 日韩小视频在线观看| 国产日韩欧美一区二区三区在线| 欧美在线观看不卡| 国产主播一区二区三区| 成人日韩精品| 91网红精品在线观看| 99精品福利视频| 精品免费在线视频| 五月婷婷精品| 国产精品一区在线观看你懂的| 精品成人一区二区三区电影 | 91av国产在线| 99国产精品免费观看视频| 久久五月天国产自| 久久亚洲中文字幕精品一区| 国产无套粉嫩白浆| 国产乱子伦手机在线| 无码国产伊人| 国产丝袜无码精品| 99偷拍视频精品一区二区| 伊人成人在线视频| 日韩美一区二区| 激情六月丁香婷婷| 又爽又大又黄a级毛片在线视频 | 亚洲中文字幕久久精品无码一区| 国产综合精品一区二区| 夜夜高潮夜夜爽国产伦精品| 一级毛片在线播放免费| 午夜小视频在线| 国产亚洲高清在线精品99| 日本午夜精品一本在线观看 | 日本亚洲欧美在线| 风韵丰满熟妇啪啪区老熟熟女| 国产91高清视频| 国产一区二区三区在线观看免费| 99尹人香蕉国产免费天天拍| 亚洲成在线观看 | 国产办公室秘书无码精品|