吳寅愷 陳清萍
摘要:我們利用文本挖掘和網絡爬蟲技術從報刊文章中提取有關我國系統性金融風險的信息,構建了用于度量我國系統性金融風險水平的系統性金融風險指數。該指數與金融形勢指數相比,能夠更準確地刻畫近年來我國金融市場的風險變化。在對我國系統性金融風險的來源進行分析后發現2015年和2016年我國系統性金融風險主要來源于銀行部門和股票市場,而2017年金融風險的主要來源轉移到了銀行部門和房地產市場。此外,2015—2017年,我國互聯網金融風險呈現出不斷上漲的趨勢,需要引起重視。
關鍵詞:文本挖掘;網絡爬蟲;系統性金融風險;金融風險指數;風險來源
中圖分類號:F832.5;F832.59 文獻標志碼:A 文章編號:1001-862X(2018)05-0070-006
一、引 言
2017年習總書記在十九大報告中指出要“健全金融監管體系,守住不發生系統性金融風險的底線”。當前我國經濟形勢穩中有變,打好防范和化解金融風險攻堅戰已經上升為國家戰略,因此,構建合理的系統性金融風險指數,對于觀測、預警和防范我國發生系統性金融風險有著重要的作用。
目前度量金融風險的方法主要是綜合指數法,該方法是通過構建一套合理的指標體系,在選取合適的統計數據的基礎上,利用數理統計方法生成一個綜合指數,用于反映金融風險水平的變化。具有代表性的這類指數有金融形勢指數(FCI)和金融壓力指數(FSI)。然而,近年來隨著數據的類型和體量呈爆發式的增長,統計數據這類結構化的數據無法體現出諸如政策變化、戰爭及自然災害等定性信息,因此統計數據不能涵蓋金融市場中所有的信息,這導致綜合指數法構建的金融風險指數難以準確刻畫出金融市場的風險變化。而非結構化的數據,例如大數據,所涵蓋的信息面更廣,收集渠道更多元化,因此能夠相對更全面地描述和分析金融風險的變化。然而,不同于傳統的結構化數據,非結構化數據一般儲存在文本、文檔、圖片或者報表中,這就需要利用各種數據采集、分析方法,例如文本挖掘和網絡爬蟲技術,提取相關信息和數據。
本文將利用文本挖掘和網絡爬蟲技術,從國內發行量較大、知名度較高的報刊文章中采集與我國金融市場風險相關的信息和數據,并在此基礎上構建出系統性金融風險指數,用于度量我國系統性金融風險并分析其來源和產生因素。
二、文獻綜述
早期對金融風險的度量方法主要是對各國可能發生的金融風險進行預測,如Frankel和Rose(1996)的FR概率模型以及Kaminsky等(1998)構建的KLR模型。在2008年金融危機之前,政府和金融機構用于對風險的測度主要是通過評估系統性金融風險損失數額和損失概率的方法,代表人物有Baumol(1963),他提出了風險價值模型(VaR)。此外,對于金融風險的度量較為普遍的方法為綜合指數法,該方法是通過構建經濟金融風險指標體系,計算出能夠反應金融風險水平的金融風險指數。具有代表性的就是Illing和Liu(2002)的金融壓力指數和Goodhart和Hofmann(2001)的金融形勢指數。金融壓力指數是通過因子分析,信用權重等方法,將各類指標數據合成一個可以反映國家或地區金融體系壓力的指數,當金融風險越大時壓力越大,越容易發生金融危機。2008年國際金融危機發生后,Hakkio和Keeton(2009)以及Cardarelli等(2009)在Illing和Liu的基礎上進一步完善了金融壓力指數,用于衡量系統性金融風險的程度。此外,各國央行和金融監管機構也嘗試構建一些能夠反映金融市場風險程度的指標,例如,歐洲央行采用的系統壓力綜合指數(CISS),該指數反映了5個金融市場組合對系統性金融風險的綜合效應。許悅(2017) 對系統壓力綜合指數、金融形勢指數、金融壓力指數等指數進行效果分析,發現系統性壓力綜合指數對美國金融風險有較好的監測能力。
國內對度量金融風險的研究成果也頗為豐厚,王玉玲等(2006)比較了VaR和CVaR兩種方法對金融風險度量的優劣。沈悅和閔亮(2007)構建了外匯壓力指數用于研究單個金融市場的風險。賴娟和呂林江(2010)首次選擇期限利差、銀行業風險利差、股票市場波動性和EMPI合成指數四個變量構建了中國2002年1月至2009年12月的金融壓力指數。許滌龍和陳雙蓮(2015)通過銀行、地產等4個金融市場的18個二級指標,采用CRITIC法構建了我國的金融壓力指數。韓心靈和韓保江(2017)利用5個二級指標和22個三級指標加權后得到了我國系統性金融風險壓力指數。毛建林和張紅偉(2015)利用CCA模型對我國系統性金融風險進行了測度。此外,武鵬和胡海峰(2016)在金融形勢指數的基礎上選取了短期利率、房地產價格等指標構建了金融風險指數用于衡量我國金融風險水平。桂預風和李巍(2017)選取了宏觀維度、銀行與貨幣維度等17個指標,運用動態因子方法構建了我國金融風險指數。
總的看來,度量系統性金融風險的方法多種多樣,其中利用綜合指數法構建金融風險指數應用較為廣泛,然而這種方法也存在著一些不足:首先,綜合指數法在構建金融風險指數的過程中對于指標體系的選取沒有一個統一的標準:過多的指標不僅增加了運算成本,而且會增加冗余的信息干擾最終結果;而指標過少會導致重要的信息被遺漏。其次,綜合指數法構建的金融風險指數大多是基于結構化的統計數據,然而隨著大數據時代的來臨,結構化的數據有時候已經無法全面反映的金融市場的變化。趙麗麗(2012)認為實際觀測到的統計數據只能分析價格、利潤等定量的信息,而經濟政策變化、自然災害、戰爭等定性信息很難在數據中體現出來,而互聯網的財經新聞中就包含了大量的這種定性信息。Wuthrich等(1998)認為在報紙文章中的財經新聞不僅闡述了市場表現的結果,而且包含了其來源和產生原因等潛在信息。
綜上所述,我們認為利用文本挖掘和網絡爬蟲技術從報刊、新聞中提取的非結構化數據能夠涵蓋更多的信息,能夠更加全面地描述和分析我國金融市場的變化。在此基礎上構建出的金融風險指數對我國系統性金融風險應具有更強的解釋能力。
三、金融風險指數的構建
1.網絡爬蟲和文本挖掘技術
文本挖掘(textual mining)是從海量的、無結構的文本信息中挖掘出潛在的、有價值的知識和信息的一種計算機處理技術。文本挖掘能夠利用一些智能算法并結合文字處理技術,分析大量的非結構化文本源,如網頁、電子表格、報刊文章、電子郵件等,提取或標記關鍵字,并對文本內容進行分類處理,從而獲取有用的信息。
網絡爬蟲(web crawler)是一個能夠自動提取網頁信息的技術,它通過模仿瀏覽器訪問網絡資源,從而獲取用戶需要的信息。例如,人們在日常瀏覽網頁過程中,經常會看到一些好看的圖片或者一些有用的數據,如果想保存這些圖片或者數據,通常的方法就是選中想要的照片和數據,然后逐個進行保存,但是如果圖片或者數據量比較大(比如想保存1萬張圖片),那么以上的方法將耗費巨大的時間和精力。而網絡爬蟲技術可以快速高效地下載并保存所需要的圖片或者數據。
我們將兩種技術相結合,利用網絡爬蟲技術批量下載讀取網站中的文章,然后利用文本挖掘技術,使用預先準備好的詞庫采集文章中的重要信息,最后對所得到的數據進行處理和分析。
Baker等(2015)通過人工閱讀的方式提取報刊文章中的信息,構建了“經濟政策不確定性指數”,他們認為在一段時間內,如果報刊的文章中頻繁提及“經濟、政策不確定性”等相關詞語,說明此時政府經濟政策的影響和效果不確定性增加。本文中,我們借鑒了Baker的理論觀點,提出了一個新的方法構建我國金融風險指數:我們利用文本挖掘和網絡爬蟲技術,在全國各大報紙中選取有關我國金融風險的文章和報道,計算出一段時間內與“金融風險”相關的詞語在文章中出現的頻率,用于衡量金融風險的大小。換句話說,在一段時間內,如果報刊的文章中頻繁提及“金融風險”等相關的詞語,說明政府和公眾對金融風險的關注度較高,這在一定程度上反映了此時市場中的金融風險較大,反之則表明金融市場的風險較小。
基于以上理論,我們選取了《光明日報》和《中國經營報》兩家報紙作為文本挖掘和網絡爬蟲的對象。之所以選擇這兩家報紙,一是這兩家報紙在國內發行量較大、傳播較廣,具有一定的影響力。《光明日報》作為中宣部主管的中央黨報、中共中央機關報之一,其內容具有一定的權威性;而《中國經營報》的主管單位是中國社會科學院,該報是中國最早發行的經濟類報刊之一,也是全國發行量最大、版面最多的經濟類報紙。二是這兩家報紙都提供多媒體數字報刊平臺以便于網絡爬蟲技術下載所需要的文章。(1)
我們選取了自2015年1月到2017年12月的《光明日報》和《中國經營報》所有數字版報刊作為分析對象。系統性金融風險指數的編制過程如下:
(1)我們在2015年至2017年兩家報刊中選取各50篇有關金融市場風險的文章和報道,利用人工閱讀的方式了解報刊文章都有哪些經常用于描述“金融風險”的詞匯,即風險詞。根據風險詞,我們建立了用于網絡爬蟲和文本挖掘的“系統性金融風險詞庫”,其中包括了“(系統性)金融風險”、“系統性風險”、“重大風險”、“區域性風險”、“房地產風險”、“匯率風險”、“債務風險”等在內的37個風險詞。由于《中國經營報》為經濟類報紙,專業性更強,用于描述金融風險的詞匯也更多,因此《中國經營報》的詞庫是在《光明日報》詞庫的基礎上附加了一組詞庫,具體的詞庫如下:
(2)我們利用Python軟件編制網絡爬蟲代碼,將2015至2017年的所有電子報刊按照月度的分類爬取到PC終端,在每月發行的報刊中隨機選取一定數量的文章(2),計算出“系統性金融風險詞庫”中的風險詞在選取文章中出現的頻率,整理為月度數據后,以此作為該報刊的系統性金融風險指數:
綜上所述,如果詞庫中的風險詞在文章內頻繁出現,這說明了此時政府和公眾提高了對金融風險的關注度,意識到了金融風險在不斷地累積,而此時我們構建出的金融風險指數也會隨之升高;反之,金融風險指數則會降低。
(3)每年的兩會等重要的會議期間,會頻繁提及防范金融風險等會議事項,使得詞庫中風險詞出現頻率劇增,從而導致指數失真。為了避免會議對指數造成的影響,我們將報刊中的“兩會特刊”、“十九大特刊”等版面的文章剔除在外,在這些重要的會議期間提取其他版面文章的風險詞,并計算其頻率。
(4)基于不同的報刊,我們構建了“光明日報金融風險指數”和“中國經營報金融風險指數”,然后將兩個指數算術平均后得到一個“系統性金融風險指數”。
圖1描述的是《光明日報》和《中國經營報》金融風險指數的走勢圖,其中實線代表的是《光明日報》金融風險指數,虛線代表的是《中國經營報》金融風險指數。從圖中可以看出,這兩個金融風險指數走勢較為接近,兩者的相關系數也達到了0.5。在2015年的“股災”之前,兩個指數一直在相對低位徘徊,而在“股災”過后的大部分時間里,指數都在相對高位波動,說明了在“股災”過后,我國的系統性風險水平顯著增加。值得關注的是,近年來我國出現了4次系統性金融風險指數較高的時段,一是2015年6月到8月的“股災”期間,短短3個月上證指數跌幅超過30%,流動性風險加劇,迫使以證金和券商為主的“國家隊”開始維穩救市。二是2016年1月由于實施熔斷新政,新年開市后的兩個交易日內股市遭遇4次熔斷,兩次提前休市,四天時間內,上證指數下跌了13.8%,一周時間A股市值蒸發逾6萬億。三是2016年年底人民幣兌美元大幅貶值并伴隨著房地產市場泡沫的加劇:2016年全年人民幣兌美元貶值近7%,與此同時,2016年前三季度房價大幅上漲,9月份“深圳6平米88萬天價房” 更是讓房價過高的輿論矛盾進一步激化。國慶節后17個城市先后出臺“限購”、“限價”等政策抑制房價過快上漲,欲遏制房地產市場風險增加。四是2017年5月債券市場迎來了償債高峰期,各類債券償還總規模超過2.6萬億元,為2000年以來的次高峰,在部分地區經濟增長下滑、財政收入減少的情況下,政府的償債壓力增大,債務風險增加。
雖然兩個金融風險指數走勢大致相同,但也存在著一些區別。例如,《光明日報》金融風險指數在2015年“股災”期間的數值最高達到了1.03,而在2016年“熔斷”期間該數值達到了峰值1.47。而《中國經營報》金融風險指數在 “股災”期間最高達到了2.08的數值,在熔斷期間該數值為1.39。這說明相對于《光明日報》金融風險指數,《中國經營報》金融風險指數認為“股災”期間的金融風險水平相對“熔斷”期間的更高。
為了避免單個指數在編制過程中造成的數值偏差,導致指數的失真,我們將上述兩個金融風險指數平均后得到了綜合的系統性金融風險指數(如圖2所示)。可以看出,綜合后的指數與兩家報紙的金融指數一樣,可以清晰地刻畫出近年來我國幾次系統性金融風險事件集中爆發的時段。
2.系統性金融風險指數的評估
為了評估我們構建的系統性金融風險指數的可靠性和適用性,我們將該指數與金融形勢指數進行了比較。本文中,我們選取了高盛中國金融形勢指數作為參考指標,數據來源于彭博(Bloomberg)數據庫網站。金融形勢指數是由實際短期利率、實際有效匯率、房地產價格指數和股票價格指數等變量通過加權平均構建得到,在一定程度上能夠反映金融風險的程度,因此,一些國家和央行以這項指標作為貨幣政策制定和金融風險衡量的重要參考指標。
如圖3所示,圖中虛線為金融形勢指數(FCI),實線為我國系統性金融風險指數(FRI)。可以看出,在一些時期內系統性金融風險指數和金融形勢指數走勢較為接近(兩者相關系數達到了0.4),特別是在金融風險事件集中爆發的階段,兩個指數都能較好地反映金融風險水平的增加。但是,兩個指數也存在一些差別,例如,FCI在2015年年初的數值相對較高,而FRI則較低;FCI對外匯波動及房地產價格上漲帶來的金融風險的增加更為敏感,該指數在2016年12月曾一度達到過最高峰105.59,這個數值甚至超過了 “股災”期間 “熔斷”期間的數值。同時,FCI對于債券市場風險的變化較為不敏感。例如, 2017年5月的債市償債高峰期,FRI大幅升高,而與此同時FCI卻是下降的。
造成兩個指數走勢不完全一致的因素是多方面的。首先,金融形勢指數在構建的過程中沒有涵蓋如債券收益率等與債券市場相關的指標,因此該指數相比系統性金融風險指數缺少對債券市場中債務風險和違約風險水平的衡量,在一定程度上低估了債務風險和違約風險水平。其次,金融形勢指數的構建過程中包含了股票、房地產等各類價格指數,雖然這類指標與金融風險有很高的動態相關性,但是單純價格上漲并不完全代表著金融風險的升高,因此相較于我們構建的系統性金融風險指數,金融形勢指數在一定程度上高估了由價格上漲帶來的金融風險。綜上可以看出,系統性金融風險指數相較于金融形勢指數能夠更全面地反映我國金融市場風險水平的變化。
3.金融風險的來源分類
為了分析我國系統性金融風險的來源和產生因素,我們將“系統性金融風險詞庫”進一步細化分類,將風險的來源區分為銀行等金融機構部門風險、房地產市場風險、股票市場風險、債券市場風險、外匯市場風險和互聯網金融風險等6個維度,爬取《中國經營報》中的文章(3),計算各類風險詞出現的次數,從而了解近年來我國系統性金融風險來源的主要因素及其變化。
從表1中可以看出,2015年和2016年我國系統性金融風險主要來源于銀行部門的風險和股票市場的風險。這是由于這兩年中我國股票市場出現了劇烈的波動,在先后經歷了“股災”和“熔斷”后,股市的劇烈波動對銀行業系統造成了一定的沖擊。這種沖擊包括銀行持有的上市公司的股票因為股價的大幅下滑而對銀行業績造成的直接影響,同時股市的劇烈波動也對股票質押貸款、投資以及與股票掛鉤的銀行業務等產生了間接影響,一定程度上增加了銀行部門的風險。而在采取了及時的救市措施之后,股票市場的風險在2017有所下降,從而避免了經濟危機的發生。與此同時,伴隨著近年來房地產價格的大幅上漲,2017年我國系統性金融風險主要來源從銀行部門和股票市場的風險轉換到了銀行部門和房地產市場的風險。可以看出,2017年報刊文章提及“樓市泡沫”、“房地產風險”等風險詞的數量為2016年的4倍,是2015年的30多倍。
此外,2017年我國債務風險也相較于2015年和2016年有所提高,這與2017年5月債券大量集中到期有關。在外匯市場風險方面,盡管人民幣匯率在近年有一定程度的波動,但是從表格中可以看出,我國外匯市場的風險在近3年中相對平穩,基本沒有受到人民幣幣值波動的影響。值得注意的是互聯網金融風險,在2015年底“e租寶”事件發生過后,在近年出現了上漲的趨勢,需要引起極大的重視。
四、結論及政策建議
我們利用網絡爬蟲和文本挖掘技術,對2015年至2017年的《光明日報》和《中國經營報》的文章信息進行了提取,構建了我國系統性金融風險指數用于度量我國系統性金融風險。該指數清晰地刻畫了近三年來我國四次金融風險水平較高的時段,在與中國金融形勢指數比較后我們發現系統性金融風險指數能夠更好更全面地反映我國系統性金融風險的水平。
此外,我們分析了近年來我國系統性金融風險的來源及產生因素,發現了2015年和2016年我國系統性金融風險主要來源于銀行部門和股票市場的風險,而2017年我國系統性金融風險轉換到了銀行部門和房地產市場的風險,特別是2016年在股市波動和房地產價格大幅上漲的雙重壓力情況下,我國銀行部門的風險急劇增加。此外,值得注意的是,在2015年“e租寶事件”過后,我國互聯網金融風險在近年出現了不斷上漲的趨勢。
當前,在國務院機構改革的背景下,銀監會和保監會合并組建中國銀行保險監督委員會,原來的分業監管模式逐漸向分業和統一的監管方式轉變,監管機構能夠更加全面地對金融市場進行監管,有效彌補監管漏洞,有利于統籌協調金融發展。在新的金融監管構架下,結合文章所得結論,我們給出了如下政策建議:
1.加強資產管理行業監管。近年來我國銀行部門、股票市場以及房地產市場風險的高企,與資產管理行業規模不斷擴大有著緊密的關系。各類資管產品相互投資、重復投資等多層嵌套問題日益嚴重,這加大了金融體系的脆弱性。例如,近年來保險行業利用萬能險、投連險大量吸收社會資金,頻頻在股市舉牌,擾亂市場秩序,或者以通道、嵌套等方式開展股權投資計劃,使得資金又大量流入了風險較大的房地產領域,進一步推高了房地產泡沫,加大了房地產市場風險。銀監會和保監會的合并,有利于部門間的溝通和監管協作,覆蓋監管空白,彌補監管漏洞,新組建的銀保監會需要加強對資管行業的監管。
2.完善互聯網金融監管體系。雖然銀監會和保監會的合并有助于改善分業監管效率低下的問題,有利于P2P等網貸業務的發展,但是近年來互聯網金融風險不斷加大,面對復雜的互聯網金融的產品創新,還需要完善互聯網金融的監管體系。
注釋:
(1)我們也嘗試挖掘其他例如《人民日報》、《經濟日報》等報刊的文章,但是這些報刊的數字版提供的資源有限,可查詢的報刊日期較少,因此編制出的金融風險指數歷史數據較少,缺乏說服力。此外,由于個別數字報刊網站建立了“反爬蟲”措施,因此無法提取到有效的文字和數據。
(2)《光明日報》為日刊,每月選取500篇文章,《中國經營報》為周刊,每月選取200篇文章。
(3)此次爬取非隨機選擇文章,而是從頭版、要聞、宏觀、財經、銀行、地產、科技等版面選取所有文章,計算詞庫中詞語出現的總次數。
參考文獻:
[1]Baker S R,Bloom N,Davis S J.Measuring Economic Policy Uncertainty[J].Cep Discussion Papers,2015.
[2]Baumol W J.An Expected Gain-Confidence Limit Criterion for Portfolio Selection[J].Management Science,1963,10(1):174-182.
[3]Cardarelli R,Elekdag S A,Lall S.Financial Stress,Downturns,and Recoveries[J].Imf Working Papers,2009,09(100):25-29.
[4]Frankel J A,Rose A K.Currency Erashes in Emerging Markets: An Empirical Treatment[J].International Finance Discussion Papers,1996,41(3-4):351-366.
[5]Goodhart C,Hofmann B.Asset Prices,Financial Conditions,and the Transmission of Monetary Policy[J].Proceedings,2001,114(2):198-230.
[6]Illing M,Liu Y.An Index of Financial Stress for Canada[J].Staff Working Papers,2003,29(03-14).
[7]Kaminsky G,Lizondo S,Reinhart C M.Leading Indicators of Currency Crises[J].Staff Papers,1998,45(1):1-48.
[8]桂預風,李巍.基于動態因子模型的金融風險指數構建[J].統計與決策,2017,(20):150-153.
[9]韓心靈,韓保江.供給側結構性改革下系統性金融風險:生成邏輯、風險測度與防控對策[J].財經科學,2017,(6):1-13.
[10]毛建林,張紅偉.基于CCA模型的我國銀行系統性金融風險實證研究[J].宏觀經濟研究,2015,(3):94-102.
[11]沈悅,閔亮.基于外匯市場壓力指數的貨幣危機界定與識別[J].上海金融,2007,(12):69-72.
[12]武鵬,胡海峰.中國金融風險指數FRI的構建及經濟預測的檢驗[J].統計與決策,2016,(2):120-123.
[13]王玉玲,王晶.度量金融風險的CVaR方法[J].統計與決策,2006,(11):13-14.
[14]許滌龍,陳雙蓮.基于金融壓力指數的系統性金融風險測度研究[J].經濟學動態,2015,(4):69-78.
[15]許悅.系統性壓力綜合指數的有效性研究[J].統計與決策,2017,(2):166-170.
[16]趙麗麗.互聯網財經新聞對股市影響的定量分析[D].西南財經大學,2012.
(責任編輯 吳曉妹)