劉曉鑫 景祥云 葉駿驊 金 博 畢文祥
(中國人民銀行長春中心支行,吉林長春 130051)
2008年全球金融危機爆發以來,隨著國際金融監管改革的深化和拓展,如何有效使用快速增長的金融數據成為擺在各國中央銀行面前的一項重要課題。由于大數據技術能夠有效提升數據挖掘和使用的效率,并通過提供更完整、即時和詳細的資料作為“傳統”宏觀經濟指標的補充,從而增強分析能力,以便做出更好的決策,因此大數據分析工具得到了各國央行的高度重視。在此背景下,本文重點搜集了央行應用大數據方法的相關文獻,探索大數據為央行制定和執行經濟政策提供的支持,尤其是如何改善統計信息、宏觀經濟分析和預測、金融市場監測和金融風險評估。
從央行應用大數據的領域來看,大數據可以在提高經濟分析和金融管理等方面發揮重要作用。國際貨幣基金組織正在研究大數據模型,將大數據作為衡量經濟指標的一種新方法,如分析價格、勞動力市場狀況、住房市場、商業情緒等(Hammer等,2017年)。許多央行目前正在研究如何利用金融大數據集的特點來執行其任務(Coeuré,2017)。大數據在細節、靈活性、及時性和效率方面具有許多優勢(Nymand Andersen,2016)。中央銀行有興趣開發各種試點項目,以更好地理解新的數據集和技術,評估其與傳統方法相比的附加值,并開發具體的“用例”(IFC,2015)。
大數據可以成為改進官方統計機構的有用手段。首先,它可以成為支持目前官方統計數據編制的新來源,使人們能夠獲得更廣泛的數據集。這些數據通常不是為特定的統計目的而收集或設計,而是其他活動的副產品(Groves,2011)。它們的范圍相當大,包括交易數據(如在線記錄的價格)、其他的數據(如社交媒體帖子、互聯網上顯示的產品評論),以及各種商業、財務和行政指標,如克強指數①克強指數是三種經濟指標(工業用電量新增、鐵路貨運量新增和銀行中長期貸款新增)來評估GDP的增長。。
數據可以用來加強現有的統計工作,特別是在現有的統計體系難以完全覆蓋的情況下。例如,在一些發達經濟體在線零售商價格數據的直接網絡抓取可以用來更好地衡量通貨膨脹的某些特定組成部分。在極端情況下這些數據可以取代官方統計系統不發達的國家的傳統指標。正如美國麻省理工學院的Roberto Rigobon所開展的“十億價格項目”研究,該項目允許為缺乏官方或綜合指數的國家構建通脹指數。
第二,大數據分析模型可以更加高效便捷地獲取和分析除官方數據以外的海量數據,消除傳統意義上的統計時間差。由各種網絡和電子設備(如搜索查詢)即時生成的信息提供了高頻指標,有助于當局更及時地跟蹤當前的經濟發展。實際上,“十億價格項目”的另一個目標是以更高的頻率提供包括發達經濟體在內的許多國家的通貨膨脹的先行信息,例如消費者物價指數(CPI)是每天而不是每月一次。在實體經濟方面,如新西蘭銀行的Tugrul Vehbi提出的一些指標現在可以通過使用基于網絡的信息和機器學習算法來提前估計,大數據源的高速運行有助于提供更及時的信息,這在危機期間尤為重要。
第三,大數據分析提供新類型的統計數據能夠“補充”傳統統計數據集。一方面,數字化文本信息的可用性大大增加,這使得人們能夠從社交媒體數據中得出諸如經濟主體的情緒和預期等有用信息。基于互聯網的資源可以涵蓋更廣泛的主題,例如宏觀經濟金融形勢特別是系統性風險發生的概率。另一方面,一個重要因素是增加使用大顆粒數據集來改進宏觀經濟總量的匯編,從而更好地了解其分散性(IFC,2016)——這類分布信息在國民賬戶體系(SNA)中普遍缺失。李紅艷等(2013)提出新型國民經濟核算體系的概念,對全社會經濟活動,即每一個產品或服務(存款、或貸款)從其產生到被消費(消亡)的全過程進行動態跟蹤記錄,對每個經濟主體的每次經濟活動和經濟關聯活動進行跟蹤記錄,2013年末我國國家統計局就與百度、阿里巴巴等多家企業簽署的《大數據戰略合作框架協議》以及2020年人民銀行成立的金融基礎數據中心使得這一構想成為可能。
許多國家的中央銀行已經在使用大數據集進行宏觀經濟預測。例如,Per Nymand-Andersen(ECB)展示了如何利用Google-Trends數據編制歐元區汽車銷售預估的短期預測;英格蘭銀行的Eleni Kalamara等將文本信息與有監督的機器學習技術相結合,改進了對宏觀經濟變量(包括GDP、通貨膨脹和失業)的預測。從統計學視角來看,有些指標在預測國內生產總值時可能效果良好,但在預測其未來發展時可能效果不佳。事實上,一些基于網絡的指標在即時預測中的效果可能不如傳統的商業信心調查。
鑒于這些注意事項,并考慮到可能獲得的大量數據,遵循結構化的過程可能是有用的。泰國銀行的Paphatsorn Sawaengsuksant建議,在選擇諸如因特網搜索查詢等感興趣的指標時采用系統方法。例如,Google-Trends數據中的關鍵詞可以根據其通用程度、受歡迎程度(即記錄的搜索次數)、敏感性(即對微小語義變化的敏感度)、預測值(即與宏觀指標的相關性)來選擇關鍵詞,從經濟學的角度來看,被測試的關系是否有意義。
與宏觀經濟領域一樣,大數據模型在監測金融市場發展方面也很有價值,這是央行的一個關鍵領域。例如,香港金融管理局的調查報告顯示,一些新興的主權債券市場的回報可以用各種技術交易規則和機器學習技術來預測,評估其穩健性與特定外國(如美國貨幣政策)和國內因素的相對影響;許偉(2016)通過在基于網絡情感和搜索行為(谷歌搜索)的數據挖掘集成模型中加入房地產價格指數時間序列的滯后項,運用支持向量回歸模型對房地產價格指數進行了更好的預測。
其他類型的項目是在尋找非結構化的數據。例如,印度尼西亞銀行的Okiriza Wibisono(2018)描述了如何使用文本挖掘算法來監測公眾對印度尼西亞利率走向的預期。已有多家央行的經驗表明,新的大數據來源也有助于監測金融市場的發展,并預測其潛在的未來方向。就日本央行而言,高頻數據的使用有助于監測政府債券市場的流動性和因此有可能導致的價格風險。英格蘭銀行也制定了具體的項目,以監測外匯市場動態和在市場大幅波動時的流動性。
大數據方法還可以提升金融當局識別金融風險的效果——無論是負責微觀金融監管的機構,還是宏觀審慎監管的機構(Tissot,2019)。在該領域早期的研究包括:Nag & Mitra(1999)首次將人工神經網絡引入預警模型,之后很多學者利用人工神經網絡對系統性風險進行分析,結果表示神經網絡的樣本外預測能力明顯優于KLR模型。陳秋玲等(2009)基于bp人工神經網絡計算了2008年中國國家綜合金融風險,財政貿易風險,宏觀經濟風險等預警等級,與實際情況基本符合。Yu et al.(2010)提出了基于經驗模態分解法(EMD)的多量程神經網絡模型,提高了預測精度,改善了泛化性能,結果優于其它分類方法和bp神經網絡。但是對于小型數據集而言,支持向量機有著更好的精度;林宇等(2013)將隨機欠采樣 (RU) 、合成少數類過采樣 (SMOTE) 與傳統支持向量機 (SVM) 相結合, 提出一種改進的SVM模型,具有更高的預測精度和性能。但是神經網絡算法雖然預測結果精確但是計算量很大,計算速度也隨著數據量的增加指數級增長,對設備要求較高且參數很多不易解釋(李欣海,2013)。
2001年,Breiman等人在貝爾實驗室(Ho,1995, 1998)所提出的隨機決策森林 (random decision forests)的基礎上創造了隨機森林算法,選用隨機化特征和數據建立決策樹來降低計算量,運用建立多棵樹形成一片森林最后匯總結果投票選出最佳結果的方法來保證預測精度(Breiman,2001a)。在風險預警方面如Joy et al.(2015)分析1970-2010年36個發達經濟體銀行和貨幣危機爆發前的經濟、金融和結構狀況,通過隨機森林確定了銀行業危機的短期先兆是凈息差較低,收益率曲線較淺,或是倒掛,長期先兆是高房價通脹;而貨幣危機則可由國內短期利率和匯率作為短期預測因素。Xu et al.(2018)結合Wavelet變化和隨機森林模型度貨幣危機進行預測,實證表示在16-32個月的時間范圍內衡量的實際匯率升值是影響最大的因子。Takuji(2019)利用隨機森林和DWT變換結合,建立了貨幣危機預測模型,對危機預測具有較高的精度,并證明了月度實際匯率和外匯儲備凈國DWT變換之后可以作為可靠的預測指標。
王克達(2019)基于1970—2011年全球各國金融危機數據對系統性銀行危機、貨幣危機和主權債務危機的預警進行了實證研究表示隨機森林預測精度最優,最能識別先導指標。蕭超武等(2014)建立了基于隨機森林組合分類算法的個人信用評估模型,實證表示該模型具有較好的預測精度和穩定性。葉曉楓和魯亞會(2017)將樸素貝葉斯與隨機森林模型融合建立信用評估模型,實證表示具有更高的預測準確度。還有企業信用及其破產研究,如盛夏等(2016)年比較隨機森林和adaboost對中國上市公司的信用評級變動的預測顯示隨機森林具有更好的預測精度。信用卡風險評估如方匡南等(2010)對信用卡風險實證研究表明隨機森林比logistic回歸和支持向量機具有更好的預測性能。
2008年以來,全球主要國家央行高度重視微觀金融數據基礎設施的建設,大量顆粒度較高的微觀金融數據被源源不斷地匯聚到中央銀行的數據信息系統中。這對于央行的數據存儲和分析能力提出了巨大挑戰。如何開發適合央行特性的金融大數據系統,探索金融大數據分析方法,已經成為各國央行亟待解決的重要問題。一般而言,可供央行借鑒和使用的大數據分析方法主要包括機器學習、文本挖掘以及網絡分析等方法。中央銀行借助大數據分析方法,能夠進一步拓展信息渠道、提升統計時效,改善宏觀經濟預測效果,改進金融市場監測效率,并進一步強化宏觀審慎監管職能。當然,央行在使用大數據方法履職時,也面臨一系列的問題和挑戰,包括在設立和運行新的大數據組織的過程中如何契合現有的央行文化與組織機制,如何更加有效地對大數據方法和傳統的計量和統計方法進行融合創新,以及如何解決在數據設備投資和數字人才培養等方面的挑戰等等。顯然,中央銀行探索大數據模型和方法的應用,還有相當長一段路要走。