肖京,王磊,楊余久,李娜,趙盟盟,陳又新,譚韜
(1. 平安科技(深圳)有限公司,廣東 深圳 518029; 2. 清華大學深圳國際研究生院,廣東 深圳 518055)
系統性金融風險指可能危及整個金融體系穩定的風險。國際實踐表明,系統性金融風險不僅危及金融穩定,更會給宏觀經濟和社會財富造成巨大損失。系統性金融風險表現形式有多種,其中最典型的要屬金融危機。從17世紀至今,金融危機在世界各國不斷爆發,其發生頻率和破壞性有增大趨勢。目前,全球金融市場仍處于恢復、調整期,但國際金融形勢依然非常嚴峻。更為重要的是,在經濟全球化的趨勢和背景下,外生性金融風險的發生概率和危害程度急速增加。
近年來,我國科技進步催生金融新業態不斷創新發展,以數字金融為例,第三方支付服務已經開始取代傳統金融部門的服務,在網絡貸款、智能投顧、數字保險等領域也取得了顯著進展。但同時,包括借貸違約、資金挪用、虛假標的甚至欺詐行為在內的各種風險因素也相伴而行,我國金融體系內生性風險明顯上升。基于互聯網技術的特性,風險極易在不同部門和地區之間形成傳染性,并有演變為金融風險的可能。在這一背景下,著眼于先知先行的金融風險預警技術研究具有極高的理論和應用意義。
然而,實踐中對金融風險的預警難度極大。傳統金融風險預警技術為什么沒有很好地做出有效預警,其中一個重要原因是缺乏有效及時的關鍵因子。學術界與工業界也均有特征決定模型上線的說法。傳統金融風險預警技術在因子層面倚重基于傳統統計數據的信息和因子,其本身就具有滯后性,客觀上對金融風險預警不利。進入大數據時代,海量非結構化信息的涌現為金融風險預警在擴充不可多得的基礎信息層面提供了機會;而人工智能在視覺、自然語言理解等感知認知領域的發展則為挖掘這些信息從而最終形成有效及時的金融風險預警關鍵因子提供了必不可少的技術支持。
從多源異構的信息中提取及時有效的風險感知因子,將倚重多模態信息感知認知技術。按信息存儲方式可以將大部分基礎信息分為圖像信息與文本信息;這兩類信息的挖掘方法分別對應圖像處理技術和文本挖掘技術。
對于圖像類信息,可以綜合利用衛星圖像識別技術、光學字符識別(optical character recognition, OCR),結合自然語言處理(natural language processing, NLP)等技術完成信息提取。如可從超高分辨率衛星圖像中識別農作物、航運貨物、海陸運輸等目標,進而對經濟生產重要環節走勢變化做出預警[1];可使用OCR技術從財務票據、交易票據等非標準信息中提取用于風險審核的重要信息[2];而夜間燈光遙感數據則可用來動態預測人口密度、城市擴張速度[3-4];此外,聲紋識別技術可用于增強金融應用場景的安全性,提升交互體驗效果等[5]。
對于文本信息內容,可以利用自然語言處理(NLP)結合機器學習等技術完成信息提取。如可以從新聞、輿情、論壇資訊類文本數據中實時識別金融實體、發現金融事件的關聯關系,提取刻畫經濟不確定性等的相關因子[6-12]; 從上市公司年報、首次公開募股(initial public offerings,IPO)招股說明書和公司前瞻性陳述類文本數據,挖掘企業收入、業務發展規模、公司發展戰略傾向等信息[13-18];也可從社交媒體類文本信息中,包括推特、微博、微信公眾號和論壇帖子等,提取事件傾向評分、關注度指數、風險波動率等因子[19-21]。
然而,圖像及文本信息作為新數據源具有多源、異構、海量、高頻的特征,處理這類信息技術難度較大。1)多源、異構:相對于主要由政府和機構主導收集的傳統數據,圖像及文本大數據的發布主體及具體形式均豐富多樣。非結構化信息沒有統一的收集標準和收集格式,這給人工智能(artificial intelligence, AI)信息采集和數據預處理技術提出了較大的挑戰。2) 海量:受限于數據收集成本,傳統數據收集往往需要借助紙質媒介,體量較小。隨著文本信息從紙質媒介向以互聯網為媒介的方式轉移,文本數據收集和傳輸成本大幅度降低,每日都能產生百萬兆(terabyte, TB)級數據。從海量的數據中篩選并提取出關鍵有效因子,這既是信息處理的重點也是難點。3) 高頻:傳統金融領域數據多為年、季、月、周度數據,而圖像、文本大數據的頻率可以高達秒級甚至更高,這就對非結構化信息的處理速度提出了更高的要求。
上述特征綜合在一起使得將非結構化大數據應用于金融風險預警領域面臨著一個核心挑戰,即如何準確、有效地從混雜的多源、異構、高頻數據中提取出對風險預警有價值的信息。圍繞這一問題,本文首先梳理了人工智能技術處理非結構化大數據,進而將其應用于金融風險預警的全流程,并著重說明了感知認知技術在其中的作用。
將多源異構信息應用于金融風險智能預警的過程如圖1所示。首先利用網絡爬蟲技術從新聞、圖片、視頻、微博和語音等信息源收集信息,形成多模態信息池;之后利用智能感知認知技術對圖像和自然語言進行層層處理,加工出關注度、情緒指數、預期指數等因子;最后根據計量經濟學、統計學等方法構建風險預警模型,以此預測及解釋金融風險。其中第二步感知認知技術是第三步建模的基礎,更是現階段有效提高金融風險預測精度和時效性的必要且重要手段;而第三步在計量經濟和統計領域已有較多文獻予以論述。因此,本文著重就第二步的感知認知技術及其在金融風險預警領域的應用進行系統綜述,簡要介紹近幾年預測模型相關的研究進展。

圖1 金融信息提取及應用步驟Fig.1 Steps for financial information extraction and application
用于金融風險預警的很多基礎信息蘊藏在模態各異的海量影像數據源中,目前感知技術主要用來從這些數據源中提取有效信息進行身份核驗,或者提取文字信息為信息認知提供數據基礎。這些信息是提高預測模型精度的必要基礎,可以有效克服金融數據感知不全、認知不準導致的模型失效等技術難題。如可以從社交、電商等應用平臺的大量圖片中提取產品類型、生產廠商、價格、評論等信息,進而萃取品牌關注度指數、企業產銷量景氣指數等高能因子;從遙感數據中提取農作物種植面積、生長情況等信息,從而可以對農業產量做出預測;從夜間燈光影像數據中挖掘城市擴張、人口密度及土地利用信息;對銀行視頻進行實時分析,識別客戶身份和行為特點,及時阻斷相關風險;應用OCR+NLP技術識別客戶的各類材料,降低貸款審批風險、提高審批效率等。
圖像處理算法自深度神經網絡深度應用以來得到了快速的發展,目前已經形成了三大通用技術?目標檢測、目標識別、光學字符識別(OCR),并基于此發展形成了圖像語義分割、形態識別、視頻跟蹤等細分技術類別。本節首先對各類圖像處理技術進行綜述,并在第2節針對性介紹它在經濟金融領域的主要應用。
1)目標檢測算法
目標檢測(objective detection)的主要任務是從圖像中定位感興趣的目標及其類別,它是許多其他高級計算機視覺任務的基礎,如實例分割[22-25]、圖像字幕[26-28]、目標跟蹤[29]等。目標檢測算法發展過程如圖2所示。

圖2 目標檢測算法發展歷程Fig.2 Development history of object detection algorithm
傳統目標檢測大多基于手工設計的特征,算法性能的提升主要依賴各種加速技巧來減少計算成本,代表方法有Viola-Jones(V-J)探測器,可變形部件模型目標檢測算法(deformable parts model,DPM)等[30-32]。基于深度學習的目標檢測可以分為兩大類:two-stage和one-stage。前者基于候選區,檢測框“從粗到細”設定,后者基于回歸方法,檢測框“一步完成”。two-stage類的代表方法包括區域卷積神經網絡(region-based convolutional neural networks, R-CNN)[33]、空間金字塔池化卷積網絡(spatial pyramid pooling convolutional networks, SPPNet)[34]、快速區域卷積神經網絡(fast region-based convolutional reural network,Fast RCNN)[35-36],其他改進的方法有深度殘差網絡(deep residual network, ResNet)、超網絡(hypernetwork,HyperNet)[37-41]等。two-stage方法通常在準確度上有優勢而在速度上存在不足。與之相對,one-stage方法通過單次檢測即可直接得到最終的檢測結果,因此具有更快的檢測速度,但定位精度有所下降。one-stage方法主要有YOLO(you only look once)[42]和單激發多框探測器(single shot multiBox detector,SSD)兩類。以YOLO為基礎的YOLO V2~V4[43-45]系列算法重在研究如何提高預測精度,其他改進的算法有Fast YOLO[46]、Complex YOLO[47],POLY YOLO[48]、PP-YOLO[49]等。SSD[50]利用多尺度特征圖進行目標檢測,在保證檢測速度的同時有效提高了檢測精度。在SSD基礎上改進的算法有反卷積單激發探測器(deconvolutional single shot detector,DSSD)[51]、密集連接卷積網絡(densely connected convolutional networks ,DenseNet)[52]、RSSD(rainbow single shot detector)[53]、M2Det(multi-modal multi-channel metwork)[54],RefineNet[55]、特征融合單發多框檢測器(deep fusion based single shot multibox detector , DFSSD)[56]、增強型SSD[57]等。
2) 目標識別算法研究進展
目標識別(objective recognition)的任務是識別圖像中可能未知分類的目標及其分類[58],其技術發展過程如圖3所示。

圖3 目標識別算法發展歷程Fig.3 Development history of object detection algorithm
目標識別算法目前主要以深度學習方法為主,其中LeNet-5模型[59]第一次將LeNet卷積神經網絡應用到圖像識別分類上,在手寫數字識別任務中取得巨大成功。Krizhevsky等[60]提出了深度卷積神經網絡AlexNet模型,其預測精度顯著高于同期其他算法。隨后,出現了大量改進的算法,包括VGG(visual geometry group)[61]模型、GoogLeNet算法[62]、Inception V3[63]、Inception V4[64]; ResNet模型[37]等在精度及運算效率上均有一定的提升。其他類似的研究包括Chen等[65]、Alom等[66]。
3) OCR 文字識別技術
2012年OCR領域也引入了深度學習的思想?使用卷積神經網絡來取代傳統的手工特征設計。深度學習OCR方法主要分為獨立兩階段方法和端到端的文本定識方法。獨立兩階段方法會對文本檢測和文本識別進行單獨建模,對一般復雜場景下的文本識別表現良好。其主要發展歷程和算法分類如圖4所示。

圖4 OCR 文字識別發展歷程Fig.4 Development history of OCR text recognition
基于深度學習算法的OCR技術主要涉及文本識別算法和文本監測兩類算法。文本檢測方法以SSD、CTPN[67]、DBnet[68]為主,文本識別算法通常基于LSTM+CTC[69]技術、attention[70-71]來實現。“端到端”文本定識主要基于下列方法來完成:CNN+RNN+CTC[72]、CRNN+LSTM[73]、基于循環神經網絡的OCR[74]、基于多語言多路復用網絡的OCR[75]。
4) 其他圖像處理算法
其他用于金融風險領域的感知技術還包括圖像語義分割、目標跟蹤類算法。語義分割從像素級別來理解圖像,需要識別圖像中的每一個像素點而不僅僅是矩形框。TextonForest[76]和基于隨機森林分類器[77]等語義分割方法是較為常用的傳統方法。目前基于深度學習的語義分割方法有U-net、空洞卷積、條件隨機場、DeepLab系列方法、弱監督的語義分割方法[78-88]等。目標跟蹤的目的是將多幀檢出的目標串聯起來。傳統目標跟蹤方法主要通過核相關濾波來實現目標跟蹤[89-92];基于深度學習的跟蹤算法則是把網絡學習到的特征直接應用在相關濾波或Struck跟蹤框架中,跟蹤結果良好[93-95]。
認知智能技術提供了提取非結構化文本數據中有效信息的方式,可有效提升后續模型的預測精度,豐富非結構化數據在金融建模領域的應用。例如:可以利用論壇、研報中大量對資本市場的評論與分析言論等信息提取關注度指數、后市預期指數等有效因子,充分挖掘市場情緒信息在金融風險預測中的應用;還可以從海量的非結構化數據中提取有效實體,發現實體之間的關聯信息,構造金融知識圖譜,并將其應用到金融風險預警中,有效地根據風險的傳遞鏈提升金融風險的預警精確度與效率。
認知智能算法伴隨著深度學習網絡的應用獲得了極大進展,它主要由特征編碼、特征提取、知識圖譜3個模塊組成。特征編碼模塊主要將非結構化的文本數據轉化為模型可輸入的特征數據,其具體的編碼方式包括ONE-HOT編碼、詞嵌入編碼、ELMO(embeddings from language models)動態模型編碼等。使用特征編碼模塊得到的詞嵌入編碼可將一段文字變為數字化的張量(其維度通常為字符數×詞嵌入編碼維度),文本特征提取模塊以此為輸入,進而使用長短期記憶(long shortterm memory, LSTM)、Transformer等序列處理模型進一步提取文本語義信息。在前2個模塊的基礎上,NLP模型可根據不同的任務設置不同的輸出層,其任務包括文本分類、文本蘊含、閱讀理解、實體識別等。知識圖譜則可用于解決金融風險知識存儲與推理等問題。本節將對主要的文本認知處理技術及其應用進行綜述。
1)文本特征編碼模塊
文本處理所面臨的首要任務就是將文字進行數字化表示,以達到模型可輸入的目的,即自然語言處理技術中的特征編碼模塊。ONE-HOT編碼是自然語言處理中出現最早、最基礎的編碼方式,它為詞表中的每一個詞分配一個獨有的狀態(編碼),從而將一段文字轉變為稀疏矩陣。ONEHOT僅適用于小型詞表并容易產生維度爆炸。Word2Vec[96]是第一種高效可用的詞嵌入方法,其基于語言模型,采用CBOW與Skip-Gram兩種編碼框架,產生的詞嵌入向量稠密且維度固定,性能較ONE-HOT編碼有巨大提升。在Word2Vec之后,FastText[97]引入字符級別的編碼信息,將字符信息與單詞信息分別編碼后進行拼接表示。GLoVE[98]編碼則利用共現矩陣同時考慮局部信息和整體信息。但這些編碼方式的改進并沒有脫離Word2Vec的框架范疇。ELMO[99]是另一個具有劃時代意義的編碼方法,其最大的特點是采用動態詞向量表示,編碼架構使用多層堆疊的LSTM來結合詞法與語義特征,基于預訓練模型+模型微調的方式,其詞向量根據不同的上下文動態變化,可有效解決一詞多義等任務。
2)文本特征提取模塊
文本特征提取模塊是認知模型架構中最重要的部分。文本特征提取模塊性能的好壞將直接影響認知模型最終的性能。本節將介紹自然語言處理中用來進行文本特征提取的主要算法。
① 基礎模型
循環神經網絡(recurrent neural network, RNN)是一種主要為序列問題設計的深度學習網絡架構,其結構易導致反向傳播時產生梯度消失和梯度爆炸,使最初的序列輸入對當前時刻影響減弱,容易引起信息變形,給模型帶來大量干擾信息。LSTM[100]改進了RNN的網絡結構,采用“累加”替代原始RNN中“累乘”的狀態計算,在保留RNN優點的同時緩解了梯度爆炸與梯度消失問題[101]。在此基礎上,門控機制的引入[102]有助于模型合理控制信息流,解決了信息變形與長期依賴問題。上述模型均須串行處理因而開銷較大,直到Transformer[103]出現,其采用了自注意力計算方式,特殊的架構能同時處理全部的嵌入向量:它利用當前特征前后的所有信息計算注意力參數,利用位置編碼解決編碼輸入向量相對位置關系的難題,并引入殘差連接來控制信息流向,利用前饋網絡層對信息進一步處理。
② 注意力機制
在NLP領域,Bahdanau等[104]首次在機器翻譯任務上引入了注意力思想,將翻譯和對齊任務同時進行,極大地提升了機器翻譯模型的性能。在此后,注意力機制被廣泛應用于NLP相關模型中。Hu[105]說明了其一般流程為利用注意力權重衡量序列中每個特征對當前任務的重要程度,并將注意力放在重要性更高的特征上面。不同的模型會采用不同的注意力權重計算方式,但本質均不會脫離上述架構。
③ 預訓練模型
隨著基于變換器的雙向編碼器表示技術(bidirectional encoder representations from transformers,BERT)[106]的出現與應用,預訓練模型成為認知智能領域主要的研究方向。BERT以Transformer為模型基礎架構,以改進的遮蔽語言模型[107]加下一句話分類判斷為優化目標。預訓練模型采用無監督的方式在超大規模語料上訓練得到,可應用開放領域學習的先驗知識來提升下游任務的性能,對小數據集友好。
在BERT出現前后均有相應的預訓練模型出現。在BERT之前有ELMO[99]和GPT[108],但它們都未曾引入雙向編碼器。在BERT出現之后,RoBerta[109]丟掉了BERT中的下一句話預測任務并擴展了訓練數據量。XLNET[110]提出了多層感知器(multilayer perception,MLP)置換語言模型,以解決BERT遮蔽語言模型訓練集中mask標志帶來的訓練與應用數據分布不一致的問題。MASS[111]和T5[112]采用了seq2seq MLM的訓練目標以解決BERT在序列生成任務上性能不足的問題。ERNIE[113]引入了實體和短語的mask機制,增強了模型的語法學習能力。Big Bird[114]、ConvBERT[115]則通過更加關注臨近區域信息緩解了BERT全注意力機制帶來的序列長度二次依賴局限。此外,模型變大也是一種趨勢。GPT-3[116]將模型參數擴展到1 750億,數據擴展到45 TB,作為對比,BERT-large有3.3億參數量。
3)知識圖譜模塊
認知智能中常以知識圖譜作為大規模數據的組織形式。知識圖譜是一種基于圖的數據結構,由節點(point)和邊(edge)組成,每個節點表示一個“實體”,每條邊為實體與實體之間的“關系”。金融知識圖譜中的關系實例有企業和人的關系(法人、管理者)、銀行賬戶和銀行的關系、銀行賬戶和人的關系以及企業和地址的關系等。
如圖5所示,該知識圖譜[117]可以用來規范地表示企業實體、關系以及實體的屬性和類型之間的聯系。每個企業本體擁有4個企業屬性:基本信息屬性、經營狀態屬性、相關人員屬性和歷史風險屬性等,企業間的關系可以分為參股、投資和交易關系,人與企業間存在掌控、任職或參股關系,人物之間又有下屬和朋友之類的社會關系。在企業領域本體資源描述框架(resource description framework, RDF)的基礎上可以構建企業動態風險知識圖譜:邊包含實體間的關系和關系的起始時間,用以預測高風險行業和風險事件來幫助企業盡早規避系統性風險;也可以加入企業現金流等屬性,通過深度學習的方法實時監控屬性值及其衍生指標,達到完善企業風險預警體系的目的。

圖5 企業領域的知識圖譜本體RDF示例Fig.5 RDF example of knowledge graph in the enterprise domain
圖像處理方法隨著圖像采集技術的發展,在社會經濟各方面有了深入應用,并為風險預警提供了及時有效的因子。下面以汽車銷量下滑為間接誘因導致股票價格下跌為例說明感知認知技術在金融風險預警中的應用。
如圖6所示,利用感知認知技術可以從多類數據源中提取先行特征明顯的直接誘因指標。例如從遙感影像中提取農作物的種植面積、受災面積及嚴重程度等信息,這些信息同衛星云圖反應的天氣信息融合可以準確預測橡膠產量。利用類似技術同時可以提取航運信息,用以測算原油產量,進而結合油價關注度指數、油價預期指數可以預測原油價格走勢。基于預測的橡膠產量及原油價格走勢,可以準確測算汽車消費成本及汽車銷量。如果汽車銷量出現明顯的下滑,必然會導致產業景氣下行,進而對整個行業產生影響,最終引致行業股票下跌風險。從上述實例可以看出,感知認知技術是提取風險誘因信號的必要技術,對風險預警模型效果的提高,特別是預警及時性的提高具有重要作用。下面首先對感知技術在多類信息提取中的應用進行綜述介紹。

圖6 感知認知技術在金融風險預警中的案例Fig.6 Case of perceptual cognitive technology in financial risk early-warning
在圖像和視頻信息提取方面,Birogul等[118]利用YOLO算法提取K線圖信息,對股價進行預測。Wang等[119-120]將Mask R-CNN用于預測區域范圍內的原油產量。這些預測結果可有效服務于資本市場的風險預警。Chen等[1]將基于卷積神經網絡的圖像商標識別與使用自然語言理解模型的上下文品牌識別結合起來,構建了多模態融合框架解決品牌識別問題。文獻[121-124]研究了從圖像和視頻文件中準確提取人群數量、推斷人群密度的高精度方法。感知技術的另一大應用為從遙感影像中提取農作物產量、城市土地利用等相關信息,與金融知識相結合后可有效用于風險傳導預警等目的。如Chen等[1]綜合利用多個目標檢測算法基于衛星遙感圖像,針對臺灣病蟲害對農作物產量的影響給出了量化評價。Yang等[125]通過自動合成帶有標簽的數據集,利用大豆種子圖像對高產量的大豆進行篩選分類。Safonova等[126]利用無人機對棕櫚樹拍照,通過深度學習的方法檢測棕櫚樹的生長和健康情況。Zhang等[127]開發了大豆葉片病害綜合圖像數據集,并通過檢測模型對大豆葉片多特征進行分析,從而檢測大豆葉片的病蟲害問題。此外,基于遙感影像數據還可以用于建筑物識別,進而對城市發展進程、土地利用情況進行推斷。Griffiths等[128]利用R-CNN方法基于遙感信息對建筑物進行了自動檢測和分割;Tiede等[129]利用Mask R-CNN方法基于高分辨率衛星圖像識別了120萬個住宅和建筑物。
此外,對城市夜光數據(DMSP/OLS)的應用也依賴圖像處理技術,而夜光數據經加工可作為區域經濟發展情況等的側面指標。Yu等[130]提出了一種提高DMSP/OLS的夜間燈光時間序列(nighttime light time series, NLT)圖像應用精度和通用性的方法,探索了一種將人口定量空間化到網格單元的可行方法。Kumar[3]通過分析DMSPOLS獲得的1992-2013年夜間燈光數據,量化了北京城市化的像素級時空格局和趨勢。Zhong等[4]基于DMSP/OLS研究了長江經濟帶城市體系空間格局,分析了長江經濟帶空間結構特征和規律。Zhang等[131]使用DMSP/OLS的多時相夜間燈光(NTL)數據來監測全球范圍內的城市變化,提出了全球性城市化動態空間和時間變化的衡量標準。Shi等[132]利用DMSP/OLS數據和中國省級城市土地數據,評估了2000-2012年UDP(urban polycentric development)的時空變化和影響因素。
目前,深度學習 OCR 已廣泛應用于卡證識別、票據單據識別、汽車相關識別(駕駛證、行駛證、車牌等)、合同文檔識別等領域,這些信息對于做好貸款資料審核等風控業務十分有用。Sage等[133]提出了一種結合OCR標記的文本、空間特征和RNN的端到端表字段提取方法,能夠有效提取文件流中的商業信息。Kumar等[134]使用OCR文字識別技術從票據和收據圖像中提取信息,并開發了離線版應用程序,供用戶及時、準確、高效的完成賬單認證工作。Jang等[135]從功能和情感維度出發研究了多維OCR內容在網絡營銷中的重要性。Agrawal等[136]基于AI+OCR技術研發了支票單的關鍵組成部分挖掘模型,以完成支票驗證任務。Bansal等[137]利用OCR技術提出基于屬性的混合情感分類(hybrid attribute based sentiment classification ,HABSC)方法,測算了多個品牌的情感傾向。
1)關注度因子的加工及應用
金融市場的關注度指數可以有效地反映出公共投資者的注意力和情緒,信息被投資者關注后才能夠通過投資者的交易行為傳遞到資產的價格表現中,因此關注度指數可以用來預測資產價格和股票價格走勢。
一般的關注度指數的構建方式是通過社交媒體、搜索引擎等流量入口網站的相關關鍵指標的搜索量確定,Wang等[138]使用搜索引擎的數據搜索量來衡量投資者對特定行業的關注度,通過文本分析技術TextRank從特定行業的文本語料中提取關鍵字,然后構建描述該行業的關注度指數。文獻[139-140]均以特定時長切片的谷歌搜索量構建投資者關注度指數并研究其與股票交易量與股票回報之間的關系,二者均得到了正相關的結論,即關注度指數與股票交易量和股票匯報之間均有明顯的正相關關系。
國內學者Wang等[140]利用新聞數據開發了媒體環境關注指數,并通過實驗證明該關注度指數與綠色產業公司股票之間存在著明顯的負相關關系。張同輝等[141]選取百度網絡搜索數據,構建了新的投資者關注指標并以“上證指數”和“深證成指”高頻數據為研究樣本,研究了不同的投資者關注水平與市場波動率之間的領先滯后關系,實驗證明投資者關注不僅可以提高現有波動率預測模型的樣本內擬合能力,而且在投資者高關注時期,投資者關注可以顯著且穩健地提高波動模型的樣本外預測能力。
2)文本情緒因子的加工及應用
互聯網上有大量的股票、債券及企業本身相關的評論及研報數據。從這些文本中提煉情緒信息在金融市場研究中具有重要意義。當某些帶有情緒的新聞或評論出現,特別是大量出現時,關聯公司的股價可能在一定周期內發生變化。例如,楊濤等[142]的研究就發現情緒正面的新聞報道通常會對相關概念股的股價產生正向影響,而情緒負面的新聞報道則往往對股價產生負向影響。
Sun等[143]較早將自然語言處理技術應用到金融文本情緒分析中來,他們通過改進預處理方式,包括刪除無用鏈接與數字、縮寫擴展、指代消解等增強了金融領域文本情感分類器的性能。文獻[144]提出了一種基于BERT雙向編碼器的兩步優化金融新聞情緒提取模型,該模型僅依靠少量標注即可在財經新聞上實現高性能的情感分類。文獻[145]也證明了在金融文本情感分析領域,基于Transformer架構的模型準確率和數據使用效率均比其他基本模型優秀。
NLP建模技術的進步在提升文本情緒識別精度的同時也催生了其在金融市場的應用,突出表現在股價走勢預測上。Sousa等[146]利用標注數據對BERT模型進行微調,建立了金融新聞數據的情感分類模型,并利用模型輸出對道瓊斯工業指數走勢進行預測。Li等[147-148]采用了類似的方案對金融新聞數據進行處理,并利用情感分析模型加工的特征構建了回歸模型對股票價格進行預測,驗證了輿情情緒信息對股票收益的顯著影響。Yang等[139]利用BERT編碼恐慌搜索詞的語義表示,進一步結合自注意力深度學習模型改進恐慌關注度指數質量,并將其應用到股價走勢預測上。
近些年國內利用NLP技術研究公司風險預警的文獻也不斷涌現。李成剛等[149]在上市公司風險預警的研究中發現加入文本情感值對預警模型的效果提升有利。姚瀟等[150]建立了適用于中國金融市場的情感詞典,并使用文本挖掘技術量化了管理層語調。該研究發現:積極的管理層語調能夠顯著降低債券信用利差。董偉[151]提出了一個集成語言模型來處理分析師報告、新聞報告和社交媒體內容信息,將文本解析成單詞權重特征、話題特征、情感特征以及社交網絡結構特征。該研究發現社交媒體內容對企業的金融財務欺詐預測有超前效應。
3)文本預期因子的加工及應用
文本預期因子是由文本數據中對未來趨勢存在確定性判斷的信息加工而來。Li等[152]在油價預測模型中嘗試引入文本數據,構建油價趨勢提取模型提取新聞中對未來油價的觀點傾向,以捕捉影響油價波動的更直接的市場動因。這是將深度學習技術應用于原油預測的早期嘗試,也是使用卷積神經網絡(convolutional neural network,CNN)提取在線新聞媒體中的隱藏觀點判斷的初期應用。
Zhao等[153]也研究了基于網絡文本挖掘的油價預測模型,論文提取了網絡文本中對未來油價的4種預期信號,包含積極、中性、負面、混合4種觀點。并將其應用于下游的油價預期模型。論文研究發現具有強烈預期傾向(積極、負面)的文本數據相較于其他文本數據能更好地支持油價預測。
楊兵等[154]利用年報文本數據研究了企業家市場預期對企業研發投入效應的影響機制,持樂觀預期的企業家對企業研發投入具有激勵效應,持悲觀預期的企業家抑制企業研發投入。部慧等[155]從中國股市的股評數據提煉股評看漲看跌預期指標,并證明其對股票收益率和交易量有當期影響,開盤前非交易時段的股評預期對開盤價具有預測力,開盤后交易時段的股評預期對收盤價和日交易量具有更顯著的影響。
4)基于知識圖譜的金融風險預警
近些年,隨著感知認知技術的進步,知識圖譜在金融風險預警的研究中得到深入應用。Liu等[156]通過爬取每個公司的新聞、識別命名實體并提取相關股票之間的業務關系來構建企業知識圖譜。他們門控循環單元(gated recurrent unit, GRU)模型結合相關企業知識圖譜提供的信息,以預測股票的價格走勢。Elnagdy等[157]建議將知識圖譜與本體相結合以有效識別網絡安全保險(cybersecurity insurance, CI)領域實體之間的復雜關系,同時提出了一種稱為 SCIC 的網絡事件分類模型,將語義網絡中的所有本體連接起來以生成知識表示。此外,知識圖譜可以用于處理高度凝練和隨時間變化的新聞語言。DKN(deep knowledgeaware network)模型在新聞推薦中采用知識圖譜表示來充分發現新聞之間潛在的知識層次聯系,從而合理地為用戶擴展推薦結果。文獻[157-158]結合非結構化新聞文章和描述事件的結構化 Wiki數據,構建以事件為中心的知識圖譜,能夠利用各種語言(包括英語、意大利語、荷蘭語和西班牙語)描述世界變化并檢索相關新聞文章。Ciampaglia等[159]將假新聞檢測問題視為知識圖譜中的關系預測任務,從事實陳述網絡中挖掘異構連接模式以檢查斷言的真實性。
Van等[160]將知識圖譜中的圖表征學習引入信用卡欺詐研究領域,構建了全新的信用卡欺詐檢測模型,為預測模型增加交易網絡與交易結構的全新研究角度,提高了信用卡欺詐檢測的效率和準確性。Shen等[161]將傳統特征與知識圖模型相結合來檢測財務報表舞弊行為,通過量化知識圖譜中的各種中心度等方法增加了新特征,提高了傳統機器學習算法的檢測精度。此外,多數實驗結果表明,在融合了知識圖譜關聯特征后的規則策略能夠顯著提升會計欺詐識別的準確性,縮小異常賬戶核查的范圍,使風險管理措施集中到最可疑的賬戶中,從而提升會計案防工作的質效[162-163]。
近10年有關股市風險、信用風險等金融風險預警的研究較多,除了企業經濟領域外,在計算機、數學、工程領域也有較多的研究(圖7柱狀圖),其中我國學者的研究世界排名第一(圖8)。這一方面顯示了金融風險預警這一問題在專業領域的學術價值,也體現了金融風險預警技術已經引起人工智能相關學科專家的關注。但相對一般的企業及風險預測而言,系統性等重大金融風險預警的研究相對較少(如圖7樹狀圖所示)。

圖7 2011-2021年金融風險預警研究成果按研究領域排名Fig.7 Rankings of 2011-2021 financial risk early-warning researches by research field

圖8 2011-2021年金融風險預警學術研究成果按國家排名Fig.8 Rankings of 2011-2021 financial risk early-warning researches by country
上述有關金融風險的研究中,大部分以小樣本案例分析或信用評價方法為主。有監督預測模型的應用研究占比仍不高。而且,目前仍以傳統機器學習模型為多,但深度學習模型占比有上升的趨勢,如圖9所示。下文對近幾年的相關研究進行概述。

圖9 各類模型在金融風險預警中的研究成果Fig.9 Researches of different models in financial risk early-warning
文獻[164-165]回顧了近年應用機器學習、優化等預測股票價格的研究,如神經網絡類中的加強反向傳播神經網絡(EBPNNenhanced back propagation neural network,EBPNN)模型、使用隨機時間有效方程的Elman循環神經網絡(elman recurrent neural network with a stochastic time effective function,ST-ERNN)模型、模糊邏輯方法中的自適應網絡模糊推理系統(adaptive-network-based fuzzy inference system,ANFIS)、進化循環模糊推理系統 (self-evolving recurrent fuzzy inference system,SERFIS)、基于遺傳算法的關聯規則挖掘(genetic algorithm-based association rule mining ,GAACR)分類模型,以及各類混合模型、混合進化模型等。文獻[166]構建了一個2層結構的網絡模型來刻畫經濟組織之間的風險傳染機制,即第1層傳染網絡(基于權益和擔保)和第2層傳染網絡(基于信息溢出),綜合考慮了各類風險傳導機制,從金融渠道和信息渠道2個維度定義了風險傳導網絡。文獻[167]提出局部線性徑向基函數神經網絡(local linear radial basis function neural network,LLRBFNN) 模型,預測了某公司的金融風險。基于傳統時序模型及金融工程類模型進行風險研究在一定情況下也取得了良好的表現[168-174]。
文獻[175]對深度網絡模型在金融風險領域的研究進行了綜述,指出LSTM應用相對較多。此外,文獻[176]提出了一種使用上下文無關語法(context-free grammar,CFG)生成豐富特征并利用支持向量機(support vector machine,SVM)進行預測的模型框架。通過比對時序模型如自回歸模型(auto regression,AR)、自回歸移動平均模型(autoregressive integrated moving average,ARIMA)、指數平滑模型(exponential smoothing,ETS)、指數移動平均模型(exponential moving average,EMA)與基于本文特征生成方法的SVM模型以及基于標準技術指標的SVM模型預測結果,可以得到基于本文特征生成方法的SVM模型性能更佳。文獻[177]利用兩層 LSTM模型,基于市場信息獲取的400個特征對股票市場風險進行了預測,該預測結果優于傳統機器學習模型融合結果。Li等[178]利用文本數據(例如新聞)提取了投資者因子,并使用基于LSTM及深度信念網絡 (deep belief nets,DBN)的預測框架對股票價格進行了預測。Vargas等[179]提出了一個RCNN模型來預測S&P500指數。該模型在傳統價格指標的基礎上利用word2vec從財經新聞標題中提取了7個技術指標。Zhang等[180]使用帶有LSTM+CNN以交易軟件提供的公開可用指數為輸入對金融市場下行風險進行了預測。該模型在訓練過程中實施了生成對抗網絡(generative adversarial network,GAN)技術,同時避免了復雜的金融理論研究和困難的技術分析,為非金融專業的普通交易者提供了便利。類似基于LSTM、RNN等深度網絡算法對股票價格或金融風險進行的研究可參見文獻[181-184]。
感知認知技術本身面臨一些困難與瓶頸。首先,大量標注讓研究人員在簡單卻繁雜的標注任務上耗費了大量的時間。其次,各類算法泛化應用效果有降低甚至失效風險。不少基于深度神經網絡的算法在基準數據集上的表現很好,但是在數據集之外的真實世界中則表現平平,這使得將算法應用到現實場景的過程十分緩慢。其三則是跨場景遷移面臨障礙,深度神經網絡對于場景的變化十分敏感。此外,現有文本處理技術對文本信息進行深度理解和邏輯推理的能力較差。
計算機視覺與認知神經科學、應用數學和統計學等學科的交叉,與各類軟硬件的融合搭配,未來將迎來更為旺盛的發展。高動態復雜場景下的視覺場景理解、小樣本目標識別、復雜語義行為理解等方向也會是未來發展的重要組成部分。本文挖掘在未來的發展中可能會存在如下發展趨勢:1) 腦科學等領域的研究突破可能會創造出更強大的語義理解模型,以更好地分析長文本、多歧義、深層邏輯等復雜文本數據;2) 由于金融領域是需要較強解釋性的應用領域,而傳統的深度模型大都處于一個黑盒子難以解釋的狀態,深度模型在金融領域的可解釋性也將是未來一個重要的研究課題。
可以預期,隨著圖像處理技術、自然語言處理技術的發展,未來能從圖像、文本中提取的基礎信息將更加精準和多樣。然而,為了將這些基礎信息更好地用于金融風險預警建模,在領域知識的指引下巧妙使用圖像和自然語言處理技術將是未來十分重要的一個發展方向。因為并非簡單使用通用感知認知技術就可以從海量異構數據源中挖掘出可用于金融風險預警的有效因子。例如,通過研究股市、債券、信貸風險規律,反向推導至底層基礎信息需求,才指引我們從圖像中挖掘農作物面積、成災數據和原油運輸數據,從新聞、研報、評論中抽取與股價、油價、債券違約、企業風險預期有關的文本信息,并據此完善相關知識圖譜,最終才為金融風險預警模型的構建提供了必要的因子與知識。
最后,現有研究主要關注企業單點風險,但風險傳導是更為關鍵的問題。風險傳導路徑的推演不僅僅是一個預測問題,其本質更是一個推理問題。雖然人工智能技術的進步推動了機器視覺技術、自然語言處理技術的突破性發展。但是其在復雜決策領域的表現仍不理想,例如在邏輯關系推理、投資決策、風險預警等領域,基于人工智能的推理方法明顯落后于專家推理。總體來講,這些領域存在映射關系復雜、決策空間巨大、可學習樣本/數據缺稀、規律/數據分布時變性強的特點。為了解決這些問題,要通過人類知識與算法的融合實現更好的推理,這將是未來的一個重要研究方向。本文認為強化學習算法為實現這一思想提供了良好的技術載體,未來應該研究以專家知識為指導的強化學習算法,以期達到“青出于藍而勝于藍”的效果。