盧民榮,甘健勝
(1.福建江夏學院 會計學院,福建 福州 350108;2.福建省社科研究基地財務與會計研究中心,福建 福州 350108)
自1999年國際貨幣基金組織和世界銀行啟動“金融部門評估計劃”(FSAP)開始,宏觀經濟指標(如GDP、利率等)為各國和各地區建立金融風險預警系統做了基礎支撐。從經濟宏觀指數上看,我國2000年至2010年間GDP增速都在10%左右,2011年至今雖有所回落但也都保持在6%左右,而且宏觀經濟景氣指數如預警指數、一致指數、先行指數等也都處于比較理想的狀態。然而從金融股市的宏觀指數上看,美國股市從6469低點上漲至26616高點,歷時九年時間,漲了四倍,而我國創業板指數,從585點上漲至4037點,漲了七倍僅歷時三年時間,其中代表中國A股的主板市場(上證指數,代碼000001),從2014年下半年啟動以來,累計最大漲幅翻了一倍,但歷時不到一年時間,從而在經濟與金融宏觀指數存在不協調、不一致現象。[1]經歷2017年、2018年連續兩年穩態后,2019年各種事件影響著全球各大指數,引起一系列經濟連鎖反應。
2008年股災、2015年股災、2016年P2P平臺跑路潮等金融風險大事件引致資本市場大幅波動問題仍然十分明顯,而且在相關監管政策不斷出臺的背景下未能有效緩解,給我國經濟社會帶來了一定的負面影響。從金融微觀上看,股市振幅(變化幅度)與時間的關系也表明我國上市資本金融市場機制仍然不夠成熟,2017年8月14日“301 調查”、2018年3月23日發起的“貿易戰”等事件,在接下來的三個月時間,我國A股上證指數從3300點跌至2800點以下,跌幅近20%且仍呈下跌趨勢,其中影響最大的企業中興通訊接近10個跌停,跌幅近60%。雖然2019年有所緩和,但近年來數據表明我國的金融機制仍需要進一步健全。[2]當前我國A股正處于納入MSCI新興市場指數初期和金融貿易風險過渡期,同時還受2020年突發新型冠狀病毒肺炎疫情的影響(如開市第一天股票大面積跌停),也會增加我國的金融風險,因此對金融風險預警系統的多方面研究顯得更加有必要。
國外的研究主要側重于運用計算機技術和離散數學相關算法去分析金融資產和股票市場變化因素,通過數據挖掘相關算法分析股票市場中指標數據,并提取相關影響成分,最終設計為模型。構建宏觀經濟預警指標的研究比較多,Borio和Drehmann側重金融體系研究,含房價基差、股價基差、信貸基差等預警指標[3];Grimaldi以歐洲金融事件(研究數據樣本為1999—2009 年)衡量金融危機與極端金融事件發生之間的關系[4];Brave和Butters針對美國金融條件指數分析貨幣市場、債券及股票市場及銀行體系[5],Bianco等根據美國日交易數據監測系統性金融風險[6];Penikas針對以色列建立宏觀經濟指標建立了該國金融穩定指數[7];Acemoglu等研究了金融網絡結構與系統性金融風險間的關系[8]。而在微觀層面金融風險預警研究比較少,而且集中于投資者的研究,如投資者注意力研究,如Da Z等研究證實注意力指數主要反映了個人投資者的注意力[9],Schroff等研究通過google搜索量實證分析出股票的信息需求與投機行為顯著正相關[10];還有投資者行為研究,如Kraussl和Mirgorodskaya研究了媒體信息可以強化公眾預期,從而引起投資者對互聯網財經新聞及相關論壇的關注分析從而影響股市[11]。運用大數據的機器學習對股市影響的研究也比較多,如運用RESSET金融研究數據庫,在大數據技術下分析市場的融資融券的買賣行為對股票市場影響,運用大數據機器學習實現人工智能與金融資產相結合的方法研究,這些研究大多數是對股市漲跌算法進行事后分析。[12-14]
而國內的學者運用大數據對金融風險的研究也非常多,主要集中在統計學結合計算機技術應用于金融行業的研究,也有對個股案例進行詳細的指標分析和建立預測模型。影響較大的研究證實了未定權益分析(Contingent Claims Analysis,CCA)的風險指標對我國系統性金融風險預警具有較好的適用性,為我國金融風險測度提供了良好的理論研究基礎[15-17],李志輝等根據風險相依性,進行了擴展研究,實現了CCA方法的優化[18]。金融風險預測方面更多是運用大數據技術建立預測模型,通過股市歷史數據進行實證分析。如討論將 Markov鏈過程理論應用于股票交易市場對股價綜合指數的分析預測模型,探討大數據的時代背景下應如何正確地進行股票投資,從大數據、機器學習和行為金融學的角度出發研究炒股行為生成的隨機變量,并基于某只股票的歷史數據運用相應的算法實現預測功能等。[19-21]還有一部分國內學者在研究用戶參與金融市場并對其產生的影響,更傾向于研究投資者與財經新聞、網絡論壇、微博等媒體關系,論證其能在較大程度上影響證券市場。[22-24]
綜合已有研究可以發現,國內外基于大數據研究股票宏觀市場走勢并生成相應的預測模型的成果比較豐富,也有對個股走勢分析和預測模型的微觀層面研究,而對金融市場受相關參與者影響研究比較少。目前,我國大數據在各行各業的應用已初顯成效,部分領域的應用已經處于全球領先地位,其中大數據與資本市場關系的研究亦是金融市場的研究熱點。運用大數據建立用戶參與預測模型對上市資本市場整體影響則基本空白,對于金融市場相關參與者包括企業家,消費者,網民(含移動網民,下同),投資者等的結構分析(年齡、收入、學歷),行為分析,體量分析(網民、投資者),指數分析(企業家信心指數、消費者指數)等對股票市場的影響的研究仍然有待進一步深入,本課題以大數據源和用戶參與行為為觀測點,基于用戶參與視角和大數據技術對金融風險的影響及預警系統的構建,設計用戶參與評價體系和用戶參與預測模型,預警系統可以有效降低金融風險,防范股票市場的大起大落對實體經濟產生負面影響。
在有效市場假說下,金融市場風險信息體現在股票價格走勢中,股票價格變動所包含的信息不僅有價值而且及時、準確,因此,可以圍繞股價進行區域金融、金融機構等的風險實證研究。[25-28]在股市下降趨勢時期(也稱“熊市”)只要稍有風吹草動,A股市場的群體恐慌心理會不斷降低投資者的投資信心,造成拋售壓力增加,由此形成惡性循環的現象。金融風險分析在股市下降時期的預測效果都比較差,出現非理性行為時一般難以提前預警,傳統研究注重各類風險指標、預測指標分析,對投資者及通訊現代化產物網民與股市走勢的關系并不清楚。本研究通過數據爬蟲技術采集數據源(網絡大數據),選取樣本范圍從2000年到2018年,以全球GDP及增長率、中國A股上證指數(A股主板市場)、中國互聯網網民結構、財經網站訪問情況、投資者構成、企業家信心指數、消費者指數等為統計樣本,采用統計學(借助工具SPSS)方法結合金融行為學分析金融市場相關參與方,并以此構建金融風險預警系統。
1.用戶參與評價體系。在人類活動中,觸發各類大型事件的往往是人為因素,而在利益面前,尤其是風險投資,人類的各類需求、思維、情緒、博弈等更是人類參與、觸發事件的重要因素。在金融風險事件中,有政府層面、經濟形勢等因素,但大眾參與也是觸發系統風險的主要成份。在金融資產評估及資本市場交易過程中,盡管已經出現自動交易軟件,但核心仍然是人類,因此用戶參與者評價體系研究是圍繞網民、投資者、企業家、消費者等多個維度構建的。2005年網民和投資者數量已經超過1個億,且每年保持在10%以上的增長率,而到2018年投資者(實際持有金融資產,不計開空戶)仍然未超過1個億,網民的影響力遠超投資者。大數據對金融學研究的影響通常是多方面的,次要用戶企業家、消費者等相關指數在一定程度上反應了金融市場的投資回報與風險預期。首先綜合分析相關影響因素,再建立一定的評價體系,然后對其指標進行賦權,本研究的用戶參與評價體系建立步驟:
(1)相關性分析:通過中國A股上證指數走勢、交易量、振幅變化與用戶量級、用戶結構、用戶行為進行相關性分析、多層次分析。
(2)評價指標的確定:先通過用戶量與A股市場交易量、振幅等關系指標分析,再以用戶性別、年齡、學歷結構選取影響資本市場交易的指標,然后根據用戶在互聯網及移動互聯網的搜索引擎、網絡新聞、微博、社交網站、網絡炒股等橫向行為,結合中國權威的東方財富網、同花順、和訊等財經網站訪問人次、有效瀏覽時間等縱向行為作為指標建立依據。最后依據網民、投資者的傳播、情緒、預測、賭博心理等建立用戶風險指標,詳細指標如表1和圖1所示。
(3)獲取及規范數據:運用網絡爬蟲技術(詳見下文數據采集算法)采集用戶參與評價體系各類指標數據材料,網民和投資者兩個層面統計差距以及統計方法不一致等,還需要進行修正成可提供分析的規范數據,包括以下:
i.采集過程統計時段以日、周、月、季、半年及年度不一致
ii.統計開始、結束存在時間差
iii.部分采集數據的缺失
iv.統計結果的求累加或平均值需要人為判斷

表1 用戶參與評價體系指標

圖1 用戶行為框圖
2.用戶參與指標賦權。用戶量級、用戶結構、用戶行為可以通過數據分析及統計軟件初步確定其相關性分析,傳播、情緒、預測、賭博心理等用戶風險指標難以通過統計數據確定,則通過專家打分法確定權重,具體工作過程如下:
(1)通過方差(公式1)檢驗包括水平方差(公式2)、組內方差(公式2),根據數據的穩定性篩選不必要的分析指標,如用戶的年齡變化趨勢,表達公式如下:
(1)
(2)
式中n表示統計數據個數,μ表示n個統計數的平均數,σrow表示水平之間或不同組之間的方差,σcol表示同一水平之內或同組之內的方差。
(2)用“數據說話”,根據三級指標的數量與一級指標之間的關系,以2000年至2017年之間的數據進行單位間隔中所出現的頻率或數量,并不斷累加,根據數據分布圖(散點圖)結合matlab軟件推導出符合數據與指標之間的函數關系,數據擬合后會出現高次多項式函數,然而這種函數不利于圖形的檢驗,也不容易得出數據之間是正相關還是負相關,因此還需要進行修正和趨勢模擬為低次少項式函數,具體操作步驟如下:
i.Matlab一次函數: polyfit(xdata,ydata,1),xdata、ydata分別表示三級、一級指標的數據(以數組形式按時間順序成對出現)
ii.計算和方差精度(precision,p):即擬合數據和原始數據對應點的誤差的平方和,本研究假定誤差平方和精度范圍在0.1之內,公式如下:
(3)

(3)根據統計數據把用戶行為作為中介變量,由用戶量級和用戶結構形成用戶行為的影響基礎,而用戶行為系最為直接產生用戶風險的指標,以此建立用戶參與評價體系影響路徑(如圖2所示),用戶參與評價體系與用戶參與評價體系影響路徑將作為用戶參與模型的建立基礎。

圖2 用戶參與評價體系影響路徑分析
3.用戶參與預警模型。在用戶參與評價體系基礎上,根據用戶參與影響路徑分析,建立大數據用戶參與模型,旨在通過用戶體量影響、用戶結構各類數據分析及用戶群體行為,一方面,減少大數據下用戶非理性傳播、情緒化行為、預測不科學、賭博心理等風險;另一方面,模型通過機器學習算法提供波動預測、趨勢預測、行為預測等,以期降低劇烈波動的概率,具體模型如圖3所示。

圖3 大數據用戶參與模型
金融風險預警系統的功能包括了數據采集系統、數據庫系統、預警系統,整個系統的設計圍繞“數據說話”,運用數據挖掘技術建立有價值的數據庫,再通過機器學習算法設計預警跟蹤和偏離糾正等,全過程中以數據為中心,具體基于大數據的金融風險預警系統框架如圖4所示。
1.系統功能。
(1)采集系統:因金融風險預警系統相關指標

圖4 大數據下金融風險預警系統框架
數據包括了非結構化數據,而這部分數據在互聯網上內容采集、清洗及分析難度較大,且經常需要人為干預,因此需要結合爬蟲技術、掃描監測技術以比較全面地獲取金融風險數據和相關事件的數據信息,采集系統的基礎數據是預警系統的依據,其對金融風險預測準確性有相當大的影響。
(2)數據庫系統:通過采集系統獲得的數據,仍然需要進一步分析,不僅需要數據挖掘技術的支持,還要有大數據分析的手段。數據庫系統是預警系統的核心,預警模型的相關指標數據分類和匯總都在數據庫系統中完成,數據庫系統完善程度直接影響機器學習的預測能力。
(3)預警系統:預警報告主要以指標臨界值和預警區間的方式展示出來,在確定的風險分析和預測分析后,形成預警報告。同時,預警系統是否與實際相符,還需要進行實證跟蹤,對預測的結果偏差分析原因,并改進相關的算法以提升機器學習系統的預測功能,縮小后續的預測差距,提升預警系統的準確性和科學性。
2.系統流程。在各大知名財經網站中含有上市公司豐富多樣而且呈一定規格化的數據,為數據爬蟲采集、歸類提供了方便,數據有效性非常高,對數據庫優化有著十分重要的意義。另外規范的數據來源也依賴于采集源的數據結構,如同花順(目前在中國系比較權威的財經數據來源,且提供了大數據服務,有免費也有收費項目),根據研究分析需要將采集到的數據進行關聯性分析,設計相應實體及實體關聯,整合成可用規范的數據庫(可供分析的基礎數據)。在規范的數據庫上面進行數據挖掘建模,分析財經數據和用戶參與相關影響,并經一定的修正形成具有商業價值的數據庫(可提供分析報告、商業解決方案),在數據建模過程中不斷優化數據庫,供更深層次的數據分析,具體數據采集、建模、分析過程框架如圖5所示。

圖5 數據采集及分析框圖
這些海量的財經數據采集需要借助工具分析用戶參與預測模型有用的信息及影響因素,然后在有效數據基礎上建模,其中復雜數據分析可以使用數據挖掘、機器學習等算法,如采用Spark算法對采集的數據進行歸類、預測、邏輯回歸等。
3.相關算法。從中國證券登記結算有限公司、知名財經網站(163、sina)上篩選要爬蟲的位置,如在163中明確財經站點地圖,建立爬蟲目標URL集合,然后逐個分析URL對應的DOM結構(節點組成,也稱標簽列表),形成對應的DOM樹。因本研究采集網站集中度很高,且同一網站下的DOM結構基本一致,這給DOM樹的創建帶來很大的方便,假設要抓取某網站的n個URL,每個URL對應m個DOM結構(標簽為成對出現),則通過雙循環可以完成某網站的DOM結構遍歷即2m-1×n,建理想效率如(4)式所示。
(4)
式中,domij表示DOM樹所有邊的操作數。
在Python編程中,為了方便機器解析和生成,采用JSON(JavaScript Object Notation),具體算法程序如下:
import requests
import re
import json #輕量級的數據交換格式,易于編寫
def run(self):#實現主要邏輯
#1.循環提取url
for url in url_list:
#2.發送請求,獲取響應
html_str = self.parse_url(self.url)
#3.提取數據
for dom in dom_list:
dict_response = json.loads(html_str)
#根據不同的DOM結構獲取不同節點的數據
content_list = [i[“group”][‘text’] for i in dict_response[“data”][“data”]]
test= dict_response[“data”][“main_content”]
#4.保存
self.save(content_list)
#5.獲取下一頁的url ,回到下一循環
然而,在實際數據爬蟲過程中,同一網站中并非各DOM結構都一致,因此需要對每個URL建立不同的DOM結構以保證程序抓取的有效性。
4.相關實現。本研究宏觀數據采集后,分析建立在龐曉波和王克達[19]研究的全球各國和各地區傳染力分類基礎上,并取2000年至2018年間GDP及增長率進行參照,剝離了中國香港、中國澳門、安道爾、巴勒斯坦等數據,并修正俄羅斯、沙特、剛果(布)、阿聯酋、波黑、孟加拉、科特迪瓦、多米尼克、拉脫維亞、塞爾維亞、馬其頓、也門等國家名稱與全球宏觀數據名稱不匹配現象,通過構建宏觀數據庫可以比較清晰地查看相關宏觀指數,實現效果如圖6所示。

圖6 宏觀數據庫效果圖
突發事件確實存在對金融市場正面或負面的影響,事件的影響力大小一方面是指事件本身的重要性,另一方面則是用戶參與如何影響事件及事件的傳播。由于用戶量巨大,用戶影響力增加,在baidu和google指數中可以觀測到事件的關注度,從國際事件到國內市場的宏觀影響以及股票中重大資訊(并購重組等)的個股影響,已經可以證明這些事件的傳播反饋到金融市場與用戶參與行為有很強的相關性。因此,各國尤其是傳染力等級為1和2的國家,對金融相關事件的采集及baidu和google指數進行跟蹤,從而劃分事件等級,形成有效的危機數據庫,這對金融預警系統有著重要的數據支撐作用,同時這也適用于相關股票的重大資訊(主要運用于風險提示數據庫)。
據互聯網發展報告顯示,我國網民規模發展十分迅速, 2018年已經接近8個億,互聯網普及率也從不到3%發展到接近60%,同時由于智能手機、3G、4G等通訊技術飛速發展,手機網民也從2006年(受統計數據限制,2006年之前沒有相關數據統計)的1300萬迅速擴展到7.5億(2017年12月),其中2007年到2012年每年增長同比均超過100%。與此同時,據中登公布數據,參與A股投資者2000年為6154萬(同年增加的投資者為1343萬),2002年因大量不規范賬戶清理,年末投資者數為6841萬,到2018年已經達到13863萬(開戶數已經超過1.7億,部分開戶非有效投資者)。以投資者數和網民數量(含手機網民)兩個視角看,用戶參與數量龐大,投資者、網民的行為都會產生大量數據,而且網民的查閱和轉載、傳播行為大大增速,基于大數據的用戶參與結構分析、關注度、情緒反應等群體行為對A股上證指數有著重大影響。
1.數據說明。大數據時代下金融風險預警系統所需要的支撐數據比較集中于財經類網站和互聯網相關統計數據,為了提升基礎數據的有效性和降低數據分析的復雜度,我們采集的數據均來自比較權威的網站和規范的數據庫,因此采集方式也比較簡便,主要數據來源以及采集方式如表2所示,下文中數據來源均引自表2,不再注明引用來源。

表2 采集數據源及方式
(1)數據接口:同花順iFinD因其具有商業性質提供了很好的數據接口,北京廣鑾軒數據科技公司提供了大數據集和數據描述都可以很方便地進行數據導出,然后將所需要的數據根據數據庫的模式匹配整理成規范的數據庫。
(2)網絡爬蟲:在數據挖掘過程中,仍然有許多數據是無法通過規范的數據接口完成的,因此在基礎數據采集過程中仍然需要在互聯網上采集所需財經數據,如中國證券登記結算有限公司網站提供的投資者統計的情況,以及知名的財經網站,這些網站的網頁格式也比較規范,采集難度不高,具體采集算法參看下文的算法說明。
2.宏觀指數統計及分析算法。宏觀分析采用A股主板市場上證指數(因為創業板更不成熟,漲跌幅過大,分析容易出現偏差),采集樣本從1999年至2018年,A股上證指數獲取分析信息有收盤價、最高價、最低價、開盤價、前收盤、漲跌額、漲跌幅、成交量、成交金額等。A股(上證指數)指標統計過程如表3所示,其中年度統計時以當年第一個交易日至當年最后一個交易日(除2018年外)為統計期間,統計結果如表4所示。
根據不同指標之間的數量關系形成大數據訓練集,以A股(上證指數)指標為ydata(不同區間振幅及成交量),導入不同組的指標數據xdata(包括用戶量、用戶結構、用戶行為等),然后計算出每組指標之間的擬合曲線,提供數據規律進行基礎分析,具體算法過程如圖7所示。
3.用戶網絡行為結果分析。因為用戶的搜索引擎、網絡新聞、微博、社交網站、網絡炒股等相關行為數據在采集過程中由于數據源停止采集或數據源不規范而出現部分缺失,本研究使用簡單的移動平均法,對其缺失數據進行預測補充(其中前值未采集的信息則不作補充),預測值pv公式如(5)式所示。

表3 A股(上證指數)指標統計過程

表4 A股(上證指數)指標統計結果
(5)
式中,An表示前期實際值,n表示統計的實際值個數。
觀測網民的相關行為能夠發現網民行為對投資的影響,其中網絡炒股比例是以網絡炒股人次在當年網民規模中的比例計算,具體統計及計算結果如表5所示,從統計數據上看搜索引擎、網絡新聞是網民的重要行為。在2016、2017連續兩年的互聯網發展報告中,手機網民(也稱“移動網民”)通過手機搜索、手機查看網絡新聞等使用率均超過80%,截至2017年12月,手機搜索、手機查看網絡新聞等使用率分別為82.9%、82.3%,手機以其便攜性、易操作性將更迅速地影響網民行為。部分研究采用股票的點擊量、自選股(添加、刪除、留存等)進行用戶行為分析及區間分析。
在用戶相關行為中,以網民查看財經信息展開采集(從2009年開始,截止日期為2018年3月),在采集結果基礎上以年度平均訪問為統計準則,網民財經網站訪問情況如表6所示。通過訪問財經網站的相關行為分析,結合資本市場(上漲和下跌)觀測其行為,2015年處于大幅振蕩(上半年大幅上漲和下半年大幅下跌),網民在財經網站上的訪問量大大增加。

圖7 不同指標數據與A股(上證指數)的擬合過程
4.用戶參與模型相關性分析檢驗。在用戶參與模型中各指標之間的數量關系根據年度變化具有連續變量之間的相關性,因此,本研究使用積差相關系數(也稱Pearson系數),該系數可以比較直觀地篩選出相關高的指標,并從高相關指標中再深入分析,用于驗證模型的預測功能,具體計算公式如(6)式所示。
(6)
式中,x,y即為用戶參與模型中不同指標,y同上ydata取以A股(上證指數)指標(不同區間振幅及成交量)數據,r表示兩兩指標之間的相關性,指標篩選依據如表7所示。因為指標中部分數據采集缺失,故在年度統計中,以比較齊全的數據區間(2000年至2016年)進行相關性分析,獲得高度相關的分析結果(因文章篇幅有限,顯著相關結果略)。
1.從用戶年齡統計上看各年齡段的趨勢變化不明顯,但30歲以下不成熟的網民、投資者占比非常大,這個群體極易被網絡媒體等信息影響,甚至誤導,然后傳播不當的信息,從而更容易導致信息偏差和市場振動。

表5 網民網絡應用使用情況統計(2007—2017年) 單位:萬人
注:下劃線為采集缺失數據,通過移動平均計算所得。

表6 網民財經網站訪問情況(2009—2018年)單位:萬人/萬小時

表7 指標篩選依據
2.從學歷上看,各學歷層次的比例不穩定,投資者往高學歷增長,低學歷層次占比不斷下降,而高學歷對股市的影響主要有兩方面:一是研究更為細致、查找資料更為有效、投資更為謹慎,二是投資手段更為科學,大數據、自動交易軟件等技術手段應用率不斷提升。
3.從用戶行為分析結果,金融事件與股市波動(振幅)有著強相關性,尤其是負面信息在下跌趨勢中其振幅會隨著金融事件的蔓延而不斷增大,用戶產生的搜索指數也隨之擴大。
顯然,政治、金融、軍事、疫情等各類事件在各國傳染等級不一樣,影響力的區別主要在于用戶參與該事件傳播導致風險傳染等重大因素。因此,就各類金融事件在一定時間內對用戶參與關注度的適度引導,可以有效控制和防止金融風險的發生和擴大。