林天華,張倩倩,祁旭陽,趙 霞
(1.河北經貿大學 信息技術學院,河北 石家莊 050061;2.河北經貿大學 經管實驗中心,河北 石家莊 050061)
美國著名的未來學家阿爾文·托夫勒于1980年就在其出版的《第三次浪潮》中提出了大數據的概念[1];2008年《Nature》推出“big data”???,從互聯網、生物醫學等方面進行了大數據的研究;2011年《Science》出版了??癉ealing With Data”;2012年,美國公布“大數據研發計劃”,旨在增強從海量數據中獲取信息的能力。2013年中國計算機學會出版了《中國大數據技術與產業發展白皮書》,2014年出版《中國大數據技術與產業發展報告》,闡述了大數據背景下相關產業的各方面發展,2018中國信息通信研究院發布《大數據白皮書》[2],詳細闡述了目前中國大數據技術的發展狀況和數據立法等各個方面的內容。
國內證券行業蓬勃發展,其特點是數據量大,數據變化速度快,數據類型多樣,但存在很多冗余和噪音,需要對大量的數據進行數據清洗、提煉和數據融合等處理。
通過數據轉換規約、可視化技術、知識計算等大數據分析技術對證券數據進行分析,另一方面,結合深度學習預測模型對有時序性的股票價格數據進行預測分析等[3]。充分將證券行業和大數據技術結合,更好地指引證券市場,促進經濟發展。
在日常運作中證券行業不僅會產生大量的數據,而且也需要運用數據來指導投資,證券數據自身的特點與大數據的特征相契合[4]。證券行業大數據主要表現在行情數據,財經網站的股票行情圖以及通達信等行情軟件所展現的各類數據、K線圖、日均線圖等,背后都是海量的數據[5]。利用大數據技術進行證券數據分析,對證券公司出現的問題進行診斷分析、挖掘事件本質,以及預測事件未來走勢,從而發現客戶潛在需求[6]。
目前,大數據技術在證券行業的應用涉及監督管理、財務分析、股票投資分析、股市預測等各個層面[7]。
市場頻現新的交易品類,交易頻率不斷提高,導致數據分析管理變得越來越復雜,監管任務更加艱巨[8]。傳統的交易監察體系的管理和數據計算性能大幅下降[9]。利用數據融合技術、MapReduce計算模型、Hadoop計算平臺、Storm流式處理技術等,并結合分布式文件存儲系統,如Spark系統,解決證券大數據多維數據的數據結構存儲和智能計算管理難題,尤其是多元異構數據的存儲問題,提高交易監管的效率[10]。利用大數據技術及機器學習相關算法在整個的數據集中分析研究出可疑交易數據,有機結合多元數據保證監察的全面性和完整性[11]。
傳統的財務分析對數據的把控程度較低,能夠處理一部分結構化數據,而對于非結構化數據,基本上沒有進行處理[12]。通過云存儲技術、Web存儲、NoSQL技術、云計算等大數據技術對證券機構及證券公司財務數據進行存儲和分析研究,挖掘財務數據之間的關聯關系,發掘證券公司財務潛在的問題,有助于證券行業機構及證券公司財務部門的管理,使管理層做出更加科學性的財務決策,提高財務風險防控能力[13],深化財務風險的計量模型[14],得出高效的風險分析結果。進而達到事前風險預測、事中風險控制、事后風險評估的效果[15]。
恐慌指數是Bloom提出的一種金融不確定性的度量,是股市的波動率指數(volatility index,VIX),揭示市場參與者的恐慌情緒[16]。2003年推出的以無模型法為基礎的新的VIX指數編制方法被廣泛使用,各國開始編制適合本國證券市場的波動率指數[17]。
利用知識計算等大數據技術研究投資者情緒,有助于投資者在股市上漲和下跌時做出合理的判斷[18]。收集股票論壇中的股票評論信息,分析研究投資者情緒和股票價格間的關系。
輿論熱度是指網民對某一事件的關注程度,也稱為網絡輿情,是人們對于某一影響力大的事件的各種評論[19]。而在股票市場中,股民對某一事件的輿論導向將直接影響股票價格的上漲或下跌[20]。用大數據技術檢索并挖掘社交媒體中的情感信息,如利用機器學習中的分類方法、時間序列聚類方法等對輿論熱度進行分析,幫助投資者理性投資。在輿情熱度分析方面,主要包括證券市場的輿情爆發點、輿情傳播渠道和市場情緒走勢的監控和分析[21]。
在互聯網大數據背景下,證券公司獲取的證券數據量增大[22]。將大量的證券數據利用數據可視化技術使用戶能夠自主分析,交互式的展示和超大圖的展示,方便用戶理解,設計出更加符合客戶需求的產品。另外由于收集到的數據具有實時性,可以不斷根據客戶需求的改變而設計產品[23]。
量化投資主要是通過大數據分析技術對證券數據進行分析處理,形成投資策略[24]。證券公司在為客戶提供信息服務時,需要準確的行業報告和上市公司報告、股價的實時變動信息、大盤走勢等[25],將證券數據應用到量化模型中,進行數據的處理和分析,從而為客戶提供投資決策的建議[26]。在不斷的發展過程中,形成了許多效果很好的量化投資模型。如Fame提出的三因子選股模型[27]和五因子選股模型[28],謝合亮提出的Elastic Net量化投資模型[29],田利輝提出的股票定價的五因子模型[30]等。這些模型能夠為人們的投資提供參考策略。
利用大數據技術對流式數據進行實時分析處理的優勢,實時監控內幕交易。大數據技術結合人工智能算法,對異常的交易和風險主體進行分析識別[31],以保證證券交易的合法穩定進行。蔣東興為保障證券行業全量數據的有效治理提出構建超級大數據治理平臺的科技監管思路[32],利用大數據技術為監督管理提供科學的決策支持。黃素心運用GARJI模型從信息抵達和動態跳躍特征的角度提出基于信息抵達概率的內幕交易實時監控和預警方案,構建的Logistic和Probit甄別模型的判別準確率在不同條件下都非常高,甄別效果顯著[33]。
大數據技術可以對證券企業財務數據進行精準挖掘,規避財務風險[34]。
Campbell等人利用證券交易數據通過動態logit模型進行財務危機預測[35],邊海容利用Web金融信息文本構建的混合指標預測模型預測證券企業財務危機[36],有學者提出一種結合logistic回歸和支持向量機技術的混合智能模型對金融企業財務危機進行預測[37],都取得了不錯的預測效果。利用云計算技術和人工智能算法,根據企業自身的特點[38]建立財務數據的模型并設計出高效的算法,為證券公司制定更加合理高效的財務管理軟件,如“財務云”、ERP系統、天財財務軟件等。
對恐慌指數進行分析,可以預測市場是否會出現較大的波動。研究恐慌指數的方法有小波分析方法、利用ADR日價格的ADR定價模型、混合分位數回歸-Copula等方法。Fathi Abid利用小波方法雙變量分析研究發現股指與其對應的恐慌指數之間存在穩定的協動關系[39]。Omar A. Esqueda利用ADR定價模型發現ADR偏離單一價格規律的部分原因是恐慌指數的滯后[40]。劉思躍結合支持向量機和半參數Copula函數,對多個市場間的恐慌指數進行研究發現相依結構有明顯的時變效應[41]。
行為金融學認為投資者的情緒會影響投資者的行為,進而影響股票行情[42]。由于人腦會有選擇性的接受信息,在做出判斷時會有偏差[43],不能客觀地分析股市行情。
大數據技術結合自然語言處理技術,分析互聯網中投資者的情緒因子,以預測投資者是否看好股市行情。將情緒分為積極、消極和中性三類,或根據臨床醫學情緒狀態量表進行分類[44],篩選出表現情緒的自然語言,歸納人們評論中的表現情感傾向的字、詞、句子或整個文本的情感值,對股市進行預測分析。江騰蛟提出了一種基于淺層語義與語法分析相結合的評價對象-情感詞對抽取方法[45],對金融評論進行情感分析。Werner Antweiler用樸素貝葉斯和支持向量機算法將雅虎上150多萬條股票評論信息進行情感分類[46]。
龐磊首次提出基于句子對將來的事物評論的情感分類研究,旨在自動識別投資者未來情感傾向[47],并且該方法非常有效。李國林利用最小自然語言粒度對網頁文檔情感進行分析[48],提出的情感傾向算法準確率達到84.34%。張世軍提出基于網絡輿情和股票技術指標數據的支持向量機回歸模型預測股價[49],準確率達到71.43%。張書煜采用向量自回歸模型檢驗投資者情緒與股市收盤價、股市成交量之間的時滯關系[50]。石勇基于優礦金融量化平臺的股吧論壇用戶評論數據、雪球網股民社交網絡數據和財經新聞數據,分別構建指標,利用相關性分析和VAR模型研究其與股市的關系[51],表明不同來源的投資者情緒影響不同。
隨著大數據的不斷發展,量化投資更多地依賴大數據技術進行更智能的決策分析。Kensho公司通過機器學習和云算法,將傳統幾天時間的投資分析縮短到幾分鐘[23]。股票價格作為一種常見的證券時間序列,其波動及影響因子之間關系呈現復雜的非線性性[52]。深度學習和知識計算是大數據分析的基礎,股票預測分析逐步使用機器學習來提高預測的準確度,主要包括時序預測方法、支持向量機預測方法和神經網絡預測方法等。
3.5.1 傳統時序預測模型
由算法模型的輸出結果可以將經典時序模型分為確定時序模型和隨機時序模型,確定性時序模型常用移動平均法、指數平均法、趨勢擬合法和季節系數法,隨機性時序模型包括ARMA、ARIMA、ARCH和GARCH等[53]。
ARMA模型是一種研究時間序列的重要方法,它分別包括自回歸模型(AR)和移動平均模型(MA)[54]。ARCH模型是經濟學家Robert在80年代提出的,并利用該模型對英國通貨膨脹指數進行了預測[55]。傳統時間序列預測模型的公式表達如表1所示。

表1 傳統時序預測模型
3.5.2 機器學習預測算法
3.5.2.1 基于支持向量機的預測方法
支持向量機(support vector machines,SVM)是Corinna Cortes和Vapnik于1995年首先提出,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣到函數擬合等其他機器學習問題中。簡單支持向量機是用支持向量機的算法對原始數據進行分析,并給出預測結果[56]。
SVM在預測領域的應用也一直在改進,將數據進行預處理,先對數據進行特征提取,并進行歸一化處理,即PCA+SVM算法,這樣處理后的數據作為SVM回歸機的輸入變量可以更有效地擬合復雜函數[57]。PCA能發掘原始數據的高維特性,并在高維空間對這些特征進行重構,從而提高SVM回歸預測的準確性。
3.5.2.2 基于神經網絡的股票預測方法
2006年,Hinton研究發現多層神經網絡具有很強的學習能力[58],在《科學》上發表的這篇文章使得神經網絡的研究迎來了再一次的浪潮[59]。近十年來,利用神經網絡進行股票預測已成為研究熱點。趙洪科對市場宏觀動態進行了預測,提出一種基于深度神經網絡融合層次多時間序列學習的模型[53],該模型獲得非常好的預測效果。曾安提出一種基于深度雙向LSTM的神經網絡預測模型,比現有預測模型誤差降低2%~5%,決定系數(r2)提高10%[60]。
(1)基于卷積神經網絡的股票預測方法。
卷積神經網絡(convolutional neural network,CNN)具有局部連接、權值共享及池化操作的特性可有效降低網絡的復雜度,減少訓練參數的數量,易于訓練和優化[61]。陳祥一利用卷積神經網絡強大的監督學習性能對滬深300指數漲跌情況進行預測,并與邏輯回歸、SVM、決策樹方法進行對比,CNN取得了不錯的預測效果[62]。王重仁對金融信用風險進行預測,利用改進的CNN自動提取特征并分類,預測效果均優于對比模型Logistic回歸和隨機森林[63]。
將時間序列數據轉化為圖像,把股市時間序列數據進行標準化對齊與圖形化轉換,利用CNN模型進行預測[64]。藺曉根據K線圖,采用滑動窗口將股票數據分割成子序列,用CNN對子序列進行特征學習,基于此設計了股票時間序列反轉點檢測的分類預測模型和股票時間序列異常波動點檢測聚類模型,預測準確率分別達到了61%和65%[65]。
(2)基于貝葉斯神經網絡的股票預測方法。
貝葉斯理論的適應性和可擴展性使其得到廣泛應用,尤其是非參數貝葉斯和正則化貝葉斯[66]。BP神經網絡是一種多層網絡的誤差反向傳播算法,用它來進行股票預測時,很容易陷入局部最優,采用貝葉斯正則化算法來改進傳統BP神經網絡模型,可以解決BP神經網絡初始權值隨機獲取所導致的陷入局部最優問題。劉恒采用貝葉斯正則化改進后的BP神經網絡模型對股票時間序列預測精度比傳統的BP模型提高42.81%[67]。由于股票價格的概率分布函數不是單峰的,股價不能很好地用正態概率分布來表示,為克服這一困難,Kita提出基于離散變量的貝葉斯網絡股票價格預測方法[68],該方法與AR、MA、ARMA、ARCH等預測算法相比,日經指數和豐田汽車公司股價的最大預測誤差分別為30%和20%。
經典的貝葉斯公式如式(1)所示,其中Θ表示概率模型的參數,D表示給定的數據集,p0(Θ)是模型的先驗分布,p(D|Θ)是似然函數,p(D)是模型的邊緣似然函數[66]。
(1)
貝葉斯公式基礎的預測模型如式(2)所示,給定訓練數據D,通過貝葉斯方法獲得對未知數據x的預測[66]。

(2)
(3)基于遺傳神經網絡的股票預測方法。
將神經網絡與遺傳算法結合,是一種新的算法優化方法。目前比較主流的是利用遺傳算法對神經網絡的權值和閾值進行優化[69]。通過文獻的閱讀,該算法的基本流程可總結如圖1所示[70-74]。

圖1 遺傳算法對BP神經網絡優化流程
3.5.3 幾種股票預測算法的優劣性對比
股價的變動受到許多因素的影響,是眾多因素和各種不確定性因素共同影響和作用的結果[61]。沒有一種預測算法能夠適用于所有場景,每種預測模型都有它自身的特點,不可能完全適應每種股票數據類型[67],由此而產生了不同的優缺點,在預測性能上有不同的表現力。綜合上述文獻及對比分析,總結上述預測模型的優缺點如表2所示。

表2 幾種算法優劣性比較

續表2
證券機構應結合大數據平臺,構建企業內統一的數據池,實現數據的“穿透式”管理[75]。數據治理是需要深入思考的命題,使數據資產成為證券機構的核心競爭力。
大數據技術強調對數據的采集、存儲、處理和展現[32]。人工智能可以在各個階段助力證券大數據發揮更大的作用。大數據與人工智能深度融合,拓展證券大數據的應用場景。
通過對證券大數據的應用領域、算法模型的介紹及機器學習預測算法的分析對比,得出如下結論:大數據技術在證券領域的應用十分普遍。采用機器學習算法對證券行情進行預測是研究熱點。每種預測算法都有其相應的優缺點,要根據應用場景和證券類型進行適當選擇。