■ 蔣雨芯 魏先華
中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100190
自股票市場成立以來,股價(jià)的價(jià)格和趨勢變化始終是學(xué)者和投資者關(guān)注的重點(diǎn)。股價(jià)的預(yù)測方法也在不斷的發(fā)展和豐富,主要包括基本面分析、技術(shù)分析和量化模型分析等方法。基本面分析法是通過分析影響證券的多種因素,側(cè)重于分析股票的長期投資價(jià)值。隨著信息技術(shù)的不斷成熟,更多的研究專注于使用更多非結(jié)構(gòu)化的數(shù)據(jù)用于股價(jià)的預(yù)測中,其中包括Tetlock[1]等研究的市場新聞的影響、Wang[2]總結(jié)的投資者情緒對股價(jià)的影響、Jiang[3]提出的天氣因素等。通過加入這些非傳統(tǒng)的數(shù)據(jù),能夠更充分地挖掘多源數(shù)據(jù)所蘊(yùn)藏的信息,從而更好地進(jìn)行股價(jià)預(yù)測。技術(shù)分析法是通過分析股價(jià)波動(dòng)的形態(tài)和統(tǒng)計(jì)數(shù)據(jù)如技術(shù)指標(biāo)等的變化來預(yù)測股價(jià)走勢,形成的技術(shù)分析理論包括道氏理論、K線理論和趨勢理論等,主要側(cè)重于分析股票價(jià)格的波動(dòng)規(guī)律。量化模型分析則是通過建立不同的數(shù)學(xué)模型,早期的研究通常建立在簡單的線形模型上,包括簡單自回歸、滑動(dòng)平均等模型。但是由于股票市場中金融數(shù)據(jù)包含眾多噪音和不確定性,線性模型難以捕捉股市中復(fù)雜的非線性特征。隨著計(jì)算機(jī)技術(shù)的發(fā)展,非線性模型開始逐漸應(yīng)用到股價(jià)預(yù)測中,包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等。早在20世紀(jì)80年代White[4]就使用人工神經(jīng)網(wǎng)絡(luò)預(yù)測股價(jià)。Huang[5]等通過建立支持向量機(jī)模型并優(yōu)化參數(shù)從而對股票漲跌趨勢進(jìn)行預(yù)測。Yu 等[6]提出將BP 神經(jīng)網(wǎng)絡(luò)應(yīng)用于股票市場的預(yù)測。任君等[7]使用LSTM 與SVM 結(jié)合的方法,預(yù)測滬深300 指數(shù)并構(gòu)建投資策略。Hoseinzade[8]通過將股票的時(shí)序、技術(shù)指標(biāo)數(shù)據(jù)整理為二維矩陣數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測了標(biāo)普500 的價(jià)格趨勢。相較于傳統(tǒng)的線性回歸,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的模型結(jié)構(gòu)更加復(fù)雜,更加適用于解決大量數(shù)據(jù)中的非線性問題。
市場上常見的交易軟件能夠?qū)⒐善钡慕灰讛?shù)據(jù)以及技術(shù)指標(biāo)進(jìn)行可視化地展示,投資者可以通過圖片對股價(jià)走勢進(jìn)行分析,但投資者對股票的主觀經(jīng)驗(yàn)判斷可能受到心理因素等的影響。過去的預(yù)測研究大多是將股價(jià)數(shù)據(jù)特征采用時(shí)間序列的形式作為模型的輸入,很少有學(xué)者直接采用金融圖像進(jìn)行分析處理。同時(shí)在研究中存在無法準(zhǔn)確地刻畫市場總體情緒對股價(jià)的影響,以及使用單一的數(shù)據(jù)來源和形式導(dǎo)致預(yù)測效果不佳等問題,所以對于如何整合多源異構(gòu)數(shù)據(jù)對股價(jià)進(jìn)行預(yù)測仍需進(jìn)一步深入的研究。本研究以滬深300指數(shù)作為研究對象,通過建立圖像化融合多源異構(gòu)數(shù)據(jù)的模型,將新聞情緒、投資者情緒、技術(shù)指標(biāo)等數(shù)據(jù)共同編碼形成圖片,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)對股指進(jìn)行不同周期的走勢預(yù)測。在所參與的基金項(xiàng)目:基于大數(shù)據(jù)融合的新一代商務(wù)智能系統(tǒng)構(gòu)建研究中,作為其中智能投顧系統(tǒng)股價(jià)預(yù)測模塊的研究成果,為股指趨勢預(yù)測和研判提供了新的思路,從而能夠更好地為投資決策進(jìn)行服務(wù)。
1.1.1 財(cái)經(jīng)新聞情緒指數(shù)
研究表明新聞情緒是影響市場價(jià)格走勢的重要因素之一,其原因是新聞是普通投資者獲取資訊最直接、有效的方式,投資者會(huì)根據(jù)新聞傳遞出的情緒作出投資決策,從而影響市場的總體走勢[9]。所以本研究通過優(yōu)礦平臺(tái)獲取多家主流財(cái)經(jīng)媒體的每日市場新聞的匯總報(bào)道,能夠充分反應(yīng)新聞媒體對市場整體的報(bào)道和情感走勢。通過收集其中2013/1/1 至2020/12/31 期間每日的股票市場相關(guān)新聞,包括新聞ID、標(biāo)題、摘要和時(shí)間等,最終整理得到共計(jì)620萬條新聞數(shù)據(jù)。通過對交易日期的映射和匹配后,利用篩選高頻詞補(bǔ)充Bian 等[10]構(gòu)建的CFSD 新聞情感詞典的方式,對新聞的摘要進(jìn)行情感打分。通過計(jì)算每條新聞的情緒得分,匯總構(gòu)建每日市場總體新聞情緒指數(shù),作為當(dāng)日媒體新聞反映的市場總體的情感,其中posN表示新聞情緒為積極的新聞數(shù)量,negN表示新聞情緒為消極的新聞數(shù)量。其計(jì)算公式為:

1.1.2 市場其他情緒代理指標(biāo)
由于市場整體的情緒不僅受到新聞媒體情緒的影響,還與投資者行為與市場交易數(shù)據(jù)等密切相關(guān)。所以在財(cái)經(jīng)新聞情緒基礎(chǔ)上,本研究參考Baker 和Wurglar[11]構(gòu)建的BW 指標(biāo)以及黃德龍等[12]其他學(xué)者構(gòu)建復(fù)合情緒指標(biāo)所使用的市場代理指標(biāo)。根據(jù)數(shù)據(jù)的可得性和與指數(shù)收益率的相關(guān)性,本研究最終選取了HS300 指數(shù)的市場交易數(shù)據(jù):交易量(Amount, Amt)、換手率(Turnover,TO),通過wind獲取HS300個(gè)股異質(zhì)投資者的交易數(shù)據(jù),按照交易資金量的大小劃分為機(jī)構(gòu)投資者和散戶投資者,匯總計(jì)算出機(jī)構(gòu)凈流入(Institution,Ins)及散戶投資者凈流入(Individual,Ind),分別代表機(jī)構(gòu)投資者情緒和個(gè)人投資者情緒,以及反應(yīng)市場每日漲跌情況的騰落指數(shù)(ADL)。最終的選取指標(biāo)和數(shù)據(jù)來源如表1所示。

表1 市場情緒代理指標(biāo)和數(shù)據(jù)來源
1.1.3 市場綜合情緒圖像
本研究構(gòu)建的綜合市場情緒指標(biāo)是在新聞情緒指標(biāo)的基礎(chǔ)上,融入包括異質(zhì)投資者資金走向,市場熱度等其他市場情緒代理指標(biāo),共計(jì)6 個(gè)指標(biāo)。在綜合指標(biāo)的構(gòu)建中,本研究參照董孝伍[13]所使用的方法,對選取指標(biāo)在t 時(shí)刻和t-1 時(shí)刻的數(shù)據(jù)進(jìn)行主成分分析,得到包含12個(gè)情緒指標(biāo)的綜合指標(biāo),記為MS12。再通過MS12與12 個(gè)單獨(dú)的情緒指標(biāo)相關(guān)系數(shù)的大小來確定各指標(biāo)的領(lǐng)先與滯后的情況。根據(jù)上述方法的處理,最終選取了6 個(gè)指標(biāo)在t 時(shí)刻的當(dāng)期值并通過主成分特征值加權(quán)平均計(jì)算出MS6市場綜合情緒指標(biāo),其表達(dá)式為:
MS6=0.286*Ins+0.272*ADL+0.259*News-0.273*Ind-0.55*Amt-0.063*TO
Baker 和Wurglar[11]認(rèn)為,當(dāng)投資者情緒可以反映市場波動(dòng)特征時(shí),則認(rèn)為該情緒指標(biāo)是真實(shí)有效的。所以本研究分別對財(cái)經(jīng)新聞情緒指數(shù)和融合多類數(shù)據(jù)構(gòu)建的綜合情緒指標(biāo)與滬深300 收益率的相關(guān)性進(jìn)行了分析。

圖3 RSI指標(biāo)圖像
表2 表明本研究構(gòu)建的綜合市場情緒指數(shù)MS6 與滬深300指數(shù)對數(shù)收益率相關(guān)性相較于單獨(dú)的財(cái)經(jīng)新聞情緒的相關(guān)性更高,可以較好的反應(yīng)市場情緒變化,能夠作為整體市場情緒的代理變量。本研究采取將市場情緒指標(biāo)用白色折線的形式進(jìn)行呈現(xiàn),通過折線的高低曲折變化來反映市場綜合情緒的熱度,如圖1所示。

表2 指數(shù)收益率和情緒指標(biāo)的相關(guān)性

圖1 市場綜合情緒指標(biāo)圖像
股票技術(shù)指標(biāo)是通過特定的算法對證券原始的交易數(shù)據(jù)計(jì)算得來的時(shí)間序列,可以用來推測股票價(jià)格的變動(dòng)趨勢。本研究按照wind 的指標(biāo)分類選取常見的3類技術(shù)指標(biāo)作為主要的研究內(nèi)容,分別是趨向指標(biāo)中的MACD 指標(biāo)以及反向趨勢指標(biāo)中的RSI 指標(biāo)以及壓力支撐指標(biāo)BOLL 布林帶指標(biāo)。MACD 指標(biāo),又稱異同移動(dòng)平均線,是一種判斷金融資產(chǎn)買賣時(shí)點(diǎn)以及價(jià)格漲跌趨勢的技術(shù)指標(biāo)。其原理是運(yùn)用短期指數(shù)移動(dòng)平均線和長期指數(shù)移動(dòng)平均線交叉和背離的信息進(jìn)行平滑運(yùn)算。RSI指標(biāo),又稱相對強(qiáng)弱指標(biāo),是一種研究金融資產(chǎn)價(jià)格波動(dòng)幅度的技術(shù)指標(biāo)。其原理是計(jì)算一段時(shí)間內(nèi)的漲跌幅的比值,從而反映多空雙方的強(qiáng)弱程度。BOLL 布林帶指標(biāo),是通過計(jì)算金融資產(chǎn)價(jià)格的標(biāo)準(zhǔn)差和置信區(qū)間,得到股票價(jià)格的上下波動(dòng)范圍和未來漲跌趨勢。通常資產(chǎn)價(jià)格應(yīng)該保持在上下軌道之間運(yùn)行,一旦突破其波動(dòng)范圍的上下限,則代表資產(chǎn)價(jià)格處于較極端的情形,容易出現(xiàn)反轉(zhuǎn)的趨勢,可以作為判斷未來漲跌的依據(jù)。
技術(shù)分析理論在圖像方面的應(yīng)用非常豐富,是良好的卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),所以本研究將技術(shù)指標(biāo)繪制成黑底白線折線圖形作為模型的輸入,形成的不同技術(shù)指標(biāo)圖像如圖2至圖4所示:

圖2 MACD指標(biāo)圖像

圖4 布林帶指標(biāo)圖像
對于傳統(tǒng)的指數(shù)交易數(shù)據(jù),本研究參考Jiang[14]的文章將股價(jià)數(shù)據(jù)表示為OHLC 類型的圖片。對比市場常見的股價(jià)K 線圖和蠟燭圖,股價(jià)的OHLC 圖片能夠通過更少的圖像像素表示更多的股價(jià)數(shù)據(jù)信息,不僅包含股價(jià)的4 個(gè)價(jià)格數(shù)據(jù),同時(shí)線段的垂直長度也能夠反映每日的價(jià)格波動(dòng),并且通過同一種顏色即可以表示股價(jià)的漲跌信息。圖片數(shù)據(jù)采用黑底白色線條組成,這樣的圖片編碼方式可以將圖片的數(shù)據(jù)直接轉(zhuǎn)化為二維像素矩陣,而不用保留三維的RGB 顏色信息,能夠在保留完整數(shù)據(jù)信息的同時(shí)減輕圖片數(shù)據(jù)的存儲(chǔ)需求,可以作為良好的CNN 輸入數(shù)據(jù)源。最終形成的數(shù)據(jù)圖像如圖5所示。

圖5 股價(jià)OHLC圖像
為了更好地對比圖像輸入形式對模型預(yù)測的影響,本研究采取將3類圖片共同作為輸入以及融合形成單張圖片為輸入的兩種形式。其中單張融合圖片需要涵蓋市場情緒指數(shù)、股價(jià)數(shù)據(jù)和技術(shù)指標(biāo)數(shù)據(jù)。本研究采取將市場情緒指標(biāo)用白色折線的形式置于圖片下方,技術(shù)指標(biāo)則按照常見方式覆蓋于股價(jià)數(shù)據(jù)之上進(jìn)行顯示,最終進(jìn)行對比訓(xùn)練的融合數(shù)據(jù)圖片數(shù)據(jù)如圖6所示。

圖6 融合3類數(shù)據(jù)的整合圖像(以MACD指標(biāo)為例)
股價(jià)預(yù)測模型需要選取影響股價(jià)漲跌的多項(xiàng)因素,從不同的角度整合豐富的信息來描述股票的變化,并對此建立合適的預(yù)測模型。本研究期望利用卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和預(yù)測中的優(yōu)勢,將金融數(shù)據(jù)處理成圖片數(shù)據(jù),并與傳統(tǒng)的數(shù)據(jù)形式預(yù)測進(jìn)行比較,從而探究本研究融合數(shù)據(jù)的方法的有效性和結(jié)構(gòu)的穩(wěn)健性。通過采集財(cái)經(jīng)新聞、市場情緒代理指標(biāo)、股價(jià)數(shù)據(jù)和K 線技術(shù)指標(biāo)等數(shù)據(jù)生成相應(yīng)的圖像,并采取構(gòu)建融合圖像的形式作為卷積神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)集對比,具體采用的融合方法如圖7所示。

圖7 多源數(shù)據(jù)圖像融合方法
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋人工神經(jīng)網(wǎng)絡(luò),能夠從大規(guī)模的數(shù)據(jù)中不斷提取和學(xué)習(xí)從局部到整體的特征,并將結(jié)果向同類別數(shù)據(jù)泛化。在金融領(lǐng)域,股價(jià)圖像的可視化在一定程度上有助于檢測統(tǒng)計(jì)數(shù)據(jù)中存在的特征和模式。利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)訓(xùn)練和優(yōu)化模型,不需要提前制定技術(shù)指標(biāo)和圖片特征,即可搜索最能預(yù)測未來回報(bào)的圖像模式,所以股價(jià)圖像數(shù)據(jù)可以作為卷積神經(jīng)網(wǎng)絡(luò)良好的數(shù)據(jù)輸入進(jìn)行研究。常見的卷積神經(jīng)網(wǎng)絡(luò)樣本輸入通常為具有RGB 這3 個(gè)通道的圖像數(shù)據(jù),本研究構(gòu)建的每1類圖像數(shù)據(jù)集都為單通道的圖片。通過將多類圖片共同作為模型的輸入,分別采取3 張圖片同時(shí)輸入以及單張融合圖片作為輸入的形式進(jìn)行模型的訓(xùn)練和預(yù)測。在多張圖片同時(shí)作為輸入時(shí),通過將3 張圖片進(jìn)行縱向拼合,形成3 通道的圖片數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練的過程中會(huì)自動(dòng)更新不同通道的訓(xùn)練參數(shù),從而實(shí)現(xiàn)在賦予不同類別圖片不同的權(quán)重的同時(shí)也能夠?qū)W習(xí)不同類圖片中的特征。在單張融合圖片作為輸入時(shí),則直接讓模型學(xué)習(xí)融合圖片的特征作為對比。本研究在考慮樣本尺寸大小和數(shù)量的限制時(shí),主要參考LeNet-5[15]網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行相應(yīng)的設(shè)計(jì)和修改,最終構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)由兩個(gè)卷積層,兩個(gè)池化層以及3個(gè)全連接層構(gòu)成,并命名為CNN_Stock。同時(shí)在模型中增加了Dropout 層和Batchnorm 層在一定程度上防止數(shù)據(jù)過擬合。以此構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖8所示。

圖8 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
實(shí)驗(yàn)流程圖具體描述如圖9所示。

圖9 實(shí)驗(yàn)流程圖
首先利用python繪制3類不同的數(shù)據(jù)圖像以及融合圖像作為模型的輸入。其次通過對模型的訓(xùn)練進(jìn)行股指趨勢的預(yù)測,使用評價(jià)指標(biāo)對預(yù)測結(jié)果進(jìn)行分析。最后選取不同預(yù)測模型進(jìn)行對比,包括線形預(yù)測模型邏輯回歸、時(shí)序預(yù)測模型LSTM 和經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)AlexNet 模型,對輸入數(shù)據(jù)的形式和融合方法的有效性進(jìn)行檢驗(yàn)。
本研究使用的數(shù)據(jù)集時(shí)間區(qū)間為2013/1/1 至2020/12/30。圖片種類分為兩大類,分別是由市場情緒指數(shù)、技術(shù)指標(biāo)和股價(jià)數(shù)據(jù)3 類數(shù)據(jù)指標(biāo)單獨(dú)繪制的3 層圖片數(shù)據(jù)以及由3類圖片數(shù)據(jù)融合形成的單層圖片數(shù)據(jù)。本研究采用留出法的方式對總數(shù)據(jù)集按照9:1 的方式劃分樣本內(nèi)外數(shù)據(jù)集。其中2013/1/1 至2020/3/31 的數(shù)據(jù)集作為訓(xùn)練集對模型進(jìn)行訓(xùn)練,2020/4/1 至2020/12/31 作為樣本外測試集對模型進(jìn)行評估。為了減弱隨機(jī)劃分的影響,對訓(xùn)練集重復(fù)劃分訓(xùn)練集和驗(yàn)證集,并對得到的多次結(jié)果取平均作為最后的結(jié)果。圖片周期長度選取分為5 天、20 天、60 天(分別代表周、月和季度)的數(shù)據(jù)來進(jìn)行預(yù)測未來的漲跌。圖片擁有3類不同時(shí)間長度的標(biāo)簽,分別為1 天、5 天和20 天后的漲跌情況。以5 天為例,若該圖片未來5 天后的價(jià)格上漲,即Closet+5>Closet時(shí),label 標(biāo)記為1,反之標(biāo)記為0。通過對圖片和3 類數(shù)據(jù)標(biāo)簽分別進(jìn)行模型訓(xùn)練和評估,進(jìn)而比較不同數(shù)據(jù)集使用模型預(yù)測的準(zhǔn)確率。
模型的評價(jià)指標(biāo)通過召回率(Recall),特異性(Specify),準(zhǔn)確度(Accuracy),馬修斯相關(guān)系數(shù)(MCC)指標(biāo)來進(jìn)行評價(jià)。在預(yù)測分類問題中,通常將樣本真實(shí)類別為正,最后預(yù)測結(jié)果也為正的記為TP(True positive);樣本真實(shí)類別為負(fù),最后預(yù)測結(jié)果為正的記為FP(False positive);樣本真實(shí)類別為正,最后預(yù)測結(jié)果為負(fù)的記為FN(False negative);樣本真是類別為負(fù),最后預(yù)測結(jié)果也為負(fù)的記為(True negative)。四個(gè)評價(jià)指標(biāo)的定義和公式如下:
Recall:召回率,表示在原始正樣本中最后被正確預(yù)測為正的概率。

Specify:特異性,表示在原始樣本中的負(fù)樣本中被正確預(yù)測為負(fù)的概率。

圖10 情緒指數(shù)、技術(shù)指標(biāo)和股價(jià)數(shù)據(jù)3類數(shù)據(jù)融合形成的5、20和60天預(yù)測圖像

圖11 情緒指數(shù)、技術(shù)指標(biāo)和股價(jià)數(shù)據(jù)3類數(shù)據(jù)分開表示的預(yù)測圖像(以20天為例)

Accuracy:準(zhǔn)確度,表示預(yù)測正確的樣本數(shù)除以總樣本數(shù)。

MCC:馬修斯相關(guān)系數(shù),描述實(shí)際分類與預(yù)測分類之間的相關(guān)系數(shù)。

根據(jù)構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型對不同技術(shù)指標(biāo)形成的3 類圖片及3 類圖片的融合圖像分別進(jìn)行識(shí)別和預(yù)測,下表展示了該模型在預(yù)測未來1、5、20天漲跌情況的預(yù)測能力,模型評價(jià)結(jié)果如下表所示。
本研究構(gòu)建的模型對于股指預(yù)測趨勢具有一定的預(yù)測能力,同時(shí)模型預(yù)測效果會(huì)受到圖像長度、未來預(yù)測天數(shù)、多源數(shù)據(jù)的加入以及不同技術(shù)指標(biāo)選取的影響。對于不同技術(shù)指標(biāo)加入的預(yù)測效果,選取其中表現(xiàn)最好的MACD指標(biāo)實(shí)驗(yàn)結(jié)果為例進(jìn)行展示。
單層僅含股價(jià)數(shù)據(jù)的預(yù)測準(zhǔn)確率最低,如表1所示,其中使用60 天圖像數(shù)據(jù)預(yù)測未來5 天的漲跌相對表現(xiàn)最好為53.1%。從表3 和表4 可以看出加入技術(shù)指標(biāo)圖像或者情緒指標(biāo)圖像后均能夠有效提升大部分模型預(yù)測準(zhǔn)確率。同時(shí)對于融合3 類數(shù)據(jù)的3 層圖片預(yù)測模型優(yōu)于融合3 類數(shù)據(jù)的單層圖片數(shù)據(jù)模型,其中效果最佳的如表6所示,為使用MACD指標(biāo)的的60天圖像數(shù)據(jù)對于未來5 天后漲跌的預(yù)測結(jié)果,樣本外準(zhǔn)確度能夠達(dá)到65.2%,相較于單一數(shù)據(jù)源預(yù)測能夠提升12.1%。不同技術(shù)指標(biāo)的加入對模型預(yù)測效果的提升略有差異,但大部分測試數(shù)據(jù)集都能夠在單一股價(jià)數(shù)據(jù)預(yù)測模型的準(zhǔn)確性上得到提升,其中MACD指標(biāo)相較于其他兩類指標(biāo)表現(xiàn)更好,所以本研究主要對MACD指標(biāo)的實(shí)驗(yàn)結(jié)果為例進(jìn)行分析。同時(shí)模型對于未來不同時(shí)間窗口的預(yù)測存在一定差異。對大部分預(yù)測數(shù)據(jù)集,模型對于股指未來1天或者20天的預(yù)測能力不及未來5天趨勢預(yù)測的準(zhǔn)確性,其原因是因?yàn)楣蓛r(jià)未來1 天或者20 天的變化波動(dòng)性相較于5 天可能更大,對于股指數(shù)據(jù)的預(yù)測仍需要盡可能的從多維度進(jìn)行描述和分析。

表3 單層OHLC股價(jià)數(shù)據(jù)預(yù)測效果

表4 技術(shù)指標(biāo)+股價(jià)數(shù)據(jù)雙層數(shù)據(jù)預(yù)測效果(以MACD指標(biāo)為例)

表5 情緒指標(biāo)+股價(jià)數(shù)據(jù)雙層數(shù)據(jù)預(yù)測效果

表6 情緒指標(biāo)+技術(shù)指標(biāo)+股價(jià)數(shù)據(jù)三層圖片數(shù)據(jù)預(yù)測效果(以MACD指標(biāo)為例)

表7 融合情緒指標(biāo)+技術(shù)指標(biāo)+股價(jià)數(shù)據(jù)單層圖片數(shù)據(jù)預(yù)測效果(以MACD指標(biāo)為例)
為了驗(yàn)證本研究構(gòu)建的預(yù)測模型的有效性,選擇了上文表現(xiàn)較好的采取MACD指標(biāo)、市場情緒指數(shù)以及股價(jià)數(shù)據(jù)形成的3 層圖片模型CNN_Stock 進(jìn)行未來5 天股指漲跌預(yù)測,并選擇邏輯回歸模型、參考楊青[16]等人構(gòu)建的LSTM 神經(jīng)網(wǎng)絡(luò)以及AlexNet 神經(jīng)網(wǎng)絡(luò)作為對比。其中邏輯回歸屬于廣義線形模型,作為進(jìn)行對比的傳統(tǒng)預(yù)測模型。LSTM 為使用時(shí)間序列作為輸入的神經(jīng)網(wǎng)絡(luò)模型,適用于處理和預(yù)測時(shí)間序列,作為不同數(shù)據(jù)輸入形式的模型進(jìn)行預(yù)測對比。AlexNet 模型為圖片分類領(lǐng)域表現(xiàn)成熟的卷積神經(jīng)網(wǎng)絡(luò)模型,由于本研究數(shù)據(jù)量相較于原始數(shù)據(jù)集較小,將AlexNet 原模型進(jìn)行了卷積核數(shù)目減半的處理,作為不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對比。對比實(shí)驗(yàn)結(jié)果如表9所示:

表9 股指預(yù)測模型對比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,不同圖像長度的數(shù)據(jù)集對于預(yù)測準(zhǔn)確率有一定影響,4 類模型使用60 天的圖像數(shù)據(jù)集相較于5 天和20 天的數(shù)據(jù)集表現(xiàn)效果更優(yōu),這表明在融入更多豐富的數(shù)據(jù)信息后能夠提升模型的預(yù)測效果。在不同模型間的對比中,預(yù)測效果最好的模型為本研究構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型,通過60 天的圖像預(yù)測未來5 天的股指趨勢準(zhǔn)確率能夠達(dá)到65.2%,其次為模型結(jié)構(gòu)更為復(fù)雜的AlexNet 模型,預(yù)測效果最佳可達(dá)55.6%,LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果最佳為53.1%,邏輯回歸模型作為預(yù)測效果最差僅為47.5%。
其原因是邏輯回歸作為線形模型無法較好地?cái)M合股價(jià)的趨勢特征。LSTM 網(wǎng)絡(luò)模型學(xué)習(xí)到的特征則是盡量將上一段時(shí)間的收盤價(jià)作為當(dāng)前的預(yù)測輸出,傾向于保留之前股價(jià)的趨勢,股價(jià)預(yù)測存在滯后性。AlexNet模型結(jié)構(gòu)更為復(fù)雜,訓(xùn)練過程中參數(shù)多、計(jì)算量大,容易出現(xiàn)過擬合的現(xiàn)象,導(dǎo)致在樣本外預(yù)測效果相對較差,無法準(zhǔn)確識(shí)別股價(jià)圖像數(shù)據(jù)集的特征。這也表明神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需要針對特定的數(shù)據(jù)格式和數(shù)量進(jìn)行設(shè)計(jì)和訓(xùn)練才能達(dá)到較好的結(jié)果。
在數(shù)據(jù)輸入形式的比較上,基于圖像數(shù)據(jù)的兩種卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測準(zhǔn)確率均優(yōu)于使用時(shí)間序列作為輸入的LSTM 和邏輯回歸模型。圖像數(shù)據(jù)的優(yōu)勢在于圖片在生成時(shí)就實(shí)現(xiàn)了數(shù)據(jù)的隱式縮放,能夠?qū)⒐蓛r(jià)數(shù)據(jù)處理為同一維度,不需要提前對數(shù)據(jù)進(jìn)行特征縮放和歸一化。這表明本研究構(gòu)建的圖像化融合數(shù)據(jù)方法和預(yù)測模型在股指的趨勢預(yù)測中具有一定優(yōu)勢。
3.6.1 交易策略構(gòu)建
為更好的驗(yàn)證本研究構(gòu)建模型的有效性,建立合理的量化交易策略可以對模型效果進(jìn)行檢驗(yàn),選擇上文表現(xiàn)最優(yōu)的60 天圖像預(yù)測未來5 天股指漲跌的模型來進(jìn)行量化擇時(shí)交易策略的信號(hào)預(yù)測。構(gòu)建的交易策略如下:若預(yù)測未來5日股指會(huì)上漲,則交易信號(hào)設(shè)置為1。具體操作為:當(dāng)前無持倉時(shí)則在下一天買入,有持倉時(shí)繼續(xù)持有,第5 天賣出;若預(yù)測未來5日股指會(huì)下跌,則交易信號(hào)設(shè)置為0。具體操作為:當(dāng)前有持倉時(shí)則第2天賣出,當(dāng)前無持倉時(shí)保持空倉狀態(tài)。第6 天讀取新的交易信號(hào)。基準(zhǔn)策略收益選取滬深300指數(shù)的收益來進(jìn)行對比。
3.6.2 策略回測結(jié)果
本研究選取HS300 指數(shù)作為模擬的交易標(biāo)的,根據(jù)本研究所制定的CNN 交易策略進(jìn)行交易。回測使用的數(shù)據(jù)集區(qū)間為2020/4/1 到2020/12/31,同時(shí)由于本研究使用的數(shù)據(jù)為60天的圖片數(shù)據(jù),所以最終策略的回測周期為2020/7/1 到2020/12/31。回測結(jié)果如圖12 所示,風(fēng)險(xiǎn)評價(jià)指標(biāo)結(jié)果如表10所示:

圖12 CNN策略交易回測結(jié)果

表10 CNN策略與基準(zhǔn)策略的評價(jià)指標(biāo)結(jié)果
根據(jù)回測結(jié)果可以觀察到,在回測期間本研究構(gòu)建的CNN 策略能夠取得34.2%的超額收益,夏普比率可達(dá)2.4,同時(shí)相較于基準(zhǔn)買入并持有策略能夠降低波動(dòng)率和最大回撤。表明了通過本研究構(gòu)建的CNN 策略能夠通過圖片預(yù)測未來指數(shù)漲跌的趨勢所產(chǎn)生的交易信號(hào)產(chǎn)生盈利,在投資決策中可以為投資者提供建議。
本研究針對股價(jià)預(yù)測中存在的數(shù)據(jù)來源不足、數(shù)據(jù)形式單一以及預(yù)測精度不高等問題,以滬深300 指數(shù)為研究對象,并以圖像化的方式融合市場綜合情緒、技術(shù)指標(biāo)和股價(jià)數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,創(chuàng)新股價(jià)預(yù)測的輸入形式。最終融合3 類數(shù)據(jù)的3 層圖片預(yù)測模型使用60 天的數(shù)據(jù)對于未來5 天漲跌趨勢預(yù)測準(zhǔn)確度最高,相較于其他預(yù)測模型的精度有顯著提升。通過對實(shí)驗(yàn)結(jié)果和交易回測的分析,可得出以下結(jié)論:
(1)使用傳統(tǒng)的單一股價(jià)交易數(shù)據(jù)對于股價(jià)預(yù)測準(zhǔn)確率效果有限。通過加入本研究構(gòu)建的情緒指數(shù)或技術(shù)指標(biāo)增加數(shù)據(jù)來源和多樣性,能夠在大部分?jǐn)?shù)據(jù)集中有效提升預(yù)測準(zhǔn)確率。
(2)本研究提出的基于圖片數(shù)據(jù)的融合模型和預(yù)測方法,相較時(shí)序數(shù)據(jù)作為輸入的兩類對比模型預(yù)測效果更佳。圖像數(shù)據(jù)相較于傳統(tǒng)時(shí)序數(shù)據(jù),能夠直觀地展示數(shù)據(jù)間的非線形變化,在圖像生成時(shí)即可實(shí)現(xiàn)對數(shù)據(jù)的歸一化。
(3)通過本研究構(gòu)建的預(yù)測模型建立的投資策略,能夠在交易回測中取得超額收益,驗(yàn)證了該模型和方法的有效性,可在一定程度上輔助投資者進(jìn)行決策。
通過該模型和方法得到了一些研究結(jié)論,但仍存在一些不足需要解決:第一,本研究在多源數(shù)據(jù)的選擇上僅限于新聞數(shù)據(jù)、市場交易數(shù)據(jù)和技術(shù)指標(biāo)等,影響股價(jià)變化的還有其他眾多變量,在未來的研究中可以考慮引入更豐富的數(shù)據(jù)源。第二,基于圖像數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)模型在股價(jià)預(yù)測中存在其優(yōu)勢,但對于模型結(jié)構(gòu)和相應(yīng)的參數(shù)還可以進(jìn)一步設(shè)計(jì)和優(yōu)化,更好地提升預(yù)測精度。第三,本研究構(gòu)建的股指預(yù)測策略可為投資者提供參考,但在實(shí)際交易過程中存在交易的限制,仍需考量多方面影響因素才能更好地綜合決策。