王國蘭
(山西工商學(xué)院 計(jì)算機(jī)信息工程學(xué)院,太原 030006)
如何對(duì)股票價(jià)格波動(dòng)做出科學(xué)預(yù)測(cè)是投資者普遍關(guān)心的問題[1]。人工智能作為解決人類面臨的復(fù)雜問題的一種方式,很多機(jī)構(gòu)和組織正在對(duì)人工智能進(jìn)行開發(fā)和研究。影響股票市場(chǎng)的因素很多,人類和機(jī)器都無法預(yù)見或處理。人工智能所能做的是觀察可量化的數(shù)據(jù)和以前無法量化的數(shù)據(jù)(例如語音、視頻和照片),幫助投資者清楚地了解某家企業(yè)的經(jīng)營情況、用戶對(duì)這家企業(yè)的看法,以及對(duì)這家企業(yè)未來財(cái)務(wù)的預(yù)測(cè)[2]。目前,市場(chǎng)上針對(duì)股票價(jià)格預(yù)測(cè)分析方法諸多,此次研究引入人工智能算法,以期為股票價(jià)格波動(dòng)規(guī)律預(yù)測(cè)提供借鑒。


圖1 時(shí)間區(qū)域最高漲幅示意圖
研究構(gòu)建了一個(gè)混淆矩陣,對(duì)所有樣本進(jìn)行預(yù)測(cè),選擇正類實(shí)例樣本,假設(shè)其所對(duì)應(yīng)的預(yù)測(cè)類別同為正類,可以表示為TP=TP+1;若為負(fù)則表示為FN=FN+1。假設(shè)任意實(shí)例樣本為負(fù)類,其預(yù)測(cè)類別為正類,那么FP=FP+1,當(dāng)同為負(fù)類,則TN=TN+1。如表1所示。預(yù)測(cè)模型性能評(píng)估采用敏感性、特異性及馬修斯相關(guān)系數(shù),用如下公式表示:
(1)
(2)
(3)
(4)

表1 混淆矩陣

圖2 深度學(xué)習(xí)模型示意圖
作為一種人工神經(jīng)網(wǎng)絡(luò)算法,深度學(xué)習(xí)旨在提升算法模型學(xué)習(xí)能力,在計(jì)算機(jī)科學(xué)領(lǐng)域、人工智能領(lǐng)域受到了廣泛的關(guān)注。能夠系統(tǒng)學(xué)習(xí)訓(xùn)練數(shù)據(jù)集非線性映射結(jié)構(gòu),有利于提取學(xué)習(xí)模型更深層次的數(shù)據(jù)及特征信息,促進(jìn)深度神經(jīng)網(wǎng)絡(luò)算法模型記憶力的提升[5]。與單層神經(jīng)網(wǎng)絡(luò)相比,多層神經(jīng)網(wǎng)絡(luò)獲得的特征表示更為明顯,可大幅度提升預(yù)測(cè)精度,不僅包含較多的層次數(shù)目及神經(jīng)元節(jié)點(diǎn),而且能夠增加連接權(quán)重系數(shù)。使得內(nèi)在信息表示更為豐富、神經(jīng)元與神經(jīng)元之間能夠建立連接。圖2為深度學(xué)習(xí)網(wǎng)絡(luò)模型示意圖,其隱含層神經(jīng)元節(jié)點(diǎn)激勵(lì)函數(shù)為非線性,可作為股票交易價(jià)格波動(dòng)規(guī)律抽取工具,常見的深度學(xué)習(xí)模型包括RBM模型、CNN模型等。
此次研究選擇的是RBM模型,其作為最小化理論模型,可以表示為
(5)
其中,RBM模型Energy(x,h)表示所含有能量,RBM可見層及隱藏層變量分別用x,h表示。同層RBM模型是相互獨(dú)立的,其能量函數(shù)為Energy(x,h)=-bTx-cTh-hTWx,W表示兩層間模型參數(shù),c、b分別表示隱含層、可見層。在RBM結(jié)構(gòu)深度學(xué)習(xí)算法中引入jaRBM工具包,其能夠用于對(duì)股票交易價(jià)格波動(dòng)規(guī)律預(yù)測(cè)問題的處理。
以往在對(duì)股票交易價(jià)格波動(dòng)規(guī)律進(jìn)行預(yù)測(cè)時(shí),需要參考正常交易日換手率、開盤收盤價(jià)、最低及最高價(jià)以及成交量等,這些指標(biāo)能夠反映出當(dāng)天股票交易價(jià)格走勢(shì)情況,但無法有效反映股票交易價(jià)格波動(dòng),因此需要利用所有單個(gè)交易日技術(shù)指標(biāo)作為特征信息,準(zhǔn)確判斷股票交易價(jià)格[6]。抽取100個(gè)交易日信息作為特征信息,從中獲得原始向量,用Xoriginal表示,交易日后第10個(gè)交易日,收盤價(jià)漲幅與投資者預(yù)期超出,說明其存在投資價(jià)值,其對(duì)應(yīng)類別用l=+1表示,若無投資價(jià)值,表示為l=-1。研究為了獲得表達(dá)能力更強(qiáng)的特征數(shù)值,采用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行處理,并建立預(yù)測(cè)精度模型,在jaRBM工具包作用下建立5層深度神經(jīng)網(wǎng)絡(luò),其中輸入層為表達(dá)向量對(duì)應(yīng)維數(shù)。
研究2006年至今上證指數(shù)與工商銀行股票數(shù)據(jù)10重交叉驗(yàn)證實(shí)驗(yàn),對(duì)投資者預(yù)期漲幅值做出不同設(shè)置,對(duì)比了經(jīng)過深度學(xué)習(xí)算法處理與未使用其處理的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),經(jīng)過深度學(xué)習(xí)算法處理獲得特征達(dá)到的預(yù)測(cè)效果更高,主要表現(xiàn)在上證指數(shù)數(shù)據(jù)方面,其Sen達(dá)到68.12%,未采用該算法處理特征Sen僅為63.38%。對(duì)比兩組MCC數(shù)據(jù),結(jié)果顯示分別為0.396、0.352。另外股票代碼601397也能夠反映出上述結(jié)論。

表2 深度學(xué)習(xí)算法特征處理10重交叉驗(yàn)證實(shí)驗(yàn)結(jié)果分析

圖3 最優(yōu)分離直線示意圖
作為一種統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法。支持向量機(jī)算法包括以下3種類型:
(1)線性可分支持向量機(jī),其主要用于對(duì)可分二類分類預(yù)測(cè)問題的解決,力求在訓(xùn)練數(shù)據(jù)集合空間尋找一種最優(yōu)分離超平面,實(shí)現(xiàn)兩類分類間隔最大化[7]。正樣本點(diǎn)用實(shí)心點(diǎn)表示,負(fù)樣本點(diǎn)用空心點(diǎn)表示,兩類數(shù)據(jù)分開最優(yōu)分離直線采用H直線表示,H1、H2經(jīng)過正負(fù)樣本點(diǎn)集合實(shí)現(xiàn)最優(yōu)分離并平行于分類邊界直線。分類間隔主要指的是H1、H2之間距離。需要注意的是經(jīng)過規(guī)范化約束后,所有正負(fù)樣本應(yīng)滿足|wx+b|≥1。

(3)非線性支持向量機(jī)與核函數(shù)。非線性問題在股票價(jià)格波動(dòng)實(shí)際問題處理中尤為常見,其非線性變換主要依據(jù)的是核函數(shù)技巧,經(jīng)過轉(zhuǎn)化使其成為一個(gè)線性學(xué)習(xí)問題,然后再建立具有較高精度的預(yù)測(cè)模型[8]。非線性數(shù)據(jù)處于低維特征空間在高維特征空間投影后會(huì)發(fā)生線性化改變,因此,可以利用核函數(shù)技巧將其轉(zhuǎn)換到高維線性特征空間,此時(shí)輸入特征空間超曲面與超平面模型相對(duì)。那么利用線性支持向量機(jī)便能夠完成對(duì)非線性分類問題的最優(yōu)分割。

AdaBoost提升算法是一種極具代表性的提升算法,其融合了支持向量機(jī)算法與BP人工神經(jīng)網(wǎng)絡(luò)算法,并予以加權(quán)處理,建立了具有極強(qiáng)學(xué)習(xí)能力的預(yù)測(cè)模型。可以采用支持向量機(jī)算法替代奇數(shù)次弱分類算法,BP人工神經(jīng)網(wǎng)絡(luò)代替偶數(shù)次訓(xùn)練弱分類算法,最終建立融合的預(yù)測(cè)模型[11]。
采用支持向量機(jī)與BP神經(jīng)網(wǎng)絡(luò)算法,可以發(fā)現(xiàn)888888在MCC評(píng)價(jià)指標(biāo)分別為0.408、0.405,與最鄰近分類算法相比高于1.7%、1.6%。從601397股票數(shù)據(jù)看,兩種算法MCC指標(biāo)分別為0.477、0.481,高出最近鄰分類算法0.5、0.8個(gè)百分比,提示該方法適用于股票交易價(jià)格波動(dòng)規(guī)律預(yù)測(cè)。具體如表3所示。與其他3個(gè)分類算法模型相比,融合支持向量機(jī)及BP神經(jīng)網(wǎng)絡(luò)算法更為精準(zhǔn),尤其是在MCC指標(biāo)方面,AdaBoost提升算法明顯高出近1個(gè)百分點(diǎn),可以發(fā)現(xiàn)該方法能夠促進(jìn)股票交易價(jià)格波動(dòng)規(guī)律預(yù)測(cè)精準(zhǔn)性提升。

表3 不同算法應(yīng)用于股票數(shù)據(jù)10重交叉驗(yàn)證實(shí)驗(yàn)結(jié)果分析
股票市場(chǎng)的發(fā)展產(chǎn)生了海量股票交易信息,掌握股票價(jià)格波動(dòng)規(guī)律對(duì)于提升股票投資者受益率有著重要的參考意義與實(shí)際幫助。人工智能算法新技術(shù)指標(biāo)的出現(xiàn)更是提升了股票價(jià)格波動(dòng)預(yù)測(cè)精度,值得深入探討。