999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

指數(shù)趨勢(shì)預(yù)測(cè)的BP-LSTM模型

2020-01-10 03:17:18孫存浩鄒雨軒
關(guān)鍵詞:特征模型

孫存浩,胡 兵, 鄒雨軒

(四川大學(xué)數(shù)學(xué)學(xué)院,成都 610064)

1 引 言

隨著計(jì)算機(jī)計(jì)算能力的提升,機(jī)器學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)在越來(lái)越多領(lǐng)域得到應(yīng)用.

神經(jīng)網(wǎng)絡(luò)主要包含BP(back propagation)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)等.其中,BP神經(jīng)網(wǎng)絡(luò)已被應(yīng)用于搜索引擎、推薦系統(tǒng)優(yōu)化等方面,CNN被應(yīng)用于圖像識(shí)別與目標(biāo)檢測(cè),而RNN在處理自然語(yǔ)言數(shù)據(jù)等時(shí)序信息時(shí)也有良好的表現(xiàn).

近年來(lái),神經(jīng)網(wǎng)絡(luò)在金融領(lǐng)域的運(yùn)用逐漸增加.越來(lái)越多的研究者開(kāi)始使用神經(jīng)網(wǎng)絡(luò)進(jìn)行金融數(shù)據(jù)處理與預(yù)測(cè).譚朵朵[1]使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了指數(shù)期權(quán)定價(jià),說(shuō)明BP神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)BS(black-scholes)公式有更好的適用性,但是沒(méi)有考慮期權(quán)價(jià)格數(shù)據(jù)的時(shí)序性.陳佳等[2-4]針對(duì)標(biāo)的價(jià)格的時(shí)序特征使用LSTM模型進(jìn)行了價(jià)格預(yù)測(cè),說(shuō)明LSTM模型在進(jìn)行金融時(shí)序預(yù)測(cè)時(shí)相比于傳統(tǒng)方法具有更高的預(yù)測(cè)精確度,但其僅使用歷史價(jià)格作為主要輸入特征,特征維度單一,不能全面地反映市場(chǎng)狀態(tài).文宇[5]提出了CNN-LSTM模型,對(duì)金融二級(jí)市場(chǎng)數(shù)據(jù)進(jìn)行分析,根據(jù)標(biāo)的的歷史價(jià)格和成交量信息擴(kuò)展了更多維度的特征,并用CNN模型進(jìn)行了空間上的特征提取,但是CNN模型在處理全局性的特征時(shí)具有一定的局限性.

考慮到股指數(shù)據(jù)高時(shí)序依賴、多組合特征的特點(diǎn),本文針對(duì)股指數(shù)據(jù)的時(shí)序特征提出了一種基于BP神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡(luò)的BP-LSTM模型.其中,BP神經(jīng)網(wǎng)絡(luò)主要負(fù)責(zé)對(duì)日內(nèi)全局特征進(jìn)行特征提取與特征組合,將輸入數(shù)據(jù)自適應(yīng)地組合成特征傳入LSTM神經(jīng)網(wǎng)絡(luò);LSTM神經(jīng)網(wǎng)絡(luò)提取特征中的時(shí)序特征,在處理具有強(qiáng)時(shí)序趨勢(shì)的數(shù)據(jù)方面有顯著的效果;該模型最后通過(guò)一層帶有sigmoid激活函數(shù)的BP神經(jīng)網(wǎng)絡(luò)將輸出結(jié)果非線性地映射到(0,1)區(qū)間內(nèi),由此對(duì)次日股票指數(shù)漲跌情況進(jìn)行預(yù)測(cè).實(shí)證分析的結(jié)果表明,BP-LSTM模型比邏輯回歸、梯度提升樹(shù)[6]等傳統(tǒng)預(yù)測(cè)方法及LSTM模型等神經(jīng)網(wǎng)絡(luò)方法具有更高預(yù)測(cè)準(zhǔn)確率.

2.1 人工神經(jīng)元與BP神經(jīng)網(wǎng)絡(luò)

下圖是一個(gè)從生物神經(jīng)元中得到啟發(fā)被設(shè)計(jì)出的M-P神經(jīng)元[7]的示意圖.

圖1 M-P神經(jīng)元Fig.1 M-P neural cell

神經(jīng)元正向傳播的過(guò)程為

(1)

神經(jīng)元接收n個(gè)輸入信號(hào)(這些輸入信號(hào)帶有一定的權(quán)重進(jìn)行傳遞),并將接收加權(quán)后的總輸入與該神經(jīng)元的閾值進(jìn)行對(duì)比,通過(guò)激活函數(shù)處理產(chǎn)生輸出,把多個(gè)這樣的神經(jīng)元按照一定的層次結(jié)構(gòu)連接起來(lái)就形成了神經(jīng)網(wǎng)絡(luò).神經(jīng)網(wǎng)絡(luò)理論上可以以任意精度自適應(yīng)非線性逼近連續(xù)函數(shù).1989年,Hecht-Nielsen[8]證明了單隱藏層的BP神經(jīng)網(wǎng)絡(luò)可以逼近閉區(qū)間內(nèi)的任意連續(xù)函數(shù),即萬(wàn)能逼近定理.

嚴(yán)格意義下的激活函數(shù)f應(yīng)為單位階躍函數(shù),它將我們的輸入映為“0”或“1”.然而,由于階躍函數(shù)非連續(xù),我們常用Sigmoid函數(shù)作為激活函數(shù),它將實(shí)數(shù)域內(nèi)的輸入映射到(0,1)區(qū)間內(nèi).

在訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)先輸入數(shù)據(jù)進(jìn)行正向預(yù)測(cè),再結(jié)合預(yù)測(cè)結(jié)果與實(shí)際結(jié)果求誤差并進(jìn)行逆?zhèn)鬟f,通過(guò)不斷地以梯度下降的方式調(diào)節(jié)神經(jīng)元中的權(quán)重與閾值,來(lái)提高預(yù)測(cè)的準(zhǔn)確率.

常見(jiàn)的BP神經(jīng)網(wǎng)絡(luò)是形如圖2所示的層級(jí)結(jié)構(gòu),每層神經(jīng)元都與下一層的神經(jīng)元完全互連,神經(jīng)元之間不存在同層、跨層連接的情況.在圖2中,輸入層第i個(gè)神經(jīng)元與隱層第h個(gè)神經(jīng)元間的權(quán)重與隱層第h個(gè)神經(jīng)元的閾值分別用vih與γh表示,隱層第h個(gè)神經(jīng)元與輸出層第j個(gè)神經(jīng)元間的權(quán)重與輸出層第j個(gè)神經(jīng)元的閾值分別用ωhj與θj表示,神經(jīng)網(wǎng)絡(luò)的“學(xué)習(xí)”過(guò)程就是根據(jù)輸入的訓(xùn)練數(shù)據(jù)調(diào)整神經(jīng)元之間的權(quán)重以及閾值.

圖2 單隱層BP神經(jīng)網(wǎng)絡(luò)

Fig.2 Back propagation neural network with one hidden layer

2.2 RNN與LSTM神經(jīng)網(wǎng)絡(luò)

RNN[9-10]是一種特殊的神經(jīng)網(wǎng)絡(luò),它的算法考慮了數(shù)據(jù)中存在的時(shí)序信息,具有時(shí)間維度,因而常于用被對(duì)具有時(shí)序規(guī)律的數(shù)據(jù)進(jìn)行建模.一個(gè)常見(jiàn)的RNN結(jié)構(gòu)如圖3所示:每個(gè)RNN cell會(huì)做定向循環(huán)把某些信息傳到下一個(gè)時(shí)間的隱藏層中,從而保留數(shù)據(jù)之間的時(shí)序關(guān)系,有效處理時(shí)序數(shù)據(jù).

然而,RNN在進(jìn)行循環(huán)的過(guò)程中,隨著循環(huán)次數(shù)的增大,反向傳播時(shí)往往會(huì)出現(xiàn)梯度極大(梯度爆炸)或者梯度極小(梯度消失)的情況,因而無(wú)法處理過(guò)長(zhǎng)的時(shí)序信息,否則會(huì)忘記較長(zhǎng)期的信息.

圖3 RNN網(wǎng)絡(luò)結(jié)構(gòu)和展開(kāi)結(jié)構(gòu)Fig.3 RNN network structure and expansion

在這種情況下,人們基于RNN的設(shè)計(jì)提出了LSTM神經(jīng)網(wǎng)絡(luò).相比于傳統(tǒng)的RNN,LSTN能夠處理更長(zhǎng)的信息序列.

LSTM神經(jīng)網(wǎng)絡(luò)是RNN的一種變體,最早由Hochreiter與Schmidhuber在1997年提出[11],設(shè)計(jì)初衷是解決神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)期依賴問(wèn)題.LSTM神經(jīng)網(wǎng)絡(luò)針對(duì)很多時(shí)序中間隔和延遲較長(zhǎng)的問(wèn)題(例如語(yǔ)音識(shí)別、智能問(wèn)答、機(jī)器翻譯、視頻分類及情感分析等)都有較好的表現(xiàn),此外它還可用于服務(wù)器響應(yīng)時(shí)間預(yù)測(cè)[12].LSTM神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)與RNN的結(jié)構(gòu)類似,如圖4所示.

圖4 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of LSTM network

3 BP-LSTM模型

我們將數(shù)據(jù)與特征傳入一個(gè)BP神經(jīng)網(wǎng)絡(luò),通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征重組合,然后將重組后的特征輸出到LSTM網(wǎng)絡(luò)中來(lái)提取數(shù)據(jù)在時(shí)間序列上的特征,最終通過(guò)有一個(gè)帶Sigmoid激活函數(shù)的神經(jīng)元進(jìn)行分類結(jié)果輸出.這就是BP-LSTM模型,見(jiàn)圖5.

3.1 模型構(gòu)建

3.1.1 數(shù)據(jù)收集與特征選擇 數(shù)據(jù)的收集與特征的選擇對(duì)一個(gè)模型的表現(xiàn)至關(guān)重要.合適的特征處理不僅可以提高模型的準(zhǔn)確率,還可以加快收斂速度.根據(jù)金融相關(guān)知識(shí),我們將數(shù)據(jù)特征分為兩類:(i)上證指數(shù)的交易數(shù)據(jù),主要是指數(shù)的開(kāi)、高、低、收與交易量等指標(biāo);(ii)相關(guān)的技術(shù)指標(biāo),基于統(tǒng)計(jì)學(xué)的研究,以數(shù)據(jù)來(lái)論證股票的趨向、買(mǎi)點(diǎn)賣(mài)點(diǎn),較好地量化市場(chǎng)狀態(tài).我們所用的指標(biāo)主要是基于歷史數(shù)據(jù)走勢(shì)計(jì)算出的KDJ、MACD、BIAS、AMA、MOM以及部分根據(jù)個(gè)人經(jīng)驗(yàn)設(shè)計(jì)的指標(biāo),共25維,按照時(shí)間順序有序傳入模型進(jìn)行預(yù)測(cè).

圖5 BP-LSTM模型結(jié)構(gòu)示意圖

對(duì)收集的數(shù)據(jù)及數(shù)值特征還進(jìn)行了如下的歸一化處理.考慮到部分特征非負(fù)的特點(diǎn),利用特征數(shù)據(jù)的最大值與最小值,將特征的值縮放到[0,1]區(qū)間:

(2)

需要注意的是,此處歸一化使用的最大值與最小值均為訓(xùn)練集中數(shù)據(jù).在測(cè)試集上進(jìn)行測(cè)試時(shí),也根據(jù)訓(xùn)練集數(shù)據(jù)進(jìn)行歸一化,有效防止數(shù)據(jù)泄露問(wèn)題(即在當(dāng)前時(shí)間可以獲得未來(lái)的數(shù)據(jù)).此類歸一化作用不僅可以增強(qiáng)模型在小方差數(shù)據(jù)集上的穩(wěn)定性,還可以維持稀疏特征中為0的樣本.實(shí)驗(yàn)結(jié)果也顯示帶有預(yù)先數(shù)據(jù)歸一化的模型預(yù)測(cè)表現(xiàn)較不帶預(yù)先歸一化的模型更好.

3.1.2 構(gòu)建用于特征處理的全連接神經(jīng)網(wǎng)絡(luò) 全連接神經(jīng)網(wǎng)絡(luò)可以全局接收傳入模型的n維的數(shù)據(jù)與特征,通過(guò)單層含有m個(gè)神經(jīng)元的全連接神經(jīng)網(wǎng)絡(luò)作用輸出m維數(shù)據(jù),以此來(lái)進(jìn)行特征提取與特征降維(當(dāng)m

3.1.3 構(gòu)建處理時(shí)序數(shù)據(jù)的長(zhǎng)短期記憶網(wǎng)絡(luò) 長(zhǎng)短期記憶網(wǎng)絡(luò)將全連接神經(jīng)網(wǎng)絡(luò)的輸出按日期順序傳入長(zhǎng)短期記憶網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,有效處理時(shí)間序列問(wèn)題與循環(huán)神經(jīng)網(wǎng)絡(luò)不同,長(zhǎng)短期記憶網(wǎng)絡(luò)可以學(xué)習(xí)更長(zhǎng)的時(shí)間序列數(shù)據(jù).我們分別對(duì)7天、15天的歷史數(shù)據(jù)集進(jìn)行了建模預(yù)測(cè),證明更長(zhǎng)的數(shù)據(jù)周期對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)模型的預(yù)測(cè)準(zhǔn)確度有較明顯的提升.我們主要使用的是帶64個(gè)cell的長(zhǎng)短期記憶網(wǎng)絡(luò)模型,即經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)處理會(huì)輸出64維的輸出特征.

3.1.4 構(gòu)建用于數(shù)據(jù)輸出的神經(jīng)元 數(shù)據(jù)輸出由單個(gè)神經(jīng)元負(fù)責(zé).它接收長(zhǎng)短期記憶網(wǎng)絡(luò)輸出的64維特征.將其與自帶權(quán)重及閾值進(jìn)行線性組合,通過(guò)Sigmoid激活函數(shù)將結(jié)果映射到(0,1)區(qū)間內(nèi)即為對(duì)下一日上證指數(shù)漲跌的預(yù)測(cè)結(jié)果.

3.2 模型訓(xùn)練與預(yù)測(cè)

本次實(shí)驗(yàn)所用數(shù)據(jù)為1991年3月4日至2018年12月27日上證指數(shù)價(jià)量數(shù)據(jù)(數(shù)據(jù)來(lái)源:Tushare).其中,前80%交易日的數(shù)據(jù)作為訓(xùn)練集與驗(yàn)證集,后20%交易日的數(shù)據(jù)作為測(cè)試集,以保證測(cè)試數(shù)據(jù)在天級(jí)別的連續(xù)性.經(jīng)統(tǒng)計(jì),訓(xùn)練集與測(cè)試集中正、反例分布均勻,沒(méi)有數(shù)據(jù)傾斜情況.我們選用的Adam優(yōu)化器[14]比傳統(tǒng)的基于梯度下降的SGD優(yōu)化器具有更快的收斂速度,并且可以根據(jù)數(shù)據(jù)分布自適應(yīng)調(diào)整學(xué)習(xí)率.模型選用的損失函數(shù)為:

(3)

為防止過(guò)擬合問(wèn)題,除了在長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出層加入Dropout層[15]之外,我們還在訓(xùn)練過(guò)程中加入了Early Stopping[16]處理,使模型僅保留在驗(yàn)證集上最佳表現(xiàn)的參數(shù).

3.3 模型分析與評(píng)估

圖6為BP-LSTM網(wǎng)絡(luò)的模型架構(gòu).

在特征工程環(huán)節(jié)我們選取25個(gè)維度的技術(shù)指標(biāo)反映市場(chǎng)狀態(tài),并用有25個(gè)隱藏層的BP神經(jīng)網(wǎng)絡(luò)對(duì)特征進(jìn)行自適應(yīng)組合,然后將原始輸入特征進(jìn)行組合后傳入LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)序信息學(xué)習(xí).LSTM神經(jīng)網(wǎng)絡(luò)作為RNN的變體對(duì)時(shí)序問(wèn)題同樣有好的學(xué)習(xí)能力,且多個(gè)門(mén)的設(shè)計(jì)有效解決了梯度消失與梯度爆炸的問(wèn)題,對(duì)學(xué)習(xí)長(zhǎng)時(shí)間序列數(shù)據(jù)有更好的作用.最后,我們通過(guò)單個(gè)含有Sigmoid激活函數(shù)的神經(jīng)元對(duì)數(shù)據(jù)進(jìn)行非線性輸出.BP-LSTM模型的訓(xùn)練同樣通過(guò)反向傳播完成,模型中的每個(gè)參數(shù)都可以通過(guò)反向傳播計(jì)算梯度進(jìn)行更新.為了防止訓(xùn)練停止在局部最小值點(diǎn),我們使用Adam優(yōu)化器代替SGD.這也是一個(gè)效果很好的優(yōu)化算法.

圖6 BP-LSTM模型架構(gòu)圖

模型評(píng)估使用的指標(biāo)是預(yù)測(cè)的準(zhǔn)確率與F1值,計(jì)算方式如表1所示.

表1 評(píng)估指標(biāo)

其中TP、TN、FP和FN可以通過(guò)圖7的混淆矩陣得到.

圖7 混淆矩陣Fig.7 Confusion matrix

3.4 數(shù)值實(shí)驗(yàn)

實(shí)驗(yàn)主要分為三類,分別為:在相同的數(shù)據(jù)集上構(gòu)建傳統(tǒng)的邏輯回歸模型和梯度決策樹(shù)模型,普通LSTM模型及帶有初始數(shù)據(jù)歸一化(表中以processing標(biāo)示)的BP-LSTM模型.各模型預(yù)測(cè)準(zhǔn)確率與F1值如表2所示.

表2 不同模型的預(yù)測(cè)結(jié)果

對(duì)比各項(xiàng)指標(biāo),基于較長(zhǎng)期數(shù)據(jù)的BP-LSTM模型在上證指數(shù)趨勢(shì)預(yù)測(cè)方面具有更高的準(zhǔn)確率.實(shí)驗(yàn)表明BP-LSTM模型是一種比較有效的方法.

4 總 結(jié)

本文提出了基于BP神經(jīng)網(wǎng)絡(luò)與LSTM神經(jīng)網(wǎng)絡(luò)的BP-LSTM模型,模型相比于傳統(tǒng)的機(jī)器學(xué)習(xí)模型及普通的LSTM神經(jīng)網(wǎng)絡(luò)具有更高的預(yù)測(cè)準(zhǔn)確率.當(dāng)然,鑒于本文所使用的數(shù)據(jù)及特征全部基于上證指數(shù)歷史價(jià)量數(shù)據(jù),缺乏更多維度的特征(如市場(chǎng)情緒、宏觀決策等),在后續(xù)研究中我們還可以收集互聯(lián)網(wǎng)上股民留言數(shù)據(jù),使用LSTM網(wǎng)絡(luò)進(jìn)行市場(chǎng)情緒分析,然后加入本文的特征數(shù)據(jù)集中,以得到準(zhǔn)確率更高的結(jié)果.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产精品久久久久久搜索| 99久视频| 国产成人超碰无码| 亚洲国产成人久久77| 内射人妻无套中出无码| 亚洲,国产,日韩,综合一区| 国产精品久久久久久久久kt| 国产精品视频久| 国产欧美成人不卡视频| 精品在线免费播放| 亚洲精品国产自在现线最新| 国产国产人成免费视频77777| 国产精品无码久久久久久| 久草国产在线观看| 伦精品一区二区三区视频| 免费在线不卡视频| 欧美综合区自拍亚洲综合天堂| 亚洲综合18p| 午夜色综合| 中国国产高清免费AV片| 91麻豆精品国产高清在线| 91小视频在线| 国产主播在线观看| 亚洲美女一级毛片| 成人久久精品一区二区三区 | 国产成人永久免费视频| 精品一区二区三区水蜜桃| 成人在线欧美| 国产导航在线| 国产成人区在线观看视频| 免费一级无码在线网站| 一本大道无码高清| 国产成人精品免费av| 国产精品亚洲欧美日韩久久| jizz在线观看| 中文字幕波多野不卡一区| 波多野吉衣一区二区三区av| 亚洲综合中文字幕国产精品欧美| 真实国产精品vr专区| 久久亚洲日本不卡一区二区| 国产乱子伦视频在线播放| 99热这里只有精品在线播放| 国产幂在线无码精品| 亚洲Av综合日韩精品久久久| 专干老肥熟女视频网站| 亚洲一级毛片在线观播放| 久久综合伊人77777| 国产免费a级片| 国产无码精品在线| 伊人蕉久影院| 无码精品国产dvd在线观看9久| 亚洲毛片一级带毛片基地| 日本中文字幕久久网站| 国产精品久久自在自线观看| 毛片手机在线看| 亚洲免费福利视频| 国产欧美视频综合二区| 欧美在线国产| 在线色综合| 日本a∨在线观看| 国产在线观看成人91| 色综合久久88色综合天天提莫| 韩国福利一区| 午夜福利无码一区二区| 久综合日韩| 99re视频在线| 影音先锋丝袜制服| 亚洲精品第五页| 国模视频一区二区| 亚洲精品无码不卡在线播放| 红杏AV在线无码| 亚洲精品无码不卡在线播放| 国模私拍一区二区| 亚洲视频免费在线| 亚洲第一色视频| 国产高清毛片| 一区二区日韩国产精久久| 国产免费精彩视频| 国产精品成人免费综合| 亚洲欧美国产高清va在线播放| 亚洲成a人片| 污污网站在线观看|