關(guān)鍵詞: abu 量化系統(tǒng) 股票預(yù)測 邏輯線性回歸 量化交易 機器學(xué)習(xí)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,許多傳統(tǒng)行業(yè)(包括傳統(tǒng)金融行業(yè))也在不斷地改變工作模式和流程,并且希望借助互聯(lián)網(wǎng)技術(shù)得到進(jìn)一步的發(fā)展。量化交易在20 世紀(jì)70 年代開始形成。1972 年,紐約證券交易所采用了交易訂單電子傳輸系統(tǒng)(Designated Order Turnaround,DOT),電子化交易得到了很多人的關(guān)注。截至目前,量化交易發(fā)展的速度越來越快,成為了股市交易當(dāng)中的主要發(fā)展力量。
與其他國家相比,我國量化交易起步時間較晚,但發(fā)展的速度極快。2004 年我國出現(xiàn)了第一只涉足量化領(lǐng)域的公募基金——光大保德信量化基金,在這之后經(jīng)過一段時間的發(fā)展,量化領(lǐng)域的基金在數(shù)量上也有了很大的提升。尤其是近年來由于疫情和國內(nèi)外局勢的影響,我國的經(jīng)濟發(fā)展?fàn)顩r十分低迷,今年各大企業(yè)都出現(xiàn)了股價下跌的情況,股市出現(xiàn)較大波動;傳統(tǒng)的投資策略已經(jīng)不適用現(xiàn)在的新形勢,經(jīng)濟低迷的背景下,投資者更希望能夠獲得穩(wěn)定的投資收入。隨著人工智能迅猛發(fā)展與金融衍生品不斷完善和算法投資受到的關(guān)注度持續(xù)升溫,量化投資策略在國內(nèi)得到了飛速發(fā)展。
1 相關(guān)研究
目前,國內(nèi)一部分研究員開始利用智能算法構(gòu)建交易量化策略,使量化程序具備一定的演變能力。張戈利用Copula 函數(shù)構(gòu)建趨勢交易策略[1]。張玉等人對傳統(tǒng)線性預(yù)測方法進(jìn)行了改進(jìn)和提升,提出了支持向量機預(yù)測的模型,此模型在很大程度上解決了傳統(tǒng)新型預(yù)測方法在預(yù)測非線性石油期貨價格這種隨機性強、影響因素復(fù)雜的價格變化上誤差大、準(zhǔn)確度低的問題。此模型受到許多學(xué)者的支持,實證研究上他們采用紐約商品交易所的石油期貨價格作為研究對象,其研究結(jié)果表明改進(jìn)后的新模型的預(yù)測精度大大提高[2]。除了在研究石油期貨價格上有新的進(jìn)展,支持向量機預(yù)測模型在其他領(lǐng)域也有很大的適用空間。張鳳廷對支持向量機預(yù)測模型進(jìn)行優(yōu)化,結(jié)合粒子群算法以及遺傳算法對股指期貨進(jìn)行回歸預(yù)測,實證結(jié)果顯示優(yōu)化后的支持向量機預(yù)測模型對股指期貨的回歸預(yù)測的預(yù)測效果具有很大的提升[3]。胡謙利用量化選股構(gòu)建量化投資,機器學(xué)習(xí)中的分類算法使用GBDT 和GBRank,分別基于模式識別和動量反轉(zhuǎn)效應(yīng)制定短期選股和長期選股的策略,實驗結(jié)果表明GBDT 排序算法具有良好的盈利性[4]。郭洪濤等人對量化投資中的聚類、貝葉斯判別及因子分析進(jìn)行應(yīng)用研究[5]。張文俊等人對樣本數(shù)據(jù)進(jìn)行了測試,結(jié)果表明:K-最近鄰具有較高的分類精度,支持向量機具有較高的命中率[6]。姚曈彤嘗試將AdaBoost 算法應(yīng)用于量化交易,并根據(jù)金融市場行情特點對算法加以改進(jìn)回測實證改進(jìn)算法的“集成效果”明顯,對趨勢行情和進(jìn)場時機的捕捉更加準(zhǔn)確,模型策略具備較強的盈利能力和普適性,算法改進(jìn)效果明顯[7]。肖晞暉研究多因子選股模型應(yīng)用于A股市場中的有效性,并利用機器學(xué)習(xí)算法提高模型選股的性能。發(fā)現(xiàn)機器學(xué)習(xí)Adaboost 算法能增強傳統(tǒng)多因子模型的選股效果[8]。劉夢瑩主要以相關(guān)基金數(shù)據(jù)為依托,最終實現(xiàn)投資分析與決策系統(tǒng)主要運用的技術(shù)為機器學(xué)習(xí),其與基金優(yōu)選相結(jié)合,用以模擬投資等諸多相關(guān)功能,為基金經(jīng)理決策提供了新思路[9]。楊世林選取聚寬量化投資平臺的A股數(shù)據(jù)作為樣本,通過回測平臺對一個基本的多因子策略進(jìn)行了歷史數(shù)據(jù)回測,并在平臺上進(jìn)行了模擬交易應(yīng)用研究及策略優(yōu)化調(diào)試,從而檢測平臺是否有或有多大的能力進(jìn)行量化投資[10]。賴添構(gòu)建了一個針對我國商品期貨市場的量化投資策略,并利用隨機森林的波動性分類對策略的入場條件進(jìn)行過濾,結(jié)果策略的表現(xiàn)取得極大的提高,驗證了隨機森林這一機器學(xué)習(xí)工具能在我國商品期貨市場中提高量化策略的有效性[11]。陳子寧通過在A 股市場復(fù)制因子并檢測其有效性,構(gòu)建了因子庫,為專業(yè)量化投資者提供參考;構(gòu)建基本面因子為主的量化策略,通過展示其在A 股市場的穩(wěn)健表現(xiàn),有助于傳播價值投資念[12]。
以上學(xué)者的研究為設(shè)計量化投資策略模型打造了堅實的理論基礎(chǔ)。鑒于此,文章在此背景下試圖探索監(jiān)督機器學(xué)習(xí)中的線性回歸方法在股市量化交易中的應(yīng)用。
2 理論和方法
在實務(wù)操作中,量化交易發(fā)揮著越來越大的作用,而在量化交易中很大一部分知識是機器學(xué)習(xí)和相關(guān)模型的設(shè)定。以下將對機器學(xué)習(xí)進(jìn)行簡要概述,并提出文中所述的交易模型。
機器學(xué)習(xí)(ML)是指通過把數(shù)學(xué)算法、統(tǒng)計模型和計算機系統(tǒng)相結(jié)合,以此企圖實現(xiàn)特定任務(wù)和目的。構(gòu)建機器學(xué)習(xí)算法示例數(shù)據(jù)的數(shù)學(xué)模型,稱為“訓(xùn)練數(shù)據(jù)”,用于在不顯式編程以執(zhí)行任務(wù)的情況下做出預(yù)測或決策。將一組數(shù)據(jù)一分為二集合,一個稱為訓(xùn)練集,一個稱為測試集。機器學(xué)習(xí)通過學(xué)習(xí)一組數(shù)據(jù),來將結(jié)果應(yīng)用于一組新的數(shù)據(jù)中。機器學(xué)習(xí)算法由于方法、輸入和輸出的數(shù)據(jù)類型以及它們要解決的任務(wù)或問題的類型方面的不同,可將機器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。
監(jiān)督學(xué)習(xí)首先被理解為對現(xiàn)有數(shù)據(jù)的一部分進(jìn)行分析(訓(xùn)練),然后是對新數(shù)據(jù)的預(yù)測。監(jiān)督學(xué)習(xí)算法包括分類和回歸。文章嘗試對有監(jiān)督機器學(xué)習(xí)中線性回歸在量化交易中的應(yīng)用進(jìn)行研究,下面將進(jìn)行詳細(xì)闡述。
半監(jiān)督學(xué)習(xí)是具有部分標(biāo)簽的,是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種方法。 可能你會先聚類一下,然后看看哪些標(biāo)簽都在哪些類里面,再來進(jìn)行劃分。
它能夠充分利用大量無標(biāo)簽樣本提高學(xué)習(xí)性能,避免了數(shù)據(jù)資源的浪費,同時解決了有標(biāo)簽樣本較少時監(jiān)督學(xué)習(xí)方法泛化能力不強和缺少樣本標(biāo)簽引導(dǎo)時無監(jiān)督學(xué)習(xí)方法不準(zhǔn)確的問題。由于能同時使用有標(biāo)簽和無標(biāo)簽樣本,半監(jiān)督學(xué)習(xí)已成為近年來機器學(xué)習(xí)領(lǐng)域的熱點研究方向,并被應(yīng)用于圖像識別、自然語言處理和生物數(shù)據(jù)分析等領(lǐng)域。
無監(jiān)督學(xué)習(xí)算法僅需要給定一組數(shù)據(jù),讓模型從中查找數(shù)據(jù)結(jié)構(gòu),挖掘信息,輸出聚類后的數(shù)據(jù)結(jié)果。這些數(shù)據(jù)是沒有被標(biāo)記、分類的,這部分?jǐn)?shù)據(jù)組成了無監(jiān)督學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù),目的是在此數(shù)據(jù)集中也找到相似之處,這稱為聚類分析。算法也正是在這些訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)的。
強化學(xué)習(xí)現(xiàn)成為機器學(xué)習(xí)的重要領(lǐng)域,它是要求強化學(xué)習(xí)系統(tǒng)RLS 依靠自身的經(jīng)歷在一個環(huán)境中進(jìn)行學(xué)習(xí),獲得知識并采取行動,從而最大化一些累積獎勵的概念。基于強化學(xué)習(xí)的一般性,許多其他學(xué)科,如博弈論、運籌學(xué)、群體智能、統(tǒng)計學(xué)和遺傳算法等都對其進(jìn)行了不同程度的研究。
3 仿真分析
此部分將進(jìn)行仿真實驗分析。首先,對文章中提及到的交易環(huán)境進(jìn)行相應(yīng)的假定,構(gòu)建一個價格模型。接著,在假定的價格模型中進(jìn)行股價預(yù)測,得出預(yù)測結(jié)果。
3.1 量化環(huán)境
在文章中,所使用的量化分析工具為Anaconda3,所用到的數(shù)據(jù)來源于abu 量化系統(tǒng)。為了簡化分析,假定影響股價的因素有:前天收盤的成交量、收盤價格和昨天的成交量、收盤價格。
文章通過前天收盤的成交量和價格、昨天收盤的成交量和價格、今天的成交量這3 個因素構(gòu)建出價格模型。
規(guī)則1:設(shè)定PC 為價格差,差值等于昨天收盤的價格減去前天收盤的價格;VC 為昨天成交量與前天成交量的量差。若PC 和VC 變動一致,則今天股價上漲,否則下跌。即股價上漲且成交量上漲,則今天價格上漲;股價下跌且成交量下跌,則今天價格上漲;成交量和股價變動方向不一致,則今天價格跌。
規(guī)則2:引入針對Sign 生成的噪音,噪音的生效的先決條件是今天的量是這三天最大的。如果量是這三天最大且是周五,下跌;如果量是這三天最大,如果是周一,上漲。
規(guī)則3:今天的漲跌幅度基礎(chǔ)是PC,今天的漲跌幅度變動因素是量比:今天的成交量/昨天的成交量和今天的成交量/前天的成交量的均值;如果量比×PC 沒超過10%,今天價格計算;如果漲跌幅度超過10%,限制上限,下限為10%。
規(guī)則4:將原始的股票數(shù)據(jù)價格列設(shè)置只保留前兩天的數(shù)據(jù),成交量和周幾列完全保留,價格列其他數(shù)據(jù)保留成其他。
以下通過選取釀酒行業(yè)總市值前六的公司股票進(jìn)行說明文章中的交易環(huán)境。選取的6 只股票分別為貴州茅臺600519、五糧液000858、洋河股份002304、瀘州老窖000568、青島啤酒600600、山西汾酒600809。在文章交易環(huán)境假定下股價走勢具體見圖1。
由圖1 股價走勢可知,在文章假定的交易環(huán)境下股價與真實股價是有很大出入的。例如:貴州茅臺在實際中的股價最高曾逼近800 元/股,而在文章中最高為600 元/股;山西汾酒在虛擬環(huán)境中跌破10 元/股,而在實際中未曾跌破20 元/股。這主要是在該研究的交易環(huán)境假定下,對于其他因素是未曾考慮的,而在實際中影響股價的因素是紛繁復(fù)雜的。在這里,暫不考慮與實際出入的情況,旨在于探索量化交易。
3.2 實驗仿真
在上述假定量化環(huán)境中,筆者認(rèn)為影響股價走勢的因素有前天收盤的成交量、收盤價格和昨天收盤的成交量、收盤價格。在模型中通過價格差、量差,以及價格差與成交量差乘積的正負(fù)號來構(gòu)建。同時因為不可能全部分析正確真實的特征因素,所以引入一些噪音特征:價格乘積、成交量乘積。
在量化環(huán)境中已經(jīng)假定相應(yīng)的特征:價格差PC;成交量差VC;漲跌Sign;周幾DW。構(gòu)建噪音特征:成交量乘積VN;價格乘積PN。將數(shù)據(jù)標(biāo)準(zhǔn)化。以此構(gòu)建特征模型函數(shù)。
首先拿出對應(yīng)的走勢數(shù)據(jù)(在前文中選取的釀酒行業(yè)市值前六的股票);通過走勢數(shù)據(jù)生成訓(xùn)練集特征。訓(xùn)練集數(shù)據(jù)如表1 所示。
結(jié)合表1 和文章中假定的交易規(guī)則可以得知,在2021 年12 月17—21 日這5 個交易日中只有兩天股價是上漲的,即2021 年12 月17 日、2021 年12 月19 日。
3.3 回歸預(yù)測股價
使用上述數(shù)據(jù)作為訓(xùn)練集,使用回歸訓(xùn)練數(shù)據(jù),則需要X 特征矩陣和連續(xù)值序列Y 得到的結(jié)果如下。
使用不在訓(xùn)練集中的股票酒鬼酒000799,生成所需要的測試集。運用sklearn 的線性回歸模塊預(yù)測股價漲跌幅度,預(yù)測結(jié)果具體見圖2。
從圖1 可知,在大部分的情況下酒鬼酒的預(yù)測漲跌幅度與股價實際漲跌幅度是大致相符合的。
針對訓(xùn)練集數(shù)據(jù)做交叉驗證,計算RMSE 數(shù)值作為預(yù)測準(zhǔn)確度量標(biāo)準(zhǔn),得到的RMSE=0.0254,說明觀測值與真實值之間的偏差較小,結(jié)果較為理想,即表明線性回歸的預(yù)測基本上是比較好的。
通過上述量化環(huán)境的假定研究與實證仿真分析,文章簡單應(yīng)用了機器學(xué)習(xí)中的sklearn 的部分知識。在特定的交易環(huán)境下,得到的仿真結(jié)果較為理想。這表明借助一定的工具進(jìn)行量化交易在一定程度上是有優(yōu)勢的。量化交易因其借助計算機快速強大的運算能力,從而在市場廣度分析上占有絕對優(yōu)勢;通過對歷史走勢進(jìn)行分析總結(jié)出規(guī)律,從而發(fā)現(xiàn)其中的概率形成獨特的概率優(yōu)勢,打造出良好的投機基礎(chǔ)。
4 結(jié)語
文章試圖通過構(gòu)建一個特定的交易環(huán)境,利用使用sklearn 的線性回歸模塊預(yù)測股價的漲跌幅度,發(fā)現(xiàn)投機優(yōu)勢。通過仿真實驗得出的結(jié)果也較為理想,一定程度上論證了量化交易在實際中的投機優(yōu)勢。然而在真實的市場中可以影響股價走勢的因素是紛繁復(fù)雜的,而且這些因素也是可以相關(guān),所以試圖通過該文中較為簡單的假定交易環(huán)境預(yù)測股價,發(fā)現(xiàn)投機機會幾乎是不可能的。