李嘉浩
(貴州大學(xué)經(jīng)濟(jì)學(xué)院,貴陽(yáng) 550025)
股市的變化與國(guó)家市場(chǎng)發(fā)展動(dòng)態(tài)有著千絲萬(wàn)縷的聯(lián)系,股票市場(chǎng)對(duì)國(guó)民經(jīng)濟(jì)不斷增長(zhǎng)有著非常重要的影響。未來(lái)股價(jià)的行情走勢(shì)一直是投資者們關(guān)注的核心問(wèn)題,正確的股價(jià)走勢(shì)判斷不僅對(duì)投資者做出正確的投資決策有利,而且對(duì)促進(jìn)資源有效配置,增強(qiáng)市場(chǎng)的有效性具有重要意義。本文通過(guò)借鑒國(guó)內(nèi)外學(xué)者在全國(guó)層面對(duì)證券投資發(fā)展的研究經(jīng)驗(yàn),結(jié)合股票一些基本指標(biāo)對(duì)我國(guó)股票市場(chǎng)行情進(jìn)行預(yù)測(cè)與分析。選取日收盤價(jià)作為股票行情預(yù)測(cè)的指標(biāo),對(duì)我國(guó)的股票發(fā)展趨勢(shì)進(jìn)行測(cè)度,通過(guò)現(xiàn)狀分析和行情測(cè)度結(jié)果對(duì)我國(guó)的股票發(fā)展趨勢(shì)提出解決對(duì)策(陳芳芳[1],2017)。
劉慶霞[2](2017)驗(yàn)證了基于主成分分析改進(jìn)后的BP 網(wǎng)絡(luò)通過(guò)學(xué)習(xí)和訓(xùn)練可以很好適應(yīng)股票數(shù)據(jù)技術(shù),具有較好的預(yù)測(cè)效果。沈金榕[3](2017)以財(cái)務(wù)指標(biāo)作為分析對(duì)象,利用改進(jìn)的CART 決策樹(shù)與逐步回歸進(jìn)行測(cè)度,得出基于決策樹(shù)的逐步回歸模型可以減少影響目標(biāo)變量的財(cái)務(wù)指標(biāo),提高模型預(yù)測(cè)準(zhǔn)確性。李丹[4](2018)從視角角度研究股票預(yù)測(cè)問(wèn)題并進(jìn)行實(shí)證分析,分析了SVFD-BPNN、MVFDIF-BPNN、MVFDIL-BPNN的股票預(yù)測(cè)最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)及預(yù)測(cè)結(jié)果、實(shí)驗(yàn)結(jié)果。胡迪、黃巍[5](2019)基于SVM 的組合算法和聚類股票預(yù)測(cè)算法近鄰傳播聚類對(duì)股票相關(guān)性進(jìn)行實(shí)證分析,驗(yàn)證了AP 算法和其他算法結(jié)合提高了股票預(yù)測(cè)的準(zhǔn)確率。張晶華、甘宇健[6](2019)提出,深度學(xué)習(xí)支持向量機(jī)對(duì)模型參數(shù)進(jìn)行優(yōu)化配置,利用該模型進(jìn)行仿真實(shí)驗(yàn),結(jié)果得出深度學(xué)習(xí)SVM 比現(xiàn)有的SVM 在預(yù)測(cè)精確度方面有明顯改善。國(guó)外關(guān)于股票預(yù)測(cè)的研究更甚于國(guó)內(nèi)。Charles Dow[7](1902)書寫了有關(guān)市場(chǎng)觀的評(píng)論。Sam Nelson 在他市場(chǎng)觀的評(píng)論的基礎(chǔ)上將他的觀點(diǎn)進(jìn)行發(fā)展,最終形成了道氏理論。W·D·Gann[8]研究了時(shí)間的重要性,提出了“價(jià)格- 時(shí)間等價(jià)”概念。Frank Rosenblatt(1957)發(fā)明了稱為感知器的線性分類器。Corinna Cortes和Vapnik 于在20 世紀(jì)90年代中期提出了基于統(tǒng)計(jì)學(xué)習(xí)的在面對(duì)非線性、小樣本、高維模式識(shí)別問(wèn)題上具有許多獨(dú)特優(yōu)勢(shì)的SVM。Lerner 和Vapnik[9](1963)介紹了最大區(qū)間分類算法。軟間隔分類器由Cortes 和Vapnik(1995)引入,在同一年,SVM 被拓展到回歸模型上。Gavrishchaka[10]等(2006年)研究了股市的波動(dòng)性和風(fēng)險(xiǎn),與現(xiàn)有主流模型相比,利用SVM 構(gòu)建波動(dòng)性評(píng)價(jià)框架可以有效處理高維數(shù)據(jù),可以對(duì)波動(dòng)性進(jìn)行更長(zhǎng)期、更大規(guī)模的評(píng)價(jià),效果優(yōu)于其他主流評(píng)價(jià)模型。Funatsu 和Kaneko[11](2013)提出基于時(shí)間序列的在線支持向量機(jī)來(lái)研究自適應(yīng)軟件感知預(yù)測(cè)模型。此外還研究了窗口大小和適當(dāng)?shù)某瑓?shù)設(shè)置,得到了回歸可靠性預(yù)測(cè)。
綜上所述,雖已對(duì)股市預(yù)測(cè)工作取得了很大進(jìn)展,但該理論的深度和適用范圍還有很多地方可以探索,而目前不僅是國(guó)民經(jīng)濟(jì)發(fā)展的重要時(shí)期,也是發(fā)展我國(guó)證券投資變化的重要時(shí)期。因此,如何在上述國(guó)內(nèi)外學(xué)者提出的先進(jìn)理論的基礎(chǔ)上,尋找一種能有效改進(jìn)目前這種缺陷的方法便成為關(guān)鍵。基于以上考慮,本文選擇具有較強(qiáng)泛化能力的SVM 中的SVC 作為預(yù)測(cè)股票價(jià)格的核心模型。
支持向量機(jī)(SVM)是Vapnic 等人于1995年提出的基于VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論的機(jī)器學(xué)習(xí)方法,是一種廣義線性分類器,它能根據(jù)有監(jiān)督學(xué)習(xí)的方法對(duì)數(shù)據(jù)信息進(jìn)行分類,同時(shí)還可以通過(guò)核方法研究進(jìn)行分析非線性分類,突破了基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化理論的傳統(tǒng)機(jī)器學(xué)習(xí)中很容易出現(xiàn)的小規(guī)模數(shù)據(jù)過(guò)度擬合現(xiàn)象。
1.支持向量機(jī)的核函數(shù)介紹[12,13]
在特征空間中,我們希望樣本線性可分的。但如果在不知道這些特征映射的情況下,我們自己無(wú)法明確知道哪個(gè)核函數(shù)是恰當(dāng)?shù)摹R虼耍撕瘮?shù)的選擇是否正確對(duì)于支持向量機(jī)模型的優(yōu)劣顯得非常重要。以下是幾個(gè)常見(jiàn)的核函數(shù)。
線性核函數(shù)(linear)是最簡(jiǎn)單的一種核函數(shù),計(jì)算方法為:K(Xi,Xj)= XitXj。多項(xiàng)式核函數(shù)(poly)是一種非標(biāo)準(zhǔn)的核函數(shù),很適用于正交歸一化后的數(shù)據(jù)集,計(jì)算方法為:K(Xi,Xj)=(XitXj)d,d≥1。高斯核函數(shù)(rbf),在處理數(shù)據(jù)的噪音方面有較好的抗干擾能力。計(jì)算方法為:
2.支持向量機(jī)的參數(shù)介紹
SVM 參數(shù)的正確選擇對(duì)分類管理效果有著很大影響。一般來(lái)說(shuō),需要進(jìn)行優(yōu)化的參數(shù)分別是C 懲罰參數(shù)和σ 內(nèi)核參數(shù)。但就目前來(lái)說(shuō),還沒(méi)有一個(gè)很好的理論來(lái)進(jìn)行指導(dǎo)參數(shù)的優(yōu)化,常用的方法有實(shí)驗(yàn)、網(wǎng)格、梯度下降法等。本文采用網(wǎng)格法對(duì)C 進(jìn)行管理優(yōu)化,簡(jiǎn)化了參數(shù)選擇的操作活動(dòng)過(guò)程,提高了基于所選參數(shù)的SVM 的分類工作性能。
在本文股票預(yù)測(cè)的實(shí)證分析中,考慮股票市場(chǎng)是非常不穩(wěn)定的動(dòng)態(tài)過(guò)程,其未來(lái)發(fā)展走勢(shì)還受政府宏觀調(diào)控的影響,且2020年疫情影響,醫(yī)藥方面可能產(chǎn)生影響較大,因此在數(shù)據(jù)選擇時(shí)選取了受影響較大的恒瑞醫(yī)藥和價(jià)格運(yùn)行穩(wěn)定的寶鋼股份作為研究對(duì)象,意在將兩類股票預(yù)測(cè)結(jié)果做對(duì)比驗(yàn)證SVM 的可信度。
本文選取寶鋼股份、恒瑞醫(yī)藥2018.01.01 到2020.03.01 數(shù)據(jù),共計(jì)523個(gè)數(shù)據(jù)。同時(shí),為了測(cè)試python的數(shù)據(jù)訓(xùn)練,本文對(duì)寶鋼股份和恒瑞醫(yī)藥建立了一個(gè)大樣本和一個(gè)小樣本數(shù)據(jù)訓(xùn)練集,大樣本數(shù)據(jù)采用全樣本數(shù)據(jù),小樣本數(shù)據(jù)采用2019.06.01 至2020.01.01 的數(shù)據(jù),數(shù)據(jù)來(lái)源于python 爬蟲在線抓取。
用python 在線抓取兩支股票2018.01.01 到2020.03.01歷史數(shù)據(jù),對(duì)兩支股票的數(shù)據(jù)初步整理。具體實(shí)施:用value(今天的收盤價(jià)減去昨天的收盤價(jià))表示漲跌,差值大于0 為上漲賦值為1,差值小于0 為下跌賦值為0。
進(jìn)一步標(biāo)簽分類,取數(shù)據(jù)前80%為訓(xùn)練集,數(shù)據(jù)后20%為測(cè)試集,然后對(duì)樣本數(shù)據(jù)進(jìn)行規(guī)范化處理。開(kāi)始使用核函數(shù)進(jìn)行周期預(yù)測(cè),每次向前預(yù)測(cè)一個(gè)值,分別選取'ploy','linear','rbf' 對(duì)預(yù)測(cè)值進(jìn)行分類,最后計(jì)算測(cè)試集中的正確率,得出輸出value 實(shí)際值和預(yù)測(cè)值的結(jié)果如下:
大樣本:'ploy':寶鋼股份Correct=91.43%,恒瑞醫(yī)藥Correct=93.33%;'linear':寶鋼股份Correct=96.19%,恒瑞醫(yī)藥Correct=96.19%;'rbf':寶鋼股份Correct=90.48%,恒瑞醫(yī)藥Correct=93.33%。
小樣本:'ploy':寶鋼股份Correct=93.10%,恒瑞醫(yī)藥Correct=96.55%;'linear':寶鋼股份Correct=93.10%,恒瑞醫(yī)藥Correct=93.10%;'rbf':寶鋼股份Correct=89.66%,恒瑞醫(yī)藥Correct=96.55%。
以上是基于參數(shù)在默認(rèn)情況下進(jìn)行的預(yù)測(cè)分析,由此可得,在三種核函數(shù)中,無(wú)論是大樣本還是小樣本,準(zhǔn)確率都在90%左右,可見(jiàn)SVM 預(yù)測(cè)效果是理想的。但由于SVM 參數(shù)對(duì)模型預(yù)測(cè)效果有重要影響,且rbf精準(zhǔn)度相對(duì)較低,因此本文選擇大樣本的rbf 進(jìn)行參數(shù)尋優(yōu):
SVM 參數(shù)選優(yōu)得C=1 000 000.0,于是本文將rbf中的C 參數(shù)由默認(rèn)值1.0 改為最優(yōu)參數(shù)1 000 000.0,得出準(zhǔn)確率為Correct=98.10%,比之前90.48%提高了許多,可見(jiàn)修改了參數(shù)之后對(duì)預(yù)測(cè)效果有正向效果。打印預(yù)測(cè)成績(jī)混淆矩陣得:

混淆矩陣是誤差矩陣,我們可以使用混淆矩陣來(lái)評(píng)估有監(jiān)督學(xué)習(xí)算法的性能。在混淆矩陣中,二、四象限出現(xiàn)的值越多越好;反之,在一、三象限出現(xiàn)的值越少越好。由上述輸出結(jié)果可知,在二、四象限出現(xiàn)的值分別為38、42,相較16、9 大很多,可見(jiàn)該模型的預(yù)測(cè)效果是可觀的。
由于混淆矩陣的統(tǒng)計(jì)數(shù)只是個(gè)數(shù),面對(duì)大量的數(shù)據(jù),僅僅用數(shù)字很難衡量其模型優(yōu)劣。因此,在基本統(tǒng)計(jì)結(jié)果的基礎(chǔ)上又延伸了幾個(gè)指標(biāo):準(zhǔn)確度,指模型預(yù)測(cè)比上模型預(yù)測(cè)類別是Positive 的所有結(jié)果;敏感度,指模型預(yù)測(cè)比上實(shí)際類別是Positive 的所有結(jié)果;F1 Score,是綜合了精準(zhǔn)率與召回率兩者的產(chǎn)出結(jié)果。它的值范圍從0 到1。1 表示最佳預(yù)測(cè)模型,0 表示最差預(yù)測(cè)模型;Support 指原數(shù)據(jù)類別個(gè)數(shù)。
打印預(yù)測(cè)成績(jī)報(bào)告得:
由表1 可得各指標(biāo)數(shù)據(jù)都大于70%以上,距離1 的位置較近,可得出該模型的預(yù)測(cè)效果是理想的。對(duì)恒瑞醫(yī)藥進(jìn)行同樣操作得出其模型預(yù)測(cè)效果也是理想的。

表1 打印預(yù)測(cè)成績(jī)報(bào)告
本文將SVM 應(yīng)用于我國(guó)股票市場(chǎng)的預(yù)測(cè)。利用SVM 對(duì)核函數(shù)進(jìn)行選擇和參數(shù)優(yōu)化,進(jìn)而找出測(cè)度股票走勢(shì)的最優(yōu)模型。主要結(jié)論如下:
1.基于SVM 模型的收斂速度快、精度高,SVM 模型可以很好預(yù)測(cè)股票數(shù)據(jù),使預(yù)測(cè)結(jié)果非常接近實(shí)際值。
2.核函數(shù)選擇和核參數(shù)選取對(duì)SVM 的學(xué)習(xí)和預(yù)測(cè)性能有著非常重要的影響。不同的核函數(shù)和核參數(shù)直接關(guān)系到運(yùn)算結(jié)果的準(zhǔn)確性。
3. SVM 對(duì)股票價(jià)格的預(yù)測(cè)具有良好的準(zhǔn)確性,為廣大投資者提供了一個(gè)很有意義的分析工具。
股票價(jià)格波動(dòng)頻繁,且很多時(shí)候波動(dòng)相當(dāng)劇烈。要想讓股市更穩(wěn)定地發(fā)展,就必須降低投資者和籌資者的不確定性,使股票預(yù)測(cè)能夠在投資者與籌資者之間更靈活地運(yùn)用,以達(dá)到最優(yōu)資源配置市場(chǎng)。本文建議從以下幾個(gè)方面來(lái)粗略地完善我國(guó)股票市場(chǎng),以減少股票市場(chǎng)的不確定性。
第一,通過(guò)廣泛的社會(huì)調(diào)研與討論,確定我國(guó)股票市場(chǎng)經(jīng)濟(jì)發(fā)展的階段性目標(biāo)。第二,盡快構(gòu)建股市質(zhì)量動(dòng)態(tài)監(jiān)測(cè)體系,以期實(shí)現(xiàn)達(dá)到及時(shí)準(zhǔn)確地評(píng)估和掌握股市質(zhì)量。第三,在上述基礎(chǔ)上,監(jiān)管部門應(yīng)關(guān)注市場(chǎng)質(zhì)量的變化,以期達(dá)到股市的穩(wěn)定,降低投資者和籌資者的風(fēng)險(xiǎn)性。
中國(guó)股市是一個(gè)政策性市場(chǎng),一旦有壞消息或好消息泄露出去,將對(duì)股市造成很大沖擊。此外,一些經(jīng)銷商和機(jī)構(gòu)也在經(jīng)營(yíng)著股市,因此很難準(zhǔn)確預(yù)測(cè)股票價(jià)格。所以,我們?cè)趯?shí)際操作過(guò)程中應(yīng)該參考一些政策指標(biāo)或信息,然后根據(jù)實(shí)際預(yù)測(cè)的趨勢(shì)進(jìn)行相關(guān)投資,只是單一的用SVM 預(yù)測(cè)股票走勢(shì),還需要進(jìn)一步研究和改進(jìn)。本文中進(jìn)行股票預(yù)測(cè)選定的是寶鋼股份和恒瑞醫(yī)藥。但如果選擇波動(dòng)性更強(qiáng)的股票,SVM 的預(yù)測(cè)效果是否還有優(yōu)勢(shì)?能否進(jìn)一步研究和探索選股?9 維輸入特征空間是否包括了模型訓(xùn)練和預(yù)測(cè)所需要的全部信息?如果沒(méi)有將全部信息包含進(jìn)去將大大降低預(yù)測(cè)效果和精度,因此如何找到最具代表性的預(yù)測(cè)信息屬性還需要進(jìn)一步研究。但總體來(lái)說(shuō),股市預(yù)測(cè)雖然具有很大的挑戰(zhàn)性,但其現(xiàn)實(shí)意義是顯而易見(jiàn)的。