


[摘 要]在經濟全球化過程中,進入金融行業的投資者越來越多,其中股票投資愈來愈受到大眾的關注。股票趨勢的預測受到眾多投資者的關注,正確的預測有助于減少投資風險。文章運用時間序列數據與logistic回歸模型相結合的方法,對貴陽銀行的歷史股票價格趨勢進行實例分析,結合混淆矩陣與AUC評價方法進行模型評估,從而將其合理地用于投資方向與投資戰略。
[關鍵詞]logistic回歸模型;AUC評價;股票預測;貴陽銀行
doi:10.3969/j.issn.1673 - 0194.2023.04.050
[中圖分類號]F832.5;F832.33 [文獻標識碼]A [文章編號]1673-0194(2023)04-0156-03
0" " "引 言
在股票預測研究過程中,我們關注的是股票是否漲,而不是漲了多少,那么可以根據這一特征,選取研究對象,即股票價格是否漲。在這個研究過程中,時間序列分析方法是非常重要的,時間序列分析是基于一個事物動態數據進而揭示這個事物動態規律和結構,它可以通過降低外部因素對預測事物的影響,讓預測變得簡單[1]。雖然投資者在投資過程中收益率波動比較大,但是仍然可以利用一些方法獲得在承擔每單位風險下的較高超額收益[2]。因此,探究投資預測的方法尤其重要。但是,單一的時間序列模型不符合千變萬化的實際情況,需要融入其他的方法與技術[3]。結合技術指標和邏輯回歸模型來提高股價趨勢預測精度是有效的方法[4]。利用分布式兩步子抽樣算法,采用數值模擬與真實數據預測,得到參數估計量具有一致性和漸進正態性[5]。基于組合LASSO-logistic,研究發現影響股票預期收益的變量并不是一成不變的,而是動態變化的[6]。本文在其他學者的研究基礎上,研究股價時間序列數據與logistic回歸模型的聯系,并找出更好的預測股票趨勢的方法。
現實生活中,很多關系并不是簡單的線性關系,有的變量并不是連續變量,是分類變量。股票投資中,很多投資者不關心股票具體的漲跌數值而更在意股票的趨勢。logistic回歸研究的是二分類變量的分類問題,這與我們關注的股票漲跌問題一致。因此,本文將時間序列與logistic回歸模型聯系起來。對于這種情況,適合建立一個logistic回歸預測模型,利用R軟件進行數據處理與建模,選取合適的logistic回歸模型對未來交易日股票漲跌進行預測與分析。
1" " "數據來源及數據處理
利用股票每個交易日的漲跌情況(updown)作為研究的因變量。因為股票的漲跌與歷史交易數據存在一定的相關性,本文將當日收盤價(close)作為時間序列的觀察對象。選取當日開盤價時間序列(open)、當日最高價時間序列(high)、當日最低價時間序列(low)、當日開盤價一階滯后時間序列(openlag1)、當日最高價一階滯后時間序列(highlag1)、當日最低價一階滯后時間序列(lowlag1)、當日收盤價一階滯后時間序列(closelag1)這7個變量作為自變量。當日交易收盤價大于前一交易日收盤價記為漲,記響應變量Y=up;當日交易收盤價小于前一交易日收盤價記為跌,記響應變量Y=down。將up記為1,down記為0。樣本數據來源于choice金融終端。
2" " "模型構建及其趨勢預測精度評價方法
2.1" "logistic回歸模型的構建步驟
2.2" "趨勢預測精度評價方法
二分類混淆矩陣是真實值與預測值的交叉表(見表1),可以對兩分類結果進行評估。
另外,總體準確率是指預測準確數量占總樣本的比例。
總體準確率=(5)
總體正確率可以評估預測準確率,但是存在缺陷,它依賴于主觀確定的閾值(本文閾值為0.5),因此我們引入AUC評價方法(AUC表示ROC曲線下與坐標軸圍成的面積),利用受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)可以計算出AUC值,并且可以確定最優的閾值c。其中,
靈敏度=TP/(TP+FN)(6)
特異度=TN/(TN+FP)(7)
ROC曲線下的面積就是AUC值,AUC=P(X1<X2),表示來自不同類的兩個預測正確排序的概率。AUC值越接近1,則表明預測準確率越高。本文利用R軟件程序包pROC繪制ROC曲線。
3" " "實證分析
本文實證研究選用貴陽銀行每個交易日的漲跌情況(updown)作為研究的因變量。選取樣本數據后,對數據進行預處理。在選取數據長度問題上需謹慎,數據長度太長,則過去噪聲影響太大,不利于建立模型。因此,本文選取2022年1月4日至2022年9月30日的每個交易日的數據作為研究對象,共計182組數據,其中,前70%的交易日數據作為訓練集(128個),后30%的交易日數據作為測試集數據(54個)用于預測。股票的漲跌與歷史交易數據存在一定的相關性,則選取歷史交易情況作為自變量。
3.1" "相關性分析
當我們把logistic回歸模型應用在時間序列二分類預測時,它可以包含滯后性、趨勢性和季節性等信息。過去交易日數據與股票漲跌密切相關,本文對相關變量進行相關性檢驗,結果如圖1所示。可以看出,當日收盤價與當日其他交易數據以及滯后一期交易數據存在較大的相關性,相關系數平均值高達0.97,有理由推測出當日股價漲跌趨勢與歷史數據相關。
3.2" "模型構建
代入模型(4),利用貴陽銀行2022年1月4日至2022年9月30日前70%的交易數據進行Logistic回歸模型,結合極大似然估計和牛頓迭代法得到模型的參數估計β=(β0,β1,β2,…,β7)T及相關統計量,利用逐步回歸法,將不顯著的變量剔除,本文選取顯著性水平α=0.1,最終得到回歸結果(見表2)。
因此,我們可以得出logistic回歸模型:
logit(π)=14.335+90.979X2+40.911X3-18.284X5+28.272X6-113.771X7+ε(8)
從logistic回歸模型可以看出,股票的漲跌情況與high、low、lowlag1呈正向關系,與closelag1、highlag1呈負向關系。
3.3" "模型檢驗與預測
logistic回歸分析中,我們一般可借助混淆矩陣對模型回歸的優度進行合理檢驗,混淆矩陣是用來總結一個分類器結果的矩陣。logistic模型通過數值模擬會得到一系列介于0~1的離散數值,這個時候我們就需要先給定一個閾值,如果得到的數值大于0.5,就記為1,表示股票呈上漲趨勢;如果得到的數值小于0.5,就記為0,表示股票呈下跌趨勢。本次實驗中取閾值為0.5,通過比較預測的0和1與真實漲跌的0和1,就得到表3的混淆矩陣。
預測集有54個樣本,從表3可以計算出貴陽銀行擬合總體的預測準確率約為,模型預測準確率較好。其中,靈敏度約為23/(23+1)≈0.958,特異度約為23/(23+7)≈0.767。可以看到,混淆矩陣4個值的確定都依賴于最初我們主觀設定的閾值0.5。如果只依靠混淆矩陣這種原始的方法,那么不經過反復的試錯我們無法確認哪個閾值是最好的。
結合AUC模型評價方法,利用ROC曲線可以計算出AUC值,使用AUC預測分類器預測模型時,不依賴于主觀設定的閾值,預測出的結果都能得到精確預測值,還可以計算出最優閾值點。利用不同閾值計算靈敏度和特異度,繪制評價預測精度的ROC曲線。
繪制出的ROC曲線,當AUC值越接近1,表明預測模型的擬合性越好;當AUC≤0.5時,表明預測模型毫無價值。圖2是對預測集畫出的ROC曲線和計算出的AUC值,從圖2可以看出,AUC=0.963,很接近于1,模型預測能力較好。最優閾值點0.68。ROC曲線可以看出靈敏度為0.917,特異度為0.933,AUC=0.963,遠大于隨機猜想的AUC=0.5,綜合混淆矩陣與AUC模型評價,二者得出的結果表明該logistic回歸模型預測能力較好。
4" " "結 語
本文主要基于logistic回歸模型,結合貴陽銀行股票歷史交易數據,構建logistic回歸模型用于股票漲跌趨勢的預測,具有較高的趨勢預測精度和較好的預測表現。利用合適的訓練集構建股票漲跌趨勢模型,利用檢驗樣本預測股價的漲跌趨勢,再通過混淆矩陣、AUC評價方法與ROC曲線評估預測模型的準確率。因此,本文提出了一種根據時間序列數據與logistic回歸模型相結合的預測模型,提高了預測股價漲跌趨勢的準確率,能給投資者帶來更加豐厚的回報。
主要參考文獻
[1]王燕.時間序列分析:基于R[M].北京:中國人民大學出版社,2015:28.
[2]王文軒,蔡偉宏.基于Logistic回歸的股價上漲概率預測研究[J].中國市場,2020(6):7-8
[3]程曦.基于Logistic回歸模型對股票趨勢的預測[D].濟南:山東大學,2021:2-16.
[4]胡雪梅,蔣慧鳳.具有技術指標的邏輯回歸模型預測谷歌股票的漲跌趨勢[J].系統科學與數學,2021(3):802-823.
[5]李莉莉,杜梅慧,張璇.基于logistic回歸模型的大數據分布式兩步子抽樣算法[J].數理統計與管理,2022(5):858-866.
[6]賀平,蘭偉,丁月.我國股票市場可以預測嗎?——基于組合LASSO-logistic方法的視角[J].統計研究,2021(5):82-96.