999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

股票價格波動與分類算法改進

2023-08-15 09:06:12呂雙爻宋雨芬
中國商論 2023年14期

呂雙爻 宋雨芬

摘 要:當前,金融業發展日趨全球化、多元化,金融業內部業務相互滲透、交叉,國際資本之間相互合作與競爭,我國的券商發展環境正發生巨大變化。東方財富以互聯網金融數據服務為基礎,整合券商、基金、期貨等資本市場業務,顛覆傳統證券服務業,現已成為中國最大市值證券機構。基于此,本文以2021年12月20日至2022年12月20日東方財富整年的股票數據為例,基于排序法計算VaR,并基于定義每日違約情況,運用Logit、SVM、NNET、Decision Tree、KNN等非機器學習和機器學習五種方法對東方財富股價進行分析,探究各變量對違約率的影響。

關鍵詞:VaR;排序法;分類算法;風險評估;股價預測

本文索引:呂雙爻,宋雨芬.<變量 2>[J].中國商論,2023(14):-112.

中圖分類號:F832 文獻標識碼:A 文章編號:2096-0298(2023)07(b)--04

1 引言

我國證券市場已成為國民經濟的重要組成部分,在我國經濟的發展中發揮著越來越重要的作用。當前,股票市場投資證券已成為熱門話題。股票市場在帶來高回報的同時,也存在高風險。股票市場規模的擴大,交易種類的增加以及投資者偏好的變化使股票市場最終成為一個非線性、非平穩性和其他屬性混合的復雜動態系統。

在此背景下,如何正確預測股價走勢成為學者們的重要研究方向。從最初的ARMA、多元GARCH等時間序列方法,到人工神經網絡、BP神經網絡、機器學習等神經網絡模型,都起到了良好的預測效果。但是,很多時候并不需要預測一只股票未來的具體漲跌幅,而是希望預測股票未來是漲還是跌,這意味著本文需要處理的是一個分類問題而不是回歸問題,因此研究股票價格的分類方法具有重要的現實意義。

同時,在眾多風險度量模型中,VaR因其測量風險的定量性、綜合性、通俗性等特點在各金融機構中獲得了廣泛應用和推廣,并且被認為是國際金融風險度量的標準。

因此,本文以2021年12月20日至2022年12月20日一年期的東方財富股票數據為樣本,引入多種常用的分類器——Logit分類、K最近鄰(K-nearest neighbor,KNN)、決策樹(decision tree,DT)和支持向量機(support vector machine SVM)、神經網絡(Neural network)來預測其極端風險出現的概率,以更有效地針對東方財富進行數據挖掘,并為后續股票個股研究提供參考。

2 文獻回顧

2.1 國外研究現狀

G.Peter等(2003)和Wijaya等(2010)的研究分別比較了ARIMA模型和人工神經網絡ANN模型在進行股票預測時兩者的性能,通過實驗發現人工神經網絡ANN模型的預測精度更好。

Chien-Feng Huang(2012)提出了一個結合遺傳算法(GA)和SVR的組合模型用于股票收益預測。該模型首先使用GA算法對輸入變量進行特征選擇,然后優化SVR算法的懲罰參數和核函數參數,再將特征選擇的變量和最優參數輸入SVR模型進行股票收益預測。

Chi-Jie Lu(2013)提出了一種基于非線性獨立分量分析(NLICA)和支持向量機以及粒子群優化(PSO)算法的混合模型,該模型是NLICA和PSO的混合體。該模型使用NLICA對SVR模型的輸入變量進行特征選擇,并使用粒子群算法對SVR的參數進行優化,以獲得良好的股票預測結果。

2.2 國內研究現狀

彭麗芳、孟至青等(2006)利用沙河股份的數據,使用神經網絡方法、時間序列方法以及基于時間序列的SVM模型進行股票價格預測,實驗結果表明SVM模型在股票時序預測問題上的精度表現最好。

智晶和張冬梅(2009)利用GA算法對神經網絡參數進行了優化。股票價格預測的實證表明,優化后的神經網絡在一定程度上克服了容易陷入局部最小值的問題,提高了預測的精準度。

韓磊(2013)提出基于PCA和BP神經網絡的股價預測方法。該方法采用PCA對輸入數據進行降維操作,然后將降維后的數據帶入BP神經網絡進行訓練。實證結果顯示,相比傳統的BP神經網絡,該方法可以達到較高的預測精度。

楊可可(2020)選取恒生電子單支股票作為研究對象,借助Eviews和Excel軟件,將方差—協方差法和建立的GARCH模型結合來測算VaR值并分析其風險狀況。

3 數據來源及方法介紹

3.1 數據來源

本文利用Tushare包獲取東方財富從2021年12月20日至2022年12月20日一整年的股票開盤價格、收盤價格、最高價、最低價、交易量等數據。

3.2 方法介紹

3.2.1 VaR基本理論概述

VaR是在一定置信水平和一定持有期內,某一金融資產或組合在正常的市場條件下所面臨的最大損失額,從根本上說是對投資組合價值波動的統計測。VaR能將一系列復雜的風險測度問題量化為一個具體數值,不僅讓投資者知道發生損失的大小,還讓投資者了解發生損失的可能性;這說明金融資產受整個市場風險的影響,更能反映市場價格的波動規律。

目前,計算VaR值的主要方法有三種:歷史模擬法、蒙特卡洛模擬法、方差—協方差法。本文采用歷史模擬法,此方法是將歷史在未來可以重現作為假設前提,利用歷史數據的分布函數來代表將來一段時間的收益率分布。

3.2.2 各模型基本概述

不同的分類算法有不同的應用場景,在一個數據集上效果較好的模型在另一個數據集上卻不一定適用,因此對于不同的數據集,更需要具體問題具體分析。

(1)Logit回歸分析

Logit回歸分析是一種廣義的線性回歸分析模型,屬于機器學習中的監督學習。通過給定的n組數據(訓練集)來訓練模型,并在訓練結束后對給定的一組或多組數據(測試集)進行分類。其中每一組數據都是由p個指標構成。

經典的Logit回歸的形式:

(2)K最近鄰判別分析法(KNN)

K最近鄰判別分析法是一種被普遍應用于各個領域非參數統計方法。KNN可以解決分類或回歸問題。其基本思想是計算待分類樣本與訓練樣本之間的距離,選擇與待分類樣本最接近的K個訓練樣本,并確定這K個樣本中數量最多的一個類別作為待分類樣本的類別。

(3)支持向量機(SVM)

作為前饋網絡的一種,在解決非線性的分類問題方面具有明顯的優勢。它可以通過構建超越二維平面以上的多維度決策曲面來實現兩類樣本數據的精確分離,即最大程度地提高兩類數據點之間的分離邊緣。

(4)人工神經網絡 (NNET)

人工神經網絡是一種模仿生物神經網絡(動物的中樞神經系統,特別是大腦)行為特征,進行分布式并行信息處理的數學模型或計算模型。

(5)決策樹(Decision Tree)

決策樹方法主要包括兩個步驟:構建和修剪。該方法構建的關鍵是確定每個內部節點的分裂屬性和相應的測試內容;修剪的重點是識別和消除數據集中的噪聲或異常數據產生的分支。

3.3 模型效果評價指標

3.3.1 ROC曲線

ROC是分類器取不同閾值得到的虛報率或召回率的曲線,經常被用來評價一個二值分類器的優劣。ROC曲線的橫坐標是虛報率,縱坐標為召回率,通常召回率越高越好,而虛報率越低越好。因此,當一個分類器的點位于第一象限的左上方時分類器效果較好。

3.3.2 CAP曲線

CAP曲線衡量的是風控模型檢出風險的能力。CAP的橫軸就是從排序后概率值頭部到尾部的移動過程中,閾值以上的(預測為正的)樣本占總樣本的比例。CAP的縱軸表示的是,在當前閾值下,揀選出來的這些預測為正的樣本中,其中含有的真實的正樣本占所有正樣本的比例。

3.3.3 AP與NP指標

AP即平均精度,是目標模型效果檢測與評價中的一個常用指標。AP指標的定義為把閾值設置在緊靠每個正例之下,計算正例的查準率P+,再取平均值。NP則為正例的總數。

4 實證研究分析

4.1 股票指標選擇

股票指標是衡量股票價值的重要因素。從功能角度而言,技術指標總體可以分為擺動類指標、趨勢類指標、能量類指標3大類。常用的技術指標KDJ、RSI就屬于擺動類指標;MACD、MA指標屬于趨向類指標;OBV、VOL屬于能量類指標。

結合技術指標分類,本文選取交易量、振幅、收益率、MACD、OBV、CCI共6個指標來分析數據具體情況。

4.2 排序法計算VaR

為使用Logit、SVM等方法對東方財富的數據進行分析,首先要使用排序法計算VaR,再分別進行訓練和測試。

首先計算東方財富的收益率,再根據收益率進行均值和標準差的計算,從而進一步計算VaR的閾值,閾值為0.02257089,再對比次日漲跌幅與VaR值的大小,當漲跌幅大于閾值時則判為違約,標注為TRUE,當漲跌幅小于閾值時則判為不違約,標注為FALSE,具體情況見表1。

4.3 訓練與測試

4.3.1 Logit模型

首先,隨機劃分訓練集和測試集,其中訓練集包含180天的數據,測試集包含64天的數據。其次,本文第一個使用Logit模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進行訓練集建模,得到結果如下:

是否違約=-6.813e-1.494e-6交易量+5.788e2振幅-8.093e2收益率-3.624MACD-9.966e-7OBV-9.25e-4CCI

本文對測試集進行測試得到ROC=1,說明Logit的訓練模型非常好,并計算NP得到19,同樣反映出模型效果較好。計算AP值為0.4763158。

4.3.2 SVM模型

第二個使用SVM模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進行訓練集建模,對測試集進行測試得到ROC=0.883,得到的效果沒有Logit解釋完全。

4.3.3 NNET模型

第三個使用NNET模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進行訓練集建模,對測試集進行測試得到ROC=0.644,得到效果在選取的模型中解釋最差。

4.3.4 Decision Tree模型

第四個使用Decision Tree模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進行訓練集建模,對測試集進行測試得到ROC=1,得到的效果與Logit模型相同,并計算出NP為1。

4.3.5 KNN模型

第五個使用KNN模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進行訓練集建模,對測試集進行測試得到ROC=0,效果并不理想,NP為Inf。

5 結果分析

本文得到的結果基于東方財富2022年的一系列數據。首先,采用排序法計算其一年期75%置信度的日度VaR,并當日跌幅超過VaR預測的閾值時,則判定當天為‘違約。其次,將數據隨機劃分為180個樣本的訓練集和64個樣本的測試集,以交易量、振幅、收益率、MACD、OBV、CCI為解釋變量,以是否違約為被解釋變量,使用Logit、SVM、NNET、Decision Tree、KNN等模型,并得到ROC,對比ROC值,可以看到Decision Tree與Logit的訓練效果最好,SVM次之,NNET和KNN最差。同時,觀察Logit結果可以發現,收益率對是否違約的影響最大,振幅、MACD對是否違約的影響其次,交易量、OBV、CCI對是否違約的影響相對較小:

是否違約=-6.813e-1.494e-6交易量+5.788e2振幅-8.093e2收益率-3.624MACD-9.966e-7OBV-9.25e-4CCI

6 改進意見

6.1 解釋變量的優化

由上述Logit初次結果,交易量、OBV、CCI的系數都非常小,甚至小于0.0001,因此可以考慮刪除這三個解釋變量,再次建立Logit模型,可得如下結果:

是否違約=-5.735e+3.311e3振幅-4.895e4收益率-6.825e-1 MACD (1)

改進后的Logit結果如(1)所示,可以看出,收益率對公司股價是否違約具有非常大的負向影響;振幅對公司股價是否違約具有很大的正向影響,股價波動越大,公司股票越有可能違約;MACD同樣對公司股票是否違約具有負向影響,這說明應當保證MACD處于較高水平,從而使公司股票處于平穩狀態。

除此之外,可以增加其他相關的解釋變量進行回歸優化。通常股票未來價格漲跌走勢不僅僅受到本文所選的6個指標的影響,且股票各特征存在較高相關性,因此采用多因子模型是一種更為優異的方法。常用的因子挑選方法包括主成分分析、Lasso回歸、嶺回歸、序列向前法、序列向后法。

6.2 數據集的劃分與計算

在分類識別的機器學習領域,通常將整個目標數據集分為兩部分,一是用于訓練和學習建立分類器的訓練集,二是用于驗證訓練后的分類器對新加入樣本的準確性的測試集。目標數據集的劃分是為了使訓練集中的樣本數量與測試集中的樣本數量相比盡可能得多。

本文數據集劃分采用的方法是Hold-Out測試,即把原始數據分為兩組,一組為訓練集,另一組為測試集,先用訓練集訓練分類器,然后用測試集測試模型效果,最后將分類準確率作為分類器在Hold-Out檢驗下的性能指標。這種方法只需要將原始數據隨機拆分成兩部分,可操作性強,簡單便捷。但是,這種方法得到的分類準確率水平很大程度上依賴于原始數據分組的隨機性,數據結果并不具有較強的說服力。因此在分類模型方面,可以使用K折交叉驗證的方法,加大模型的訓練度。交叉驗證法是將數據樣本切割成較小子集的方法,具體步驟為:

(1)將數據集D分為K個包;

(2)每次將其中一個包作為測試集test,剩下k-1個包作為訓練集train進行訓練;

(3)最后計算k次求得分類率的平均值,作為該模型或者假設函數的真實分類。

同時滾動訓練集,以T月月末為例,從第T-n(n=6,12,18,24,36,48,60…)期至第T-1期的特征和標簽作為訓練樣本,將n個月的樣本合并成為訓練集。

改進后的模型的訓練集和測試集的分割更加合理,所訓練的模型也更為準確;對VaR的計算方面,可以根據數據的特征來選擇不同方法計算VaR,比如使用正態分布計算VaR。另外,在違約閾值的選擇上,歷史的違約數據可以根據未來的趨勢進行適當調整。

參考文獻

Chien-Feng Huang. A hybrid stock selection model using genetic algorithms and support vector regression[J]. Applied Soft Computing2012, 2(12): 807-818.

Chi-Jie Lu. Hybridizing nonlinear independent component analysis and support vector regression with particle swarm optimization for stock index forecasting[J]. Neural Computing and Applications, 2013, 7-8(23): 2417-2427.

G.Peter,Zhang.Time series forecasting using a hybird ARIMA and neural network model[J].Neurocomputing,2003(50):159-175.

韓磊. 利用BP神經網絡系統對股票市場進行預測與分析的研究[D]. 天津: 天津大學, 2013.

彭麗芳,孟至青,姜華,等.基于時間序列的支持向量機在股票預測中的應用[J].計算機技術與自動化,2006(3):88-91.

楊可可.證券投資個股風險的VaR值測算分析[J].廣西質量監督導報,2020(8):198-199.

智晶, 張冬梅, 姜鵬飛. 基于主成分的遺傳神經網絡股票指數預測研究[J]. 計算機工程與應用, 2009, 26(45): 210-212.

主站蜘蛛池模板: 国产精品女熟高潮视频| 啪啪啪亚洲无码| 久久精品波多野结衣| 扒开粉嫩的小缝隙喷白浆视频| 久久精品91麻豆| 欧美成人精品在线| 免费一级毛片不卡在线播放 | 色婷婷综合在线| 女人18毛片一级毛片在线| 亚洲自拍另类| 亚洲精品手机在线| 97一区二区在线播放| 1769国产精品免费视频| 午夜a级毛片| 午夜精品久久久久久久无码软件| 在线观看精品自拍视频| 日本欧美视频在线观看| 亚洲欧美另类视频| 97久久人人超碰国产精品| 久久久久免费精品国产| 中文字幕第4页| 久久国产精品波多野结衣| 丰满人妻被猛烈进入无码| 亚洲色图狠狠干| 99久久免费精品特色大片| 国产国产人成免费视频77777 | 婷五月综合| 99精品免费欧美成人小视频| 麻豆精品在线视频| 国产一级毛片yw| 亚洲丝袜中文字幕| 婷婷激情五月网| 久久毛片网| 人妻精品全国免费视频| 日韩精品一区二区三区大桥未久| 精品国产免费人成在线观看| 中文字幕人妻无码系列第三区| 中文字幕亚洲电影| 99视频在线精品免费观看6| 国外欧美一区另类中文字幕| 亚洲伊人天堂| 亚洲中文字幕在线一区播放| 国产毛片不卡| 亚洲国产在一区二区三区| 青青国产视频| 亚洲综合第一区| 毛片手机在线看| 久久婷婷五月综合97色| 2021最新国产精品网站| 波多野结衣在线se| 国产色网站| 青青青国产免费线在| 精品一区二区三区水蜜桃| 国产精品视频公开费视频| 国内精品91| 狠狠色综合网| 99手机在线视频| 日韩精品一区二区深田咏美| 真人高潮娇喘嗯啊在线观看| 2021亚洲精品不卡a| 精品乱码久久久久久久| 国产午夜不卡| 毛片网站在线看| 99热亚洲精品6码| 国产成人精品无码一区二| 国产极品美女在线观看| 成人免费网站久久久| 久久99国产精品成人欧美| 农村乱人伦一区二区| 99久久婷婷国产综合精| 久久永久视频| 久久夜色撩人精品国产| 制服丝袜国产精品| 性做久久久久久久免费看| 亚洲视频四区| 国产日本视频91| 午夜精品福利影院| 一个色综合久久| 欧美在线中文字幕| 久久综合亚洲色一区二区三区| 高清码无在线看| 亚洲人成亚洲精品|