閆明杰(通訊作者) 石云瑞 .首都經濟貿易大學管理工程學院 .河北科技工程職業技術大學
量化選股,簡單來說就是數據挖掘領域的分類問題。其基本步驟為首先構建合適的指標體系,其次利用量化的數據統計分析工具判斷和選擇最優的股票進行投資等金融活動。然而近幾年,中國股票市場規模逐漸壯大,市場內在不足和問題也不斷暴露(如投資者盲目投資股票等),甚至影響了股票市場的發展。因而如何引導和幫助投資者轉向理性的股票投資活動,是當前相關部門最為重視的難題。在股市決策中,理性投資的核心就是量化選股。因此,如何探索一個更為有效的選股模型,是當前急需應對的挑戰。
目前中國股票市場形式多樣化,影響投資者進行金融投資選股等活動的因素多元化,例如突發的社會事件、企業新提出的政策、利率的變動、空氣質量、心里的情緒波動和業界人士的建議等等。基于此,如何構建一個更為有效的選股模型尤為重要。同時,京津冀協同發展政策的提出,極大地促進的當地產業經濟的發展,也帶動了京津冀地區股市的發展,甚至影響著中國股票市場的波動。那么如何在波動的京津冀地區的股市中更好地進行金融投資選股等活動,便成為了大多數投資者的一大難題。
針對以上問題,本文主要基于京津冀地區部分股票數據介紹了三種量化選股模型,即SVM、PCA-SVM以及RF-SVM模型,并對其選股結果進行了分析與討論,為不同投資者選擇合適的選股模型提供了新思路。
本文主要基于京津冀地區部分股票數據對選股模型進行分析與討論。因此,本文選取了國泰安數據庫中京津冀地區部分上證A股2018年的財務指標,并從7個方面一共選取了19個指標表示股票的整體狀態,詳細指標見表1。
表1 指標說明
本文剔除ST(破產、虧損等)股票和部分數據缺失的股票后,保留了150只股票數據,并對其數據進行標準化處理。其次,本文隨機劃分130條數據作為訓練集,其余20條數據作為測試集。其中,我們默認選股模型為二分類模型,即通過分析股票的收益狀況判斷是否對該股票進行投資等金融活動。若分析該股票收益狀況良好,我們便認為該股為優股,適合投資;若該股票收益狀況較差,則認為該股為劣股,不適合投資。因此,我們將訓練集中每股收益位于前30%和后 30% 的股票分別認為優股和劣股,并刪除每股收益處于中間部分的股票,即實際訓練集中為78只股票。由于本次報告側重于預測結果,因此在此主要列舉測試集中的股票代碼如表2。
表2 測試集股票代碼
支持向量機(SVM)是最為常用的監督學習分類模型之一,其效果優于其他多數分類模型,因此本文選擇對其進行研究分析。該模型的核心在于構建一個分離超平面,并最大化不同類別的邊界距離。在本文中,首先通過訓練集得到訓練后的分類器,然后對測試集的20只股票進行預測判斷其是否適合進行投資,結果可得預測的準確率為65%,其中劣股預測的準確率為90%,優股預測的準確率為40%。同時,預測為優股中實際為優股的準確率為80%。預測為優股的股票代碼分別為:600560、600158、600361、600011、603127。即投資者可以在20只股票池中,選擇以上5只股票進行投資等金融活動,獲益的準確率可達80%。
主成分分析(PCA)是最重要的降維統計方法之一,主要是將多個特征通過某種要求轉變成較少的主成分。其應用較為廣泛,例如對信號進行降噪處理等。本文首先對數據進行PCA處理,其目的在于使得降維后的特征累計方差貢獻率大于85%,最終本實驗通過PCA方法提取了七個主成分。其次再利用提取主成分后的數據訓練模型并對20只股票進行預測。結果可得預測準確率為75%,其中劣股預測準確率為90%,優股預測準確率為60%。預測為優股中實際為優股的準確率為85.7%。預測為優股的股票代碼分別為:601991、603533、600011、603127、600800、601669、603096。即投資者可以在20只股票池中,選擇以上7只股票進行投資等金融活動,獲益的準確率可達85.7%。其中600011和603127股票與上個模型預測結果相同。同時,投資者也可以在20只股票池中,選擇600011和603127股票進行投資等金融活動。
隨機森林(RF)是一種集成機器學習的方法,可以度量變量的重要性,并通過將其重要性排序后,選擇出重要性較高的特征進行下一步的模型訓練過程。根據基于SVM量化選股模型結果和基于PCA-SVM量化選股模型結果的對比,可以猜想降維在提高模型準確率上具有一定作用。為了進一步驗證我們的猜想,本文還通過隨機森林與SVM的結合模型進行了對比。首先通過隨機森林對數據進行特征選擇,選取了最重要的十個特征,然后建立RF-SVM模型。結果可得實際預測準確率為75%,其中劣股預測準確率為100%,優股預測準確率為50%。預測為優股中實際為優股的準確率為100%。預測為優股的股票代碼分別為:603533、600011、603127、600800,603096。即投資者可以在20只股票池中,選擇以上5只股票進行投資等金融活動,獲益的準確率可達100%。其中600011和603127股票與上兩個模型預測結果相同。同時,投資者也可以在20只股票池中,選擇600011和603127股票進行投資等金融活動。
本文利用公司財務指標建立了SVM、PCA-SVM以及RF-SVM選股模型,并將其分類結果進行比較。結果發現數據的降維處理對優化SVM量化選股模型具有一定的作用,即PCA-SVM的選股模型和基于RF-SVM的選股模型均優于SVM選股模型。其次,基于PCA-SVM的選股模型和基于RF-SVM的選股模型在綜合預測準確率上是持平的。最后,從預測為優股實際為優股的準確率的角度出發,基于RF-SVM的選股模型準確率高達100%,遠優于基于PCA-SVM的選股模型(85.7%)和基于SVM量化選股模型(80%)。
因此,基于本文中的20只股票池,投資者有兩種投資方案:1.激進投資者可以根據RF-SVM選股模型,投資股票代碼為603533、600011、603127、600800和603096的股票。2.保守投資者可以根據這三個模型預測為優股的交集進行投資,即選擇股票代碼為600011和603127的股票進行投資等金融活動。