支持向量機在中國A股市場量化策略應用研究

2017-05-17 16:57:38黃卿

時代金融 2017年11期

黃卿

【摘要】如何將機器學習方法應用于金融投資領域，一直是學術界和金融界熱門的研究話題。本文將機器學習中的支持向量機方法結合Fama-Fench三因子模型，構建了新的量化投資策略，并利用A股進行了實證分析。研究表明，將支持向量機結合傳統的三因子模型可以構建更加有效的投資組合。

【關鍵詞】機器學習量化投資三因子模型

一、引言

作為人工智能領域主要的研究方向之一，機器學習無疑最受矚目。尤其是近幾年深度學習方法在語音識別、自然語言處理、自動駕駛等方面取得了巨大的成功，使得各行各業都將機器學習方法做為重點的研究方向。特別是在金融領域，以機器學習為主的人工智能已經在量化投資方面得到了廣泛的應用。機器學習可以快速海量地進行分析、擬合、預測，人工智能與量化交易聯系越來越緊密。如全球最大的對沖基金橋水聯合（Bridge water Asspcoates）在2013年就建立了一個基于機器學習的量化投資團隊，該團隊設計交易算法，利用歷史數據預測未來金融市場變化，以人工智能的方式進行投資組合調整。日本的人工智能量化投資公司Alpaca，建立了一個基于圖像識別的機器學習技術平臺Capitalico，通過該平臺，用戶可以利用數據庫中找到外匯交易圖表進行分析，這使得普通投資者也能知道成功的交易員是如何做出交易決策的，從他們的經驗中學習并作出更準確的交易。然而在金融領域，已公開的有效的預測模型是基本不存在的，因為無論是機構投資者還是個人投資者一旦公開投資模型，也就意味著投資模型的失效。比如著名數學家西蒙斯1988年成立的文藝復興公司，就完全依靠數學模型進行投資，公司旗下從事量化投資的大獎章基金回報率也遠超過其他對沖基金，然而該公司卻從不公開投資模型。雖然金融機構很少公開如何利用機器學習來指導投資的研究成果，但學術界對機器學習在金融投資中的應用的研究卻在逐漸增加。

支持向量機（support vector machines，SVM）是Vapnik 1995年提出的新的機器學習算法，該方法有很好的泛化能力，一種非常成功的機器學習方法，性能明顯優于傳統神經網絡。在金融研究領域，支持向量機也是應用最廣泛的機器學習模型。即使在國內，利用SVM方法的研究文獻也不少。賽英（2013）利用支持向量機（SVM）方法對股指期貨進行預測，并用遺傳算法（GA）和粒子群算法（PSO）分別優化四種不同核函數的支持向量機，通過大量實驗發現，采用粒子群算法優化的線性核函數支持向量機對股指期貨具有最好的預測效果。黃同愿（2016）通過選擇最優的徑向基核函數，再利用網格尋參、遺傳算法和粒子群算法對最佳核函數參數進行對比尋優，構建最有效的支持向量機模型，并對中國銀行未來15日的開盤價格變化趨勢進行預測，并認為用支持向量機來預測股票走勢是可行的。程昌品（2012）提出了一種基于二進正交小波變換和ARIMA-SVM方法的非平穩時間序列預測方案。用高頻數據構建自回歸模型ARIMA進行預測，對低頻信息則用SVM模型進行擬合；最后將各模型的預測結果進行疊加，并發現這種辦法比單一預測模型更加有效。張貴生（2016）提出了一種新的SVM-GARCH預測模型，通過實驗發現該模型在時間序列數據去除噪音、趨勢判別以及預測的精確度等方面均優于傳統的ARMA-GARCH模型。徐國祥（2011）在傳統SVM方法的基礎上，引入主成分分析方法和遺傳算法，構建了新的PCA-GA-SVM模型。并利用該模型對滬深300指數和多只成分股進行了驗證分析，并發現該模型對滬深300指數和大盤股每日走勢有很好的預測精度。韓瑜（2016）結合時間序列提出了一種基于GARCH-SVM、AR-SVM的股票漲跌預測方法，結果表明，加入GARCH或AR等時間序列模型的初步預測結果可以提高SVM預測準確率。

從國內的研究文獻來看，大多數文獻都是通過機器學習方法來優化傳統的時間序列預測模型，很少去研究如何通過機器學習方法構建有效的量化投資策略。由此，本文將利用SVM算法，結合經典的Fama-Fench三因子模型，設計量化投資策略，探討機器學習方法在金融投資領域應用的新思路。

二、模型理論介紹

（一）Fama&Fench三因子模型

Sharpe（1964），Lintner（1965）和Mossin（1966）提出的資本資產定價模型（CAPM）是一個里程碑。在若干假定前提條件下，他們嚴謹地推導出了在均衡狀態下任意證券的定價公式：

式中，E（ri）是任意證券i的期望收益率，E（r0）是無風險利率，E（rm）是市場組合（market portfolio）的期望收益率。■。法馬（Fama，1973）對CAPM進行了驗證，發現組合的β值與其收益率之間的線性關系近似成立，但截距偏高，斜率偏低，說明β不能解釋超額收益。之后，Fama&Fench（1992）詳細地分析了那些引起CAPM異象的因子對證券橫截面收益率的影響。結果發現，所有這些因子對截面收益率都有單獨的解釋力，但聯合起來時，市值和賬目價值比（BE/ME）兩個因子在很大程度上吸收了估計比值（E/P）以及杠桿率的作用?；诖?，Fama&Fench（1993）在構建多因子模型時，著重考慮規模市值（SMB）和賬面價值比（HML）這兩個因子。因此，三因子模型可以寫為：

（二）支持向量機

支持向量機是一種二分類模型，也可以用于多分類，它的基本模型是定義在特征空間上的間隔最大的線性分類器，通過尋求結構化風險最小來提高分類器的泛華能力，實現經驗風險和置信范圍的最小化，最終可轉化為一個凸二次規劃的問題求解。支持向量機是90年代最成功的機器學習方法，它的基本思想是求解能夠正確劃分訓練數據集并幾何間隔最大的分離超平面，該超平面可以對數據進行分類，分類的標準起源于邏輯回歸，logistic回歸的目的是從特征學習出一個0/1分類模型，logistic函數（sigmoid函數）的表達形式為：

這個模型是將特征的線性組合作為自變量。由于自變量的取值范圍是負無窮到正無窮，因此，sigmoid函數將自變量映射到（0，1）上，對應的類別用y來表示，可以取-1或者1。根據輸的概率對數據進行分類，sigmoid函數圖像如圖1。

支持向量機也是利用上述分類原理對數據進行分類，如圖2所示，wTx+b=0為n維空間的一個超平面，該超平面將數據分開，一般來說，一個點距離超平面的遠近可以表示為分類預測的準確程度。支持向量機就是求解■的最大值，也就是說，構造最大間隔分類器γ，使兩個間隔邊界的距離達到最大，而落在間隔邊界上的點就叫做支持向量，明顯有y（wT+b）>1。

當數據不能線性可分時，就需要利用非線性模型才能很好地進行分類，當不能用直線將數據分開的情況下，構造一個超曲面可以將數據分開。SVM采用的方法是選擇一個核函數，通過將數據映射到高維空間，在這個空中構造最優分類超平面，用線性分類法進行數據分類。

然而，在不知道特征映射的形式時，很難確定選擇什么樣的核函數是合適的。因此，選擇不同的核函數可能面臨不同的結果，若核函數選擇不合適，則意味著將樣本映射到了一個不合適的特征空間，很可能導致結果不佳。常用的核函數見表1。

三、實證分析與應用

（一）數據說明

訓練數據為2012年8月1日至2016年8月1日滬深300成分股在每月最后一個交易日有交易的股票因子值，市值因子SMB（marketValue）和賬面價值比HML（PB）比這兩個因子見表2，所有因子數據都通過標準化并處理。利用PB和marketValue兩個因子，預測下月該股票的漲跌，利用機器學習中的支持向量機進行訓練，數據特征為月度股票因子，訓練標簽為該股票下個月月初第一個交易日的漲跌，上漲為1，下跌和股價不變標記為0，采用交叉驗證方法，其中80%的數據為訓練集，20%的數據為測試集，利用R語言中的e1071包進行分析。

表2 因子名稱與因子說明

■

（二）策略回測

從實驗結果看，SVM的測試集預測準確率為62.32%，回測策略為等權重買入當月預測上漲概率排名前20的股票，每月初第一個交易日進行調倉，回測區間共調倉41次?；販y區間為2013年7月1日至2017年2月28日，初始資金設為1000000元，利用優礦量化平臺進行回測，策略回測的部分持倉記錄見表3，策略效果見圖3和表4。

表3 策略回測持倉記錄

■

圖3 策略收益率與基準收益率對比

表4 模型回測結果主要數據

■

由于多因子模型通常為穩健策略，因此為了避免頻繁交易帶來的高額交易費用，本策略采用了月度定期調倉的手法。從表3，圖3和表4的策略回測結果來看，利用支持向量機算法結合Fama-Fench三因子模型設計的交易策略，在回測區間年化收益率為22.4%，超越了13.4%的基準市場收益率，獲得了8.2%的阿爾法，這也說明Fama-Fench三因子模型在A股市場依然有效。同時我們也能看到，該策略最大回撤為48.1%，說明在不加入止損、止盈條件下，該策略并不能實現很好的對沖效果。從量化投資的角度來看，利用股指期貨進行對沖，是多因子策略的一個很好的選擇。

四、結論

本文通過利用機器學習中的經典算法支持向量機并結合Fama-Fench三因子模型構建了量化投資策略。通過市值因子和市凈率因子，利用機器學習算法，滾動預測下一個月股票的漲跌方向。實驗結果發現，支持向量機的預測準確率達到了62.23%，通過預測股票漲跌方向的概率，設計了對應的投資策略，該策略在回測期間的年化收益達到了22.4%，遠超過基準年華收益率的13.4%。本文的研究表明，機器學習方法在金融市場有很好的運用空間，在大數據時代的今天，傳統統計模型無法從復雜、多維的金融數據中提取出有效的信息特征，而機器學習算法擅長處理復雜、高維數據。這也是人工智能投資在金融行業越來越受到重視的原因。從量化投資這一角度來說，如何將機器學習方法應用到金融投資領域還是一個飽受爭議的話題，本文只是從嘗試的角度出發，創新的將機器學習方法結合經典的Fama-Fench三因子模型來驗證對中國股市的投資效果。而如何將機器學習方法應用到更多的金融投資領域將是本文下一階段的研究重點。

參考文獻

[1]Cortes C，Vapnik V.Support-Vector Networks.[J].Machine Learning，1995，20（3）：273-297.

[2]Fama，E.F.&K.R.French（1992），“The cross-section ofexpected stock returns”，Journal of Finance 47：427-466.

[3]Fama，E.F.&K.R.French（1993），“Common risk factors in the returns on stocks and bonds”，Journal of Financial Economics 33：3-56.

[4]塞英，張鳳廷，張濤.基于支持向量機的中國股指期貨回歸預測研究[J].中國管理科學，2013，21（3）：35-39.