王敏源 王 璨 李 浩*
(浙江萬里學院商學院 浙江·寧波 315100)
如今我國證券市場不斷開拓,投資者大幅增加,海量市場信息源源不斷。基于大數據智能化時代背景下計算機技術的量化投資方法,表現出了其高效處理大量信息的手段優勢,一方面能快速有效地把握市場的有利信號,另一方面能減少市場參與者的行為偏好、主觀情緒帶來的影響,以實現長期穩定的證券市場投資收益和風險控制[1]。
近些年,機器學習算法被廣泛使用在量化投資策略設計中。史衛峰(2017)利用隨機森林,將基于BARRA量化對沖模型的多因子模型中的多個同類因子,進行選取,后使用PCA進行處理,得到各個因子的信息貢獻率和線性相關性,是模型整體的估計準確值可以進行提高。謝翔(2017)的研究表明,SVM算法比較適合上漲趨勢的行情,隨機森林算法適合下降趨勢,在預測上漲趨勢時,決策樹表現優異,預測下降趨勢,神經網絡算法占優。林啟敏(2016)將支持向量回歸機、隨機森林和量子遺傳算法相接軌,構建了一個獨特的綜合選股模型,隨機森林主要應用于財務指標的篩選,而支持向量機和遺傳算法將因子的參數優化,得到最優組合。吳衛星(2018)通過選取不同的技術指標,即 KDJ、RSI、MACD 和布林等指標,將這些指標與隨機森林相結合,構建相關的多因子選股模型。
本文將運用大數據、金融、數學工具構建一套心得量化交易策略體系,保證投資者收益以及資金的合理運用。通過算法優化和不同因子選取的方法得到多因子模型,結合隨機森林、PCA模型兩大模型提高準確值,并不斷優化,用BOLL和KDJ技術指標進行擇時,回測檢驗調參后得到滿意結果。
異常值是指樣本中個別不太合群的值,也稱其為離群點,其值明顯偏離大部分觀測值。對異常值的處理有利于策略模型使用合理的統計數據。我們使用原則和箱型圖檢測離散值。我們采用的處理策略是:把數據中大于95%分位點數據用95%分位點替換;小于5%分位點的數據用5%分位點替換。
本文的研究股票池采用滬深300,我們選擇iFind(金融數據報告)作為我們的數據來源,其中對于特征值缺失過多的股票刪除,特征值缺失不多的股票使用數值插值來進行填補。通過缺失值處理,選出224只股票。
隨機森林是用于對數據進行分析預測的算法。為了能取得更加準確以及穩定的預測,它建立了很多個決策樹,并將他們分類組合。隨機森林算法中的分支代表隨機性。這些分支產生的節點會被分為誤差最小的特征,我們利用這些節點來選出最優分割點,僅考慮分割節點的隨機子集。
PCA算法是用于統計數據的工具,已經得到了廣泛的應用。本策略采取的數據具有復雜性并且信息與數據庫較大,并且有部分冗余數據和噪聲,所以使用主成分分析來對產品的數據進行處理,達到篩選并刪除冗余數據、降低噪聲、減少計算量、盡可能的降低實驗結果的影響。
BOLL指標決定了本策略的買賣時機。它主要由上軌,中軌以及下軌組成。三軌主要由標準差計算而來。股票價格主要在這三條線里進行浮動,當股價在上軌及中軌之間運行時,表示在上漲時期,持股可以獲取收益;當股價在中軌及下軌時期,現在空倉止損較為合理。
KDJ指標KDJ指標又叫隨機指標,它是屬于超買超賣的指標,所以它更適合短線操作。KDJ指標主要有K值,D值,J值,這三個值主要是根據股票價格的最高價,最低價以及收盤價進行計算得到的。
本文的量化策略構建流程如見圖1。

圖1:研究技術路線圖
Step1:從營運能力、成長能力、估值能力、償還能力和盈利能力這五大方面中篩取63個因子作為初級因子池;
Step2:利用Spearman相關系數分析,在一定程度上剔除因子相關性,得到獨立性較強的34個二級因子;
Step3:使用隨機森林算法篩選出2016-2020年五年特征值都大于0.3且每年都出現的16個因子作為最終因子池,見表1。

表1:最終選取的16個因子
Step4:使用PCA分析計算各因子權重,得到5個公因子以及因子方程:

Step5:使用MindGo平臺進行alphalens檢驗,結果表明模擬收益高于基準收益,并且信息系數為正,因子有效。再按照因子方程計算股票因子得分,選取分數最高的50支股票作為投資股票池。
Step6:在確定買賣時機方面,通過結合BOLL和KDJ兩個指標來決定交易時機和方向。通過反復回測和實驗調參,確定股價上穿BOLL線中軌,KDJ指標中K值大于D值,K線上穿D線,當條件滿足時,買入。當股價下穿BOLL線中軌,KDJ指標中K值小于D值,K線下穿D線,或者K值大于65時,賣出。
Step7:進一步優化,通過MindGo平臺來對有效因子打分并判斷停牌和ST股,將高分股票放入股票池中,更新股票池頻率為30天。
Step8:通過反復回測實驗,對大盤及個股分別設置了止盈止損點。當大盤過去5天下跌總數的5%時,將所有股票全部賣出。對于個股,近三天下跌合計超過5%,平倉。

圖2:策略回測表現(基于同花順MindGo平臺)
我們使用同花順Mindgo平臺回測得到策略的年化收益率為11.41%,遠高于基準年化收益率0.26%,最大回撤為12.69%,Sharpe比率和信息比等指標均表現良好。并且在大盤指數呈現下跌趨勢時仍能獲得較穩定的收益。說明我們的策略有不錯的實施價值。
隨著我國經濟的快速發展,證券市場也不斷地完善,量化投資技術也不斷發展,激發交易市場活力。國內的投資者越來越傾向于量化投資這一理性的投資方式,尤其是機構投資者的更加重視,近年來涌現出了越來越多的創新型公司以量化交易作為公司產品核心。
本文選擇滬深300成分股為研究對象,結合PCA算法和機器學習的優勢構建多因子選股模型。基于價值投資理念,通過機器學習智能化層層篩選,得到有效的、獨立的收益影響因子;使用PAC方法計算因子方程,量化評價股票的因子表現,排序得到投資標的股票。最后使用技術指標和止盈止損策略,進行策略回測,表現良好穩定,實驗證明可通過策略獲得超額收益。相對比單一模型的使用,本文提出的策略模型運行效率更高,預測準確性更好,多個數學模型的結合有利于提高因子選擇效率,通過計算主因子特征值貢獻率進行因子打分,降低了人為主觀的影響,提高了股票選擇的科學性。