鄧 晶 李 路
(上海工程技術大學數理統計學院 上海 200000)
量化投資在金融投資體系中占據了十分重要的位置。國外學者對量化投資的定價理論的研究非常豐富,傳統的投資體系發展已經成熟,如Sharpe[1]和Linter[2]研究推導出的評價證券風險的基礎數量化模型——資產的定價模型;Ross[3]提出了套利定價模型,說明資本資產的收益率確實是各種因素綜合作用的結果;Fama等[4]提出了五因子模型。
隨著市場復雜程度日漸提升,規模日漸龐大,投資品種的數量與日俱增,僅依靠投資者的個體判斷而進行的傳統投資方式不再適應現代金融市場的發展要求。因此更多的投資者開始將目光轉向量化投資,其重要性也逐漸被認識和認可。而機器學習理論的發展為量化投資開辟了新途徑,研究者開始采用大量的遺傳算法、神經網絡、決策樹和很多的非線性方法建立模型,為量化投資提供更好的幫助。王淑燕等[5]用隨機森林算法實現了對股票漲跌情況較高精確率的預測,驗證了該量化選股模型在中國股票市場上有較好的性能;任君等[6]針對金融時間序列預測問題,提出正則化長短期記憶神經網絡模型(LSTM),發現彈性網正則化LSTM模型具有較強的泛化能力,其預測效果也更加優于傳統的BP神經網絡;王燕等[7]將改進的XGBoost模型應用到金融股票短期預測當中,并驗證了其可行性以及出色的預測性能。
Cortes等[8]提出了一種高效的分類方法——支持向量機(SVM),其因優越的性能而受到廣泛的關注;惠守博等[9]建立基于支持向量機的財務預警模型,表明了基于支持向量機在財務預警中的可行性和實用性;李云飛等[10]建立基于支持向量機的股票投資價值分類模型,最后將其與BP神經網絡和RBF神經網絡相比較,結果表明支持向量機的分類效果和泛化能力最優;Hu等[11]分別將SVM算法和BP神經網絡算法用于預測股市,發現支持向量機的預測精度高于BP神經網絡算法支持向量機。
SVM在被廣泛應用的同時,國內外學者開始對SVM算法進行改進和優化。例如,Mangasarian等[12]提出一種用于求解兩個非平行平面的二次規劃問題的基于廣泛特征值的近似支持向量機(GEPSVM);隨后,Jayadeva等[13]提出孿生支持向量機(TWSVM),其計算速度快、推廣能力強,現今已被應用于模式識別、機器學習、數據分析、計算機視覺和圖像處理等多個研究領域之中。例如,Khemchandani等[14]和朱志賓等[15]基于TWSVM對圖像進行分類與檢索;欒詠紅等[16]利用TWSVM對標志物進行檢測和分類;王鵬等[17]基于TWSVM以滬深300指數為例對金融市場風險做預警研究,將TWSVM算法引用到市場經濟;柳長源等[18]提出一種基于TWSVM的發動機故障診斷方法,能有效描述汽車尾氣成分變化與發動機故障狀態之間的復雜關系。
核函數技術是SVM的核心思想,而核函數的選擇會影響SVM在高維特征空間中的非線性處理能力。樓俊鋼等[19]針對所給軟件失效數據進行核函數選擇,實驗結果表明不同的核函數在不同數據集上表現差異較大;楊朝等[20]分別以相似性、穩定性和復雜性及用戶實際應用需求作為評估指標,基于雷達輻射源信號對核函數進行評估,通過SVM測試的結果可知,在信噪比較小時,RBF核和Linear核的時間復雜度相對較小,而穩定性較差。Poly在信噪比偏大時,時間復雜度呈現驟降趨勢,評估結果更符合實際應用需求。同樣,TWSVM也能通過使用核函數來解決“維數災難”等問題,在金融市場研究中對TWSVM的核函數的評估就顯得尤為重要。
因此,本文針對實際應用股票數據維度高且噪聲數據含量多的情況,根據TWSVM本身具有時間復雜度低、魯棒性強等特點,將TWSVM與量化投資相結合,并構造高維失真二維數據進行TWSVM的核函數評估,選擇一個較為有效核函數,最終構建一個有效的基于TWSVM的量化投資策略。
GEPSVM是針對一組二分類數據樣本為其設計一對非平行的分類面。TWSVM由GEPSVM衍生而來,TWSVM方法與SVM方法的主要區別是,支持向量機的目的是尋找一個超平面來對樣本進行分割,而該方法采用兩個超平面進行分類,可以將經典SVM分類速度提升4倍以上。設訓練樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},y∈{-1,0},則有SVM算法得到的待求的劃分樣本集D的超平面{Hd}可以表示為:
wTx+b=0
(1)
式中:w={w1,w2,…,wm}T為超平面的法向量;X={x1,x2,…,xm}T,xi={xi1,xi2,…,xin}為第i個訓練樣本;b為m維的常數向量,根據最大間隔原則化為二次規劃問題,然后利用Lagrange優化方法可得到其對偶問題,學習最終得到的決策函數,表示為:
(2)
式中:φ(xi)代表一個映射;αi是拉格朗日乘子;K(x,xi)為核函數,將原始特征空間映射到另一個空間的選擇不同的核函數就可以生成不同的支持向量機。
而TWSVM算法首先將數據集合D∈Rm×n分為數據集A和數據集B,分別用d+、d-表示正樣本(類別為+1)和負樣本(類別為-1)集合,則A∈Rd+×n、B∈Rd-×n,線性TWSVM方法要搜索的兩個超平面{Hd+,Hd-}為:
(3)
式中:b1、w1、b2、w2是兩個超平面的法向量和位移項,x∈X。上述超平面的求解可以看作是解兩個二次規劃問題,正類和負類的樣本分別用矩陣Am1×n和Bm1×n表示,其中:m=m1+m2是總樣本數量;n是特征空間的維度;Ai(i=1,2,…,m1)是表示第個正樣本,δ1和δ2分別為兩個超平面的松弛變量,e1和e2是維度相適應的元素全為1的向量,C1>0(或C2>0)是錯誤分類的負(或正)類樣本到超平面距離的權衡因子。用一類構建目標函數而用另一類構建約束條件,則兩個二次規劃問題分別表示為:
(4)
s.t. -(Bw1+e2b1)≥e2-δ2
δ1≥0
(5)
s.t. -(Aw2+e1b2)≥e1-δ1
δ1≥0
用拉格朗日乘子法求解這一對凸二次規劃問題的對偶函數,分別利用拉格朗日乘子α,β≥0,為了防止病態問題,引入參數ε,由Karush-Kuhn-Tucker條件,得到原問題的對偶問題,表示為:
(6)
s.t. 0≤α≤C1e2
(7)
s.t. 0≤β≤C2e1
式中:P=[Ae1]m1×(n+1);Q=[Be1]m2×(n+1);通過凸優化求解可得到α、β。從而求得超平面的法向量和位移項。
(8)
當樣本點線性不可分時,應用核函數,將線性不可分問題轉化為線性可分問題,則要搜索的兩個超平面為:
(9)
此時,對偶問題中P=[K(A,CT)e1]m1×(m+1),Q=[K(B,CT)e1]m2×(m+1),最后求得:
(10)
由于樣本不可能同時出現在這兩個問題的約束下,因此每一個超平面都與一類訓練數據距離較近,而與另一類訓練數據距離較遠。對于待分類的數據集,依據它與兩個超平面中的哪一個最近來確定它屬于哪一個類別。因此對于任意一個新的樣本x∈Rm×n被分為1類或-1類的可能性取決于待分類點與兩個超平面的最小距離,即:
(11)
式(11)為TWSVM最終的決策函數。圖1為TWSVM分類的示意圖。
實驗數據來源于通聯數據,選取了2014年1月1日至2019年6月1日的上海證券市場規模大、流動性好的最具代表性的50只股票(上證50)每個交易日的數據,一共28 262條,其中訓練集與測試集之比為6 ∶4,所有因子數據都通過標準化處理,并去除了包含缺失值的股票。
(12)

(13)


(14)

續表1
隨著大數據時代的到來,研究者更傾向于分析大型復雜數據以獲取有效信息,到目前為止,為了提高數據分析的可信度,已經形成不少處理數據的方式,主要體現在特征工程,而數據變換就是特征工程的重要方式之一。在此基礎上,為了擴展TWSVM在量化投資領域的應用,以股票分類的正確率作為評價指標,基于TWSVM算法對不同核函數做了評估。常用的四個核函數分別是線性核、高斯核、多層感知器核、非齊次多項式函數,名稱及公式表達如下:
(1) 線性核(linear)
K(x,xi)=xTxi
(2) 高斯核(徑向基函數)(RBF):
(3) 多層感知器核(Sigmoid):
K(x,xi)=tanh(αxTxi+θ)
(4)d階非齊次多項式函數(ploy):
K(x,xi)=(xTxi+1)d
圖2是TWSVM在不同核函數下對高維數據的預測正確率進行比較的結果,橫坐標表示數據集特征的維度,縱坐標為測試集上100次訓練的平均正確率。數據集為隨機生成機器學習常用分類數據集,固定噪音的方差為0.1,數據集訓練的正確率幾乎都接近1,隨著維度的增加,linear核函數預測正確率的整體呈下降趨勢,Sigmoid核預測的正確率存在較大波動,當數據維度大于10時,使用RBF核函數時泛化能力較差,存在過擬合現象,poly表現核函數相對穩定,且在維度較大的時候出現正確率上升的趨勢。
poly核函數在TWSVM算法中具有很好的魯棒性,如圖3是不同噪聲數據預測的精確率的變化,其中橫坐標代表數據噪聲的方差大小,縱坐標為測試集上100次訓練的平均正確率。分別取特征數n=5、n=20、n=30和n=40對隨機分類數據進行學習,并逐漸提高噪聲數據的方差,隨著維度和噪聲的變大,預測的正確率整體有下降趨勢。
當n=5時,Sigmoid核函數時間復雜度大且學習效果差,而TWSVM算法使用RBF核函數分類的正確率在噪聲較小的情況下的預測結果較好,當噪聲過大時,其他兩個核函數更好。
當n=20時,數據維度較高,Sigmoid核函數預測結果存在波動,RBF核函數在TWSVM算法下測試的正確率偏低,而訓練的正確率趨近1,顯然存在過擬合現象,RBF核函數在TWSVM算法下不太適用。而此時,使用poly核函數的TWSVM算法趨于平穩且測試的正確率基本在80%以上,linear核函數預測的正確率基本處于poly核函數之下。
當n=30時,在預測正確率同時下降的基礎上,poly核函數在TWSVM算法中的預測正確率仍然處于一個高水平平穩的狀態。
當n=40時,Sigmoid核函數預測正確率變大,poly核函數與linear核函數之間相對預測能力拉開一定差距,由此可總結得:TWSVM算法中,(1) 在維度較低、噪聲數據方差較小時,可選擇RBF核;(2) 利用RBF核與Sigmoid核對不同數據分類的正確率波動較大,linear核與poly核的預測相對穩定;(3) 在維度較高、噪聲數據方差較大時,poly核的魯棒性最好,預測正確率較高。
上述TWSVM核函數評估中得到了ploy核函數在高緯度和噪聲數據中表現相對良好,且TWSVM算法預測準確率均高于SVM算法。因此,針對復雜多變的股票數據,使用ploy核函數建立了一個基于TWSVM的量化投資策略。
首先篩選股票數據,將篩選出來的28 262條股票數據看成xi,i=1,2,…,28 262。xi,1,xi,2,…,xi,34分別為第i條股票數據的34個因子,即X=[HSIGMA,HBETA,…,RSI],再將分類標簽yi為1類和-1類的分別組成矩陣A和矩陣B,得到A為13 171行34列,B為15 091行34列,計算出原矩陣X與A和B的核函數,再分別與維度相適應且元素全為1的向量組合,形成34列的矩陣P和Q,然后轉化成一對凸二次規劃問題。由于凸二次規劃問題中存在超參數d和C1、C2,其中:d為非齊次多項式核函數的階數;C1、C2為TWSVM算法的懲罰項系數。故采用網格搜索算法確定C1、C2及參數d。隨后通過凸優化求解得到股票的分類函數,再根據股票的分類結果和投資經驗設計投資方案。最終建立以下TWSVM量化投資策略,基本步驟如下:
第一步:獲取股票相關數據,股票數據進行分析和處理,保留有效因子,并將數據集按6 ∶4的比例分為訓練集和測試集。
第二步:根據股票訓練集數據計算出矩陣P和矩陣Q,構造一對凸二次規劃問題。
第三步:對凸二次規劃問題中的參數采用網格搜索的方式進行優化,得到最優參數使得TWSVM模型對股票數據的泛化能力達到最優。
第三步:根據式(10)計算兩個超平面的法向量及位移項,得到最終的股票分類函數。
第四步:用訓練好的股票分類函數對股票數據測試集進行分類,得到股票預測的結果。
第五步:確定股票的回測區間,根據區間內所有股票預測的結果設計投資方案。
實驗一共分為四個步驟。首先,為解決參數值隨機選取的不確定性,先設定將要選擇的參數組合區間,將34個股票因子導入SVM和TWSVM算法不斷地訓練模型,最后得到最優參數組合。其中SVM的網格搜索調參結果為C=10,TWSVM的網格搜索調參結果為C1=1,C2=1,d=2,ε取0.1。
隨后,對34個因子分別用SVM和TWSVM算法進行學習得到一個分類模型,由于Sigmoid核時間成本高,這里直接采用其他三個核函數記錄模型訓練的準確率和精確率,從圖4中可以得知在單個SVM算法對股票數據的學習中,poly核優于linear核,RBF核的預測正確率最差,而相同核函數下TWSVM的泛化能力均比單個SVM算法好,其中選用poly作為核函數的泛化能力最強,與核函數評價結果一致。
然后,給出投資策略并模擬交易。模擬交易時間是從2016年1月1日到2019年3月1日,根據股票數據與TWSVM算法求得的法向量的乘積加上位移項作為股票的得分,為了減少手續費,模擬實驗在每個月的最后一個交易日進行調倉,選出由TWSVM模型預測得到的排名前15的股票,并根據每只股在這15只股中的比重作為買入權重,以降低投資風險。次月按同樣的方式,若排名依然靠前,則保持持倉狀態,下跌則賣出[21]。圖5是TWSVM投資策略模擬交易的結果,縱坐標代表累計收益率,可以看出自2016年下旬后每個交易日都實現了盈利,雖然短時間內累計收益率起伏不定,但總體持續上升直到2018年初,最高收益率將近基準收益率的4倍。
最后,為了更客觀地評價基于TWSVM的量化投資策略,實驗將TWSVM與RF、SVM、Logistic三種傳統的量化投資策略進行對比,相同的投資金額和投資方式模擬交易發現TWSVM對股票預測的泛化能力最好,且從四個投資策略的模擬交易對比圖(圖6)來看,基于TWSVM模型的投資策略的累計收益率最高。由此可知,與Logistic、SVM和RF相比,TWSVM具有最為優異的預測性能。
從表2的策略回測績效指標統計可以看出,以上證50指數收益率為基準的年化收益率為5.08%,基于TWSVM模型的投資策略的年化收益率為28.91%,獲得了23.83%的超額收益,比其他三者分別多11.33百點分、5.81百點分、3.87百點分的超額收益。其夏普率和信息比率也較高,說明投資組合較佳,單位追蹤誤差所獲得的超額收益較高,在固定所能承受的風險下,報酬相對較大,但最大回撤23.82%,說明基于TWSVM的投資策略屬于一種主動、偏風險愛好型的投資方式,存在一定的風險,但可通過準確地判斷買賣信號來實現較高的回報收益,且TWSVM投資策略的最大回撤相對其他三者分別降低了8.94百點分、5.06百點分、4.54百點分,說明風險明顯降低。

表2 策略回測績效指標統計
傳統的SVM算法對高維噪聲數據集的預測存在一定的缺陷。本文利用核函數的數據轉換功能結合TWSVM自身的魯棒性,對常見的四個核函數進行評估,通過構造不同噪聲、不同維度的二維數據說明poly核函數下的TWSVM算法具有對高維噪聲數據分類的穩定性,從而驗證了TWSVM算法用于量化投資的可行性。然后以poly作為TWSVM的核函數,構建一個基于TWSVM的量化選股策略,以上證50成分股作為研究對象,并利用網格搜索選擇最優參數以提高TWSVM模型對股票預測的準確率。最終實驗結果表明基于TWSVM的量化選股策略不僅提高了投資組合的年化收益率,還降低了投資風險,對金融市場能起到規避風險的作用。但將TWSVM算法應用到股票的多分類情況中還有待進一步研究。