999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

正則稀疏化的多因子量化選股策略

2021-01-11 09:12:20舒時克
計算機工程與應用 2021年1期
關鍵詞:懲罰特征策略

舒時克,李 路

上海工程技術大學 數理與統計學院,上海201620

隨著信息技術的發展,數據的規模越來越大,數據往往會出現維度較高而樣本量較小的情況。因此,從眾多的特征中選取出有效的特征就成為了一個難點。針對這種高維數據,目前的處理的方式大體分成兩類:一類是從訓練數據出發,通過特征工程等手段篩選特征,再通過模型進行預測;另一類是從模型本身出發,在模型中加入具有稀疏性質的懲罰項能夠有效的篩選特征。經典的懲罰函數有L1 懲罰項、L2 懲罰項和Elastic Net懲罰項等。Jagnnathan[1]發現在線性回歸中加入L1懲罰項的Lasso模型,從而建立更好的投資組合模型。但L1懲罰項存在過度稀疏的問題。針對L1 懲罰函數的不足,Zou[2]在線性回歸中同時加入L1 和L2 懲罰項,構建了彈性網模型(Elastic Net),并將其運用到高維數據上,該模型不僅能夠克服了高維數據多重共線的問題,也克服了Lasso模型將特征壓縮的過度稀疏的問題。文獻[3]在對比了最小二乘(OLS)、Lasso 和Elastic Net 之后,應用于量化投資市場,發現Elastic Net 模型能夠比OLS 模型和Lasso 模型更有效的篩選因子,同時也能克服Lasso 模型將系數矩陣過度壓縮的缺點,并能構建出更加有效的投資組合。

文獻[4]指出Lasso 和Elastic Net 的解雖然滿足Oracle的稀疏性和連續性的假設,但是不滿足無偏性的性質,因此Fan 等人提出了SCAD 的懲罰函數,該懲罰項不僅滿足Oracle 的三個性質,并且也能對系數進行壓縮。文獻[5]提出了MCP 懲罰函數,該懲罰項也滿足Oracle的三個性質,而且能夠很好的處理特征之間存在很高的相關性的數據。文獻[6-7]表明Elastic Net、SCAD和MCP懲罰項在線性回歸模型中取得很好的效果。

在分類問題中,邏輯回歸作為一種統計分析方法,能夠對分類問題進行有效的判別[8]。但是在高維數據中表現卻不盡如人意。因此,為提高邏輯回歸模型的分類性能,目前在邏輯回歸模型中主要使用的懲罰函數有L1懲罰項、L2懲罰項和Elastic Net懲罰項[9]等。其中Elastic Net 懲罰項結合了L1 和L2 懲罰項的優點,但不滿足無偏性,即真實未知參數較大時,會產生較大的偏差。

因此,為處理特征之間復雜的關系,更好地篩選特征,本文在目前的邏輯回歸彈性網(LR-Elastic Net)的基礎上,將彈性網的L1 懲罰項替換為SCAD 和MCP 懲罰項,分別構建LR-SCAD模型和LR-MCP模型。

1 邏輯回歸彈性網

1.1 邏輯回歸

邏輯回歸作為一種統計分析方法,能夠對分類的問題進行判別。設X=(xij)n×p∈Rn×p,xij表示第i行數據的第j個特征的值,記xi=(xi1,xi2,…,xip)T,表示第i行數據的全部特征值,則特征矩陣X 為(x1,x2,…,xn)T,y為自變量,表示為(y1,y2,…,yn)T,代表xi的標簽,yi=1或0,則后驗概率估計P(yi=1|xi)和P(yi=0|xi)可以表示為:

其中,β=(β1,β2,…,βp)T是特征系數向量。則邏輯回歸的目標函數可以表示為:

1.2 邏輯回歸彈性網

在邏輯回歸的交叉熵損失函數上加上彈性網懲罰項,構建為邏輯回歸彈性網模型(LR-Elastic Net),該參數估計可以表示為:

其中,α為懲罰項系數,0 ≤λ≤1。加入彈性網懲罰項之后,既能夠篩選變量,將無關變量壓縮到0,同時又能夠避免特征系數向量過度稀疏。

2 正則稀疏化懲罰函數

Fan 和Li[4]提出了Oracle 性質來評判模型的優劣,主要包括三個性質:(1)稀疏性。模型中在估計參數時能將一些不重要的變量的系數壓縮到零。(2)無偏性。模型中對估計的參數應該是無偏的或者是近似無偏的。(3)連續性。為了避免模型的不穩定性,參數估計與對應的系數應該是連續的。

而LR-Elastic Net中的懲罰項L1范數雖然滿足Oracle的稀疏性和連續性,但是不滿足無偏性[4],即當真實未知參數較大時,會產生較大的偏差。

2.1 SCAD懲罰函數

因此,Fan 和Li[4]提出了SCAD 懲罰函數來選擇變量,并證明了該方法滿足Oracle的三個性質。SCAD的懲罰函數為:

其中a>2,且Fan和Li[4]通過最小化貝葉斯風險值及蒙特卡洛模擬實驗得出參數a的最優值約為3.7。SCAD懲罰函數的圖像,如圖1所示。

圖1 SCAD懲罰函數

SCAD的懲罰函數導數為:

2.2 MCP懲罰函數

Zhang[6]提出了MCP 懲罰函數,同樣滿足Oracle 的三個性質,并且能夠很好地處理特征之間存在很高的相關性的數據。

MCP懲罰函數為:

MCP懲罰函數的圖像,如圖2所示。

圖2 MCP懲罰函數

如圖2 可見,MCP 和SCAD 懲罰函數相似,隨著β的增加,懲罰力度逐漸減少,對回歸系數采取有差別的懲罰,從而得到更加精確的估計[10]。

3 正則稀疏化邏輯回歸

3.1 SCAD-邏輯回歸

由于LR-ElasticNet中的L1 懲罰項不滿足Oracle 無偏性的性質,為了能滿足Oracle 性質的稀疏性、無偏性和連續性,因此本文將邏輯回歸彈性網模型中L1 懲罰項替換為SCAD懲罰項,構建SCAD-邏輯回歸模型(LRSCAD),其目標函數可以表示為:

LR-SCAD 的求解使用了交替方向乘子法ADMM算法[5],ADMM算法結合了拉格朗日方法和對偶分解法的優點,通過增廣拉格朗日函數構造,把原本復雜的高維問題分解成兩個或者多個低維的更容易得到的全局解的交替極小化問題進行迭代求解,則LR-SCAD 目標函數可以表示為:

其中,ρ >0 為懲罰項系數,μ是對偶變量,通過引入θ和β-θ=0 的約束條件,簡化了原問題的求解。變量迭代的規則如下:

更新β :在第K+1 次的更新中,當θk和μk固定,需要通過求解

更新θ:在第K+1 次的更新中,當βk+1和μk固定,需要通過求解

對θ 求偏導并令其等于0,可以得到:

更新μ:在第K+1 次的更新中,當βk+1和θk+1固定,可以計算μk+1:

具體算法如下:

(1)隨機初始化βold,假設最終優化目標為F( )β ;

(2)在βold處利用式(8)泰勒展開,得到fold( )β ;

(3)利用式(17)(20)(21)迭代求得fold( )β 的最優結果βnew;

(4)在βnew處利用式(10)繼續泰勒展開,得到fnew( )β ;

(5)令βold=βnew,重復步驟(3)(4)直至收斂,最終得到解β。

3.2 MCP-邏輯回歸

同時,由于LR-Elastic Net 中的L1 懲罰項不滿足Oracle 無偏性的性質,為了能滿足Oracle 性質的稀疏性、無偏性和連續性,將邏輯回歸彈性網模型中L1 懲罰項替換為MCP 懲罰項,構建MCP-邏輯回歸模型(LR-MCP),其目標函數可以表示為:

LR-MCP 的求解同樣使用ADMM 算法,則LRMCP模型的目標函數可以表示為:

上式的增廣拉格朗日方程為:

參照LR-SCAD的求解方法,得出LR-MCP的迭代公式:

4 模擬實驗

為了探究在不同的數據結構下,不同懲罰函數的邏輯回歸模型在參數估計、變量選擇及模型準確度上的表現,因此設計了四組模擬實驗,研究LR-Elastic Net、LR-SCAD和LR-MCP模型的優劣。

4.1 評價指標

Benjamini 和Hochberg 在1995 年提出FDR(False Discovery Rate)和PSR(Positive Select Rate)指標,并廣泛運用在高維數據的模型的評價中[11-15]。FDR指標代表估計為非零的系數中假陽性占的比例,PSR指標代表真實模型的非零系數中真陽性所占的比例。

其中,FP代表真實系數為零,但估計成非零的系數個數;TP代表真實系數為非零,但估計為零的系數的個數;p為真實系數非零系數的個數。一般的,FDR越接近于0,PSR越接近于1,則模型表現越好。

RMSE(Root Mean Squared Error)則是用來評價估計系數與真實系數之間的差異大小的指標[16]。

其中,βi為真實系數,為估計系數。一般的,RMSE越接近于0,則模型表現越好。

正確率指標(Accuracy)則表示最終模型的預測正確樣本數量占總樣本的比例。

4.2 實驗結果

模擬實驗1 隨機生成小樣本數據n=100,p=10的二分類數據集,并且設定p個特征之間相關性系數r最大不能超過0.2,結果如表1所示。

表1 模擬實驗1結果

由表1 可知,在小樣本數據中,當特征之間的相關性系數r最大為0.2時,LR-Elastic Net模型對特征的壓縮效果比較明顯,其準確率Acc也最高。

模擬實驗2 隨機生成小樣本數據n=100,p=10的二分類數據集,并且設定p個特征之間相關性系數r最大不能超過0.8,結果如表2所示。

表2 模擬實驗2結果

由表2 可知,在小樣本數據中,當特征之間的相關性系數r最大為0.8 時,LR-Elastic Net 模型在FDR、PSR 和Acc 三個指標表現較好,模型分類效果最好,準確率達到了97%,且誤選率FDR 高于LR-SCAD 和LR-MCP模型,同時系數估計準確率較低。

模擬實驗3 隨機生成大樣本數據n=1000,p=20的二分類數據集,并且設定p個特征之間相關性系數r最大不能超過0.2,結果如表3所示。

表3 模擬實驗3結果

由表3 可知,在大樣本數據中,當特征之間的相關性系數r最大為0.2 時,LR-SCAD 和LR-MCP 模型在FDR、PSR 和Acc 三個指標相同且優于LR-Elastic Net模型,但LR-SCAD的系數估計準確率略差于LR-MCP。

模擬實驗4 隨機生成大樣本數據n=1 000,p=20的二分類數據集,并且設定p個特征之間相關性系數r最大不能超過0.8,結果如表4所示。

表4 模擬實驗4結果

由表4 可知,在大樣本數據中,當特征之間的相關性系數r最大為0.8 時,LR-MCP 模型在FDR、PSR、RMSE 和Acc 四個方面表現最好,LR-SCAD 模型次之,LR-Elastic Net模型相對較差。

綜上所述,LR-Elastic Net 模型在小樣本數據中的表現優于LR-SCAD 和LR-MCP 模型;而在大樣本數據集中,LR-SCAD和LR-MCP模型在特征相關性很強時,能夠很好地保留重要的變量,從而取得較好的分類效果,而LR-Elastic Net具有較強的特征壓縮的能力。

5 量化選股策略

優礦(http://uqer.io/)是研究量化投資的一個重要平臺,在該平臺上其因子數量超過400個。而不同的因子之間往往又互相存在著復雜的關系,故對因子的選擇就成為了一個研究的難點。而LR-Elastic Net、LR-SCAD和LR-MCP模型對特征選擇又有很好的表現。因此,本文考慮利用上述三種模型分別構建三種量化策略,應用于量化選股中。

5.1 策略構建

對滬深300 指數成分股數據,基于上述LR-Elastic Net、LR-SCAD 和LR-MCP 模型,建立LR-Elastic Net、LR-SCAD 和LR-MCP 策略。首先構建LR-Elastic Net策略,過程如下。

5.1.1 數據處理

(1)滬深300 指數成分股數據起始時間為t0,終止時間為t3,并取中間時間t1和t2,滿足t0<t1<t2<t3。將[t0,t1] 作為訓練集,記作T1;(t1,t2]作為測試集,記作T2;(t2,t3]作為回測區間,記作T3。

(2)選取股票因子,并確定股票因子矩陣X ,并計算股票月收益率,若收益率大于0,則標簽yi為1;若收益率小于0,則標簽yi為0。

(3)對因子矩陣X 進行歸一化處理,得到X′:

根據上述的歸一化得到的因子矩陣X′及股票標簽y,通過式(3)建立LR-Elastic Net模型。

5.1.2 LR-Elastic Net模型

(1)利用上述ADMM方法求解LR-Elastic Net模型的方法得到因子估計系數β。

(2)每月月末利用式(1)計算每只股票的后驗概率估計P(yi=1|xi)和P(yi=0|xi),股票的得分用si表示,即si=P(yi=1|xi)。

5.1.3 回測分析

(1)將si從大到小進行排序,取前10只股票,將這10只股票的得分記作S1,S2,…,S10,計算買入股票的權重qi:

其中,C為資金數,pi為月末股票i的價格。

通過上述步驟,得到LR-Elastic Net 策略,將(2)中的LR-Elastic Net 替換為LR-SCAD 模型,可得到LR-SCAD 策略;將(2)中的LR-Elastic Net 替換為LR-MCP模型,可得到LR-MCP策略。

5.2 月交易策略結果

本文以滬深300 指數成分股月度數據進行實證分析,取t0為2010 年1 月1 日,t3為2019 年5 月31 日,t1和t2分別為2014年1月1日和2015年12月31日,則T1為2010年1月1日至2013年12月31日,T2為2014年1月1 日至2015 年12 月31 日,T3為2016 年1 月1 日至2019年9月30日。

表5 策略因子表

圖3 因子系數結果

表6 月交易回測結果

利用量化平臺優礦網站,在考慮了成長因子、營運因子、交易因子、波動因子、盈利因子、估值因子、均線因子和趨勢因子等因素后,共選取了50個因子[17-19],如表5所示。

按照上述時間區間確定股票因子矩陣X 和股票的月收益率y,同時去掉含有缺失值的股票,并將因子矩陣經過歸一化處理。對上述處理完成的數據,利用上述ADMM 算法分別求得LR-Elastic Net、LR-SCAD 和LR-MCP 模型的因子估計系數β 。因子估計系數β 結果如圖3所示。可見LR-Elastic Net對因子的壓縮程度最大,能夠很好地實現在保留重要因子的同時剔除不重要的因子;而LR-SCAD 和LR-MCP 只有在因子估計系數較小時,將估計系數壓縮至零,當因子系數很大時,由于這部分系數是無偏的,則不進行壓縮,當介于這二者之間時,則進行部分壓縮,結果如圖3所示。

由于高頻率的交易會帶來過高的手續費,因此,本文采取月末策略進行調倉操作。此外,本文實驗在優礦(http://uqer.io/)量化平臺上進行,實驗所設的初始資金為10 000 萬元,采用買入0.1%的稅費,賣出0.2%的稅費,印花稅為0.1%,滑點為0。月交易回測結果,如表6及圖4所示。

回測結果表明,同期以滬深300指數收益率為基準的年化收益率為0.61%,而LR-Elastic Net、LR-SCAD和LR-MCP策略均顯著高于該水平,超額收益阿爾法值均在20%在以上。而LR-MCP 策略不僅年化收益率高于LR-Elastic Net策略,而且其夏普比、最大回撤等主要評價指標均優于其他兩種策略,這說明在相關性很強的股票數據中,LR-MCP 模型比LR-SCAD 和LR-Elastic Net表現更好。

圖4 月交易回測結果

圖5 周交易回測結果

表7 周交易回測結果

5.3 周交易策略結果

多因子量化選股是采用數量化的方法進行股票組合的選擇,將股票一系列的基本面因子作為選股標準,從而進行交易。

在現有的運用機器學習進行量化選股的研究中,普遍采用月度數據進行交易[3,18-20],交易頻率較低,而為了驗證本文提出的模型是否能夠在高頻交易中仍能取得較好的效果,因此使用周股票數據重復上述實驗。實驗過程與月交易策略相同,將月度股票數據替換為周股票數據,實驗結果如圖5及表7所示。

由回測結果可知,LR-SCAD 和LR-MCP 策略同樣優于LR-Elastic Net 策略,但實行周交易的回測收益的卻低于月交易策略。考慮到提高交易頻率后,稅費、傭金等交易費用也會顯著上升,為排除交易費用的影響,將月交易和周交易策略去除交易費用重新計算平均年化收益率,結果如表8所示。由表8可知,從月交易轉變為周交易策略時,交易費用也會顯著增長,并且交易費用的高低在一定程度上會對年化收益率造成較大影響,因此在確定交易頻率時控制交易費用也是不可忽視的。而將所有的交易策略在去除交易費用后重新計算年化收益率,發現月交易策略仍然優于周交易策略,可見模型在捕捉股票數據的短期波動規律存在一定不足之處,后續可以針對模型這方面的不足繼續展開研究,或選擇反應股價短期波動的因子進行進一步的研究。

表8 交易費用

5.4 日交易策略結果

同時為驗證模型在日交易策略上的效果,使用日股票數據繼續重復上述實驗。實驗過程與月交易和周交易策略相同,使用日股票數據進行實驗,實驗結果如圖6及表9所示。

圖6 日交易回測結果

表9 日交易回測結果

由回測結果可知,LR-SCAD 和LR-MCP 策略優于LR-Elastic Net策略,但相較于月和周交易策略,日交易策略各項主要評價指標顯著降低,LR-Elastic Net 策略甚至低于基準年化收益。而去除交易費用后重新計算平均年化收益率,結果如表10所示。

表10 交易費用

由表10 可知,日交易策略的交易費用較月交易策略增長率數10倍之多,極大程度地拉低了年化收益率,而在去除交易費用后,卻能夠取得較好的收益。因此,提高交易頻率后,交易費用的存在很大程度上影響了策略的收益率。

6 結束語

針對高維度數據集特征之間的復雜性,本文將邏輯回歸彈性網(LR-Elastic Net)中的L1 懲罰項替換為SCAD 和MCP 懲罰,分別構建LR-SCAD 和LR-MCP 模型,并利用ADMM算法進行求解。

在模擬實驗中發現LR-Elastic Net、LR-SCAD 和LR-MCP 模型在小樣本低相關性數據集中均能取得很好的效果,分類準確率都在90%以上;而在小樣本高相關性數據集中,LR-Elastic Net 模型明顯優于其他兩種模型。在大樣本數據集中,LR-SCAD 和LR-MCP 模型表現更好。

最后,將這三種模型運用到股票市場滬深300指數成分股數據中,構建相對應的月交易量化投資策略,發現LR-Elastic Net、LR-SCAD 和LR-MCP 策略均能顯著優于大盤指數,其較高的超額收益均在20%以上,并且LR-SCAD 和LR-MCP 策略優于LR-Elastic Net 策略。在此基礎上,進行周交易和月交易策略,發現策略在實際執行時交易費用將是不可忽視的一項。下一步,在本文基礎上,針對股票回測中的最大回撤等指標,研究在量化投資中如何利用懲罰函數有效控制風險;繼續改進模型或選取有效的高頻因子,以提高模型在高頻交易上的效果。

猜你喜歡
懲罰特征策略
例談未知角三角函數值的求解策略
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
如何表達“特征”
我說你做講策略
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
懲罰
趣味(語文)(2018年1期)2018-05-25 03:09:58
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
抓住特征巧觀察
真正的懲罰等
Passage Four
主站蜘蛛池模板: 亚洲不卡影院| 亚洲精品在线影院| 精品无码专区亚洲| 欧美日韩免费| 18禁黄无遮挡网站| 亚洲精品国产精品乱码不卞 | 91精品啪在线观看国产91| 亚洲国语自产一区第二页| 日韩一级毛一欧美一国产| 亚洲va视频| 成年人免费国产视频| 亚洲成人www| 国产在线八区| 美女内射视频WWW网站午夜| 一本久道热中字伊人| 久草网视频在线| 欧洲日本亚洲中文字幕| 久久九九热视频| 亚洲欧美成人综合| 精品久久久久无码| 国产视频一区二区在线观看| 99久久精品免费看国产电影| 伊人中文网| 波多野结衣一区二区三视频 | 欧美成在线视频| 乱人伦中文视频在线观看免费| 天堂成人av| 四虎永久免费地址| 一级一级特黄女人精品毛片| 亚洲AV人人澡人人双人| 丁香六月激情婷婷| 一级爆乳无码av| 91人妻在线视频| 国产黄网永久免费| 免费看美女毛片| 国产偷国产偷在线高清| 日韩亚洲综合在线| 亚洲国产精品一区二区高清无码久久| 精品国产网站| 免费网站成人亚洲| 欧美性色综合网| 国产伦精品一区二区三区视频优播 | 男女猛烈无遮挡午夜视频| 国产精品自在在线午夜| 亚洲无线一二三四区男男| 无码电影在线观看| 国产成人区在线观看视频| 九九视频免费看| 色婷婷国产精品视频| 精品视频91| 午夜久久影院| 黄色一级视频欧美| 亚洲国产日韩一区| 尤物成AV人片在线观看| 国产99欧美精品久久精品久久| 日韩无码黄色| 国产成人精品18| 亚洲成人网在线播放| 四虎影视库国产精品一区| 亚洲欧美人成电影在线观看| 国产精品林美惠子在线播放| 四虎综合网| 国产丝袜丝视频在线观看| 国产在线第二页| 全免费a级毛片免费看不卡| 国产小视频a在线观看| 亚洲国产天堂在线观看| 久久天天躁夜夜躁狠狠| 波多野结衣无码中文字幕在线观看一区二区| 精品国产福利在线| 色综合天天娱乐综合网| 18禁高潮出水呻吟娇喘蜜芽| 高清不卡毛片| 久久伊伊香蕉综合精品| 亚洲精品图区| 98超碰在线观看| 日韩不卡免费视频| 狠狠色婷婷丁香综合久久韩国| 亚洲系列无码专区偷窥无码| 精品国产三级在线观看| 国产日韩精品欧美一区喷| 国产成人综合久久精品尤物|