999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的量化選股策略研究
——以有色金屬行業為例

2018-09-13 10:42:22
新商務周刊 2018年14期
關鍵詞:特征模型

1 模型介紹

1.1 樸素貝葉斯

貝葉斯定理是在250多年前發明的算法,在信息領域內有著很高的地位。經典的貝葉斯定理如下:

P(B)是先驗概率,是指根據以往經驗和分析得到的概率;

P(A|B)是條件概率,是指在事件A發生的條件下,事件B發生的概率;

P(B|A)是后驗概率,是指根據以往經驗和分析得到的概率。

樸素貝葉斯是經典的機器學習算法之一,是基于經典的貝葉斯原理和特征條件獨立假設的分類方法建立的。它是基于一個簡單的假定:給定目標值時屬性之間相互條件獨立,這也是樸素貝葉斯被稱為“樸素”原因。

對于每個數據樣本,用屬性集X={X1,X2,……,Xn}來描繪樣本的n個屬性,用分類集C={C1,C2,……,Cm}來表示數據樣本的m個分類,結合貝葉斯定理,有下式成立:

當且僅當

1.2 樸素貝葉斯的假設

樸素貝葉斯模型有兩個假設:一個是所有變量對分類均是有用的,即輸出依賴于所有的屬性;另一個是這些變量是相互獨立的,即不相關的。拿分類問題舉例,用樣本x(假設是一個n維的向量),我們要求P(y|x),來估計所屬的類別y。根據貝葉斯公式,可以得到:

對于樸素貝葉斯,既然條件獨立,那么就可以把我們要求解的這個式子寫成下面的樣子:

2 樸素貝葉斯在多因子選股中的應用

本研究在利用樸素貝葉斯進行選股時,利用了數據集i=1,2,...,d代表的是特征值的個數,c=1,2,...,n代表樣本的個數。至于 k=1,2,...,m代表的則是股票的種類。由于我們是通過基本面數據進行測算的,因此公司的各個特征,即不同的財務指標是呈離散狀態分布的,基本滿足常見的概率分布。由于這種樸素貝葉斯方法最重要的是概率的順序而非準確的概率值是多少,所以無論它的分布方式是連續的還是離散的,對于決策的偏差不會有太大的影響。

本研究中,在每一個因子下,都將股票分為了三類。因此在訓練集中,有些因子的取值可能并不在其中,但是這不并代表這種情況發生的概率為0,因為未被觀測到,并不代表出現的概率為0。所以樸素貝葉斯分類概率估計時,通常要進行平滑處理,常用拉普拉斯修正來解決這個問題。拉普拉斯修正的含義是,在訓練集中總共的分類數,用 N表示;di屬性可能的取值數用 Ni表示,因此原來的先驗概率 P(c)的計算公式由:

被拉普拉斯修正為:

類的條件概率P(x|c)的計算公式由:

被拉普拉斯修正為:

測試結果經過拉普拉斯平滑修正之后,避免了因為訓練集中某項概率為零而導致的最終求出的結果概率為零,起到了修正的作用。

3 模型測試流程

3.1 數據獲取

(a)股票池:從全部的滬深300股票中剔除了已退市股票后,挑選出有色金屬行業的股票。

(b)滾動回測區間:2016-1-1到 2017-12-31

3.2 特征和標簽提取

利用數據挖掘對股票的未來走勢進行預測主要有兩個方面,一是通過分析基于股票市場的時間序列數據;二是通過分析上市公司的財務報表對股票的基本面進行挖掘。股票的走勢取決于公司的發展情況,因此可以通過公司的財務報表進行分析。

在原始特征上,調取了開源的python財經數據接口包Tushare中基本面季度財務數據,包括盈利能力、營運能力、成長能力、償債能力、現金流量六大方面,共30個因子。為了保持時間上的一致性,在標簽提取上,計算季度交易最后一天收盤價與季度交易第一天收盤價的差值和季度交易第一天收盤價的比率并排序后,將處在前2 5%的有色金屬行業股票認定為高收益的股票,而后75%的股票認定為低收益股票。

3.3 特征預處理

3.3.1 主成分分析(PCA)

主成分分析利用降維的思想,使得數據在低維下更容易處理、更容易使用。相關重要的特征更能在數據中明確的顯示出來,更能去除數據噪聲。主成分分析把原始數據經過線性變換,導出少數幾個主成分,使它們盡可能多地保留原始數據的信息,且彼此間線性無關。

通過對每期訓練集中所有的因子進行數據標準化,計算所有因子的協方差矩陣,求出協方差矩陣的特征值和特征向量,選擇包含信息最多的8個特征向量。

3.3.2 分箱

樸素貝葉斯算法要求分類輸入,且減少輸入特征的不同值的數量,算法性能可能會提高。對于主成分分析降維后的每個數值型因子,通過分箱法中的三分位數分級方法,分為低、中、高三組股票。

3.4 滾動訓練集和交叉驗證集合成

機器學習的交叉驗證一般是將樣本數據進行劃分,一部分作為訓練集樣本,剩下的作交叉驗證數據。而本模型中涉及的樣本是基于時間序列的季度財務指標和盈利率,在交叉驗證時,如果某個季度的指標一部分被分進了訓練集,另一部分被分進了驗證集,就會出現用已知結果進行預測的“偷看”行為。因此,本文在訓練和驗證模型時,采用了基于時間序列的交叉驗證方法。

圖1 時間序列的滾動回測訓練模型

模型中的樣本長度為9個季度。首先將第1季度的特征作為訓練集,第2季度的盈利率作為驗證集,對其貼標簽并分類。然后將第2季度的特征作為訓練集,第3季度的盈利率作為測試集進行分類,以此類推,直到最后將第8個季度的數據作為訓練集,第9季度作為測試集。在數據的訓練和驗證過程中,完成了9輪滾動回測,不斷優化模型,使預測結果更準確。

基于時間序列的交叉驗證法雖然對計算的要求較高,但使用這種方法不僅可以避免訓練和測試樣本重合所導致的模型過擬合,也能最大程度利用樣本,為機器學習提供最多訓練數據。

3.5 構建投資組合

為了更好的了解,應當如何分配投資一個股票組合中每只股票的比例,我們需要按照市值對每一只股票進行加權。其實這種思想在現在的股票投資市場中非常常見,投資者使用某一種指數來確定自己的投資比例,而其中在中國內地的股價指數最為常用的是市值加權指數。

3.6 回測結果

通過回測,我們得出超額收益率(alpha)=0.0503,年化超額收益率(yearalpha)=0.0252,信息比率(IR)=0.3845,夏普比率(sharpe)=3.2067,根據結果,我們發現超額收益率高于基準收益滬深300指數,年化超額收益率在絕大多數情況下高于基準收益率,同時其信息比率和夏普比率都較高。因此我們可以得出該策略優于大盤具體運行結果如下:

圖2 樸素貝葉斯模型績效分析

4 總結與展望

4.1 投資建議

由于本研究在進行數據回測的過程中發現,每一次測試出的股票組合存在一定的差異性,為了減小誤差,我們在多次測試之后,選取出多數情況下權重比例都大于0.1的10支股票進行推薦。

根據模型的回測結果,投資者可以考慮北方稀土[600111]、江西銅業[600362]、中金黃金[600489]、山東黃金[600547]、馳宏鋅鍺[600497]、西部礦業[601168]、金鉬股份[601958]、銅陵有色[000630]、云鋁股份[000807]。

在樸素貝葉斯模型中,將30個基本面財務數據的特征因子經過主成分分析后,降維成8個主要特征因子,以股票的季度收益率為標簽分類。經過訓練,回測后,以市值加權指數法構建投資組合。在回測期間,超額收益率基本高于基準收益滬深300指數,。

我國有色金屬行業生產運行總體平穩。雖然供給過剩、成本上升,科技創新和拓展應用有待加強,行業仍有風險,但受到消費轉暖、環保趨嚴及供給側結構性改革等多方面因素的影響,有色金屬市場行情走勢向好。考慮到中美貿易戰,中短期的投資者可以投資黃金等關聯股票。考慮到新能源汽車行業的發展態勢良好,長期的投資者可以關注鈷鋰等關聯股票。

4.2 模型缺陷

雖然該貝葉斯選股模型的回測表現良好,但是不可否認,模型依然存在著一定缺陷,其中主要有三類問題。

如上文所述,貝葉斯假設成立的條件是特征之間相互獨立。而在多因子模型中,以多個季度的財務指標為預測標簽的特征之間卻相互不獨立,部分指標間(如毛利率和凈利率)還存在著較高的相關性。這將導致兩個高度相關的特征在訓練過程中被帶入模型兩次,使得此特征在模型中的權重大大增加,導致預測結果有所偏差。

模型中使用了主成分分析對各特征進行降維、降噪和去冗余,但是該方法存在兩處不足:一是綜合評價結果與選取的特征的相關程度高低成正比。當特征間相關性較低時,每個主成分投射于結果維度的信息量越少,為滿足累計方差貢獻率達到85%以上水平,可能需選取較多的主成分,此時降維的作用就不明顯。二是主成分分析只是一種“線性”降維技術,只能處理線性問題。而在對特征進行降維時,不僅特征間可能有非線性關系,主成分與原始數據之間也可能呈非線性關系,如果簡單地進行線性處理,必然導致評價結果產生較大程度的失真。

[1]嚴井池.淺析供給側改革對我國有色金屬行業發展的影響[J].中國金屬通報,2017,2016(8):66-67

[2]李靜梅,孫麗華,張巧榮,等.一種文本處理中的樸素貝葉斯分類器[J].哈爾濱工程大學學報,2003,24(1):71-74.

[3]任民宏,肖海蓉.基于樸素貝葉斯分類算法的股指預測研究[J].陜西理工學院學報(自科版),2014(3):68-73.

[4]葉雙峰.關于主成分分析做綜合評價的改進[J].數理統計與管理,2001(02):52-55+61.

[5]趙薔.主成分分析方法綜述[J].軟件工程,2016,19(06):1-3.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲高清无码精品| 亚洲码一区二区三区| 日本一本在线视频| 日韩高清成人| 国产国产人成免费视频77777| 大乳丰满人妻中文字幕日本| 亚洲乱码视频| 欧美国产菊爆免费观看| 国产白浆视频| 五月天福利视频| 日韩无码黄色| 亚洲国产成人精品一二区| 美女国产在线| 欧美三级日韩三级| 久久semm亚洲国产| 高清久久精品亚洲日韩Av| 日本精品一在线观看视频| 国产女人在线| 伊人网址在线| 一级爆乳无码av| 国产91透明丝袜美腿在线| 日韩在线视频网站| 日本欧美一二三区色视频| 在线国产你懂的| 99视频精品在线观看| 制服丝袜国产精品| 婷婷五月在线| 国产成人av大片在线播放| 91偷拍一区| 精品国产网站| 91在线国内在线播放老师| 亚洲欧美成人| 国产精女同一区二区三区久| 亚洲色大成网站www国产| 久久精品人人做人人| 又爽又大又黄a级毛片在线视频| 亚洲69视频| 77777亚洲午夜久久多人| 亚洲系列无码专区偷窥无码| 四虎永久在线| 高清码无在线看| 国产亚洲视频在线观看| 丰满人妻中出白浆| 亚洲一级无毛片无码在线免费视频 | 91色爱欧美精品www| 亚洲人人视频| 黄片一区二区三区| 国产亚洲高清在线精品99| 高清亚洲欧美在线看| 国产亚洲精品va在线| 国产亚洲精品资源在线26u| 91在线精品麻豆欧美在线| 日韩无码白| 欧美日韩v| 欧美在线一级片| 国产精品va免费视频| 一级香蕉视频在线观看| 高清欧美性猛交XXXX黑人猛交 | 免费毛片视频| jizz国产在线| 久久国产av麻豆| 成人亚洲国产| 这里只有精品在线播放| 成人精品午夜福利在线播放| 国禁国产you女视频网站| 亚洲中文在线视频| 天堂久久久久久中文字幕| 亚洲国产精品日韩av专区| 国产毛片片精品天天看视频| 狼友av永久网站免费观看| 国产成人高清精品免费| 91成人精品视频| 91香蕉视频下载网站| 制服丝袜亚洲| 黄色污网站在线观看| 亚洲婷婷六月| 无码一区18禁| 亚洲侵犯无码网址在线观看| 国产成人综合久久精品尤物| 永久在线播放| 精品国产免费观看一区| 在线中文字幕日韩|