999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在股票財務指標中的應用

2015-05-30 18:48:08蔡麗
數學學習與研究 2015年7期
關鍵詞:數據挖掘

蔡麗

【摘要】本文利用數據挖掘中的分類方法,選取了部分上市公司的財務比率數據,用R軟件進行分析,為投資者提供決策依據.

【關鍵詞】 數據挖掘;財務指標;分類方法

【基金項目】北京市教委科研計劃項目(KM201410011006)

一、引 言

數據挖掘是從大量不完全、有噪聲、隨機的實際應用數據中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識的過程.目前已經用于客戶關系管理、銀行風險項目評估和金融市場等多個領域,用于財務指標分析的還不多見.本文旨在通過數據挖掘方法分析上市公司的財務指標數據,建立模型,輔助投資者深入認識公司的財務狀況,為多數股民,特別是散戶進行相關問題的正確決策提供數據支持.

二、分類算法

分類在數據挖掘中是一類很重要的方法,在商業上的應用最多.其目的是學會一個分類函數或分類模型,能把數據庫中的數據項映射到給定的某一個類別.本論文主要側重數據挖掘中分類算法在股票財務指標方面的應用.其中用到決策樹、隨機森林、支持向量機(SVM)三種算法.

三、分類模型的建立

1.數據理解

本文的數據來源于銳思金融數據庫,所選的數據為2012年10月8日前上市的公司信息.屬性包括:每股指標中的每股收益和每股凈資產,盈利能力中的銷售凈利率,成長能力指標中的凈資產收益率、凈資產增長率和凈利潤增長率等12個屬性,包括了公司不同能力方面的財務比率數據.因變量是根據2012年10月8日和2013年10月8日的收盤價與這兩天大盤的收盤價變化率相比,若比大盤的收盤價的變化率高,則標記為“好”,反之標記為“差”.

2.數據處理

(1)決策樹

本文建立決策樹[3]的過程中,用到的是rpart.Control函數,其中,最小樣本量minsplit為20,進行交叉驗證剪枝的交叉折數xval為10,最大樹深度maxdepth為5,最小代價復雜度剪枝中的復雜度參數CP值為0.01.

劃分特征空間時,用到的是gini指標,它用來度量數據劃分或者數據集的不純度,數據集D的gini指標公式為:Gini(D).其中,pi是D中樣本屬于Ci類的概率,并用Cj,D[]D

估計.

同時構建決策樹過程中用到的重要變量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.

根據最后形成的決策樹得到分類規則,比如:NAPS≥4.9,NOCF≥2.3e+9則預測為bad.

(2)隨機森林

本文中,隨機森林共建立了500棵決策樹,每個節點的候選輸入變量個數為3.基于袋外觀測的預測誤判率為42.76%.由袋外觀測的混淆矩陣來看,單個模型對兩個類別的預測精度均不理想.隨機森林對所有觀測進行預測,預測誤差為0.

在評價各輸入變量的重要性時,要用到importance函數,其中MeanDecreas

e Accuracy表示預測精度的平均減少量,MeanDecreaseGini表示給出節點異質性指標的平均減少量.為了更全面直觀地評價各輸入變量的重要性,用varImpPlot函數進行作圖,見圖1:

輸入變量重要性測度散點圖圖1 輸入變量重要性測度散點圖

從對輸出變量預測精度的影響看,每股凈資產、銷售凈利率、流動比率、經營現金凈流量比較重要.從對輸出變量異質性下降程度的影響看,同樣是這幾個變量較為重要,即每股凈資產、銷售凈利率、流動比率、經營現金凈流量不同的上市公司,對是否優于大盤有較大的影響.

(3)SVM

在對數據處理的過程中,文中利用網格搜索法10折交叉驗證尋找較優參數,確定cost和gamma值,構建SVM模型.

根據最后SVM對測試集的預測結果,可以得到ROC曲線,見圖2:

在圖2中,橫坐標代表錯誤的正例率(FPR),縱坐標代表正確的正例率(TPR).希望TPR盡量的大,FPR盡量的小即圖中的曲線越靠左上方說明預測得越好.而從圖中的曲線來看,預測效果還有較大的差距.

四、分析與總結

經過比較,隨機森林給出了最高的預測率60%,決策樹其次,支持向量機排在最后.見表1:

分析 表1可以看出: 從三種方法對測試集的分類正確率來看,隨機森林最高,但它們在處理其他行業數據時,精確度達到90%以上[6-8],可見,數據本身對模型的結果還是有很大的影響.因此,股市想要通過分析財務比率來達到很好的預測效果還是很困難的,雖然與所構建的模型有關,但最大的原因還在于股市本身的波動性[9].

【參考文獻】

[1]趙選民,薛建樓.利用數據挖掘技術分析上市公司財務狀況[J].中國管理信息化.2009,12(3):30-32.

[2]李航.統計學方法[M].北京:清華大學出版社,2012.

[3]John Durkin,蔡競峰,蔡自興.決策樹技術及其當前研究方向[J].控制工程,2005,12(1):15-18.

[4]馬景義,吳喜之,謝邦昌.擬自適應分類隨機森林算法[J].數理統計與管理,2010,29(5):806-811.

[5]薛薇.基于R的統計分析與數據挖掘[M].中國人民大學出版社,2014.

[6]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預測中的應用[J].中國衛生統計,2013,30 (3): 422-423.

[7]袁敏,胡秀珍.隨機森林方法預測膠原蛋白類型[J].生物物理學報,2009,25 (5): 349-354.

[8]張華,曾杰.基于支持向量機的風速預測模型研究[J].太陽能學報,2010,31 (7): 928-931.

[9]張彥來.數據挖掘在股票投資中的應用[D].北京:首都經濟貿易大學,2010.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 久久久久国色AV免费观看性色| 四虎综合网| 看国产毛片| 成人福利视频网| 囯产av无码片毛片一级| www.99在线观看| 毛片免费视频| 免费高清自慰一区二区三区| 欧美区一区| 国产成人永久免费视频| 亚洲天堂.com| 久青草免费在线视频| 国产午夜无码片在线观看网站 | 国产一级在线播放| 亚洲香蕉久久| 无码 在线 在线| 精品人妻无码中字系列| 色呦呦手机在线精品| 国产精品成人观看视频国产| 日本黄网在线观看| 秋霞午夜国产精品成人片| 黄色一级视频欧美| 成人午夜福利视频| 亚洲大尺码专区影院| 天堂av综合网| 国产女人在线观看| 国产成人亚洲欧美激情| 日韩欧美国产三级| 97久久免费视频| 日韩区欧美国产区在线观看| 欧美亚洲第一页| 国产免费网址| 精品国产成人高清在线| 国产成人精品无码一区二| 国产网友愉拍精品视频| 亚洲天堂成人在线观看| 国产喷水视频| 三上悠亚在线精品二区| 99国产精品一区二区| 国产福利免费视频| 亚洲水蜜桃久久综合网站| 99精品免费欧美成人小视频 | 无码人中文字幕| 综合成人国产| 精品国产成人a在线观看| 91精品国产丝袜| 国产日产欧美精品| 亚洲色图在线观看| 日本免费a视频| 小说 亚洲 无码 精品| 久久这里只精品热免费99| 精品国产一二三区| 国产一区三区二区中文在线| 91久久精品日日躁夜夜躁欧美 | 中文字幕亚洲专区第19页| 人妻少妇乱子伦精品无码专区毛片| 午夜欧美理论2019理论| 四虎国产永久在线观看| 久久这里只有精品66| 精品无码视频在线观看| 久久大香伊蕉在人线观看热2| 亚洲国产中文在线二区三区免| 国产乱子伦视频在线播放| 亚洲人妖在线| 99久久人妻精品免费二区| a级毛片免费看| 国产精品香蕉在线| 19国产精品麻豆免费观看| 18禁影院亚洲专区| 成人福利在线观看| 欧美亚洲中文精品三区| 国产免费精彩视频| 日本欧美一二三区色视频| 亚洲一区二区三区在线视频| 国产精品一区二区不卡的视频| 激情综合网激情综合| 亚洲女同欧美在线| 操操操综合网| 国产18在线播放| 成人免费午间影院在线观看| 国产白丝av| 亚洲天堂网站在线|