999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探究數(shù)據(jù)挖掘技術(shù)在量化選股中的應(yīng)用

2014-09-25 02:45:18劉裕良
卷宗 2014年8期
關(guān)鍵詞:數(shù)據(jù)挖掘

劉裕良

摘 要:量化投資是當(dāng)前金融投資領(lǐng)域非常熱門方向之一,而數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域也有廣泛應(yīng)用。本文主要概述了數(shù)據(jù)挖掘的基本概念、主要步驟、常用模型和方法,和量化投資中的關(guān)于選股的量化選股模型,探討和研究數(shù)據(jù)挖掘技術(shù)中的分類模型、聚類模型、關(guān)聯(lián)規(guī)則和序列模式等模型,在基本面量化選股和技術(shù)面量化選股方面的一些應(yīng)用,如多因子選股、板塊輪動選股和籌碼選股。

關(guān)鍵詞:數(shù)據(jù)挖掘;量化投資;量化選股

1 數(shù)據(jù)挖掘技術(shù)

1.1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但是又潛在有用的信息和知識的過程。[1]數(shù)據(jù)挖掘是一門新的交叉學(xué)科,一般認為是在統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)、信息科學(xué)、可視化技術(shù)乃至經(jīng)濟學(xué)等多門學(xué)科充分發(fā)展的基礎(chǔ)上形成的。數(shù)據(jù)挖掘概念提出以后,金融業(yè)首先對其表現(xiàn)出了極大的興趣,并率先將其納入應(yīng)用。目前數(shù)據(jù)挖掘在國外金融領(lǐng)域,特別是銀行已得到了廣泛應(yīng)用。

1.2 數(shù)據(jù)挖掘的主要步驟

在實際進行數(shù)據(jù)挖掘的過程中,根據(jù)CRISP-DM模型,一般可分為六個階段。

(1)、業(yè)務(wù)理解:從業(yè)務(wù)角度來理解數(shù)據(jù)挖掘目標和要求,并把業(yè)務(wù)理解的知識轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實現(xiàn)挖掘目標的最初規(guī)劃。

(2)、數(shù)據(jù)理解:從數(shù)據(jù)收集開始,通過一系列的數(shù)據(jù)探索和熟悉,識別數(shù)據(jù)質(zhì)量問題,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性。

(3)、數(shù)據(jù)預(yù)處理:是將各種不同來源的數(shù)據(jù)加以清洗、轉(zhuǎn)換和歸并,以適合數(shù)據(jù)挖掘技術(shù)的使用。一般包括數(shù)據(jù)類型轉(zhuǎn)換、計算缺省數(shù)據(jù)、消除噪聲、消除重復(fù)數(shù)據(jù)等。

(4)、建立模型:此階段對預(yù)處理過的數(shù)據(jù)應(yīng)用各種數(shù)據(jù)挖掘技術(shù),建立分析模型。一般地,相同數(shù)據(jù)挖掘問題類型會有幾種技術(shù)手段。某些技術(shù)對于數(shù)據(jù)形式有特殊規(guī)定,這時通常需要重新返回到數(shù)據(jù)預(yù)處理階段。

(5)、評估模型:階段主要包括通過評估備選模型,挑選冠軍模型,評價模型的穩(wěn)定性,確保模型正確回答了第一階段的業(yè)務(wù)問題。

(6)、模型發(fā)布:即將發(fā)現(xiàn)的模型投入業(yè)務(wù)應(yīng)用,產(chǎn)生商業(yè)價值,并且應(yīng)用效果要及時跟蹤和反饋,以便后期的優(yōu)化和更新。

1.3 數(shù)據(jù)挖掘的常用模型和方法

數(shù)據(jù)挖掘是通過數(shù)據(jù)來建立一些模仿真實世界的模型,并應(yīng)用模型來描述數(shù)據(jù)中的規(guī)律、規(guī)則及相互關(guān)系。這些模型不僅能夠為我們的投資行為或其他決策提供所需要的信息,而且還能幫助我們做些提前預(yù)測。常用模型有分類、聚類、關(guān)聯(lián)規(guī)則、序列模式等。

(1)分類模型 分類的目的是利用已有觀測數(shù)據(jù)建立分類器,來預(yù)測未知對象屬于哪個預(yù)定義的目標類。其任務(wù)是對數(shù)據(jù)集進行學(xué)習(xí)并構(gòu)造一個擁有預(yù)測功能的分類模型,用于預(yù)測未知樣本的類標號,把類標號未知的樣本映射到某個預(yù)先給定的類標號中。[1]分類技術(shù)是數(shù)據(jù)挖掘技術(shù)中應(yīng)用最廣泛的技術(shù),分類模型學(xué)習(xí)方法主要有:基于決策樹的分類方法、貝葉斯分類方法、k-最鄰近分類(KNN)、神經(jīng)網(wǎng)絡(luò)方法(如SVM支持向量機)等。

(2)聚類模型 與分類不同,聚類是一種無指導(dǎo)的學(xué)習(xí),沒有預(yù)定義的類編號。聚類是一個把數(shù)據(jù)對象集劃分成多個組或簇的過程,使得簇內(nèi)的對象具有很高相似性,但與其他簇中的對象很不相似,即所謂"物以類聚"。相異性和相似性根據(jù)對象的屬性值評估,并且通常用距離度量。[2]主要聚類方法有:劃分方法(k-means算法)、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。

(3)關(guān)聯(lián)規(guī)則 關(guān)聯(lián)分析是尋找數(shù)據(jù)項之間感興趣的關(guān)聯(lián)關(guān)系,用關(guān)聯(lián)規(guī)則的形式描述。關(guān)聯(lián)分析生成的規(guī)則帶有置信度和支持度,置信度級別度量了關(guān)聯(lián)規(guī)則的強度,支持度度量了關(guān)聯(lián)規(guī)則的重要性。關(guān)聯(lián)規(guī)則的挖掘過程分兩步,第一步先找出所有頻繁項集,第二步由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。[1]常用算法有Apriori算法和FP-growth算法。

(4)序列模式 序列模式與關(guān)系規(guī)則聯(lián)系密切,所不同的是序列模式中相關(guān)的項目或序列之間在時間維度上存在聯(lián)系。序列模式挖掘就是找出所有的頻繁子序列,發(fā)現(xiàn)頻繁序列算法大體有:類Apriori方法、GSP算法、基于投影方法、SPADE方法。[1]

2 量化投資和量化選股

2.1 量化投資及其優(yōu)勢

量化投資就是利用計算機技術(shù)并且采用一定的數(shù)學(xué)模型去踐行投資理念,實現(xiàn)投資策略的過程。量化投資主要是依靠數(shù)據(jù)和模型來尋找投資標的和投資策略。[3]量化投資過程就是利用數(shù)學(xué)、統(tǒng)計學(xué)、信息技術(shù)的量化投資方法來管理投資標的和投資組合的過程。數(shù)量化投資的組合構(gòu)建注重的是對宏觀數(shù)據(jù)、市場行為、企業(yè)財務(wù)數(shù)據(jù)、交易數(shù)據(jù)進行分析,利用數(shù)據(jù)挖掘技術(shù)、統(tǒng)計技術(shù)、計算方法等處理數(shù)據(jù),以得到最優(yōu)的投資組合和投資機會。量化投資主要內(nèi)容包括:量化選股、量化擇時、股指期貨套利、商品期貨套利、統(tǒng)計套利、期權(quán)套利、算法交易、高頻交易等。相比較傳統(tǒng)的定性投資,量化投資的主要優(yōu)勢在于紀律性、系統(tǒng)性、及時性、準確性和分散性。紀律性可以克服人性的貪婪和恐懼等弱點,容易嚴格做到止損止盈。系統(tǒng)性包括多層次的量化模型、多角度觀察和海量數(shù)據(jù)的處理。及時性體現(xiàn)在能及時快速跟蹤市場變化,不斷發(fā)現(xiàn)新的投資機會和新的策略模型。準確性指能準確客觀的評價交易機會。分散性指的量化投資能在控制風(fēng)險的條件下,實現(xiàn)分散投資的目標。

2.2 量化選股

量化選股就是利用數(shù)量化的方法選擇股票組合,期望該股票組合能夠獲得超越基準收益率的投資行為。[3]即根據(jù)某種方法判斷一只股票是否滿足某些條件,如果滿足則放入股票池,不滿足則從股票池中剔除。傳統(tǒng)股票分析技術(shù)主要分為基本面分析和技術(shù)面分析,相應(yīng)的量化選股也可分為基本面量化選股和技術(shù)面量化選股兩大類。股票基本面因素包括宏觀經(jīng)濟指標、行業(yè)背景、企業(yè)財務(wù)指標、公司經(jīng)營能力、公司估值等,常用基本面選股模型有多因子模型、風(fēng)格輪動模型和行業(yè)輪動模型。其中多因子選股的基本原理是采用一系列的因子作為選股標準,滿足這些因子的股票則被買入,不滿足的則賣出。多因子模型相對來說比較穩(wěn)定,因為在不同市場條件下,總有一些因子會發(fā)揮作用。風(fēng)格輪動模型是利用股票市場的大盤股和小盤股之間的二八行情特征變換進行選股,當(dāng)市場偏重那二成大比重的權(quán)重股市,選擇大盤股,當(dāng)市場出現(xiàn)八成小盤股上漲時,選擇小盤股,在風(fēng)格轉(zhuǎn)換初期及時介入,則可以獲得較高收益。行業(yè)輪動選股模型是指在經(jīng)濟周期不同階段選擇表現(xiàn)好的行業(yè),選擇相應(yīng)板塊的股票。技術(shù)面量化選股主要是根據(jù)股票價格K線組合、形態(tài)、趨勢以及成交量等因素,有趨勢跟蹤、籌碼選股、資金流選股、動量反轉(zhuǎn)選股等模型。

3 數(shù)據(jù)挖掘技術(shù)在量化選股中的應(yīng)用

3.1 在基本面量化選股方面的應(yīng)用

(1)分類模型在多因子選股模型的應(yīng)用。例如對A股的部分上市公司,首先選擇一些重要公司屬性,如行業(yè)地位、產(chǎn)品競爭力、盈利能力、負債情況等作為候選因子,對其公司等級進行評估,根據(jù)候選因子綜合值的不同,將股票分為不同類型,如藍籌股、成長型、垃圾股、題材型等,這過程在建立一個分類模型,同時也對一些候選因子進行檢驗,剔除一些對模型無效的因子。分類模型建立后,再用A股其他上市公司的數(shù)據(jù),去訓(xùn)練已經(jīng)得到的分類模型。分類模型驗證有效后,投資者就可直接根據(jù)一些公司屬性,選擇對應(yīng)股票進行投資。如基于貝葉斯分類的選股方法[4],決策樹算法股票分析和預(yù)測中的應(yīng)用[5]。

(2)聚類模型在多因子選股模型的應(yīng)用,例如基于SOM自組織映射網(wǎng)絡(luò)的股票聚類分析[3],選取A股一定數(shù)量股票的基本面指標,如每股收益、每股凈資產(chǎn)、每股經(jīng)營性現(xiàn)金流、凈資產(chǎn)收益率、凈利潤等作為主要研究對象。應(yīng)用SOM模型進行模擬聚類實驗,通過聚類的方法分析股票,得到聚類結(jié)果。分析聚類結(jié)果,發(fā)現(xiàn)公司獲利能力和成長性好的股票,每股收益、每股凈資產(chǎn)、凈資產(chǎn)收益率這個3個指標的值都比較高。這樣投資者就可根據(jù)這3指標選擇成長性好的股票。

(3)關(guān)聯(lián)規(guī)則在板塊輪動選股模型的應(yīng)用,首先收集股票歷史數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理,把每天板塊指數(shù)的漲跌情況轉(zhuǎn)化為二項數(shù)值,1代表上漲,0代表下跌。再根據(jù)板塊指數(shù)漲跌情況,采用二值型關(guān)聯(lián)規(guī)則算法進行挖掘,采用Apriori算法實施關(guān)聯(lián)分析。設(shè)定支持度和置信度的閾值后,可以從模型中找到許多有意義的強關(guān)聯(lián)規(guī)則。通過這些強關(guān)聯(lián)規(guī)則,可以知道相關(guān)板塊間的聯(lián)動強弱。這樣就能了解投資者在股市投資的輪動行為。[3]如果分析得出石化板塊和煤炭板塊有強關(guān)聯(lián)規(guī)則,那么當(dāng)石化板塊出現(xiàn)上漲時,煤炭板塊可能也會上漲,因為這兩個板塊同屬于能源行業(yè)。這樣在投資活動中,如果發(fā)現(xiàn)石化板塊開始上漲,就可以根據(jù)關(guān)聯(lián)模型,買入煤炭板塊的股票,等待該板塊的股票后續(xù)補漲。投資者就可以通過應(yīng)用關(guān)聯(lián)規(guī)則,預(yù)測不同板塊的輪動變化,實現(xiàn)高額的投資回報。

3.2 在技術(shù)面量化選股方面的應(yīng)用

序列模式在籌碼選股模型的應(yīng)用,主要是通過分析與時間相關(guān)的股票數(shù)據(jù),發(fā)現(xiàn)某一時間段內(nèi)某只股票籌碼變化的模型。例如通過收集某只股票數(shù)據(jù),分析發(fā)現(xiàn)其籌碼在某一段時間內(nèi)持續(xù)集中的趨勢,即股東戶數(shù)不斷減少,股票籌碼向一些主力集中的趨勢,則在未來一段時間,該股可能出現(xiàn)上漲,或者有跑贏大盤的可能,那么就可以把這些股票加入股票池中,隨時跟蹤和監(jiān)控,及時進行相應(yīng)的買入操作,以期在未來一段時間內(nèi)的股價上漲,獲得較高投資收益。

4 結(jié)語

隨著量化投資在中國的蓬勃發(fā)展,量化投資在整個金融投資市場的比重將不斷變大,聽著量化投資大師詹姆斯.西蒙斯的傳奇故事,也將會涌現(xiàn)更多量化投資方面人才。關(guān)于數(shù)據(jù)挖掘技術(shù)在量化投資中應(yīng)用和實戰(zhàn)將會更多,相信數(shù)據(jù)挖掘模型和算法在量化選股方面也會有更多應(yīng)用。

參考文獻

[1]蔣盛益.李霞.鄭琪.數(shù)據(jù)挖掘原理與實踐[M].北京.電子工業(yè)出版社.2011.8.

[2]著Jiawei Han Micheline Kamber Jian Pei譯范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)(原書第3版).北京.機械工業(yè)出版社 .2012.7

[3]丁鵬.量化投資—策略與技術(shù)(修訂版)[M]. 北京.電子工業(yè)出版社.2012.4.

[4]左輝,樓新遠.基于貝葉斯分類的選股方法[J].電腦知識與技術(shù)(學(xué)術(shù)交流).2008年10期

[5]魏雄.決策樹算法在股票分析與預(yù)測中的應(yīng)用[J].電腦知識與技術(shù)(學(xué)術(shù)交流).2007年09期.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 九色视频一区| 久久9966精品国产免费| 午夜国产精品视频黄| 日韩欧美国产成人| 日本欧美视频在线观看| 国产成人亚洲精品蜜芽影院| 色综合婷婷| 久久国产香蕉| 欧美视频在线观看第一页| 青草91视频免费观看| 亚洲国产成人久久77| 久久天天躁狠狠躁夜夜躁| 亚洲中文字幕97久久精品少妇| 中文字幕不卡免费高清视频| 国产精品美乳| 亚洲人成亚洲精品| 99热精品久久| 国产精品国产主播在线观看| 丁香五月亚洲综合在线| 国产激情国语对白普通话| 99re在线视频观看| 国产乱子伦无码精品小说| 亚洲综合久久一本伊一区| 亚洲精品你懂的| 国产幂在线无码精品| 激情无码字幕综合| 国产精品亚洲一区二区三区在线观看| 日韩第九页| 日本不卡在线| 国产成人精品亚洲日本对白优播| 国产精品久久久免费视频| 国产精品开放后亚洲| 国产自无码视频在线观看| 国产噜噜噜| 国产精品亚欧美一区二区| 久久精品电影| 新SSS无码手机在线观看| av性天堂网| 久久精品一品道久久精品| 在线亚洲精品福利网址导航| 久久精品中文无码资源站| 中文字幕在线日韩91| 亚洲成人精品久久| 中文国产成人久久精品小说| 国产精品欧美亚洲韩国日本不卡| 999在线免费视频| 欧美日本一区二区三区免费| 久久久黄色片| 91麻豆国产视频| 国产精品高清国产三级囯产AV | 欧美午夜理伦三级在线观看| 怡红院美国分院一区二区| 精品国产欧美精品v| 国产精品999在线| 伊人成人在线| 国产成人在线小视频| 在线欧美日韩国产| 国产精品永久久久久| 精品91视频| 日韩欧美视频第一区在线观看| 成人国产免费| 蜜桃视频一区二区| 素人激情视频福利| 亚洲欧美日韩天堂| 一级毛片免费高清视频| 色一情一乱一伦一区二区三区小说| 99re这里只有国产中文精品国产精品 | 国产91精品调教在线播放| 在线看国产精品| 成人在线观看一区| 亚洲第一极品精品无码| 久久久久亚洲Av片无码观看| 日韩av手机在线| 国产精品9| 亚洲欧美日韩动漫| 亚洲欧美另类日本| 欧美日韩在线国产| 国产偷国产偷在线高清| 国产91色| 99久久国产精品无码| 欧美第一页在线| 国产免费黄|