999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言的關(guān)聯(lián)規(guī)則應(yīng)用實例

2018-04-09 01:13:37
福建質(zhì)量管理 2018年6期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)庫

(四川大學(xué) 四川 成都 610000)

一、關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是美國IBM Almaden Research Center Rakeesh Agrawal等人于1993年首先提出來的KDD研究的一個重要課題。關(guān)聯(lián)規(guī)則挖掘本質(zhì)是從大量的數(shù)據(jù)中或?qū)ο箝g抽取關(guān)聯(lián)性,它可以揭示數(shù)據(jù)間的依賴關(guān)系,根據(jù)這種關(guān)聯(lián)性就可以從某一數(shù)據(jù)對象的信息來推斷另一個的信息。

二、關(guān)聯(lián)規(guī)則在股票市場中的應(yīng)用

在證券交易市場中,每天都有以交易行情為主的大量數(shù)據(jù)匯入數(shù)據(jù)庫。如果把同一天股票的上升(或下降)事件看成是被放入同一個貨籃的貨物,那么一個時期的股票交易數(shù)據(jù)就會形成多個貨籃數(shù)據(jù)。既然可以挖掘出規(guī)則:“如果一個貨籃中有嬰兒紙尿布,那么該貨籃中有啤酒的概率是80%”,也可以挖掘出同一時期內(nèi)股票上升(或下跌)的聯(lián)動規(guī)則。Apriori 算法恰好是解決這類問題的有效方法,但是,由于股票行情數(shù)據(jù)是以時間序列方式存儲在數(shù)據(jù)庫中,無法直接用Apriori 算法進(jìn)行數(shù)據(jù)挖掘;要在股票行情數(shù)據(jù)庫中挖掘出根據(jù)時間而前后聯(lián)動的關(guān)聯(lián)規(guī)則,需要在貨籃數(shù)據(jù)中多引入一個參數(shù):時間間隔。

另外,為了提高挖掘過程的有效性,還應(yīng)確定目標(biāo)關(guān)聯(lián)規(guī)則(即元規(guī)則)的形式。根據(jù)上面給出的用戶感興趣的規(guī)則形式:“T時間內(nèi),當(dāng)A股票價格上漲時,B股票價格也會隨之上漲”。所以我們主要關(guān)心的是股票交易的時間和漲跌幅,其他如開盤價、成交量等可以認(rèn)為是一些無關(guān)信息。

(一)數(shù)據(jù)來源

本文從國泰君安數(shù)據(jù)庫中選取從2016年8月至2017年8月所有交易日下編號靠前的部分股票作為測試樣本,以探求關(guān)聯(lián)規(guī)則在股票市場中的應(yīng)用,剔除停盤日后初始下載樣本數(shù)為52109條。

(二)數(shù)據(jù)預(yù)處理

1.導(dǎo)入數(shù)據(jù)

首先,我們將包含編號(gtacode)、股票名稱(Title)、交易日期(accpertime)、開盤價(Opnprc_JY)、收盤價(Clsprc_JY)和漲跌幅在內(nèi)的原始數(shù)據(jù)通過txt的形式導(dǎo)入到R語言中。

>setwd(“/Users/zhongzhong/Documents”)

>mydata

導(dǎo)入數(shù)據(jù)后,使用View(mydata)將會在軟件中顯示出所導(dǎo)入的數(shù)據(jù)。

2.數(shù)據(jù)的檢驗

(1)缺失值

①識別缺失值

我們首先用is.na()函數(shù)識別數(shù)據(jù)中的缺失值。

②探究缺失值

然后我們用sum(is.na())函數(shù)計算上海這個數(shù)據(jù)框中缺失值的數(shù)目,得到為1。

(2)錯誤值

除了缺失值以外,我們還需要檢驗數(shù)據(jù)中有沒有不符合實際的情況,比如漲跌幅中不可能有超過+10%和-10%的股票。經(jīng)檢驗,沒有出現(xiàn)這種情況。

(3)變量類型

在數(shù)據(jù)錄入過程中,我們通過str()函數(shù)發(fā)現(xiàn)gtacode為數(shù)值型(int),Title和時間為(Factor),其余都為類別型(chr),所有在后面的數(shù)據(jù)清理當(dāng)中需要進(jìn)行類型的轉(zhuǎn)換。

3.數(shù)據(jù)的清理

(1)缺失值的處理

通過na.omit()移除所有含有缺失值的觀測,使得數(shù)據(jù)中不再含有缺失值。

(2)類型的轉(zhuǎn)換

通過as.character()對Title進(jìn)行轉(zhuǎn)換為字符型,然后通過as.Data()對時間進(jìn)行轉(zhuǎn)換。

4.數(shù)據(jù)的規(guī)整

考慮到主要關(guān)鍵信息是股票交易的時間和漲跌幅,所以只篩選出編號、時間和漲幅三列有效數(shù)據(jù):

>mydata<-mydata[,c(1,3,6)]

為了清晰明了的挖掘出用戶感興趣的規(guī)則形式:“T時間內(nèi),當(dāng)A股票價格上漲時,B股票價格也會隨之上漲”,我們首先設(shè)定出一個時間間隔,同時限定最小漲幅來減少工作量。

定義1 設(shè)最小漲幅Zmin,|Zmin|<10%

定義2 設(shè)過票交易集T={T1,T2,…,Ts},其中T1=2016-08-02,Ts=2017-08-02

按最小漲幅篩選之后,可以由下圖看到,之前5萬多條數(shù)據(jù)驟減到了1345條,故時間段上我們將不做篩選調(diào)整,保留一年交易日的數(shù)據(jù):

>mydata1<-subset(mydata,漲跌幅>=0.05)

>view(mydata1)

5.apriori算法運用

這樣之后,我們將mydata1讀出為txt格式,為后面讀入成transactions數(shù)據(jù)格式做準(zhǔn)備。然后使用read.transactions函數(shù)轉(zhuǎn)換成事務(wù)型數(shù)據(jù),可以利用dim(trans)和summary(trans)來查看數(shù)據(jù)集的基本情況。

圖1 apriori算法代碼展示

上圖得到前五個item的支持度分別為0.10169492、0.10169492、0.09322034、0.08898305、0.08898305。

這里我們所做的是在生成規(guī)則:知道了頻繁項集,過濾掉非頻繁項集,并找出第一步的頻繁項集中的規(guī)則:

>sum(itemFreq)

>trans[size(trans)>1]

>myrules=apriori(trans,parameter=list(support=0.01,confidence=0.1,minlen=2,maxlen=20,target=“rules”))

接下來我開始使用apriori算法生成一條關(guān)聯(lián)規(guī)則myrules如上圖:支持度為0.01,置信度為0.1,這里的minlen和maxlen是指規(guī)則的LHS+RHS的并集的元素個數(shù),具體的規(guī)則顯示在下圖中。

圖2 apriori算法顯示

從返回結(jié)果中看,可以看到總共有1299條規(guī)則生成。同時,有236條交易記錄的transaction,225個商品item等信息。然后使用summary(myrules)可以查看規(guī)則匯總信息如下,包括每個籃子(交易)中含有的股票數(shù)目以及支持度、置信度的最小值、最大值和中位數(shù)等信息。

圖3 規(guī)則匯總信息

第一部分:規(guī)則的長度分布:就是minlen到maxlen之間的分布。如上例,len=2有492條規(guī)則,len=3有372條規(guī)則…

第二部分:quality measure的統(tǒng)計信息

第三部分:挖掘的相關(guān)信息。

了解了這些信息以后,我們所最關(guān)心的就是具體規(guī)則了,使用inspect()函數(shù)進(jìn)行查看具體的規(guī)則,下面我們先展現(xiàn)前十條規(guī)則:

圖4規(guī)則的具體展示

三、相關(guān)結(jié)果

本文選擇了國泰安數(shù)據(jù)庫中的部分股票進(jìn)行關(guān)聯(lián)規(guī)則的應(yīng)用實驗分析,得到了許多有意義的規(guī)則。如上圖,在支持度為1%,置信度為10%的條件下,代碼為000026和000678的兩只股票有同時上漲的趨勢,在上述挖掘結(jié)果的基礎(chǔ)上,我們可以進(jìn)行二次挖掘,進(jìn)一步分析各支股票之間趨勢變化的周期性和多維相似性等,得到更多有用的結(jié)果。

【參考文獻(xiàn)】

[1]Usama Fayyad,Gregpru Oatesdu-Shapiro,Padhraic Smyth,RAMASACY UTHURU SAMYMY,ETAL.Advances in Knowledge Discovery and Data Mining[M].AAAI Press/The MIT Press,1996.

[2]Gregory Piatesdy-Shapiro,Willam J Frawley,Editors.Knowledge Discovery in Databases[M].AAAI Press,1991.

[3]陸麗娜,陳亞萍,揚麥順,等.挖掘關(guān)聯(lián)規(guī)則算法的優(yōu)化處理[J].計算機工程與應(yīng)用,2000,(8):99~102.

[4]鄭朝霞,劉延建.關(guān)聯(lián)規(guī)則在股票分析中的應(yīng)用[J].成都大學(xué)學(xué)報,2002,(12),46-49.

猜你喜歡
關(guān)聯(lián)規(guī)則數(shù)據(jù)庫
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨的規(guī)則和演變
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 91免费国产在线观看尤物| 日本五区在线不卡精品| 国产精品9| 色爽网免费视频| 成人亚洲国产| 亚洲成人黄色在线观看| 国产精品内射视频| 国产伦精品一区二区三区视频优播| 一级爱做片免费观看久久| 亚洲男人天堂久久| 麻豆精品在线| 亚洲欧美综合在线观看| 久久精品人妻中文视频| аv天堂最新中文在线| 国产精品专区第1页| 黄片在线永久| 2020久久国产综合精品swag| 免费aa毛片| 午夜在线不卡| 亚洲精品欧美日本中文字幕| 色视频国产| 毛片在线看网站| 亚洲成人网在线播放| 国产美女一级毛片| 欧美午夜性视频| 国产草草影院18成年视频| a级毛片网| 国产精品蜜芽在线观看| 国产99热| 97一区二区在线播放| 美美女高清毛片视频免费观看| 久久综合色88| 欧美成人手机在线观看网址| 99精品免费欧美成人小视频| 亚洲第一区欧美国产综合| 久久夜色撩人精品国产| 人妻丝袜无码视频| 69视频国产| 91一级片| 在线观看视频一区二区| 免费一级毛片在线播放傲雪网| 国产精选自拍| 日韩精品一区二区三区视频免费看| 婷婷99视频精品全部在线观看| 人人91人人澡人人妻人人爽| 国产一区二区在线视频观看| 国产午夜一级淫片| 亚洲人成网站在线播放2019| 99精品这里只有精品高清视频| 亚洲中文字幕久久精品无码一区 | 精品视频91| 日本久久网站| 无码福利日韩神码福利片| 国产免费一级精品视频| 中文字幕中文字字幕码一二区| 婷婷激情亚洲| 免费黄色国产视频| 日本一区二区三区精品视频| 亚洲综合婷婷激情| 精品色综合| 亚洲成网777777国产精品| 欧美有码在线观看| 国产激情影院| 国产在线精品香蕉麻豆| 欧美在线三级| 亚洲色欲色欲www在线观看| 激情无码视频在线看| 亚洲AV无码一区二区三区牲色| 国产欧美日韩精品综合在线| 青青国产视频| 澳门av无码| 欧美亚洲国产精品第一页| 国产拍在线| 国产成人精彩在线视频50| 国产在线欧美| 伊人成人在线视频| 国产精品欧美亚洲韩国日本不卡| 国产丝袜啪啪| 日本一本正道综合久久dvd| 亚洲国产理论片在线播放| 国产精品999在线| 国产精品伦视频观看免费|