[摘要] 近年來,時態數據挖掘的研究對商業、金融、醫療診斷、科學與工程等領域的數據分析具有重要意義,因此時態數據的挖掘方法已經成為數據挖掘的一個研究熱點。本文主要討論時態關聯規則在股市走勢中的應用。選取相對強弱指標RSI,收集交易數據進行實證分析,得出了若干條有用的關聯規則。
[關鍵詞] 時態關聯規則 技術分析 股價走勢
一、引言
近年來對關聯規則的探討一直是數據挖掘中的熱門研究課題。關聯規則的挖掘對象一般是事務型數據庫,其中的一個主要應用是在零售或交易數據庫中關聯規則的采掘。由于大部分的關聯規則挖掘都沒有考慮數據庫中所包含的時態語義,因而可稱之為傳統的或靜態的關聯規則。事實上,由于數據的獲得都隨時間變化,時間是數據本身固有的因素,許多數據庫中的記錄都帶有時間標記,如交易記錄中的交易時間,病歷信息庫中的診斷時間等。時態數據庫的出現必然要求在知識發現過程中考慮時間因素。
二、技術分析理論
技術分析法(Technical Analysis)是通過對證券的歷史數據,如過去交易所發生的價格、時間、成交量的思考來推算未來行情,從而建立起買賣證券的規則,以優化收益、規避風險的一種投資理論。技術分析中涉及預測股價走勢的部分都類似于關聯規則中的前件后件關系。而交易數據庫中存儲的數據多是連續型的數據,因此在應用數值型關聯規則分析時需要先將其離散化,將數據轉化為二值型,再利用二值型規則的挖掘方法來實現。
本文以RSI(相對強弱指標)為例。RSI(Relative Strength Index)指標以一特定時期內股價的變動情況推測價格未來的變動方向,并根據股價漲跌幅度顯示市場的強弱。
三、數據預處理
根據技術分析理論,我們采用從國泰君安大智慧行情系統下載的價格數據和技術指標數據來挖掘有時態約束的數值型關聯規則。我們選擇的個股是工商銀行(601398)從2006年10月27日上市起至2008年2月29日的318個交易數據。本文驗證的是RSI(6)的預測力。首先對價格中的收盤價數據計算每日漲跌幅,并將連續的屬性值進行離散化分類后得下表1:
相對強弱指標RSI的數據可以直接從行情系統的技術分析版塊下載得到。系統中可以得到RSI(6)、RSI(12)、RSI(24),這里我們選擇變化靈敏的RSI(6),并從2006年11月2日開始記錄。RSI的連續屬性值劃分為4種布爾型的數據,利用SPSS做變量計算得到表2所示的數據:
為了挖掘數值型關聯規則,將兩表合并,并把RSI屬性作為前件,漲跌幅屬性作為后件,得下表3:
四、當日RSI和當日漲跌幅間的規則挖掘
使用表3的數據,我們可以分析和計算當日RSI數值和當日漲跌幅之間的關聯關系。上文中已指出技術指標RSI數值處于不同的階段對應不同的操作,這些操作是基于對股價走勢的預測。表4是當日RSI與當日漲跌幅之間不同屬性取值的支持度和置信度。
①當RSI屬性值為“極強”時:
由于RSI為“極強”本身出現的次數有限(為41次),所以相對應的漲跌幅支持度都較小。但是在技術指標取極端值的情況下,我們更關心它的預測力,即相對應規則的置信度。由表4可見,當日RSI處于“極強”區域中時,當日股價下跌的概率很小(2.44%),大跌幾乎不可能出現;而震蕩即小幅波動的概率為24.39%;上漲(包括小漲和大漲)的概率很高,總和為73.18%,說明當日股價走勢較好的概率較大。總之,當RSI為“極強”時,我們可以得出結論:當日股價將震蕩或上升,而且上升的概率更大。
②當RSI屬性值為“極弱”時:
與RSI為“極強”相反的極端情況為RSI“極弱”的情形。與“極強”相比,“極弱”出現次數更少(4次),導致其在研究期間各規則的支持度極低,但確有不容忽視的高置信度。由表5可見,當RSI為“極弱”時,當日股價有50%的可能是大跌,50%的可能是小跌,而震蕩、小漲、大漲的情形在本例中未曾出現。因此我們可以得出結論:當RSI為“極弱”時,當日股價有非常大的可能下跌。
③當RSI屬性值為“強”時:
RSI為“強”的屬性共出現142次,相對應的漲跌狀況中,震蕩的概率較高為40.85%,其次為小漲24.65%,接下來為小跌和大漲,最后是大跌。由表6可知各種情況沒有明顯區別,相對來說震蕩上升的可能性更大些,說明這是一個多頭的市場,可以進行買入操作。
④當RSI屬性值為“弱”時:
RSI為“弱”的屬性共出現131次,相對應的漲跌狀況中,小跌的概率較高為34.35%,其次為震蕩32.06%,接下來為大跌和小漲,最后是大漲。由表7可見各種情況沒有明顯區別,相對來說震蕩下跌的可能性更大些,說明這是一個空頭的市場,應進行賣出操作。
五、關聯規則分析
綜上所述,如果不考慮支持度,并設定40%的置信度閥值,在漲跌幅被劃分為5個屬性區間的基礎上,我們只能挖掘出3條有效的數值型關聯規則:
(1)RSI=“極弱”=>當日股價“大跌”(confidence=50%)
(2)RSI=“極弱”=>當日股價“小跌”(confidence=50%)
(3)RSI=“強”=>當日股價“震蕩”(confidence=40.85%)
如果將“大跌”、“小跌”和“”大漲、“小漲”分別合并為“下跌”和“上漲”,那么在置信度閥值為40%的情況下,我們可以得到更抽象的5條規則:
(1)RSI=“極強”=>當日股價“上漲”(confidence=73.18%)
(2)RSI=“極弱”=>當日股價“下跌”(confidence=100%)
(3)RSI=“強”=>當日股價“震蕩”(confidence=40.85%)
(4)RSI=“強”=>當日股價“上漲”(confidence=40.14%)
(5)RSI=“弱”=>當日股價“下跌”(confidence=51.14%)
六、結論
本文在引入股市技術分析理論的基礎上,選取相對強弱指標RSI,把時態關聯規則挖掘引入到股市走勢分析中,通過收集交易數據進行了實證分析,驗證了技術指標的預測力,給投資者提供重要的參考意義。
參考文獻:
[1]J.M.Ale,G.H.Rossi.An Approach to Discovering Temporal Association Rules[C].In:Proc.of the 2000 ACM Symposium on Applied Computing,2000:294~300
[2]歐陽為民,蔡慶生.在數據庫中發現具有時態約束的關聯規則[J].軟件學報,1999,10(5):527~532
[3]李少年孟志青:雙事件時態關聯規則的知識發現問題[J].計算機科學, 2001,29( 8):71~73
[4]陳成王永縣:股市技術分析理論研究發展綜述[J].經濟師,2005年第5期:13~15
[5]韓楊:對技術分析在中國股市的有效性研究[J].經濟科學,2001年第3期:49~57