文/牛丹辰 韓曉琳,山西財經大學財政金融學院
隨著計算機、數據庫和Internet技術的發展應用,上市公司可以更為方便快捷地公布股票信息,同時投資者可以更為有效地、及時地獲取信息,這也就導致了股票市場涌現出了各式各樣的股票信息。面對新的發展形勢,如何從龐大的數據信息中找到有用的知識為投資者的投資行為提供指導,已成為一個重要的研究方向。自Agrawal等提出關聯規則挖掘的Apriori算法以來,越來越多的研究應用于證券市場。目前這些研究基本集中于兩大方面,一是挖掘各個股票的股價漲跌關聯 ,另一方面則是以股票收益率為出發點進行分析。本文集中研究挖掘各個股票收益率之間的關聯關系。
1993年,Agrawal等人在首先提出關聯規則概念,同時給出了相應的挖掘算法AIS,但是性能較差。1994年,他們建立了項目集格空間理論,并依據上述兩個定理,提出了著名的 Apriori算法,至今 Apriori算法仍然作為關聯規則挖掘的經典算法被廣泛討論,以后諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組,第二階段再由這些高頻項目組中產生關聯規則。
關聯規則挖掘的第一階段必須從原始數據集合中,找出所有高頻項目組。高頻的意思是指某一項目組出現的頻率必須達到某一水平。某一項目組出現的頻率稱為支持度,以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式求得包含{A,B}項目組的支持度,若支持度大于等于所設定的門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Fr equent k-itemset),表示為 Large k。算法再從Large k的項目組中再產生 Large k+1,直到無法再找到更長的高頻項目組為止。關聯規則挖掘的第二階段是要產生關聯規則。從高頻項目組產生關聯規則,是利用前一步驟的高頻 k-項目組來產生規則,在最小信賴度的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。
本文采用中國證券A股市場2016~2017年共 260個交易日的數據,刪除金融行業公司、數據不齊全的公司、ST公司,得到近2 000支股票的日收盤價,并據此計算出股票收益率作為測試值 ,加入主觀興趣度約束和客觀興趣約束,挖掘出真正感興趣的關聯規則。由于關聯規則挖掘的是布爾型數據 ,這里需要對收益率數據進行區間的劃分,為增強便利性與實用性,文章放棄使用SQL語句實現數據庫中收益率數據區間的劃分,而是選擇在程序設計中用代碼實現。文章將收益率劃分為三個區間 , 0~10 %(L),11%~25%(M),26%~100(H)。并且將所有數據隨機均分成兩部分,一部分為訓練數據 ,一部分為測試數據。
文章采取應用經典 Apriori 算法在股票行情數據中挖掘關聯規則的方法 該方法的目標是在股票行情數據中找出類似于“T 天內 ,如果 A 股票收益率上漲 ,則 B股票收益率也上漲的概率是80%”的關聯規則。設置最小支持度分別為 0.2、0.25、0.3和 0.35,最小置信度分別為0.7、0.8、0.9、0.95,客觀興趣度RI要求大于0。得到如下結果:

由上圖可以看出 ,本文所設計的方法在上述現實數據源上可達到70 %以上的預警準確率,通過合理設置參數,最高可達到93 %的準確率。隨著置信度的增加,預警準確率總體呈上升趨勢;而支持度的影響就沒有那么明顯了,而且在置信度為0.9時,支持度與挖掘準確率反而呈反比例趨勢。這可能是因為訓練階段導出的規則集,測試數據源中支持度相對較低的部分,其置信度反而要高。
本文在簡要介紹目前數據挖掘技術在股票數據的應用,加入了“主觀興趣度”與“客觀興趣度”的雙約束條件進行的數據挖掘,挖掘可以用來預測股價變動趨勢的規則,并運用 Apriori 算法,使用中國證券市場2016—2017年的股票收盤價格數據庫作為測試集,發現了很多有價值的規則,這些規則很難通過肉眼分析或查看股票基本資料來確定它的原因,可以看出,關聯規則分析“挖掘”出了隱藏在數據中“知識”,且得到的關聯規則的準確度大大地提高。