西南財經大學 陳瑩
關聯分析是一種重要的數據挖掘方法,本文將關聯分析這種工具推廣到解決金融投資問題。在第三部分,我們對十個分行業指數的同日相關性進行探究,并得到規律性最強的關聯規則。第四部分中,我們對十個分行業指數的相鄰日相關性進行探究,并得到規律性最強的關聯規則,這部分工作與時間序列分析中的動態相關系數計算類似,對實際投資策略具有很強的指導意義。第五部分中,我們利用前兩部分得到的規則設計策略,并進行跟蹤模擬交易,以便評價策略的有效性,從而驗證關聯分析方法的科學性。
大智慧股票行情軟件。
軟件中下載的原始數據為上證380能源,380材料,380工業,380可選,380醫藥,380金融,380信息,380電信和380公用這十個指數從2012年6月26日到2013年4月26日(連續204個交易日)的日收盤價格。在MTLAB中將原始數據矩陣命名為index。
關聯分析需要計算事件發生的概率以及條件概率,因此需要將原始數據轉化為體現收盤價格漲跌的類別變量。在MATLAB中將新矩陣命名為id380,如果第i天第j種指數上漲,相應位置元素為1,如果下跌,相應位置元素為0,如此我們得到一個203*10的0~1矩陣。
在同一天內,探索兩個行業指數的相關性對套利策略和投機策略幾乎沒有實際意義,因為t時刻的交易策略應該是t-1可測的。但是探究同日,或者靜態相關性可以為對沖策略提供一定依據,以達到構造資產組合對沖風險的效果。
在學習過的銷售數據關聯分析中,我們首先計算支持度和置信度。我們將“商品被購買”視為事件發生,“商品不被購買”被忽略。但在本文中,我們將指數漲跌視為不同的事件發生,并計算不同意義下的多種支持度和置信度。比如第i種指數與第j種指數反向變化的概率(支持度),第i種指數下跌條件下第j種指數上升的概率(置信度)等等。
這里我們只考慮各指數兩兩之間的關聯性,原因有兩點:(1)支持度與置信度數值較大時,關聯分析的實際意義更強,多指數計算出的支持度與置信度一般比較小。(2)設計策略時需要考慮交易成本,證券種類增加會使交易成本大幅度上升。基于這兩個原因,相鄰日指數間關聯分析部分也只對各指數進行兩兩之間的分析。
從支持度中我們可以看出,兩指數同向變化的概率整體而言比較高,而反向變化的概率比較低,這說明了不同行業指數之間的聯動特征。從置信度排名可以看出,可選與工業,材料與能源,可選與材料這三個組合的同漲跌關系非常顯著。而與其他行業指數反向關系比較明顯的是380金融指數,這也印證了金融市場與實體經濟此消彼長的“蹺蹺板”關系。
從置信度中我們可以看出380工業與380可選指數同增同減的條件概率高達92%以上,可以用來構造一多一空的投資組合對沖風險。相比而言,漲跌相反的情況下,置信度偏低,不超過60%,難以用來構造穩健的資產組合。
同日指數間關聯分析的意義在于呈現不同行業指數之間的相關性,但這種分析不能用于賺錢。只有利用比較顯著的跨時期關聯規則設計交易策略,才能用來賺錢。這種思想類似于“統計套利”。嚴格的套利要求在不承擔風險的情況下,無損失可能而有獲利機會。統計套利中,如果某一策略以90%的可能性獲利,如果統計規律可靠,長期來看這種策略便是有效的。
這里我們將探究第t-1天第i種指數漲(跌)的條件下,第t天第j種指數漲(跌)的概率,也就是“動態置信度”。因此在計算每個支持度和置信度之前,只需要對數據進行滯后一期的預處理。
與同日情況類似,兩指數同增同減的支持度和置信度都比較大,而一增一減的情況下支持度與置信度較小。380信息與380工業指數同增的置信度達到了89%,380信息與380可選指數同減的置信度達到了86%,這些規則可用來構造交易策略。
我們還可以得到兩條重要信息:380工業指數容易被其他版塊的利好消息拉動,具有一定滯后性;380信息指數的下跌對其他版塊的影響比較明顯,具有一定先行性。
這里,我們僅以最顯著的兩條關聯規則為依據構造如下策略:當日380信息指數收盤價高于前日時,在次日多頭一單位380工業指數;當日380信息指數收盤價低于前日時,在次日空頭一單位380可選指數。
目前中國不存在直接做多或者做空行業指數的金融工具,為了實現上述策略只能通過用股票復制指數的方法。這里我們不考慮買賣股票的手續費和賣空限制(考慮手續費,不允許賣空情形下,該策略收益率仍然顯著優于指數本身收益率)。
圖1為采取策略獲得的收益和“無為而治”獲得的收益的對比圖。藍線表示采取策略獲得的累計收益,紅線表示380工業指數的自身累計收益,綠線表示380可選指數的自身累計收益。關聯交易策略的效果十分顯著。但是這個交易策略效果評價有一定缺陷:得出支持度和置信度的樣本數據被用于了跟蹤評價策略的優劣,即高估了策略的質量。由于訓練樣本的截止日期為4月26日,目前跟蹤樣本仍有限。一個月后用另外的跟蹤樣本再對此策略進行評價更為合理。

圖1 關聯策略收益率與指數收益率對比
本文以關聯分析方法為工具,對十個上證380行業指數的漲跌規律進行分析。其中,同日指數間關聯分析給出了“同起同落”的指數組合以及“此消彼長”的指數組合。我們發現“同起同落”的指數組合具有更高的支持度和置信度,其規律更容易捕捉。380材料,380可選,380工業指數兩兩之間的同向變化條件概率都在88%以上,可用來構造對沖組合。相鄰日指數間關聯分析給出了漲跌有明顯領先—滯后關系的指數組合。這些指數組合的置信度達到80%以上時,可用來實現統計套利。我們用置信度最高的兩個指數組合(380信息,380工業)和(380信息,380可選)構造套利策略并進行套利效果跟蹤,發現這種策略的收益遠高于各個指數本身的收益。關聯分析在組合投資中的運用值得我們繼續挖掘。
[1] 陳京民,等.數據倉庫與數據挖掘技術[M].北京:電子工業出版社,2006.
[2] 安穎.基于Apriori算法的興趣集加權關聯規則挖掘[J].北京聯合大學學報(自然科學版),2008(04).