陸 瑤
(東北財經大學 管理科學與工程學院,遼寧 大連 116025)
為了對原始時間序列數據進行維約簡,傳統的時間序列數據建模通常采用分段表示的方法,整體可劃分為2類:基于時域的分段表示方法與基于變換域的分段表示方法。
對于本文的基本研究對象——商品期貨,為充分還原其主要的市場特征,即單邊運行模式及震蕩情形,本文引入數理統計中線性回歸的思想,基于市場行為,對時間序列進行切分處理。
在對時間序列數據進行切分時,針對每個子序列進行線性回歸,當切分得到的子序列的回歸判定系數R2大于設定的閾值r時,可將時間序列中的下一個數據點加入該子系列中繼續計算,否則,可將當前數據點視為切分斷點,從該數據點開始搜尋下一個子序列,直至整個序列搜索完畢或到達最新時間點。對于切分后得到的數據,長度達到3及以上的子序列,即可視為市場單邊模式序列,采用線性回歸結果進行描述;對于切分斷點,相連即得到市場震蕩點序列。
以倫敦金屬交易所(LME)交易品種之一的倫銅期貨為主要研究對象,將2001年1月2日至2015年5月12日的倫銅指數日交易數據的收盤價作為樣本,進行數據的切分處理以及后續的規律挖掘,其中回歸判定系數閾值r設定為0.7。
具體可獲得3632個交易日的交易數據,包括各交易日的開盤價、收盤價、最高價、最低價、成交量、持倉量等信息,如表1。

表1 倫銅指數交易數據
按照上述算法描述,對3632個交易日收盤價序列進行數據切分,獲得單邊模式序列及震蕩點序列。
如圖1所示為2015年3月13日至2015年4月17日40個交易日的收盤價序列的切分結果。

圖1 倫銅指數切分數據
對于切分后得到的線段序列,每個線段序列以2個屬性進行描述:單邊模式/震蕩調整持續時間、單邊模式/震蕩調整趨勢幅度。
本節在市場切分后,基于改進的頻繁特征模式挖掘過程,對單邊運行的深度進行預測。著重研究對切分得到的單邊模式序列及震蕩點序列的符號化表示,在此基礎上基于互關聯后繼樹模型的頻繁特征模式挖掘算法,以及通過頻繁特征模式匹配實現單邊運行深度預測的過程。
傳統的時間序列頻繁特征模式挖掘基本上可概括為兩階段:序列特征的描述及挖掘算法的設計。即首先利用移動時間窗口對時間序列進行分段,并對各個子段進行聚類,利用形成的符號對序列特征進行描述。在此基礎上,利用關聯規則挖掘思想及算法,對上述符號化序列進行頻繁特征模式發現。本文提出,對切分后得到的線段序列,結合市場實際運行特征,對線段在時間軸上的長度及線段的斜率分別進行符號化,利用得到的二維屬性組進行頻繁特征模式挖掘。
基于上節思想,將2001年1月2日至2015年2月5日的倫銅指數日交易數據作為樣本,設定回歸判定系數閾值為0.75,進行數據切分,獲得了單邊模式序列及震蕩點序列。對上述1070組切分后形成的線段序列,針對震蕩點序列與單邊模式序列,按照不同的策略,選取二維屬性組(持續時間分類標記、運行深度分類標記),進行符號化表示:
將震蕩點序列的持續時間分類標記設為10,運行深度分類標記設為100;
將單邊模式序列持續時間分類標記按照超短期、短期、中期、長期分別設為1、2、3、4,運行深度按照是否超過相鄰的上一單邊模式序列的深度分別設為1、-1。
在對上述樣本數據切分后形成的1070組線段序列選取二維屬性組(持續時間分類標記、運行深度分類標記),進行符號化表示的基礎上,將2001年至2011年涵蓋的833組符號化的線段序列作為主要的訓練數據,根據基于互關聯后繼樹頻繁特征模式挖掘過程,對其建立tSIRST(時間序列互關聯后繼樹)模型,設定最小支持數閾值,并基于tSIRST模型進行頻繁特征模式挖掘。表2所示為設定最小支持數為3,最小置信度為70%情況下,挖掘得到的頻繁特征模式。
根據頻繁特征模式的挖掘結果,設定最小置信度閾值進行篩選,利用篩選后的頻繁特征模式,對2012年至2015年市場實時跟蹤得到的特征模式進行滾動匹配,以實現對單邊運行深度的預測。
通過精確的頻繁模式匹配,實現對單邊運行深度的預測,對預測效果的評價設定以下指標:預測準確率、模式覆蓋市場機會比率、模式覆蓋市場幅度比率。
預測準確率是對挖掘得到的頻繁規則在實時跟蹤中真實的預測效果的評價。模式覆蓋市場機會比率、模式覆蓋市場幅度比率,反映了挖掘得到的頻繁規則的市場應用價值。其比率越高,說明通過該方式可把握的市場機會越多,參與市場的收益越高。
綜上,基于改進的頻繁特征模式挖掘過程,對2012年至2015年,倫銅市場單邊運行深度進行滾動預測,預測結果如表2所示,其中因樣本期內2015年切分后數據較少,將其與2014年合并預測,在頻繁特征模式挖掘過程中,設定支持數閾值等于3,設定置信度閾值等于0.6。

表2 單邊運行深度滾動預測結果
表2 表明,在設定的置信度閾值等于0.6時,通過挖掘得到的頻繁特征模式數較多,模式覆蓋的市場機會及市場幅度比率都相對較高,但由此進行的頻繁特征模式匹配以實現對單邊運行深度的預測,準確率較上述情況偏低。
綜上所述,對市場切分后得到的單邊模式序列及震蕩點序列,選取二維屬性組(持續時間分類標記、運行深度分類標記),進行符號化表示,在此基礎上,建立互關聯后繼樹模型進行頻繁特征模式挖掘,并通過頻繁特征模式匹配,實現對單邊運行深度的預測。以2001年至2011年涵蓋的833組符號化線段序列作為主要的訓練數據,滾動預測2012年至2015年市場單邊運行的深度是否可以完全突破或跌破上一單邊運行深度,取得了良好的預測效果。