陸瑤
(東北財經大學管理科學與工程學院,遼寧大連 116025)
基于期貨市場行為的時間序列切分及表示方法研究
陸瑤
(東北財經大學管理科學與工程學院,遼寧大連 116025)
對于期貨市場所形成的時間序列數據,其主要的市場特征可概括為其單邊模式,為了對其進行充分還原,應選取恰當的時間序列建模方法對所形成的的時間序列數據進行切分。文章首先介紹時間序列數據建模表示的一般方法,并在此基礎上,提出文章所采用的基于市場行為的時間序列數據切分方法。數據處理工作全部基于C++編程實現。
期貨市場;時間序列數據;切分;表示方法
時間序列連續而高維的特征導致對其進行直接處理較為困難,故建模成為實際數據挖掘之前的一個重要環節。
傳統的時間序列數據建模通常采用分段表示的方式,可劃分為兩類:基于時域的分段表示方法與基于變換域的分段表示方法。其中基于時域的分段表示方法主要包括:使用分段的特征值來表示序列、使用分段的近似曲線來表示序列、使用重要特征點來表示序列、使用符號化來表示序列等。基于變換域的分段表示方法主要包括:離散傅里葉變換、離散小波變換、奇異值分解算法等。
2.1 切分方法描述
為充分還原市場的單邊模式及震蕩情形,本文引入數理統計中線性回歸的思想,基于市場行為,對期貨市場時間序列數據進行切分處理與表示。
算法基本思想是,在對時間序列數據進行切分處理時,對每個得到的子序列進行線性回歸,當切分得到的子序列的回歸判定系數R2大于給定的閾值t時,可將時間序列中的下一個數據點加入該子系列中繼續計算,否則,可將當前數據點視為切分斷點,從該數據點開始重新搜尋下一個子序列,直到將整個序列搜索結束或到達最新時間點。對于切分后得到的數據,長度達到3及以上的子序列,即可視為市場單邊模式序列,對其利用線性回歸的結果進行描述;而對于切分斷點,相連即可得到市場震蕩點序列。
對于行文中所需設定的回歸判斷系數的閾t值,若t設定過小,得出切分斷點將極為遲鈍,滯后嚴重;若t設定過大,將導致很少的數據點被劃入到子序列中,從而出現時間序列被過度分割的現象。t的選擇具有極強的主觀性,本文建議賊的參考范圍為:賊~[0.7,0.8]。
2.2 樣本數據的切分處理
以倫敦金屬交易所(LME)交易品種之一的倫銅期貨為主要研究對象,將2001年1月2日至2015年5月12日的倫銅指數日交易數據的收盤價作為樣本,進行數據的切分處理,將回歸判定系數閾值t設為0.7。具體可獲得3632個交易日的交易數據。
按照上述算法描述,對3 632個交易日收盤價序列進行數據切分處理,獲得單邊模式序列及震蕩點序列。圖1所示為2015年3月13日至2015年4月17日倫銅期貨40個交易日的收盤價序列的切分結果。
2.3 切分后樣本數據的表示
對于上述3 632個交易日收盤價序列切分得到的切分結果,將一個單邊模式序列與一個震蕩點序列組合,將其從取樣期開始至結束劃分為703組,結合領域知識與傳統技術分析方法,每組選取6個屬性進行描述:單邊持續時間、單邊趨勢幅度、震蕩持續時間、斷點幅度、成交總量、終點收盤價距MA20差額百分比。對于單邊模式后,趨勢直接反轉,即不存在市場震蕩的情形,為統一分組處理方式,可將該組中震蕩持續時間記為0。其中:

圖1 倫銅指數切分數據
單邊趨勢幅度可定義為:
(單邊模式終點收盤價-單邊模式起點收盤價)/單邊模式起點收盤價;
斷點調整幅度定義為:
(斷點收盤價-單邊模式終點收盤價)/單邊模式終點收盤價;
終點距移動平均線差額百分比定義為:
(終點收盤價-終點對應MA20值)/終點對應MA20值。
對于切分后得到的樣本數據,可進一步利用數據挖掘中時間序列分析的方法對單邊運行的趨勢方向及單邊運行深度的比例進行預測,以及對期貨市場進行數理統計分析。
對于期貨市場所形成的時間序列數據,其主要的市場特征可概括為其單邊模式,為了對其進行充分還原,本文引入數理統計中線性回歸的思想,提出基于市場行為的時間序列數據切分方法。對于切分得到的結果,以一個單邊模式序列與一個震蕩點序列相組合的方式,單邊持續時間、單邊趨勢幅度、震蕩持續時間、斷點幅度、成交總量、終點收盤價距MA20差額百分比等6個屬性進行描述。
本文提出的時間序列數據切分方法,以期貨市場行為作為基礎,既實現了對時間序列整體形態的細致刻畫,又保留了單邊趨勢較弱但信息量豐富的市場震蕩情形,最為突出的是,本文提出的方法適于跟蹤預測,避免了數據滯后的虛假處理。此外,對于切分結果的分組表示,也可為后續對單邊運行的相關預測奠定強有力的數據處理基礎。
10.3969/j.issn.1673-0194.2015.19.083
F713.35
A
1673-0194(2015)19-0144-02
2015-05-25