劉少梅, 董小剛
(長春工業大學基礎科學學院,吉林長春 130012)
高頻金融時間序列數據指的是在非常細小的時間間隔上,以日或更小的時間間隔(例如小時、分鐘、秒鐘)上抽取的觀測值。隨著實時數據的獲得與處理方法的發展和提高,可以得到這些高頻數據。所以,市場微觀結構實證方面的研究越來越受到廣泛的關注。自從上世紀90年代,高頻金融交易數據的分析開始迅速發展,目前,已廣泛用于金融市場微觀結構理論的應用和實證檢驗。對于金融市場中高頻數據分析方法的研究也在不斷地發展和提高,這對于研究股票、證券、期貨等具有重大意義。
Hilbert-Huang變換(HHT)是1998年由NASA的Norden E Huang[1]等人提出的,作為一個嶄新的時頻分析方法,它完全獨立于傅里葉變換,能夠進行非線性、非平穩信號的線性化和平穩化處理,被認為是近年來對以傅里葉變換為基礎的線性和穩態譜分析的一個重大突破。與頻譜分析方法相比,得到的每個振幅和頻率是隨時間變化的,消除了為反映非線性、非平穩過程而引入的多余無物理意義的簡諧波。與小波分析方法相比,具有小波分析的全部優點,在分辨率上消除了小波分析的模糊和不清晰,具有更準確的譜結構,依此得到的分析結果更能準確地反映出系統原有的物理特性。雖然Hilbert-Huang變換擁有眾多優點,但EMD分解[2]數據時存在模態混疊的現象。針對此問題,將白噪聲加入數據中來補充一些缺失的尺度。使用EMD分解對Hilbert譜刻畫比較前后具有良好的表現。
經驗模態分解是Hilbert-Huang變化的核心,EMD方法的關鍵問題在于如何把一個非線性非平穩的信號(數據)分解為有限個IMF分量和一個趨勢項的和。
1.1.1 本征模態函數(IMF)定義
本征模態函數[2]是滿足兩個條件的一類函數:
1)在整個資料集中,極值點的數目與穿零點的數目必須相等或者最多相差一個;
2)上、下包絡線平均值為零。
1.1.2 EMD分解步驟
1)確定所有局部極值點,然后用3次樣條插值將所有極大值點連接起來形成上包絡線,將所有極小值點連接形成下包絡線,上下包絡線涵蓋所有數據點。
2)原始信號(數據)減去上、下包絡線的平均值

如果h1是一個IMF,那么h1就是第一個IMF分量。
3)如果h1不滿足IMF條件,將h1作為原始數據,重復前兩步,得到上、下包絡線平均值m11,再判斷h11=h1-m11是否滿足IMF條件,若不滿足,重新循環k次,得到h1(k-1)-m1k=h1k,使得h1k滿足IMF的條件。記C1=h1k,則C1為信號x(t)的第一個滿足IMF條件的分量。
4)將C1從x(t)中分離出來,得到

將r1作為原始數據重復步驟1)~3),得到x(t)的第二個滿足IMF條件的分量C2,重復循環n次,得到信號x(t)的n個滿足IMF條件的分量。這樣就有

當rn成為一個單調函數不能再從中提取滿足IMF條件的分量時,循環結束。這樣得到

式中:rn——殘余函數,代表信號的平穩趨勢。設定篩選過程停止判據SD:

從一些實例來看,SD的參考取值為0.2~0.3,即可停止篩選過程。
經驗模態分解后得到本征模態函數,將IMF分量做Hilbert變換

式中給出了一個時間函數的振幅和頻率。同樣數據,如果展開成傅里葉表示,將得到常值振幅和頻率。EMD分解和傅里葉展開區別在于:IMF表示一個實時變化的振幅和頻率函數的傅里葉展開。這個振幅的頻率時間分布被稱作Hilbert譜。再定義Hilbert邊際譜:

式中:T——信號的總長度。
邊際譜提供了對來自于每個頻率值的整個振幅(或能量)的測量,并且展示了概率意義上的整個數據范圍累積振幅。
當信號的時間尺度存在跳躍性變化時,對信號進行EMD分解,會出現一個IMF分量包含不同時間尺度特征的情況,被稱之為模態混疊[1]。
文獻[3]提出了多分辨率的EMD思想,對每一個IFM規定一個尺度范圍來解決模態混疊,但EMD失去了良好的自適應性。Huang[4]曾提出了中斷檢測的方法來解決模態混疊現象,直接對結果進行觀察,如果出現混疊,則重新分解,但是這種方法需要人為后驗判斷,使用較少。
應用DME分解處理高頻數據時,雖然時間間隔短,卻是不等時間間隔采取數據,并且數據量大,數據極值點呈現不均勻分布,此時出現模態混疊現象。
為了更好地解決模態混疊問題,Huang[4]提出了一種噪聲輔助處理信號方法,稱其為EEMD。文中應用Hilbert-Huang變換處理高頻數據,同樣出現模態混疊問題。在EMD分解中,得到合理的IMF的能力取決于數據極值點的分布情況,如果極值點呈現不均勻分布時也會出現模態混疊。為此,Huang將白噪聲加入待分解信號,因為白噪聲頻譜是均勻分布的,所以,當信號加在整個時頻空間分布一致的白噪聲時,經過多次平均后,噪聲可相互抵消,達到減弱模態混疊的效果。將白噪聲序列加入待分解的數據中,消除由于不等間隔造成的數據中斷,從而消除模態混疊現象。
為了驗證EEMD方法處理高頻數據改進之處,利用Matlab平臺分析2010年5月12日某股票日成交量數據,對原始數據進行EMD和EEMD分解,可實現數據的各個IMF分量和瞬時頻率,并能對Hilbert時譜進行刻畫。
參數設置功能:自由設置加入300組標準差為0.2的白噪聲。
數據來源:2010年5月12日某股票日成交量Hilbert-Huang變換分析結果。
對日股票成交量模態分解,通過Hilbert譜比較分析結果有了改進。EMD對數據的分解如圖1所示。EMD對數據Hilbert的刻畫如圖2所示。

圖1 EMD對數據的分解

圖2 EMD對數據Hilbert的刻畫
EMD將數據分解成3個IFM分量和一個殘余項,通過頻譜圖可以看出,低頻分量混雜在一起,難以分辨。
將數據中加入300組標準差為0.2的白噪聲序列,結果如圖3和圖4所示。

圖3 EEMD對數據的分解

圖4 EEMD對數據Hilbert的刻畫
通過頻譜圖比較,模態混疊現象有所改善。
應用Hilbert-Huang變換分析高頻數據是個較有效的方法。文中分析的是日股票成交量數據,在EMD分解時出現模態混疊現象,向其加入輔助白噪聲,通過比較前后的頻譜圖,有效地改善了模態混疊的現象,這將是對傳統的高頻數據分析方法的有效改進。
[1] 于德介,程軍圣,楊宇.機械故障診斷的Hilbert-Huang變換方法[M].北京:科學出版社,2006.
[2] 鄭祖光,劉莉紅.經驗模態分析與小波分析及其應用[M].北京:氣象出版社,2010.
[3] 時世晨,單佩韋.基于EEMD的信號處理方法分析和實現[J].現代電子技術,2011,34(1):88-91.
[4] Huang N E,Shen I,Lorg S R.The empirical mode decomposition and Hilbert spectrum for nonlinear and non-staiorery time series analysis[M].Proc R Soc London:Ser A,1998:454,903-995.
[5] 馬野,劉文博,董小剛,等.基于小波分解的高頻時間序列預測[J].長春工業大學學報:自然科學版,2009,30(4):374-378.
[6] 應益榮,包郭平.金融市場高頻數據分析的建模進展[J].五邑大學學報:自然科學版,2006,20(1):63-69.
[7] 薛年喜.Matlab在數字信號處理中的應用[M].北京:清華大學出版社,2008.
[8] PENG Z K,TSE P W,CHU F L.An improved Hilbert-Huang transform and its applifcation in vibtation signal analysis[J].Jounal of Sound and Vibration,2005,286(9):187-205.