孫達辰
(牡丹江醫學院圖書館,黑龍江 牡丹江 157011)
基于C—C方法的嵌入延遲時間和延遲時間窗方法的改進
孫達辰
(牡丹江醫學院圖書館,黑龍江 牡丹江 157011)
由于混沌系統對初值的敏感依賴性、真實數據長度有限并含有大量的噪聲,利用C—C方法對于來自于混沌系統中的真實數據進行計算,得到的嵌入延遲時間和延遲時間窗具有一定的波動性。使用基于密度的聚類算法,分別對利用C—C方法得到的多組嵌入延遲時間和延遲時間窗數據進行聚類分析,使最接近于真實的嵌入延遲時間和延遲時間窗數據分別形成2個不同的簇,分別對這2個簇求它的平均值,結果就是所求的嵌入延遲時間和延遲時間窗數據。最后通過數值仿真試驗證明了這種方法的可靠性。
時間序列;密度的聚類;相空間;C—C方法;混沌
1999年,Kim等基于嵌入窗口的思想[1,2],提出了C—C方法[3],由于C—C方法具有很強的實用價值,在解決實際問題方面又很有效,對它進行深入的研究,并進行相關的改進,將具有很大的意義。針對原有的C—C算法,國內學進行了一些相關研究與改進[4,5]。為了得到更為準確的嵌入窗口τw和時間延遲τ,筆者在對C—C算法進行研究的基礎上,利用基于密度的聚類算法對“C—C算法”所得到的結果進行處理,通過在Matlab7.0環境下進行仿真試驗,來確定基于C—C算法的更為有效計算嵌入窗口τw和時間延遲τd的方法。
對于C—C方法多次得到的嵌入窗口τw和時間延遲τd,分別作為輸入數據,求穩定的嵌入窗口τw和時間延遲τd。同一個混沌時間產生的多組嵌入窗口τw和時間延遲τd,由于混沌系統的初值敏感性和實際非線性時間序列長度有限并可能帶有噪聲,使得用“C—C”方法直接由一段數據估計出的τd和τw具有一定的波動性[5]。但多組嵌入維數m和時間延遲τ都應該分別圍繞著真實的τd和τw上下波動。
使用聚類的方法,把上述數據分成多個組,再找到這些組里面數據個數最多的那個組,命名為:Cτd組和Cτw組,分別對這2個組中的數值求平均值,這2個均值分別就是最優的τd和τw。
聚類分析根據在數據中發現的描述對象及其關系的信息,將數據對象分組。其目標是組內對象相互之間是相似的,而不同組中的對象是不同的。組內的相似性越大,組間差別越大,聚類就越好[6]。為了分別找到最優的τd和τw,分析通過C—C方法得到的Cτd組和Cτw組中的數據,它們都具有以下特點:①都是數值型的數據,數據本身的值是數據的唯一屬性,屬于低維數據;②在多個τd數據中,數據的數值圍繞著最優的τd上下波動,少數數據有一定的偏離;在多個τw數據中,數據的數值圍繞著最優的τw上下波動,少數數據有一定的偏離;③經過聚類分析后所得到的組是不能事先指定的。
對于多個τd和τw數據分別進行聚類分析的最終目的是要分別找到數據個數最多的Cτd組和Cτw組,而忽略數據較少的組。
經過以上的分析,選用基于密度的聚類算法進行聚類分析?;诿芏鹊木垲愃惴ㄊ菍ふ冶坏兔芏葏^域分離的高密度區域[6]。這種方法可以過濾“噪聲”和孤立點數據,能發現任意形狀的簇[7]。DBSCAN(Density-Based Spatial Cluster of Applications with Noise)是一個基于高密度連接區域的密度聚類算法[8,9],該算法將簇定義為相連的點的最大集,將具有高密度的區域劃分為簇,在聚類過程中,DBSCAN將密度相連的最大對象集合作為簇,不包含在任何簇中的對象被認為“噪聲”。
經過以上的過程,最后得到Cτd組Cτw組,分別對Cτd組Cτw組中的值求平均值,就得到最優的τd和τw。

圖1 SX的時間序列圖
在試驗中,Lorenz方程的各參數x、y和z的初始值分別為:15.3、13.68和37.91,σ的值為10,r的值為25,b的值為8/3,通過程序產生30000個時間序列數據。對關于x的時間序列數據進行試驗,從這些數據中的第10000個數據點開始,取到第18000個為止,進行試驗,對于這些數據命名為SX。SX對應的時間序列圖如圖1所示。
對于時間序列數據SX,產生Cτd組Cτw組的算法如下:
序列增量值i的初值為零;在SX的第1個數據的位置加上i,長度為3000的數據中調用C—C算法程序,求出該范圍內的最優τd和τw;序列增量值i的值改為:i+100。多次重復這一步,直到對SX中最后一個長度為3000的數據求完最優τd和τw。
試驗結果的部分數據如下(第1行為最優τd,第2行為最優τw):
18 19 19 19 18 18 17 17 17 17
178 178 178 179 180 133 132 179 179 179
從這些數據中可以得出以下結論:最優τd數據是趨于穩定的,圍繞著18這個數據上下波動,而最優τw數據的值卻遠不如最優τd的數據值穩定,進而可以得出通對應的最優τd和最優τw來求出的最佳嵌入維數m的值也是有波動的。
為了得到更為準確的最優τd和最優τw,筆者采用基于密度的聚類算法DBSCAN分別對對Cτd組和Cτw組進行試驗,具體算法為:參數ξ為聚類算法DBSCAN中的半徑,參數MinPt表示以一點為核心,半徑為ξ的范圍內的數據點數,即密度。通過調整這2個參數,將密度相連的最大對象集合作為簇,求得不同的聚類,在這些組中,以最大組中的元素個數遠遠大于第2大組的元素個數的聚類結果為最終的試驗結果。
取參數ξ和參數MinPt的值都為5,針對51個最優τw數據、試驗結果的部分數據為:

這些數據中每一行為一個聚類組,數據中的零值代表這個位置上沒有數據,第1組有6個數據,以數值96為主;第2組有17個數據,以數據值176和數據值178為主,分別為8個;第3組有8個數據,以數值166為主。第2組為所求的Cτw組。
分別對試驗得出的Cτd組和Cτw組中的值求平均值得到最優τd和最優τw。
針對C—C方法得出的多組最優τd和最優τw,利用基于密度的聚類算法DBSCAN進行聚類分析,分別求Cτd組和Cτw組中值的平均值,得到最優的τd和τw。保證了所得到的最優τd和τw的有效性和可靠性。
[1]Takens F.Detecting strange attractors in turbulence[A].Dynamical Systems and Turbulence[C].Berlin: Springet-Verlag,1981:366-381.
[2]陳鏗,韓伯棠. 混沌時間序列分析中的相空間重構技術綜述[J].計算機科學,2008,32(4):67-70.
[3]Kim H S, Eykholt R,Salas J D,etal.Nonlinear dynamics, delay times, and embedding windows[J].Physica D: Nonlinear Phenomena,1999,127(1-2):48-60.
[4]陸振波,蔡志明,姜可寧. 基于改進的C—C方法的相空間重構參數選擇[J].系統仿真學報, 2007,19(11):2527-2529,2538.
[5]徐自立,王一揚,周激流. 估計非線性時間序列嵌入延遲時間和延遲時間窗的C—C方法[J].四川大學學報,2007,39(01):151-155.
[6]Machalel Stein Steinbach Vipin Kumar.數據挖掘導論[M]. 范明,范宏建 等譯.北京:人民郵電出版社,2006.
[7]胡可云,田鳳占,黃厚寬. 數據挖掘理論與應用[M]. 北京:清華大學出版社, 2008.
[編輯] 洪云飛
10.3969/j.issn.1673-1409.2011.02.030
TP391
A
1673-1409(2011)02-0083-02
2010-11-26
孫達辰(1976-),男,2001年大學畢業,碩士,現主要從事人工智能及其應用方面的研究工作;E-mail:sdc061013@yahoo.com.cn。