蒲倩
摘 要:時間序列作為一種常用的數據類型,已經在各類數據的分析中得到了廣泛使用。在面對這些海量數據時,需要采取新技術篩選出其中有用的數據,數據挖掘技術正是基于這一背景產生的。在數據挖掘技術中,時間序列挖掘是關鍵技術。本文主要分析時間序列挖掘與預測方式。
關鍵詞:時間序列挖掘;預測;分析
一、時間序列挖掘與預測分析
時間序列模式挖掘作為數據挖掘中最為重要的問題,在現實生活與生產中已經得到了廣泛的應用。時間序列即按照時間順序來獲取觀測值的方式。在日常生活中,很多數據都是以時間序列出現的,這些數據對于相鄰觀測值具有依賴性特征,時間序列挖掘與預測模式與依賴性特征有著密切的關系,其研究內容包括相似性搜索、趨勢分析、周期模式挖掘、序列模式挖掘等。
1.相似性搜索
相似性搜索即找出數據庫中與相關條件相似的數據,在這些序列中,包括子序列匹配與整體序列匹配兩種方式。這些序列的應用范圍十分廣泛,其中,數據變換是核心。數據變換就是從時間域到頻率域的分析,一般使用歐式距離來計算,在計算時,需要先確定好變換矩陣,再確定相關計算數據。
在經過DWT以及DFT變化之后,可以使用傅里葉細數來制造出多維索引,再將數據提供給系統,就能夠檢索出查詢序列之間的距離,通過實際距離的查詢即可完成后處理工作。在匹配子序列時,將序列分割成為一定長度的片段,每一個片段對應不同的線索,序列可以使用最小邊界矩形表示。要想搜索到更長的匹配序列,可以使用多片組裝算法進行。
2.趨勢分析
趨勢分析可以應用在長期或者趨勢變化、循環變動或循環變化、季節性變動或者季節性變化、非規則或者隨機變化集中類型的數據預測中。這些數據有著季節性、非規則性、循環性以及趨勢性特征,能夠使用不同的變量進行表示,這樣即可幫助人們制訂出長期預測或者短期預測。
3.周期模式挖掘
周期模式挖掘即在數據庫中尋找重復出現模式的一種預測模式,周期模式能夠應用在交通數據、行星軌道數據、能源消耗數據、季節性數據等數據模式的預測中。按照問題類型的不同,周期模式能夠分為挖掘全周期模式、挖掘部分周期模式以及挖掘循環模式幾種。
二、時間序列預測統計學基礎
1.時間序列統計學特征分析
時間序列的統計學特征包括均值函數、自協方差函數與自相關函數三種。
均值函數:對于t而言,時間序列均值函數如下:μt=U[x1]Δ■xf1(x)dx;自協方差函數:y=Cov(xt,xy)ΔE[x1-Ex2(xi-Exi+1)]
2.時間序列平穩性分析
在時間序列分析時,常常存在平穩時間序列,這種平穩定會在時間的推移下出現相應的變化。若時間序列中各項隨機變量是一種獨立性關系,且存在相同分布,就是獨立同分布序列,其常見的序列類型有白噪聲序列,白噪聲序列和獨立同分布序列之間是一種獨立的關系。
三、時間序列分段線性表示
在時間序列數據挖掘研究內容中,相似性搜索是其中的重要內容,在進行計算時,需要遵循Keogh度量準則,這能夠很好地反映出各項內容,但是在反應時間軸比例時需要額外考慮到周期問題。在進行時間序列相似性搜索時,可以對其進行聚類分析。目前,這種方式已經在各個領域中得到了廣泛的使用,如在圖像處理、模式識別、數據分析工作中,雖然聚類分析能夠應用在時間序列分析中,但是與圖像處理、模式識別、數據分析工作相比,時間序列數據量較大,使用該種分析方法會提高計算開銷,為了減少開銷,就需要對實踐序列開展分段線性化處理,該種模式更加適宜應用于普通數據挖掘算法計算中。
目前,時間序列數據多應用在氣象數據、金融數據的計算中,這些數據會受到各種因素的影響,存在較大的隨機性與偶然性,因此,有學者針對這些計算提出時間序列長記憶性問題。其他研究者也提出了遺傳算法、神經網絡算法、卡爾曼濾波算法等一系列的計算方法,在使用這些算法來計算復雜系統時,需要建立好相應的模型,使用表征模型特征進行表達。但是,若系統較為復雜,也存在短期波動,使用一個模型很難計算出具體的精度與效率,而丟棄數據也會影響歷史數據,降低計算精度,而應用大量例數數據也會影響計算時間與預測效率。為了提升數據計算的精度,就可以使用時序預測方法或者多層次數據分解法,使用平滑因子來拆解序列,這就能夠為后續建模的開展奠定好堅實的基礎。對于拆解完成的序列,可以使用相應的采樣頻率,這不僅會提升計算精度,也能夠在一定程度上降低計算的復雜性。
總之,時間序列作為一種常用的數據類型,已經在各類數據的分析中得到了廣泛的使用。在使用時間序列挖掘與預測方式時,需要針對具體的問題建立好相應的模型,這樣才能夠達到理想的計算成效。
參考文獻:
[1]張德干,郝先臣,徐凌宇,杜慶東,趙海.基于小波理論的數據挖掘方法研究[J].小型微型計算機系統,2001(8).
[2]李鎖花.時間序列挖掘技術及其在短期電力負荷預測中的應用研究[D].南京:東南大學,2006.