王玲 孟建瑤 李俊飛 彭開香
多維實時序列數(shù)據是現(xiàn)實世界中一種普遍存在且具有重要意義的數(shù)據類型,例如工業(yè)現(xiàn)場的監(jiān)控數(shù)據、互聯(lián)網節(jié)點的通信流量數(shù)據、氣象數(shù)據、醫(yī)療監(jiān)測數(shù)據以及語音視頻數(shù)據等.這些數(shù)據通常以時間點或時間區(qū)間的形式存在,且呈現(xiàn)出多屬性、非平穩(wěn)、動態(tài)性以及信息的非線性等特征,因此,如何有效地從這些海量實時序列數(shù)據中挖掘有用的知識,并進行實時預測已經成為各個領域的研究熱點.
近年來,時間序列定量預測技術已經開展了許多方法的研究,例如文獻[1?2]通過組合模型的方式來預測時間序列.文獻[3]采用時間搜索模型將連續(xù)時間序列數(shù)據轉換為離散空間來挖掘股票數(shù)據中的頻繁模式,在此基礎上對股票價格進行短期趨勢預測.文獻[4]通過應用多元自適應回歸曲線和逐步回歸建立基于指標選擇的時間序列模型.此外,還通過支持向量回歸(Support vector regression,SVR)建立預測模型,并采用遺傳算法(Genetic algorithm,GA)進行優(yōu)化.文獻[5]針對時序動態(tài)關聯(lián)規(guī)則挖掘中,支持度向量在時間特性上不宜觀察其整體變化趨勢與預測問題,提出將小波變換應用到動態(tài)關聯(lián)規(guī)則挖掘中,并建立自回歸模型預測整體趨勢變化.但這些方法主要還是將時間序列數(shù)據作為一個整體來分析和構建全局模型.
值得注意的是,能夠觀察到的多維實時序列數(shù)據往往僅是系統(tǒng)的部分演化數(shù)據,無法通過歷史數(shù)據建立一個全局模型覆蓋整個數(shù)據空間.為了及時有效地分析多維實時序列數(shù)據,往往更為合理的方式是對時間序列的局部可用數(shù)據進行在線分析,而不是全局序列數(shù)據.關聯(lián)規(guī)則挖掘[6]可以發(fā)現(xiàn)存在于數(shù)據中屬性之間有趣的關聯(lián)關系,以語言和規(guī)則相結合的產物呈現(xiàn)最終的挖掘結果,更易于操作人員的理解和管理者的決策支持.考慮到時間序列的特性,衍生出了時態(tài)關聯(lián)規(guī)則挖掘方法[7?12],實際是加了時間約束的關聯(lián)規(guī)則,目的是找出時態(tài)事務集中同一維屬性與時間之間的關聯(lián),以及基于時域的不同維屬性之間的關系等,更好地挖掘隱藏在數(shù)據中的與時間關聯(lián)的知識.因此,我們的重點是發(fā)現(xiàn)多維實時序列數(shù)據中的局部模式,當某一屬性發(fā)生變化后或導致多個屬性緊接著發(fā)生變化,它們之間可能是按時間的順序關系或因果關系.針對多維實時序列數(shù)據的時態(tài)關聯(lián)規(guī)則挖掘吸引了一些學者進行研究.文獻[13]提出了基于兩個項的時態(tài)關系來挖掘時態(tài)關聯(lián)規(guī)則,但在挖掘的過程中對參數(shù)的依賴性較強,且并不適合獲取多個項之間的時態(tài)關系.文獻[14]基于密度的子空間聚類將集群定義為存在于多維數(shù)據集的子空間中的高密度區(qū)域,提出一種將多元時間序列轉換為符號序列的算法,能夠捕獲時間序列變量組之間的相互依賴性和共同變化的順序模式.文獻[15]提出一種新型的多屬性時間序列模式,通過修剪單時間序列中的冗余模式以及避免過度計數(shù)的關聯(lián),捕獲時間序列變量組之間的相互依賴和共同變化的順序模式.文獻[16]為了避免一段時間出現(xiàn)的頻繁項目對結果的影響,將時間轉化為粒度,并考慮不同級別粒度的時態(tài)數(shù)據挖掘,設計了一個三階段的挖掘框架.
雖然這種時態(tài)關聯(lián)規(guī)則已經保留了多維時間序列隱含的過程變化信息,定性地描述了多維時間序列數(shù)據間的時態(tài)關系,但這種知識并沒有提供定量預測多維時間序列的未來運動趨勢的能力.通過重構時態(tài)關聯(lián)規(guī)則的前件和后件,并借鑒模糊Takagi-Sugeno(T-S)模型的規(guī)則形式構造局部模型可以估計多維時間序列的未來值.此外,上述方法主要針對離線數(shù)據進行挖掘,但時態(tài)數(shù)據庫通常會動態(tài)更新,時態(tài)關聯(lián)規(guī)則挖掘要與數(shù)據的變化保持同步,避免對數(shù)據集中所有的數(shù)據重新進行挖掘而增加計算復雜度.因此,本文提出了基于多維時態(tài)關聯(lián)規(guī)則的演化模糊推理算法,主要包含初始時態(tài)關聯(lián)規(guī)則挖掘、基于多維時態(tài)關聯(lián)規(guī)則的模糊推理預測、概念漂移檢測與系統(tǒng)演化更新三個部分:1)采集部分時間序列數(shù)據集完成時態(tài)關聯(lián)規(guī)則的初始化挖掘;2)借鑒區(qū)間TS模糊推理方法重構時態(tài)關聯(lián)規(guī)則,利用優(yōu)化算法辨識規(guī)則后件參數(shù),進而實現(xiàn)對時態(tài)數(shù)據的模糊推理預測;3)隨著時間序列流數(shù)據不斷添加到數(shù)據庫,需要增量地挖掘時態(tài)關聯(lián)規(guī)則.為了適應時間序列數(shù)據發(fā)生概念的漂移,利用滑動窗技術劃分時間序列數(shù)據.若當前滑動窗中的數(shù)據發(fā)生概念漂移,則認為已有規(guī)則庫中的時態(tài)關聯(lián)規(guī)則已不再適用當前窗口中的數(shù)據,需要對當前窗口中的數(shù)據重新進行時態(tài)關聯(lián)規(guī)則的挖掘,并將所得規(guī)則按時間順序存儲到規(guī)則庫中;若當前滑動窗中的數(shù)據沒有發(fā)生概念漂移,則需對時態(tài)關聯(lián)規(guī)則對應的數(shù)據點進行更新,繼續(xù)等待下一個時間序列滑動窗口的到來,直到時間序列數(shù)據采集結束.
目前,針對時態(tài)關聯(lián)規(guī)則提出了很多研究方法,通常我們處理的時間序列對象是數(shù)值屬性,離散化后的項所處的時間區(qū)間往往不同,因此,發(fā)現(xiàn)不同時間序列對象不同時間區(qū)間的多維數(shù)值時態(tài)關聯(lián)規(guī)則更加符合現(xiàn)實,對時態(tài)數(shù)據的變化趨勢具有一定的預測作用.本文感興趣的是發(fā)現(xiàn)多維時間序列的片段模式之間的先后關聯(lián)性,因此必須找到這些片段模式.我們采用了一種基于多維時間序列形態(tài)特征的相似性的動態(tài)聚類算法[17]提取時間序列的片段模式,基本思想是通過時間序列降維壓縮獲取時間序列片段,根據這些時間序列片段的形態(tài)特征進行相似性度量,進而通過動態(tài)聚類的方法發(fā)現(xiàn)片段模式.本文以時間區(qū)間中的多元時間序列數(shù)據集S={s1,s2,···,si,···,sm}(1≤i≤m)為例展開說明,其中,m表示時間序列屬性個數(shù).令Ii2,···,Iij,···,Iiqi}表示時間序列si的模式序列項集,Iij對應片段模式的第j個離散化項,qi為時間序列si的片段模式的個數(shù).
本文的多維時態(tài)關聯(lián)規(guī)則的挖掘與其他關聯(lián)規(guī)則一樣,就是尋找滿足某種時態(tài)約束的頻繁發(fā)生的模式序列.考慮樹結構在規(guī)則挖掘中無需產生候選項集等優(yōu)勢,采用一種基于頻繁項集樹的時態(tài)關聯(lián)規(guī)則挖掘算法[18],構建樹結構與頻繁項集挖掘同時進行,只需要掃描時態(tài)數(shù)據庫一次,以時間區(qū)間為單位表示數(shù)據的有效時間區(qū)間,能夠有效地計算頻繁項集的時態(tài)置信度,提高了規(guī)則挖掘效率.整個算法的核心仍然是尋找頻集,基本思想是:1)在多元時間序列數(shù)據集降維離散化的基礎上,將所得離散時態(tài)事務集轉換為布爾離散時態(tài)矩陣;2)根據布爾離散時態(tài)矩陣及向量運算得到時態(tài)頻繁1–項集和頻繁2–項集;3)由所得時態(tài)頻繁項集(考慮了項集之間的時態(tài)關系)構建初始頻繁項集樹,包含任意兩個頻繁1–項集間的關聯(lián)關系,用于頻繁k(k≥3)–項集的生成;4)由初始頻繁項集樹得到完整頻繁項集樹;5)遍歷所得完整頻繁項集樹,得到所有時態(tài)頻繁項集;6)由所得頻繁項集生成強時態(tài)關聯(lián)規(guī)則.
時態(tài)關聯(lián)規(guī)則挖掘的最終目是通過所得時態(tài)關聯(lián)規(guī)則反映數(shù)據集中隱藏的時態(tài)關聯(lián)信息,用于新數(shù)據的分類預測等應用.但目前時態(tài)關聯(lián)規(guī)則的形式為

在鋼鐵、冶金、建材、化工等流程工業(yè)中存在一類耗能大、排污大和工藝復雜的大型生產設備,例如煉鐵的高爐、煉鋼的轉爐、球團豎爐、燒結機以及水泥回轉窯等.它們工藝流程極其復雜,描述工況和產品質量的參數(shù)繁多、工況的自由度難以確定.由于不確定性的存在,很難獲得精確的輸入輸出數(shù)據,還沒有很好的數(shù)據物理方程實現(xiàn)精確描述,很多情況下,能夠獲得的是變量或參數(shù)的某一變化范圍.因此,可以采用區(qū)間數(shù)建立對象的動力學模型.
近年來,區(qū)間回歸[19?20]和區(qū)間時間序列預測[21]逐漸成為一個新的研究領域.從本質上看,現(xiàn)有的區(qū)間回歸和區(qū)間時間序列預測仍是在歐氏空間中建立模型.文獻[22?24]提出基于運動模式的建模和控制,將實際的多維工況模式經主成分分析(Principal component analysis,PCA)壓縮至一維后,研究一維運動模式的建模和控制方法.但實際的工況模式一般都是多維的,為了更好地描述系統(tǒng)的動力學特性,需要研究多維運動模式的建模問題.文獻[25]以燒結實際生產的數(shù)據為例,利用原始數(shù)據構建二維模式運動空間,然后在模式運動空間中建立二維帶輸入的區(qū)間自回歸模型,描述了燒結終點的動力學特性.文獻[26]定義一種多維區(qū)間T-S模糊模型,并以此構建多維運動模式的預測模型,以燒結生產過程的實際數(shù)據為例,驗證了所提出的多維運動模式預測模型的有效性.
為了便于描述多維時間序列變化趨勢的預測模型,根據片段模式定義了多維時間序列的區(qū)間T-S模糊模型.
定義1.給定多維區(qū)間時間序列,其中

其中,Iiji(t)為第i個時間序列在第t個時間區(qū)間[Ttb,Tte]的第ji類的模式項集,yciji(t)和?yiji(t)分別為該模式項集對應區(qū)間的數(shù)值的中心和區(qū)間的數(shù)值的幅度變化,yiji(t)≥0,?yiji(t)≥0,i=1,2,···,m,ji∈{1,2,···,qi},其中qi為時間序列si經過離散化后得到的模式類別的個數(shù),則多維區(qū)間T-S模糊模型的定義為


多維區(qū)間T-S模糊模型的最終輸出為

其中,

fikv(yciji(t?v))代表yciji(t?v)隸屬于模糊集fikv的隸屬度.
目前其他研究者所提算法[19?26]主要是利用區(qū)間模糊邏輯獲取確定的模糊推理規(guī)則用于預測,而本文所提算法是基于數(shù)據挖掘的結果迅速地實現(xiàn)預測.通過在多維時態(tài)關聯(lián)規(guī)則挖掘算法中最小支持度和最小置信度的分別設置,所獲得的時態(tài)關聯(lián)規(guī)則可以明確地表示數(shù)據集中的潛在信息.
根據式(1)所示的時態(tài)關聯(lián)規(guī)則,當有新的離散時態(tài)事務樣本TIDnew待預測時,首先實現(xiàn)規(guī)則的匹配,若滿足如下兩個條件,則認為離散時態(tài)事務與時態(tài)關聯(lián)規(guī)則相匹配.
對于與規(guī)則匹配的新事務,為了定量地實現(xiàn)對新樣本事務輸出的精確預測,重構了基于多維區(qū)間時態(tài)關聯(lián)規(guī)則的模糊推理預測模型.


基于多維區(qū)間時態(tài)關聯(lián)規(guī)則的模糊推理模型的最終輸出為


其中,



其中,

基于多維時態(tài)關聯(lián)規(guī)則的模糊推理預測模型中的區(qū)間參數(shù)可通過使下式中的目標函數(shù)J在約束條件θkrmp≥0 取得極小求得,其中,p=0,1,2,···,nn,且有


為了求解式(11)中的約束優(yōu)化問題,對該式進行整理,根據文獻[26]進一步得到與式(11)同解的二次優(yōu)化問題.

概念漂移[27]是指隨著時間推移或時序數(shù)據的更新,時間序列數(shù)據自身分布及結構等發(fā)生變化.通過對時序數(shù)據的概念漂移檢測,發(fā)現(xiàn)當前數(shù)據與原先狀態(tài)的異同,進而判斷規(guī)則庫中的已有關聯(lián)規(guī)則是否適用于當前時序數(shù)據,從而作出相應處理.判斷當前滑動窗是否發(fā)生概念漂移,主要考慮以下兩種情況,只要滿足任意一種情況,都認為發(fā)生了概念漂移:
1)規(guī)則覆蓋率
如前所述,如果滿足規(guī)則匹配的條件,則在此基礎上統(tǒng)計沒有規(guī)則可匹配的離散時態(tài)事務數(shù)m.若(m/N)>εth,即如果當前讀取的時間序列滑動窗對應的離散時態(tài)數(shù)據集中無規(guī)則可匹配的樣本事務所占比例大于給定閾值,則發(fā)生了概念漂移.其中,N表示離散時態(tài)事務集中所含離散時態(tài)事務數(shù),m是離散時態(tài)事務集中無規(guī)則匹配的離散時態(tài)事務數(shù),εth是規(guī)則不匹配比例閾值,本文取值范圍設置為[0.3,0.5].
2)時間序列的相似度
假定當前時間序列滑動窗的時間區(qū)間為[T1,T2],則在時間t=T1?1處,表示上一個滑動窗演化更新處理完成,系統(tǒng)已有時態(tài)關聯(lián)規(guī)則的所有候選1–項集及其支持度對構成的集合為,所有頻繁1–項集及其支持度對構成的集合為.若集合與集合(表示當前時間T2獲得的所有頻繁1–項集)所含項集元素不同,則需對集合及集合中所含項集進行如下處理:對兩集合所含項集取并集(時間也合并),所得項集構成集合,對比集合中所含項集,將集合及集合中不含有的項集補全,對應支持度記為零,這樣可以將集合中所含項集元素變?yōu)橄嗤?將集合中所含項集支持度看成是兩等長序列,分別記為,利用式(13)計算兩序列間的相似性,若,則認為當前數(shù)據發(fā)生了概念漂移,其中ηth是用戶給定的最小相似性閾值,本文取值范圍設置為[0.7,0.9].

其中,p是序列長度,是序列中第i個元素.
若時間序列滑動窗發(fā)生概念漂移,則需利用時態(tài)關聯(lián)規(guī)則挖掘算法對滑動窗重新進行基時態(tài)關聯(lián)規(guī)則的挖掘,并對規(guī)則庫進行規(guī)則更新,進而實現(xiàn)基于多維時態(tài)關聯(lián)規(guī)則的模糊推理預測建模;否則,認為當前已有時態(tài)關聯(lián)規(guī)則與滑動窗相匹配,無需進行時態(tài)關聯(lián)規(guī)則的挖掘更新,繼續(xù)等待下一個滑動窗,實現(xiàn)系統(tǒng)演化更新.
系統(tǒng)演化更新是指在充分利用已有規(guī)則庫R的基礎上,對系統(tǒng)中新加入的時間序列滑動窗中的數(shù)據進行選擇性處理,從而提高數(shù)據挖掘的效率,實現(xiàn)系統(tǒng)的自適應變化.本文采用滑動窗技術分析系統(tǒng)的演化更新.根據Hoeffding[28]邊界檢測數(shù)據的分布,自動確定滑動窗口的大小.具體的滑動窗口的實現(xiàn)過程見圖1所示.

圖1 滑動窗的實現(xiàn)過程Fig.1 The implementation process of sliding window
圖1中,w0表示系統(tǒng)進行初始關聯(lián)規(guī)則挖掘的滑動時間窗的大小,wi(1≤i≤n)表示系統(tǒng)在第i次演化更新時滑動窗口的大小,其中,wi1(0≤|wi1|≤|wi|)表示當前滑動窗口中與規(guī)則匹配的樣本數(shù)據窗口大小,wi2(0≤|wi2|≤|wi|)表示當前滑動窗中無規(guī)則匹配的樣本數(shù)據窗口大小,且|wi1|+|wi2|=|wi|;根據概念漂移的第一種情況,如果當前窗口中無規(guī)則匹配的事務數(shù)所占比例大于給定閾值,則保留窗口wi2中的樣本數(shù)據,刪除窗口wi1中的樣本數(shù)據,同時接收新的數(shù)據填充窗口wi1,在更新數(shù)據的基礎上重新挖掘.系統(tǒng)演化更新的具體流程如圖2所示,首先,當時間序列數(shù)據庫讀入的時間序列數(shù)據達到設定時間長度,則存儲當前時間序列滑動窗的數(shù)據.然后,通過概念漂移模塊對讀取的時間序列滑動窗進行概念漂移檢測,判斷當前時間序列數(shù)據是否發(fā)生改變或是否適用當前規(guī)則庫中的關聯(lián)規(guī)則.

圖2 系統(tǒng)演化更新Fig.2 The update process of system evolving system evolving window
為了對所提算法的性能及有效性進行驗證,實驗使用UCI數(shù)據庫[29]中的多個時間序列數(shù)據集(Air Quality數(shù)據集,Istanbul數(shù)據集及Synthetic Control Chart數(shù)據集)分別設計并對比3種不同的實驗方案(如表1所示).首先,考慮到本文提出的算法(方案2)采用了一種頻繁項集樹結構挖掘時態(tài)關聯(lián)規(guī)則,為了對比類似挖掘算法的影響,選擇方案1進行對比研究,其采用了FP-growth樹結構來挖掘時態(tài)關聯(lián)規(guī)則.其次,考慮到本文提出的算法(方案2)采用了模糊推理進行預測,而我們正是借鑒了TS模糊推理方法的思路,為此,采用方案3進行對比研究.

表1 對比方案Table 1 The comparison program
定義2(分類正確率).對于包含n條離散事務的離散事務集,將每條離散事務與已有規(guī)則進行匹配,若存在m條離散事務與已有規(guī)則匹配,則分類正確率為

定義3(均方根誤差RMSE).

其中,n表示數(shù)據樣本個數(shù),表示樣本預測輸出,yi表示樣本實際輸出.
為了驗證基于時態(tài)關聯(lián)規(guī)則的模糊推理預測性能以及更好地理解規(guī)則的物理意義,以Air Quality數(shù)據集中部分數(shù)據挖掘的時態(tài)關聯(lián)規(guī)則為例進行仿真實驗和說明.

規(guī)則的前件包含項{21}、{31}以及它們發(fā)生的有效時間區(qū)間[35,36]和[37,40],規(guī)則的后件包含項{61}以及它發(fā)生的有效時間區(qū)間[41,45].根據時間序列變量離散化得到的這些項集,可以對應到Air Quality數(shù)據集的時間序列的序列片段模式,如表2所示.

表2 離散化項集的序列片段模式Table 2 The segment patterns of the time series for the discrete item
因此,規(guī)則可以進一步表示為


表3 序列片段模式的語義描述Table 3 The semantic description of the segment patterns
上述規(guī)則可以進一步描述為:在2004年3月10日18時到2004年3月11日12時的時間區(qū)間中,時間序列NOx(GT)如果在時間2004年3月11日1時到2004年3月11日2時內(即時間區(qū)間[35,36])按照快速小幅下降的趨勢變化,而時間序列PT08.S2(NMHC)在時間2004年3月11日3時到2004年3月11日5時內(即時間區(qū)間[37,39])按照劇烈中幅上升的趨勢變化,則可以得到時間序列PT08.S5(O3)在時間2004年3月11日6時到2004年3月11日10時內(即時間區(qū)間[41,45]),將會按照劇烈中幅上升的趨勢變化.
在此基礎上,仿真實驗采用本文提出的基于多維時態(tài)關聯(lián)規(guī)則的模糊推理模型進行預測,具體形式為

進一步整理得到:

其中,模型的階次為2,dxc1j1(t?2)對應的是時態(tài)關聯(lián)規(guī)則前件中的項(21|[35,36]),dxc2j2(t?1)對應的是時態(tài)關聯(lián)規(guī)則前件中的項(31|[37,40]),dxc3j3(t)對應的是時態(tài)關聯(lián)規(guī)則后件中的項(61|[41,45]),采用其中30條樣本用于訓練,10條樣本用于測試,由式(10)~(12),辨識得到的該條規(guī)則的模糊推理模型的后件參數(shù)為

基于本文提出的基于多維時態(tài)關聯(lián)規(guī)則的模糊推理模型進行預測,表4給出了最終預測輸出的上下界的均方根誤差.

表4 最終預測輸出上下界均方根誤差Table 4 The RMSE of upper bound and lower bound for the prediction output
為驗證滑動窗口大小對系統(tǒng)演化更新效果的影響,該部分利用Air Quality時間序列數(shù)據集,在系統(tǒng)演化更新過程中,分別人為定義滑動窗口大小為5%,10%,15%,20%和25%,利用自動確定滑動窗口大小的方法確定滑動窗口大小為7%,對比不同滑動窗口大小情況下,系統(tǒng)演化更新過程中產生的時態(tài)關聯(lián)規(guī)則的規(guī)則數(shù)、規(guī)則分類正確率及預測均方根誤差,結果如表5所示.

表5 不同滑動窗口的演化更新效果Table 5 The evolution effect of different sliding window size
不同滑動窗口大小導致演化次數(shù)不同,滑動窗口大小為10%時,演化次數(shù)為12次;滑動窗口為25%時,演化次數(shù)為6次,為了方便比較,本文選擇共有演化次數(shù)為6次.如表5所示,在不同大小的滑動窗口下系統(tǒng)演化更新時所得規(guī)則數(shù)不同,且滑動窗口越大,產生的規(guī)則數(shù)也相對較多;自動確定滑動窗口中均具有最高的分類正確率;針對不同演化次數(shù),系統(tǒng)所得規(guī)則的預測誤差的波動變化不大.同一演化次數(shù)中,自動確定的滑動窗口中均具有最低的預測均方根誤差.
為驗證本文提出的方案2在獲取規(guī)則的個數(shù)、分類準確率(如表6所示)和預測性能(如表7所示)方面的有效性,首先通過算法自動確定滑動窗口大小,進而確定各個數(shù)據集的演化次數(shù),分別為13次、6次和7次.
從表6可以看出,與方案1重新挖掘規(guī)則相比,由于采用了概念漂移處理機制,方案2的演化更新系統(tǒng)不僅減少了挖掘規(guī)則的數(shù)量,而且節(jié)省了存儲空間,提高了算法效率,證明了方案2的有效性.此外,通過對比兩種方案所得規(guī)則的分類正確率,可以看到方案2的各演化更新階段所得規(guī)則具有較高的分類正確率,說明演化更新所得規(guī)則具有較好的性能.最后,評估三種方案對時間序列變化趨勢的預測性能,如表7所示,與其他兩個方案相比,方案2的模型預測誤差最小.對比方案3與方案1,本文提出的方案2具有更好的準確性.
這里,分別以三種時間序列數(shù)據集的最后一次演化更新時滑動窗口中數(shù)據的70%作為訓練樣本,30%作為測試樣本.圖3~5給出了測試樣本的三種方案的輸出預測值與實際值的擬合曲線.可以看到,對于三種數(shù)據集,方案1的擬合值與實際值相差最大,方案3次之,本文所提的方案2的擬合值幾乎與原有時間序列重合,具有更好的預測準確性.
為了處理時間序列數(shù)據,時態(tài)關聯(lián)規(guī)則挖掘廣泛地用于各種實際應用.通常時態(tài)數(shù)據庫中的時間序列數(shù)據是動態(tài)變化的,而現(xiàn)有的時態(tài)關聯(lián)規(guī)則挖掘技術對于最近更新的數(shù)據進行挖掘時,往往要依賴所有的時間序列數(shù)據進行重復挖掘,造成了資源的浪費.本文提出了一種新的算法,不僅可以動態(tài)更新時態(tài)關聯(lián)規(guī)則,而且通過結合模糊推理可以實現(xiàn)時態(tài)關聯(lián)規(guī)則的推理預測.本文采用了滑動窗技術對時間序列分塊處理,通過概念漂移檢測實現(xiàn)系統(tǒng)演化更新,避免了重復性地對模型進行重建的工作.

表6 不同數(shù)據集的有效性和準確性對比Table 6 Comparison of the validity and accuracy of different data sets

表7 擬合誤差Table 7 Fitting error
此外,為了更有效地利用時態(tài)關聯(lián)規(guī)則進行定量預測,構建了基于多維時態(tài)關聯(lián)規(guī)則的模糊推理預測方法,通過實驗對比研究,表明了本文算法的有效性、可擴展性和準確性.

圖3 數(shù)據集Air Quality的擬合曲線Fig.3 The fitting curve of the data set Air Quality

圖4 數(shù)據集Istanbul的擬合曲線Fig.4 The fitting curve of the data set Istanbul

圖5 數(shù)據集Synthetic Control Chart的擬合曲線Fig.5 The fitting curve of the data set Synthetic Control Chart