摘要:為解決符號聚合近似方法(SAX)表示時間序列時忽略序列局部趨勢的問題,提出一種融合形態(tài)趨勢信息的時間序列符號聚合近似方法。該方法以子序列段中的最大值和最小值以及它們兩者之間的相對位置為依據(jù),定義一種新的趨勢指標來描述子序列段的趨勢,并使用融合趨勢指標的符號矢量來近似表示時間序列。針對所提表示方法,給出一種新的距離度量方法,并在UCR數(shù)據(jù)集和電機轉(zhuǎn)矩數(shù)據(jù)集上進行分類實驗,實驗結(jié)果表明,所提方法在絕大多數(shù)數(shù)據(jù)集上獲得了較SAX方法更高的分類準確率,能夠有效彌補SAX方法表示時間序列時忽略局部趨勢的不足。
關鍵詞:時間序列;符號化表示;符號化聚合近似;趨勢信息
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2023)01-014-0086-05
doi:10.19734/j.issn.1001-3695.2022.06.0257
Time series symbolic aggregate approximation method for fusion trend information
Huang Junjie,Xu Xinghua,Cui Xiaopeng,Kang Jun,Yang Haoxiang
(National Key Laboratory of Science amp; Technology on Vessel Integrated Power System,Naval University of Engineering,Wuhan 430033,China)
Abstract:To solve the problem of losing trend information when representing time series with symbolic aggregate approximation method(SAX),this paper proposed a new time series symbolic aggregate approximation method integrating morphological trend information.Based on the maximum and minimum values in the subsequence and their relative positions,this method defined a new trend index to describe the trend information of the subsequence segments,and used the symbol vector integrating trend index to approximately represent the time series.For the proposed representation method,this paper gave a new distance metric and used it to conduct classification experiments on the UCR datasets and motor torque dataset.The experimental results show that the proposed method obtains higher classification accuracy than the SAX method on most datasets,and can effectively make up for the deficiency of losing local trend when the SAX method represents time series.
Key words:time series;symbolic representation;symbolic aggregate approximation;trend information
0引言
時間序列是按時間順序排序的一系列數(shù)據(jù),在現(xiàn)實生活中應用廣泛,例如,在交通管理上,可以利用車流量時間序列來檢測當前的交通情況[1,2];在空氣污染治理上,可以依據(jù)污染物濃度變化時間序列來監(jiān)測和預測空氣質(zhì)量[3,4];在醫(yī)療保健上,可以通過分析穿戴設備持續(xù)監(jiān)測心率變化情況得到的時間序列來實時監(jiān)控健康狀況[5,6];在股市分析上,可以通過分析股票價格波動時間序列來預測股票價格未來的走勢[7,8]。時間序列通常具有維度高、數(shù)據(jù)量大以及非穩(wěn)態(tài)等特點,直接在原時間序列上進行分析和挖掘時計算效率低下,運行時間較長,因此,眾多學者提出了許多時間序列降維表示的方法,較為著名的包括離散傅里葉變換(DFT)[9]、離散小波變換(DWT)[10]、離散余弦變換(DCT)[11]、奇異值分解(SVD)[12]、分段線性近似(PLA)[13]、分段聚合近似(PAA)[14]和符號聚合近似(SAX)[15]等。其中,SAX方法因為其簡單易懂和高效的特點被廣泛應用在時間序列的挖掘和分析上,無論是在相似性搜索、時間序列聚類或分類領域都有良好的表現(xiàn)。
然而,SAX方法將時間序列轉(zhuǎn)換為符號序列的過程中往往會忽略子序列段中除均值之外的其他信息。針對該缺陷,許多學者提出了改進方法。Lkhagva等人[16]提出擴展符號聚合近似表示方法(ESAX),該方法引入每段子序列的最大值和最小值作為新的符號表示,彌補了丟失的最值信息,但其用SAX方法三倍的符號數(shù)量表示時間序列使得計算代價也相應地成倍增加;鐘清流等人[17]提出基于方差的符號聚合近似表示方法(SFVS),該方法使用均值和方差組成的符號矢量來表示每段子序列,彌補了丟失的方差信息,但其使用均值的分割點符號化方差缺乏合理性;李海林等人[18]提出基于斜率的符號聚合近似表示方法(SF_SAX),該方法利用最小二乘法對子序列段進行直線擬合,并按文獻[17]的方法將擬合直線的斜率和子序列段均值表示為符號矢量。與SF_SAX類似,Ruan等人[19,20]提出的趨勢符號聚合近似表示方法(TrSAX)也利用SAX和最小二乘法來分別描述子序列的均值和斜率。SF_SAX和TrSAX能較好地區(qū)分時間序列子序列的形態(tài)差異,但使用最小二乘法擬合斜率時需要花費大量時間。Sun等人[21]提出基于趨勢距離的符號聚合近似表示方法(SAX_TD),該方法利用序列段中始末點與序列均值的差值計算趨勢因子,通過趨勢因子的數(shù)值大小來反映序列段的形態(tài)趨勢。與SAX_TD類似,季海娟等人[22]提出的基于始末距離的符號聚合近似表示方法(SAX_SM)同樣通過子序列段的始末點來反映子序列趨勢,不同的是該方法直接使用始末點的數(shù)值大小來描述趨勢。張可等人[23,24]提出基于分段趨勢的符號聚合近似表示方法(TSAX),該方法在PAA[14]的基礎上將每個分段進一步劃分成三段,通過對比這三段均值的大小來刻畫該分段的趨勢。這三種方法從不同角度描述子序列的趨勢,彌補了SAX忽略趨勢信息的不足,但也存在一定的局限性,當序列的始末點相等時,SAX_TD和SAX_SM方法均會忽略序列中的趨勢變化,將序列認定為具有水平趨勢的序列;TASX方法表示維度的大小與ESAX[16]方法相同,是SAX方法的三倍。
總的來說,上述改進方法從不同角度彌補了SAX處理時間序列時丟失的統(tǒng)計信息和趨勢信息,各有其適用的場景和局限性。本文針對傳統(tǒng)SAX表示時間序列時忽略局部趨勢的不足,提出一種融合趨勢信息的時間序列符號聚合近似方法(time series symbolic aggregate approximation method for fusion trend information,SAX_TI),本文所提方法以子序列段中的最大值和最小值以及它們兩者之間的相對位置為依據(jù),定義了一種新的趨勢指標來描述子序列段的趨勢信息,并使用各子序列段SAX表示符號和趨勢指標融合的符號矢量來近似表示時間序列。然后,針對本文所提出的表示方法,在原始符號距離的基礎上定義了一種新的距離度量方法。為了驗證本文所提方法的有效性,在加利福尼亞大學河濱分校(UCR)時間序列數(shù)據(jù)集[25]和電機轉(zhuǎn)矩事件數(shù)據(jù)集上進行實驗,并針對實驗結(jié)果對所提方法進行分析。
1SAX概述與問題描述
SAX方法是一種以PAA[14]為基礎的時間序列符號化表示算法,該方法先使用PAA 將長度為n的時間序列劃分為w條等長的子序列并計算各段子序列內(nèi)數(shù)據(jù)的均值,然后將各段序列的均值映射為對應的符號,進而得到長度為w的符號序列。
從SAX表示時間序列的過程中可知,該方法是一種數(shù)據(jù)壓縮比為n/w的時間序列降維表示方法,并且與PAA一樣,是一種基于均值特征的表示形式,即利用時間序列某一子序列段的均值來表示這一子序列段中的所有數(shù)據(jù)點。這種做法容易造成子序列段中其他信息的丟失(如趨勢信息、方差信息、極值信息等),尤其當數(shù)據(jù)的壓縮比越大,即均值代表的數(shù)據(jù)點越多時,其丟失的信息就會越多。除此之外,SAX方法對時間序列進行符號表示時,通常只能捕捉到原時間序列的總體變化趨勢,無法描述各個子序列段中的形態(tài)趨勢,這可能會導致形態(tài)趨勢不同的兩條時間序列符號化后得到相同的符號序列。
針對SAX的缺陷,下面給出一種能夠描述子序列趨勢信息的趨勢指標,以及融合該指標的時間序列符號聚合近似方法。
2融合趨勢信息的時間序列符號聚合近似表示方法
2.1近似表示
為了彌補原始SAX方法忽略時間序列趨勢信息的不足,本文在原始SAX方法的基礎上,以子序列段中的最大值和最小值以及它們兩者之間的相對位置為依據(jù),加入一種新的趨勢指標來描述子序列段的趨勢信息。最大值和最小值以及它們兩者之間的相對位置在時間序列趨勢分析中有著重要的作用,不同趨勢的序列段通常有不同的最大值和最小值,并且最大值和最小值的相對位置通常也不相同。上升形態(tài)趨勢的序列段中最小值一般在最大值之前,下降形態(tài)趨勢的序列段中最大值一般在最小值之前,水平形態(tài)趨勢的序列段中最大值和最小值一般相差不大,并且緩升/緩降形態(tài)趨勢的序列段中最大值與最小值的差值較小,速升/速降形態(tài)趨勢的序列段中最大值與最小值的差值較大,這便使得在時間序列各個序列段中依據(jù)最大值和最小值以及它們兩者之間的相對位置來描述各序列段的趨勢信息具有普遍適用性。具體而言,本文在原始SAX方法基礎上新加入的趨勢指標的定義及計算公式如下:
定義1趨勢指標。給定某段子序列中的最大值為valuemax、最小值為valuemin、最大值最小值所在位置分別為indexmax和indexmin,則稱式(1)的計算結(jié)果為本段子序列的趨勢指標。
ti=valuemax-valueminindexmaxgt;indexmin
valuemin-valuemaxindexmaxlt;indexmin
0indexmax=indexmin(1)
由式(1)可見,當序列段中的最大值在最小值之后,即序列段整體呈上升趨勢時,趨勢指標的取值為最大值減最小值,結(jié)果為正數(shù),當序列段的上升趨勢較急時,趨勢指標取值較大,當序列段的上升趨勢較緩時,趨勢指標的取值較小;相反地,當序列段中的最大值在最小值之前,即序列段整體呈下降趨勢時,趨勢指標的取值為最小值減最大值,結(jié)果為負數(shù),當序列段的下降趨勢較急時,趨勢指標取值較小,當序列段的上升趨勢較緩時,趨勢指標的取值較大;當序列段中最大值與最小值相等,即序列段整體呈水平趨勢時,趨勢指標的取值為0。
圖1給出了三條均值一致且均呈上升趨勢的序列段,圖中序列1的上升趨勢最急,序列2的次之,序列3的最緩,使用式(1)來計算趨勢指標值,可以得到圖中所有序列的趨勢指標值均為正數(shù),并且序列3的趨勢指標值ti-3最大,序列2的次之,序列1的最小。圖2給出了三條均值一致且均呈下降趨勢的序列段,圖中序列6的下降趨勢最急,序列5的次之,序列4的最緩,使用式(1)來計算趨勢指標值,可以得到圖中所有序列的趨勢指標值均為負數(shù),并且序列6的趨勢指標值ti-6最小,序列5的次之,序列4的最大。顯然,式(1)的計算結(jié)果與圖1和2中的情況是一致的,并且也與常規(guī)判斷相符。由此可見,本文定義的趨勢指標可以量化序列段的主要形態(tài)趨勢特征、客觀地描述序列段的整體趨勢信息,后續(xù)的實驗結(jié)果也證明了該趨勢指標在描述趨勢信息時的有效性。
結(jié)合上述趨勢指標的定義及計算公式,在原始SAX方法中融入趨勢指標的時間序列符號化表示方法稱為融合趨勢信息的時間序列符號聚合近似方法(SAX_TI),SAX_TI將時間序列轉(zhuǎn)換為符號矢量序列主要按以下三個步驟進行:
a)數(shù)據(jù)標準化。對原始時間序列進行標準化處理,將其轉(zhuǎn)換為均值為0,標準差為1的序列。
b)獲取均值序列和趨勢指標序列。使用PAA算法將標準化后的時間序列C=c1,c2,…,cn轉(zhuǎn)換為分段聚合近似表示,然后利用式(4)獲取每段子序列段的趨勢指標,即可獲得均值序列C=c1,c2,…,cw和趨勢指標序列C=c1,c2,…,cw。
c)構(gòu)建符號矢量序列。使用SAX方法將均值序列C=c1,c2,…,cw中每段子序列的均值映射為一個符號,進而將均值序列轉(zhuǎn)換為符號序列=1,2,…,w,然后按照文獻[17,18]的表示方法,將每段子序列對應的符號和趨勢指標用一個二元符號矢量i=i·i+ci·j表示,從而獲得符號矢量序列=1,2,…,w,完成時間序列的聚合近似表示。
2.2距離度量
形態(tài)趨勢特征是時間序列的重要特征,而原SAX方法中的距離度量僅使用符號距離來度量兩條時間序列間的距離,忽略了不同時間序列間的形態(tài)趨勢差異。為了彌補該不足,本文針對新定義的趨勢指標,基于歐氏距離的思想定義了用于計算兩序列段間形態(tài)趨勢距離的趨勢指標距離公式,然后結(jié)合原SAX方法中的距離度量給出本文表示方法對應的距離度量公式。
假設有兩條長度為n 的時間序列Q=q1,q2,…,qn 和C=c1,c2,…,cn,使用本文提出的SAX_TI方法將它們轉(zhuǎn)換為低維空間(維數(shù)為w)下的符號矢量序列=1,2,…,w和=1,2,…,w,其中對于任意l(1≤l≤w),有i=i·i+qi·j和i=i·i+ci·j,則SAX_TI的距離度量為
D=nw∑wl=1(dist(l,l)2)+∑wl=1(tidist(ql,cl)2)(2)
其中:dist()函數(shù)為度量兩個符號之間距離的函數(shù),具體計算方法同原始SAX方法中的距離度量一致[15];tidist()函數(shù)為度量兩個趨勢指標之間距離的函數(shù),具體計算方法同歐氏距離一致,即
tidist(ql,cl)=(ql-cl)2(3)
觀察圖1中三條均值相等但上升趨勢不同的序列,使用式(3)來計算序列之間的趨勢指標距離,可以得到序列1和2之間的趨勢指標距離最短,序列1和3之間的趨勢指標距離最長,這與圖中序列1和2趨勢差異較小、序列1和3趨勢差異較大的情況相符,說明該度量方法可以有效度量趨勢指標之間的距離。同時,對比原始SAX方法中的距離度量公式不難發(fā)現(xiàn),本文提出的SAX_TI距離度量方法在原始SAX距離度量方法的基礎上加入了趨勢指標的距離度量,克服了純符號距離的缺陷,可以有效彌補原始距離度量方法忽略形態(tài)趨勢差異的不足,因此相較于SAX方法的距離度量,本文所提的距離度量方法往往能夠更準確地度量兩條時間序列間的距離。
3實驗驗證與分析
3.1UCR數(shù)據(jù)集實驗與分析
UCR時間序列數(shù)據(jù)集[25]是目前時間序列挖掘領域重要的開源數(shù)據(jù)集資源,涵蓋電力/醫(yī)療/地理等諸多領域。為了驗證本文所提SAX_TI方法的有效性,同時便于對比不同方法的效果,選取文獻[21,22]選用的20個時間序列數(shù)據(jù)集來進行分類實驗。選取的20個數(shù)據(jù)集詳細信息如表1所示,表中每個數(shù)據(jù)集都包含訓練集和測試集,且不同數(shù)據(jù)集的類別數(shù)目為2~50類不等,時間序列長度為60~637不等,這些數(shù)據(jù)集在類別數(shù)目和序列長度上具有廣泛性,可以保證實驗的全面性和代表性。
1NN[26]分類算法的精度可以直接反映距離度量的有效性,并且1NN分類算法是沒有參數(shù)的,可以直接比較不同距離度量的效果,因此本文采用1NN分類算法對時間序列進行分類。在距離度量的選擇方面,由于本文提出的SAX_TI距離度量方法是從彌補趨勢信息的方向出發(fā),所以選取同樣從增加趨勢信息出發(fā)的SAX_TD[21]距離度量方法和SAX_SM[22]距離度量方法來和本文提出的距離度量方法進行對比。另外,本文還將選取原始SAX的距離度量方法和歐氏距離作為實驗對照組。
除了上述不同的距離度量方法,對時間序列符號化時選定的字符集大小α和分段數(shù)w也會影響分類的準確率。為了減少這兩個參數(shù)對實驗結(jié)果的影響,本文對上述多種不同的距離度量方法分別進行多次實驗,將字符集的大小α在3~10取值;分段數(shù)w在2~n/2取值,且每次取值為前一次的2倍;選擇分類準確率最高的結(jié)果作為相應符號聚合近似表示的最終實驗結(jié)果,若選擇不同的參數(shù)達到了相同的分類準確率,則選擇分段數(shù)w較小的參數(shù)。不同方法在不同數(shù)據(jù)集上的最佳分類準確率如表2所示,表中加粗表示各數(shù)據(jù)集上的最好分類準確率。同時,為了更好比較不同方法在不同數(shù)據(jù)集上的準確率,使用測試集大小大于500的數(shù)據(jù)集實驗時結(jié)果保留4位小數(shù),使用其余數(shù)據(jù)集實驗時結(jié)果保留3位小數(shù)。
由表2可見,在20組數(shù)據(jù)集中,SAX_TI的平均分類準確率最高,并且在14組數(shù)據(jù)集上獲得了最高的分類準確率(包括并列最高);相較于歐氏距離,SAX_TI在14組數(shù)據(jù)集上的分類準確率優(yōu)于歐氏距離,在2組數(shù)據(jù)集上持平;相較于SAX,SAX_TI在16組數(shù)據(jù)集上的分類準確率優(yōu)于SAX,1組數(shù)據(jù)集上持平;相較于SAX_TD,SAX_TI在12組數(shù)據(jù)集上的分類準確率優(yōu)于SAX_TD,3組數(shù)據(jù)集上持平;相較于SAX_SM,SAX_TI在14組數(shù)據(jù)集上的分類準確率優(yōu)于SAX_SM,2組數(shù)據(jù)集上持平。
為了更好對比SAX-TI方法和其他方法的分類準確率,使用符號檢驗法進行顯著性檢驗,檢驗結(jié)果如表3所示。不難發(fā)現(xiàn),本文所提SAX_TI方法的分類準確率較歐氏距離、原始SAX方法和SAX_SM方法顯著提高;相較于SAX_TD方法,雖未通過顯著性檢驗,但也有所提升。因此,本文定義的趨勢指標可以有效描述趨勢信息,能較好地彌補原SAX方法忽略趨勢信息的不足。
由表2的結(jié)果可知,SAX_TI方法在syn-control與two patterns數(shù)據(jù)集上的分類準確率與最高分類準確率的差距較大。這兩個數(shù)據(jù)集中的時間序列數(shù)據(jù)圖像分別如圖3、4所示(圖中的橫坐標表示時間序列的觀測點,縱坐標表示時間序列的觀測值,下同)。結(jié)合圖來看,這兩種時間序列數(shù)據(jù)中的部分子序列段短期波動頻繁且波動幅度較大,這不僅使得這些子序列段中同時存在速升、速降、緩升、緩降等多種形態(tài)趨勢,還致使這些序列段的整體趨勢不明顯,而本文所提SAX_TI方法的趨勢指標通過最值之間的差值來描述趨勢信息,往往只能刻畫這些序列段中最主要的趨勢,無法充分描述這些子序列段中的所有趨勢,提供準確的趨勢信息,這也是SAX_TI方法在這兩個數(shù)據(jù)集上表現(xiàn)不佳的主要原因。相反,對于使用SAX_TI方法達到最高分類準確率的gunpoint和trace數(shù)據(jù)集,圖5和6分別給出了這兩個數(shù)據(jù)集中的時間序列數(shù)據(jù)圖像,由圖可知,這兩種時間序列數(shù)據(jù)中不存在波動頻繁且波動幅度較大的子序列,子序列的整體趨勢明顯。由于本文所提SAX_TI方法的趨勢指標可以有效刻畫序列的主要趨勢,并且當序列的整體趨勢明顯時,序列的整體趨勢通常與主要趨勢相近,所以本文的趨勢指標可以客觀地描述這兩個數(shù)據(jù)集中時間序列的趨勢,這也是SAX_TI方法在這兩個數(shù)據(jù)集上表現(xiàn)較好的原因。綜上可知,當時間序列中不存在頻繁且幅值較大的波動,或者時間序列中子序列的整體趨勢明顯時,相較于其他從增加趨勢信息出發(fā)的方法,本文所提SAX_TI方法的效果通常更優(yōu)。
接下來對原始SAX、SAX_TD、SAX_SM以及SAX_TI方法在ECG200、gunpoint、trace、olive oil數(shù)據(jù)集上的運行時間(包括測試集中時間序列降維表示和分類的時間)進行比較。上述四個數(shù)據(jù)集中時間序列的長度分別為96、150、275和570,根據(jù)各個數(shù)據(jù)集中時間序列的長度,分別對它們的最大分段數(shù)w取值32、64、128和256,字符集大小α取10,實驗環(huán)境為:CPU i5-6300HQ、4 GB內(nèi)存、Windows 10操作系統(tǒng),算法實現(xiàn)平臺為MATLAB R2021a。實驗結(jié)果如圖7所示。
由圖7可以看出,四種方法按運行時間(包括測試集中時間序列符號化和分類的時間)由短到長的排序為SAX、SAX_SM、SAX_TD、SAX_TI。出現(xiàn)該結(jié)果的原因主要如下:SAX_SM、SAX_TD以及本文所提的SAX_TI都在原始SAX方法的基礎上加入了趨勢信息,分別使符號化后的序列增加了w+1維、w+1維和w維,因此這三種方法無論是時間序列符號化還是符號序列分類的運行時間都普遍長于原始SAX方法;而SAX_SM、SAX_TD和本文所提的SAX_TI方法的運行時間差異主要源于描述趨勢信息的方法不同,SAX_SM使用每段序列的始末點來描述趨勢信息,操作時只需要獲取每段序列始末點的位置索引,無須計算;SAX_TD使用趨勢因子來描述趨勢信息,在構(gòu)造趨勢因子時需要獲取每段序列的起點值和第w段序列的終點值,然后分別求取這些值與對應序列段均值的差值,在描述一條時間序列的趨勢信息時需要經(jīng)過w+1次加減運算;本文提出的SAX_TI使用趨勢指標來描述趨勢信息,在構(gòu)造指標時需要獲取每段序列的最大值和最小值以及它們的位置索引,然后依據(jù)位置索引判斷最大值位置和最小值位置的先后順序并計算最大值與最小值的差值或最小值與最大值的差值,在描述一條時間序列的趨勢信息時需要經(jīng)過w次加減運算和w次大小判斷;因此SAX_TD的運行時間略長于SAX_SM,本文所提SAX_TI的運行時間略長于SAX_TD。
當然,盡管本文所提SAX_TI的運行時間略長于其他三種方法,但對于高維的時間序列而言,由于維度的大大縮減,SAX_TI在進行相似性搜索、時間序列聚類或分類等任務時,運行時間均明顯短于直接對原始時間序列進行處理的時間。
3.2電機轉(zhuǎn)矩事件數(shù)據(jù)集實驗與分析
在工程中,系統(tǒng)進行一次實驗時不同設備傳感器采集的數(shù)據(jù)通常稱為本次實驗的事件數(shù)據(jù),事件數(shù)據(jù)按時間順序展開可以獲得時間序列,本節(jié)以某種電機在不同工況下的輸出轉(zhuǎn)矩事件數(shù)據(jù)構(gòu)成實驗數(shù)據(jù)集,數(shù)據(jù)集詳細信息如表4所示,不同工況的電機轉(zhuǎn)矩時間序列如圖8所示。
使用不同方法對電機轉(zhuǎn)矩數(shù)據(jù)集進行實驗時,參數(shù)α和w的設置方法與3.1節(jié)相同,表5給出了各種方法在電機轉(zhuǎn)矩數(shù)據(jù)集上的最佳分類準確率以及取得最高分類準確率的運行時間。由表可見,本文所提SAX-TI方法在電機轉(zhuǎn)矩數(shù)據(jù)集上的準確率較其他方法更優(yōu)。此外,由于SAX-TI在取得最優(yōu)分類準確率時對原時序數(shù)據(jù)的壓縮比較SAX-TD的更大,SAX-TI在取得最優(yōu)分類準確率時所耗費的時間少于SAX-TD。
4結(jié)束語
針對原始SAX在時間序列符號化過程中忽略子序列段形態(tài)趨勢信息的不足,本文在原始SAX的基礎上提出一種融合趨勢信息的時間序列符號聚合近似方法,通過引入趨勢指標來描述時間序列的趨勢信息,使用SAX表示符號和趨勢指標融合的二元符號矢量對時間序列近似表示,彌補了原始SAX方法符號化時丟失的形態(tài)趨勢信息。實驗結(jié)果表明,本文提出的方法在時間序列分類問題上的準確率通常優(yōu)于原始SAX方法,并且當子序列段內(nèi)的波動不明顯、子序列段具有明顯的趨勢時,相較于其他從增加趨勢信息出發(fā)的方法,本文方法的分類準確率通常更高。然而,在確定參數(shù)α和w的最佳組合時,本文采用遍歷的方法會導致花費大量時間,后續(xù)工作將研究參數(shù)組合的設置,以簡化和加速最佳參數(shù)組合的確定。另外,在合適的場景應用和推廣該方法也是下一步研究的重點。
參考文獻:
[1]Aldhanhani A,Damiani E,Mizouni R,et al.Framework for traffic event detection using shapelet transform[J].Engineering Applications of Artificial Intelligence,2019,82(6):226-235.
[2]Su Ziyi,Liu Qingchao,Zhao Chunxia,et al.A traffic event detection method based on random forest and permutation importance[J].Mathematics,2022,10(6):1-14.
[3]Zaini N,Ean L W,Ahmed A N,et al.A systematic literature review of deep learning neural network for time series air quality forecasting[J].Environmental Science and Pollution Research,2021,29(4):4958-4990.
[4]Wang Jianzhou,Li Hongmin,Lu Haiyan.Application of a novel early warning system based on fuzzy time series in urban air quality forecasting in China[J].Applied Soft Computing,2018,71:783-799.
[5]Khalifa Y,Mandic D,Sejdi E.A review of hidden Markov models and recurrent neural networks for event detection and localization in biomedical signals[J].Information Fusion,2021,69:52-72.
[6]Hong Shenda,Wang Can,F(xiàn)u Zhaoji.Gated temporal convolutional neural network and expert features for diagnosing and explaining phy-siological time series:a case study on heart rates[J].Computer Methods and Programs in Biomedicine,2020,200:105847.
[7]Zhao Feng,Gao Yating,Li Xinning,et al.A similarity measurement for time series and its application to the stock market[J].Expert Systems with Applications,2021,182(4):115217.
[8]Wu Junran,Xu Ke,Chen Xueyuan,et al.Price graphs:utilizing the structural information of financial time series for stock prediction[J].Information Sciences,2022,588:405-424.
[9]Agrawal R,F(xiàn)aloutsos C,Swami A N.Efficient similarity search in sequence databases[C]//Proc of International Conference on Foundations of Data Organization amp; Algorithms.Berlin:Springer,1993.
[10]Chan K P,F(xiàn)u A W C.Efficient time series matching by wavelets[C]//Proc of the 15th International Conference on Data Enginee-ring.Piscataway,NJ:IEEE Press,1999.
[11]Korn F,Jagadish H V,F(xiàn)aloutsos C.Efficiently supporting Ad hoc queries in large datasets of time sequences[J].ACM SIGMOD Record,1997,26(2):289-300.
[12]Kanth K V R,Agrawal D,Abbadi A E,et al.Dimensionality reduction for similarity searching in dynamic databases[J].Computer Vision amp; Image Understanding,1999,75(1-2):59-72.
[13]Keogh E,Chu S,Hart D,et al.An online algorithm for segmenting time series[C]//Proc of IEEE International Conference on Data Mi-ning.Piscataway,NJ:IEEE Press,2001.
[14]Keogh E,Chakrabarti K,Pazzani M,et al.Dimensionality reduction for fast similarity search in large time series databases[J].Knowledge amp; Information Systems,2001,3(3):263:263-286.
[15]Lin J,Keogh E J,Lonardi S,et al.A symbolic representation of time series,with implications for streaming algorithms[C]//Proc of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery.New York:ACM Press,2003:2-11.
[16]Lkhagva B,Suzuki Y,Kawagoe K.Extended SAX:extension of symbolic aggregate approximation for financial time series data representation[C]//Proc of the 22nd International Conference on Data Engineering Workshops.Piscataway,NJ:IEEE Press,2006:115-121.
[17]鐘清流,蔡自興.基于統(tǒng)計特征的時序數(shù)據(jù)符號化算法[J].計算機學報,2008,31(10):1857-1864.(Zhong Qingliu,Cai Zixing.The symbolic algorithm for time series data based on statistic feature[J].Chinese Journal of Computers,2008,31(10):1857-1864.)
[18]李海林,郭崇慧.基于形態(tài)特征的時間序列符號聚合近似方法[J].模式識別與人工智能,2011,24(5):665-672.(Li Hailin,Guo Chonghui.Symbolic aggregate approximation based on shape features[J].Pattern Recognition and Artificial Intelligence,2011,24(5):665-672.)
[19]Ruan Hui,Hu Xiaoguang,Xiao Jin,et al.TrSAX-An improved time series symbolic representation for classification[J].ISA Trans,2020,100:387-395.
[20]阮輝,劉雷,胡曉光.基于趨勢符號聚合近似的衛(wèi)星時序數(shù)據(jù)分類方法[J].北京航空航天大學學報,2021,47(2):333-341.(Ruan Hui,Liu Lei,Hu Xiaoguang.Satellite time series data classification method based on trend symbolic aggregation approximation[J].Journal of Beijing University of Aeronautics and Astronautics,2021,47(2):333-341.)
[21]Sun Youqiang,Li Jiuyong,Liu Jixue,et al.An improvement of symbolic aggregate approximation distance measure for time series[J].Neurocomputing,2014,138(8):189-198.
[22]季海娟,周從華,劉志鋒.一種基于始末距離的時間序列符號聚合近似表示方法[J].計算機科學,2018,45(6):216-221.(Ji Haijuan,Zhou Conghua,Liu Zhifeng.Symbolic aggregate approximation method of time series based on beginning and end distance[J].Computer Science,2018,45(6):216-221.)
[23]Zhang Ke,Li Yuan,Chai Yi,et al.Trend-based symbolic aggregate approximation for time series representation[C]//Proc of Chinese Control and Decision Conference.Piscataway,NJ:IEEE Press,2018:2234-2240.
[24]張可,李媛,柴毅,等.基于分段趨勢的符號化時間序列聚類表示[C]//第37屆中國控制會議論文集.2018:681-686.(Zhang Ke,Li Yuan,Chai Yi,et al.Symbolic time series clustering representation based on trend in segment[C]//Proc of the 37th Chinese Control Conference.2018:681-686.)
[25]Dau H A,Bagnall A,Kamgar K,et al.The UCR time series archive[J].IEEE/CAA Journal of Automatica Sinica,2019,6(6):1293-1305.
[26]Do C T,Douzal-Chouakria A,Sylvain M,et al.Temporal and Frequential metric learning for time series KNN classification[C]//Proc of the 1st International Workshop on Advanced Analytics and Learning on Temporal Data.2015.
收稿日期:2022-06-06;修回日期:2022-07-22基金項目:國家自然科學基金項目;湖北省自然科學基金項目
作者簡介:黃俊杰(1998-),男,碩士研究生,主要研究方向為機器學習、數(shù)據(jù)挖掘;徐興華(1982-),男(通信作者),副研究員,博導,博士,主要研究方向為故障診斷與健康管理(1564712766@qq.com);崔小鵬(1984-),男,副研究員,博士,主要研究方向為故障診斷與健康管理、工業(yè)檢測;康軍(1979-),男,副教授,博士,主要研究方向為電力系統(tǒng)及其自動化;楊皓翔(1998-),男,碩士研究生,主要研究方向為證據(jù)推理.