程艷云,張守超,楊 楊
(南京郵電大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210023)
基于大數(shù)據(jù)的時(shí)間序列異常點(diǎn)檢測(cè)研究
程艷云,張守超,楊 楊
(南京郵電大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210023)
針對(duì)傳統(tǒng)時(shí)間序列異常點(diǎn)檢測(cè)方法在處理大量數(shù)據(jù)時(shí)檢測(cè)精度與效率低下的缺陷,文中提出一種基于大數(shù)據(jù)技術(shù)的全新時(shí)間序列異常點(diǎn)檢測(cè)方法。首先介紹了傳統(tǒng)時(shí)間序列異常點(diǎn)檢測(cè)方法并分析了其缺陷。其次介紹了基于大數(shù)據(jù)方法的理論推導(dǎo),包括特征提取、奇異點(diǎn)檢測(cè)及異常點(diǎn)判別,具體為采用大數(shù)據(jù)方法將海量序列分解為周期分量、趨勢(shì)分量、隨機(jī)誤差分量及突發(fā)分量四個(gè)不同分量,對(duì)不同分量進(jìn)行特征提取并根據(jù)特征提取結(jié)果進(jìn)行奇異點(diǎn)檢測(cè),并在此基礎(chǔ)上利用序列特點(diǎn)判別奇異點(diǎn)是否為異常點(diǎn)。最后通過(guò)實(shí)驗(yàn)分析對(duì)比驗(yàn)證大數(shù)據(jù)方法的可行性與效率。實(shí)驗(yàn)結(jié)果表明,基于大數(shù)據(jù)方法的時(shí)間序列異常點(diǎn)檢測(cè)相比于傳統(tǒng)的方法具有更高的檢測(cè)精度與更快的檢測(cè)速率。
異常點(diǎn)檢測(cè);時(shí)間序列;大數(shù)據(jù);特征提取
所謂異常點(diǎn),即數(shù)據(jù)集中與數(shù)據(jù)的一般行為或?qū)ο蟛灰恢碌臄?shù)據(jù)對(duì)象,異常點(diǎn)一般也稱作離群點(diǎn)[1]。數(shù)據(jù)的不確定性是產(chǎn)生異常點(diǎn)的主要原因,數(shù)據(jù)的不確定性可分為存在的不確定性和值的不確定性兩類(lèi)[2]。簡(jiǎn)而言之,就是數(shù)據(jù)測(cè)量和收集誤差、自然變異、數(shù)據(jù)不確定性等原因?qū)е庐惓|c(diǎn)的出現(xiàn)。異常數(shù)據(jù)往往包含著很重要的信息,對(duì)實(shí)驗(yàn)結(jié)果與分析起到了重要作用,一方面不應(yīng)該將異常數(shù)據(jù)簡(jiǎn)單地作為錯(cuò)誤數(shù)據(jù)來(lái)處理,另一方面應(yīng)當(dāng)尋找有效的方法去檢測(cè)并挖掘這些異常點(diǎn)所隱含的意義。
時(shí)間序列是由記錄值和記錄時(shí)間組成的元素的有序集合[3]。時(shí)間序列的分析主要包括趨勢(shì)分量、季節(jié)性分量、突發(fā)分量以及隨機(jī)誤差分量,而趨勢(shì)分量與隨機(jī)誤差分量是時(shí)間序列中異常點(diǎn)檢測(cè)的重要研究方向。文中將在分析時(shí)間序列特性的基礎(chǔ)上,比較傳統(tǒng)時(shí)間序列異常點(diǎn)檢測(cè)方法的各自優(yōu)缺點(diǎn),結(jié)合大數(shù)據(jù)算法,研究如何采用大數(shù)據(jù)方法來(lái)對(duì)時(shí)間序列進(jìn)行異常點(diǎn)的檢測(cè)與分析,從而提高檢測(cè)的效率與精度,為下一步的數(shù)據(jù)處理提供幫助。
為了減少異常點(diǎn)對(duì)實(shí)驗(yàn)結(jié)果的干擾,需要對(duì)異常點(diǎn)進(jìn)行檢測(cè)并處理。異常數(shù)據(jù)的挖掘主要使用偏差檢測(cè),包括聚類(lèi)法、序列異常法、最近鄰居法、多位數(shù)據(jù)分析法等[4-5]。通過(guò)偏差檢測(cè)可以在一定程度上發(fā)現(xiàn)異常點(diǎn),但是也存在部分缺陷,比如導(dǎo)致兩種不良的后果:(1)掩蓋現(xiàn)象,即未能識(shí)別出某些真正的離群點(diǎn);(2)淹沒(méi)現(xiàn)象,即將正常點(diǎn)誤判為離群點(diǎn)[6]。
時(shí)間序列的一個(gè)最重要特征就是具有時(shí)間屬性,序列值之間必須按照時(shí)間先后順序進(jìn)行嚴(yán)格的排序。針對(duì)這一特性,產(chǎn)生了很多種時(shí)間序列異常點(diǎn)檢測(cè)方法,主要分為以下幾大類(lèi):
(1)統(tǒng)計(jì)學(xué)方法[7-9]。
主要包括基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)算法、基于密度的方法、基于距離的異常點(diǎn)的檢測(cè)算法等等,然而這類(lèi)方法需要在多維空間中尋找異常點(diǎn),并不適用于一維的時(shí)間序列,并且在使用統(tǒng)計(jì)學(xué)方法前必須得知道數(shù)據(jù)的分布模型,這就涉及到模型參數(shù)的問(wèn)題,但是這些信息一般事先是不知道的。
(2)機(jī)器學(xué)習(xí)方法[10-12]。
機(jī)器學(xué)習(xí)方法主要可以劃分為兩大類(lèi):一是人工神經(jīng)網(wǎng)絡(luò),二是支持向量機(jī)。兩類(lèi)方法也是各有優(yōu)缺點(diǎn):人工神經(jīng)網(wǎng)絡(luò)在處理小規(guī)模問(wèn)題上具有很好的應(yīng)用效果,但是對(duì)于大規(guī)模的問(wèn)題,人工神經(jīng)網(wǎng)絡(luò)的構(gòu)造將會(huì)非常復(fù)雜,因此不能很好地往大規(guī)模問(wèn)題上擴(kuò)展;相對(duì)于人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī)不僅具有相同的處理能力,而且在計(jì)算效率上也有很大的提高,但是支持向量機(jī)在理論方面或者在建立模型方面都相對(duì)比較復(fù)雜,因此在實(shí)際應(yīng)用中存在一定的難度。
(3)其他方法[13-16]。
除了上述提及的兩大類(lèi)方法,還包括基于空間的方法、基于小波的方法、基于AR模型的方法等等。基于小波的方法雖然在查詢性能上有所改進(jìn),但是對(duì)短期的異常模式無(wú)法檢測(cè);而基于AR模型的方法需要知道時(shí)間序列模型。
雖然時(shí)間序列異常點(diǎn)檢測(cè)研究領(lǐng)域出現(xiàn)了很多算法,但是這些算法還不夠成熟,尤其面對(duì)日益增加的數(shù)據(jù)量,傳統(tǒng)的時(shí)間序列異常點(diǎn)檢測(cè)方法在效率與精度上都達(dá)不到預(yù)期要求,所以必須采用新的方法來(lái)進(jìn)行處理。
由于時(shí)間序列具有結(jié)構(gòu)簡(jiǎn)單的特點(diǎn),傳統(tǒng)時(shí)間序列異常點(diǎn)檢測(cè)方法面臨的主要問(wèn)題在于時(shí)間序列特征難以提取,而且面對(duì)海量數(shù)據(jù)時(shí),傳統(tǒng)方法在處理能力上已顯得力不從心。為了解決這兩大問(wèn)題,文中在時(shí)間序列基本特點(diǎn)的基礎(chǔ)上,結(jié)合全新的大數(shù)據(jù)處理算法,提出一種新的時(shí)間序列異常點(diǎn)檢測(cè)方法。通過(guò)分析隱藏在海量數(shù)據(jù)背后的特征,提取新的時(shí)間序列特征進(jìn)行分析,從而提高預(yù)測(cè)效率與精度,改進(jìn)預(yù)測(cè)速率,克服傳統(tǒng)方法的缺陷。
時(shí)間序列由周期分量、趨勢(shì)分量、突發(fā)分量及隨機(jī)誤差分量四個(gè)分量組成[17],每個(gè)分量均具有不同的特征。文中將先對(duì)四個(gè)分量進(jìn)行特征提取并根據(jù)特征提取結(jié)果進(jìn)行奇異點(diǎn)檢測(cè),然后結(jié)合四個(gè)分量共同特點(diǎn)進(jìn)行異常點(diǎn)檢測(cè),提高檢測(cè)精度與速率。圖1為基于大數(shù)據(jù)方法的異常點(diǎn)檢測(cè)方法流程圖。

圖1 基于大數(shù)據(jù)的時(shí)間序列異常點(diǎn)檢測(cè)流程圖
1)周期分量特征提取。
時(shí)間序列中周期分量的特征提取主要為時(shí)間序列周期的確定,一般的周期確定方法有傅里葉變換、小波變換、差分計(jì)算等[18]。文中將根據(jù)時(shí)間序列周期特點(diǎn),結(jié)合大數(shù)據(jù)處理方法,采用一種全新的方法來(lái)確定周期L。首先根據(jù)式(1)對(duì)時(shí)間序列X{x1,x2,…,xM}(xi范圍為V1-V2)進(jìn)行差分計(jì)算得到矩陣A(其中m>30*48,n>50),如下所示:
(1)
對(duì)矩陣A的每一行進(jìn)行線性擬合,參數(shù)分別記為(a1,a2,…,am-1),(b1,b2,…,bm-1),將A的每一行下標(biāo)分別代入對(duì)應(yīng)的Y=aN+b中得到對(duì)應(yīng)的A',如式(2)所示。
采用最小二乘法(見(jiàn)式(3))計(jì)算A與A'每行最小誤差,其中首次出現(xiàn)最小誤差的行數(shù)即為周期L。

(2)


(3)
2)趨勢(shì)分量特征提取。
周期分量特征的正確提取是進(jìn)行趨勢(shì)分量特征提取的前提條件。通過(guò)周期分量特征提取得到周期L,將時(shí)間序列X以周期L進(jìn)行劃分得到矩陣B,其中xM為時(shí)間序列X最后一個(gè)數(shù)據(jù),xM之后數(shù)據(jù)均為空值NA。
(4)
矩陣B具有兩個(gè)方向的特征坐標(biāo),同一行內(nèi)所有點(diǎn)代表處于同一周期的所有時(shí)間點(diǎn)的集合,同一列內(nèi)的所有點(diǎn)代表處于不同周期同一位置的點(diǎn)的集合。將矩陣B的每一列依次取出,得到共計(jì)L個(gè)時(shí)間序列{x1,xL+1,…,xN*L+1},{x2,xL+2,…,xN*L+2},…,{xi,xL+i,…,xM},{xi+1,xL+i+1,…,NA},…,{xL,x2L,…,NA},分別記做L1~LL。其中,每個(gè)Li序列均有N個(gè)數(shù)據(jù)(xM所在列之后序列最后一位數(shù)值均為NA)。
圖2展示了時(shí)間序列X及經(jīng)過(guò)趨勢(shì)分量提取之后的序列X'。圖(a)中,X坐標(biāo)表示時(shí)間點(diǎn),Y坐標(biāo)表示序列值大小;圖(b)中,X坐標(biāo)表示不同周期,Y坐標(biāo)表示單周期長(zhǎng)度,Z坐標(biāo)表示序列值大小。
對(duì)所有序列Li分別進(jìn)行如下操作:
(1)如果序列中存在NA,則將NA剔除,序列長(zhǎng)度變?yōu)镹-1;
(2)對(duì)處理后的Li進(jìn)行聚類(lèi)分析[19],離群點(diǎn)劃入奇異點(diǎn)E。
對(duì)于序列Li內(nèi)的所有點(diǎn),其本質(zhì)為序列X內(nèi)所有周期內(nèi)相同位置的點(diǎn)的集合,排除突發(fā)分量和隨機(jī)誤差影響,理論上具有相同的分布特性。若序列Li趨勢(shì)分量為固定值,則Li內(nèi)所有點(diǎn)處于同一條水平直線上,該直線之外的所有點(diǎn)則均認(rèn)為是奇異點(diǎn);若序列Li趨勢(shì)分量按照一定的規(guī)律分布,則不按照該規(guī)律分布的點(diǎn)視為奇異點(diǎn);若序列Li趨勢(shì)分量為隨機(jī)分布,則需要先找出隨機(jī)分布范圍[min,max],在該范圍之外的點(diǎn)均為奇異點(diǎn)。

(a)周期特征提取前時(shí)間序列X

(b)趨勢(shì)分量提取后序列X
3)隨機(jī)誤差分量Rt特征提取。
傳統(tǒng)方法一般認(rèn)為時(shí)間序列隨機(jī)誤差分布函數(shù)服從正態(tài)分布,其均值為0,方差則根據(jù)實(shí)際情況確定。而在文中方法中,將根據(jù)時(shí)間序列的實(shí)際情況來(lái)確定隨機(jī)誤差分量的分布函數(shù),具體方法如下所示:

(5)
根據(jù)所有的Rt(i),可以得到序列X的隨機(jī)誤差分布模型,記為Xe~Fe(r)。
(6)
根據(jù)隨機(jī)誤差分布模型,即可得到序列X的隨機(jī)誤差分布范圍,為下一步的判別奇異點(diǎn)是否為異常點(diǎn)做好準(zhǔn)備工作。
4)突發(fā)分量Bt特征提取。
突發(fā)分量特征提取是判別奇異點(diǎn)是否為異常點(diǎn)的前提,分別對(duì)N1~NN-1行做如下操作:


(7)
(8)
(3)如果Sum(i)>Sum(i)',則序列Ni內(nèi)數(shù)據(jù)均為突發(fā)點(diǎn),否則序列Ni內(nèi)數(shù)據(jù)不為突發(fā)點(diǎn)。

突發(fā)分量特征Bt提取之后,判別奇異點(diǎn)E是否屬于Bt或者Rt范圍內(nèi),若是,則該奇異點(diǎn)不是異常點(diǎn),若否,則該奇異點(diǎn)為異常點(diǎn)。方法總體步驟如下所示:
fori=1:m
計(jì)算A得到周期L
end
then
計(jì)算得到B(N*L)
fori=1:L
對(duì)B的每列進(jìn)行趨勢(shì)分量提取;
分析得到奇異點(diǎn)E:{e1,e2,…,en};
end
提取突發(fā)分量特征Bt;
then
提取隨機(jī)誤差分量特征Rt;
forE
if(ei屬于Bt或者在Rt范圍內(nèi))
ei為非異常點(diǎn)
else
ei為異常點(diǎn)
end
3 實(shí)驗(yàn)與結(jié)果
在通信網(wǎng)絡(luò)中,各項(xiàng)核心性能指標(biāo)(KPI)均以時(shí)間序列形式表示。以單一小區(qū)為例,單一KPI一年數(shù)據(jù)量長(zhǎng)度為48*365。文中將以通訊網(wǎng)絡(luò)中時(shí)間序列為例,分析并比較傳統(tǒng)時(shí)間序列異常點(diǎn)檢測(cè)方法與基于大數(shù)據(jù)的時(shí)間序列異常點(diǎn)檢測(cè)方法各自的優(yōu)缺點(diǎn)。
任取某一小區(qū)某一KPI(RRC設(shè)置成功率)半年數(shù)據(jù)為例,取m=400,n=100進(jìn)行差分處理得到矩陣A(400*100),并對(duì)矩陣A的每一行進(jìn)行線性擬合并采用最小二乘法計(jì)算誤差得到Error矩陣,取矩陣Error首次出現(xiàn)最小值行數(shù)記為周期L,得到最優(yōu)參數(shù)L=48,按照L=48得到矩陣B。對(duì)矩陣B以周期為單位畫(huà)作圖(按行)和以相同時(shí)間點(diǎn)作圖(按列),見(jiàn)圖3。

(a)L-V維度矩陣B

(b)N-V維度矩陣B
提取矩陣B的每一列得到不同的時(shí)間子序列Li,對(duì)于所有的序列Li,判別其趨勢(shì)分量特征。若趨勢(shì)分量為固定值,采用聚類(lèi)或線性擬合進(jìn)行奇異點(diǎn)確定[20];若趨勢(shì)分量為規(guī)律分布,根據(jù)規(guī)律進(jìn)行奇異點(diǎn)確定;若趨勢(shì)分量為隨機(jī)分布,根據(jù)分布函數(shù)進(jìn)行奇異點(diǎn)確定。
圖4分別展示了矩陣B的三種不同趨勢(shì)分量分布奇異點(diǎn)確定方法。

(a)趨勢(shì)分量為零

(b)趨勢(shì)分量隨機(jī)分布

(c)趨勢(shì)分量規(guī)律分布
如圖(a)中所示,對(duì)于序列Ni內(nèi)所有點(diǎn)理論均為固定值,即所有點(diǎn)的集合為一條直線,直線之外歸為奇異點(diǎn);圖(b)中所有點(diǎn)為隨機(jī)分布,找出分布的上下區(qū)間,取上區(qū)間的前5%和下區(qū)間的后5%的點(diǎn)記為奇異點(diǎn);圖(c)中,表示趨勢(shì)分量呈一定的周期分布,在此周期之外的點(diǎn)為奇異點(diǎn)。
奇異點(diǎn)E提取過(guò)后,進(jìn)行隨機(jī)誤差分量特征提取,按照大數(shù)據(jù)算法公式,可以得到整體分布函數(shù)為:
統(tǒng)計(jì)每個(gè)周期的分布函數(shù),通過(guò)計(jì)算可以得到隨機(jī)誤差分布函數(shù)為:
Xe~Fe(x)=

突發(fā)分量特征提取結(jié)束之后,進(jìn)行最后一步計(jì)算,判別奇異點(diǎn)是否為突發(fā)分量或者在隨機(jī)誤差范圍內(nèi)。
圖5為基于大數(shù)據(jù)方法的異常點(diǎn)檢測(cè)算法、基于距離的異常點(diǎn)的檢測(cè)算法[21]、基于人工神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測(cè)方法[22]、基于AR模型方法的異常點(diǎn)檢測(cè)方法[23]結(jié)果對(duì)比圖,其中虛線線條對(duì)應(yīng)點(diǎn)即為異常點(diǎn)。
表1為上述四種方法對(duì)于不同數(shù)據(jù)量(短期:30*48個(gè)數(shù)據(jù)量;長(zhǎng)期:12*30*48個(gè)數(shù)據(jù)量)的檢測(cè)精度、檢測(cè)效率、檢測(cè)速率對(duì)比結(jié)果。

(a)基于大數(shù)據(jù)

(b)基于距離

(c)基于人工神經(jīng)網(wǎng)絡(luò)

(d)基于AR模型
檢測(cè)精度=正確的檢測(cè)結(jié)果數(shù)/異常點(diǎn)總數(shù)值* 100%
檢測(cè)效率=正確的檢測(cè)結(jié)果數(shù)/檢測(cè)結(jié)果數(shù)* 100%
檢測(cè)速率=完成一次檢測(cè)所需時(shí)間(s)

表1 短/長(zhǎng)期檢測(cè)精度、效率、速率結(jié)果對(duì)比
通過(guò)實(shí)驗(yàn)結(jié)果可以看出,基于大數(shù)據(jù)的時(shí)間序列異常點(diǎn)檢測(cè)方法在短期異常點(diǎn)檢測(cè)中與傳統(tǒng)方法相比在檢測(cè)精度、檢測(cè)效率上有一定的改進(jìn),但在檢測(cè)速率上稍微遜色一點(diǎn);但是在面對(duì)大量的長(zhǎng)期數(shù)據(jù)時(shí),基于大數(shù)據(jù)的時(shí)間序列異常點(diǎn)檢測(cè)方法在檢測(cè)精度與檢測(cè)效率上均比其他方法有很大的提高,在檢測(cè)速率上相比于其他方法,基于大數(shù)據(jù)的方法具有更快的速率。
面對(duì)日益增長(zhǎng)的數(shù)據(jù)量,文中采用大數(shù)據(jù)方法,基于時(shí)間序列特征提出了一種全新的時(shí)間序列異常點(diǎn)檢測(cè)方法,并通過(guò)實(shí)驗(yàn)分析該方法的可行性與效率,達(dá)到了預(yù)期要求。同時(shí)作為剛剛興起的大數(shù)據(jù)方法,還有許多需改進(jìn)的地方,將來(lái)的工作需要對(duì)算法做進(jìn)一步的改進(jìn),提高短期預(yù)測(cè)速率、長(zhǎng)期預(yù)測(cè)精度與效率等。
[1] 曹忠虔.時(shí)間序列異常檢測(cè)的研究[D].成都:電子科技大學(xué),2012.
[2] 郭 春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2014.
[3]BoxGEP.時(shí)間序列分析——預(yù)測(cè)與控制[M].上海:機(jī)械工業(yè)出版社,2011.
[4] 楊金偉.基于距離和信息熵的不確定異常點(diǎn)檢測(cè)研究[D].昆明:云南大學(xué),2011.
[5] 劉良旭,樂(lè)嘉錦,喬少杰,等.基于軌跡點(diǎn)局部異常度的異常點(diǎn)檢 測(cè)算法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1966-1975.
[6] 劉丹丹,陳啟軍,森一之.線性回歸模型的多離群點(diǎn)檢測(cè)方法及節(jié)能應(yīng)用[J].信息與控制,2013,42(6):765-771.
[7] 胡世杰,錢(qián)宇寧,嚴(yán)如強(qiáng).基于概率密度空間劃分的符號(hào)化時(shí)間序列分析及其在異常診斷中的應(yīng)用[J].振動(dòng)工程學(xué)報(bào),2014,27(5):780-784.
[8] 蘇衛(wèi)星,朱云龍,胡琨元,等.基于模型的過(guò)程工業(yè)時(shí)間序列異常值檢測(cè)方法[J].儀器儀表學(xué)報(bào),2012,33(9):2080-2087.
[9] 楊 越,胡漢平,熊 偉,等.一種基于超統(tǒng)計(jì)理論的非平穩(wěn)時(shí)間序列異常點(diǎn)檢測(cè)方法研究[J].計(jì)算機(jī)科學(xué),2011,38(6):93-95.
[10] 王佳瑋.決策支持中基于時(shí)間序列數(shù)據(jù)的異常點(diǎn)檢測(cè)[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2014.
[11] 陳 敏.基于BP神經(jīng)網(wǎng)絡(luò)的混沌時(shí)間序列預(yù)測(cè)模型研究[D].長(zhǎng)沙:中南大學(xué),2007.
[12] 崔萬(wàn)照,朱長(zhǎng)純,保文星,等.基于模糊模型支持向量機(jī)的混沌時(shí)間序列預(yù)測(cè)[J].物理學(xué)報(bào),2005,54(7):3009-3018.
[13] 莊雪鵬.基于小波的時(shí)間序列中異常點(diǎn)的檢測(cè)[D].南京:南京大學(xué),2013.
[14] 張建平,李 斌,劉學(xué)軍,等.基于Hadoop的異常傳感數(shù)據(jù)時(shí)間序列檢測(cè)[J].傳感技術(shù)學(xué)報(bào),2014,27(12):1659-1665.
[15] 王 駿,鐘富禮,王士同,等.基于移相加權(quán)球面單簇聚類(lèi)的周期時(shí)間序列異常檢測(cè)[J].自動(dòng)化學(xué)報(bào),2011,37(8):984-992.
[16] 張玉飛,董永貴.一種時(shí)間序列異常檢測(cè)用參數(shù)化熵濾波器[J].機(jī)械工程學(xué)報(bào),2011,47(22):13-18.
[17] 張 蕾.非線性時(shí)間序列的高階統(tǒng)計(jì)特征提取和趨勢(shì)分析[D].沈陽(yáng):沈陽(yáng)航空航天大學(xué),2012.
[18] 龔祝平.混沌時(shí)間序列的平均周期計(jì)算方法[J].系統(tǒng)工程,2010,28(12):111-113.
[19] 韓 娜.聚類(lèi)算法在時(shí)間序列中的研究與應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2011.
[20] 閆秋艷,夏士雄.一種無(wú)限長(zhǎng)時(shí)間序列的分段線性擬合算法[J].電子學(xué)報(bào),2010,38(2):443-448.
[21]RasheedF,AlhajjR.Aframeworkforperiodicoutlierpatterndetectionintime-seriessequences[J].IEEETransactionsonCybernetics,2014,44(5):569-582.
[22]Buzzi-FerrarisG,ManentiF.Outlierdetectioninlargedatasets[J].ComputersandChemicalEngineering,2010,35:388-390.
[23]LiST,ChengYC.AstochasticHMM-basedforecastingmodelforfuzzytimeseries[J].IEEETransactionsonCybernetics,2010,40(5):1255-1266.
Research on Time Series Outlier Detection Based on Big Data
CHENG Yan-yun,ZHANG Shou-chao,YANG Yang
(College of Automation,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
According to the detection accuracy and efficiency limitation of traditional time series outlier detection methods when dealing with a large amount of data,a new time series outlier detection method is put forward,which is based on the big data technology.Firstly,the traditional time series outlier detection methods are introduced,analysis of their defects.Secondly,it introduces the theoretical derivation of big data method in this paper,which can be divided into feature extraction,abnormal detection and outlier distinguish.The massive series is decomposed into four different components,including periodic component,trend component,random error component and burst component.Then the feature is extracted to four components and abnormal detection is made according to the result of extraction.On this basis it determines whether abnormal point is outlier by series characteristic.Finally,the feasibility and efficiency of big data approach is verified by experiment analysis and comparison.The results show that the big data method has higher precision and rate compared with traditional methods.
outlier detection;time series;big data;feature extraction
2015-07-06
2015-10-14
時(shí)間:2016-05-05
江蘇省自然科學(xué)基金(BK20140877,BE2014803)
程艷云(1979-),女,副教授,碩士生導(dǎo)師,研究方向?yàn)樽詣?dòng)控制原理、網(wǎng)絡(luò)優(yōu)化;張守超(1991-),男,碩士研究生,研究方向?yàn)榇髷?shù)據(jù)挖掘在通信網(wǎng)絡(luò)中的應(yīng)用。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0817.046.html
TN915.07
A
1673-629X(2016)05-0139-06
10.3969/j.issn.1673-629X.2016.05.030