999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯序列分割的高維時間序列在線分類算法

2021-08-12 08:55:32張建業李德高
計算機應用與軟件 2021年8期
關鍵詞:分類方法

尹 君 張建業 李德高 景 康 周 平

1(國家電網新疆電力有限公司烏魯木齊供電公司 新疆 烏魯木齊 830000)2(國家電網新疆電力有限公司 新疆 烏魯木齊 830002)3(新疆信息產業有限責任公司 新疆 烏魯木齊 830026)

0 引 言

時間序列數據現已成為許多行業和工程領域中一種重要的數據形式,對時間序列進行在線挖掘分析具有極大的價值[1]。時間序列之間往往為非對齊的形式,所以基于歐氏距離的傳統分類算法無法實現理想的效果。研究人員提出動態時間規整(Dynamic Time Warping,DTW)算法[2]解決不對準的時間序列相似性度量問題,但基于DTW的相似性度量無法度量時間序列串聯結構的階段間差異。文獻[3]針對該問題提出了重要的shapelet方法,并得到了廣泛的關注和應用,也實現了很高的分類精度,但shapelet類的方法存在時間復雜度高的問題。雖然許多研究人員設計了shapelet的加速算法[4-5],但是時間復雜度依然較高。

基于概率密度的方法[6]是另一種有效的時間序列分類算法,其時間復雜度較低,能夠實現在線的時間序列分類。此類方法[7]使用密度估計算法評估時間序列之間的相似性,實現快速的在線分類處理。密度估計的準確性是此類時間序列分類算法的關鍵部分,核密度估計(Kernel Density Estimation,KDE)[8]是最為常用的一種方法,但該方法無法應用于高維數據,而其他的非參數化密度估計方法[9]對高維數據的時間效率較低,難以滿足在線密度估計的要求。

動態時間規整解決了時間序列的不對準問題,對低維度數據流的效果較好,但是高維時間序列包含豐富的時空信息,動態時間規整則忽略了這些時空信息。本文將高維時間序列投影至重建相位空間,保留高維時間序列的時空信息,然后在重建相位空間完成密度估計和相似性度量,以期提高高維時間序列的分類準確率。此外,近期一些研究人員將貝葉斯序列分割技術應用于高維數據的密度估計問題,證明該技術對于高維數據的計算效率較高。受此啟發,本文將貝葉斯序列分割技術應用于時間序列的在線密度估計模型,以期對高維時間序列進行快速、準確的密度估計。

1 基于貝葉斯序列分割的密度估計

1.1 重建相位空間

如果重建空間和原空間的動態拓撲相同,那么該空間稱為重建相位空間(Reconstructed Phase Space,RPS)[10]。本文采用時間延遲嵌入方法將時間序列觀察投影到RPS,給定一個時間序列xm(m=1,2,…,N),將xm投影到RPS的結果為:

xn=[xnxn+τxn+2τ…xn+(d-2)τxn+(d-1)τ]

(1)

式中:n=1,2,…,(N-(d-1)τ),d為嵌入維度,τ為時間延遲。xn的完整時間序列可表示為:

(2)

式中:矩陣X的一行(向量)表示相位空間的一個點xn。

時間延遲嵌入方法采用滑動窗口訪問時間序列的數據,嵌入維度d對應窗口的大小,時間延遲參數τ決定了下一次采樣的步長。采用假近鄰法調節參數d,采用最小互信息法調節參數τ。假近鄰法把在d+1維空間距離遠,但在d維空間的近鄰點定義為假近鄰,選擇假近鄰的時間長度低于閾值的維度作為參數d的值。

使用最小互信息函數調節時間延遲參數τ,互信息函數定義為:

(3)

式中:p(·)為概率分布函數。

式(3)評估了兩個窗口Xt和Xt+τ之間的依賴性,即量化了Xt和Xt+τ之間的共享信息量。最小互信息函數的思想是選擇第一次出現兩個窗口互信息最小化的τ值,此時滑動窗口之間的依賴性最小。

1.2 貝葉斯序列分割

貝葉斯序列分割方法建立一個多維的直方圖,再不斷地對樣本空間進行二分類處理。給定一個由N個樣本構成的D維數據集X,將樣本空間逐漸分割為若干子區域。在經過若干次的分割處理之后,每個子區域的密度可粗略計算為該子區域的數據點數量和總數據點的比例。每次分割序列,嘗試M種不同的分割方式,由此可提高密度估計的準確率。

考慮一個二維的樣本空間。第一次分割(j=1)產生兩個子區域,后續的分割方案(j>1)記為gj={cut2,cut3,…,cutj-1},樣本空間共有j-1個子區域,設子區域p的空間體積為vp,數據點數量為np。第j次分割共有(j-1)×D種可能的分割方式,基于一個概率函數隨機選擇一種分割方式。分割的結束條件為獲得了最優的分割結果,或者達到預設的最多分割次數。假設經過t次分割獲得了最優的分割結果,子區域1≤p≤t的概率密度計算為np/(Nvp)。

在實際應用中,很難預知數據的實際密度,為了解決該問題,原貝葉斯序列分割算法定義了分區的評分指標。設一個分區為p,p含有j個子區域,分區的評分方法為:

(4)

式中:nk為子區域k的數據量;Vk為區域的體積;參數α和β為常量;D(·)為狄利克雷分布,其參數為(α,α,…,α),D(·)作為分區的后驗分布。參數β是分區先驗分布(exp(-j))的相關參數。

貝葉斯序列分割技術對于高維稀疏數據的密度估計準確率也存在不足之處,本文使用copula變換提高對高維數據的處理效果。將每個維度的邊際密度估計與copula變換的聯合密度估計的乘積作為最終的密度估計結果。為copula變換空間的每個維度設立邊界[0,1]。

1.3 概率密度估計方法

假設一個D維數據集共有N個數據實例,原貝葉斯序列分割算法將全部數據集作為樣本空間Ω,然后將Ω分為若干的子區域,基于每個子區域的數據量和體積估計子區域的密度。

為了減少計算復雜度,使用貝葉斯序列分割技術估計每個子區域的密度。本文的貝葉斯序列分割算法在訓練階段首先將樣本空間均勻分為B個子分區,每個分區b視為原樣本空間的一個近似,記為Ω(b)(b=1,2,…,B),每個分區包含L=N/B個數據實例。使用貝葉斯序列分割技術獨立處理每個分區,最終獲得B個子分區的集合及其相應的密度,該集合包含了B個概率密度的估計。

(5)

根據Sklar定理[11],任意的多元分布均可以轉換為帶變量邊際分布的形式,將一個有限維的聯合分布分解為它的邊緣分布和一個表示結構關系的copula函數,copula函數描述了變量間的相關性和一致性。

(1) 估計邊際密度。首先估計數據的邊際密度,使用邊際密度獲得累積分布函數(Cumulative Distribution Function,CDF),使用邊際CDF在copula空間內構建一個多維的密度分區,獲得一個均勻邊際分布的D維樣本空間,記為[0,1]D。

基于邊際密度和copula變換空間的密度,可獲得測試數據z的總密度:

(6)

式中:fd為邊際密度;Fd為對應的邊際CDF;對copula相關性進行求導可計算出c。

(2) 維度對齊。上文對B個數據分區進行了不同維度的擴展,所以獲得的樣本空間大小不等。本文將CDF的范圍限定為[0,1],copula變換域不存在空間不等的問題,因此,計算B個分區的平均值僅需要對齊B個樣本空間。因為所有的邊際密度均為一維空間,所以設計了高效的維度對齊方法。對齊方法的步驟為:

Step1在B個分區中搜索最小數據擴展和最大數據擴展。

Step2為B個分區的所有擴展設立相同的邊界。

Step3擴展每個分區密度的開始部分和結尾部分,與設立的邊界對齊。

Step4重新計算修改后分區的邊際密度,分區的數據點數量保持不變。

Step5使用更新的邊際密度計算新的CDF。

圖1 維度對齊方法的示意圖

最終使用邊際密度和copula變換密度計算每個分區的密度,將每個分區的密度代入式(5)產生最終的概率密度估計函數。

1.4 概率密度函數的度量方法

信息領域存在多個常用的多樣性距離度量方法,如Kullback-Leibler divergence,但大多數方法為非對稱方法,且計算效率低,多樣性度量方法(Integrated Squared Error,ISE)是其中計算效率較高的一種方法,本文采用ISE計算兩個概率密度函數之間的距離,ISE的計算方法為:

(7)

式中:p和q表示兩個概率密度函數,p和q越接近,ISE(p,q)則越接近0。

2 時間序列在線分類算法設計

本文方法將時間序列觀察表示為概率密度函數,利用K近鄰(K Nearest Neighbor,KNN)模型將概率密度函數在線分類。首先,通過時間延遲嵌入將時間序列數據投影到重建相位空間,圖2(b)所示是重建相位空間的實例圖。然后,采用本文基于貝葉斯序列分割方法基于重建相位空間的觀察估計其概率密度函數,如圖2(c)所示。之后,使用積分平方誤差計算概率密度函數間的相似性,建立所有概率密度函數的相似性矩陣。最終,使用KNN算法將時間序列分類。

圖2 時間序列的處理實例圖

因為重建相位空間能夠表示非線性動態時間序列數據的時間模式,將混沌不規則的時間序列映射到重建相位空間能夠增強時間序列的信息量,有利于后期的密度估計和距離度量處理。

2.1 建立相似性矩陣階段

算法1為建立相似性矩陣的算法。輸入參數包括:時間序列的觀察訓練集Tser[·],時間延遲嵌入方法的參數d和τ,以及密度估計的參數M,算法1采用核密度估計函數,M為核帶寬參數,本文設M≥1。首先,運用時間延遲嵌入方法將時間序列觀察s轉化為重建相位空間sRPS,然后,基于貝葉斯序列分割的密度估計方法計算sRPS數據點的概率密度函數Tpdf[]。最終,輸出所有時間序列的概率密度函數集Tpdf[]。

算法1建立相似性矩陣的算法

輸入:Tser[],d,τ,h。

輸出:Tpdf[]。

1.i=0;

2.forsinTser[] do

3.sRPS= delay_embed(s,d,τ);

//延遲嵌入

4.Tpdf[i] = density_est(sRPS,M);

//估計密度

5.i++;

6.end for

2.2 分類階段

算法2為時間序列在線分類算法。輸入參數包括:時間序列觀察s,時間序列觀測的概率密度函數集Tpdf,時間延遲嵌入的模型參數d和τ,密度估計的參數M,KNN的近鄰數量k。

首先,將時間序列觀察s轉化為概率密度函數,運用時間延遲嵌入方法處理s。然后,采用密度估計算法計算sRPS的概率密度函數。使用積分平方誤差計算目標時間序列概率密度函數和訓練集概率密度函數之間的距離。最終,運用KNN預測目標時間序列觀察s的分類。

算法2時間序列在線分類算法

輸入:s,Tpdf[],d,τ,h,k。

輸出:cl。

1.sRPS= delay_embed(s,d,τ);

//延遲嵌入

2.pdf= density_est(sRPS,h);

//估計密度,h=0.1

3.i=0;

4.forpinTpdf[] do

3.DISE[i]=ISE(pdf,p);

//計算積分平方誤差

4.i++;

5.end for

6.cl= KNN(DISE[·],k);

2.3 算法的計算復雜度分析

將長度為N的時間序列轉化為d維重建相位空間的程序中,需要運行(N-(d-1)τ)×d次的時間延遲嵌入。因為訓練集的M個時間序列均需要該處理,所以共需要M×(N-(d-1)τ)×d次的時間延遲嵌入。

在時間序列的分類程序中,需要計算全部訓練時間序列的積分平方誤差,該過程包含兩個循環體。平方誤差的計算次數等于時間序列重建相位空間矩陣的行數,即(N-(d-1)τ)。計算每個測試時間序列和訓練時間序列間積分平方誤差的復雜度為(N-(d-1)τ)2×d。

最終,時間序列分類的總復雜度為O(M×(N-(d-1)τ)2×d),其中:M為訓練集的時間序列數量;N為copula變換一維空間的維度。因此本文分類算法對于時間序列的維度具有魯棒性。

3 仿真實驗和結果分析

實驗環境為Intel i7-3820 CPU,主頻為3.6 GHz,內存為32 GB。基于MATLAB編程實現實驗中的所有算法。

3.1 實驗數據集

從UCR時間序列分類數據集[12]中選擇7個維度高于200的數據集,評測本文方法對于高維時間序列的分類性能。首先使用z-score將7個數據集歸一化處理,然后將數據集分為訓練集和測試集。表1為實驗數據集的基本屬性,7個數據集來自于不同的領域。這7個數據集被許多時間序列分類文獻所采用,因此便于完成對比實驗和分析。

表1 實驗數據集的基本屬性

3.2 密度估計實驗

首先從兩個角度評估本文基于貝葉斯序列分割的密度估計算法性能,所考慮的性能指標為密度估計誤差和計算時間。

(1) 密度估計的準確性。為了觀察密度估計的細節信息,該組實驗采用了人工合成的數據集,隨機生成服從多元高斯分布的合成數據集,數據集共有400個數據,維度為16,前2個維度的數據服從三峰值的正態分布,第3個維度的數據服從單峰的正態分布,4~64維的數據服從雙峰值的正態分布。對于不同分區大小分別測試密度估計的性能。采用KL散度(Kullback Leibler Divergence,KLD)評估密度估計算法的準確率,圖3為密度估計的KLD結果,圖中分別將每個分區的數據數量設為10、40和80。結果顯示,分區的數據量越大,KLD的性能越好,當數據量大于100時,密度估計的準確性較好。

圖3 密度估計的KLD結果

(2) 密度估計的時間性能。統計了估計B個塊的密度所需的總時間,每個分區的大小為L=N/B。處理N個數據的總時間計算為:

(8)

式中:tov為計算平均密度的時間,可忽略不計;tL(N)為處理N個實例的總時間;L為分區的大小;B為分區的數量;tb(L)為處理第b個分區的時間。

圖4為密度估計的時間結果,分區的數據量越大,處理時間越長。但本文算法對不同數據量的處理時間幾乎為常量,因此本文方法同時適用于穩態數據流和非穩態數據流。

圖4 密度估計的時間結果

3.3 時間序列分類實驗

目前主流的時間序列在線分類算法主要包括基于距離(基于密度)的分類方法和基于深度學習的分類方法兩種類型,本文算法分別和這兩種類型的分類方法作比較,深入評估本文方法的有效性。

1) 基于距離的時間序列分類方法。本文方法是一種基于距離的時間序列在線分類算法,首先選擇4個經典的方法作為對比方法。

(1) 高斯混合模型和重建相位空間結合的分類方法(GMMRPS)[13]。該方法首先將時間序列投影到重建相位空間,然后利用高斯混合模型建模數據,再采用最大期望算法對時間序列分類。

(2) K近鄰和歐氏距離結合的分類方法(KNNED)[14]。該方法將時間序列表示為t維空間的一個向量,采用歐氏距離度量測試時間序列和訓練時間序列之間的距離,從而對測試樣本進行實時分類。該算法易于實現,且計算效率較高,但對于序列不對準較為敏感。

(3) K近鄰和動態時間規整結合的分類方法(1NNDTW)[15]。該方法與KNNED較為相似,不同之處主要在于采用動態時間規整表示時間序列。

(4) 基于動態時間規整的快速分類算法(SDTW)[16]。該方法設計了時間序列的質量評價方法,并對低質量的部分時間序列提前剪枝,從而實現加速分類的目標。

圖5為基于距離分類方法的分類準確率結果,可看出,GMMRPS和KNNED對于高維數據集的準確率均較低,GMMRPS的高斯混合模型對于高維數據的度量效果較差,KNNED的歐氏距離對高維數據的度量效果也較差。KNNDTW和SDTW兩種基于動態時間規則的分類方法實現了較高的準確率,但隨著維度的提高,這兩種方法的分類準確率呈現明顯的下降趨勢。本文方法對于7個數據集均實現了較為理想的分類準確性,并且對數據維度顯示出明顯的魯棒性。

圖5 基于距離時間序列分類方法的準確率結果

2) 基于深度學習的時間序列分類方法。深度學習技術是近期性能極好的一種學習方法,選擇3個經典的深度學習方法作為對比方法。

(1) 基于多層感知機的分類方法(MLP)[17]。該方法的神經網絡包含三個隱層,每層包含500個神經元,采用ReLU激活函數,采用softmax作為輸出層。

(2) 基于全卷積神經網絡的分類方法(FCN)[18]。該方法的神經網絡包含3個隱層,濾波器數量為128 256 128,采用全局池化機制,采用softmax作為輸出層。

(3) 基于殘差神經網絡的分類方法(resnet)[19]。該方法的神經網絡包含3個殘差塊,每個殘差塊包含3個隱層神經元 ,采用全局池化機制,采用softmax作為輸出層。

圖6為基于深度學習分類方法的分類準確率結果,總體而言,基于深度學習的方法優于基于距離的方法。多層感知機對于高維時間序列的準確率較低,FCN和resnet兩種基于深度學習的分類方法實現了較高的準確率,但隨著維度升高,這兩種方法的分類準確率呈現明顯的下降趨勢。本文方法對于7個數據集均實現了較為理想的分類準確性,并且對數據維度顯示出明顯的魯棒性。

圖6 基于深度學習時間序列分類方法的準確率結果

4 結 語

重建相位空間能夠表示非線性動態時間序列數據的時間模式,將混沌不規則的時間序列映射到重建相位空間能夠增強時間序列的信息量,有利于后期的密度估計和距離度量處理。貝葉斯序列分割技術對于數據的維度具有魯棒性,本文將貝葉斯序列分割技術應用于時間序列的在線密度估計模型,對高維時間序列進行快速、準確的密度估計。在基于多組高維數據集上進行仿真實驗,本文方法的時間性能和分類準確率均對時間序列的維度具有魯棒性,并且實現了較好的分類準確率。目前本文僅考慮了常規的高維時間序列問題,未來將研究本文方法在演化高維數據流和混沌高維時間序列等問題上的應用,擴大本文方法的應用價值。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 无码专区国产精品第一页| 亚洲一区网站| 污视频日本| 极品性荡少妇一区二区色欲| 欧美特黄一级大黄录像| 欧洲成人在线观看| 亚洲电影天堂在线国语对白| 日韩一区二区三免费高清| 亚洲,国产,日韩,综合一区 | 99久久99视频| 日韩欧美91| 亚洲成年人网| 国产第一页屁屁影院| 熟妇人妻无乱码中文字幕真矢织江 | 一级不卡毛片| 成人免费午间影院在线观看| 久久人搡人人玩人妻精品 | 日本爱爱精品一区二区| 9久久伊人精品综合| 国产午夜无码片在线观看网站| 欧美成人h精品网站| 国产午夜无码片在线观看网站 | 色综合久久88色综合天天提莫| 国产亚洲美日韩AV中文字幕无码成人 | 免费毛片全部不收费的| 日韩AV手机在线观看蜜芽| 成人综合在线观看| 素人激情视频福利| 女人18毛片一级毛片在线 | 欧美成人一级| 久久一色本道亚洲| 尤物精品国产福利网站| 国产毛片高清一级国语 | www欧美在线观看| 尤物亚洲最大AV无码网站| av尤物免费在线观看| 亚洲色婷婷一区二区| 97国产精品视频人人做人人爱| 2021国产乱人伦在线播放| 亚洲天堂高清| 亚洲精品色AV无码看| 波多野结衣第一页| 国产流白浆视频| 亚洲色图欧美| 国产精品久久久久鬼色| 91丝袜乱伦| 91 九色视频丝袜| 亚洲精品天堂自在久久77| 99热这里只有精品5| 毛片网站在线播放| 欧美激情视频一区二区三区免费| 在线精品欧美日韩| a毛片免费在线观看| a级毛片免费看| 九色91在线视频| 高h视频在线| 欧美日韩中文国产| 91久久性奴调教国产免费| 91精品视频网站| 欧美精品在线看| 亚洲国产天堂久久综合226114 | 在线观看欧美精品二区| 国产一区二区影院| 午夜福利免费视频| 色老头综合网| 国产欧美视频在线| 久久精品国产免费观看频道| 中文字幕在线视频免费| 国产色图在线观看| 国产成人成人一区二区| 久久久91人妻无码精品蜜桃HD| 国产第一页亚洲| 国产福利不卡视频| 亚洲精品第一页不卡| 国产成人a在线观看视频| 久久五月视频| 久久国产精品波多野结衣| 日本黄色不卡视频| 国产在线自乱拍播放| 久久综合丝袜长腿丝袜| 99精品视频播放| 亚洲欧美色中文字幕|