基于局部距離特征的多模態融合CNN時間序列分類

2023-05-08 03:01:52馬志強

計算機應用與軟件 2023年4期

馬志強石磊

1(河南農業職業學院河南鄭州 451450) 2(鄭州大學信息工程學院河南鄭州 450001)

0 引言

時間序列作為大數據中極其重要的一種組成,在各個領域都得到了極大的關注[1]。時間序列分類是時序分析里面非常重要的分支,即基于歷史觀察的序列信號對樣本做出分類。由于必須考慮各個變量之間的次序關系,因此,時間序列分類問題已成為數據挖掘領域的特殊挑戰之一[2-3]。

時間序列分類的難點在于保持序列的時間相關性[4]。傳統的時間序列分類方法采用基于距離的方法如k-最近鄰,然而,由于數據的可用性不斷提升,人工神經網絡已經成為模式識別的有力工具,尤其在圖像數據識別方面,但是對時間序列分類中存在的可變長度以及時間扭曲問題還未能有效解決[5-6]。動態時間規整(DTW)等工具是專門為解決時間序列的困難而設計的[7]。DTW的標準用法是通過取非線性匹配時間序列元素之間的局部距離之和來計算兩個時間序列模式之間的全局距離,其中元素匹配是用動態規劃來完成的,它允許彈性匹配對時間失真、長度變化和速率變化具有魯棒性[8]。然而,當使用DTW作為距離度量時,只使用全局距離,并且丟棄了有關序列元素動態匹配的信息。

將輸入時間序列與原型時間序列之間的DTW匹配元素間的局部距離作為新的局部距離特征時間序列的特征。局部距離被稱為局部距離特征,原始輸入的時間序列是坐標特征?？紤]五種不同的原型選擇方法:邊界法、最近法、跨越法、K-中心法和隨機法[9-10]。這些方法既可用于類獨立的,也可用于分類。通過從這些方法中選擇的原型,可以提取局部距離特征并與CNN結合使用。但是選擇哪種原型方法較優還沒有一個確定的結論。

本文提出一種基于局部距離特征的多模態融合CNN時間序列分類方法,在多模融合網絡中結合了局部距離特征和坐標特征,并且探索了原型選擇對分類性能的影響。最后通過實例驗證了本文方法的有效性。

1 基于局部距離的特征提取

1.1 使用DTW進行特征提取

DTW是一種廣泛使用的算法,用于確定時間序列模式之間的距離。與線性匹配不同,DTW使用優化的元素匹配來增強對時間失真的魯棒性,例如速率差異和時間平移。DTW確定的匹配是通過動態規劃對相似元素進行對齊來完成的。具體而言,DTW通過估計由元素對之間的局部距離構成的代價矩陣上的最小路徑來匹配元素。這將在時間維度上扭曲的序列元素之間創建匹配。

給定兩個時間序列,前面定義的s和一個原型時間序列p=p1,p2,…,pu,…,pU,具有U個時間步數,pu∈RQ,其中Q是每個元素的維數,DTW全局距離是最佳匹配的局部距離的總和,即:

(1)

式中:(u′,t′)是匹配的索引,分別對應于p和s的原始索引u和t;M表示索引集。然后將匹配之間局部距離的總和用作離散時間序列之間的距離度量。

然而,如式(1)所示,僅使用總全局距離,而浪費了實際匹配計算。雖然這一事實對于傳統的基于距離的方法來說并不重要,但有可能丟失有關比較模式之間的結構關系的信息。圖1為DTW計算之間的比較,其中元素之間的局部距離可以揭示在使用DTW作為全局距離度量時通常會丟失的其他信息。圖1中顯示了不同原型p1、p2、p3和p4的四個示例,每個原型和樣本對都有上面所示的兩個模式,連接線表示通過DTW進行匹配,下面是局部距離特征序列。它們的DTW距離與普通樣本s相似。使用傳統的基于距離的分類方法將無法區分不同的原型,即使原型之間存在顯著差異。另一方面,時間序列的匹配元素之間的局部距離保持可以利用判別信息。因此,不是使用匹配的總和,而是使用匹配元素之間的局部距離來創建序列v,或者:

(a)

(b)

(c)

(d)圖1 一維時間序列s和四個原型DTW

(2)

對于每個(u′,t′)∈M。將v的元素稱為局部距離特征,將序列s的原始特征稱為坐標特征。v的可視化如圖2所示,其中每一列代表從樣本到原型的局部距離。每行涉及一個原型p1、p2和p3,每列是一個樣本s1、s2和s3的局部距離特征?；诰植烤嚯x特征的時間序列v1、v2和v3是每個樣本的原型的三維組合。

圖2 局部距離特征與對應的在線字符時間序列示例

當與多個原型一起使用時,一個多元序列表示為:

(3)

將創建RK中v的每個元素,其中K是原型總數。當使用DTW斜率約束時,確保時間步長相對于原型序列總是前進一個,例如由遞歸函數定義的非對稱斜率約束:

(4)

式中:D(u,v)是累加和,只要原型長度相同,就可以使用不同長度的輸入序列來創建固定長度v。這是因為使用這種特殊的斜率約束保證了M中的匹配數將始終等于原型序列p中的元素數。因此,局部距離特征序列v的表達式提供了一個固定長度、時間扭曲的時間序列。

1.2 CNN分類

在構造出局部距離特征序列后,提出將它們用作一維卷積CNN的輸入,以進行時間序列分類。坐標特征表示原始時間序列模式,局部距離特征表示與原型模式的關系。通過結合這兩種特征,可以訓練一種結合了來自兩種數據類型信息的CNN。

將兩種不同的數據模式結合起來稱為多模態分類。在CNN的背景下,可以通過多種方式組合這些模式。如果將具有兩種模式的CNN在輸入級融合,則稱為數據級融合或早期融合。如果CNN在中間層之一融合,則稱為特征級融合或中間融合。最后,如果在分類層之前的最后,將CNN進行融合,則它是決策級融合或后期融合。融合的時間取決于模型的作者,并且像超參數一樣選擇。

圖3概述了三種融合方案,并結合了所提出的特征提取。如圖3(a)所示,早期融合模型采用坐標特征并將其與局部距離特征組合以創建單個時間序列輸入。這等效于將局部距離特征視為多元時間序列的附加維度。除了數據融合之外,CNN的結構與標準時間CNN相同。對于圖3(b)中的中間融合模型,這兩種模態被提供給單獨的卷積層集,并在共享的全連接層之前串聯在一起。每個部分都將學習與各自的模態相對應的獨立卷積權重集。圖3(c)中的后期融合網絡的結構類似于兩個不同的CNN,每個CNN具有數據模態,但是被組合作為輸出層的輸入。

(a)

(b)

(c)圖3 三種融合方案下的比較

1.3 原型選擇

通過觀察原型和樣本之間的差異來進行基于距離的學習中的分類。但是,隨著數據集規模的擴大,原型的數量可能會很大。因此,為任務選擇最佳原型可能是減少計算時間同時保留準確分類所需信息的有效步驟。過去,基于距離的方法的原型選擇已被廣泛研究。此外,針對時間序列提出了許多原型選擇和生成方法。例如,使用AdaBoost進行選擇,并使用DTW重心平均進行生成。

本文借用從基于距離的分類器中選擇原型的想法,以選擇用于創建局部距離特征v的原型,以便有選擇地增加v中嵌入的信息量。具體而言,使用隨機、邊界、最近、跨度和K中心原型選擇從整個訓練集P確定一個子集P′。這些方法中的每一個都可以在整個數據集上執行,與類無關,也可以在每個類中按類執行。除隨機選擇外,每一種原型選擇方法均采用DTW作為距離度量進行距離計算,以適應時間序列。圖4為每種與類無關的原型選擇方法的示例,較大的點是原型選擇方法的結果,較小的點在數字類中著色。

圖4 可視化的Unipen 1a在線手寫數字數據集

(1) 隨機原型選擇。隨機選擇是隨機選擇原型的簡單方法。此方法用作故意選擇方法的基準。

(2) 邊界原型選擇。邊界方法創建一個表示訓練集P邊界上的模式的原型子集P′,即:

(5)

式中:Borders(P)是訓練集P中原型的結果索引,該訓練集具有由DTW確定的與所有其他模式的總最大距離。此過程重復K次,每次回合將選定的原型從P移到P′。當以類的方式使用時,邊界原型選擇方法通常會在每個類的邊緣上選取模式,選擇難以分類的模式或決策邊界附近的模式,以類無關的方式使用時,所選模式位于整個訓練數據集的邊緣。

(3) 最近原型選擇?！白罱辈扇∨c“邊界”相反的方法。它從訓練集P中最接近其他所有模式的模式構造原型子集P′。換句話說,P的中心或以式(6)的優化處理方式重復K次。

(6)

與其他方法相比,與類無關的最近選擇對于本文方法來說是一種直觀上較差的選擇方法,這是因為所選的原型彼此相似并且幾乎沒有提供額外的信息。但是,當以類方式使用時,可以在選擇每個類的中心原型時使用。

(4) 跨度原型選擇?？缍仍瓦x擇的目的是在數據集中實現均勻分布。補充材料中概述了跨度原型選擇的算法。與以前的方法不同,跨度考慮了以前選擇的原型。它將選擇與所有先前選擇的DTW距離最遠的原型。結果是一個原型集P′,它包含的原型之間的距離盡可能遠,跨越整個原始數據集P。

(5) K中心原型選擇。K中心原型選擇方法遵循K中心或K中心點聚類方法來選擇原型。選擇P中的聚類的中心點的原因是為了獲取一個與整個集合的分布相似的原型的分布。

補充材料中還提供了K中心原型選擇算法。為了計算K中心,首先,使用跨度初始化原型集P′,以創建K中心的確定性初始化。第二,訓練樣本p∈P被分配到聚類C1,C2,…,Ck,…,CK,基于它們與最近的聚類中心的接近程度。最后確定每個聚類的新中心。重復這個過程,直到聚類中心沒有變化。

2 實驗與結果分析

2.1 數據集

Unipen 1a、Unipen 1b和Unipen 1c數據集分別由獨立在線手寫數字、大寫字符和小寫字符組成。Unipen數據集作為時間序列分類的基準已經很成熟。每個數據集包含大約13 000個模式。實驗將數據集分成10份,與每個訓練集中選擇的原型進行10倍交叉驗證。

UCI機器學習存儲庫是跨多個領域的大型數據集存儲庫。從存儲庫中,將四個時間序列數據集用于實驗。根據以下標準選擇數據集:時間序列分類任務、訓練集中有足夠的模式以及最新的基線。使用了來自UCI機器學習存儲庫的以下數據集:腕戴式加速度計數據集的日常生活活動(ADL)識別、口語阿拉伯數字數據集(Arabic)、澳大利亞手語符號數據集(Auslan)和Hill-Valley數據集。ADL由705個3軸加速度計測量組成,分為7個ADL類。Arabic包含10個口語數字類的13頻率梅爾頻率倒譜系數(MFCC)。該數據集有8 800個模式,其中:6 600個模式構成訓練集;2 200個模式用于獨立于說話人的測試集。接下來,Auslan有來自95個類的6 650個手語單詞。最后,Hill-Valley數據集是由606個時間序列模式組成的綜合數據集,每100個時間步長被分為“hill”或“valley”。有兩種版本,一種不帶噪音(HillValley),一種帶噪音。如果可用,則使用具有預定義拆分的數據集的訓練和測試集。當沒有預定義的集合拆分時,使用10倍交叉驗證。

數據集的最后一類是來自UCR時間序列分類檔案的85個1D時間序列數據集。這些數據集跨越許多不同的領域并具有不同的特征。數據集具有2至60個類、60至2 709個時間步長,并且都包含預定義的訓練和測試集。

2.2 實施細節

為了評估所提出的CNN局部距離特征的有效性,使用了五種實現方式:一個僅具有時間序列特征的CNN,一個僅具有局部距離特征的CNN,數據級早期融合CNN,特征級中間融合CNN和決策級后期融合CNN。所有實現都使用一維卷積層,內核大小為3,步幅為1。與通常與圖像一起使用的CNN不同,時間CNN可以使用一維卷積,其中在整個時間維度上使用卷積。對于此應用,使用1D或2D卷積時結果幾乎沒有差異,因此選擇了1D卷積方法。在每個卷積層之后,使用窗口大小為2、步幅為2的一維最大池化層。

由于第2.1節中概述的數據集范圍很廣,因此根據輸入的長度確定卷積層和池化層的數量。具體來說,池化層的數量Lpool和卷積層的數量Lconv定義為:

Lpool=Lconv=round(log2(T))-3

(7)

式中:T是輸入模式中的最大時間步數。式(7)用于確保通過最大池化將全連接層之前的最終特征長度減少到5到12個時間步長之間。使用式(7)使得實驗中的模型具有2到8個卷積和池化層。至于節點數,第一個卷積層設置為64個節點,第二個卷積層設置為128個節點,并且在適用時,第三個或更高的卷積層設置為256個節點。此外,全連接層有1 024個節點,丟失率為0.5。整流線性單元(ReLU)用作隱藏層的激活函數。應當指出,還測試了其他深層神經網絡如VGG,但是結果并不令人滿意,也無法證明額外參數的合理性。

對于Unipen數據集,使用100個批次對模型進行了100 000次迭代訓練。使用32個批次對UCI和UCR數據集進行了50 000次迭代訓練。訓練方案的差異是由于與其他數據集相比,Unipen數據集的大小更大。使用Adam優化器對每個模型進行了訓練,初始學習率為0.000 1。

2.3 方法對比

2.3.1 Unipen在線手寫數據集的評估

將Unipen數據集上的實驗與文獻中的9種最新方法進行了比較,包括經典方法和基于神經網絡的方法[11-17]。對于經典方法,比較了基于統計DTW的隱馬爾可夫模型(HMM)(HMM CSDTW)、兩個SVMs(一個將DTW嵌入到高斯內核中(SVM GDTW)以及另一個使用分段多項式函數(Inter.Kernel))、在線掃描n元組分類器(OnSNT)的結果。對于神經網絡方法,將本文方法的結果與DTW神經網絡(DTW-NN)(該DTW神經網絡將DTW集成到前饋神經網絡中),使用神經網絡中的筆畫特征的神經模糊系統(FasArt),混合Kohonen-perceptron(KP)神經網絡(Fuzzy Rep.KP),具有動態對齊權重的CNN(CNN DWA)和LSTM進行了比較。最后,展示了使用格編碼和波束搜索方法的Google在線手寫識別系統(Google)的結果。

2.3.2 UCI機器學習存儲庫數據集的評估

UCI機器學習存儲庫及其數據集過去有許多不同的成果,它們用專門的模型處理每個數據集。為了簡潔起見,僅報告對每個數據集進行調查后發現的最新方法。對于ADL數據集,文獻[17]使用CNN DWA。Arabic數據集的最新結果使用帶MFCC的二階導數(TPMFCC)的HMM。過去有很多使用Auslan數據集的作品。但是,文獻中的大多數方法僅使用完整數據集的子集來限制類的數量。然而,De Rosa等在Auslan數據集的全部95個類中使用了6個方法。對于HillValley1和HillValley2,分別將本文方法與神經網絡(NN)和隨機位森林(RBF)進行了比較。

2.4 結果分析

表1和表2分別顯示了針對Unipen和UCI數據集的五種原型選擇方法的結果。補充材料中提供了UCR數據集的更詳細的結果表。結果顯示了在結合坐標特征和局部距離特征的中間融合CNN中使用K=5的與類無關的原型選擇的準確性。根據各自的原型選擇方法,本文方法被標記為“中間融合”(隨機)、“中間融合”(最近)、“中間融合”(邊界)、“中間融合”(跨度)和“中間融合”(K中心)。

表1 Unipen數據集的比較(%)

續表1

表2 UCI機器學習存儲庫數據集的結果(%)

表1顯示了本文方法能夠獲得Unipen 1b和Unipen 1c數據集的最新結果,并且僅被一種經典方法OnSNT和一種現代方法Google所超越。此外,與Unipen數據集上除這兩種方法以外的所有其他方法相比,所有原型選擇方法均具有較高的準確性。

對于表2中UCI數據集的結果,本文方法表現異常出色。除了Auslan數據集外,本文方法具有完美或接近完美的準確度,即使為滿足各自的任務而量身定制,它們還是對現有方法的最大改進。由于數據集具有95個類,每個類只有70個模式,因此Auslan數據集為深度學習提供了艱巨的任務。這證明了本文方法的弱點,因為它在小型數據集上表現不佳。

由于類似的原因,UCR數據集也很困難。大多數UCR數據集都有非常小的訓練集,這對于CNN和深度學習解決方案來說通常不太理想。

3 討論

3.1 原型數量的影響

通過使用局部距離特征序列訓練融合方法來完成實驗,對于類無關和按類的原型選擇。對三個Unipen數據集重復此操作,并進行10倍交叉驗證。

直觀地講,原型越多,每個局部距離特征序列中嵌入的信息越多,因此可以學到的信息就越多。這個直覺由圖5證實,實線代表使用各種原型選擇方法的10倍交叉驗證的平均值,裕度是上下的標準偏差。其中在最初的幾個原型中,準確度大大提高。但是,當使用大量原型時,準確性下降得會非常嚴重。盡管使用了十倍的類數,即1a為100,而1b和1c為260,但準確度卻幾乎沒有提高。因此,在選擇最少數量的原型后,增加模型的計算時間和復雜性是不值得的。因此,表1和表2的結果僅使用5個原型獲得,盡管能夠使用更多的原型報告更高的準確度。

(a)

(b)圖5 使用僅具有局部距離特征的CNN在Unipen數據集上的測試結果

3.2 原型選擇方法的影響

要研究的最重要因素之一是原型選擇方法之間的差異。類似于原型數量的影響,原型選擇方法的準確性與所選原型的變化相關。選擇數據均勻分布的方法往往比從狹窄原型中選擇原型的方法更好。

(1) 類與類無關。由于圖5顯示,當增加原型集的大小時,在準確度上存在嚴重的遞減回報,并且用于類選擇的最小原型數量固定在類的數量上,因此與類無關的選擇更適合于分析。融合網絡方法的分類選擇結果可以在補充材料中找到。

(2) 最近原型選擇。如前所述,與類無關的“最近”是一種直觀上較差的原型選擇方法,這在圖5(a)中得到了反映。在每個數據集中,除K=1外,最近的表現最差。K=1的一個例外是由于中心原型是數據集的平均表示。但是,由于其他原型選擇方法添加了其他原型,因此失去了優勢,因為最近繼續從數據集中的中央區域選擇原型。

(3) 邊界原型選擇。至于其他的原型選擇方法,區別則更加微妙。天真地,邊界將具有最大的變化,這是因為邊界選擇了式(5)中描述的距所有其他點最遠的訓練模式。但是,當使用度量多維縮放(MDS)和主成分分析(PCA),使用DTW作為距離度量來可視化Unipen 1a的訓練集之一時,在圖2中可以看到并非總是如此。圖2顯示,雖然選定的邊界模式距離數據集中的其他點最遠,但它們可以彼此相似。

(4) 跨度原型選擇。跨度采取了相反的方法來尋找與邊界相比最遠的原型?？缍瓤梢哉业骄嘁堰x擇的原型最遠的模式,而不是從數據集中確定最遠的模式。這意味著跨度原型被選擇為跨越整個訓練數據集,從而導致非常不同的模式的表示。通常,圖5中的結果表明,跨度是為基于局部距離特征的分類選擇原型的最佳方法。

(5) K中心原型選擇。類似于跨度,K中心原型選擇由于使用聚類的類群而找到了良好的原型分布。但是,與直覺相反,K中心的表現通常不會優于跨度。這表明聚類的中心模式對于局部距離特征不如均勻分布數據集那樣有利。

(6) 隨機原型選擇。盡管僅將隨機選擇作為其他方法的基準,但結果表明,隨機選擇原型往往效果很好。這種現象的一個原因是高斯分布中的隨機選擇模式,因此選擇模式具有良好的數據集表現。對于圖2中的數據集,隨機和K中心的原型分布看起來大致相同,并且所有數據集的結果都反映了這一點。

3.3 融合方法的影響

影響最大的模型設計選擇是融合方法的時機選擇。圖6為Unipen 1a、Unipen 1b和Unipen 1c數據集的臨界差,用于比較融合和選擇方法(其中)。平均等級是使用10倍交叉驗證計算的,每個訓練和測試集的每次比較均相同。在特征級融合CNN通常具有最佳效果。同樣,臨界差圖表明,與僅使用局部距離特征時不同,使用融合網絡時,原型選擇方法之間沒有顯著差異。

圖6 Unipen 1a、Unipen 1b和Unipen 1c數據集的臨界差

此外,在圖7中,實線代表使用類無關進行的各種原型選擇方法的10倍交叉驗證的平均值,裕度是上下的標準偏差。可以看出,對于中后期融合網絡,增加原型的數量,甚至是類數量的10倍,對準確度的影響很小。這表明即使原型數量很少,局部距離特征也僅通過坐標特征即可為多模式網絡提供信息(表1)。

(a)

(b)

(c)圖7 三種多模態融合方案的測試結果

圖7(a)中的早期融合準確度圖特別有趣。這三個數據集具有相似的趨勢,因為它們最初具有逐漸降低的準確度,直到它們收斂于僅圖5(a)的上升局部距離特征準確度。其原因是在數據級融合時數據維度的不平衡。對于Unipen數據集,原始坐標特征代表平面的兩個空間維度。當K小時,兩個特征的維數平衡。但是,隨著K的增大,局部距離特征會掩蓋甚至會干擾坐標特征,從而導致準確度下降。這是值得注意的,因為通過在CNN中稍后融合這些模態,可以通過在融合時具有平衡的特征表示來克服此問題。

此外,圖7(b)、圖7(c)和圖6顯示,原型選擇方法之間只有很小的差異。臨界差由Nemenyi事后檢驗定義,其中α=0.05,或者:

(8)

圖8顯示了Unipen 1b數據集(大寫字符)的交叉驗證折疊錯誤分類。每列顯示了用實心圓圈表示錯誤分類的交叉點:分別對比單獨使用坐標特征以及本文方法使用不同原型選擇方法。原型選擇方法之間的差異是細微的。通常,多種方法會漏掉錯誤分類的字符。盡管如此,圖8還顯示,與單獨使用坐標特征相比,使用坐標特征和局部距離特征的中間融合CNN具有較少的誤分類。

圖8 Unipen 1b數據集上的交叉折疊驗證

4 結語

針對動態時間規整時間序列分類中存在的動態匹配信息丟失問題,提出一種基于局部距離特征的多模態融合CNN時間序列分類。通過對幾個典型數據集的分類實驗結果分析可得出如下結論:(1) 使用中間融合或特征級融合,通常比早期和晚期融合的分類效果更好。(2) 使用高變異原型選擇方法往往比相似原型方法在分類效果上更具有優勢。(3) 基于局部距離特征的多模態融合CNN時間序列分類能夠有效解決動態匹配信息丟失問題,從而極大地提升時間序列分類的精度。