時間序列特征提取方法研究綜述

2021-03-13 06:00:44任守綱張景旭顧興健熊迎軍王浩云徐煥良

小型微型計算機系統 2021年2期

關鍵詞：特征提取分類特征

任守綱，張景旭，顧興健，熊迎軍，王浩云，徐煥良

1(南京農業大學信息科技學院，南京 210095)

2(國家信息農業工程技術中心，南京 210095)

3(江蘇省物聯網技術與應用協同創新中心，南京210023)

1 引言

時間序列(Time Serise,TS)數據是按照時間順序所記錄的一系列數據，現實世界中有大量以時間序列形式存在著的事物，如聲音、溫度、光電信號、腦電波、股票等.隨著計算機計算和存儲能力的增強，時間序列數據記錄與特征分析在環境、金融、工業控制、天文、醫學等領域都有廣泛的需求.在過去的幾十年里，研究人員對不同領域產生的海量時間序列數據進行了深入挖掘與分析，如天氣預報、異常檢測、基因分析、行為識別等[1-3]，時間序列已經成為數據挖掘領域最具挑戰的問題之一[4].時間序列數據特征隱藏在不同時間片段中，在數據分析時需充分考慮數據的時序特征，這提高了時間序列數據的分析難度.

時間序列數據通常具有以下特性：

1)數據維度高[5]，一方面占用大量存儲空間，另一方面也造成諸多算法難以在可接受的時間內完成處理任務，尤其是時間序列的分類、聚類算法具有高時間復雜度.

2)數據噪聲大，噪聲問題是所有機器學習算法的共同難題[6-12]，在時間序列數據中，離群值與偏移值出現頻率高.

3)數據不充分，當面對不完整的時間序列，或是時間序列數據集本身具有類別不平衡問題時，難以判斷時間序列中用于分析的數據是否充足.

4)數據時間依賴跨度未知，盡管時序數據對時間變量具有明確的依賴性，但是這種依賴的時間跨度是未知的[13,14].

時間序列研究任務可分為時間序列分類、聚類和預測3大類.時間序列分類，目的是找到時間序列空間映射到類值空間的函數[15],該任務主要區分序列間的差異，通過分析序列中有助于區分不同序列的特征，最終確定該序列所屬的類別.時間序列聚類，通過一套判斷標準，將相近的時間序列數據組織到同一組別中，該任務主要尋找序列間的相似特征，在無監督的情況下實現序列的聚類.時間序列預測則通過分析歷史觀測結果，尋找時間序列中的潛在趨勢特征，對非線性系統中的基本關系建立數學模型，實現對未來發展趨勢的預測[16,17].通過上述分析可知，合適的時間序列特征提取方法是時間序列數據分類、聚類和預測任務成功的關鍵.

本文首先簡述時間序列的研究現狀，介紹時間序列分類、聚類、預測任務的最新成果.接著討論時間序列特征提取方法的指導思想，針對時間序列的形狀特征、時間依賴特征和序列變換3大特征提取方法，深入分析不同特征提取方法的研究內容和研究進展.最后對時間序列特征提取方法的發展趨勢進行了展望，可解釋性、因果推理與模式重用將是將來時間序列特征提取方法的研究重點.

2 時間序列研究進展

2.1 時間序列

時間序列可以表示為一組有序離散值集合的形式，T=(X,y)={(x1,y1),…,(xi,yi),…,(xn,yn)}，其中，T是訓練數據集；X是時間序列實例；y是X對應的標簽；xi由一系列按照順序排列的數值構成，數值的個數是該序列的維度.如圖1(a)所示，單變量時間序列(Univariate Time Series,UTS)在一個時間點上只有一個數據[4]xi∈RT×1，；如圖1(b)所示，多變量時間序列(Multivariate Time Series,MTS)在同一個時間點上有多個數據[18]，xi∈RT×D.

圖1 單變量(a)與多變量時間序列(b)Fig.1 Univariate and multivariate time series

2.2 時間序列分類

時間序列分類(Time series classification,TSC)是研究最廣泛的問題之一，首先通過算法獲取序列的特征，然后將特征輸入分類器中實現時間序列的分類.

根據時間序列的長度選擇，可分為全序列與子序列兩類分類方法.全序列研究側重距離函數的選擇，通過距離函數量化序列差異，最終通過最近鄰分類器(Nearest Neighbor,1NN)完成分類.如真實懲罰編輯距離(Edit distance with real penalty,ERP)[19]，移動拆分合并(Move-Split-Merge,MSM)方法[20]，動態時間彎曲(Dynamic time warping,DTW)[21]以及DTW的改進[22,23]等.子序列研究側重子序列的劃分方式，利用提取的子序列構建分類器.如時間序列特征包(Time series Bag of Features,TSBF)[24]，時間序列Shapelets(Time series Shapelets,TS shapelets)[7]，快速Shapelets(Fast Shapelets,FS)[25].當子序列的重復頻率是重要分類依據時，開發基于字典的方法.在找到子序列的基礎上，對子序列出現的頻率計數，然后基于所得的直方圖建立分類器.方法包括模式袋(Bag-of-Patterns,BOP)方法[26],符號化傅里葉近似袋(Bag-of-SFA-Symbols,BOSS)方法[8].

根據機器學習類型可分為傳統機器學習和人工神經網絡兩種方法.傳統機器學習中，基于集成方法策略，組合已有的TSC方法，綜合特征提取能力，可獲取更高的準確度.例如基于變換集成方法(Collective of Transformation-based Ensembles， COTE)[27]和分層投票COTE(Hierarchical Vote COTE,HIVE-COTE)[28].集成方法的缺點是算法的復雜度高，生成的模型難以被優化.人工神經網絡能夠以簡潔高效的方式學習復雜的數據表示，如通過卷積神經網絡(Convolutional Neural Networks,CNN)進行序列形狀特征提取，通過循環神經網絡(Recurrent Neural Network,RNN)發現時序模式，將兩者組合構建自動編碼器等，另外還有全卷積神經網絡(Fully Convolutional Network,FCN)、殘差網絡(Residual Networks,ResNet)[29]和群約束卷積循環神經網絡(Group constrained convolutional Recurrent neural network,GCRNN)[13].

2.3 時間序列聚類

聚類是一種數據挖掘技術，將相似的數據放入相關或同質的組中，而無需了解組的定義[30].由于時間序列分類與聚類問題具有極大的相似性，因此分類的一些技術可以直接運用到聚類任務上.

與分類方法類似，時間序列聚類的相似性可以分為時域相似、形狀相似和變化相似3種情形.對于時域相似，計算方法有傅里葉變換，小波分解或分段聚合近似(Piecewise Aggregate Approximation,PAA).對于形狀相似，模式出現的時間對時間序列并不重要，因此可以利用時間分類中DTW等一系列彈性距離函數.對于變化相似，往往采用建模的方法，比如使用隱馬爾可夫模型(Hidden Markov Models,HMM)、自回歸滑動平均模型(Auto-Regressive Moving Average,ARMA)，當模型擬合完畢后，通過對模型參數進行相似性度量完成聚類.

根據時間序列的長度，聚類方法也可以分為形狀水平和結構水平兩種.形狀水平通過比較序列之間局部模式來測量短時間序列聚類中的相似性，歐氏距離(Euclidean Distance,ED)、DTW、最長公共子序列(Longest common subsequence,LCSS)、MSM等方法適合短時間序列.結構水平基于全局和高級結構來測量相似性，適合較長的時間序列數據，比如基于統計量的方法和HMM、ARMA這種基于模型的方法.

根據聚類的初值計算方法，可分為中心點、序列值平均和初始值搜索3種方法.中心點法本質上是一個時間序列，該序列可以使到群集中其他對象的平方距離之和最小化.對給定的時間序列，可以通過DTW、ED方法計算所有時間序列對的距離，從中挑選中心點.序列值平均法是求序列平均值.針對不同的距離函數和長度，采取不同的策略.當以度量函數作為距離函數且時間序列等長時，可以采取序列值平均法.當基于DTW、LCSS這類彈性度量時，按照時間序列的層次結構對或順序對組合的方式對估計的平均序列進行迭代優化.比如Pentitjean提出了一種平均時間序列的全局技術，通過最小化估計的平均序列到其他序列的平方距離，優化平均序列[31].初始值搜索法首先計算聚類的質心，然后使用平均值法，基于變形路徑計算聚類初始值.Paparrizos提出一種K多形聚類(K-MultiShapes,k-MS)方法，通過多形提取(Multi Shapes Extraction， MSE)計算每個群體的多個質心，考慮每個群體中時間序列的接近度與空間分布[32].

2.4 時間序列預測

時間序列預測是一項十分艱巨的任務.關鍵在于發現時間序列中潛在的趨勢.時間序列預測方法可分為回歸模型與機器學習方法兩類.

回歸模型方法，適合平穩時間序列，主要有自回歸模型(Autoregressive,AR)、自回歸滑動平均模型(Autoregressive moving average， ARMA)和差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average， ARIMA).在實際情況中，時間序列一般是不穩定的，其方差、均值、頻率會隨時間變化，導致回歸模型方法性能急劇下降.

機器學習方法可分為傳統機器學習和人工神經網絡.Drucker提出支持向量回歸方法(Support Vector Regression,SVR)，雖然在金融、電力負荷、商品價格等預測應用中產生了巨大潛力，但在時間序列預測任務中存在著一些局限性，當數據集變大時，SVR方法會消耗大量的時間資源.循環神經網絡通過隱藏層狀態的傳遞，使得網絡對序列輸入具有記憶功能，這種特性可用于獲取時序特征.隨著RNN、長短時記憶網絡(Long Short-term Memory,LSTM)、回聲狀態網絡(Echo State Network,ESN)的發展，基于神經網絡的時間序列預測已成為研究熱點.發展出兩階段注意力的RNN(Dual-stage attention-based RNN,DA-RNN)[33]，拉普拉斯ESN(Laplacian ESN,LAESN)方法[17]等.

時間序列分類、聚類和預測任務在特征提取方面具有相似性.從時間域的波形出發，比對全序列、子序列的相似度來完成時間序列分類和聚類任務，如DTW、Shapelets和CNN等方法.從時間依賴的角度出發，分析序列的內在聯系，最后進行預測，如FCN、ESN和LSTM等方法.隨著時間序列的維度升高，特征提取過程占算法效率的比重逐漸升高，時間序列的噪聲同樣制約著算法的分析性能，通過降維、變換等方法，加快序列的特征提取效率將會提升算法的總體效率.由于時間序列特征提取方法具有較高的通用性，對這些方法進行總結歸納，將促進時間序列分類、聚類和預測領域產生更加優秀的算法，同時能為特征提取方法的創新提供思路.

3 時間序列特征提取方法

時間序列特征提取方法是近年來研究的熱點，主要有以下3個研究思路：

1) 形狀特征.這是一種在時域上最直觀的方法，序列的波形反映了變量的趨勢，波形本身就是序列的辨識性特征.

2) 時間依賴特征.通過對時間序列中相鄰或不相鄰的數值或片段進行分析，提取出時間序列中存在的長時間依賴特征.

3) 序列變換特征.通過將時間序列進行空間變換，用一種保留時間序列特征或降低時間序列維度的新表示形式，抑制時間序列的噪聲，補全不完整的數據.

3.1 形狀特征

時間序列存在非對齊、局部形變、噪聲干擾的問題.比如序列局部發生壓縮、拉伸時，一對一比較法無法解決該問題.此外，時間序列中并非每個時間點都能提供所需的特征，如運動傳感器的時間序列中，動作發生改變時的時間序列要比保持不動時的時間序列更有價值.基于這些問題，開發了彈性度量、Shapelets和CNN方法.

3.1.1 彈性度量

1994年，Berndt等人將DTW方法[21]引入到時間序列的度量上，有效地解決了時間序列非對齊和相位偏移的問題.DTW方法通過一種拉伸擬合的策略，目標是最小化兩個序列之間變形路徑的距離.如果將待比較的兩個序列稱作S和T，長度為n的S與長度為m的T可以排列成n×m的網絡，變形路徑W={w1,…,wk,…,wp}，用于映射或對齊S、T的元素，wk是變形路徑點，形式為(i,j)，表示S的第i個值與T的第j個值對齊.如公式(1)所示，DTW方法的目的是尋找一條變形路徑W使得兩條序列之間的距離最小.

(1)

δ(i,j)=|si-tj|

(2)

δ(i,j)=(si-tj)2

(3)

公式(1)中δ是定義的距離度量函數，常見的選擇有公式(2)、公式(3).兩個時間序列可以在DTW方法下進行比較，如圖2所示，直線用于連接兩個相關點.原始DTW方法沒有考慮點之間相位差的相對重要性，Jeong提出加權動態時間彎曲(Weighted dynamic time warping,WDTW)方法[22]，通過對路徑中各點增加懲罰，限制了相關點之間的相位差.

圖2 DTW方法比較兩個序列Fig.2 DTW method compares two sequences

編輯距離是另一類彈性度量方法，目的是解決DTW不滿足三角不等式的問題.編輯距離方法的核心是定義一系列序列編輯操作，通過比較序列變換所使用的各種編輯操作次數來衡量兩個序列之間的差異.該方法具有轉換不變性，對時間序列局部形變具有魯棒性.Chen在LCSS[34]基礎上提出ERP方法[19]，綜合L1范數與編輯距離策略，該方法支持時間序列局部時移，滿足三角不等式.Marteau提出時間彎曲編輯距離(Time warp edit distance,TWED)方法[5]，在ERP的基礎上引入剛度參數控制TWED的彈性，在非均勻時間序列上有較好的表現.Stefan提出MSM方法[20]，定義了移動(Move)、拆分(Split)和合并(Merge)3種操作，用于解決ERP方法沒有平移不變性問題，兩個序列之間的MSM定義為將前者序列轉換為后者序列所需要的最小成本.

DTW和編輯距離都是面向全序列的距離函數.與DTW方法不同，編輯距離方法可以獲取幅度變化輕微的細節信息，適合處理序列關鍵特征在小細節上的問題，比如LCSS、MSM在圖像輪廓展開的時間序列上表現良好.而DTW方法對序列拉伸、壓縮具有較強魯棒性，在姿態傳感器時間序列中具有更好的表現[35].同樣的動作，快速完成與正常完成所采集的時間序列，在形狀上存在局部壓縮現象.

從全序列角度考慮，容易受到噪聲干擾.另一類彈性度量從局部片段出發，對每個片段分別提取統計特征.Baydogan提出TSBF方法[24]，使用特征袋(Bag of Feature,BoF)有效集成來自時間序列各部分的局部信息，對局部特征集合的個數假設更為寬松. 通過提取子序列特征，組成特征包，構建和學習密碼本，使用隨機森林分類器對序列進行分類.Baydogan提出LPS方法[6]，基于時間序列森林(Time Series Forest,TSF)和TSBF，首先以自回歸的方式從時間序列的各部分中學習基于模式的表示，然后基于該表示進行LPS的相似度度量，該方法更加關注序列中模式的重復次數.

3.1.2 Shapelets方法

時間序列中，并非每一點的數據都有價值，ED、DTW方法考慮整個時間序列，容易使噪聲干擾掩蓋掉序列中高價值的可辨識小序列.Shapelets方法通過尋找能夠定義一個類并且可以出現在序列中任何地方的短模式，進而實現特征提取，降低了噪聲干擾的影響.對時間序列記錄的本質而言，簡短的子序列往往可以當做事件進行考慮，這是Shapelets能夠提高算法解釋性的根本原因.

Keogh最早提出Shapelets概念，并發展了Shapelets方法[7].

圖3展示了時間序列中一個Shapelet與序列的最佳匹配情況.Keogh的Shapelets方法通過枚舉搜索新的Shapelets，使用信息增益來獲取最佳Shapelets.Shapelets方法考慮到序列中局部形狀和序列標簽之間的關系，為算法提供了可解釋性.該方法只匹配Shapelets的存在結果，執行效率極高，但Shapelets尋找的時間復雜度為O(n2m4)，是一個相當耗時的過程，其中n為數據集中實例的數目，m為最長時間序列的長度.

圖3 時間序列中Shapelets最佳匹配匹配位置圖示Fig.3 Illustration of Shapelets best match matching position in time series

為了提高Shapelets的搜索效率，Rakthanmanon提出FS方法[25]，將時間復雜度降低為O(nm2)，通過對原始時間序列進行符號聚合近似值(Symbolic Aggregate approximation,SAX)表示，再利用隨機投影查找潛在的Shapelets候選.實驗結果顯示，FS方法所搜索到的Shapelets與傳統方法在分類精度上沒有顯著差異.Grabocka提出學習Shapelets(Learning Shapelets,LS)方法[36]，開始先預估一個最優Shapelets，再通過最小化分類損失函數，迭代學習并優化形狀，使用梯度下降法更新Shapelets，最終得到關鍵有效的多個Shapelets.Zhang提出無監督顯著子序列學習模型(Unsupervised Salient Subsequence Learning,USSL)[37]，通過偽標簽將無監督學習變為監督學習，利用shapelets正則項過濾掉相似的shapelets.LS方法是通過學習過程，有目的地進行優化，因此效率要遠遠高于基于暴力搜索的Shapelets方法和Fast-Shapelets方法.

如何區分最優的Shapelets，是Shapelets方法的一大難題.Lines提出決策樹ST方法[15]，使用信息增益評估Shapelets，在一次變換中從數據集中提取多個候選最佳Shapelets，然后計算時間序列實例到這些Shapelets的距離，完成分類.Bostrom提出二分類ST(Binary Shapelets Transform,binaryST)方法[38]，認為分類問題中最有效的Shapelets應該能夠將本類與其他類區分開，通過定義一個二分類的Shapelets，緩解Shapelets處理多類問題時易產生類別混淆問題，提升了Shapelets區分重要類別能力.

Shapelets方法解決多變量時間序列特征提取時，還需要考慮序列維度間的特征.Mustafa提出MC2方法[39]，對比了單維度時間序列Shapelets特征提取與多維度Shapelets集成特征提取方法的效果.Mustafa的研究結果顯示跨維度的Shapelets方法并沒有得到預期的效果提升，反而是針對單維度的Shapelets特征提取方法效果更好.

對較長時間序列，Shapelets方法由于沒有考慮更高層的特征，效果往往不夠理想.受文本處理中BoW方法的啟發，Lin提出BOP方法[26]，通過提取的Shapelets，使用SAX方法構建單詞序列矩陣，借助SAX代表TS中的一個模式，實現了大長度時間序列的高級特征提取.

3.1.3 CNN方法

在計算機視覺領域，CNN是一種能夠有效提取圖像空間特征的方法.為了提取時間序列中的形狀特征，將時間序列看做向量，從空間角度獲取高維特征是一種可行方案，一些研究者對此進行了探索.

Wang將多層感知器(Multi-layer Perceptron,MLP)、FCN、ResNet引入到時間序列問題中[29]，其中MLP為3個隱層和1個Softmax輸出層；FCN在輸入層堆疊尺寸分別為{128,256,128}的3個卷積核，然后使用一個全局池化，最后Softmax輸出；ResNet堆疊3個殘差塊，然后使用全局池化，最后經過Softmax輸出.時間序列作為一個向量直接輸入.試驗結果表明，與傳統機器學習方法COTE和HIVE-COTE相比，FCN與ResNet方法能夠得到相當或更好的結果，同時網絡訓練簡單，不需要任何特征提取和數據預處理過程.

Weng提出雙流結構卷積神經網絡[40]，用于結構化多變量時間序列的分類問題.首先數據被處理為時間步長、空間結構、特征維度所組成的三維張量，雙流CNN模型基于一組雙流卷積內核，一條路徑從輸入的時間軸和特征軸學習時間信息，另一條路徑從輸入的結構軸和特征軸學習結構信息.雙流的輸出共同由高維特征提取器整合，最終通過分類器確定分類結果.該方法克服了結構化多變量時間序列中，RNN難以學習非順序依賴特征的問題.

CNN能夠利用卷積核，篩選序列中可辨識特征，通過多層卷積，使特征不斷抽象化，最終形成一種深度特征.但卷積考慮的更多是形狀特征，對時間序列的時間依賴性考慮不足.與Shapelets不同，卷積核尺寸選擇有限制，為了達到更大的感受野，只能通過疊加更多卷積層來實現.

3.2 時間依賴特征

時間序列的時間依賴是一種重要特征，在醫療、故障診斷、姿態識別領域，事件的順序是問題處理的關鍵.時間序列的時序依賴往往是未知的，既不知道前后是否存在關系，也不知道存在時間依賴的時間跨度.在時間序列的預測問題上，時間依賴特征是進行預測的重要依據.

3.2.1 循環神經網絡

LSTM、GRU是重要的循環神經網絡單元，可以傳遞網絡狀態信息實現網絡記憶功能，且容易與其他神經網絡組合，因此成為獲取時間依賴特征的一種思路.

將CNN與GRU進行串聯，Lin提出GCRNN方法[13]，該方法由3個堆疊模塊組成：CNN模塊、RNN模塊和具有稀疏組Lasso懲罰(Sparse group lasso,SGL)的FC模塊.時間序列首先輸入到CNN用于學習模式特征，隨后這些特征被送入RNN模塊用于TS時間特征建模，RNN的輸出連接到FC中進行最后的輸出.

時間序列中，時間依賴關系極為復雜，比如多個子事件的共同進展構成最終事件.Hu提出CH-LSTM模型[41]，包括3層LSTM網絡，第1層是子事件級編碼，將輸入的單詞序列表示為密集向量，第2層在前一層的基礎上將各子事件的密集向量嵌合在一起得到事件級編碼，第3層使用解碼器LSTM預測未來子事件中可能的單詞，該方法實現了從子事件和事件兩個層面共同挖掘序列的時間依賴關系.注意力機制對神經網絡的記憶有著進一步篩選的功能，Zhang提出基于注意力的時間感知LSTM網絡(Attention-based time-aware LSTM networks,ATTAIN)，采取彈性注意力，動態調整所參考的記憶窗口大小.由于注意力的引入，過去的事件對當前事件的影響可以通過注意力值來衡量，為時間依賴關系的可解釋性提供了一個可行思路[42].

原始LSTM單元通過狀態傳遞實現網絡記憶，單元的輸入值通過輸入門、遺忘門和輸出門，對LSTM單元狀態進行更新.使用LSTM捕獲UTS的時間依賴關系是一種常規做法.當問題擴展到MTS時，一般的處理策略，是將時間序列的每個維度單獨按照UTS方法處理[43].這種做法忽略了時間序列不同維度之間的關聯，沒有利用MTS的多序列相關信息.Shi提出ConvLSTM[44]，如圖4所示，在狀態的輸入與傳遞之間添加卷積運算，構建了一種全新的LSTM單元，與原始LSTM相比，ConvLSTM可以更好地捕捉時空相關性.Wang在ConvLSTM單元的基礎上構建了CLVSA模型[45]，用于金融市場趨勢預測.

圖4 Convolutinal LSTM單元結構Fig.4 Architecture of convolutional LSTM unit

3.2.2 反饋網絡

反饋網絡(Recurrent Network)具有強大的聯想記憶能力.對時間序列的首次輸入可以得到粗略分類，進一步預測會逐步完善預測的結果，從而達到由粗到細的分類效果.

Wang提出循環深層信任網絡模型(Cycle Deep Belief Network,Cycle_DBN)，如圖5所示，網絡基于兩層深度信念網絡(Deep Belief Network,DBN)H1和H2進行特征學習，由于該方法目的是進行時間序列分類，因此DBN經過Softmax進行最終輸出，然后將網絡輸出作為反饋信息傳遞到下一次輸入.該模型集成了DBN強大的特征表示能力，并利用了時間序列數據的時間相關性信息，兩者結合提高了模型分類效果.

圖5 CDBN網絡結構Fig.5 Cycle-DBN structure

Wang提出了一種稱作殘差分類流(Residual Classification Flow,RCF)的方法[16].RCF包含許多獨立分類器，其中分類器從不同的級別進行分類，且分類結果將會傳送到下一層的分類中，用于不同級別的多級小波分解網絡(Multilevel Wavelet Decomposition Network,mWDN)，如圖6所示，輸入的原始序列經

圖6 mWDN網絡結構Fig.6 mWDNstructure

過多層網絡分解，H結構用于提取高頻子序列，L用于提取低頻子序列，是一個前向神經網絡，接收本層H、L的提取結果，用于執行分類任務.L提取的低頻子序列會傳遞到下一層繼續進行分解，同時上一層的分類結果也會傳遞到下一層，用于輔助分類器分類.因此RCF模型可以從不同的時間/頻率中充分利用輸入時間序列的模式.

3.3 序列變換特征

序列變換特征是通過特定的人工神經網絡將時間序列從原始形式轉換到另一種表示形式的特征.序列變換能夠有效應對時間序列中存在的噪聲、失真等問題，通過學習可以從原始時間序列中獲取關鍵信息.序列變換方法包括自動編碼和seq2seq等.

3.3.1 自動編碼

ESN是一種新穎的循環網絡，其結構如圖7所示，ESN網絡由輸入層、存儲池和輸出層構成，儲存池的狀態通過反饋矩陣W′進行傳遞，訓練時只需要學習存儲池到輸出層的連接權重Wout.由于不需要計算隱藏層的梯度，減少了神經網絡訓練時間，解決了梯度消失問題.

圖7 ESN網絡結構Fig.7 ESN neural network structure

存儲池具有狀態記憶的能力，可以對時序依賴進行傳遞，實現輸入空間到特征空間的轉換.Yang指出原始ESN中，為了滿足回聲特征，存儲池權重矩陣的譜半徑小于1，在訓練過程中可以通過回歸技術直接計算輸出權重，如廣義逆矩陣、貝葉斯回歸、Tikhonov正則化，但是這些ESN訓練方法忽略了輸入的高階統計量，得到的ESN信息處理能力受到限制.因此提出PESN方法[46]，如圖8所示，將原始ESN的多項式輸入同時直接連接到輸出層，使用奇異值分解(Singular Value Decomposition,SVD)方法生成PESN的存儲池權重矩陣，通過將輸出權重向量Wi(u(k))定義為輸入的多項式函數，如公式(4)，wi為輸出權重向量，wij為連接第i個存儲節點和輸出層的多項式權重向量，u(k)、uj(k)是輸入信息.Wi(u(k))中包含輸入變量的高階統計量信息，使用線性回歸方式求解Wi(u(k))各分項的權重值時，會充分考慮到輸入的高階統計量信息.

圖8 PESN網絡結構Fig.8 PESN network

(4)

通過ESN將原始高維度的時間序列轉換到對應的模型空間是解決序列特征變換的另一種思路.Gong提出多目標模型度量方法(Multiobjective Model-Metric,MOMM)[14]，使用ESN將時間序列變換到模型空間，為每個時間序列學習生成模型，用于表示時間序列.在模型空間上執行學習算法，提高了多目標優化表達能力和分割能力，在訓練樣本較少的情況下，仍能保持較好的效果.

通過ESN預測高維時間序列數據時，需要使用大容量的存儲層，受限于采樣技術，數據集樣本數量過低，遠少于存儲層中神經元的數量，由此造成模型預測結果的不準確.Han提出LAESN模型，通過Laplacian特征圖算法降低時間序列數據的維數，使用ESN將時間序列映射到大型存儲層，通過構建和大型存儲層相關的鄰接圖，采用Laplacian特征映射來估計流形，最后基于低維流形計算特征輸出[17]，這些措施有效解決了上述問題.

在神經網絡中引入注意力機制，可以有效應對信息過載，使網絡聚焦到核心特征的處理中.Qin提出通過兩階段注意力機制的DA-RNN.第1個階段，引入注意力機制，通過參考編碼器的前一個狀態自適應地提取輸入時間序列的特征；第2階段，使用注意力機制在所有時間步長中選擇相關的編碼器隱藏狀態[33].

3.3.2 Seq2Seq變換

時間序列問題中，輸入時間序列長度不同，數據本身可能存在缺失.序列到序列變換(Sequence to Sequence,Seq2Seq)是一個Encoder-Decoder結構的網絡，實現不等長的輸入序列變換為等長的向量表示的效果，能夠解決時間序列數據的不等長問題.

在跨領域特征提取方面，Pankaj提出TimeNet方法[48]，假設時間序列領域之間具有共同的內部特征，使用無監督方法，利用Seq2Seq變換方法來提取多個領域的時間序列特征，在UCR等幾個開源數據集上進行試驗，結果表明多領域TimeNet性能要高于單一領域的方法.

在數據缺失方面，Rajan提出一種使用Seq2Seq的有限通道心電圖信息生成方法[9].如圖9所示，通過串連LSTM單元構成編解碼器，隱式生成心率檢測中缺少的通道信息，最終使用隨機森林法進行分類，克服了原有心率檢測中存在的測量噪聲、患者的波動模式、標記的歧義性等干擾.

圖9 基于LSTM的Seq2Seq序列編解碼器Fig.9 Seq2Seq encoder and decoder base on LSTM

4 發展趨勢與展望

4.1 傳統方法和深度學習方法的對比

針對時間序列特征提取主要有傳統和神經網絡方法，兩類方法各有優缺點，下面從數據維度、噪聲、時間依賴關系幾個方面進行對比.

在提取高維度時間序列數據特征方面，傳統方法為了提高算法效率，一般從子序列中獲取特征，比如shapelets方法.這種方法所處理的時間序列長度一般為200.神經網絡方法可以使用編碼器進行原始數據的降維，同時保證原有的時序特征，因而延長了模型可以處理的時間序列長度.

在應對時間序列噪聲方面，傳統方法通過DTW、編輯距離等彈性度量對噪聲魯棒，采用shapelets方法比對序列中關鍵有效的子段，將噪聲影響從全序列降低到子段.神經網絡自身對噪聲具有較強的抵抗力，同時經過自動編碼器的處理可以有效降低噪聲.

在處理序列的時間依賴關系方面，傳統方法基于形狀匹配，對序列各點數據的前后依賴關系缺乏考慮.深度學習方法中使用循環神經網絡保存和傳遞狀態信息，使得數據的時間依賴關系可以作為網絡輸入的一部分.

4.2 當前存在的問題

近年來，隨著計算能力與存儲設備的進步，時間序列數據爆炸式增長.同時，大量時間序列數據存在著單位數據價值低、時效性高和特征提取困難等問題，極大限制了數據的利用價值.物聯網與5G時代的結合勢必會加劇這種情況.盡管時間序列方法研究已取得顯著成果，但與物聯網采集的數據維度相比，當前算法還有很大提升空間.

與傳統機器學習方法相比，使用神經網絡降低了特征提取方法的設計難度.通過疊加不同功能的層，容易獲得更抽象的高緯度特征.將循環神經網絡與形狀特征相結合，可以解決Shapelets方法只關注形狀的缺陷，但從時序依賴角度看，現有框架還存在著時間依賴性未知的問題.同時，神經網絡方法在超高維度時間序列上的研究還較少，當時間序列的維度極高時，循環神經網絡是否能準確識別長時間依賴關系還需要進一步的探索.

除了單變量時間序列，多變量時間序列數據更加常見，當前的算法中，只有少量研究涉及到多變量時間序列，已有的算法對多變量時間序列均按照單變量時間序列處理，這實際上放棄挖掘多變量時間序列因素間的相互關系.其次，多變量時間序列間的時間對齊也是要解決的問題.

在時間序列的處理效率方面，時間序列高維度特性是制約效率提升的關鍵.為了提高運行效率，一些降維方法得到初步應用，比如在神經網絡中使用自動編碼器轉換數據的表現形式.然而經過降維變換后，時間序列的功能是否保持不變，新表現形式的時間序列如何解釋還有待研究.

在實際情況中，時間序列數據還存在標記不足的問題，少有甚至是沒有被標記的樣本大量存在.基于弱監督的時間序列分類方法還缺乏研究.時間序列之間并非是完美對齊的關系，序列特征點之間非常容易出現滑移.從時間依賴的角度，更容易解決這類特征點位置不固定、相互間存在潛在關系的問題.

4.3 研究重點與發展趨勢

盡管時間序列已獲得較多研究，并在實際應用中得到了驗證，但時間序列問題仍有很多挑戰需要進一步研究：

1) 可解釋性.現有的神經網絡方法在解決時間序列問題時，還存在著解釋性不強的問題.對算法開發人員而言，準確率是驅動算法改進的推動力，但對使用者來說，如何從算法提取的特征中同時獲得特征的解釋性信息更為重要.

2) 因果推理.當前的研究將重點集中在抽取特征，根據任務目標對不同的特征進行組合判斷，但對時間序列的因果推理還沒有一個很好的解決方法.

3) 模式重用.在時序數據爆炸增長的背景下，人工標注效率低下，代價高昂.在實際獲取的時間序列數據中，不同領域間的時間序列數據具有一定的相似處，因此需要研究時間序列數據的模式重用.

4) 實時處理.時序數據的規模正在爆炸式增長，但數據處理的實時性不足，根本原因是已有的算法時間復雜度過高，不能滿足要求.

針對這些問題，未來可以重點加強以下幾個方面的時間序列特征提取方法研究.可解釋性方面，利用CAM對輸出結果反卷積可視化模型的學習過程，進而提高模型的解釋性；在因果推理方面，通過分析時間序列特征間聯系，分析特征見得內在因果；在模式重用方面，基于遷移學習，從相鄰領域訓練特征提取器，再回歸到問題領域進行參數微調；在實時處理方面，將時間序列映射到一個保特征、低維的表示空間，降低算法復雜度，提高時間序列數據的分析效率.

5 結束語

隨著物聯網、大數據等技術的發展，時間序列數據將會急劇膨脹，給傳統機器學習方法帶來更大的挑戰.基于神經網絡的方法表現出更大的發展潛力，如何高效提取時間序列特征信息，并以此提供可解釋性的結果，將為時間序列數據研究帶來新機遇.