中圖分類號:TN911.7-34;TP391 文獻標識碼:A 文章編號:1004-373X(2025)16-0157-04
Spatiotemporal data feature mining of LSTM-MSTCN-XGBoost hybrid model
LIYangzheng',YI Jiliang2
inanUniversityofTechnology,Zhuzhou412Ooo,China;2.GuilinUniversityofAerospaceTechnology,Guilin541004,Ch
Abstract:Duetothespatiotemporalcorelationanddynamicevolutionofspatiotemporaldata,featureminingisdificult. Thesingledimensionalanalysismethodsaredificulttocomprehensivelycaptureitslong-termandshort-termvariation characteristicsofspatiotemporalchanges,whichcaneasilyleadtothelossofkeyinformation.herefore,aspatiotemporaldata feature mining methodbasedontheLSTM-MSTCN-XGBoost hybrid modelis proposed.TheOWLisusedtoconductthe formal modelingofspatiotemporaldata,LSTMandMSTCNmodelsareused tominelong-termandshort-termfeaturesrespectively,and theXGBoostmodel isinputtofuseandoutputfeaturepaternrecognitionresults.Theexperimentalresultsshowthat the spatiotemporaldata features extractedbytheproposedmethod haveaglobal spatiotemporal Moran'sIindex exceeding O.9.In traficspatiotemporaldatamining,thecharacterizationofcongestionfeaturesisalsomorerealistic,providinganeffective approach for spatiotemporal data mining and intelligent decision-making.
Keywords:spatiotemporaldata; featuremining;LSTMmodel;MSTCNmodel; XGBoostmodel;OWLformalmodeling
0 引言
時空數據指包含時間特征和空間特征的數據,此類數據具有時空關聯性與動態變化性。自前在交通、氣象、環境監測等領域,時空數據為主流數據,而在交通擁堵態勢推演、氣象災害動態監測、城市能源供需預測等場景中,該數據蘊含著支撐決策的關鍵信息,但其多維度耦合、動態演化的特性,也讓特征挖掘成為難題[2。
文獻[3]構建了一種圖小波卷積神經網絡模型,能同時捕捉時空數據的拓撲結構、時序特征及時空關聯,不過在處理大規模時空數據時,特征分解耗時久,難以滿足對實時性要求高的場景。文獻[4]針對雷達探測料位數據,通過周期性地提取過濾時序噪聲,并利用極大似然估計抑制空間單點噪聲,實現了有效特征提取。但該方法缺乏顯式時空交互建模,未考慮特征間的非線性映射,導致高層時空語義特征丟失。文獻[5]采用時空稀疏注意力網絡,從空間和時間角度挖掘特征,但稀疏閾值需人工設定,閾值過低會忽略重要依賴關系,且難以自適應不同場景的時空關聯復雜度。文獻[6]利用核主成分分析法與長短期記憶神經網絡構建時空特征集,但核主成分分析法是靜態映射方法,無法動態捕捉新空間依賴關系,致使數據空間特征提取失真。
本文提出一種基于LSTM-MSTCN-XGBoost混合模型的時空數據特征挖掘方法,旨在突破單一模型對時空數據復雜模式的挖掘瓶頸。
1時空數據特征挖掘方法
1.1基于OWL的時空數據形式化建模
OWL是用于體現數據概念之間關聯性的本體建模語言,它的形式化定義為
,其中 d,e,v,s 依次描述建模數據對象、定義域、與 e 有關的事物狀態集合 ?e 和 σv 的關聯性。
在時空數據形式化建模中,將時空屬性引入d(e,v,s) 內,設定時空數據集合是 V. ,存在時空屬性的 ρe 的有限集即為三元組 E(e1,t,r),e1,t,r 分別描述含時空屬性的子定義域、時間屬性、空間屬性。含 v 的有限集為三元組 V(v,t,r) ,含 s 有限集為三元組 S(s,t,r) ,結合E(ρe,t,r),V(ρv,t,r),S(ρs,t,r) ,設定時空數據形式化表示模式,即 B(E,V,S) 。
1.2 LSTM-MSTCN-XGBoost的時空數據特征識別
1.2.1基于LSTM的時空數據長期波動特征提取
借助LSTM的門控記憶機制,捕捉時空數據的長時序依賴關系,輸出時空數據長期波動特征。時空數據長期波動特征提取時,模型結構中遺忘門、輸入門與輸出門依次設成
,公式如下:





式中: δ 表示激活函數; Ew?aw 分別為 wt 的權重矩陣、偏置參數;
分別為 ct 的權重矩陣、偏置參數;
分別為 zt 的權重矩陣、偏置參數; Bt 為上一時間步輸入的時空數據; Bt-1′ 為 t-1 歷史時刻時空數據長期波動特征;
分別為候選細胞狀態、當前時間步的細胞狀態; εu 、au 分別為候選狀態的權重矩陣、偏置參數。
遺忘門可根據時空數據形式化建模中的時間屬性,決定是否遺忘歷史特征模式-]。輸人門可根據空間函數描述的數據重要性,決定是否接納當前輸入的信息。最終輸出的 χt 時刻時空數據長期波動特征為:
Bt′=zt*tanh(ut)
1.2.2基于MSTCN的時空數據短期波動特征提取
MSTCN模型的核心機制是構建多個時序卷積模塊,此模塊包含因果卷積、膨脹卷積、殘差模塊,結合多尺度特征提取思想來提取多尺度時空關聯特征,輸出短期多尺度特征向量。
因果卷積保證輸出僅依賴歷史輸人,適配時空數據的時間因果性。膨脹卷積處理使用膨脹因子 p 、濾波器尺寸 m 擴展感受野,捕捉 B 的長距離時序關聯(如多時段負荷波動、交通擁堵傳播),公式如下:

式中: Bt-p?j 表示注入孔洞突破序列長度依賴限制的時空數據; K(?) 表示膨脹卷積運算函數; ε 為卷積核權重 ?;j 為回溯的步長。
殘差模塊輸出的優化后時空數據短期特征表示為:

式中:
分別表示非線性函數 ?t-1 時刻膨脹卷積運算后的數據特征。把膨脹卷積后的原始特征和經過非線性變換的特征相加,可以避免深層網絡的梯度消失,讓特征更完整地傳遞。
最終輸出的時空數據短期波動特征拼接結果如下:
Yt′=μ(Y3×3,Y5×5,Y12×12)
式中: μ 為拼接因子; Y3×3?Y5×5?Y12×12 為 3×3、5×5、12×12 不同大小的卷積核提取的特征,分別代表不同時間的時序關聯。
1.2.3基于XGBoost模型的時空數據特征模式挖掘
時空數據特征模式挖掘的核心難點是數據特征時間與空間維度存在非線性交互性,XGBoost通過疊加多棵回歸樹[12,可學習高階特征組合,精準刻畫此類非線性關聯。將1.2.1節與1.2.2節提取的特征融合為數據集Φt={Bt′,Yt′} ,利用XGBoost的梯度優化決策樹結構,學習特征間非線性關聯[13],輸出特征挖掘結果(如關鍵時空特征模式識別)。樣本的輸出結果為:

式中: η,?i 分別表示全局回歸樹空間映射函數、單棵回歸樹的映射函數; n 表示回歸樹總數。
設定模型的訓練目標函數為:

式中: λ(Ot,Ot′) 表示損失函數; Ot′ 表示 Φt 時刻時空數據特征的期望挖掘結果;
表示模型復雜度懲罰項。在模型訓練時滿足上述訓練目標函數條件,則輸出預測結果。
2 實驗分析
采用測速儀實時采集不同路段中車輛的車速時空數據,設定本文方法輸出的時空數據特征狀態模式如表1所示。
表1交通時空數據特征狀態模式

將研究區域某內環交通路段的車速-路段-時間的時空數據作為本文方法的測試數據,測試樣本具體數據如圖1所示。
圖1車速時空數據測試樣本具體數據

將圖1數據構建為語義化三元組數據,通過定義“路段-時間-車速”三元組關系提取時空數據特征后,得到其全局時空Moran'sI指數,如圖2所示。
圖2時空數據特征提取的全局時空Moran'sI指數

如圖2所示,本文方法能夠有效提取時空數據的長、短周期特征,全局時空Moran'sI指數集中于0.9~1,呈現顯著高值聚集特征,說明挖掘出的時空特征存在時空自相關,即本文方法捕捉到了交通狀態在時空維度的特征模式。
進一步由XGBoost模型挖掘時空數據特征模式,結果如圖3所示。
圖3交通時空數據特征挖掘結果

如圖3所示,高峰時段和平峰時段下,擁堵在路段空間的發生、消散隨時間進程呈現“集聚-擴散”特征。由此可知,本文方法可精準捕捉交通流時間序列規律與空間分布關聯,能有效挖掘交通狀態時空交互效應,進而預測不同路段、不同時段的時空數據特征狀態(暢通、基本暢通以及輕度擁堵),實現特征挖掘。
將圖小波卷積神經網絡方法、時空稀疏注意力方法分別作為對比方法1與對比方法2,挖掘的數據特征狀態(交通狀態模式)結果如圖4所示。
圖4不同方法的時空數據特征狀態挖掘結果

如圖4所示,本文方法對不同時空數據樣本的特征挖掘結果全部匹配實際特征模式,而對比方法1與對比方法2的挖掘結果存在偏差。本文方法在時空數據特征的挖掘中更具優勢,可有效提升特征挖掘與真實特征狀態的契合度。
3結論
目前單一維度分析方法難以全面捕捉時空數據的長短期變化特征,易使關鍵信息丟失。為解決該問題,本文提出一種基于LSTM-MSTCN-XGBoost混合模型的時空數據特征挖掘方法。LSTM-MSTCN-XGBoost混合模型通過LSTM與MSTCN協同來提取長短期時空特征,再結合XGBoost的非線性擬合,使時空數據特征提取結果的全局時空Moran'sI指數處于理想狀態,驗證了對交通流時空自相關模式的有效捕捉,特征挖掘結果與交通實際規律高度契合。本文方法還能夠精準捕捉交通時空數據在高峰時段擁堵空間蔓延、平峰時段暢通區間擴展等時空交互特征,驗證了該方法對時間序列規律與空間分布關聯的協同解析能力。
參考文獻
[1]劉鳳,鐘志農,賈慶仁,等.面向富語義復雜事件的時空數據建模[J].地理學報,2024,79(7):1700-1717.
[2]康文軒,陳黎飛,郭躬德.運動序列的時空結構特征表示模型[J].智能系統學報,2023,18(2):240-250.
[3]趙世豪,毛國君,熊保平,等.基于圖小波卷積神經網絡的時空圖挖掘模型[J].計算機工程,2023,49(7):85-93.
[4]馬昭昕,陳致蓬,桂衛華.基于極大似然循環自更新神經網絡的高爐料位時空特征融合測量方法[J].中南大學學報(自然科學版),2023,54(2):720-731.
[5]謝毅,王強,李海宏,等.一種基于時空稀疏注意力的時空圖挖掘算法[J].計算機工程,2023,49(4):108-113.
[6]袁鐵江,郭澤林,方彤.基于運行數據時空特征和Stacking集成學習的質子交換膜燃料電池故障診斷[J].中國電機工程學報,2023,43(14):5461-5470.
[7]宋思程,陳辰,李晨輝,等.基于密度圖多目標追蹤的時空數據可視化[J].圖學學報,2024,45(6):1289-1300.
[8]鄒易君,曾慶華,肖云雷,等.基于LSTM的固沖發動機雙冗余壓強傳感器故障診斷研究[J].傳感技術學報,2025,38(4):579-587.
[9]RAMESH J,JOYDEEPG,NILESH K R L.Assessment ofstacked LSTM,bidirectionalLSTM,ConvLSTM2D,andautoencoders LSTM time series regression analysis at ADITYA-Utokamak [J].IEEEtransactions on plasma science,2O24,52(7Pt.1): 2403-2409.
[10]陳世偉,李靜,玄佳興,等.LSTM-GAN:融合GAN和Bi-LSTM的無監督時間序列異常檢測[J].小型微型計算機系統,2024,45(1):123-131.
[11]鄧春華,周勇.基于LSTM-SVM模型的ES多變量時序異常檢測[J].計算機仿真,2023,40(3):471-475.
[12]魯鐵定,李禎,賀小星,等.融合VMD和XGBoost算法的GNSS高程時間序列預測方法[J].測繪學報,2023,52(8):1235-1244.
[13]黑新宏,高苗,張寬,等.基于Nadam-TimeGAN和XGBoost的時序信號故障診斷方法[J].通信學報,2024,45(4):185-200.