基于DTW-DBSCAN和張量分解的交通流數據恢復策略

2025-03-05 00:00:00陳茂玉

電腦知識與技術 2025年3期

關鍵詞：DTW算法；Tensor方法；DBSCAN算法；交通流數據；數據恢復

中圖分類號：TP311.13;U491 文獻標識碼：A

文章編號：1009-3044（2025）03-0012-04 開放科學（資源服務）標識碼（OSID）：

0引言

近年來，交通流數據恢復問題吸引了廣泛的研究興趣，科研學者探索了多種方法來解決這一問題，其中包括傳統統計學方法、深度學習方法和張量方法等。在交通流數據恢復中，傳統統計學方法基于歷史數據，采用平均值、中位數、插值、時間序列、最近鄰等手段填補缺失值[1]。深度學習算法在交通流數據恢復中也被廣泛應用，研究人員利用多種深度學習網絡處理缺失數據。特別是循環神經網絡（Recurrent Neural Network，RNN）及其變體長短期記憶網絡（Long Short-Term Memory，LSTM）和門控循環單元（Gated Recur?rent Unit，GRU）[2]，因其能夠高效建模時間特性數據，捕捉時間相關性，廣泛用于精確恢復交通流數據。然而，時間序列方法通常只考慮時間信息，往往忽視了交通流數據的空間特性。

面對多維交通流大數據，張量分解方法在計算效率上優于深度學習，同時保持高精度。該方法將數據表示為高階張量，其中包含多維信息，通過張量分解方法可以學習整體數據的分布模式和潛在相關性，從而恢復缺失數據。在其他領域，張量恢復缺失值的研究已取得明顯進展[3-6]。在交通領域，Tan等人[7]首次提出張量分解恢復交通流數據，張量分解能夠更好地挖掘時空相關性的多維數據內在相關性。Ben Said等人[8]結合位置和時間信息，構建位置和時間張量進行恢復，分別構造了位置矩陣和時間矩陣，并通過CP補全目標函數進行數據恢復。Nie等人[9]創新性地定義了低秩張量補全模型下的張量范式，適用于極端缺失情況。Zhou等人[10]融合不同交通流數據張量，全面評估交通狀況以提升效果。Chen等人[11]將貝葉斯概率張量分解拓展至高階模型，應用于時空交通流恢復。

綜上所述，張量分解在補全高維時空交通流數據方面展現出了強大的能力，能夠有效捕捉數據的潛在結構，并解決數據缺失的問題。在此基礎上，本文提出了一種融合時空相關性的張量分解算法。該算法首先利用DTW（動態時間規整）算法優化對齊路徑，然后通過DBSCAN聚類構建相似時間序列矩陣，最后通過先進的張量分解技術恢復缺失的數據值。這一方法不僅顯著提高了數據恢復的精度，還構建了一個包含數據預處理、DBTensor方法及性能評估的完整框架，確保了該方法在實際應用中的可行性和有效性。通過充分利用不完整的交通流數據，該方法能夠全面評估數據的性能，為交通領域的數據處理和分析提供了新的思路和方法。

1相關算法

1.1DTW算法原理

DTW算法是一種用于測量時間序列相似性的經典動態規劃算法，它可以找到兩個時間序列之間的最佳匹配路徑。計算兩個序列之間的DTW距離D（i，j）的公式如下：

1.2DBSCAN聚類算法

DBSCAN算法通過評估樣本點的密度來區分簇類與噪聲點。它引入了核心點、邊界點和噪聲點的分類，同時利用密度直達、密度可達以及密度相連的概念來構建簇類。DBSCAN算法的主要步驟包括：

1）初始化設置參數eps（領域半徑）和min_samples（成為核心對象鄰域中最小點數）；

2）尋找核心對象；

3）擴展聚類；

4）重復步驟3）；

5）標記噪聲；

2DBTensor算法框架

張量分解在處理交通流數據時存在局限，特別是在挖掘時空特征和應對缺失值方面。為此，本文提出DBTensor算法，結合時空相關性恢復缺失值。該算法首先使用DTW算法尋找交通流序列的最優對齊路徑，識別相似時空特性；然后，采用DBSCAN聚類方法搜索相似序列，挖掘時空相關性；最后，利用張量分解技術恢復缺失值，保持數據的時空一致性。DBTensor恢復方法的框架如圖1所示。

DBTensor算法流程如下所示。

1）數據預處理階段：對原始數據進行細致的處理，明確標記出所有的缺失值。

2）DTW距離矩陣計算：利用DTW算法，精確地計算出數據集中各元素之間的距離，得到距離矩陣。

3）聚類分析與參數調整：根據計算得到的距離矩陣，采用DBSCAN進行聚類分析。通過調整DBSCAN的參數eps和min_samples，并觀察輪廓系數的大小，確保數據被合理且準確地分類，并重構張量。

4）Tensor恢復數據：使用CP補全算法，對缺失值進行精確的恢復，從而得到完整且準確的數據集。

5）算法評估：通過RMSE、MAPE和MAE評估算法的數據恢復效果。

3實驗結果與分析

3.1實驗數據集

實驗使用加利福尼亞高速公路網絡PEMS交通流數據集和云南省交通2018年2月1日至9月26日的5個高速站點環路檢測器采集的交通流數據，聚合周期為5分鐘、30分鐘和60分鐘。數據集如表1所示。根據數據構建三階張量為R一天時間間隔×檢測日期天×傳感器檢測路段。

3.2實驗結果與分析

本研究中，訓練數據與測試數據的比例為3∶1。為了評估隨機缺失模式下缺失值恢復的效果，本文設定了交通流數據的缺失率，分別為10%至60%，每間隔10%遞增。實驗采用了四組交通流數據，首先對這些數據進行了歸一化處理，并利用DTW計算出最優彎曲路徑距離矩陣。隨后，本文使用DBSCAN算法對距離矩陣進行聚類，其中將參數eps設為0.79，min_samples設為7，輪廓系數為0.624。本次實驗設置的參數并不是對所有數據集的最優參數。實際應用中，通過選取最優參數可以得到更好的相似分類結果。實驗發現，DBTensor方法在不同缺失率下的恢復效果存在差異。為此，本文比較了DBTensor與CP、SVD、MF、KNN這4種插補方法在不同缺失率下的RMSE值，結果如圖2所示。

根據圖2（a）（b）（c）（d）可以看出，在4個數據集上，DBTensor方法與其他方法相比，擬合度更高。隨著缺失率的增加，DBTensor方法的恢復精度也會有所降低，但仍保持相對優勢。當數據缺失率超過50%時，DBTensor的恢復效果相較于其他算法的優勢更加明顯，但其擬合效果不如缺失率更低時。

在隨機缺失的場景下，表2至表7匯總了各恢復算法的實驗結果，其中最優結果已被加粗突出顯示。通過對實驗結果的細致分析，本文可以總結出以下幾點關鍵結論：

1）在相同的缺失率條件下，CP算法在缺失值恢復方面展現出了比其他三種方法更為出色的表現。然而，經過改進后的CP算法在數據恢復效果上相較于傳統的CP算法又有著更為顯著的優勢。這表明通過算法的改進，本文能夠進一步提升數據恢復的質量和準確性。

2）針對云南省的數據集而言，當缺失率低于50%時，SVD算法在數據恢復方面表現更佳，能夠較好地還原原始數據的特征。然而，當缺失率超過50%時，改進后的算法則展現出了更高的擬合度，能夠更好地應對高缺失率帶來的挑戰。這一發現為本文針對不同缺失率情況選擇合適的算法提供了重要的參考。

3）針對本文所實驗的4個數據集，本文提出的DBTensor方法展現出了卓越的性能。在大多數情況下，其數據恢復效果優于其他方法，這充分證明了DBTensor在處理不同數據集和缺失率時的有效性和可靠性。

4）隨著數據缺失率的增加，所有數據恢復算法的效果都會有所下降。然而，本文提出的DBTensor算法在這方面展現出了良好的穩定性。在各種情況下，DBTensor算法的數據恢復效果均優于其他算法，進一步驗證了其在實際應用中的有效性和可靠性。這一發現為本文選擇高效的數據恢復算法提供了新的思路和方向。

綜上所述，DBTensor算法在數據恢復方面展現出了顯著的優勢和潛力，為處理高缺失率、復雜數據集提供了有力的支持。

4結論與展望

本文提出了一種結合DTW算法和Tensor方法的交通流數據恢復策略。該策略利用DTW算法在時間序列相似性匹配上的優勢，結合Tensor方法在數據分解和重構上的能力，實現了對缺失交通流數據的精確恢復。實驗結果表明，本文提出的算法在交通流數據恢復方面表現出了良好的性能和準確性。與傳統的數據恢復方法相比，該算法在恢復缺失數據時具有更高的精度和魯棒性。這不僅驗證了算法的有效性，也為城市交通管理和決策提供了更加可靠的數據支持。

為了進一步提高數據填補的精度，本文將繼續深化對DTW算法和Tensor方法在交通流數據恢復中的研究。一方面，本文將探索更加高效的DTW算法實現，以降低算法的時間復雜度，提高數據處理的效率。另一方面，本文也將研究Tensor方法的改進和優化，以進一步提高數據恢復的準確性。通過這些努力，本文期望能夠進一步推動智能交通系統的發展，為城市交通管理和決策提供更加智能、高效和可靠的數據支持。

電腦知識與技術2025年3期

電腦知識與技術的其它文章: “多元”融合創“芯”未來：電路分析課程思政育人探索; “賽教融合”背景下算法設計與分析課程混合式教學模式探究; 課程思政視域下數據庫設計與開發課程教學改革探索; 數字環境下基于對分課堂的高中Python教學策略探析; 基于OBE-CDIO模式下應用型本科單片機課程的教學改革; 基于魔搭社區的人工智能導論課程教學模式探究