基于LSTM-Attention模型的動態場景下的目標跟蹤研究

2024-01-17 00:00:00孫晨陽

企業科技與發展 2024年12期

摘要：在動態場景中，目標跟蹤技術面臨復雜背景干擾及目標快速移動等多重挑戰。為探索目標跟蹤技術在動態場景中的應用，文章利用基于LSTM-Attention的視覺模型，旨在提升動態場景下目標跟蹤的精準度。該模型結合了LSTM（長短期記憶網絡）在處理時間序列數據上的記憶能力，以及Attention機制在捕捉動態場景中目標動態變化特征方面的優勢。基于此模型，在動態場景下執行目標跟蹤任務，并將該模型的表現與傳統目標跟蹤算法進行對比，分析不同場景因素對跟蹤結果的影響，以驗證新模型的優勢。實驗數據表明，在目標快速移動或部分遮擋的情況下，該模型仍能準確、穩定地追蹤目標，并且在復雜動態場景下保持了80.4%的精確度，展現出較強的抗干擾能力。

關鍵詞：動態場景；目標跟蹤；LSTM-Attention

中圖分類號：TP183；TP391.41" " "文獻標識碼：A" " "文章編號：1674-0688（2024）12-0087-05

0 引言

隨著計算機視覺領域的飛速進步，目標跟蹤技術作為其核心分支，正逐步滲透到智能交通、視頻監控、人機交互等多個關鍵領域。在動態且復雜多變的場景中，目標跟蹤的精度和抗干擾能力成為衡量其性能的重要指標。這些場景往往伴隨著目標的頻繁遮擋、外觀的急劇變化以及光照條件的不穩定性，給傳統跟蹤方法帶來了巨大挑戰。在傳統目標跟蹤算法中，KCF（核相關濾波器）和TLD（跟蹤學習檢測）是兩種具有代表性的算法。劉思思等［1］通過利用快速傅里葉變換，將時域卷積運算轉換至頻域進行計算，顯著提高了運算速度，實現了實時目標跟蹤。該方法利用循環矩陣性質，從少量樣本中學習目標外觀模型，并通過循環移位操作生成大量虛擬樣本，增強了模型的泛化能力，使其能更好地適應目標外觀的變化。朱代先等［2］引入了核函數，將低維空間的線性運算轉換為高維空間的非線性運算，提升了算法對復雜目標外觀變化的適應能力。然而，當目標遭到嚴重遮擋或快速形變時，這些方法的跟蹤性能會顯著下降，易受相似背景的干擾。劉聃琦［3］利用TLD算法結合了跟蹤、學習和檢測3個模塊，實現了長期目標跟蹤，并展現出良好的自適應性。牛思杰等［4］在傳統KCF算法的基礎上，提取了CN（核心網）特征并進行融合，利用互補對稱的特征實現了多特征融合，有效解決了因目標尺度變化而導致的不準確問題，提升了算法的精度和成功率。郭崇等［5］創新性地提出了一種卷積混合注意力機制，專注于處理通道注意力和空間注意力，進一步提升了目標檢測的精度。

本文提出了一種基于LSTM-Attention模型的動態場景下的目標跟蹤技術，并深入分析模型的原理與優勢，探索其在復雜動態環境下的應用效果。通過有效學習和記憶輸入序列中的長期依賴關系［6］，LSTM能夠捕捉目標在時間維度上的運動特征。而Attention機制則通過動態調整不同區域的注意力權重［7］，使模型在處理復雜場景時能夠聚焦于當前跟蹤任務中的最關鍵信息，從而提升跟蹤的準確性和效率，并進一步增強模型能力。將LSTM和Attention機制結合應用于動態場景目標跟蹤，解決了傳統方法在復雜動態場景下難以處理目標時間維度運動特征和復雜背景信息而導致跟蹤準確性和效率低的問題。本文旨在提供一套高效、準確的動態場景下目標跟蹤技術的解決方案，進而推動計算機視覺技術在更廣泛領域的應用與發展。

1 數據處理

1.1 數據獲取

本文選取了選取了3個具有代表性的動態場景數據集：UAV123、OTB50及VOT2016，作為模型訓練及性能評估的基礎。這3個數據集在環境類型、目標種類及運動模式等方面各有其顯著的特點。

1.1.1 數據環境類型

從環境類型來看，這3個數據集涵蓋了城市和自然等復雜多樣的環境。城市環境中存在復雜的建筑結構、交通標識及光影變化等因素，而自然環境中則常見地形起伏、植被遮擋等復雜情況。這些復雜環境為目標跟蹤模型帶來了諸多挑戰。在目標種類方面，數據集包含了行人、車輛、動物等多種類型。行人的運動軌跡多變，車輛的速度和行駛方向各異，動物的行為模式更是難以預測，因此模型需要具備處理不同類型目標的能力。此外，數據集還涉及快速移動、遮擋、尺度改變等多種運動模式。快速移動的目標要求模型能準確捕捉其短時間內的位置變化；遮擋情況考驗模型在目標部分或完全被遮擋時的跟蹤能力；尺度變化則需要模型能有效識別和跟蹤不同大小的目標。這種多元化的運動模式顯著提升了實驗樣本的多樣性和全面性，使其能在各種復雜情境下對模型的表現進行全面測試。

1.1.2 數據核對

在數據準備階段，需從官網下載每個數據集的壓縮包，并確保所有資料的完整性。下載完成后，進行全面的資料核對工作。對于UAV123和OTB50數據集，逐一詳細核實視頻序列文件的完整性，包括檢查視頻文件能否正常打開，以及核對文件大小、時長等信息。通過隨機播放部分視頻片段，仔細觀察畫面是否存在破損、卡頓或遺漏等問題，以進一步驗證視頻內容的完整性。同時，嚴格檢查標注文檔與視頻內容的一致性，逐條核對所標注的信息，包括目標位置、類別、跟蹤起止時間等，確保標注文件與所記錄內容完全對應，從而避免標注錯誤對模型訓練和評估準確性的影響。

1.1.3 數據轉換

VOT2016數據集具有特殊的信息格式，在處理過程中需特別關注。該數據集通常以視頻序列形式提供，需轉換為影像序列，以便于后續處理。此轉換過程需借助特定工具和算法，確保轉換后的影像序列能完整保留原始視頻中的信息。此外，標記文件中的數據對模型訓練和評估至關重要，需對標記文件進行相應的處理，包括調整標記文件格式、補充或修正信息等操作，以確保其與轉換后的圖像序列相匹配。通過這一系列操作，確保所有數據集均符合算法要求，為后續模型訓練和性能評估提供高質量的數據支持。

1.2 數據預處理

為提高圖像處理的效率和準確性，采取了一系列措施對每一幀圖像進行優化處理。

（1）畫面裁剪。針對每一幀畫面，根據目標的具體位置在原始畫幅上進行精確裁剪。這一步驟去除了大量多余的背景區域，顯著降低了運算量，提高了運算效率，有效減少了背景噪音對目標檢測的干擾。在復雜的圖像環境中，背景噪音往往會掩蓋目標的特征信息，而精確裁剪則能使模型的注意力更集中于目標本身，為后續處理步驟創造有利條件。

（2）圖像歸一化。將圖像的像素值歸一化至［0，1］區間。這一標準化操作顯著提升了模型訓練過程中的數據處理效率。在模型訓練中，數據的一致性和規范性至關重要。通過將像素值歸一化至特定范圍，避免了因像素值差異過大而帶來的復雜調整過程，使模型在處理不同圖像時能夠以更統一的方式進行運算。這種一致性處理方式增強了模型對不同輸入圖像的一致響應能力，無論輸入圖像的原始像素值分布如何，模型都能更穩定地處理，從而整體上提升了識別精度。

（3）增加數據集的多樣性與豐富性。采用多種數據增強技術增加訓練樣本，包括隨機翻轉、旋轉和亮度調整等，以生成更多樣化的訓練樣本。這一做法有效擴大了訓練數據集的規模，為模型提供了更多的學習機會，同時又不會增加實際的收集成本。

（4）標記目標位置和大小。在整個數據集中，所有目標都被精確標記在矩形框內，明確了目標的位置和大小。對于模型訓練而言，這種精確標記如同為模型訓練提供了清晰的導航。模型在學習過程中，依據這些標記信息即能夠準確把握目標的特征及位置關系，從而在復雜環境中，即使面對各種干擾因素，也能準確識別目標，保持高識別性能。

2 模型設計

2.1 LSTM概述

為了構建LSTM-Attention模型，本文設計了一個以LSTM網絡為核心的時序數據處理模塊，LSTM 內部結構圖見圖1。

模型計算公式如下：

[it=σWxiXt+W?iHt?1+WciCt?1+bi]，" " （1）

[ft=σ（WxfXt+W?fHt?1+WcfCt?1+bf）]，" " "（2）

[Ct=ftCt?1+it×tan?（WxcXt+W?tHt?1+bc）]，" （3）

[Ot=σ（WxoXt+W?oHt?1+WcoCt+bo）]，" " " "（4）

[Ht=Ot×tan?（Ct）]，" " " " " " " " " " " （5）

其中：在時刻t，it為輸入門，Ot為輸出門；ft為遺忘門；Ct為記憶細胞；Xt為輸入向量；Ht為上一時刻的隱藏狀態；[σ]為每個單元權重的控制函數Sigmoid；W為各種輸入循環權重；b為偏置項。首先通過遺忘門計算需要丟棄或保留的信息，其次通過輸入門選擇更新記憶細胞的狀態，最后確定輸出值。

在動態場景下，目標的運動呈現出復雜的時間序列特性，時序處理模塊的主要目的正是高效地處理時序數據中的長依賴關系。它如同精密的探測器，深入挖掘數據中的隱藏信息，精準捕捉目標在時間序列中的動態特征。通過這種方式，模型能更深入地理解目標在不同時間點的位置、速度等變化，從而對目標的運動軌跡有更準確的把握，使其能在復雜的時間維度信息中清晰地追蹤目標。

2.2 Attention機制

單純依靠LSTM網絡可能難以完全滿足模型在復雜場景下捕捉關鍵信息的需求，因此本文引入了Attention機制，其原理示意圖見圖2。該機制使模型能夠動態地調整不同時間步驟或空間區域的權重分配。在跟蹤目標的過程中，模型可根據當前任務的實際需求，自主地將注意力集中到任務更為重要的部分。例如，當目標處于復雜背景中或與其他物體發生交互時，模型能自動加強對目標區域的關注，同時降低干擾因素的權重，從而顯著提升追蹤精確性，確保在復雜多變的環境中仍能精確鎖定目標。在模型架構設計的過程中，充分考慮了動態場景下的追蹤需求，包括快速移動的目標、頻繁遮擋的狀況及各種復雜環境的干擾因素，旨在確保模型在復雜環境下既能保持穩定的追蹤性能，避免因外界因素的干擾而出現追蹤丟失或錯誤追蹤的情況，又能高效地完成跟蹤任務，及時且準確地輸出目標的位置信息。

2.3 模型構建

在選擇損失函數時，本文采用了均方誤差（MSE）作為評估模型預測準確性的標準。MSE具有明確的物理意義，能夠直觀地反映模型預測結果與真實值之間的差距，這種差距可視為模型預測與目標之間的“距離”，通過最小化這一差異，引導模型不斷優化，以期在實際應用中更準確地定位目標位置，使模型輸出的目標位置信息與真實位置盡可能接近，從而提升追蹤精準度。

經過實驗分析，本文選用了Adam優化器，并設定了一系列合理的超參數以優化模型訓練。具體而言，學習率設定為0.001，這一數值是經過多次測試后確定的，有助于模型在訓練初期迅速收斂至最優方向。輸出層的激活函數選用了ReLU函數，以避免梯度消失問題，從而提高訓練效率。批次大小設定為512，即每次模型訓練都會同時對512個數據樣本進行處理，這樣的設定有助于平衡模型訓練速度與穩定性。模型共進行100次迭代，以確保充分學習數據中的規律。此外，學習衰減率設定為0.96。在訓練后期，隨著迭代次數的增加，學習率按此衰減率逐步降低，以保證模型平穩收斂，避免在最優解附近震蕩，同時有效防止過擬合，使模型在新數據上保持良好的泛化能力。LSTM-Attention模型結構圖見圖3。

3 實驗結果與分析

3.1 靜態背景實驗

在靜態背景測試環境中，LSTM-Attention模型顯示出極高的精確度，達到了95.8%，相較于傳統算法的89.2%有了顯著提升。這一結果充分證明了該模型在穩定環境中的優越性，能夠精準捕捉目標特征并實現穩定跟蹤，幾乎不受其他無關因素干擾。

3.2 目標快速移動場景實驗

針對目標快速移動的挑戰場景，實驗結果顯示，LSTM-Attention模型展現出了極強的適應能力。在目標快速移動的復雜情況下，模型仍能保持相對較高的精確度，達到87.3%，遠高于傳統算法的76.5%。然而，快速移動對模型的跟蹤性能仍然產生了一定影響，導致部分幀中出現追蹤誤差，這主要是因為目標位置和形態在短時間內因移動過快而變化較大，增加了模型追蹤和預測的難度。

3.3 目標遮擋實驗

在目標遮擋實驗中，LSTM-Attention模型面對復雜的部分遮擋情況，依然表現出強大的實力，精確度達到了82.6%，顯著優于傳統算法的68.7%。這主要得益于Attention機制的引入，有效增強了模型對重點區域的關注，使模型在目標部分遮擋時仍能聚焦于未被遮擋的關鍵部分，從而降低遮擋帶來的負面影響。然而，在目標完全遮擋的情況下，模型性能明顯下降，精確度降至65.9%，表明在極端遮擋情況下，模型的遮擋處理機制需進一步研究和改進，以應對其對目標跟蹤造成的嚴重影響，進一步提升模型在復雜環境下的抗干擾能力。

3.4 復雜動態場景實驗

在復雜的動態場景下，盡管面臨多種干擾因素交織，如多個移動目標及光照變化等，但是LSTM-Attention模型仍展現出80.4%的準確率，充分彰顯了其在復雜環境中的穩定性。然而，需要注意的是，在多個目標距離較近或光照劇烈變化的情況下，這些多重干擾因素對模型整體性能產生了一定影響，可能導致短暫跟蹤偏差。這表明在復雜環境下，模型的綜合處理能力有待進一步提高。

3.5 光照變化場景實驗

光照變化是影響目標跟蹤的重要因素之一。實驗結果顯示，與傳統算法的83.6%相比，LSTM-Attention模型在光照變化條件下保持了91.7%的準確率，表明該模型對光照變化具有較強的抗干擾能力。這主要歸因于模型能有效抑制光線變化產生的噪音，并在特征提取過程中增強了穩定性和區分度。

LSTM-Attention模型和傳統算法在不同場景下的準確率對比結果見圖4。通過對模型跟蹤效果的可視化分析，可以直觀看到，在大部分情況下，LSTM-Attention模型在跟蹤目標時表現準確而穩定，即使目標快速移動或部分遮擋，也能保持較好的跟蹤性能。但在完全遮擋或極端復雜場景下，模型跟蹤能力存在局限性，需進一步優化以提升跟蹤的準確性。未來研究可重點改進遮擋處理機制，增強模型對復雜場景的適應性，以進一步提高對動態場景下的目標跟蹤性能。

4 結語

本文深入探究了動態場景下基于LSTM-Attention的目標追蹤模型的應用效果。實驗驗證表明，該模型在應對復雜動態變化場景時，在精確性方面具有顯著優勢，并在自動駕駛、智能監控等實時跟蹤任務相關領域展現出潛力巨大。其處理速度能夠滿足大多數實時應用場景的需求，為這些領域的目標追蹤問題提供了有價值的解決方案。然而，本研究也揭示了模型的局限性，即LSTM-Attention模型計算復雜度較高，在資源受限的環境下，特別是在處理大規模數據集或高分辨率圖像時，對硬件資源要求較高，可能增加部署成本，從而影響了模型的廣泛應用。針對這些問題，今后的研究將聚焦于以下兩個方面：一是進一步優化模型架構，采用輕量化設計或引入更高效的計算單元，以降低計算成本；二是開展多模態融合技術的研究，通過結合多源信息，提高模型在復雜場景下的感知能力。

5 參考文獻

［1］劉思思，陳忠，徐雪茹，等.改進KCF的尺度自適應目標跟蹤算法研究［J］.計算機與數字工程，2024，52（5）：1359-1365，1393.

［2］朱代先，阮小曼，刁弘偉，等.基于改進TLD的運動目標跟蹤算法研究［J］.電子測量技術，2023，46（18）：122-128.

［3］劉聃琦.基于核相關濾波器的運動目標跟蹤算法研究［D］.沈陽：沈陽理工大學，2021.

［4］牛思杰，汪志鋒，朱晶晶.基于自適應尺度變換與特征融合的目標跟蹤［J］.指揮控制與仿真，2024，46（4）：82-87.

［5］郭崇，劉晟，張文波，等.基于卷積混合注意力機制的多目標跟蹤算法［J］.控制與決策，2024，39（11）：1-9.

［6］劉浩東.基于深度學習的多目標跟蹤算法研究［D］.無錫：江南大學，2023.

［7］吳燚威.基于注意力機制的目標跟蹤研究［D］.廣州：廣州大學，2024.

*浙江工商職業技術學院2024年校級科研資助項目“基于LSTM-Attention視覺模型的動態場景下目標跟蹤研究”。

【作者簡介】孫晨陽，男，江蘇蘇州人，碩士，助理講師，研究方向：智能軟件、人工智能技術。

【引用本文】孫晨陽.基于LSTM-Attention模型的動態場景下的目標跟蹤研究［J］.企業科技與發展，2024（12）：87-90，102.

企業科技與發展2024年12期

企業科技與發展的其它文章: 基于成對約束的三視圖對比聚類算法; 基于GPT輔助的Web前端代碼快速生成工具的設計; 基于改進的NSGA-III算法求解綠色柔性作業車間調度問題; 低鎳奧氏體不銹鋼固溶退火工藝及組織性能研究; 期刊品牌建設與市場化運營策略探究; 科技期刊在企業科技創新活動中的作用與影響探究