面向邊緣計算的目標追蹤應用部署策略研究?

2020-11-03 12:25:40張憲琦左德承付國棟

軟件學報 2020年9期

張展, 張憲琦, 左德承, 付國棟

(哈爾濱工業大學計算機科學與技術學院,黑龍江哈爾濱 150001)

目標追蹤算法近年來在很多領域得到廣泛應用,其主要應用場景包括自動駕駛、安防監控、異常行為分析等方面.例如:機器人通過目標檢測進行行人識別后,通過追蹤算法保持用戶跟隨,從而進行定向服務;工業加工中,通過調整舵機保持追蹤物體處于畫面中心,從而使設備追蹤目標進行加工等.追蹤算法的主要挑戰包括目標遮擋、尺度更改、光照變化以及運動模糊等多個方面.目前,主要的追蹤算法可以大體分為兩類:一類基于相關濾波器(correlation filter,簡稱CF),另一類基于深度學習(deep learning,簡稱DL).采用相關濾波器的算法,將傳入的原始數據經過快速傅里葉變換轉換到頻域內進行計算,大大提高了計算速度,適用于計算能力較弱的移動設備;基于深度學習的追蹤算法在近年來成為一大熱點,該類方法的主要缺點在于計算壓力較大,雖然可以結合模型壓縮技術對深度學習模型進行壓縮,但仍難以達到追蹤任務對于算法實時性的嚴苛要求,尤其對于計算能力較為薄弱的嵌入式設備,難以部署應用.

嵌入式設備較弱的計算能力一直是其應用瓶頸,雖然近年來硬件設備性能大幅提升,但仍難以滿足像深度學習模型這類計算密集型應用的需求,尤其針對特定領域應用,對設備的續航時間、響應速度、穩定性和可靠性均有較高的要求,這給算法設計造成了更大的困難.邊緣計算的發展為解決此類問題提供了新的思路,相比于傳統的云計算,邊緣計算采用最近端服務策略,以最快速度響應任務請求,從而滿足任務的實時性需求.移動終端節點可以將計算任務全部或部分卸載到邊緣云,以緩解本地計算壓力,實現功耗和處理速度的雙重優化.這使得研究人員不但可以從算法設計角度研究一種時效性強、準確度高、計算量小、能耗較低的目標追蹤算法,還可以從應用部署的角度,通過研究計算任務分割、卸載、設備間通信以及數據融合等策略,進一步優化應用性能.

本文對基于計算機視覺的目標追蹤算法的部署策略進行研究,其硬件環境主要為可穿戴設備或普通嵌入式設備,相比常規目標追蹤算法的主要難點,應用設備還面臨計算能力較弱、響應度和準確度要求較高的問題.本文通過研究基于邊緣計算的任務分割和信息融合等策略,提升應用響應速度的同時,降低移動終端節點計算壓力及能耗.

本文的主要貢獻如下:

1.為嵌入式設備上深度學習模型的部署提供了新的思路.針對移動嵌入式設備資源不足、深度學習模型難以部署應用的問題,引入邊緣云對移動設備提供支撐,從計算、通信、存儲的角度對計算模型的部署策略進行優化,采用終端節點與邊緣云協同處理的方式進一步提升任務處理速度;

2.針對特定應用場景,為保證終端設備在較差網絡環境下的獨立作業能力,提升系統整體的容錯性和魯棒性,在移動終端節點部署輕量級目標追蹤算法;同時,結合集成學習策略融合本地終端節點和邊緣云端計算結果,使移動設備具備網絡環境自適應的能力;

3.提出基于峰值置信度的目標追蹤算法集成方式,并通過響應圖重建策略降低傳輸數據量.

本文第1 節對目標追蹤和邊緣計算的相關工作進行介紹.第2 節詳述所提出的目標追蹤應用部署策略.第3節實驗驗證部署策略的有效性,并對實驗結果進行分析.第4 節對全文進行總結.

1 相關工作

1.1 目標追蹤算法

目標追蹤算法按照追蹤目標和攝像機數量,可分為單目標單攝像機(single target single camera,簡稱STSC)、多目標單攝像機(multi target single camera,簡稱MTSC)、多目標多攝像機(multi target multi camera,簡稱MTMC),其中,MTMC 可以看成是MTSC 與ReID(re-identification)技術的結合.其主要流程一般為:在第一幀給定追蹤目標位置,通常為方形檢測框;在后續數據幀中,算法對追蹤目標進行跟隨,同時給出算法計算得出的檢測位置以及尺度.

目前,單目標追蹤算法大體可以分成兩類,分別為基于相關濾波器的算法和基于深度學習的算法.

基于深度學習技術的單目標追蹤算法主要可以分為兩類.

· 一類將深度學習技術與相關濾波器相結合,如:Danelljan 等人提出的DeepSRDCF[1]算法采用深度特征取代手工特征以提升模型性能;Ma 等人提出的HCFT[2]算法采用VGG-Net[3]進行特征提取,集成從不同特征圖譜所學習到的濾波器作為最終模型,以利用多層特征,取得了更優的追蹤性能;

· 另一類則完全采用深度學習相關技術進行追蹤,如Tao 等人[4]采用孿生神經網絡(siamese network)比較追蹤目標與候選目標之間的相似性,進而確定目標位置.

基于孿生神經網絡的目標追蹤算法是近來最主要的研究分支,主要原因在于此類方法兼顧了處理速度和算法性能.Bertinetto 等人提出了SiamFC[5]算法,該方法創新性地將追蹤問題視為相似學習問題,避免了深度學習模型的在線更新,在速度和性能兩方面均取得了非常不錯的效果.SiamRPN[6]通過引入物體檢測領域的區域建議網絡(region proposal network,簡稱RPN)進一步提升性能.針對將SiamFC 和SiamRPN 的主干網絡替換為更深層結構時,算法并未取得更好的性能的問題,Li 和 Zhang 等人從不同的角度探究其原因,分別提出了SiamRPN++[7]和SiamDW[8].Wang 等人在原有網絡基礎上添加Mask 分支,提出了SiamMask[9],完成目標追蹤任務的同時實現物體分割,在一般場景下效果顯著,但對于遮擋等問題魯棒性較差.針對不同算法的優化,一方面可以從算法模型的角度進行改進,如改進模型架構設計,或采用集成學習方法,結合不同種算法優點構建性能更加優良的算法模型;另一方面,可以從應用部署的角度,通過研究計算任務分割、卸載、設備間通信以及數據融合等策略,進一步優化應用性能.本文以STSC 算法為主要研究對象,從應用部署優化的角度,對目標追蹤算法在移動設備上的部署策略進行研究,部署策略也可進一步擴展至其他類型算法.

1.2 邊緣計算技術

新型網絡任務和場景,如自動駕駛、安防監控等,對于網絡延時和可靠性安全性等方面的高要求,使得傳統網絡架構難以應對,邊緣計算技術應運而生.邊緣計算主要包含虛擬化、云計算和軟件定義網絡等關鍵技術.Shi等人[10]將“邊緣”定義為數據源與云數據中心之間的任何計算資源和網絡資源.對于其優勢和必要性,Hu 等人[11]通過實驗進行相關驗證,并通過實驗證明:移動設備盲目卸載計算任務到云,可能導致更低的性能和更高能耗.

目前,邊緣計算已在諸多領域中得以應用.Garg 等人[12]將邊緣服務器作為中間接口,輔助車輛與云端數據中心間通信,減少了終端節點訪問時間和網絡擁塞.Sheng 等人[13]將無線聲音傳感器網絡與邊緣計算相結合,使得成本和能耗更低.Lai 等人[14]利用邊緣云實現并行計算,以提高監管系統對工業設備的識別效率.Muhammad等人[15]將邊緣計算應用于智慧醫療框架.相比傳統網絡架構,邊緣計算采用降低服務器和用戶間距離的方式,減少了網絡響應時間,同時降低了數據傳輸功耗和網絡堵塞時間[16].然而,此類應用框架僅利用了邊緣云的優勢,并未針對應用模型進行更近一步地拆分.與此不同,本文針對應用模型本身的計算任務進行更細致的劃分,從模型部署的角度進行更進一步的優化.

邊緣云架構一直是該領域的主要研究方向.Tong 等人[17]將邊緣云更加細化,將邊緣云層設計為一種樹狀的層次結構,允許不同服務器層對峰值負載進行聚合,使得云資源利用率更高.Yao 等人[18]從不同設備以及接入點的角度提出多層邊緣計算框架EdgeFlow,通過權衡設備的資源占用情況以及通信狀態,將不同任務以最佳方式分配給每一層.Tseng 等人[19]提出一種基于網關的邊緣計算服務模型,可實現資源按需分配.相比以上幾種邊緣云架構,在特定應用場景下的平臺架構設計中,將計算能力較強的移動終端節點上移邊緣云層是更為合理可靠的.例如,野外環境下,設備工作環境可能較差,網絡延遲可能使得終端節點設備與邊緣云無法暢通連接.為此,將比穿戴式設備計算能力更強的節點設備作為其他設備的邊緣云節點,移動終端節點可自由選擇任務卸載位置,從而降低網絡環境對計算任務的影響.

針對邊緣云架構中的任務卸載、資源分配及數據傳輸等問題,不同學者對此進行了研究探索.Sun 等人[20]提出一種自適應任務卸載算法,相比基于置信上限的學習算法,平均延遲降低了30%.針對如何滿足計算任務延遲條件且保證系統成本最小化的問題,Zhang 等人[21]提出一種兩階段任務調度成本優化算法,在滿足所有任務延遲的同時,使系統成本最小化.針對邊緣服務器的過載問題,Fan 等人[22]設計了一種基于應用感知的工作負載分配方案,通過為用戶不同類型的請求分配合適的計算資源,以最大限度地減少響應時間.Du 等人[23]將邊緣計算的資源分配問題定義為一個隨機優化問題進行求解,取得了較好的效果,然而該算法并不考慮資源共享的公平性問題.Guan 等人[24]采用博弈論的觀點對邊緣計算環境進行了分析,證明其中存在納什均衡.Lin 等人[25]針對邊緣數據中心間的數據傳輸問題,提出了一種自適應離散粒子群優化算法(GA-DPSO),以縮短數據傳輸時間.Ren 等人[26]為更好地適應邊緣計算應用,開發了一種基于微內核的操作系統EdgeOS.然而,目前針對模型計算任務劃分的研究相對較少.嘗試針對基于深度神經網絡的算法模型進行更細致的計算任務劃分,結合邊緣計算,解決深度學習技術在嵌入式領域應用性較差的問題.

1.3 目標追蹤系統應用場景分析

追蹤算法處理流程可分為多個階段,且算法具有基本相同的處理步驟,這為邊緣計算的應用提供了可行性.通過追蹤任務進行分割,采取不同階段不同節點計算的策略.針對不同處理階段,可以將相同計算任務進行特殊優化,如采用FPGA 等設備進行預處理階段中圖像剪裁、圖像增強、傅里葉變換等操作,將深度特征提取等運算卸載至邊緣云,以減小本地計算壓力及功耗.

基于邊緣計算的單目標追蹤系統在一定程度上與分布式機器學習系統類似,兩者對比如圖1 所示,后者通常包含數據和模型劃分、單機優化、通信以及模型和數據聚合等部分.將訓練樣本通過隨機采樣或置亂切分等方式進行劃分,并對模型進行橫向、縱向或隨機劃分后,分配至不同工作節點,采用單機優化策略進行子模型訓練,期間通過通信策略進行信息同步,最后采用模型和數據聚合算法對訓練好的模型進行集成聚合.與此類似,基于邊緣計算的目標追蹤系統主要包含任務分割、目標追蹤、通信以及信息融合等部分.其中,終端節點和邊緣云服務器分別部署目標追蹤算法,通過任務分割策略決策計算任務處理節點,通信方案決策信息收發內容及通信步調等,計算任務卸載至云端運算后,通過信息融合策略對終端節點和邊緣云兩側計算結果進行融合.

· 應用場景

本文所研究的部署策略主要針對工作于野外環境下的穿戴式設備或救援機器人等類似移動設備,如救援機器人等.野外環境下,特定用戶人群,如搜救或抓捕人員等,通過配備穿戴式設備輔助追蹤特定人員或目標.小組成員間通過信息傳遞,可進行多攝像機單目標連續追蹤.通過保存追蹤目標在此過程中的運動軌跡及外觀信息,可進一步對目標進行行為分析或融合其他信息進行更高層信息提取.

2 目標追蹤應用部署策略研究

2.1 邊緣云網絡架構

邊緣云網絡架構主要面向野外環境下穿戴式設備或救援機器人等類似移動設備.利用邊緣云解決終端節點對應用程序計算壓力及功耗等方面的限制.邊緣云網絡架構及軟件架構如圖2 所示.網絡架構總體分為終端節點、邊緣云和云端數據中心這3 層:終端節點層主要為接入邊緣云的移動設備,每個節點部署應用包含目標追蹤、計算任務分割、信息融合和運動檢測等多個部分;邊緣云層主要為邊緣云資源部署層,包含邊緣計算服務器和文件服務器等硬件資源設備,部署完成終端節點計算任務所需的必要程序,主要包含邊緣云目標追蹤、信息融合、信息管理和通信等部分;云端數據中心為與移動終端節點相距較遠的數據中心,該層僅與邊緣云進行通信.相比第1.2 節中所分析的3 種層次邊緣云架構,如將云端資源下移邊緣端或將邊緣云層繼續拆分,在網絡架構設計中,將計算能力較強的移動終端節點上移邊緣云層.野外環境下,設備工作環境可能較差,網絡延遲可能使得終端節點設備與邊緣云無法暢通連接,為此,將比穿戴式設備計算能力更強的節點設備,如筆記本電腦、臺式機或小組內其他計算能力較強的設備等,作為其他穿戴式設備的邊緣云節點.穿戴式設備或其他移動終端節點可自由選擇任務卸載位置,從而降低網絡環境對計算任務的影響.

為詳細說明部署策略,搭建目標追蹤系統,如圖3 所示:主體為基于計算機視覺的目標追蹤算法,輸入數據為視頻流數據,具體為視頻幀圖片.

任務分割策略根據本地計算負載狀態、如設備溫度、CPU 利用率、內存占用率以及能源狀態等,判定是否進行本地計算;與此同時,根據網絡狀態和邊緣服務器資源占用情況,判斷是否將發送邊緣云進行計算,同時決定計算任務分割點,用以最終決策終端節點和邊緣云的任務計算量.由于在野外環境下網絡情況難以長期保證,且設備具體應用環境較為復雜,如搜救機器人時常工作于廢墟或礦道等惡劣環境下,通信情況難以保證,且此時任務失敗將造成嚴重后果,因此當移動終端節點與邊緣云難以保持暢通連接時,終端節點應部署目標追蹤算法使其具備獨立作業能力,否則將直接導致追蹤任務失敗,造成嚴重后果.終端節點可采用基于相關濾波器的目標追蹤算法進行部署,以滿足移動節點計算能力較弱且能耗要求較高的特點.

邊緣云采用基于深度學習模型的追蹤算法以提升整體追蹤性能.根據算法計算得出的響應圖(response map)確定算法融合系數,并確定此時終端算法模型是否進行更新.信息融合算法通過融合終端節點和邊緣云返回的計算結果對追蹤目標的具體位置進行最終預測.此外,終端節點采用卡爾曼濾波器對追蹤目標的運動情況進行建模;另一方面,采用運動模型對追蹤目標的位移閾值進行動態設定.當連續多幀目標位移均超出該閾值范圍時,啟動運動檢測以確定是否存在運動物體,以此進一步降低終端計算壓力,避免不必要的計算.后文對各部分算法和具體策略進行詳細介紹.

任務分割策略中,后續實驗采用兩種分割策略,即神經網絡模型完整卸載和部分卸載.

(1) 模型完整卸載策略:主要將算法的特征提取部分卸載至邊緣云進行計算,本地終端節點負責數據的預處理和后處理.其中,

? 數據預處理部分的計算任務主要包括部分與輸入圖像數據相關的超參數的計算;以前一幀追蹤目標的位置為中心,剪裁不同尺寸的圖像以供后續尺度估計計算等;

? 后處理部分主要包括:根據邊緣云返回的響應圖,對追蹤目標的尺度及其具體估測位置進行計算等;

(2) 模型部分卸載策略:相比將特征提取任務完全卸載至邊緣云計算,將卷積神經網絡模型中第一部分,即第一個卷積層、批標準化層(batch normalization,簡稱BN)及池化層分配至終端節點計算.

2.2 目標追蹤算法

由于移動設備工作環境多樣化,難以保證網絡狀態,因此當設備無法與邊緣云暢通連接時,應保證終端節點仍具備獨立作業能力,避免任務失敗造成嚴重后果.基于以上原因,在終端節點部署計算壓力較小的目標追蹤算法.另一方面,由于算法通常專注于解決具體任務一個方面的問題,難以對任務的全部問題進行優化,因此通常采用集成多個算法的方式以結合不同算法的優點,進而構造一個性能更加優良的算法模型,以滿足實際需求.例如基于計算機視覺的目標追蹤算法,其主要難點包含光照、變形、尺度變化、背景雜亂等多個問題,不同算法通常針對某一問題進行設計優化,因此,實際應用時,通常采用集成的方式以獲得更好的追蹤性能.集成學習(ensemble learning)通過結合一系列算法模型以獲得一個性能更好的算法模型,該策略在工程部署中得到廣泛應用.在目標追蹤過程中,可將移動終端節點的相關濾波器算法與邊緣云的深度學習算法進行集成,以獲得更加穩定且性能更加優良的算法模型.研究過程中,選用以下兩種算法進行部署研究,具體模型可更換.

(1) 終端節點目標追蹤算法.

終端節點采用基于相關濾波器(correlation filter,簡稱CF)的目標追蹤算法進行部署,以滿足移動終端節點計算能力較弱且對續航能力要求較高的特點,算法模型采用DCF[27].

DCF(dual correlation filter)在CSK[28]基礎上進行改進,利用循環矩陣進行循環采樣以解決稀疏采樣問題,并引入多通道特征,使得性能相比以往目標追蹤算法大幅提高.DCF 采用嶺回歸建模,通過最小化采樣數據的計算標簽與目標真實位置之間的距離求解函數,并引入循環矩陣進行循環采樣.DCF 采用線性核(linear kernel),根據當前圖片數據樣本x計算核函數k(x,x)和參數α值,當下一張圖片數據z傳入時,計算k(z,x)和f(z),取f(z)實部作為響應圖,其中最大值位置為算法預測目標位置.

DCF 算法的主要優點在于其處理速度,適用于計算能力較弱的移動設備.在終端節點部署該類算法,用以保證設備無法連接邊緣云時仍具備獨立作業能力,避免任務失敗.

(2) 邊緣云目標追蹤算法

基于邊緣云計算資源豐富、處理速度快等特點,算法部署無需過多考慮硬件資源開銷,可采用基于深度學習模型的目標追蹤算法進行部署,以滿足追蹤任務的性能需求,算法模型采用SiamFC[5].

全卷積孿生神經網絡(fully-convolutional siamese networks,簡稱SiamFC)創新性地將目標追蹤作為一種相似性學習問題(similarity learning),模型采用大量數據進行離線訓練后,實際部署進行追蹤時,無需對模型進行更新,從而避免了追蹤過程中的復雜計算,使得算法性能滿足實時追蹤任務要求.通過相似性度量函數對樣本圖片和候選圖片之間的相似度進行計算,可以對兩者間的相似程度進行衡量,并返回對相似程度進行評分,相似度越高,則分數越高.算法采用全卷積孿生神經網絡作為相似性度量函數.該算法在處理速度和追蹤性能上均有取得了良好表現,也由此引起眾多學者基于全卷積孿生神經網絡的進一步研究改進.由于算法采用相似性學習的角度解決追蹤問題,算法可采用大量視頻序列對模型進行離線訓練,因此針對特定場景下的目標追蹤任務可以采取預先收集相似場景數據以更好地訓練模型,從而取得更好的性能.

2.3 任務分割策略

基于邊緣計算的追蹤系統,常用任務卸載策略為將全部計算任務卸載至邊緣云.另一種策略,以算法HCFT[3]為例,由于根據多個卷積層輸出的特征圖學習多個不同的相關濾波器,因此可根據設備負載狀態及網絡環境,動態判定所學習的濾波器個數.與此不同,本文根據算法的處理階段對計算任務進行劃分,如預處理及特征提取計算量較小,而此時網絡延遲較大,則可將該部分計算任務本地運算;且由于搜索區域相比整張圖片區域更小,因此處理后信息傳輸量更小,降低了網絡傳輸延遲.此外,由于在終端節點和邊緣云服務器分別部署不同的目標追蹤算法,通過任務分割策略決策計算任務本地計算、卸載至邊緣云計算或同時計算后融合,最后通過信息融合策略,對不同種算法計算結果進行集成.

任務分割策略如圖4 所示,主要根據本地計算節點負載情況、硬件設備利用率、網絡延遲等狀態對計算任務進行劃分,將計算任務部分卸載或全部卸載至邊緣云,以達到能耗、計算速度和準確度的組合優化目的.計算任務拆分時,一方面考慮本地處理后數據量更小,從而降低網絡傳輸延遲;另一方面,在網絡處于高延遲狀態時,通過本地繼續處理后續計算任務,從而避開當前高延遲時段,減少不必要的等待延遲.

本文的研究內容在一定程度上可視為多約束條件下的資源分配問題,設備在當前工作環境下,除了以上約束,還受到計算任務本身的約束.在目標追蹤應用中,為保證追蹤的實時性,每幀圖像數據的處理時間一般應保持在50ms 以下,即每秒處理數據應高于20 幀.此外,資源優化分配時,還應考慮任務性能的約束,即目標追蹤整體模型性能應保持在一定范圍內.

經過環境信息探查后,對所得信息進行融合后判定計算任務分割點,決策本地終端節點和邊緣云計算任務量,其主要處理流程如圖5 所示.計算任務可從數據預處理階段和特征提取之間進行劃分,即將神經網絡完整卸載至邊緣云;或從神經網絡模型不同層之間進行劃分,即將神經網絡模型分割卸載至邊緣云.通過任務分割策略判定本地終端節點進行預處理及裁剪運算,或繼續進行第一層或幾層特征提取,處理后,數據上傳邊緣云進行下一步計算.邊緣云計算獲得響應圖后,返回響應圖中極值序列,數據交由本地,通過信息融合策略進行響應圖重建.融合終端節點目標追蹤算法處理結果后,最終判定目標位置.邊緣云僅負責特征提取及響應圖相關計算任務,本地終端節點負責數據預處理、淺層特征提取以及獲得極值序列后進行響應圖后重建、尺度判定、參數計算更新等計算任務.

2.4 信息融合策略

集成學習(ensemble learning)目前已成為工程應用中經常采用的策略,用以聚合不同算法的優勢.本文通過評測響應圖波動程度來評價模型對當前預測的目標位置的置信程度,根據峰值置信度指標對不同算法計算所得的響應圖譜進行度量,由此確定具體融合系數.濾波器響應圖如圖6 所示,其中左圖為高置信度示例,右圖為低置信度示例.

響應圖預處理時,歸一化其取值范圍到[0,M]:

其中,Var(?)表示方差;Dθ為響應圖中極值數據點集合,Dθ′表示去除響應圖中最大值后極值點集合,且集合Dθ中濾除小于閾值θpc的極值,以增強魯棒性,超參數θpc預先設置.ε為超參數,用于避免運算中數值溢出而預先定義的極小值.濾波器僅在峰值置信度高于閾值時進行更新.

此外,由于響應圖傳輸時間對算法總體處理時間影響較大,算法僅傳輸響應圖中高于一定閾值的極值集合以降低信息傳輸量,終端節點通過回傳極值信息,對響應圖進行重建:

其中,G(x,y)為重建后曲面,gi(x,y)為以第i個極值點坐標為中心的二維高斯曲面,Vi為對應極值.

由于高斯函數中的指數運算計算壓力較大,使得上述策略無法滿足實時性要求.因此進一步優化,采用平移策略代替創建二維高斯函數的相關運算:

其中,G(x,y)為重建后曲面,g(x,y)為預先創建的以(0,0)坐標為中心的二維高斯曲面,Vi為對應極值,Pg(xi,yi)為將曲面g(x,y)平移(xi,yi)后的高斯曲面.

2.5 運動檢測方案

由于終端設備對應用程序的計算壓力及功耗要求較高,且當追蹤算法丟失目標時,繼續計算將造成嚴重的資源浪費,然而追蹤算法正確跟蹤目標或已丟失目標通常是難以判定的,因此采用運動模型對追蹤目標的運動狀態進行建模.通過運動模型動態設定位移閾值范圍,當追蹤算法預測位置連續多幀超出此閾值范圍時,初步判定丟失目標,啟動運動檢測算法檢測是否存在運動物體,以確定是否已丟失目標.后續可輔助算法在丟失目標時進行重檢測.運動檢測算法采用幀差法進行部署,以滿足計算壓力小、運算速度快以及低能耗的要求.此外建立運動模型,以針對不同追蹤目標和該目標在追蹤過程的不同階段自適應設定位移閾值.

(1) 運動模型

對于目標追蹤算法,物體的運動狀態對于模型追蹤具有積極影響,尤其在追蹤過程中存在遮擋和運動模糊等情況時.因此對追蹤目標運動狀態建模,以進一步提升性能.此外,由于目標在追蹤過程中的動態變化,使得對目標位移設置固定閾值以判斷濾波器預測結果是否處于正常范圍內并不合適.基于以上原因,采用運動模型對目標位移閾值進行動態設定,以適應目標在追蹤過程中的動態變化.

運動模型采用卡爾曼濾波器(Kalman filter)進行建模,閾值設定如下所示:

其中,θx為閾值位移,xh為運動模型估測位移的滑動平均值,ρθ為系數,分別為追蹤算法和卡爾曼濾波器所估測的目標位移.

(2) 運動檢測算法

當追蹤算法連續多幀預測目標位移超出閾值范圍時,采用運動檢測算法對輸入數據進行運動檢測,以進一步降低模型能耗,提升算法處理速度,減少不必要的計算.常用運動檢測算法有幀差法、光流法、背景減除法、ViBe 算法等.其中,幀差法具有簡單快速、對于光照環境不敏感以及對于動態環境適應性較強等特點,適用于終端節點硬件環境以及應用程序運行環境.

幀差法通過對相鄰兩幀圖像做差分運算以檢測運動物體,其檢測結果如圖7 所示.該算法主要理論依據在于:相鄰2 幀或3 幀進行灰度值差值運算后,運動物體由于灰度值變化將會產生灰度殘留,而靜止物體則由于灰度不變被差值運算去除.算法主要步驟:連續輸入3 幀圖像數據,前2 幀和后2 幀分別計算灰度差值后,結果進行按位與運算得出結果.運動檢測時,獲得3 幀差法結果后,在目標追蹤算法預測位置,取目標大小區域,通過對該區域內數值進行求和并與閾值比較,以確定該處是否存在物體運動.

2.6 信息管理方案

信息管理主要用于存儲、分發以及更高層信息提取等任務.邊緣云對目標在追蹤過程中的狀態進行保存,記錄物體運動路徑以及目標活動,歷史記錄信息主要用于特定場景下決策判斷或后續進一步的信息提取.例如:對于搜救機器人,通過分析運動記錄,可以確定已搜索區域,從而輔助判斷下一步搜救區域;對于其他追蹤目標,可根據記錄信息對目標的行為習慣或行動意圖進行判斷.此外,記錄信息可結合其他應用信息進行更高層信息融合或發送其他終端節點以供其他后續操作.

3 實驗

3.1 實驗環境

邊緣服務器采用12 核Intel(R) Xeon(R) CPU E5-2678 v3@2.50GHz,GPU 采用GeForce RTX 2080,顯存12G.終端節點采用平板電腦,Intel(R) Core(TM) i5-8250U CPU@1.6GHz,8G RAM,CPU 處理.軟件環境,服務器系統Ubuntu,終端系統Windows7,編程語言Python3,CUDA10.0,PyTorch1.1.0.測試工具GOT-10k[30],測試數據集為OTB100[29].

3.2 目標追蹤系統實驗

為驗證任務分割策略的有效性,首先測試計算任務完全由終端節點計算和完全卸載至邊緣云計算時,完成相同計算任務所需時間,以供對比分析.

(1) 計算任務完全由終端節點處理

計算任務完全由本地終端節點計算,處理時間如圖8 所示.計算任務主要包括數據預處理、深度特征提取、響應圖計算以及后處理等階段.

計算任務完全由本地終端節點運行,從測試結果中可以看出,采用深度學習網絡模型進行特征提取成為主要性能瓶頸.其余計算任務處理時間為10～15ms 左右.

(2) 計算任務完全由邊緣云處理

計算任務完全卸載至邊緣云處理時,終端節點僅將本地獲取到的圖片數據上傳邊緣云,所有計算任務均由邊緣云完成.嵌入式終端計算負載僅為攝像頭圖像獲取、數據發送/接收,目標區域繪制及顯示.

實驗中,邊緣云模型架構采用百度邊緣計算平臺OpenEdge.該平臺可將云計算能力拓展至用戶現場,提供臨時離線、低延時的計算服務,包括設備接入、消息路由、消息遠程同步、函數計算、設備信息上報、配置下發等功能.通過OpenEdge 和智能邊緣BIE(Baidu-IntelliEdge)協同部署,可在云端進行智能邊緣核心設備的建立、服務創建、函數編寫,然后生成配置文件下發至本地運行,達到云端管理和應用下發,邊緣設備上運行的效果,滿足邊緣計算應用場景.

計算任務完全卸載至邊緣云計算,其總計算時間為40ms,邊緣服務器用于計算任務處理時間約為23ms,其余時間主要為信息傳輸時間.實驗中采用的數據為OTB100[29]數據集中的DragonBaby 圖片序列,圖片分辨率為640×360.實驗結果如圖9 所示,可以看出:信息傳輸時間對于總處理時間仍存在較大影響,當終端節點獲取到圖片數據較大、分辨率更高時,將產生更高的傳輸延遲,嚴重影響追蹤性能.

(3) 終端節點與邊緣云協同處理

計算任務完全本地計算時,嵌入式終端計算負載為算法全部計算任務.計算任務完全卸載至邊緣云計算時,嵌入式終端計算負載僅為攝像頭圖像獲取、數據發送/接收,目標區域繪制及顯示.

協同處理時,計算任務部分卸載至邊緣云端.本地嵌入式終端負責圖像數據的獲取、預處理以及神經網絡模型的前幾層計算.本地計算任務量介于完全本地計算和完全卸載云端計算之間.通過將部分計算任務下移本地,使嵌入式終端和邊緣云協同處理,以達到降低任務整體響應時間的目的.

1) 計算任務劃分后算法性能測試

為驗證計算任務分割策略對于追蹤算法性能的影響,首先對任務分割后算法進行性能測試.測試實驗中,采用模型部分卸載策略,測試結果如圖10 所示.實驗結果表明:計算任務分割后,算法整體性能并未受到影響,其性能與未分割的原始算法相同,即計算任務劃分對算法性能無影響,僅將相同計算任務劃分至不同設備進行處理.

2) 神經網絡模型完整卸載策略

該策略計算任務劃分中,主要將算法的特征提取部分卸載至邊緣云進行計算,本地終端節點負責數據的預處理和后處理.其中,

· 數據預處理部分的計算任務主要包括部分與輸入圖像數據相關的超參數的計算;以前一幀追蹤目標的位置為中心,剪裁不同尺寸的圖像以供后續尺度估計計算等;

· 后處理部分主要包括根據邊緣云返回的響應圖、對追蹤目標的尺度及具體估測位置進行計算等.

由于目標追蹤任務對實時性要求較高,且追蹤目標的運動和變化通常具有平滑特性,至少為局部平滑,即通常情況下,相鄰兩幀中,物體位置相近且外觀相似,因此,通常基于上一幀位置截取1.5～2 倍大小目標區域進行檢測,從而避免對整張圖像進行運算,提升了模型的計算速度.此外,目標追蹤算法處理追蹤目標尺度變化的一個主要方法,是以上一幀中目標所在位置為中心,在當前幀中提取多個不同尺度的圖片區域進行檢測匹配,選擇響應程度最高的尺度作為追蹤目標.因此,可以通過調節預處理操作中截取區域的大小和數量,以降低信息傳輸量,從而降低信息傳輸時間.

相同計算任務進行劃分后,測試并記錄終端節點與邊緣云計算任務處理時間(圖11)以及終端節點和邊緣節點進行特征提取時間(圖12).可以看出:利用邊緣云處理計算壓力較大的特征提取任務,可以有效降低計算任務處理時間.

圖13 為相同計算任務的總處理時間,圖14 為數據傳輸時間.實驗結果表明:將部分計算壓力較小的計算任務本地運行,與所有任務完全卸載至邊緣云計算,總處理時間基本相同.此外,由于原始數據經預處理后,中間結果相比原始數據量小,因此傳輸時間更低.

相同計算任務處理及信息傳輸總時間如圖15 所示:任務分割后,終端節點與邊緣云協同處理時間約31ms,相比完全卸載至邊緣云處理(約38ms),可以更快地完成相同計算任務,速度提升超過15%.追蹤任務總體計算時間測試結果如圖16 所示,可以看出,任務分割后總體處理時間明顯低于完全由終端節點處理所用時間.

對任務處理時間進行分析發現,主要瓶頸在于數據轉換時間.該問題由于實現方式導致.數據轉換主要將深度學習框架下的數據類型向基礎數據類型轉換,以適配應用框架的信息傳輸要求,時間延遲主要包括數據類型轉化、信息打包及解析時間.后續將針對該問題進行改進優化.

3) 神經網絡模型部分卸載策略

相比將特征提取任務完全卸載至邊緣云計算,模型部分卸載策略中,將卷積神經網絡模型中第1 部分,即第一個卷積層、批標準化層(batch normalization,簡稱BN)及池化層分配至終端節點計算.計算結果如圖17 所示.

從圖中可以看出:對于不搭載GPU 的終端節點設備,即使處理單層神經網絡模型卷積運算,仍存在較大計算壓力.然而對于目前多數已搭載輕量級GPU 或NPU 的移動設備或可穿戴設備,將神經網絡模型部分計算任務分配至本地GPU 計算以避開網絡高延遲時段,仍是值得考慮的部署策略.

(4) 運動檢測及響應圖重建策略測試

為驗證運動檢測和響應圖重建策略對于整體處理時間的影響,對兩種策略進行實驗測試.

實驗測試結果如圖18 所示(算法1 表示通過指數運算重建,算法2 表示平移重建),從運動測試結果可以看出:運動檢測時間較短,僅需2ms 左右.響應圖重建測試中,對應30 個極值點,采用指數運算進行響應圖重建需要耗時679ms,采用平移重建僅需2.3ms,速度提升300 倍.為提升算法魯棒性,同時降低信息傳輸量以保證數據傳輸低延遲,對響應圖中的極值點進行閾值過濾,僅保留高于一定閾值的極值點進行傳輸,因此極值點數量一般不會超過30.從實驗結果可以看出,重建策略對整體性能幾乎無影響.

(5) 終端節點計算資源占用率測試

嵌入式端的資源消耗與任務分割策略密切相關.實驗中,對終端節點的計算資源消耗情況進行了測試.實驗結果如圖19 和圖20 所示.

從圖19 中可以看出:神經網絡模型的計算任務對嵌入式端的資源占用較大,神經網絡模型部分卸載和完整卸載策略均降低了終端節點的計算資源占用率.在部分卸載策略中,若嵌入式終端設備搭載GPU 或NPU 等處理器,應該可以更大程度地降低本地CPU 占用率,同時降低計算任務的整體響應時間.

從圖20 可以看出:嵌入式端僅計算1 層卷積和計算全部神經網絡模型,其計算資源占用情況基本相同,僅影響計算資源的占用時長,即僅與任務完成時間相關.其主要原因可能在于實驗所采用神經網絡模型的計算任務并未進行并行化,不同層卷積運算間的存在固定的先后關聯,且不同層卷積運算所占用的計算資源基本相同.

3.3 實驗結果分析

實驗結果表明,采用任務分割策略可以降低相同計算任務的整體處理時間.降低的時間延遲,主要來源于預處理后傳輸信息減少所降低的傳輸延遲.數據預處理與信息量降低本質上并無關聯,為降低傳輸信息量,可針對此問題進行特殊設計優化.在目標追蹤算法中,在目標位置處裁剪不同尺度的區域作為預處理后的結果進行信息傳輸,預處理后數據量大小與裁剪區域的大小及數量密切相關.對區域大小和數量進行優化調整,可以使預處理后數據比原始圖片的數據量更小.

原始圖片數據經過預處理后,其裁剪區域大小僅與追蹤目標大小有關;而經過卷積神經網絡特征提取后,其大小除了與特征提取區域和神經網絡模型設計有關外,還與網絡模型參數的存儲類型有關.因此,可能出現原數據參數較多、而特征提取后的特征圖譜參數較少、但特征提取后占用存儲大于原數據的情況.針對該問題,一方面可以針對神經網絡模型進行設計改進,借鑒神經網絡模型壓縮的相關研究對模型參數進行量化,采用定長存儲等方式解決;另一方面,可針對存儲后的模型參數文件進行壓縮,或在對模型性能影響不大的前提下刪減部分參數.后續將針對該問題進一步研究.

從實驗結果可以看出:由于數據類型轉換所造成的時間延遲,對任務整體處理時間影響較大.其主要原因在于實現語言及框架限制,該部分時間延遲主要來自深度學習框架下的數據類型向基礎數據類型的轉換時間,以及將信息打包和解析所造成的時間延遲.終端僅進行預處理操作時,特征數據總的傳輸開銷與傳輸數據大小、數據轉換以及傳輸框架密切相關.實驗中,采用json 進行數據打包和解析,采用python requests 庫進行HTTP 連接和數據傳輸.由于json 僅支持有限的數據格式,因此需要進行數據類型轉換進行適配.采用json 對數據進行打包和解析時間較長,該部分時間開銷與工程實現方式密切相關,可進一步優化改進.在后續優化中,將改寫其他傳輸框架,以解決該問題.

針對傳輸數據的類型和大小,可采用模型參數量化的方式進一步降低數據大小.為避免修改原始網絡,在下一步工作中,嘗試訓練額外的小型神經網絡進行中間特征圖譜的編碼量化.此外,考慮到追蹤任務在判斷目標位置時,僅與最終響應圖中最大值位置有關,因此若保證最大值位置不變,則其他位置信息損失并不會對模型性能造成影響.嘗試通過小型神經網絡學習一個近似的特征圖譜(或矩陣),該矩陣具有可分解性質,傳輸數據為分解后的兩個向量.如圖21 所示,邊緣云通過對接收到的向量進行運算以恢復原始特征圖.此外,考慮是否可以采用傳統方法對特征圖進行處理,或采用其他數學方式進行近似,以避免添加的網絡模型對本地節點產生計算壓力.

對于不搭載圖形處理單元的終端設備,神經網絡模型的計算壓力成為整體計算任務的主要瓶頸.對于搭載輕量級GPU 或NPU 的移動終端設備,將神經網絡模型繼續拆分,將部分計算任務本地計算,從而避開當前網絡高延遲時段,仍是值得考慮的部署策略.針對網絡傳輸延遲,對神經網絡模型進行優化設計,或根據模型具體結構,從神經網絡輸出數據量較小的位置進行拆分,如將神經網絡模型在升維前后進行拆分等,可能獲得更優的處理時間.此外,對于搭載異構處理單元的設備,根據不同處理單元計算性能及優勢,訓練多個小模型以部署在不同處理單元,最后對多個模型進行集成,或對具體算法模型拆分,分配不同處理單元計算以進一步優化等,在今后的研究工作中,會進行更多探索嘗試.

4 結束語

由于目標追蹤任務對于實時性的嚴苛要求,使得移動嵌入式設備難以部署計算壓力較大的算法模型.本文結合邊緣計算技術,提出一種研究面向邊緣計算的目標追蹤應用部署策略,通過任務分割策略對計算任務進行劃分,并將其合理分配至邊緣云端及本地終端節點進行處理,通過協同處理等方式,提高資源的整體利用率,降低任務響應時間.此外,采用響應圖重建策略降低信息傳輸時間,并結合運動檢測算法,進一步降低終端節點計算壓力,避免不必要計算資源浪費,降低終端節點功耗.最后,通過實驗驗證該部署策略的有效性.實驗結果表明,該部署策略有效降低了相同計算任務處理時間.

結合目前邊緣計算和目標追蹤的發展現狀,可從以下幾個方面進一步研究.

(1) 針對特定應用場景,對邊緣云架構進行優化設計,將本地計算能力較強的節點上移邊緣云層,以降低較差網絡環境對任務的影響.此時,任務卸載問題轉換為多邊緣情況,由此添加針對多邊緣場景下的任務卸載策略研究;

(2) 針對目前移動嵌入式設備多搭載多核異構處理器的現狀,將本地計算任務進一步細分,以充分利用本地計算資源,如FPGA,ARM,GPU 等.結合多核異構處理器的調度策略,進一步優化本地資源分配;

(3) 添加多維度約束條件,如功耗、模型性能等,對多約束條件下的資源優化分配問題進行建模,對任務分割策略進行更深入的研究;

(4) 結合模型壓縮思想,通過參數量化、模型剪枝等策略,降低終端節點與邊緣云之間的信息傳輸量,進而降低計算任務的響應時間.