期治博,杜磊,霍如,4,楊帆,黃韜
(1.北京郵電大學網絡與交換國家重點實驗室,北京 100876;2.中國信息通信研究院工業互聯網與物聯網研究所,北京 100083;3.北京工業大學信息學部,北京 100124;4.網絡通信與安全紫金山實驗室,江蘇 南京 211111)
隨著新一代信息技術的發展,城市的智能化程度不斷提升,智慧城市迅速崛起并成為城市發展的新理念和新方向。智慧城市利用物聯網、云計算、邊緣計算和人工智能等新型計算技術,將城市規劃、設計、建設、管理和運營等領域智能化,實現更加高效的城市運行。智慧城市的發展使城市監控攝像頭的數量急劇增加,這對城市建設和安防帶來了顯著改善。然而,現有的城市視頻監控設備是各自獨立的,不利于城市建設中大數據分析的整合[1]。因此,研究多攝像頭視頻協同處理,從龐大的視頻數據中挖掘價值,成為未來城市互聯監控的發展方向和重點。多攝像頭視頻數據的處理也是許多視覺智能應用的基礎,如物體檢測和跟蹤、物體視覺定位、物體速度估計等。快速發展的網絡技術對這些智能應用提供了支持并使之成為熱點[2]。因此,多攝像頭視頻分析引起了眾多學者的關注。
現有的多攝像頭視頻分析方法大多基于獨立視頻流進行處理[3]。具體而言,這些方法適用于同一場景下多個攝像頭同時采集不同角度的視頻,然而在對這些采集的視頻進行分析時,主要針對每個攝像頭的單個視頻流進行處理。為了在成本和精度之間進行權衡,通常采用幀采樣或級聯濾波器去除較不重要的視頻幀以減少視頻量,從而降低成本。然而,所有的調整和壓縮操作都是在單個視頻流內進行的,不同攝像頭采集的視頻處理是相互獨立的,這導致了視頻分析中計算和存儲資源的線性增加。因此,基于這些視頻分析方法,多攝像頭視頻分析需要較大的計算、網絡和存儲資源。
為了提高實時多攝像頭視頻分析的效率并降低處理時延,可以在邊緣端對多攝像頭視頻進行協同分析。它通過構建多個攝像頭之間的關聯性來減少待分析視頻的數據量,縮減后的視頻可以在邊緣端或傳輸到云端進行進一步的處理,從而降低整體視頻數據的冗余度,減輕邊緣端和云端視頻處理的工作量,進而減少處理時延。同時相較于上述獨立視頻流分析,這種方法對計算能力和存儲資源等方面的要求較低。
因此,實現多攝像頭視頻的協同分析主要涉及以下2 個問題。1) 實時的視頻處理方法。實時視頻處理需要豐富的計算、網絡和存儲資源,但攝像頭本身的視頻處理能力有限,難以支持大規模且實時的視頻數據檢測和分析。因此,考慮利用配備邊緣服務器來擴展攝像頭的視頻處理能力是必要的。將視頻傳輸到邊緣服務器進行處理,利用邊緣計算將云端計算能力下沉到邊緣端,可以減輕攝像頭的負擔,并降低計算和傳輸時延。2) 多個攝像頭之間的關聯性。在相同時段和場景下,不同角度攝像頭所拍攝的視頻片段之間存在一定的關聯性。這可能包括從不同角度拍攝了同一個目標的不同面,或者同一個目標在不同攝像頭的視頻中先后出現。由于不同攝像頭的空間布局和視角關系通常很復雜,因此需要計算和處理不同視頻片段之間的關聯性,并作為后續視頻壓縮處理的依據。
為了應對上述問題,本文提出了一種邊緣端多攝像頭視頻協同分析方法。該方法基于機器學習算法,設計關鍵窗口模型和多攝像頭關聯程度計算策略,為后續的視頻數據量縮減和進一步的視頻處理做準備。本文主要的研究工作總結如下。
1) 提出了一種新穎的多攝像頭視頻協同分析方法。該方法首先對每個攝像頭采集的視頻進行目標檢測;然后根據目標檢測的結果生成關鍵窗口,對視頻進行特征提取和初步篩選;隨后結合提取的特征利用重識別技術對檢測到的目標進行標注,并根據標注結果計算多攝像頭之間的關聯程度值;最后基于關聯程度值對視頻進行壓縮處理。
2) 設計了用于表示不同攝像頭視頻幀中感興趣區域(RoI,region of interest)的關鍵窗口。首先對視頻幀進行分塊處理,然后基于包括重要目標的區域塊構建關鍵窗口。同時本文提出多攝像頭關聯性計算策略,基于攝像頭關鍵窗口中目標的標注結果,計算不同攝像頭之間的關聯程度。
3) 提出了一種GC-ReID 算法來實現多攝像頭視頻協同分析方法。GC-ReID 結合圖卷積網絡(GCN,graph convolutional network)和重識別(ReID,re-identification)技術,利用GCN 對各攝像頭中的重要目標進行快速檢測,并結合關鍵窗口迅速提取視頻數據特征。同時,利用ReID 對關鍵窗口的數據特征進行快速標注,結合計算策略得到多攝像頭之間的關聯程度值。
對于引言中所討論的問題,近期已有學者進行了相關的研究。其中,一些學者結合不同的視頻處理策略和邊緣計算的能力提出了在邊緣服務器上進行視頻分析的方法;另一些學者在結合邊緣計算技術的基礎上,研究視頻分析中多個攝像頭之間的資源競爭;此外,還有學者關注多個攝像頭檢測到的目標之間的匹配關聯性。本節對這些相關研究進行簡要回顧和分析。
現有的視頻分析研究主要利用邊緣或云的計算能力進行視頻分析和處理,以從視頻中提取關鍵特征和有效信息。Yang 等[3]提出了基于檢測的跟蹤方法,適用于邊緣端高分辨率視頻的分析。趙羽等[4]提出了一種部署在邊緣端的視頻處理方法,利用輕量級的神經網絡和聯邦學習分場景訓練模型。Gao 等[5]提出了一種針對云邊緣視頻流的智能視頻處理架構,在云端部署并執行基于深度神經網絡(DNN,deep neural network)的視頻增強方法。然而,這些研究僅考慮對單個攝像頭采集的視頻進行分析,而未涉及跨攝像頭和多攝像頭的視頻分析和處理。
關于視頻分析中多個攝像頭的資源競爭研究主要關注攝像頭視頻的任務卸載和計算資源分配。Chen 等[6]研究了多服務器和多用戶的異質視頻分析任務卸載問題,基于博弈論進行卸載算法設計,最終使多服務器多用戶的視頻分析任務卸載達到納什均衡。Yang 等[7]提出了終端、邊緣和云協同的實時視頻分析方法,通過對終端攝像頭進行資源分配,使其能夠根據實時視頻生成高質量的視頻幀。Wang 等[8]研究了多個視頻流在同一邊緣節點上共享上傳鏈路時的配置自適應和帶寬分配問題,提出了聯合優化配置適應和帶寬分配的在線算法。Ran 等[9]提出了在邊緣端部署算力更強的服務器,利用深度學習模型來確定終端視頻分析任務的最佳卸載策略,并以時延和準確率等作為目標來優化資源調度。Hung 等[10]通過引入主導需求來確定多種資源和準確性之間的平衡,并利用層次聚類縮小搜索空間,同時平衡了視頻查詢的資源效益和準確性損失。上述多攝像頭視頻分析方法主要研究邊緣系統下多攝像頭視頻分析任務的分配和卸載,而對于攝像頭本身視頻數據進行協同處理的方法較少,缺乏對不同攝像頭視頻數據之間關系的細致分析,并且對視頻畫面之間的關聯程度考慮有限。
一些學者研究了多個攝像頭檢測到的目標之間的匹配關聯性,并提出了進行協同視頻處理的方法。Guo 等[11]提出了多人物多攝像頭實時視頻跟蹤框架,設計了基于時間的運動模型研究視頻采樣幀之間的精確時間間隔,并利用改進的多人匹配級聯方案提高攝像頭間人員再識別的準確性。Chung 等[12]提出了一種多攝像頭多目標車輛跟蹤系統,利用車輛行為、合成數據和多種增強技術執行視頻數據的上下文約束,從而減少跨攝像頭的分析時間。Li 等[13]提出了一種車輛跟蹤系統,包括基于特征提取的車輛檢測和再識別模型、單攝像機跟蹤、增強軌跡預測和多級關聯方法。Liu 等[14]提出了一種基于遮擋感知的多目標多攝像頭跟蹤框架,設計了目標間信息模塊提高匹配精度,并利用目標間關聯發掘軌跡相似性,最后通過聚類對不同攝像頭之間的目標軌跡進行匹配。Li 等[15]設計了視頻分析系統Reducto,根據不同的外部條件自定義濾波器對多攝像頭的視頻幀進行過濾,并通過丟棄視頻片段中的幀來權衡傳輸成本和準確性。盡管上述多攝像頭協同分析方法考慮到了攝像頭檢測到目標的匹配和關聯度,但缺少對攝像頭本身之間關聯性的考慮,導致關鍵視頻幀的篩選力度不足,甚至可能會錯失關鍵目標物體。因此,挖掘多個攝像頭之間的實時關聯并實現更高效的協同視頻分析具有更重要的意義。
本節提出了一種多攝像頭視頻協同分析(MVCA,multi-camera video collaborative analysis)方法。如圖1 所示,該方法適用于同一環境中配備有多個攝像頭的場景。這些攝像頭從不同的角度和方向采集場景視頻,并將其傳輸到邊緣服務器。邊緣服務器對接收到的視頻進行分析和處理,其中包括使用GCN 算法建立關鍵窗口,利用ReID 算法的結果計算多攝像頭之間的關聯程度。關聯程度值可以作為對視頻進行壓縮的參考依據。最后,將壓縮后的視頻在邊緣端或者傳輸到云服務器進行深入分析和處理。這種方法大大減少了視頻處理數據量,降低了系統時延,并減輕了邊緣服務器和云服務器的負擔,有助于最大化邊緣系統的整體效用。GCN 和ReID 的構建和訓練在云服務器離線完成,然后分別部署到直連邊緣服務器和主邊緣服務器上。

圖1 MVCA 方法框架
本文在邊緣側部署了多個攝像頭,以捕獲多個角度的實時視頻數據。攝像頭集合表示為N={n1,n2,n3,…,nx},其中,x為攝像頭的數量。邊緣服務器由一個主邊緣服務器Ms 及與攝像頭直接連接的直連邊緣服務器M={m1,m2,m3,…,mx}組成。每個攝像頭都與一個直連邊緣服務器相連。主邊緣服務器用于計算多個攝像頭之間的關聯程度,而直連邊緣服務器用于生成關鍵窗口。壓縮后的視頻可以在主邊緣服務器或者由直連邊緣服務器傳輸到云服務器進行進一步分析,如圖1 所示。通過權衡視頻分析開銷和分析粒度,本文對若干時間段的視頻數據進行了分析,每個時間段T的最小分析單元為一個時隙t,t∈T={t0,t1,t2,…,ty},y為時間段T中最后一個時隙的編號。在每個時間段T的開始,不同攝像頭拍攝的視頻以一個時隙為單位進行分割并依次上傳至直連邊緣服務器。邊緣系統模型的參數和含義如表1 所示。

表1 邊緣系統模型的參數和含義
1) 通信模型
如上文所述,多個攝像頭N拍攝的視頻將同時傳輸到各自的直連邊緣服務器進行進一步處理。因此,本文使用頻分多址(FDMA,frequency division multiple access)技術來處理多攝像頭的視頻傳輸任務。根據香農定理,可以得到攝像頭nz(0≤z≤x,x表示攝像頭的數量)的傳輸速率為
與一些現有的研究[16-17]類似,本文所提方法中忽略了主邊緣服務器在得到多攝像頭關聯程度值后返回結果到各直連邊緣服務器的時間成本。這是因為在視頻分析和處理過程中,傳輸和分析結果所需要的時間代價比傳輸和處理視頻數據所需要的時間代價要小很多。因此,當攝像頭nz將拍攝的視頻單元傳輸到相應的邊緣服務器時,其傳輸時延為
雖然在本文中忽略了主邊緣服務器返回結果到各直連邊緣服務器的時間成本,但是直連邊緣服務器會將生成的關鍵窗口區域和檢測到的特征傳輸到主邊緣服務器和云服務器,因此本文也采用FDMA 來處理多個直連邊緣服務器的數據傳輸任務。同樣根據香農定理,可以得到直連邊緣服務器mz(0≤z≤x,x表示直連邊緣服務器的數量,也是攝像頭的數量)的傳輸速率為
同樣,當直連邊緣服務器mz將關鍵窗口和提取的特征數據傳輸到主邊緣服務器或云服務器時,其傳輸時延為
2) 計算模型
與現有研究[8]類似,本文使用虛擬并行處理技術[18]來支持同時執行多個攝像頭視頻分析,從而實現對多個視頻進行并行處理。在計算模型中,攝像頭nz所采集視頻數據中每個字節的計算需求為Cr(CPU 周期)。因此,直連邊緣服務器和主邊緣服務器在處理視頻時的計算時延為
其中,Fe表示執行視頻處理的邊緣服務器的CPU頻率。本文設定所提方法中邊緣系統的總時延Dtotal由傳輸時延和計算時延組成,即
為了便于發現不同攝像頭之間的視頻數據關聯性,本文設計了一種對攝像頭采集的視頻幀進行分塊的方法。具體而言,攝像頭nz拍攝的視頻幀被劃分為大小相同的塊狀區域。這些塊狀區域是相對較小的矩形,它們共同構成并覆蓋了視頻幀的整個畫面。如圖2 所示,每個攝像頭采集的視頻幀畫面被劃分為16 個矩形區域塊,按照從左到右和從上到下的順序,索引分別為1~16。攝像頭nz的區域塊集合用表示,其中第i個區域塊被表示為如圖2(a)所示,攝像頭1 采集視頻幀的左上角,其中第一行的區域塊可以表示為R1,1、R1,2、R1,3和R1,4,其余的區域塊依次類推。需要注意的是,視頻幀中的每個區域塊并不特定于某一幀或某一時隙,進行區域分塊是為了能夠更精確地劃分攝像頭所采集的視頻幀畫面。

圖2 攝像頭1~4 在時隙t 內采集的視頻幀畫面
在本文提出的MVCA 方法中,首先需要使用機器學習算法對不同攝像頭采集的視頻幀進行快速檢測,檢測結果中可能包含目標物體的區域塊即感興趣區域,例如,移動的人或物體都屬于重要目標物體。這些感興趣區域構成了關鍵窗口。在視頻分析過程中,本文優先處理關鍵窗口內的區域塊,因為這些區域塊包含目標物體,而關鍵窗口以外的區域塊動態性較差且缺乏目標物體,所以處理優先級級別較低,甚至被忽略而不進行分析和處理。在本文中,構成關鍵窗口的最小元素是以上所設計的區域塊。攝像頭nz的關鍵窗口用表示,即是包含目標物體的所有區域塊的集合。例如,圖2(b)展示了攝像頭2 的關鍵窗口,即斜紋陰影標注的區域塊,包括區域塊1~8。這些區域塊是通過目標檢測選擇得到的,共同構成了攝像頭2 的關鍵窗口。因此,圖2 中攝像頭1~4 的關鍵窗口分別表示為
在進行視頻數據處理時,為每個攝像頭設計一個包含最少區域塊的關鍵窗口非常重要,特別是當人們希望關鍵窗口適用于較長的分析時間時。這樣在對視頻進行處理時,只需要分析關鍵窗口中的區域就能夠提取到視頻數據中的關鍵信息,從而有效減少了視頻數據的處理量。本文提出的GC-ReID 利用GCN[19]快速檢測視頻中的目標物體用以生成關鍵窗口,更詳細的介紹見第3 節。
為了進一步減少視頻數據的分析量,本文設計了多攝像頭關聯性的構建方法。其主要原理是采用機器學習算法對于關鍵窗口中的目標物體進行檢測并提取特征,然后對提取的特征進行分類。根據分類結果為關鍵窗口中每個檢測到的物體分配一個ID 號。然而,由于這些攝像頭處于同一場景下,不同攝像頭采集的視頻幀往往會捕捉到相同的目標物體。因此,通過分類算法,同一物體將被賦予相同的ID 號。例如,圖2(a)和圖2(b)分別表示在同一環境中2 個不同的攝像頭拍攝的畫面。利用GC-ReID 中的ReID 算法,可以識別2 個畫面中相同的人物,為其分配相同的ID 號。假設同一場景下同一時隙檢測到的目標物體的集合為L={l1,l2,l3,…,lo}。雖然角度不同,但是人物l1、l2、l3、l4和l5同時出現在攝像頭1 和攝像頭2的視頻幀中,即他們在2 個攝像頭中都被檢測到。然而,人物l6只出現在圖2(b)中,即只被攝像頭2檢測到。
依次類推,表2 中列出了10 個所檢測到目標物體的所有區域塊集合RSt。

表2 圖2 中區域塊的集合
根據表2 可以觀察到,不同攝像頭之間檢測到相同目標物體的數量存在差異。當2 個攝像頭檢測到相同目標物體數量較多時,可以認為它們之間的關聯性較強。為了便于分析不同攝像頭之間的關聯性,本文使用式(14)來計算關聯程度值AS。
本文設計了GC-ReID 算法用于實現多攝像頭視頻協同分析方法。如圖3 所示,各攝像頭直連的邊緣服務器并行執行GCN 算法,從多個攝像頭采集的視頻數據中篩選關鍵特征,并根據這些特征建立關鍵窗口模型。隨后,直連邊緣服務器將關鍵窗口的內容傳輸到主邊緣服務器。主邊緣服務器使用ReID 算法,將GCN 的結果和提取的關鍵窗口的內容作為輸入,對關鍵窗口中檢測到的目標物體進行篩選并分配ID 號。根據ReID算法的處理結果,計算不同攝像頭之間的關聯程度值。隨后將關聯程度值返回到直連邊緣服務器,根據這些關聯程度值對多個攝像頭采集的視頻進行壓縮和優化。最后,壓縮后的視頻可以選擇在主邊緣服務器或者傳輸到云服務器上進行進一步分析和處理,例如目標檢測和目標跟蹤等。GCN 和ReID 算法的構建和訓練均事先在云服務器完成并下發到邊緣服務器。

圖3 GC-ReID 的總體流程
本文采用GCN 提取攝像頭采集的視頻幀的關鍵特征,并檢測其中的目標物體。最后,根據包含這些目標物體的區域塊構建每個攝像頭的關鍵窗口,詳細結構如圖4 所示。

圖4 GCN 的結構
圖4 中的輸入是連續的視頻幀片段,由攝像頭采集并上傳到直連邊緣服務器。輸入GCN 模塊后先使用兩層卷積層初步提取視頻幀的特征。然后將處理后的連續視頻幀建模為圖G={V,E}。其中,節點集合為V={v1,v2,…,vz},z表示節點的數量;邊集合為E=Etemp∪Esema,Etemp表示時間邊,Esema表示語義邊。一個節點表示一個視頻幀,一條邊表示一對節點之間的依賴關系。隨后使用圖卷積結構塊提取特征。圖卷積結構塊包含2 個圖卷積流:時間流操作固定的時態相鄰特征,語義流自適應地將語義上下文聚合到視頻幀特征中。下面將描述2 種卷積流邊的設計以及圖卷積過程。
1) 時間邊
2) 語義邊
語義邊Esema是由動態邊卷積的概念定義的[20],它是根據圖節點之間的特征距離動態構建的。語義邊的作用是從語義相關的視頻幀中收集信息。圖G中每個節點vi的語義邊Esema的定義為
其中,nri(k)表示節點vi的第k個近鄰節點索引,K表示近鄰節點索引數量。nri(k)是在圖卷積塊上動態確定的,通過它能夠更新整個圖卷積塊中本質上攜帶語義上下文信息的節點。因此,Esema可以自適應地改變以表示新的語義上下文級別。
3) 圖卷積和流聚合
圖G中所有節點的特征表示為Y=[y1,y2,…,yz] ∈Rc×z,其中,c表示每個視頻幀的特征維度。本文使用單層邊卷積[20]來進行圖卷積操作GC。
其中,W∈R2c×c′表示可訓練的權重矩陣,A∈Rz×z表示不帶自環(節點和它本身之間的邊)的鄰接矩陣,[*,*]表示列的矩陣串聯。本文將A中的第(i,j)個元素表示為A(i,j)=1{(vi,vj)∈E},其中,1{*}是指示函數。圖卷積結構模塊中的2 個卷積流都分別設計了32 條路徑來增加轉換的多樣性。
圖卷積結構模塊的輸出是語義流和時間流以及輸入的聚合,可以用式(19)表示。
2 種圖卷積流都遵循分裂-轉換-合并的策略,首先,使用多個卷積流來對圖進行更新和聚合,輸出作為進一步提取的特征。然后,將提取的特征輸入定位模塊,其中錨點定義的子圖由固定大小的特征表示。最后,定位模塊對視頻幀中的目標物體進行定位和檢測,根據定位結果結合關鍵窗口的建立方法輸出關鍵窗口。
本文采用DiDi-MTMC[21]算法為關鍵窗口中檢測到的目標物體分配ID 號。該算法將從視頻幀中提取的特征進行融合,并結合融合后的特征進行分類。該算法可為多個攝像頭拍攝視頻幀中的每個目標物體(本文場景中為人)分配一個唯一的ID 號。通過對這些ReID 的結果進行篩選,并根據計算策略計算多個攝像頭之間的關聯程度。
GC-ReID 算法如算法1 所示。
算法1GC-ReID 算法
攝像頭采集的視頻經過邊緣服務器的處理后傳輸到云服務器進行進一步的處理。在邊緣服務器進行處理可以得到每個攝像頭的關鍵窗口和攝像頭之間的關聯程度。因此,本文可以結合關鍵窗口和攝像頭之間的關聯程度對多個攝像頭采集的視頻進行視頻幀篩選和壓縮。壓縮后的視頻能夠減少視頻數據量,并提升云端視頻處理的效率。
在視頻壓縮過程中,首先根據當前時段各攝像頭生成的視頻幀的關鍵窗口對視頻畫面進行分割,去除關鍵窗口以外的視頻幀區域,只保留關鍵窗口區域進行后續分析。然后,如果邊緣端或者云端工作人員想要查看特定攝像頭采集的視頻或者某個攝像頭中重要物體出現的畫面,主邊緣服務器會對選定攝像頭與其余攝像頭的關聯程度值進行排序。根據排序結果,優先傳輸關聯程度較高的攝像頭視頻幀的關鍵窗口區域到主邊緣服務器或云服務器進行進一步的分析和操作。這樣,只需處理關聯程度較高的幾個攝像頭的關鍵區域,可以大大縮減視頻分析的數據量,同時提升分析效率。
本文通過相關實驗,從不同評價指標的角度來對所提出的MVCA 方法的性能進行分析。此外,本文還將MVCA 方法與其他方法進行了比較,并對結果進行了討論。
仿真實驗是在SALSA 數據集[22]的錄制視頻上進行的。該數據集展示了某學術會議海報會場(如圖 2所示)中不同人員的活動和交流情況,該會場配備了4 個不同方向的攝像頭,分別是攝像頭1、2、3和4。每個攝像頭可以利用直連邊緣服務器生成各自的關鍵窗口,并實時檢測和分配人員的ID 號。所采集的視頻編碼標準和格式分別為H.264 視頻編碼標準和在主要網絡廣播應用中支持流媒體的MP4 格式。仿真環境邊緣服務器的配置包括一個英特爾酷睿i5-10400F CPU 和一個擁有8 GB 內存的Nvidia GeForce GTX 1080 GPU。實驗中視頻片段的持續時間設定為2 s,幀率為30 Hz。
進行多攝像頭視頻協同分析時,本文需要在保持分析效果較好的前提下,盡量降低處理的代價。為了評價視頻分析方法的性能,需要考慮準確性和代價。本文使用準確率、系統時延和視頻壓縮率作為性能評價指標。為了驗證所提出的MVCA 方法的性能,本節設計了消融實驗和不同方法的性能比較。通過對實驗結果進行詳細的數據和理論分析,進一步驗證了所提方法的有效性。
1) 性能評價指標
準確率。本文采用準確率Accuracy 作為指標之一來對方法的性能進行評價,如式(20)所示。其中,Qtrue表示場景中的實際人數,Qdec表示檢測到的人數。然而,由于本文使用的數據集未提供場景中的實際人數,因此在實驗仿真中使用YOLO V3 方法[23]的檢測結果作為人員檢測的正確基線。
系統時延。系統時延可以反映視頻分析方法的實時性,低時延會有更好的用戶體驗。在本文中,視頻以及處理后的數據在攝像頭和直連邊緣服務器之間、直連邊緣服務器和主邊緣服務器之間、直連邊緣服務器和云服務器之間進行傳輸會產生傳輸時延。此外,關鍵窗口的生成和多攝像頭關聯程度的計算會產生計算時延。本文的系統時延主要包括傳輸時延和計算時延,如式(6)所示。
視頻壓縮率。為了在保持準確性的前提下降低系統時延并提升系統效用,視頻分析方法需要減少視頻分析量。因此,本文將視頻壓縮率Rc 作為本文方法的性能評價指標之一,如式(21)所示。其中,Bcomp表示壓縮后的視頻數據量,Binit表示原始視頻數據量,視頻數據量的單位為MB。本文實驗重點觀察攝像頭1 及其檢測到的目標物體,并根據關聯程度來決定是否選擇處理和分析其他攝像頭采集或處理后的視頻幀。
2) MVCA 方法性能分析
為了驗證關鍵窗口和多攝像頭關聯性的作用,首先進行消融實驗,將本文提出的MVCA 方法與只使用ReID 方法(沒有關鍵窗口,用No-key window 表示)、使用文獻[17]中STS 方法的幀采樣模型(替代MVCA 中的關鍵窗口模型)以及只構建關鍵窗口模型而不進行多視頻協同處理的方法(沒有關聯性構建,用No-association 表示)進行比較。圖5 分別展示了MVCA、No-key window、STS幀采樣和No-association 在準確率、系統時延和視頻壓縮率3 個方面的對比。

圖5 MVCA、No-key window、STS 幀采樣和No-association 的性能比較
在準確率方面,MVCA 和No-association 的準確率較高,這是因為它們利用關鍵窗口模型有效減少了視頻中非重要目標物體的干擾。STS 幀采樣的準確率次高,該方法雖然減少了非關鍵幀的數量,但是對關鍵目標物體所在的區域劃分不夠準確,容易受到非重要目標物體的影響,且可能會移除包含關鍵目標的畫面。No-key window 的準確率相對較低,這是由于該方法沒有對視頻幀進行篩選或切割,其中的一些非重要目標會對檢測準確率造成影響。
在系統時延和視頻壓縮率方面,MVCA 方法有著最低的系統時延和最高的視頻壓縮率,相比于No-key window,MVCA 利用關鍵窗口模型篩選感興趣區域縮減了視頻數據量;相比于No-association 方法,MVCA 重點分析關聯程度值較高的攝像頭視頻,因此進一步減少了需要處理的視頻量,降低了傳輸和計算時延;STS 幀采樣方法雖然通過刪減非關鍵幀的方式減少了所需處理的視頻量,但其處理后的視頻量比關鍵窗口處理后多,因此可知關鍵窗口模型比幀采樣更有效。
綜上所述,關鍵窗口對視頻中重要目標物體檢測準確率的提升和系統時延的降低具有顯著作用。多攝像頭關聯性則可作為進一步減少視頻處理量的有效依據。
3) 不同多攝像頭視頻分析方法的性能比較
本節比較了本文提出的MVCA 方法與第1 節相關工作中介紹的一些先進的多攝像頭視頻分析方法。這些方法包括REDUCTO、文獻[11]方法和文獻[14]方法。圖6 分別展示了MVCA、REDUCTO、文獻[11]和文獻[14]方法在準確率、系統時延和視頻壓縮率3 個方面的對比。

圖6 MVCA、REDUCTO、文獻[11]和文獻[14]方法的性能比較
在準確率方面,文獻[11]方法準確率最高,這是因為該方法針對每個攝像頭的視頻幀建立了運動模型,并對所有幀都基于時間進行了詳細的分析。MVCA 的準確率次高,原因是其在利用關鍵窗口進行視頻壓縮時,忽略了部分非關鍵窗口區域中的重要目標物體,從而影響了準確率。REDUCTO和文獻[14]方法的準確率都不理想,這是由于REDUCTO 采用幀過濾的方法,有較高的可能性刪除包含目標物體的關鍵幀;而文獻[14]方法在構建目標間的信息模塊時候著重考慮目標本身的特征,未考慮目標在視頻幀中位置的變化。
在系統時延和視頻壓縮率方面,文獻[14]方法具有最低的系統時延和最高的視頻壓縮率,這是由于該方法在構建目標間的信息模塊時僅關注目標本身特征,未考慮幀間目標特征,因此時間復雜度較低;同時,在多目標分析時采用的聚類方法僅結合提取的目標特征數據,未對多個攝像頭采集的視頻幀本身進行聯合處理,因此數據量較少。MVCA 的系統時延次低而視頻壓縮率次高,這是由于利用關鍵窗口對視頻幀進行分割實現視頻壓縮,并結合多攝像頭關聯性模型對傳輸到云服務器的視頻實現進一步壓縮。REDUCTO 在系統時延和視頻壓縮率方面的表現不如前兩者,原因是其雖然采用了幀過濾方法壓縮視頻,但后續對多攝像頭處理的壓縮力度不足。文獻[11]方法具有最高的系統時延和最低的視頻壓縮率,這是由于該方法對所有視頻幀基于時間建立模型進行詳細分析,未進行幀刪減等操作,同時建立了多人匹配級聯模型,因此耗時較多;該方法的視頻壓縮僅通過多人匹配級聯模型實現,因此壓縮幅度較小。
綜合考慮多個評價指標,本文提出的MVCA方法在準確率、系統時延和視頻壓縮率3 個方面整體優于其他方法。
本文研究了智慧城市場景下多攝像頭視頻分析的問題,提出了一種高效的解決方法MVCA。該方法能夠實時地對多攝像頭采集的視頻進行協同分析。具體而言,通過快速建立視頻流的關鍵窗口來定義感興趣區域,并在此基礎上快速構建攝像頭之間的關聯性。通過獲取關聯程度值,有效地減少了視頻數據的分析量,從而提高了多攝像頭視頻分析的效率,減輕了邊緣服務器的負擔,并提升了邊緣系統的性能。在SALSA 數據集上進行的實驗表明,本文提出的MVCA 方法降低了系統時延,提高了視頻壓縮率,并且保持了95.6%的準確率。
在未來的工作中,筆者將考慮任務卸載和時間空間屬性在多攝像頭視頻分析中的應用,以進一步平衡邊緣服務器的負載,提升邊緣系統的效用。