卞紫陽, 許廷發, 馬亮, 李佳男
(1.北京理工大學 光電成像技術與系統教育部重點實驗室, 北京 100081;2.華北光電技術研究所, 北京 100015; 3.北京理工大學重慶創新中心, 重慶 401120)
行人重識別(Re-ID)廣泛用于視頻監控、安全和智慧城市等各種應用中,旨在解決在不同位置部署的多個不重疊攝像機中檢索感興趣的行人問題,由于其在智能視頻監控中的重要性,已經引起了計算機視覺界越來越多的關注[1-3]。當前大量的Re-ID模型都著眼于可見光-可見光行人圖像匹配,最常見的單模態Re-ID任務如圖1所示,給定一個探測到的行人圖像,并將其與其他不重疊的攝像機捕獲的一組圖像進行匹配,該組圖庫包含所有可見攝像機數據。由于照明、相機型號的差異,以及視角和姿勢的變化,前景行人圖像可能會變化很大。盡管存在這些挑戰,但隨著深度神經網絡的發展以及Re-ID研究的持續推進,在單一可見模態下,可見光-可見光Re-ID取得了很大進步并達到了很高的精度[4-6]。不過,由于可見光Re-ID在某些不良的光照條件下,例如在黑夜中無法給出相應的判別信號,如果只通過可見光攝像機而沒有額外的人工光源,則應用將受到限制,因為該系統在每天的一半時段內都無法正常工作,從而極大地影響了Re-ID的實際應用。圖1中,T1、T2、T3分別為3個不同的時間點在不同的相機中對行人目標進行成像。
在實際情況下,如果使用24 h智能監控系統,則可以在白天通過可見攝像機獲取探測圖像,在夜間通過熱像儀捕獲圖像,圖像來自不同的模態。對于實際應用,現代監視系統通常以雙模態運行,即白天在可見模態下工作,在夜間自動切換為紅外模態。給定行人的紅外圖像,目標是匹配相應行人的可見圖像。此跨模態圖像匹配任務稱為可見光紅外 Re-ID。 與具有豐富色彩信息和結構圖案的可見光圖像相比,紅外圖像是在紅外光譜下捕獲的,由于可見光譜的反射率和熱光譜的發射率之間存在自然差異,從而導致外觀完全不同,失去了鮮明的顏色特征。模態差異使得在可見光光譜和紅外光譜之間識別同一個人變得更加困難。這個新問題是一個交叉模態問題,近年來只有少數相關的前沿工作[7-9]。
為推動跨模態Re-ID技術在智能系統與裝備中的實際應用,參考邊緣智能終端[10-15]的部署應用,本文提出一種高效的跨模態波長增強的Re-ID方法,在波長域進行數據增強的同時保留可見圖像的結構信息,以彌合不同模態之間的差距。同時,本文基于國產化RK3588芯片設計了邊緣智能終端,部署了跨模態Re-ID算法,并設計實現了人工智能綜合視頻監控軟件。實踐表明,本文方法在兩個基準數據集SYSU-MM01[16]和RegDB[17]上取得了較好的性能,并能夠在實際場景中應用部署。
為了研究可見光紅外跨模態Re-ID問題,需要收集同一行人對應的可見光圖像和紅外圖像,如圖2所示。文獻[16]提出了SYSU-MM01數據集,其中包括由4臺可見光攝像機以及2臺在室內和戶外拍攝的近紅外攝像機所拍攝的影像,其中可見光圖像由Kinect V1在明亮的室內房間拍攝,紅外圖像由近紅外相機在黑暗條件下拍攝。

圖2 跨模態Re-ID方法及數據集(左為SYSU-MM01數據集,右為RegDB數據集)
文獻[17]中提出了一個新的稱為RegDB的可見光熱紅外數據集,該數據集利用文獻[16]中的原始數據,并設計了類似于SYSU-MM01數據集的架構。RegDB[17]數據集中,可見光攝像機拍攝的圖像分辨率為800×600像素,紅外攝像機拍攝的圖像分辨率為640×480像素,共采集了412名行人的8 240張圖片(包含4 120張可見光圖像和4 120張對應的紅外圖像)。主要區別在于,SYSUMM01包含可見光和近紅外圖像,而RegDB包含可見光和遠紅外圖像,這使得一些方法在兩個數據集中都難以工作。由于波長較短,來自SYSU-MM01數據集的近紅外圖像具有清晰的邊緣和清晰的背景。作為比較,RegDB數據集中的遠紅外圖像邊緣模糊,丟失了許多彩色圖案。
較大的跨模態差異是紅外可見光跨模態Re-ID的最大問題,這是由可見光和熱像儀的不同反射可見光譜和感測到的發射率引起的。可見光圖像具有3個通道,其中包含波長范圍為400~700 nm的可見光顏色信息,包含足夠的人的膚色信息;熱圖像具有一個包含不可見光信息的通道,其波長比可見光的波長更長。因此,這兩種方式本質上是不同的,導致可見光Re-ID中行人最重要的顏色信息特征,很難用于紅外可見光跨模態Re-ID的異構數據。當將這兩種模態的圖像直接進行聯合跨模態學習時,大多數現有的紅外可見光跨模態Re-ID方法變得對參數敏感,難以收斂且計算量大。
目前的紅外可見光跨模態Re-ID方法大多將輸入圖像轉換為相同或不同的模態圖像,或由GAN生成相似的圖像,受到以下限制:
1) 將可見光圖像、灰度圖像、紅外圖像同步輸入網絡,但忽略它們對波長的依賴性會丟失波長之間相關性的大量信息,影響最終性能,如圖3(a)所示。

圖3 紅外可見光跨模態Re-ID方法
2) 不同層次特征之間的不同感受野可能會降低直接特征融合的效果,因為結果感受野減少。
3) 來自不同模態的圖像很少,僅在3個RGB通道中保持可見光圖像的顏色或簡單地將可見圖像轉換為灰度圖像就限制了跨模態Re-ID的數據增強,如圖3(b)、圖3(c)所示。
本文提出了一種顏色抖動增強方法,用于數據增強模型中不同波長之間的關系,如圖3(d)所示。在文獻[18]中提出的基于同質增強的三元跨模態Re-ID學習方法的基礎上,在基于亮度、對比度、飽和度和色調空間的抖動,從可見圖像生成增強模態,在波長域進行數據增強的同時保留可見圖像的結構信息。對于每一張紅外圖像xt,其三通道灰度圖像xf由式(1)生成:
xf=f(xt)
(1)
式中:函數f(xt)為由原始紅外圖像中的單通道灰度圖像到三通道灰度圖像的映射,具體操作中在Pytorch中使用Grayscale(3)函數來實現,xt為紅外圖像。對于每一張可見光圖像xv,其增強模態圖像xg由式(2)生成:
xv=g(xg)
(2)
式中:函數g(xg)為由原始可見光圖像中的RGB三通道到增強模態的映射,具體操作時通過在torchvision中使用torchvision.transforms.ColorJitter()函數來實現亮度、對比度、飽和度和色調空間的隨機調整。與現有的數據增強方法不同[18],顏色抖動增加了每個波長的多樣性,從而為整個輸入產生了更多不同強度波長的信息組合。有了這種顏色抖動,生成的圖像將在不同波長上有效地增加互補信息,而不需要額外的注釋數據。然后將紅外、可見、增強模態3種圖像經過一個參數共享的單流網絡來學習不同圖像輸入之間的關系,并根據這種關系從不同的模態中搜索物體。
與目標檢測、目標跟蹤等一般視覺人工智能任務可采用單一計算機后端不同,跨模態Re-ID技術是跨攝像機多視角的視覺人工智能任務,涉及到多路視頻流信號的聯合分析,在前端設備數量較多的情況下,單一處理后端難以滿足實際的人工智能推理高計算量需求,限制了整體應用系統的擴展性。
為了驗證及演示本文提出的跨模態Re-ID技術的先進性及實用性,本文單獨設計了一套邊緣計算系統,如圖4所示。邊緣計算系統以板卡的形式將跨模態Re-ID神經網絡推理單元集成到每路攝像設備前端。實際工作時,可見光、紅外模態視頻流數據經過邊緣計算系統實時處理分析后,將圖像與人工智能推理結果一同回傳給后端,降低了數據集中處理的計算壓力,且系統彈性可擴展,不受接入前端設備的數量影響,更符合跨模態Re-ID任務的實際應用場景需求。
如圖5所示,邊緣計算系統硬件方案以國產瑞芯微RK3588處理器為處理核心,該處理器采用四核ARM Cortex-A76+四核Cortex-A55處理單元,搭配16G板載內存,系統整體具有高性能、低功耗的特點,典型功耗10 W。內置NPU(神經網絡處理單元),支持INT4/INT8/INT16/FP16混合計算,含3個NPU獨立核心,可聯合計算亦可單獨工作,浮點計算運算能力高達6TOP。具備H.264/H.265/VP9/AVS2等格式的專用編解碼硬件模塊,支持高達8k分辨率視頻流的實時編解碼。系統支持2路千兆以太網接口。同時針對多模態視頻監控的特定任務場景,本文方案擴展搭配ADV7281A模擬視頻解碼芯片,提供四路模擬視頻接口,兼容NTSC/PAL/SECAM多制式模擬視頻,形成了完整的模擬/數字視頻流的兼容支持能力。提供5組RS-485接口,可以對轉臺、云臺等設備進行串口控制。

圖5 基于RK3588處理器的邊緣智能終端實物圖(左為終端正面,右為終端反面)
邊緣計算部署軟件環境由PC端開發轉換環境與邊緣段部署運行環境兩部分組成。
PC端開發轉換環境為瑞芯微提供的RKNN Toolkit2工具鏈,其包含一組兼容Caffe、TensorFlow、ONNX、PyTorch等人工智能框架,進行神經網絡模型調整、優化、轉換的基礎軟件工具及多語言編程接口,用于將訓練完成的人工智能網絡模型轉換輸出為RKNN專用格式。如圖6所示,邊緣端部署運行環境具體包含:

圖6 邊緣智能終端軟件示意圖
1) 視頻流取流模塊,用于讀取可見光或紅外熱成像攝像機視頻流,支持RTSP/RTMP等網絡流格式的網絡攝像機或者MIPI/USB接口的數字攝像頭設備。
2) 人工智能神經網絡推理核心單元,其為瑞芯微官方提供的RKNPU2基礎NPU推理環境,其作用是將PC端處理轉換后的RKNN格式的神經網絡模型部署在芯片專屬NPU單元中,同時接收取流模塊獲取的可見光或者紅外視頻流進行神經網絡推理,并向后輸出推理結果。
3) 流媒體服務器模塊,用于將通過人工智能神經網絡處理后的可見光或紅外視頻流進行二次推流輸出到后端。針對顯控終端軟件不同顯控需求,本文提供3種視頻流輸出方式:針對調試、非人工智能顯示功能,提供原始視頻流轉發透傳模式;針對一般性非交互人工智能推理顯示功能,提供疊加顯示模式,即人工智能推理結果與原始視頻圖像疊加后輸出給后端;針對客戶端需要對人工智能推理結果進一步加工的功能,提供人工智能推理結果單獨輸出模式。
4) 設備串口控制模塊,用于向攝像機前端發送串口控制命令,控制其轉動、掃描等功能動作。
5) Web服務模塊,用于向后端提供直觀、易用的基于Web界面的設置接口,同時可實時向后端報告邊緣計算系統運行狀態,包括板載各項硬件狀態、軟件功能模塊、通信狀態等部分的實時監測信息,易于顯控終端程序對板載各個系統進行監測,并對板載資源進行相應的規劃與調整。同時提供GUI接口,配置看門狗、上電重連、斷線重連、災難恢復等功能輔助功能,最大化板載功能的易用性。
該設計方案通過引入層級配置文件的配置方案,提供系統狀態版本切換功能,即可根據具體應用場景需求,通過上傳系統功能配置文件的形式,一鍵切換系統工作狀態,或者通過提供不同版本的系統配置文件,針對具體情境進行工作狀態動態切換,便于系統調試或者提供基于場景的工作模式切換功能。
如圖7所示,該設計通過將系統抽象成相互獨立的功能模塊,相互之間通過接口結合配置信息進行組合形成具體功能的形式,最大化地保持了系統的擴展性,以適應不斷變化的應用需求。同時,模塊化的設計支持對每個獨立功能部分進行迭代升級,或者引入新的功能模塊,為系統提供最大化向后擴展可能性保障。通過Web向用戶提供直觀、易用的用戶交互接口,系統所有功能設置、參數設置、系統狀態等均可通過該用戶接口進行統一設定,最小化系統使用難度。

圖7 邊緣智能終端軟件依賴關系圖
如圖8所示,模型訓練分為以下4個步驟:

圖8 模型訓練流程圖
步驟1數據準備及格式轉換。將SYSUMM01、RegDB多攝像機可見光、紅外熱成像圖像數據混合、清洗、均衡化,統一轉換為PASVCAL格式數據文件。
步驟2將預處理的多模態數據進行增強,即在基于亮度、對比度、飽和度和色調空間的抖動,由可見圖像生成增強模態,在波長域進行數據增強的同時保留可見圖像的結構信息。
步驟3根據數據集多模態成分具體構成,決定模型每個訓練周期訓練數據分割策略、模型學習率調整關系等策略參數,構建輸出訓練模型策略配置文件。
步驟4執行模型訓練程序,訓練結束后生成.pth格式神經網絡模型。
將訓練生成的.pth神經網絡模型權重文件轉換為瑞芯微專屬RKNN格式,必須先將其轉換為ONNX格式。ONNX(Open Neural Network Exchange)是一種針對機器學習所設計的開放式文件格式,用于存儲訓練好的模型,它使得不同的人工智能框架(如Pytorch, MXNet)可以采用相同格式存儲模型數據并交互,通過調用torch.onnx模塊將神經網絡模型權重文件轉換為.ONNX神經網絡交換文件。
下面通過調用RKNN Toolkit2工具,將.ONNX文件轉換為瑞芯微專屬RKNN專屬神經網絡權重文件,并存儲于邊緣計算板的預定目錄。利用RK3588部署時,實際采集的可見光和紅外圖像分辨率不一致,可見光圖像分辨率為1 920×1 080,紅外圖像分辨率為640×512。實際部署中,將可見光圖像降采樣為640×512作為模型的輸入,對不同分辨率的圖像調整為一致的分辨率進行處理。通過與邊緣計算版取流與流媒體服務器模塊結合,可完成可見光/紅外圖像實時讀取分析回傳后端的完整邊緣計算功能。
將本文方法與HCML[19]、Zero-Pad[16]、HSME[20]、D2RL[21]、MAC[22]、MSR[23]、HAT[18]方法在兩個基準數據集SYSU-MM01[16]和RegDB[17]上進行實驗和比較。用Rank-1表示搜索結果中最靠前(置信度最高)的1張圖有正確結果的概率,Rank-10表示搜索結果中最靠前的10張圖有正確結果的概率,Rank-20表示搜索結果中最靠前的20張圖有正確結果的概率,mAP表示平均精度均值。其中在SYSU-MM01數據集上的運行結果如表1所示,從中可見本文方法在Rank-1、Rank-10、Rank-20和mAP這4項評價指標上都優于其他方法;在RegDB數據集上的運行結果如表2所示,從中可見本文方法在Rank-1、Rank-10、Rank-20和mAP這4項評價指標上也均優于表中其他方法。實驗結果表明,本文提出的方法在兩個基準數據集SYSU-MM01和RegDB上都取得了較好的性能。

表1 SYSU-MM01數據集上的運行結果對比分析

表2 RegDB數據集上的運行結果對比分析
同時,將本文設計的邊緣智能終端部署于晝夜安防監控的實際應用場景中,運行效果如圖9所示。

圖9 邊緣智能終端實際應用部署效果(上為可見光圖像,下為紅外圖像)
本文研究了紅外可見光跨模態Re-ID方法及基于邊緣智能終端的部署。得出主要結論如下:
1) 提出了一種高效的跨模態波長增強的Re-ID方法,以彌合不同模態之間的差距。該方法在兩個基準數據集SYSU-MM01和RegDB上取得了較好的性能
2) 在實踐中,基于國產化RK3588芯片設計了邊緣智能終端,并部署了跨模態Re-ID算法。實踐表明,能夠在晝夜安防監控場景中進行應用部署。
關于未來的研究方向,可以從如下角度考慮:
1) 構建更高質量的紅外可見光數據集:目前基于紅外和可見光的數據集相當匱乏,構建高質量的數據集有助于以深度學習網絡為代表的方法的模型優化。
2) 利用多模態和傳感器信息:結合多種傳感器的空間姿態、性能等參數信息,可以利用更多的先驗信息提升性能。