金益鋒, 孫晰銳, 吳文達, 李岱熹, 蔣雪梅, 耿小鵬
(1.中國人民公安大學偵查學院, 北京 100038; 2.公安部物證鑒定中心, 北京 100038; 3.大連恒銳科技股份有限公司, 大連 116085; 4.甘肅省公安廳刑事警察總隊, 蘭州 730030)
目前,中國的智慧安防系統(tǒng)建設日趨完善,視頻信息在案件偵破過程中正發(fā)揮出越來越大的作用。國內外的主流視頻應用主要集中在視頻中的人臉檢測與跟蹤技術,該技術近年來越來越受到研究人員的廣泛關注。就視頻監(jiān)控領域而言,人臉檢測與跟蹤的研究大大提高了視頻監(jiān)控系統(tǒng)的智能化,使得系統(tǒng)能夠在不需要人為干預的情況下鎖定目標,實現(xiàn)對監(jiān)控場景中的目標檢測與跟蹤。然而視頻人臉的檢測跟蹤往往由于背景干擾和面部遮擋而變得非常困難,所以需要新的技術手段來應對復雜場景下的公安視頻監(jiān)控應用。足跡是犯罪現(xiàn)場遺留率最高的痕跡物證之一,通過“全國公安機關鞋樣本數(shù)據(jù)庫應用系統(tǒng)”可以快速獲取到鞋子種類、樣式等信息[1]。利用獲取到的鞋樣本信息鎖定關聯(lián)視頻中穿用與該鞋樣本相似鞋子的嫌疑人,與此同時進一步結合視頻的動態(tài)行人分析,完成從足跡到嫌疑人的快速鎖定,可為案件的偵破節(jié)省大量的時間。人工智能的突破式發(fā)展,圖像、視頻等相關領域煥然一新,直接推動了智能化刑偵技術發(fā)展。
VGG[2]、LE-NET等基于深度學習的分類網(wǎng)絡將物體識別技術提升到新的高度,訓練完畢的網(wǎng)絡不僅可以完成分類和識別的任務。其頂層top(n)層輸出亦可作為圖像的特征參與特征比對。如史文韜等[3]提出了基于VGG-16網(wǎng)絡及選擇性卷積特征描述子融合的鞋印檢索算法以提升現(xiàn)場殘缺鞋印的檢索精度。
近幾年,深度視覺以目標不同產生了不同的技術分支。例如,以Yolo[4]、Faster RCNN[5]為代表的目標檢測算法,以Unet等編碼解碼思路的語義分割算法,以孿生網(wǎng)絡Siamese Network為代表的度量學習更好地支持多類別小樣本識別,以Cycle GAN[6]為代表的生成網(wǎng)絡可以生成各種風格的新數(shù)據(jù)。得益于此,圖片檢索方向近年來也在飛速發(fā)展之中。如以孿生網(wǎng)絡為基礎的全局表征檢索網(wǎng)絡[7],依托對抗網(wǎng)絡思想的深度對抗度量學習網(wǎng)絡[8],基于定位優(yōu)化思想的行人檢索網(wǎng)絡[9]。
雖然行人等的大目標、高清晰度圖片的檢索得到了充分的研究,但對于鞋這樣的小目標同時涉及高清-低清的跨域檢索的研究較為少見。姜衡等[10]提出了一種針對低分辨率情境基于深度學習的鞋類識別網(wǎng)絡模型。Zhan等[11]基于相似度學習的思想,利用RP-CNN+WI-CNN的雙網(wǎng)絡模型完成了街景鞋圖片到高清鞋樣的檢索任務。
基于深度學習跨清晰度的鞋面檢索算法,依靠深度學習強大的表達能力,在跨域檢索的網(wǎng)絡框架加入適合跨清晰度的特征描述方法,結合全局特征和局部特征分支的單獨處理再整合的思想,提出了適合高清到低清跨清晰度的鞋面檢索網(wǎng)絡。結合后處理重排序,完成算法。實驗結果顯示,算法克服了高清到低清跨清晰度的難點,在更高難度、更大數(shù)據(jù)量的測試數(shù)據(jù)集上取得了大幅優(yōu)于RP-CNN+WI-CNN[11]的表現(xiàn),實現(xiàn)了由高清鞋樣到低清視頻鞋的準確檢索,進而使得“現(xiàn)場足跡-鞋樣-視頻鞋-視頻嫌疑人”的自動快速鎖定成為可能,推動智能化刑偵技術的發(fā)展。
算法所在的檢索流程如圖1所示,虛線部分為數(shù)據(jù)預處理部分,其中B鞋樣數(shù)據(jù)處理部分中的足跡圖片指現(xiàn)場提取的足跡圖片,如圖2所示;實線部分(C檢索算法流程)為重點研究內容。
數(shù)據(jù)從來源上分為兩部分:①從分辨率為400萬像素的攝像頭采集的視頻幀中截取的低清鞋圖片; ②手機、相機、采集設備近距離拍攝的高清鞋面照片以及人工從網(wǎng)絡獲取的高清鞋面照片。數(shù)據(jù)示例如圖3所示,同一雙鞋的低清圖與高清圖從屬于同一類別,具有同樣的類別標簽。
數(shù)據(jù)集從用途上分為訓練集與測試集兩部分。每類包含一款獨有的、跟其他類別均不同的鞋子型號(如某品牌2021款輕運動黃白相間男款鞋)的高清和低清鞋面。數(shù)據(jù)集情況如表1所示。

圖1 跨清晰度的鞋面檢索流程Fig.1 Cross-resolution retrieval flow diagram

圖3 高清鞋面圖和低清鞋面圖Fig.3 High & low resolution vamps

表1 數(shù)據(jù)集信息
網(wǎng)絡結構如圖4所示,每個部分對應其專屬功能。其中實線部分為模型訓練與推理共用流程,虛線箭頭為模型訓練流程。
2.1.1 骨干網(wǎng)絡
ResNet[12]網(wǎng)絡又名殘差網(wǎng)絡,2015年提出時將ImageNet的識別錯誤率降低到3.57%,其主要網(wǎng)絡結構如圖5所示,殘差模塊有效避免了反向傳播計算時梯度消失。在此基礎上,ResNet-IBN[13]探索了實例歸一化(instance norm)和批歸一化(batch norm),提升了模型對圖像外觀變化的適應能力。其細節(jié)對比如圖5所示。
2.1.2 廣義池化層
如圖4中特征提取網(wǎng)絡的部分所示,在網(wǎng)絡結構中均使用了廣義平均池化層(generalized mean pooling,GeM)替換了平均池化層(average pooling,AP)。廣義最大池化層不僅有效保留紋理,選擇性降低冗余的作用,同時還可有效學習到不同分辨率下圖像的通用特征。公式為

(1)
式(1)中:ω為當前特征圖的尺寸;C表示通道數(shù);p為超參,p>0。當p>1時強制增加池化后的特征對比,突出激活視覺顯著區(qū)域;當p=1時,即為平均池化層;p=∞時變?yōu)榭臻g最大池化層。本文設定p=2。
2.1.3 全局特征描述分支

圖4 網(wǎng)絡結構圖Fig.4 The structure of model
全局特征主要提取輪廓、顏色、方向信息,屏蔽背景信息。輸入的特征圖為骨干網(wǎng)絡的GeM廣義池化層輸出,經卷積-歸一化-ReLU激活模塊生成2 048維的全局特征。在模型訓練過程中,該特征除直接用于計算circle loss(見2.1.5節(jié))外,還作為輸入,經歸一化-全連接層生成分類特征用于交叉熵損失函數(shù)(cross entropy loss)的計算,如圖4所示。

圖5 ResNet與ResNet-IBN對比Fig.5 Comparison between ResNet and ResNet-IBN
2.1.4 局部特征描述分支
局部特征部分主要作用是提取紋理細節(jié)信息。本文參考BFENET[14],訓練時輸入的特征圖會隨機擦除0~25%的特征區(qū)域,提高局部特征對鞋面的表征能力以及遮擋情況的適應能力,這里為了方便計算,擦除區(qū)域設定為隨機位置矩形覆蓋。后邊連接的全局最大池化層增加局部突出的信息的表達。之后經卷積-歸一化-ReLU激活模塊生成2 048維的局部特征,該特征與2.1.3節(jié)所述全局特征拼接形成2 048+2 048=4 096維的檢索特征用于最終的比對檢索環(huán)節(jié),如圖4所示。
2.1.5 損失函數(shù)
算法的損失函數(shù)部分如圖4中特征融合部分區(qū)域所示,本文中采用的損失函數(shù)被用于訓練過程中,指導模型收斂的方向,進而影響整個模型的訓練速度和精度。本文中采用如下?lián)p失函數(shù)。triplet loss[15]解決困難樣本的度量學習,拉大相似樣本的特征距離,讓相似不同類的特征更容易區(qū)分。center loss[16]計算樣本經過推理后特征空間與類中心的距離約束,同時兼顧到同類聚集和不同類的相互區(qū)分。circle loss[17]通過平均不同類別的分類角度距離,平均化各個類別的相似性差異。
2.1.6 數(shù)據(jù)增廣
為了防止訓練過擬合,訓練時輸入圖像采用-5°~5°隨機旋轉、HSV色彩模型編碼中-10°~10°的顏色隨機變化、-5%~5%的飽和度隨機變化、-1%~1%隨機平移的數(shù)據(jù)增廣方式,以滿足不同場景下算法的適應能力,如圖6所示。推理測試時需保證數(shù)據(jù)真實性,此時不需要圖像的隨機變化過程。

圖6 數(shù)據(jù)增廣示例Fig.6 Samples of data augment
2.1.7 特征融合和比對方法
圖像經過網(wǎng)絡映射(推理),全局特征和局圖特征兩個分支的特征各2 048維,以向量形式鏈接,形成4 096維特征,如圖4所示。
特征比對方法采用歐式距離判定。假設圖像I1、I2經過模型M映射后,產生特征F1、F2。F1包含為全局特征F1_global和局部特征F1_local,同理特征F2包含F(xiàn)2_global和F2_local。則比較方法為
F1=M(I1),F2=M(I2)
(2)

n=4 096
(3)
式中:Dist表示兩個向量的距離度量,其值越小,表示兩個向量越相近。
采用累計查中率(cumulative match characteristic, CMC)作為評價指標。CMC表示返回的前m個結果中正例的概率。無論數(shù)據(jù)庫中實際有多少匹配,計算中只計算第一個查中項。CMC曲線是一種細粒度度量,顯示了精度隨等級的變化。通常情況下,檢索排名越靠前,效果越好,CMC的曲線下面積(area under curve, AUC)越大。
查中:假設現(xiàn)有庫中有5枚圖片,分別屬于(“蘋果”“香蕉”“橘子”“西瓜”“芒果”)。現(xiàn)有一枚待查“芒果”,算法提取特征并比對后根據(jù)距離度量,得到如下排序[“香蕉”“橘子”“西瓜”“芒果”“蘋果”]。即認為,查詢的圖與“香蕉”最像,“橘子”次之,在第4位查中“芒果”。
實驗的機器硬件為CPU i9 9900K,內存容量64 G,固態(tài)硬盤1 T存儲空間,GTX 1080Ti 11 G顯存顯卡1片,850 W供電電源。軟件方面采用docker container+pytorch1.7+Cuda8.0深度學習框架搭建網(wǎng)絡并訓練,訓練時單次批量輸入32枚圖像,3 000次全數(shù)據(jù)集迭代。學習率(learning rate)在前1 000次訓練迭代設置為0.01,以達到快速收斂的目的,之后固定學習率為0.000 1,通過學習過程微調和優(yōu)化網(wǎng)絡參數(shù)。推理測試時,單次批量輸入若干枚圖像,不進行數(shù)據(jù)擴增步驟,不進行損失函數(shù)計算。
推理測試檢索性能時采用與訓練相同的硬件環(huán)境。測試推理平均耗時,如表2所示。

表2 推理測試時間
實驗說明,平均單次推理大致時間是60 ms/枚。1 h可提取6萬枚圖像特征。特征比對可達到實時響應的效果。
測試數(shù)據(jù)集1 172類檢索測試,CMC評價方法評估檢索效果,如表3所示。
實驗1和實驗2對比了不同骨干網(wǎng)絡的檢索效果。通過實驗證明,ResNet-IBN優(yōu)于ResNet。實驗3~實驗5進行了若干技巧的消融實驗,圖7所示為幾組實驗所對應的曲線。曲線與表3數(shù)據(jù)對應。從圖7的實驗結果可見Res-IBN-ACG曲線所代表的ResNet-IBN+DA+GeM+Circle Loss的組合最優(yōu),Top1達到66.2%,top5達到了85.8%,Top10達到90.8%。

表3 檢索性能實驗

圖7 幾組實驗對應的CMC曲線Fig.7 CMC curve of experiments

圖8 檢索結果示例Fig.8 Retrieval results
高清-低清鞋檢索結果如圖8所示,待查鞋樣001類中的RANK1和待查鞋樣012類中的RANK2表示查中的低清鞋樣圖。可見算法有效學習到了鞋子圖片的輪廓、顏色、紋理信息,對彩色鞋與純色鞋的檢索都有較好的主觀效果。
針對從高清鞋面到視頻中行人的低清鞋面的跨域匹配查找問題,提出了基于深度學習跨清晰度的鞋面檢索算法,以解決視頻提取的低清鞋子信息與高清鞋面信息比對檢索的難題,從而打通從現(xiàn)場足跡到視頻中鎖定嫌疑人的通路。算法中的網(wǎng)絡采用了全局和局部特征融合的方式,加上廣義池化、數(shù)據(jù)增廣等技巧,實現(xiàn)高效檢索。該算法在實現(xiàn)過程中,加入了網(wǎng)絡分支、特定損失函數(shù)、隨機變換等手段。在1 172組樣本檢索測試中累計查中率首位達到66.2%,前5達到85.8%,雖然該算法在客觀指標和主觀驗證上均達到較高的應用級別水準,但仍需在更大的數(shù)據(jù)集上進行驗證優(yōu)化。未來的工作將圍繞以下幾個方面展開:①結合視頻與鞋樣數(shù)據(jù)中鞋子的朝向角度信息進行檢索算法的改進;②擴充多場景數(shù)據(jù)進一步測試算法的泛用性。
當前隨著大數(shù)據(jù)、深度學習、視頻檢索等新技術的高速發(fā)展,為刑事技術突破式、跨越式發(fā)展創(chuàng)造了有利條件,同時各地天網(wǎng)工程以及雪亮工程等的建設也為視頻應用提供了數(shù)據(jù)基礎。在公安部智慧新刑技快速發(fā)展的新形勢下,基于深度學習跨清晰度的鞋面檢索算法為刑事技術融合應用奠定了技術基礎,有效實現(xiàn)了足跡+視頻一體化融合應用,實現(xiàn)了從“室內到室外,從痕跡到人”的創(chuàng)新應用,有效提升了公安機關刑事技術一體化作戰(zhàn)能力。
通過現(xiàn)場足跡查詢鞋樣信息,再結合周邊監(jiān)控等視頻信息,檢索到其中穿著同類鞋樣信息的人員,進而鎖定嫌疑人的技戰(zhàn)法已在公安基層實戰(zhàn)中得到了廣泛應用。然而,從海量的視頻數(shù)據(jù)中檢索目標人員這一過程異常繁雜,通常需要耗費大量的人、財、物,其投入與產出往往難成正比,而且也嚴重影響了案件的偵破效率。
利用基于深度學習跨清晰度的鞋面檢索算法,通過現(xiàn)場足跡查詢到的鞋樣,對案件現(xiàn)場周邊視頻進行自動分析、檢索嫌疑目標,并將目標的鞋樣、人身圖像以及目標出現(xiàn)的時空信息等線索實時推送,可以實現(xiàn)足跡視頻追蹤的自動檢索和融合應用。
近年來,隨著社會經濟的快速發(fā)展,刑事犯罪專業(yè)化、團伙化、流動化等特點日益明顯,案發(fā)后通過視頻監(jiān)控等傳統(tǒng)方式查找線索工作量巨大、效率不高,且難以有效依托視頻圖像實現(xiàn)對重點關注目標和異常情況的預知、預測、預警。基于深度學習跨清晰度的鞋面檢索算法,密切結合公安實戰(zhàn)應用需求,充分運用鞋樣識別技術、高清監(jiān)控技術、視頻分析技術、業(yè)務系統(tǒng)集成技術等先進技術,未來可以實現(xiàn)在海量視頻信息中有目的地提取有效信息,對目標人員的動態(tài)活動軌跡進行分析。
應用基于深度學習跨清晰度的鞋面檢索算法,可以實現(xiàn)智能化快速反饋與現(xiàn)場足跡關聯(lián)鞋樣的視頻目標人員軌跡、目標人員鞋樣信息,通過視頻鞋樣檢索的遠距離、跨視角、非受控等優(yōu)勢,打通專業(yè)壁壘,有效提升刑事技術一體化作戰(zhàn)能力,為公安部門實戰(zhàn)提供高效的技術支撐,為案件的快速偵破提供方向,從而大幅提升含足跡案件的破案率,最終實現(xiàn)刑事技術數(shù)據(jù)“強度整合、高度共享、深度應用”的要求。