畢君郁



摘? ?要:我國每年失蹤兒童約有20萬人,如何利用人工智能技術尋找走失兒童是社會討論的熱點問題。首先,文章將行人檢測和行人重識別相結合,建立了端到端的行人搜索框架,并使用OIM監督學習。然后,在Person Search數據集上進行訓練后,分別用兒童和成年人的圖片作為輸入進行測試。最后,根據評價指標證明文章的搜索框架有70%以上的成功率,且兒童比成年人更加難以搜尋。
關鍵詞:行人重識別;行人檢測;尋找走失兒童;深度學習
1? ? 行人重識別技術
如何利用人工智能技術尋找走失兒童一直是社會關注的熱點問題,行人重識別是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。雖然現今已經提出了大量的行人重識別方法,但是還是很難被應用到現實世界中,因為行人重識別的研究使用的數據集大多數是手工剪切過的圖片,如圖1所示。
可見,行人重識別是在假設行人檢測已經做得完美的基礎上做的重識別研究。而想要實現尋找走失兒童,必須將行人檢測和行人重識別相結合,所以本文使用一個端到端的行人搜索框架,其在一個卷積神經網絡(Convolutional Neural Networks,CNN)中處理這兩個任務,省去了模塊間的操作。
本研究CNN包括兩個部分:行人候選網絡和身份識別網絡。給定一個輸入圖像,通過行人候選網絡生成候選行人的包圍框,然后將候選行人放入身份識別網絡來提取特征,與目標行人進行比較。行人候選網絡和身份識別網絡在訓練時可以互相適應,例如:行人候選框會優先提高召回率而不是準確率,因為召回率變高則假正例率也會變高,而這些假正例(非行人卻被誤認為是行人的候選框)會在身份識別網絡中被剔除。
傳統的重識別特征學習主要使用Pair wise或者Triplet損失函數,然而,這兩種損失函數都不是非常有效,因為每次比較的樣本數量較少。而另一個方法是用Softmax損失函數來分類標識,此函數可以同時比較所有的樣本。但是當類別增加時,訓練會變得非常緩慢,甚至無法收斂。所以本研究使用在線實例匹配(Online Instance Matching Loss,OIM)損失函數[1]來訓練該網絡。OIM損失函數適用于類別較多、每類樣本又較少的分類問題。
2? ? 相關工作
2.1? 行人重識別
傳統的行人重識別采取的方法是:手工設計特征值、手工將攝像機視角轉化成特征值、手工設計距離度量函數(損失函數)。后來提出使用基于深度學習的方法來處理上述方面,Li等[1]設計了CNN模型,其輸入的是裁剪過的行人圖片,使用二進制驗證損失函數來訓練網絡參數。Cai等[2]使用Triplet來訓練CNN以使同一行人的圖片的特征值盡可能相似,不同行人圖片之間的特征值盡可能相異(同小異大原則)。
近期還有許多工作關注于非正常圖片的行人重識別,如:分辨率低、局部遮擋的圖片。
2.2? 行人檢測
傳統方法中,DPM,ACF和Checkerboards是最常用的行人檢測器,依靠手工制作和線性分類器來檢測行人。近年來,基于CNN的行人檢測器也得到了發展[3],眾多學者研究了包括CNN模型結構、訓練數據和不同訓練策略在內的各種因素。
2.3? 尋找走失兒童
現有許多不同方向針對尋找走失兒童的研究工作開展,例如:跨年齡人臉識別、人臉重建、人臉老化等,但是針對兒童的數據集較少,并且兒童成長面部變化較大,所以這方面研究還面臨著巨大的挑戰。
3? ? 本文算法結構
本文的CNN結合了行人檢測和行人重識別網絡,結構如圖2所示,輸入一張完整的圖像后,經過特征提取網絡將像素矩陣轉換成卷積特征圖后,行人候選網絡將此作為輸入來預測行人的邊界框。然后,將其輸入到具有RoI-Pooling的身份識別網絡中,為每個邊界框包圍的行人提取256維的特征向量。在尋人階段,根據目標行人和候選行人的特征向量之間的距離進行排名。在訓練階段,研究使用OIM損失函數來監督網絡。
3.1? 模型結構
特征提取網絡:采用ResNet-50作為CNN模型的基礎。首先是一個7×7的卷積層,其次是4個block,分別包含3,4,6,3個殘差單元。本研究把以上作為主干部分。給定輸入圖像,能夠產生的特征圖有1 024個channels,分辨率是原圖的1/16。
行人候選網絡:首先通過512×3×3的卷積層提取出行人特征,按照每個特征圖的位置關聯9個anchors。然后使用Softmax分類器來判斷是否為行人,同時通過線性回歸來調整他們的位置。最后,選出128個邊界框。
身份識別網絡:用于提取每個候選區的特征,并和目標特征對比。首先利用ROI-Pooling從每個候選區的特征圖中池化得到一個1 024×14×14的區域。然后,將這些區域通過ResNet-50中的con4_4到conv5_3。最后通過全局的平均池化層匯總成2 048維特征向量。
一方面,因為行人檢測不可避免地會有錯誤或偏差,所以使用Softmax分類器去除無行人的邊界框,使用線性回歸矯正偏差的邊界框。另一方面,在推理階段,將這些特征放到L2正則化的256維子空間中,并且計算其與目標行人的余弦相似度。在訓練階段,用OIM和其他損失函數進行監督,用多任務學習方式聯合訓練。
3.2? 損失函數OIM
因為目標是區分不同的人,所以應該盡量減少同一行人的個體之間的差異,同時增大不同行人之間的差異。思想有點類似Triplet損失函數,但是為了解決Triplet損失函數訓練樣本少導致迭代次數過多的問題,OIM建立了一張查詢表(假設訓練集中有L個身份)和一個循環隊列,其中D為特征向量的維數,Q為隊列大小。查詢表用來存儲有注釋身份的行人特征,循環隊列用來存儲無注釋身份的行人特征。
候選內容(經過行人候選網絡得到的候選框中的內容)有3種類型:有注釋身份的行人,無注釋身份的行人和非行人。當候選內容為有注釋身份的行人時,將其放入查詢表并分配一個ID(從1到L);當候選內容為無注釋身份的行人時,將其放入循環隊列。OIM不需要考慮候選內容是背景的情況,因為其在分類中會被自動篩除。
對于查找表,正向傳播過程時,計算訓練樣本和查找表的余弦距離。在反向傳播過程中,如果目標的ID為t,將查找表中ID為t的向量vt更新為γvt+(1-γ)x,其中γ∈[0,1],x為訓練樣本的特征向量,。
對于循環隊列,同樣計算訓練樣本和循環隊列的余弦距離,每次迭代后,將新的特征向量存入隊列,同時彈出過期的特征向量以保持隊列大小不變。
基于上述兩個數據結構,OIM定義Softmax函數將x識別為查找表中ID為i的可能性為:
(1)
其中,τ控制概率密度的平緩程度,實驗設置為0.1。同樣,Softmax函數將x識別為循環隊列中第i的可能性為:
(2)
OIM的目標是最大化期望對數似然函數:
(3)
對x的梯度可以表示為:
(4)
所以,從公式(1—2)可以看出,OIM損失函數有效地將訓練樣本和有注釋身份的行人、無注釋身份的行人進行了對比,即實現了縮小相同ID人的特征距離,同時增大不同ID的人的特征距離的目的。
4? ? 實驗結果和分析
本文選擇在Person Search數據集上進行訓練,此數據集是一個大規模且場景多樣化的人員搜索數據集,其中包含18 184張圖像,8 432個身份和99 809個帶注釋的邊界框。隨后,將測試集中的查詢對象分成全部為兒童和全部為成年人,分別對模型進行測試。最后,根據實驗結果(返回的搜索圖像和各評價指標)進行比較和分析。
4.1? 測試結果
從實驗結果來看,搜索準確率較高,候選框非常貼合行人,測試結果中有很多令人滿意的結果,如圖3所示。
但是,對于一些被遮擋,或者行人姿勢不太好的情況,也會影響測試的結果,如圖4所示。
可見,在衣著顏色比較特別、查詢圖像是正面且沒有遮擋的情況下,人員搜索成功概率將大大提高。
4.2? 模型評價指標和比較分析
本文選擇大部分行人重識別研究選擇的評價指標:平均精度(Mean Average Precision,mAP)和累計匹配曲線(Cumulative Match Characteristic,CMC)top-1,查詢對象為兒童和成年人時,算法的mAP和CMC top-1如表1所示。
可見,無論mAP還是CMC top-1,結果都在70%以上,證明算法效果較好,已經可以在實際問題中提供一些幫助。但是對比來看,在各種評價指標中,搜索成年人比搜索兒童的效果都要好,原因是兒童身高不高,在圖像中所占像素較少,在檢測時可能會被忽略,且兒童的衣著較為統一,不同兒童之間差別較小,特征不明顯。所以,通過行人重識別解決兒童走失問題還是一個具有挑戰性的研究。
5? ? 結語
為了尋找走失兒童,本文將行人檢測和行人重識別相結合,建立了端到端的行人搜索框架,并使用OIM損失函數進行監督。在實驗中,測試了行人搜索框架,發現mAP和CMC top-1都在70%以上,證明本文算法能夠應用在尋找走失兒童中。研究還發現,行人搜索框架尋找成年人的成功率比尋找兒童的成功率高10%左右。如何調整網絡結構,使行人搜索框架能更加針對兒童,是下一步需要研究的方向。
[參考文獻]
[1]LI W,ZHAO R,XIAO T,et al.Deepreid:deep?lter pairing neural network for person re-identi?cation[C].Columbia:IEEE Conference on Computer Vision and Pattern Recognition,2014.
[2]CAI Z,SABERIAN M,VASCONCELOS N.Learning complexity-aware cascades for deep pedestrian detection[C].Beijing:IEEE International Conference on Computer Vision,2015.
[3]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Software Engineering,2010(9):1627-1645.
Analysis of the application of human search framework combined with
pedestrian detection and recognition in the search of lost children
Bi Junyu
(School of Computer Science and Technology, Tiangong University, Tianjin 300387, China)
Abstract:There are about 200 000 missing children in our country every year, how to use artificial intelligence technology to find lost children is a hot topic in social discussion. Firstly, this paper combines pedestrian detection and pedestrian recognition to establish an end-to-end pedestrian search framework and uses OIM to supervise learning. Secondly,after training on the Person Search dataset, the childrens and adults pictures were tested as input, respectively. Finally, according to the evaluation index, the search framework of this paper has more than 70% success rate, and children are more difficult to search than adults.
Key words:pedestrian recognition; pedestrian detection; search for lost children; deep learning