◆盧俊俏 顏思璇
?
基于FAST R-CNN行人檢測識別的研究與改進
◆盧俊俏 顏思璇
(浙江師范大學數學與計算機科學學院 浙江 321300)
本文的目的是進行視頻中的人行識別,將視頻逐幀提取,采用Fast R-cnn,它不僅實現了識別圖片中單個行人的骨架,還能通過分類判斷圖片有多少個需要識別的行人,并將各個關節點與每一個行人所相對應,與此同時,它也能將各個關節點與行人身上的各個身體部位相對應,從而實現了識別圖片中多個行人骨架的目的。
人體骨架模型;Fast R-CNN;行人識別
人工智能最基礎的數據來自對音頻和視覺的感知,如何收集處理所接受到視覺信息,是目前人工智能中重要的一項技術。其中,基于視覺的行人識別技術已經成了研究熱點,具有廣闊的應用前景。行人檢測是一種在給定的圖像和視頻中判斷行人存在的技術,可以應用于監控查詢拜訪,車輛辨認,路況識別,盲人導航等,為這些領域提供了便利。比如先進輔助駕駛系統(ADAS)中通過單目攝像頭判斷路況,通過對前方汽車、行人、障礙物等的識別,給予司機主動提醒。
在2005年Dalal發表了基于HOG特征的行人檢測模型論文。HOG 特性也廣泛應用于目標檢測和識別、圖像檢索和跟蹤等領域。通過HOG梯度直方圖算法以及SVM算法識別出每張圖片中的行人,但這種模型速度運行慢,且由于背景中存在著各種各樣的干擾項,背景中的某些部分與人體相似,導致最終識別出來的結果存在一些錯誤。2006年,Hinton 等人提出了一種基于深度學習的算法,并利用深度卷積神經網絡從大量數據中學習高級特征。深卷積神經網絡將特征提取、特征選擇和特征分類融合到同一模型中,通過端到端訓練優化整體功能,進一步加強特征分類。
以增強行人識別的準確率和效率為目標,本文借鑒RBG等人在目標檢測領域中的FAST-RCNN模型,通過HOG梯度直方圖算法以及SVM算法對視頻中行人的大致位置進行識別,再用Fast R-CNN對圖片中行人的關節點進行識別,將各個關節點相連,識別出視頻中人體骨架的圖片。將此模型與基于HOG特征的行人檢測方法進行效果對比,目標檢測領域中的FAST-RCNN模型檢測正確率更好,并且效率更高。
FAST-RCNN依據RCNN為基礎,選擇性搜索(ss)獲得圖像中約2k候選框。利用卷積收集提取圖片特點,獲得feature map后按照以前RoI框選擇出對應的區域等三個進程。
通常對一張圖像進行檢測會采用不同的滑窗進行窮舉的方式搜索,這種方法計算量過大且速度慢,于是通過比較一張圖片不同區域顏色、紋理等方面將相識度較大的部分劃分為同一個區域,這便是選擇性搜索的基本思想。
(1)生成了一個區域。

計算總相似度:

(3)找相似度最高的區域,并將其合并。

(4)從中移除與和有關的相識度。

(5)計算新集與所有子集的相似度。
(6)重復上述步驟,直到為空。

圖1 相鄰區域的相似度
通過上述步驟就可以在需要進行行人檢測的圖像中找到1000-2000個候選區域,每個候選區域都作為一個節點,而每一個節點就是就是人體的一個部件,然而現在節點眾多,而當圖片中行人數目比較多時,各個節點之間相互連接,錯綜復雜,接下來就要解決節點數模過多問題,以及判斷哪些節點屬于同一個人。
在R-CNN中, 卷積神經網絡 CNN 用于每個候選框的特征提取,這需要大量的時間來改進,這在快速 R-NNN 中得到了很好的改進效果,只對原始圖像進行一次卷積,得到了整個圖的特征圖,查找每個候選框架上的映射patch。patch是每個候選框的卷積特征。
在R-CNN中,您需要統一每個候選框的大小,然后提取特征值,降低識別效率;在Fast R-CNN中,它添加了一個名為ROI池的網絡圖層,該網絡層將不同大小的候選框映射到固定比例的特征向量。從每個區域提取固定維度的特征來表示,下一步是使用SoftmaxLoss分類器來判斷。
該分類器需要做到使得在一個候選框特征值的輸入后,能夠判斷出屬于真實標簽的概率是否達到最高。就比如說,當候選框為手的那部分時,向SoftmaxLoss分類器輸入每一個候選框的映射之后,使最終的輸出結果為手的可能性要達到最高,而腳、肩膀、頭等的可能性較小。
下面為損失的計算公式:

這是一種CNN全連接層到損失層的計算,全連接層的輸入即每個候選框的特征,全連接層的輸出即為損失,若SoftmaxLoss分類器能夠做到預測正確,則損失較小,若預測錯誤,則損失較大,即為分類候選框時所產生的誤差。
在使用完分類器進行候選框分類之后,需要使用SmoothL1Loss回歸器縮小范圍以更精確的框出目標物體,在使用SmoothL1Loss回歸器進行計算時會產生誤差即損失:

總損失等于各部分損失之和:
當預測值和目標值相差過大時,梯度就容易爆炸,在SmoothL1Loss回歸器中使用-1代替了原來梯度中的-,避免了梯度爆炸問題。

我們取用學校馬路上隨機的幾段視頻,進行行人識別檢測。并用FAST R-CNN的方法與HOG模型進行比較,如圖2。

圖2 FAST R-CNN識別流程圖
在經過分類和回歸之后,就可以識別出哪個候選框屬于行人手的區域,哪些候選框是屬于行人腳的區域,哪些候選框是屬于行人肩膀的區域,同時也可以判斷出哪些候選框屬于同一個人,最后將屬于同一個人的關節點連接,就可以得到任何一張所需要進行檢測的圖片中的行人的骨架圖了,如圖3。

圖3 人體部位骨架識別
在嘗試FAST-CRNN之前,通過使用HOG梯度直方圖算法以及SVM算法識別出每張圖片的行人,但這種模型速度慢,且由于背景中存在著各種各樣的干擾項,背景中的某些部分與人體相似,導致最終識別出來的結果存在一些錯誤。如圖4。

圖4 HOG模型錯誤識別
而本模型相對基于HOG的行人識別對人體動作的識別準確性更高,通過對關鍵幀和重要節點的判斷,能夠去除多余的信息,提高識別的準確率。相比于HOG模型,在該視頻識別中,排除了樹等其他的干擾,并且不完整的行人也能準確識別,如圖5。

圖5 FAST R_CNN效果圖
(1)在圖片中通過選擇性搜索提取候選框較慢,可以采用RPN產生候選框,即CNN卷積神經網絡直接產生候選框,就可以提高圖片的識別速度。
(2)除FAST-CRNN這個方針辨認的算法之外,現如今速率更快,精確度加倍的辨認方法FASTER-CRNN已被研究出來,方針檢測的四塊(區域生成,特征提取,分類,位置精修)終究被統一到一個深度收集框架以內。所有計算沒有重復,完全在GPU中完成,大大提高了運行速度。
(3)除了采用CRNN系列進行目標識別,根據最近提出的使用最新提出的residual net進行body part的提取,得到的效果更加準確,精度更高。使用Image-Conditioned Pairwise Terms的方法,能夠將眾多候選區域的節點壓縮到更少數量的節點。實現效果更好的識別,這就是提出的DEEPER CUT。
(4)可以采用了LSTM時間遞歸神經網絡算法,通過行人運動時引起的各個關節點的運動,去識別出行人的動作。同時,LSTM網絡能夠通過自主學習,獲知一系列動作持續時間內不同幀的重要性,以及不同的關節點在不同的動作中的重要性,使重要的幀和重要的關節點在識別某張圖的行人的動作中起更大的作用,這是更進一步的運用。
[1]Eldar Insafutdinov,Mykhaylo Andriluka, Leonid Pishch-ulin, Siyu Tang, Evgeny Levinkov, Bjoern Andres, Bernt Sc-hiele ArtTrack: ArticulatedMulti-personTrackingintheWild,Su-bmitted on 20 Nov 2015.
[2]Eldar Insafutdinov1, Leonid Pishchulin1, Bjoern Andr-es1,Mykhaylo Andriluka1,2, and Bernt Schiele1,DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose EstimationModel,Computer Vision – ECCV:2016.
[3]林原,劉海峰,林鴻飛,許侃.基于損失函數融合的組排序學習方法[J].廣西師范大學學報(自然科學版),2019,37(01):62-70.
[4]陳恩加,唐向宏,傅博文.Faster R-CNN行人檢測與再識別為一體的行人檢索算法[J].計算機輔助設計與圖形學學報,2019,31(02):332-339.
[5]姚品,萬旺根.行人再識別問題中背景抑制方法的研究[J].電子測量技術,2019,42(02):73-77.
[6]彭志勇,常發亮,劉洪彬,別秀德.基于HSV模型和特征點匹配的行人重識別算法[J].光電子·激光,2015,26(08):1575-1582.
[7]王文豪,高利,吳紹斌,趙亞男.行人檢測綜述[J].摩托車技術,2019(01):29-32.
[8]王斌,劉洋,唐勝,郭俊波.融合多模型和幀間信息的行人檢測算法[J].計算機輔助設計與圖形學學報,2017,29(03):444.