羅鴻斌
摘要:行人再識別技術隨著視頻監控技術的發展和視頻偵查的需求既有實際的應用價值,也有理論研究意義。該文對行人在識別技術的問題范疇進行了界定,對目前行人再識別的三種主要方法基于生物特征、特征表示、度量學習分別進行論述,最后對行人再識別技術的應用場景進行了分析。
關鍵詞:行人再識別;量學習
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)36-0168-02
隨著人們對社會公共安全的需求以及視頻采集、存儲技術的發展,我國大部分公共安場所都安裝了大量監控攝像頭,這些監控系統一方面對犯罪分子進行威懾,一方面讓公安機關通過終端可以進行現場監控,并為預防和偵破相關案件提供線索。但隨著海量增長的監控視頻,人工進行監控和排查已經變得幾乎不可能。尤其是需要追查一些大案要案的通緝犯及暴力恐怖分子時,需要耗費大量的人力和時間,而且還容易疏漏,因此利用一定技術手段對監控視頻中的目標尤其是行人識別認定的需求就應運而生。
1 行人再識別問題及其難點
行人再識別也稱行人重識別,簡單地說,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。廣泛意義上,可以認為是一個圖像檢索的子問題, 即給定一個監控攝像頭拍攝的行人圖像,檢索該行人圖像是否在其他攝像頭拍攝的行人圖像中出現,給定行人圖像的攝像頭與檢索圖像的攝像頭沒有視域的重合,這樣導致它主要面臨的挑戰,如圖1所示。一是同一個人在不同攝像頭下的人像再識別時,因在不同攝像頭拍攝的視角、遠近、光照、人的姿態都發生了變化,導致同一個人在不同攝像頭下拍攝的人像相似度很低,因此提取一個不變的特征就變得很困難。二是不同的行人有可能所穿的衣服顏色相同,身形很相似,很容易被識別為同一個人。行人再識別本質上來說是基于人的外觀形體的一個相似性比較,人的外觀形體既具有剛性的特性,也具有柔性的特性,很容易所穿的衣服、視角、尺度等的影響,所以行人再識別是一個極具挑戰性的課題。
2 行人再識別的主要技術
行人再識別任務其實應該包括兩個流程(如圖2)所示,第一就是從圖像或視頻中檢測出行人,第二,提取行人特征,做相似性度量。第一個問題即行人檢測,已經獨立作為一個課題進行了深入的研究,一般在做行人再識別時是直接采用行人剪裁好的人像圖片進行比對,有利于集中討論特征提取和相似性度量。
目前行人再識別問題的研究主要集中在這三個方面:基于生物特征識別方法、基于特征的描述方法,和基于距離度量學習的方法。
2.1 生物特征識別
生物特征識別是指利用人體固有的生理特征或行為特征來進行個人身份鑒別認證的技術。常用的生物特征識別技術所用的生物特征有基于生理特征的如人臉、聲紋、指紋、視網膜,也有基于后天形成的行為特征如簽名、筆跡、步態。在視頻監控中常用的就是人臉和步態識別。在有效可控的環境下,人臉識別技術已經成為一項相對可靠的技術,廣泛應用在多個生活場景中,如支付寶,安防門禁等。步態識別也開始在小范圍內進行運行測試。人臉識別和步態識別這兩種方法都要求攝像機具有較高的分辨率,需要清晰的人臉圖像或完整的步態周期,認證的約束條件比較嚴格,在真實的視頻監控場景中很難滿足,因此,目前關于行人再識別的研究主要是針對后兩種方法。
2.2 特征表示方法
特征表示的方法關鍵在于設計或選擇一個魯棒的行人外觀特征的表示,這些特征不但要能夠很好地區分不同行人,而且要能夠使相同行人在不同攝像機間人像不受光照和視角變化的影響。這種方法中常用的行人特征主要有二類。
一是基于顏色、紋理、形狀的低層次特征。最常用且有效的特征是顏色直方圖特征,如RGB、HSV等;更普遍的方法是把人體劃分成多個區域,在不同的區域上提取將顏色特征、紋理特征Haar、形狀特征HOG、局部特征(局部不變特征SIFT、SURF),將這些特征組合起來表示行人。在計算這些特征表示向量相似性時,常常采用歐氏距離、余弦距離等經典的距離函數。基于特征表示的行人再識別方法好多學者提出了很好的解決方法。文獻[1]提出了一種按照人體結構將人體劃分為不同區域的特征表示方法。通過在垂直和水平兩個方向上劃分,將人體分成頭部、左部軀干、右部軀干、左下肢、右下肢五個部分。因頭部區域通常在視頻中較為模糊而忽略,在其他四個部分提取顏色直方圖以及紋理特征。分別對不同的特征采用不同的距離函數計算距離,最終距離按照不同的權重將不同特征的距離加權求和得到一個總的表示。
二是基于中高層的語義屬性。通過提取兩張圖片的語義信息來判斷圖片中的人像是否是同一個人,常用的有顏色、行人所穿的衣服、是否攜帶物品等信息。如行人是否戴帽子、戴眼鏡、背包基于語義屬性的優點是相同的行人在不同的攝像頭下拍攝的人像,語義信息很少變化。R. Layne[2]采用15種語義來描述行人,采用SVM分類器提取每幅人像上的語義屬性,根據語義屬性的重要行行加權并融合底層特征來表示行人圖像。SHI采用最近分割算法,對圖像進行超像素劃分,在劃分的圖像塊上定義多種特征屬性,顏色、位置、 SIFT 特征,識別效果明顯提高。
2013年,我國學者趙瑞[1]等人提出基于塊集合表示的行人重識別方法。其將行人圖像劃分成重疊的小塊,對于每一個小塊,其提取顏色直方圖特征和局部不變特征。在匹配小塊時,其不是與對應位置的小塊計算距離,而是在一定的空間約束的條件下,尋找最相似的小塊作為匹配到的小塊。并累計所有小塊與匹配到的小塊的距離表示兩張圖像之間的距離。在累計所有小塊距離時,作者通過小塊的特征計算該小塊是否顯著,然后給予顯著的小塊更高的累計權重。相比條帶劃分的方法,該方法在解決視角變化帶來行人圖像特征的差異時,使用了更為精細的粒度,因而能夠取得更好的性能。
總體來說,基于低層次特征表示的方法主要是通過提取顏色特征(顏色空間、顏色直方圖、加權顏色直方圖)和紋理、局部特征及這些特征的組合來表示行人,一定程度上解決不同監控視頻下行人圖像外貌特征差異的問題。基于中高層次特征表示的方法主要是提取行人圖像的語義屬性來表示行人,其判別性和識別率有所提高,但難點是圖像語義屬性的檢測本身就比較困難。
2.3 度量學習的方法
上述基于特征的描述法都是使用傳統的距離度量方法來進行相似性度量的,主要方法有曼哈頓距離、歐氏距離和巴氏距離等。行人匹配通常依據行人圖像的特征描述之間的相似性,而對相似性程度的度量則需要設計相似度函數或距離度量函數對兩個特征向量進行計算。
同一個行人在經過不同的攝像頭時,他的外觀特征受光照、視角、姿態、遮擋等的影響,用標準的距離度量方法來度量他的相似性時,不能取得很好的再識別效果。因此,好多研究者提出通過度量學習的方法,獲得一個新的距離度量空間,使得同一個行人在不同攝像頭下的圖像距離小于不同的行人間的距離。距離度量學習方法通常是在馬氏距離的基礎上進行的。其實質是通過對標識樣本的訓練學習一個投影矩陣,使得在投影空間中同類樣本之間的距離較小,而不同類樣本之間的距離較大。這些方法包括學習一個馬氏形式的距離函數式:
公式中,M是一個半正定矩陣,即通過樣本學習得到參數。
在常見的類別數據(x,y)基礎上,根據樣本標簽是否相同,將類標簽表示的數據轉換成成對的相似樣本對和不相似樣本對,基于兩種樣本對,學習到一個最優矩陣M,使得相似樣本對的距離最小,同時不相似樣本對的距離最大。即使得同一個人在不同攝像機下的人像距離最小,而不是同一個人的人像之間的距離最大。很多學者提出了各類馬氏距離度量的估計方法,在很大程度上提高了行人的匹配的效果。
隨著深度學習在計算機視覺中的廣泛應用,利用卷積神經網絡端到端的提取圖像特征,同時進行匹配的方法也得到了大量的研究。
2014年DongYi [4]等人構建了端對端的卷積神經網絡,在一個網絡中同時學習特征表達及度量函數這兩者。采用的網絡架構如下圖所示。每個子分支內部,輸入圖片分成三個有重疊的子圖快,每個圖塊分別進行卷積,之后通過全連接層整合到一起。連接函數用于評估兩個樣本之間的匹配度,目標函數用于將匹配度轉換為目標標簽。這樣做的好處是,把特征提取和選擇交給了神經網絡,讓自動提取和學習度量相似性的函數,從而實現輸入、輸出端對端的檢測和匹配。這種方法也就是基于深度卷積神經學習的方法。
3 應用領域
目前,行人再識別技術至少可以用于兩個方面。一是公安視頻偵查發現、追蹤可疑人員或犯罪分子;二是尋找走丟的老人和孩子。
視頻監控系統已在車站、超市、地鐵、銀行以及人流量大密集的多種公共場合得到廣泛應用。這些監控攝像頭可以全天候的監視人們在公共場所的行為和記錄他們的軌跡,但要實現全方位查找檢索可疑人員、車輛目標和線索,還必須依靠大量的工作人員回放相關視頻錄像,這顯然需要耗費大量人力,而且難免也會因為疲勞和疏忽,而錯漏掉重要信息。 通過行人再識別技術,提取可疑的人、車、物等目標信息的特征表示或生成結構化的語義描述,可以高效的快速定位、查找和檢索特定目標,有效提高了公安系統偵破疑難案件及緝拿有關犯罪分子的效率,節約人力物力。。
我們經常會看到尋人啟事,尋找走失迷路的老人和走散的小孩的情形,在人員流動很快的城市中,通過人尋找走失的老人、分散的小孩就如果大海撈針,而我們借助于大量的監控攝像頭和行人再識別技術可以在一定范圍內相對準確的追蹤走失的人員,甚至實時的發現和定位它當前的位置。
行人再識別技術是綜合運用計算機視覺,機器學習以及模式識別技術的一種新技術,它已成為智能視頻監控中的一個熱門研究方向,但對要真正的落地應用,仍然面臨著一系列的挑戰,需要進一步深入研究。
參考文獻:
[1] 王亦民.面向監控視頻的行人重識別技術研究[D].武漢大學,2014.
[2] R.Layne,T.M.Hospedales,S.Gong,etal.Person Re-identification by Attributes in BMVC,2012,2(3):8.
[3] Zhao R,Ouyang W,Wang X.Unsupervised salience learning for person re-identification[J].2013,9(4):3586-3593.
[4] Dong Yi,ZhenLei,Sheng Cai Liao and Stan Z.Li.Deep Metric Learning for Person Re-IdentificationICPR,2014.