劉 穎,武陽(yáng)陽(yáng),李 娜
(1.西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121;2.西安郵電大學(xué) 電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710121;3.西安郵電大學(xué) 陜西省無(wú)線通信與信息處理技術(shù)國(guó)際聯(lián)合研究中心,陜西 西安 710121)
隨著社會(huì)對(duì)公共安防問(wèn)題的重視提升,智能視頻分析在安防領(lǐng)域中發(fā)揮著越來(lái)越重要的作用。在監(jiān)控視頻中,行人往往是安防事件的主體,若能在海量的監(jiān)控視頻中有效地利用好行人屬性信息,便會(huì)提升安防應(yīng)對(duì)能力,減少人力成本。屬性信息是指可以表征行人外觀的特征,包括性別、身高和衣著等信息。對(duì)屬性的研究通常分為兩個(gè)方向:其一,使用屬性作為中間特征表示層,用于輔助其他任務(wù)的實(shí)現(xiàn)。例如,通過(guò)屬性進(jìn)行目標(biāo)檢測(cè)[1]或利用屬性識(shí)別提升人臉驗(yàn)證功能[2],目前屬性多用于行人檢測(cè)[3-5]、行人重識(shí)別[6-11]和行為識(shí)別[12-13]等任務(wù)中;其二,是專注于自然場(chǎng)景下攝像頭中行人屬性信息的識(shí)別[14-16]。傳統(tǒng)的屬性識(shí)別是通過(guò)先提取手工標(biāo)注的特征,如顏色、紋理特征等,再利用支持向量機(jī)或馬爾可夫隨機(jī)場(chǎng)等分類器,進(jìn)行屬性分類。隨著深度學(xué)習(xí)的快速發(fā)展,越來(lái)越多的學(xué)者把深度學(xué)習(xí)運(yùn)用到行人屬性識(shí)別的領(lǐng)域,已成為目前該領(lǐng)域的主流研究方法。然而,在復(fù)雜的監(jiān)控視頻中有效地識(shí)別出屬性的細(xì)粒度特征,對(duì)于計(jì)算機(jī)視覺(jué)而言是一項(xiàng)極具挑戰(zhàn)性的任務(wù)[17-18]。
行人屬性識(shí)別方法主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的兩類方法。傳統(tǒng)方法包括特征提取和分類器兩個(gè)重要組成部分。如文獻(xiàn)[19]選取了顏色特征、紋理特征以及方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,通過(guò)機(jī)器學(xué)習(xí)中的K臨近算法(K-Nearest Neighbor,KNN)對(duì)特征進(jìn)行分類。傳統(tǒng)機(jī)器學(xué)習(xí)的主要缺點(diǎn)是在訓(xùn)練前需要進(jìn)行特征工程,增加了工作量,也不能保證特征選取的合理性。深度學(xué)習(xí)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)圖像的特征,從而進(jìn)行端到端的分類學(xué)習(xí),應(yīng)對(duì)復(fù)雜監(jiān)控場(chǎng)景下行人外觀變化,改善傳統(tǒng)機(jī)器學(xué)習(xí)應(yīng)用于行人屬性識(shí)別中存在的問(wèn)題。將深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)相結(jié)合,可在馬爾可夫隨機(jī)場(chǎng)下訓(xùn)練核、帶高斯核的馬爾可夫隨機(jī)場(chǎng)以及帶隨機(jī)森林的馬爾可夫隨機(jī)場(chǎng)進(jìn)行屬性識(shí)別[20]?,F(xiàn)有的基于深度學(xué)習(xí)的行人屬性識(shí)別分法大多采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),雖然該網(wǎng)絡(luò)能更有效地提取出屬性的細(xì)粒度特征,但是不能對(duì)屬性和行人圖像連續(xù)性建模,因此,識(shí)別準(zhǔn)確度較高的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)架構(gòu)被提出。
通過(guò)總結(jié)基于深度學(xué)習(xí)的行人屬性識(shí)別領(lǐng)域中已有的研究進(jìn)展,分析對(duì)比不同算法的優(yōu)缺點(diǎn)。介紹常用的行人屬性識(shí)別數(shù)據(jù)庫(kù)及評(píng)價(jià)指標(biāo),并對(duì)行人屬性識(shí)別技術(shù)的發(fā)展趨勢(shì)進(jìn)行展望,指出該領(lǐng)域的未來(lái)研究方向。
基于深度學(xué)習(xí)的行人屬性識(shí)別方法大致可分為常規(guī)網(wǎng)絡(luò)、部件分割、注意力機(jī)制和序列檢測(cè)等4類。下面介紹4類方法的基本原理。
基于常規(guī)網(wǎng)絡(luò)的方法是行人屬性識(shí)別方法中最基礎(chǔ)的方法,該類方法比傳統(tǒng)機(jī)器學(xué)習(xí)方法的識(shí)別率明顯提高。常用的卷積神經(jīng)網(wǎng)絡(luò)有LeNet[21]、AlexNet[22]、計(jì)算機(jī)視覺(jué)組[23](Visual Geometry Group,VGG)、ResidualNetwork[24]、GoogleNet[25]和Dense Network[26]等。這些網(wǎng)絡(luò)有很強(qiáng)的特征表示能力,圖像的不同特征可以由多個(gè)不同的卷積核提取出來(lái)。圖1為一個(gè)簡(jiǎn)單的行人屬性識(shí)別過(guò)程。將監(jiān)控場(chǎng)景中提取的行人樣本輸入端到端的CNN中提取圖像特征,輸出的特征向量長(zhǎng)度與需要識(shí)別的屬性數(shù)目相同,經(jīng)過(guò)交叉熵?fù)p失函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新與訓(xùn)練,最后輸出多個(gè)行人屬性標(biāo)簽。

圖1 行人屬性識(shí)別過(guò)程
DeepSAR和DeepMAR兩個(gè)對(duì)比網(wǎng)絡(luò)均共享主干網(wǎng)絡(luò),包含5個(gè)卷積層和3個(gè)全連接層[27]。DeepSAR網(wǎng)絡(luò)被用于單獨(dú)預(yù)測(cè)每個(gè)屬性,DeepMAR網(wǎng)絡(luò)則考慮到屬性之間的關(guān)聯(lián)性,利用帶有權(quán)重的交叉熵?fù)p失函數(shù)進(jìn)行預(yù)測(cè),其計(jì)算表達(dá)式為
(1)
其中:

He[28]等人采用殘差網(wǎng)絡(luò)[24]作為共享網(wǎng)絡(luò),使用自適應(yīng)加權(quán)的損失函數(shù)進(jìn)行所有屬性的預(yù)測(cè)任務(wù),其計(jì)算表達(dá)式為
(2)
其中:λj為第j個(gè)屬性的權(quán)重值;Ii為訓(xùn)練的第i個(gè)圖像;Lij為第i個(gè)圖像的第j個(gè)屬性的真實(shí)標(biāo)簽;φi(Ii;Θ)為經(jīng)過(guò)網(wǎng)絡(luò)操作Θ.<·>的每個(gè)圖像的屬性預(yù)測(cè),Θ為神經(jīng)網(wǎng)絡(luò)參數(shù)。每K次迭代更新權(quán)重,但關(guān)鍵問(wèn)題是很難衡量哪個(gè)任務(wù)最重要。損失函數(shù)的改進(jìn)說(shuō)明新的損失函數(shù)對(duì)于行人屬性識(shí)別任務(wù)是很有必要的。
上述方法均是采用將整幅圖像輸入到基礎(chǔ)網(wǎng)絡(luò)中提取屬性特征,并沒(méi)有考慮到圖像中的復(fù)雜背景對(duì)行人細(xì)粒度特征的影響,依然沒(méi)有解決根本問(wèn)題。Zhou等[29]考慮到了這個(gè)問(wèn)題,將弱監(jiān)督目標(biāo)檢測(cè)技術(shù)引入到行人屬性識(shí)別任務(wù)中,該方法不僅可以預(yù)測(cè)屬性的存在性標(biāo)簽,還可以對(duì)屬性進(jìn)行定位,為進(jìn)一步的識(shí)別提供位置信息。
基于部件分割的方法是將行人分成幾個(gè)部位進(jìn)行識(shí)別,從而可以更好地提取顏色和紋理特征[30]。Zhu等[31]將整個(gè)行人圖像分成15部分,分別送入到同一個(gè)CNN提取特征,采用相應(yīng)的局部部分進(jìn)行特征融合,從而判斷是否具有某個(gè)屬性。例如,對(duì)于頭發(fā)屬性的判斷,只需要選擇肩以上的部分特征融合即可。
該類方法主要是結(jié)合局部和全局特征識(shí)別屬性的細(xì)粒度特征。基于部件分割的行人屬性識(shí)別網(wǎng)絡(luò)訓(xùn)練流程如圖2所示。行人屬性識(shí)別的焦點(diǎn)集中在圖像中行人區(qū)域的部分,把行人圖像分割后,輸入到局部特征提取網(wǎng)絡(luò)中,再和全局網(wǎng)絡(luò)提取的特征融合訓(xùn)練,以達(dá)到抑制嘈雜背景干擾的目的,提高行人屬性識(shí)別的準(zhǔn)確率。

圖2 基于部件分割的行人屬性識(shí)別網(wǎng)絡(luò)訓(xùn)練流程
Zhang等[32]提出了一種用于深度屬性建模的部件對(duì)齊網(wǎng)絡(luò),用poslets[33]檢測(cè)出可能的行人部位,然后將網(wǎng)絡(luò)提取的所有特征疊加起來(lái),為每個(gè)屬性訓(xùn)練一個(gè)線性支持向量機(jī)(Support Vector Machine,SVM)分類器,一定程度上緩解了遮擋問(wèn)題。文獻(xiàn)[34]則對(duì)人體姿勢(shì)進(jìn)行估計(jì),產(chǎn)生人體關(guān)鍵點(diǎn)。根據(jù)人體關(guān)鍵點(diǎn)信息,利用卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)的產(chǎn)生邊界框,將身體全局圖像轉(zhuǎn)換為部分區(qū)域圖像,全局特征和不同的局部特征相結(jié)合可學(xué)習(xí)到強(qiáng)大的特征表示。端到端的局部和全局的卷積神經(jīng)網(wǎng)絡(luò)[35]強(qiáng)調(diào)了位置和邊緣信息,此方法的目的主要是讓背景和目標(biāo)分離,只關(guān)注行人,減少背景對(duì)行人特征提取的影響。此外,還有將部件和序列檢測(cè)結(jié)合起來(lái)進(jìn)行行人屬性識(shí)別的方法,在幾個(gè)常用行人屬性識(shí)別數(shù)據(jù)集上實(shí)驗(yàn),也都取得了不錯(cuò)的識(shí)別效果[36-38]。
基于注意力機(jī)制的方法就是關(guān)注于感興趣的區(qū)域,選擇一個(gè)具有代表性的局部特征進(jìn)行下一步的跟蹤。
細(xì)粒度特征在很多任務(wù)中可見,如圖像識(shí)別、語(yǔ)義分割等,人們會(huì)針對(duì)于自己的問(wèn)題從各個(gè)方向?qū)ふ医鉀Q辦法。文獻(xiàn)[39-41]是從特征融合角度進(jìn)行改進(jìn)的方法?,F(xiàn)階段,深度學(xué)習(xí)已成為特征提取的首選方法。在實(shí)際問(wèn)題中,圖像的細(xì)粒度特征分布復(fù)雜,劃分的部件不一定適合其他圖像,這樣實(shí)現(xiàn)起來(lái)的效果肯定會(huì)不理想。文獻(xiàn)[42-46]從網(wǎng)絡(luò)結(jié)構(gòu)上關(guān)注行人的細(xì)粒度屬性。如Liu[42]等人為解決圖像多尺度的問(wèn)題提出HPNet網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠捕捉從低級(jí)到高層語(yǔ)義級(jí)的多個(gè)關(guān)注點(diǎn),主要過(guò)程是先用主網(wǎng)絡(luò)(M-net)提取全局特征,再用多方向注意網(wǎng)絡(luò)(AF-net)提取多個(gè)分支的不同語(yǔ)義特征,最后進(jìn)行特征融合。
卷積神經(jīng)網(wǎng)絡(luò)雖然在識(shí)別性能上有明顯提高,但還是存在一些客觀問(wèn)題。例如,訓(xùn)練樣本中數(shù)據(jù)的類別不平衡,將會(huì)使網(wǎng)絡(luò)模型的效果下降,考慮到這一不可忽視的問(wèn)題,Sarafianos等[45]使用注意力聚合機(jī)制進(jìn)行行人屬性識(shí)別,通過(guò)引入網(wǎng)絡(luò)對(duì)不同層的信息聚合幫助模型學(xué)習(xí)到更多具有判別性的特征,并且對(duì)屬性的不平衡進(jìn)一步研究,用帶有加權(quán)變量的focal損失函數(shù)在處理屬性不平衡上有著更好的性能。還有一些將空間注意、標(biāo)簽注意和行人注意聯(lián)合起來(lái)學(xué)習(xí)的基于注意力的行人屬性分析[47]也取得了不錯(cuò)的結(jié)果。
利用深度學(xué)習(xí)找到對(duì)應(yīng)位置上的屬性識(shí)別方法,是屬于多標(biāo)簽分類的問(wèn)題,而多標(biāo)簽分類問(wèn)題表現(xiàn)出很強(qiáng)的標(biāo)簽依賴關(guān)系[48]。使用RNN可以顯式地建模標(biāo)簽依賴關(guān)系,利用長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)可在一定程度上減輕RNN存在的梯度消失問(wèn)題。LSTM的結(jié)構(gòu)如圖3所示。LSTM單元接收上一時(shí)刻的輸出隱藏狀態(tài)和當(dāng)前輸入,通過(guò)輸入門、遺忘門以及輸出門更新狀態(tài),并輸出當(dāng)前結(jié)果。其中:遺忘門決定上一時(shí)刻的信息是否需要遺忘;輸入門決定當(dāng)前時(shí)刻的信息是否需要保留;輸出門用于控制有多少信息從憶單元傳遞到下一時(shí)刻的隱藏狀態(tài)。

圖3 LSTM單元結(jié)構(gòu)
因此,有方法采用基于CNN-LSTM的編碼-解碼框架,建立屬性與LSTM模型之間的相互依賴性和相關(guān)性。此方法用于行人屬性識(shí)別任務(wù)上的過(guò)程如圖4所示。

圖4 基于序列預(yù)測(cè)的行人屬性識(shí)別過(guò)程
Wang[49]等提出將CNN和LSTM結(jié)合,為了充分挖掘?qū)傩陨舷挛男畔⒑蛯傩灾g的關(guān)系,采用序列對(duì)序列模型處理此問(wèn)題。首先,把給定的行人分割成m條水平帶,形成區(qū)域序列,然后利用LSTM網(wǎng)絡(luò)以順序的方式編碼。此方法在PETA數(shù)據(jù)集上取得了85.67%的識(shí)別準(zhǔn)確率。Zhao[37]等則是先把屬性按位置分組,比如頭部屬性包括發(fā)長(zhǎng)、眼鏡和帽子等,再采用人體關(guān)鍵點(diǎn)檢測(cè)技術(shù),融合全局和局部特征,利用LSTM對(duì)屬性組中的空間和語(yǔ)義相關(guān)性進(jìn)行建模。該混合框架在PETA數(shù)據(jù)集上取得了86.7%的識(shí)別率。為了更好地利用屬性的空間相關(guān)性,Xin等[46]采用了(Convolutional Long Short-Term Memory ,ConvLSTM)網(wǎng)絡(luò),相比于LSTM,此網(wǎng)絡(luò)在建立時(shí)空關(guān)系上有更好的效果。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征圖,再將提取的特征映射逐個(gè)組地輸入到ConvLSTM中,并產(chǎn)生基于屬性的注意力映射。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法能夠很好地利用屬性標(biāo)簽和時(shí)間相關(guān)性對(duì)行人圖像特征建模,但其識(shí)別準(zhǔn)確率還有待提高。
行人屬性識(shí)別方法性能的評(píng)估,需要在行人屬性數(shù)據(jù)集上分析比較。數(shù)據(jù)集在行人屬性識(shí)別中發(fā)揮著重要的作用,常用的行人屬性識(shí)別數(shù)據(jù)集有PETA(PEdesTrian Attribute)、RAP、PA-100K和Market-1501。下面介紹以上4個(gè)數(shù)據(jù)集以及衡量屬性識(shí)別效果的常用評(píng)價(jià)指標(biāo),并對(duì)部分方法在PETA和RAP數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果進(jìn)行分析對(duì)比。
PETA[19]數(shù)據(jù)集是2014年發(fā)布,由10個(gè)公開的小規(guī)模數(shù)據(jù)集構(gòu)成,數(shù)據(jù)集圖像如圖5(a)所示。整個(gè)數(shù)據(jù)集由19 000幅圖像組成,分辨率從17×39到169×365不等,共包含8 705個(gè)人,每個(gè)行人樣本分為61個(gè)二進(jìn)制和4個(gè)多類屬性,其中,訓(xùn)練集有9 500個(gè)圖像,1 900張用于驗(yàn)證和7 600張用于測(cè)試。但是,PETA數(shù)據(jù)集中一個(gè)人的樣本僅通過(guò)隨機(jī)選取注釋一次,共享相同的屬性,導(dǎo)致其他一些屬性被忽略。雖然這種方法在一定程度上是合理的,但并不十分適用于視覺(jué)感知檢測(cè)。
RAP[50]數(shù)據(jù)集來(lái)自真實(shí)的室內(nèi)監(jiān)視場(chǎng)景,數(shù)據(jù)集包含26個(gè)攝像頭拍攝的圖像,如圖5(b)所示,其包含41 585個(gè)樣本,分辨率范圍從36×92到344×554不等,其中,有33 268幅圖像用于訓(xùn)練,剩下的用于測(cè)試。每個(gè)樣本圖像含有69個(gè)二進(jìn)制屬性和3個(gè)多類別屬性,共72個(gè)細(xì)粒度屬性。此數(shù)據(jù)集對(duì)不同身體部位進(jìn)行標(biāo)注,對(duì)屬性的標(biāo)注比較詳細(xì)。
PA-100K[42]數(shù)據(jù)集由598個(gè)真實(shí)的室外監(jiān)控?cái)z像頭采集到的圖像構(gòu)成,如圖5(c)所示,其包括100 000幅行人圖像,分辨率從50×100到758×454不等,目前是行人屬性識(shí)別的最大數(shù)據(jù)集。整個(gè)數(shù)據(jù)集被隨機(jī)分成訓(xùn)練、驗(yàn)證和測(cè)試集,比例為8∶1,由26個(gè)屬性組成,標(biāo)簽為0或1,分別表示是否存在相應(yīng)的屬性。
Market-1501[51]數(shù)據(jù)集是由清華大學(xué)一家超市前的6個(gè)攝像頭收集,如圖5(d)所示。在這個(gè)數(shù)據(jù)集中有1 501個(gè)行人和32 668個(gè)帶注釋的邊界框。訓(xùn)練集有751個(gè)人,12 936張圖片,測(cè)試集有750人,19 732張圖像,分別對(duì)應(yīng)于12 936和19 732幅圖像。此數(shù)據(jù)集中的每個(gè)圖像都帶有27個(gè)屬性的注釋。

圖5 4個(gè)數(shù)據(jù)集的行人圖像示例
由行人屬性識(shí)別的數(shù)據(jù)集可知,來(lái)自實(shí)真實(shí)監(jiān)控?cái)z像頭下的行人圖像的背景是很復(fù)雜的,除了圖像的分辨率低等問(wèn)題,還有姿勢(shì)大幅度變化、光線變化、遮擋以及視角變化等復(fù)雜環(huán)境中非可控因素,如圖6所示。圖6(a)中行人姿勢(shì)變化容易導(dǎo)致屬性漏檢或誤撿。圖6(b)中光線變化導(dǎo)致拍攝過(guò)程中視圖顏色對(duì)比度差別大,容易錯(cuò)誤識(shí)別屬性。圖6(c)中行人明顯存在部分遮擋的情況,容易混淆目標(biāo)。圖6(d)由于拍攝視角的變化,行人所在位置不在整個(gè)圖像的正中央,行人不是圖像的主體,這就要求行人檢測(cè)框能夠靈活、準(zhǔn)確地檢測(cè)出行人。圖6(e)是攝像機(jī)分辨率低,無(wú)法提取更多的細(xì)粒度特征,這種情況下需要對(duì)圖像清晰化處理。

圖6 復(fù)雜環(huán)境中的非可控因素
衡量行人屬性識(shí)別能力的兩個(gè)指標(biāo)為基于標(biāo)簽的評(píng)價(jià)指標(biāo)[20]和基于樣本的評(píng)價(jià)指標(biāo)[53]?;跇?biāo)簽的評(píng)價(jià)方式是先分別計(jì)算每個(gè)屬性正樣本和負(fù)樣本識(shí)別對(duì)的比例,再將二者平均作為每一個(gè)屬性的準(zhǔn)確度,所有樣本的平均精度作為評(píng)價(jià)指標(biāo)。但是,此評(píng)價(jià)準(zhǔn)則獨(dú)立地對(duì)待每個(gè)屬性,忽略了在多屬性識(shí)別問(wèn)題中屬性間的相關(guān)性。
基于樣本的評(píng)價(jià)方式是根據(jù)每個(gè)樣本對(duì)分對(duì)屬性和分錯(cuò)屬性的關(guān)系,分別計(jì)算準(zhǔn)確率、精確率、召回率和F1-score等4個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。
基于常規(guī)網(wǎng)絡(luò)、基于注意力機(jī)制、基于部件識(shí)別和基于序列檢測(cè)等4類行人屬性識(shí)別方法的技術(shù)和特點(diǎn),如表1所示。

表1 4類行人屬性識(shí)別方法的特點(diǎn)總結(jié)
表2對(duì)比了文獻(xiàn)[27]、文獻(xiàn)[37]、文獻(xiàn)[44]和文獻(xiàn)[52]等4種方法的各個(gè)評(píng)價(jià)指標(biāo)。由表2可以看出,文獻(xiàn)[37]方法平均精度值表現(xiàn)最好,該方法將部件分割和序列檢測(cè)結(jié)合起來(lái),在PETA和RAP這兩個(gè)數(shù)據(jù)集上表現(xiàn)較均衡。在所有的評(píng)估標(biāo)準(zhǔn)中,4種方法在PETA數(shù)據(jù)集上的識(shí)別率比RAP數(shù)據(jù)集上的略高一些。不同場(chǎng)景下的數(shù)據(jù)集,存在明顯差異,因此,需要提出適合于不同場(chǎng)景數(shù)據(jù)集的算法。

表2 典型方法性能對(duì)比結(jié)果
對(duì)基于深度學(xué)習(xí)的行人屬性方法以及近幾年的研究熱點(diǎn)進(jìn)行了綜述,并分析對(duì)比了基于常規(guī)網(wǎng)絡(luò)、部件分割、注意力機(jī)制以及序列檢測(cè)等4類方法的優(yōu)缺點(diǎn),表明雖然行人屬性識(shí)別技術(shù)在幾個(gè)大規(guī)模的數(shù)據(jù)集上取得了進(jìn)展,但仍有一些實(shí)際性問(wèn)題需要解決。因此,對(duì)行人屬性識(shí)別方法未來(lái)研究方向展望如下。
1)基于深度學(xué)習(xí)的行人屬性識(shí)別方法的數(shù)據(jù)集標(biāo)注很重要。現(xiàn)有的數(shù)據(jù)集標(biāo)注存在標(biāo)注不明和標(biāo)注錯(cuò)誤的現(xiàn)象,將會(huì)影響行人屬性識(shí)別技術(shù)的發(fā)展。如果在標(biāo)注中考慮到位置信息,對(duì)不同位置的屬性進(jìn)行詳細(xì)標(biāo)注,利用人體部位信息,設(shè)計(jì)出更合適的網(wǎng)絡(luò),將會(huì)提升識(shí)別效果。
2)深度學(xué)習(xí)模型雖然能使算法精度得到提升,但針對(duì)于細(xì)粒度屬性的識(shí)別,還需要設(shè)計(jì)特定行人屬性識(shí)別網(wǎng)絡(luò)架構(gòu)。無(wú)論是基于部件的方法還是注意力方法,都是希望在屬性特定位置上識(shí)別出來(lái),這些位置信息將會(huì)回傳給屬性識(shí)別網(wǎng)絡(luò),怎樣去融合這些結(jié)構(gòu),需要更多的研究。而加深深度神經(jīng)網(wǎng)絡(luò),雖然性能得到提升,但是計(jì)算量的增加和模型參數(shù)更新時(shí)的繁瑣問(wèn)題,勢(shì)必影響訓(xùn)練時(shí)的效率,仍需找到高速、有效的算法彌補(bǔ)上述不足。