999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM的無監督域自適應行人重識別①

2021-02-23 06:30:22胡卓晶
計算機系統應用 2021年2期
關鍵詞:特征模型

胡卓晶,王 敏

(河海大學 計算機與信息學院,南京 210024)

1 引言

行人重識別(person re-identification)又稱行人再識別,被廣泛認為是圖像檢索的子問題,其目標是給定一張監控行人圖像,跨設備檢索該行人,即確認不同攝像頭在不同時刻拍到的是否為同一行人.如何提取行人特征以及如何進行相似度度量就是行人重識別需要解決的核心問題.行人重識別與行人檢測、行人跟蹤技術相結合,在公共安防的刑偵工作中以及圖像檢索等場景中有很高的應用價值.但由于圖像拍攝的時間、地點隨機,且光線、角度、行人姿態不同,再加上行人容易受到檢測精度、遮擋等因素的影響,不同攝像頭下造成行人外觀的巨大變化,因此行人重識別技術仍面臨著重大的挑戰.

早期的行人重識別研究集中于如何手工設計好的視覺特征以及如何學習更好的相似性度量.隨著深度學習的發展,鑒于其可以自動提取圖像特征并學習好的相似度度量,研究者們致力于利用深度學習技術來研究行人重識別.起初研究者們主要關注的是用網絡提取單幀圖片的全局特征,根據損失的不同分為表征學習和度量學習兩大類,前者將行人重識別問題看作分類問題或驗證問題:利用行人ID 或屬性等作為標簽來訓練模型或輸入一對行人圖片,網絡通過學習特征表示來判斷兩張圖片是否屬于同一行人;后者旨在通過網絡學習出兩張圖片的相似度.全局特征的學習遇到性能瓶頸后,研究者引入局部特征和序列特征進行研究,并作為全局特征的重要補充.Sun 等[1]在PCB的基礎上,通過測量余弦距離,為各分區的離群值進行重新分區進而細化模型.Wang 等[2]將圖像均勻地水平劃分為若干塊,并在各局部分支中改變分區的數量,從而獲得具有多個粒度的全局和局部特征表示.目前行人重識別在有監督學習方面已取得了很好的成績.但有監督學習的一個最大限制是為數據貼標簽的成本過高,在如今數據爆炸的時代下將行人重識別技術應用于實際的可能性微乎其微.為解決上述難題,研究者們開始逐漸嘗試利用無標簽數據進行訓練,越來越多基于半監督和無監督的行人重識別方法開始出現.Wu 等[3]首先使用每個身份的一個有標簽的軌跡來初始化模型,然后使用該模型特征表示的識別能力來為未標記的軌跡賦標簽,提出一種循序漸進的抽樣策略,逐步增加偽標簽候選項的數目,以取代現有的靜態抽樣策略.Deng 等[4]以無監督的方式將有標簽的圖像從源域轉換到目標域,然后用轉換后的圖像以有監督的方式訓練行人重識別模型.Fu 等[5]在源域上進行模型的預訓練,然后利用無標簽樣本中(包含全局和局部)潛在的相似性從不同視角構建多個聚類并為其分配偽標簽,分組和細化迭代進行.從研究者們的實驗來看,遷移學習的優勢十分明顯,可以充分利用有限的有標簽數據集,將有標簽數據與無標簽數據相結合共同訓練網絡,從而更好地解決行人重識別問題.

在實際應用中,對大規模數據集貼標簽成本過高,且各攝像頭所拍攝圖像的風格差異較大.在本文中,利用有標簽的源域數據集和經過風格轉換的無標簽目標域數據集同時對模型進行訓練,這種設置在解決實際問題時更有意義.本文提出的網絡架構包含全局分支和局部分支,局部分支利用LSTM 實現,以更好地利用行人圖像的各局部信息生成更加魯棒的行人特征表示.通過這種方式,可以更好地優化模型,提升模型在目標域測試集上的泛化能力.下面將具體介紹本文所提出的行人重識別方法.

2 基于LSTM 的無監督域自適應行人重識別

在行人重識別領域,對于無監督域自適應問題,有標簽的源域數據集 {Xs,Ys}包含Ns張行人圖片,每張圖片xs對應一個標簽ys,其中ys∈{1,2,···,Ms},并且Ms是有標簽的源域數據集中行人ID 的數量.同樣,在無標簽的目標域中有Nt張無標簽的目標域圖片{Xt},其中每張目標域圖片xt的身份是未知的.本文的目的就是利用有標簽的源域圖片和無標簽的目標域圖片來提升模型在目標域測試集上的泛化能力.

2.1 網絡架構

圖1展示了本文模型的網絡架構圖.采用在Image-Net 上預訓練的ResNet50 作為主干網絡,其在一些行人重識別的研究中已取得了不錯的性能.與原版本的不同之處在于我們移除了最后的全局平均池化層和1000維全連接層,并添加了兩個獨立的分支,分別學習全局特征表示和局部特征表示.第一個分支是全局分支,學習行人的全局特征表示,第一個全連接層的輸出是2048 維,命名為FC-2048,第二個全連接層的輸出維度為源域ID 數量,命名為FC-#ID.基于整張行人圖片學習特征表示關注的更多的是整體的信息,包含體型等高維語義信息.然而在很多情況下,人體的局部比如頭部、上半身、下半身含有更多具有判別力的信息,一些基于身體部位來學習特征表示的方法也證明其可以提升行人重識別的效果.因此學習行人的局部特征表示可以作為全局特征表示的一個強有力的補充.大多數基于局部的方法會將各身體部位嚴格劃分后各自輸入到完全獨立的分支中,但這種方式忽略了各部位之間的空間連通性,會損失一部分各關聯區域有判別力的信息,因此在本文提出的局部分支中我們將特征向量水平劃分為3 個部分,再使用雙向LSTM 將各個區域連接起來就像是一個從頭到腳的序列,這樣可以增強各部位之間的連通性.局部分支中通道維度是2048維,雙向LSTM 的隱層單元數設為256,后續全連接層的命名方式同前一個分支一樣,兩個分支共享POOL-5之前的部分.這樣通過結合全局特征和基于LSTM 的局部特征能夠增強行人重識別模型所學特征的判別力.

本文提出的網絡架構中各分支均使用兩個損失函數來學習,一個是用于分類的交叉熵損失,增強模型的判別能力;一個是進行相似度學習的三元組損失,用于增強模型的相機不變性和域連通性.

圖1 網絡架構圖

網絡架構圖中的斷點箭頭為目標域訓練集所經過的分支,空心箭頭為源域訓練集經過的分支,實心箭頭為兩個訓練集共同經過的部分.

2.2 相機風格轉換

在行人重識別測試階段,由攝像頭造成的圖片風格差異是一個關鍵的影響因素.為使目標域圖片不受相機風格轉換的影響,我們使用無標簽的目標域圖片和該行人在其他相機中的對應圖片進行相機一致性學習.我們采用StarGAN[6]構建的相機風格轉換模型對目標域訓練集進行風格遷移,這是因為StarGAN 允許采用單個模型來訓練多相機之間的圖片-圖片轉換.使用學到的StarGAN 模型,對于目標域訓練集第j(j∈1,2,···,C)個 相機拍攝的真實圖片,我們可以生成C張偽造的圖片xt?,1,xt?,2,···,xt?,C,所生成的圖片都或多或少保留了行人的身份信息,但是整體風格分別與相機1,2,···,C類似.為在目標訓練集中學習相機不變的行人特征映射,我們將原圖與對應的生成圖片視作同一類,其余圖片視作不同類.

2.3 基于LSTM 的局部特征表示學習

PCB[1]、MGN[2]等證實采用局部特征進行行人圖像描述可以學到更加細粒度的特征,因而提升行人重識別的性能.大多數基于部分的方法將行人身體部位嚴格劃分,劃分后得的各部分被輸入到獨立的分支來學習對應的局部特征.但部分獨立學習的過程忽略了各部位之間的空間連通性,而這在行人重識別中對學習有判別力且魯棒的特征映射是相當有用的.假如直接將行人水平劃分為3 部分,各行人姿態不同,可能在某些判別力強的部位進行分割,如衣服上的logo 分割后各部分單獨學習,無法學習完整的有判別力的特征,從而降低模型的判別能力.我們注意到行人自上而下可以劃分為一個從頭到腳的序列,即使在不同圖片中各部分不會穩定在某一位置,所有的部分可以以一種序列的方式得益于身體結構的先驗知識.LSTM 單元架構圖如圖2所示.LSTM 單元之間的循環連接能夠生成依賴歷史輸入的特征.更重要的是,受益于內部門機制,LSTM 可以控制信息從當前狀態流入下一狀態.基于上述分析,我們采用LSTM 來為行人重識別建模身體序列.

LSTM 單元結構:包含一個細胞模塊ct和3 個門,分別是輸入門it、輸出門ot以及遺忘門ft,在t時刻,LSTM 將第t個特征切片xt和前一個隱層的狀態ht?1作為輸入,并且預測一個特征向量ot.

圖2 LSTM 單元架構圖

2.4 損失函數

如2.1 節所述,不同分支所學到的行人特征是互補的,因此我們聯合訓練整個網絡學習具有判別力的全局特征和局部特征來預測行人身份.我們提出的模型不僅關注特征表示,還關注特征學習.給定有標簽的訓練集,一個有效的策略是為行人重識別學習ID 判別映射(IDE),利用交叉熵損失將訓練過程轉換為分類問題,該策略利用所學的深層特征來區分不同的行人ID.交叉熵損失公式如下:

其中,ns為一個訓練批中有標簽的訓練圖片數量,pi(y)指的是輸入圖片屬于真實類別y的可能性.

但行人重識別的需求是將待檢索圖片與圖庫圖片進行配對,而分類任務并不能直接學習行人重識別所要求的相似度.此外,基于IDE 的模型在有標簽數據集上能得到很好的性能,但遷移到一個新的數據集時,性能就會大打折扣,研究表明,利用三元組損失訓練的距離排序分支可以學習圖片的相似度.在整個訓練過程中將交叉熵損失與三元組損失聯合訓練也是行人重識別框架中的一種傳統操作.這樣,判別分支和應用三元組損失的距離排序分支可以互補.接下來介紹我們提出的模型的訓練策略.

如圖1所示,有標簽的源域圖片和無標簽的目標域圖片同時輸入到網絡中,在全局分支,有標簽的源域圖片利用交叉熵損失和三元組損失來訓練,無標簽的目標域數據集行人ID 數未知,因此僅利用三元組損失進行優化訓練.三元組損失函數如下:

式(2)中,隨機選擇訓練樣本的P個行人ID,以及各ID 對應的K個樣本,、、分別為anchor、positive以及negative 的特征表示,上標中的i、j分別表示的是行人ID,α指的是三元組損失中的參數margin.通過Triplet Loss 的學習后使得positive 元和anchor 元之間的距離最小,而和negative 之間距離最大.其中anchor為訓練數據集中隨機選取的一個樣本,positive 為與anchor 屬于同一類的樣本,而negative 則為與anchor不同類的樣本.

同全局分支一樣,在基于局部的分支中,有標簽的源域圖片同樣利用交叉熵損失和三元組損失來訓練,無標簽的目標域圖片利用三元組損失訓練.

在行人重識別任務中,不同的域包含完全不同的類別或身份,因此一張源域圖片和一張目標域圖片自然構成一對負訓練樣本對.以此為先驗條件,我們提出通過將源域和經過風格轉換的目標域圖片視為負樣本對來為系統習得域連通性.給一張源域圖片,我們使用源域標簽構造一對正樣本對,然后選擇一張經過風格轉換的目標域圖片形成負樣本對.因此給定有標簽的源域圖片和無標簽的目標域圖片,域連通性學習的損失函數可以定義為:

最后,在一個訓練批中的總的損失函數可以描述為:

其中,θ是平衡交叉熵損失和域連通性損失的權重因子.

2.5 最大池化和平均池化

平均池化考慮特定部分的整個區域,因此,平均池化所生成的特征表示的判別能力很容易受到不相關背景模式的影響.例如,行人的某個分區判別能力很強,但由于周圍有背景,此時全局平均池化所得到的是該部分與周圍背景的平均值,因此削弱該部分的判別能力.相反,全局最大池只保留局部視圖的最大響應值.我們認為這兩種池化策略在從全局和局部視圖生成特性表示方面是互補的.因此,我們在模型中聯合這兩種池化策略,以融合并發揮這兩種策略的優勢.

3 實驗分析

3.1 實驗數據與評估標準

本文在行人重識別的兩個常用行人數據集上進行訓練與評估,分別為:Market-1501[7]和DukeMTMCReID[8,9].其中Market-1501 包含6 個攝像頭下的1501 個行人的32 668 張圖片,為方便評估,751 個行人的12 936張圖片用于訓練,剩余的750 個行人的10 732 張圖片作為評估數據集.DukeMTMC-ReID 數據集包含8 個攝像頭下的1404 個行人的36 411 張圖片,類似于Market-1501 的劃分,該數據集包含702 個行人的16 522 張訓練圖片和剩余702 個行人的2228 張待查找圖片以及17 661 張圖片形成的圖庫.本文在各數據集上使用傳統的平均準確度mAP 和rank-n對實驗結果進行評估.

3.2 實驗環境及參數配置

本實驗選取在ImageNet 上預訓練的ResNet50 作為主干網絡,移除最后的全連接層和全局平均池化層.通道數設為2048,雙向LSTM 中的隱層單元數設為256,三元組特征維度為128.我們的模型基于PyTorch框架實現,使用兩個NVIDIA TITAN X GPU 進行訓練.

本實驗中采用通用的數據增強策略,在訓練時首先將所有圖片大小調整為256×128;然后隨機裁剪每一張調整后的圖像,尺寸在區間[0.64,1.0]內,長寬比為[2,3];再將裁剪后的圖片大小調整為256×128,應用概率為0.5 的隨機水平翻轉.在測試階段,僅將輸入圖片大小調整為256×128.模型的訓練過程總共30 個epoch,使用Adam 優化器進行訓練.訓練階段學習率初始化為3e–4.三元組損失中的邊緣參數被置為0.5,參數θ 置為0.3,dropout 率為50%.測試時,提取POOL-5 層的輸出作為圖片的特征表示,并采用歐氏距離來計算待查找圖片和數據庫圖片之間的相似度.

3.3 實驗比較

將我們的方法與最先進的無監督學習方法進行比較.表1給出了以Market-1501/Duke 為源數據集,以Duke/Market-1501 為目標數據集時的比較.其中LOMO[10]和Bow[7]是人工提取特征的方法,CAMEL[11]是無監督學習方法,PTGAN[12]、SPGAN[4]、SPGAN+LMP[4]、TJ-AIDL[13]和HHL[14]是無監督域自適應方法.兩種人工提取的特征直接應用于測試集而不需要任何訓練,但很明顯,這兩種方法的性能都較差.很明顯,在目標域數據集上進行訓練時,無監督方法的性能總是優于人工提取特征.與無監督域自適應方法相比,本文提出的方法性能更好.具體來說,在Market-1501上測試,我們的結果高于所有競爭方法,rank-1 準確率=65.8%,mAP=35.2%.例如,與最近發表的HHL 方法[14]相比,我們的結果在rank-1 精度上提高了3.6%,在mAP 上提高了3.8%.在DukeMTMC-reID 上進行測試,我們的方法獲得rank-1 準確率=48.1%,mAP=28.7%,也優于之前的方法.驗證了我們方法的有效性.

表1 與當前先進算法性能比較

4 結論與展望

本文提出了一種新的無監督域自適應方法來解決無標簽的行人重識別問題,本次實驗考慮不同數據集及各相機間拍攝風格的差異,充分利用現有的有標簽的數據來輔助無標簽數據集聯合訓練網絡,在學習相機不變性和域聯通性的同時,利用LSTM 來對行人進行建模,提取細粒度特征的同時增強了各局部區域之間的連通性,全局特征與局部特征相結合以學習更加魯棒的行人特征表示,進一步提升模型在無標簽目標域的判別力.在數據集Market-1501 和DukeMTMCReID 上的實驗結果表明本文提出的方法效果良好.但對于行人重識別問題的實際應用,尤其是在半監督和無監督方面,仍面臨著巨大而挑戰,未來有很多工作值得去做.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久综合色天堂av| 国产视频自拍一区| 中文字幕久久波多野结衣| 一级爱做片免费观看久久| 伊人国产无码高清视频| 国产精品无码作爱| 一区二区三区国产| 国产乱子伦手机在线| 国产在线视频自拍| 精品国产99久久| 国产精品夜夜嗨视频免费视频| 777午夜精品电影免费看| 国内熟女少妇一线天| 在线观看的黄网| 久久黄色一级片| 亚洲欧美在线看片AI| 伊人91视频| 亚洲第一福利视频导航| 日韩av无码DVD| 久久久久国产精品熟女影院| 天天综合网色| 国产区福利小视频在线观看尤物| 国产免费网址| 亚洲成人一区二区| 97超爽成人免费视频在线播放| 国产一区亚洲一区| 一级黄色片网| 国产日韩丝袜一二三区| 五月天丁香婷婷综合久久| 色噜噜综合网| 夜精品a一区二区三区| 国产亚洲精品97在线观看| 久久精品波多野结衣| 国产精品亚洲一区二区三区z| 亚洲性视频网站| 欧美区一区| 免费中文字幕一级毛片| 国产精品香蕉| 黄色网站在线观看无码| 亚洲免费福利视频| 黄色网站在线观看无码| 伊人久久福利中文字幕| 欧美在线一二区| 特级做a爰片毛片免费69| 2022国产无码在线| 国产美女在线观看| 欧美69视频在线| 欧美在线视频a| 视频二区国产精品职场同事| 欧美高清国产| 亚洲精品无码不卡在线播放| 不卡视频国产| 国产丝袜一区二区三区视频免下载| 不卡视频国产| 九色在线观看视频| 国产一级二级在线观看| 亚洲天堂网2014| 成人国产精品一级毛片天堂| 亚洲欧美天堂网| 超碰aⅴ人人做人人爽欧美 | 亚洲午夜福利精品无码不卡| 国产麻豆91网在线看| 欧美三級片黃色三級片黃色1| 99精品国产高清一区二区| 国产成人精品在线| 71pao成人国产永久免费视频| 色综合五月婷婷| 2021国产乱人伦在线播放| 亚欧成人无码AV在线播放| 老司机aⅴ在线精品导航| jijzzizz老师出水喷水喷出| 国产精品va| 国产在线高清一级毛片| AV熟女乱| 国产欧美高清| 99久久这里只精品麻豆| 制服丝袜 91视频| 日韩123欧美字幕| 国产欧美专区在线观看| 国产欧美又粗又猛又爽老| 最近最新中文字幕在线第一页| 国产欧美网站|