作者簡(jiǎn)介:金大鵬(1998-),男,江蘇泰州人,碩士研究生,主要研究方向?yàn)橹鲃?dòng)學(xué)習(xí);李旻先,男(通信作者),江蘇南京人,副教授,博士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、機(jī)器視覺(jué)、目標(biāo)檢測(cè)、跟蹤和再識(shí)別(minxianli@njust.edu.cn).
摘 要:基于監(jiān)督學(xué)習(xí)的行人再識(shí)別方法需要大量人工標(biāo)注的數(shù)據(jù),對(duì)于實(shí)際應(yīng)用并不適用。為了降低大規(guī)模行人再識(shí)別的標(biāo)注成本,提出了一種基于支持對(duì)挖掘主動(dòng)學(xué)習(xí)(support pair active learning,SPAL)的行人再識(shí)別方法。具體地,建立了一種無(wú)監(jiān)督主動(dòng)學(xué)習(xí)框架,在該框架中設(shè)計(jì)了一種雙重不確定性選擇策略迭代地挖掘支持樣本對(duì)并提供給標(biāo)注者標(biāo)注;其次引入了一種約束聚類算法,將有標(biāo)簽的支持樣本對(duì)的關(guān)系傳播到其他無(wú)標(biāo)簽的樣本中;最后提出了一種由無(wú)監(jiān)督對(duì)比損失和監(jiān)督支持樣本對(duì)損失組成的混合學(xué)習(xí)策略來(lái)學(xué)習(xí)具有判別性的特征表示。在大規(guī)模行人再識(shí)別數(shù)據(jù)集MSMT17上,該方法相比于當(dāng)前最先進(jìn)的方法,標(biāo)注成本降低了64.0%,同時(shí)mAP和rank1分別提升了11.0%和14.9%。大量實(shí)驗(yàn)結(jié)果表明,該方法有效地降低了標(biāo)注成本并且優(yōu)于目前最先進(jìn)的無(wú)監(jiān)督主動(dòng)學(xué)習(xí)行人再識(shí)別方法。
關(guān)鍵詞:行人再識(shí)別;無(wú)監(jiān)督主動(dòng)學(xué)習(xí);約束聚類;不確定性選擇
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)04-042-1220-06
Abstract:Supervised-learning based person re-identification requires a large amount of manual labeled data,which is not applicable in practical deployment.This paper proposed a support pairs active learning(SPAL)re-identification framework to lower the manual labeling cost for large-scale person re-identification.Specifically,this paper built a kind of unsupervised active learning framework,and it designed a dual uncertainty selection strategy to iteratively discover support pairs and required human annotations in this framework.Afterwards,it introduced a constrained clustering algorithm to propagate the relationships of labeled support pairs to other unlabeled samples.Moreover,it proposed a hybrid learning strategy consisting of an unsupervised contrastive loss and a supervised support pairs loss to learn the discriminative feature representation.On large-scale person re-identification dataset MSMT17,compared with the state-of-the-art methods,the labeling cost of the proposed method is reduced by 64%,mAP and rank1 are increased by 11.0% and 14.9% respectively.Extensive experiments demonstrate that it can effectively lower the labeling cost and is superior to state-of-the-art unsupervised active learning person re-identification methods.
Key words:person re-identification(ReID);unsupervised active learning;constrained clustering;uncertainty selection
0 引言
行人再識(shí)別(ReID)的目的是在不重疊的相機(jī)下識(shí)別同一個(gè)人,這是計(jì)算機(jī)視覺(jué)中一個(gè)具有挑戰(zhàn)性的任務(wù)。近年來(lái),隨著公共安全需求的提升和監(jiān)控?cái)z像頭數(shù)量的增加,行人再識(shí)別任務(wù)引起了廣泛的研究。其中,基于監(jiān)督學(xué)習(xí)的行人再識(shí)別方法[1,2]通過(guò)為每個(gè)行人的圖像提供身份標(biāo)簽(ID),取得了良好的性能。然而,這依賴于大量的人工標(biāo)注,并不適用于大規(guī)模行人再識(shí)別的應(yīng)用。
為了降低標(biāo)注成本,三類行人再識(shí)別方法被提出:
a)基于無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning,USL)的方法[3~6]不需要人工標(biāo)注的標(biāo)簽信息,在無(wú)標(biāo)簽的圖像上訓(xùn)練模型。由于缺少跨相機(jī)的標(biāo)簽信息,這類方法無(wú)法學(xué)習(xí)到不同相機(jī)視角下顯著變化的特征表示。
b)基于半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)的方法[7,8]需要部分有標(biāo)簽信息的數(shù)據(jù)(例如,每個(gè)ID標(biāo)注一張圖像)來(lái)進(jìn)行模型的訓(xùn)練。事實(shí)上,半監(jiān)督學(xué)習(xí)方法的設(shè)定是基于已知少量樣本的身份標(biāo)簽,其所需身份標(biāo)簽信息的標(biāo)注成本仍非常高,相當(dāng)于監(jiān)督學(xué)習(xí)方法中標(biāo)注成本的復(fù)雜度。
c)基于主動(dòng)學(xué)習(xí)(active learning,AL)方法[9~12]的目標(biāo)是選擇最具代表性的樣本對(duì)子集進(jìn)行標(biāo)注和訓(xùn)練。由于迭代式的標(biāo)注過(guò)程,主動(dòng)學(xué)習(xí)的人工標(biāo)注成本是有限并且可控的。
盡管現(xiàn)有的主動(dòng)學(xué)習(xí)方法能夠平衡行人再識(shí)別的性能和標(biāo)注成本,但樣本對(duì)的標(biāo)注量仍然很高。通過(guò)無(wú)監(jiān)督學(xué)習(xí)框架[4]可以準(zhǔn)確地預(yù)測(cè)絕大部分成對(duì)樣本的關(guān)系,即通過(guò)聚類方法可以減少樣本標(biāo)注的冗余性。基于此,本文建立了一種無(wú)監(jiān)督主動(dòng)學(xué)習(xí)框架,其通過(guò)對(duì)無(wú)標(biāo)簽圖像數(shù)據(jù)的約束聚類,挖掘聚類結(jié)構(gòu)中的關(guān)鍵樣本對(duì),對(duì)這些關(guān)鍵樣本對(duì)進(jìn)行少量人工標(biāo)注,有效地改善行人再識(shí)別模型的特征表示學(xué)習(xí),從而達(dá)到降低行人再識(shí)別數(shù)據(jù)標(biāo)注成本的目的。
為此,本文提出了一種基于支持對(duì)挖掘的主動(dòng)學(xué)習(xí)(support pair active learning,SPAL)行人再識(shí)別方法。為了有效地降低標(biāo)注成本,本文方法著重于從未標(biāo)注樣本中挖掘和利用支持樣本對(duì)。支持樣本對(duì)是指能夠提供最具信息量的關(guān)系并且能夠支持判別性特征學(xué)習(xí)的樣本對(duì)。具體而言,采用雙重不確定性選擇策略(dual uncertainty selection,DUS)選擇具有不確定性的正樣本對(duì)和具有不確定性的負(fù)樣本對(duì),然后要求專家進(jìn)行人工標(biāo)注。為了擴(kuò)展標(biāo)注的支持樣本對(duì)之間的關(guān)系,引入一種約束聚類(constrained clustering)算法,通過(guò)滿足由支持樣本對(duì)形成的必連約束(must-link,ML)和不連約束(cannot-link,CL)這兩種約束關(guān)系實(shí)現(xiàn)可靠的聚類。為了有效地優(yōu)化特征表示模型,本文提出了一種混合損失學(xué)習(xí),包括無(wú)監(jiān)督對(duì)比損失和監(jiān)督支持樣本對(duì)損失。通過(guò)支持樣本對(duì)的選擇和有效的學(xué)習(xí)策略,SPAL可以逐步地獲得可靠的聚類和具有判別性的特征表示模型,以較低的人工標(biāo)注成本獲得較好的性能。
本文主要貢獻(xiàn)如下:
a)針對(duì)大規(guī)模行人再識(shí)別提出了基于支持樣本對(duì)的主動(dòng)學(xué)習(xí)行人再識(shí)別方法。與監(jiān)督學(xué)習(xí)方法相比,該模型以更少的標(biāo)注成本獲得具有競(jìng)爭(zhēng)力的性能。
b)提出了一種雙重不確定性選擇策略選擇最具信息量的樣本對(duì)進(jìn)行人工標(biāo)注。
c)引入一種約束聚類算法,利用標(biāo)注的支持樣本對(duì)實(shí)現(xiàn)可靠的聚類;提出了一種混合學(xué)習(xí)損失,包括無(wú)監(jiān)督對(duì)比損失和監(jiān)督支持樣本對(duì)損失,有效地優(yōu)化特征表示模型。
d)在大規(guī)模行人再識(shí)別基準(zhǔn)Market-1501[13]、DukeMTMC-ReID[14]、MSMT17[15]、LaST[16]、CUHK-03-D[17]、CUHK-SYSU[18]上的大量實(shí)驗(yàn)證明了SPAL的雙重優(yōu)勢(shì),即標(biāo)注成本低且再識(shí)別性能高。
1 相關(guān)工作
a)基于無(wú)監(jiān)督學(xué)習(xí)的行人再識(shí)別方法。根據(jù)訓(xùn)練階段是否使用額外的數(shù)據(jù),無(wú)監(jiān)督學(xué)習(xí)方法可以分為兩類:(a)純無(wú)監(jiān)督學(xué)習(xí)(pure unsupervised learning),大多數(shù)純無(wú)監(jiān)督學(xué)習(xí)行人再識(shí)別方法[3,19]采用聚類算法為每個(gè)類簇生成偽標(biāo)簽,然后使用偽標(biāo)簽來(lái)訓(xùn)練模型;(b)無(wú)監(jiān)督域適應(yīng)(unsupervised domain adaptation,UDA),UDA方法旨在將從有標(biāo)簽的源域?qū)W習(xí)到知識(shí)轉(zhuǎn)移到無(wú)標(biāo)簽的目標(biāo)域。具體而言,這類方法可以分為預(yù)訓(xùn)練模型[20,21]、圖像合成模型[15,22,23]和聯(lián)合訓(xùn)練模型[4,24]三類。雖然無(wú)監(jiān)督學(xué)習(xí)方法沒(méi)有標(biāo)注成本,但是缺乏關(guān)鍵樣本對(duì)標(biāo)注,在大規(guī)模的行人再識(shí)別時(shí)性能較差,與無(wú)監(jiān)督的行人再識(shí)別方法相比,本文通過(guò)挖掘并標(biāo)注少量支持樣本對(duì)來(lái)提高模型的性能。
b)基于半監(jiān)督學(xué)習(xí)的行人再識(shí)別方法。半監(jiān)督學(xué)習(xí)方法[7,8]在預(yù)標(biāo)注樣本和未標(biāo)注樣本上訓(xùn)練模型。這些方法大多數(shù)的設(shè)定都是單樣本學(xué)習(xí)(one-shot learning),需要為每個(gè)ID預(yù)先標(biāo)注一個(gè)樣本。例如,文獻(xiàn)[7]使用每個(gè)ID預(yù)標(biāo)注一個(gè)樣本數(shù)據(jù)來(lái)初始化模型,然后采用逐步學(xué)習(xí)的方式更新模型。文獻(xiàn)[8]使用每個(gè)ID的預(yù)標(biāo)注的相機(jī)內(nèi)的軌跡來(lái)初始化一個(gè)深度模型,然后逐步挖掘跨相機(jī)的軌跡關(guān)聯(lián)來(lái)提高深度模型的表示能力。雖然半監(jiān)督學(xué)習(xí)方法可以提高性能,但單樣本學(xué)習(xí)策略對(duì)于行人再識(shí)別任務(wù)并不適用。由于其需要ID信息,所以真正的標(biāo)簽成本等同于監(jiān)督學(xué)習(xí)的方法。與半監(jiān)督學(xué)習(xí)的標(biāo)注策略不同,SPAL完全從沒(méi)有標(biāo)注樣本(沒(méi)有ID信息)開(kāi)始,逐步挖掘和標(biāo)注少量關(guān)鍵樣本對(duì)。
c)基于主動(dòng)學(xué)習(xí)的行人再識(shí)別方法。主動(dòng)學(xué)習(xí)行人再識(shí)別方法的目的是在訓(xùn)練階段選擇一個(gè)成對(duì)樣本的子集進(jìn)行標(biāo)注。文獻(xiàn)[10]提出了一種基于成對(duì)約束選擇最具代表性的樣本進(jìn)行標(biāo)注的早期主動(dòng)學(xué)習(xí)(early active learning,EAL)算法。文獻(xiàn)[25]提出了一個(gè)選擇成對(duì)訓(xùn)練子集的框架來(lái)減少人工標(biāo)注量。文獻(xiàn)[11]設(shè)計(jì)了一個(gè)深度強(qiáng)化主動(dòng)學(xué)習(xí)模型,以減少訓(xùn)練階段的標(biāo)注量。文獻(xiàn)[12]提出了一種基于精煉類簇的主動(dòng)學(xué)習(xí)框架來(lái)學(xué)習(xí)具有判別性的模型。文獻(xiàn)[26]通過(guò)主動(dòng)選擇信息量大和多樣性強(qiáng)的樣本進(jìn)行標(biāo)注和學(xué)習(xí)。文獻(xiàn)[27]利用主動(dòng)學(xué)習(xí)構(gòu)建適用于行人再識(shí)別的圖像文字描述。與無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的行人再識(shí)別方法相比,主動(dòng)學(xué)習(xí)方法通過(guò)迭代地標(biāo)注少量成對(duì)樣本來(lái)提高模型性能。然而,這些方法不能夠準(zhǔn)確地選擇真正有助于特征學(xué)習(xí)的成對(duì)樣本。本文提出了一個(gè)新的主動(dòng)學(xué)習(xí)方法來(lái)挖掘并標(biāo)注關(guān)鍵樣本對(duì),即支持樣本對(duì)。此外,提出了一種約束聚類算法和混合學(xué)習(xí)損失,以有效地利用無(wú)標(biāo)簽樣本和有標(biāo)簽樣本的互補(bǔ)信息。
2 基于支持對(duì)挖掘的主動(dòng)學(xué)習(xí)行人再識(shí)別
2.1 問(wèn)題定義
給定n張無(wú)標(biāo)簽圖像
2.2 成對(duì)約束聚類
給定所有樣本提取的特征
Euclid Math OneXAp和標(biāo)注的支持對(duì)的約束,約束聚類算法旨在在滿足約束關(guān)系的情況下生成可靠的聚類。支持對(duì)的選擇將在2.3節(jié)中詳細(xì)闡述。根據(jù)支持對(duì)的標(biāo)簽,可以得到一組ML約束和一組CL約束。采用文獻(xiàn)[28]中的Constrained-DBSCAN算法對(duì)無(wú)標(biāo)簽的樣本進(jìn)行聚類來(lái)滿足兩種成對(duì)約束。
Constrained-DBSCAN從任意一個(gè)核心點(diǎn)p出發(fā),通過(guò)檢索所有密度可達(dá)的點(diǎn)來(lái)擴(kuò)展成一個(gè)類簇。與DBSCAN類似,Constrained-DBSCAN維護(hù)一個(gè)種子點(diǎn)集合來(lái)執(zhí)行聚類過(guò)程,但是Constrained-DBSCAN有兩個(gè)主要區(qū)別:a)必連約束將種子點(diǎn)q和q的ML集合中的點(diǎn)加入到當(dāng)前類簇和種子點(diǎn)集合中;b)不連約束禁止點(diǎn)q的CL集合中的點(diǎn)加入到當(dāng)前類簇中。這種方式確保了所有成對(duì)約束在聚類的過(guò)程中都得到滿足。
在聚類過(guò)程中,成對(duì)約束的影響體現(xiàn)在兩個(gè)方面:a)實(shí)例級(jí)關(guān)系的維護(hù),必連約束和不連約束強(qiáng)制兩個(gè)樣本分到同一個(gè)類簇中或者不在同一個(gè)類簇中,顯式地使聚類算法保持這種實(shí)例級(jí)的關(guān)系;b)類簇級(jí)關(guān)系的挖掘,盡管成對(duì)約束是實(shí)例級(jí)的,但類簇的關(guān)系可以隱式地通過(guò)聚類結(jié)構(gòu)得到挖掘,因?yàn)樵诩s束過(guò)程中,與成對(duì)約束中的樣本對(duì)相關(guān)的樣本不可避免地受到約束關(guān)系的影響而形成類簇。通過(guò)必連約束和不連約束,Constrained-DBSCAN可以實(shí)現(xiàn)更可靠的聚類。
2.3 雙重不確定性選擇策略
給定一個(gè)包含n個(gè)未標(biāo)注樣本的訓(xùn)練集,需要n(n-1)/2來(lái)標(biāo)注所有的成對(duì)關(guān)系。為了降低標(biāo)注成本,本文提出了一種雙重不確定性選擇策略來(lái)選擇信息量最大的樣本對(duì)并進(jìn)行人工標(biāo)注,這些關(guān)鍵樣本對(duì)在SPAL中被稱為支持樣本對(duì)。那么如何挖掘這些支持樣本對(duì)呢?
根據(jù)觀察,由無(wú)監(jiān)督聚類算法得到的偽標(biāo)簽可以準(zhǔn)確地預(yù)測(cè)大多數(shù)樣本對(duì)的關(guān)系。但是,在類簇邊界上的點(diǎn),如DBSCAN中的邊緣點(diǎn),不可避免地會(huì)產(chǎn)生錯(cuò)誤。也就是說(shuō),任意兩個(gè)邊緣點(diǎn)的正負(fù)關(guān)系是最不確定的。受此啟發(fā),本文試圖在每一個(gè)聚類時(shí)期的聚類結(jié)構(gòu)上挖掘不確定正樣本對(duì)sp和不確定負(fù)樣本對(duì)sn兩類支持樣本對(duì)。其中,不確定正樣本對(duì)是指可能存在假正性關(guān)系(1 positive,F(xiàn)P)的樣本對(duì),不確定負(fù)樣本對(duì)是指可能存在假負(fù)性關(guān)系(1 negative,F(xiàn)N)的樣本對(duì)。
a)不確定正樣本對(duì)的選擇。為了有效地挖掘不確定正樣本對(duì),在每個(gè)類簇內(nèi)部進(jìn)行選擇sp。假設(shè)被聚類到同一個(gè)類簇中的樣本屬于同一個(gè)ID。也就是說(shuō),這些樣本中任意一對(duì)的關(guān)系都假定為正樣本對(duì)。然而,聚類算法生成的聚類中不可避免地存在假正性樣本對(duì)。很容易可以得到,在每個(gè)類簇中,樣本對(duì)越不相似,越有可能是假正性的。
支持樣本對(duì)選擇完成后,人類專家會(huì)對(duì)樣本對(duì)的真實(shí)關(guān)系進(jìn)行標(biāo)注來(lái)消除不確定性。與文獻(xiàn)[25]一樣,為了降低標(biāo)注成本,采用通過(guò)傳遞閉包的正向標(biāo)注傳播機(jī)制。標(biāo)注完成后,將真正樣本對(duì)加入到ML集合中,將真負(fù)樣本對(duì)加入到CL集合中。如2.2節(jié)所述,在下一輪約束聚類中,在ML集合中的正約束關(guān)系的樣本對(duì)會(huì)被強(qiáng)制聚到同一個(gè)類簇中,在CL集合中的負(fù)約束關(guān)系的樣本對(duì)會(huì)被強(qiáng)制不被聚到同一個(gè)類簇中。
不同于現(xiàn)有的主動(dòng)學(xué)習(xí)策略[11,12],本文提出的DUS策略只利用來(lái)自類簇邊界的邊緣點(diǎn)的少量支持樣本對(duì),以避免選擇不必要的支持對(duì)進(jìn)行標(biāo)注。通過(guò)衡量類簇內(nèi)和類簇間的樣本對(duì)的不確定性,選擇信息最大的樣本對(duì)進(jìn)行標(biāo)注。這樣的支持對(duì)雖少,但是對(duì)于模型的訓(xùn)練至關(guān)重要。DUS策略基于聚類算法得到的邊緣點(diǎn)來(lái)選擇支持對(duì),標(biāo)注的樣本對(duì)的關(guān)系會(huì)通過(guò)約束聚類隱式地傳播。本文提出的SPAL框架中的主動(dòng)學(xué)習(xí)策略和半監(jiān)督聚類是統(tǒng)一且互補(bǔ)的。
2.4 混合損失學(xué)習(xí)
給定無(wú)標(biāo)簽的訓(xùn)練集,首先采用半監(jiān)督聚類算法對(duì)樣本進(jìn)行聚類,根據(jù)聚類結(jié)果和標(biāo)注的成對(duì)約束對(duì)模型進(jìn)行更新。由于類簇?cái)?shù)量和離群點(diǎn)的數(shù)量會(huì)隨著訓(xùn)練不斷地變化,類別原型(class prototypes)以非參數(shù)和動(dòng)態(tài)的方式構(gòu)建。根據(jù)文獻(xiàn)[4],維護(hù)一個(gè)記憶模型
為了有效地利用標(biāo)注的支持樣本對(duì),本文提出了基于支持對(duì)約束的三元組損失。該損失使得錨樣本(anchor)更接近其困難必連樣本(hard must-link instance),而遠(yuǎn)離其困難不連樣本(hard cannot-link instance)。與式(4)不同,支持對(duì)損失是實(shí)例對(duì)實(shí)例(instance-to-instance)的,使得類簇更加獨(dú)立且緊湊。因此,支持對(duì)約束損失函數(shù)公式如下:
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
本文在現(xiàn)有六個(gè)大規(guī)模行人再識(shí)別數(shù)據(jù)集上評(píng)估提出如下方法:
a)Market-1501數(shù)據(jù)集是一個(gè)廣泛使用的行人再識(shí)別數(shù)據(jù)集,從6個(gè)不同的攝像機(jī)中捕獲,包含751個(gè)不同ID的12 936張圖像用于訓(xùn)練,751個(gè)不同ID的19 281張圖像用于測(cè)試。
b)DukeMTMC-ReID數(shù)據(jù)集是最流行的行人再識(shí)別數(shù)據(jù)集之一,它包含來(lái)自8個(gè)相機(jī)的1 812個(gè)身份的36 411張圖像。訓(xùn)練集共有702個(gè)ID的16 522張圖像;測(cè)試集包括702個(gè)ID的2 228張圖像作為查詢,以及1 110個(gè)ID的17 661張圖像作為圖像庫(kù)。
c)MSMT17數(shù)據(jù)集是一個(gè)包含4 101個(gè)ID、來(lái)自15個(gè)相機(jī)的126 441幅圖像的大規(guī)模行人再識(shí)別數(shù)據(jù)集。共有1 041個(gè)ID的32 621張訓(xùn)練圖像和3 060個(gè)ID的93 820張測(cè)試圖像,其中11 659張圖像作為查詢,82 161張圖像作為圖像庫(kù)。
d)LaST數(shù)據(jù)集是從電影中獲取的大規(guī)模數(shù)據(jù)集,其中5 000個(gè)ID的71 248張圖像用于訓(xùn)練,5 806個(gè)ID的135 529張用于測(cè)試。另外,還有56個(gè)ID的21 379張圖像作為驗(yàn)證集。
e)CUHK-03-D數(shù)據(jù)集由6個(gè)校園監(jiān)控?cái)z像頭捕獲,每個(gè)ID的圖像都是通過(guò)兩個(gè)不相交的相機(jī)捕獲。其中共有767個(gè)ID的7 356張圖像作為訓(xùn)練圖像,和700個(gè)ID的6 732張圖像作為測(cè)試圖像,包括查詢庫(kù)1 400張圖像和候選庫(kù)5 332張圖像。
f)CUHK-SYSU數(shù)據(jù)集是一個(gè)大規(guī)模行人搜索數(shù)據(jù)集。包括8 431個(gè)ID的18 184張完整圖像。CUHK-SYSU用于行人再識(shí)別任務(wù)時(shí),訓(xùn)練集包括5 532個(gè)ID的15 088張圖像,2 900個(gè)ID的2 900張圖像作為查詢庫(kù),以及2 900個(gè)ID的5 447張圖像作為候選庫(kù)。
本文采用mAP和累計(jì)匹配特性(cumulative matching cha-racteristics,CMC)作為評(píng)價(jià)指標(biāo)。在本文中,標(biāo)注預(yù)算是通過(guò)標(biāo)注樣本對(duì)的數(shù)量計(jì)算。給定包含n個(gè)未標(biāo)注樣本的訓(xùn)練集,其最大標(biāo)注預(yù)算為n(n-1)/2對(duì)。
3.2 實(shí)現(xiàn)細(xì)節(jié)
本文采用DBSCAN+對(duì)比學(xué)習(xí)作為無(wú)監(jiān)督基線(baseline)方法。在Constrained-DBSCAN中,對(duì)于一個(gè)核心點(diǎn)的最大近鄰距離ε為0.6,最小近鄰數(shù)MinPts為4。在基線方法中,只使用式(4)用于無(wú)監(jiān)督學(xué)習(xí)。
采用ImageNet預(yù)訓(xùn)練的ResNet-50作為基礎(chǔ)網(wǎng)絡(luò),即編碼器fθ。在ResNet-50中的pooling-5層之后,移除后續(xù)的層,并添加1D BactchNorm層和l2-normalization層來(lái)提取特征。輸入圖像的大小為256×128。采用權(quán)重衰減為0.000 5的Adam優(yōu)化器優(yōu)化模型。初始學(xué)習(xí)率設(shè)置為0.000 35,并訓(xùn)練50個(gè)epoch。溫度系數(shù)τ設(shè)置為0.05,動(dòng)量參數(shù)α設(shè)置為0.2。式(5)的最小間隔m為1.0,式(6)的λ設(shè)置為1.0來(lái)平衡兩個(gè)損失函數(shù)。
3.3 與先進(jìn)方法的比較
本文將提出的SPAL方法與先進(jìn)方法進(jìn)行了對(duì)比,包括無(wú)監(jiān)督學(xué)習(xí)方法(BUC[3]、ECN[24]、MMCL[6]、HCT[19]、SSG[20]、SpCL[4])、半監(jiān)督學(xué)習(xí)方法(EUG[7]、TAUDL[31]、UTAL[8]、SSG++[20])、主動(dòng)學(xué)習(xí)方法(GD[32]、QIU[33]、QBC[34]、DRAL[11]、MASS[12])。Oracle實(shí)驗(yàn)是一個(gè)監(jiān)督學(xué)習(xí)(supervised learning,SL)的設(shè)置,利用訓(xùn)練集中n張圖像中所有成對(duì)關(guān)系和混合學(xué)習(xí)損失進(jìn)行訓(xùn)練。表1~3分別展示了在數(shù)據(jù)集Market-1501、DukeMTMC-ReID、MSMT17、LaST、CUHK-03-D和CUHK-SYSU上的結(jié)果。
1)與無(wú)監(jiān)督方法對(duì)比
本文將SPAL與無(wú)監(jiān)督方法進(jìn)行了比較,包括純無(wú)監(jiān)督方法和無(wú)監(jiān)督域適應(yīng)方法。雖然在無(wú)監(jiān)督學(xué)習(xí)方法中,標(biāo)注成本為0,但性能并不令人滿意。本文SPAL方法以較低的標(biāo)注成本在四個(gè)數(shù)據(jù)集上超過(guò)了現(xiàn)有的無(wú)監(jiān)督學(xué)習(xí)方法。例如,與SpCL相對(duì),在Market-1501上mAP提升了5.6%,在MSMT17上mAP提升了14.2%。結(jié)果表明,在沒(méi)有標(biāo)注的情況下,無(wú)監(jiān)督學(xué)習(xí)方法的性能是有限的,而SPAL能夠在標(biāo)注成本較小的情況下顯著地提升性能。
2)與半監(jiān)督方法對(duì)比
半監(jiān)督學(xué)習(xí)方法使用一個(gè)不符合實(shí)際的設(shè)定,其需要標(biāo)注所有的ID來(lái)選擇監(jiān)督樣本。SPAL在沒(méi)有任何身份信息的情況下增量地標(biāo)注樣本對(duì),其表現(xiàn)優(yōu)于所有SSL模型。結(jié)果表明,選擇關(guān)鍵的成對(duì)樣本標(biāo)注有利于行人再識(shí)別性能的提升。
3)與主動(dòng)學(xué)習(xí)方法對(duì)比
本文將SPAL與最先進(jìn)的基于主動(dòng)學(xué)習(xí)的行人再識(shí)別方法和三種主動(dòng)學(xué)習(xí)策略進(jìn)行了比較。本文SPAL模型在性能和標(biāo)注成本方面優(yōu)于所有方法。尤其是在大規(guī)模數(shù)據(jù)集MSMT17上,與目前最先進(jìn)的MASS方法相比,SPAL在標(biāo)注成本為1.8n的情況下,mAP和rank1分別提升了11.0%和14.9%。這表明了SPAL 的有效性和高效率。
4)與監(jiān)督學(xué)習(xí)方法對(duì)比
為了衡量主動(dòng)學(xué)習(xí)方法和監(jiān)督學(xué)習(xí)方法之間的差距,本文將提出的SPAL與監(jiān)督方法進(jìn)行比較。表1~3表明了:與監(jiān)督學(xué)習(xí)方法相比,在少量標(biāo)注下,SPAL取得了與監(jiān)督學(xué)習(xí)可以競(jìng)爭(zhēng)的性能。
5)不同設(shè)置下訓(xùn)練過(guò)程對(duì)比
本文對(duì)于主動(dòng)學(xué)習(xí)方法在訓(xùn)練過(guò)程中對(duì)于性能的影響進(jìn)行了分析,對(duì)比了無(wú)監(jiān)督學(xué)習(xí)方法baseline、監(jiān)督學(xué)習(xí)方法Oracle以及本文主動(dòng)學(xué)習(xí)方法SPAL在訓(xùn)練過(guò)程中的性能。圖2表明,在訓(xùn)練過(guò)程中,通過(guò)少量標(biāo)注的樣本對(duì),SPAL可以大幅提升無(wú)監(jiān)督學(xué)習(xí)方法的性能,縮小與監(jiān)督學(xué)習(xí)方法的差距。
此外,本文對(duì)SPAL在訓(xùn)練過(guò)程中對(duì)時(shí)間性能的影響進(jìn)行了分析,分別在數(shù)據(jù)集Market-1501、DukeMTMC-ReID和MSMT17上與無(wú)監(jiān)督學(xué)習(xí)方法baseline進(jìn)行了對(duì)比。SPAL額外的計(jì)算成本主要用于樣本對(duì)選擇與標(biāo)注。表4表明,與無(wú)監(jiān)督baseline相比,SPAL分別增加了20%、28%和36%的訓(xùn)練時(shí)間,mAP分別提高了15.4%、10.8%和21.0%。通過(guò)增加額外較少的時(shí)間成本,SPAL大幅提升了模型性能。
3.4 消融實(shí)驗(yàn)
1)模型組成分析
本文對(duì)提出的DUS策略和混合學(xué)習(xí)損失的有效性進(jìn)行了分析。表5表明,與無(wú)監(jiān)督學(xué)習(xí)模型相比,根據(jù)DUS選擇的不確定正樣本對(duì)sp和不確定負(fù)樣本對(duì)sn都有利于模型學(xué)習(xí)。此外,表5表明了混合學(xué)習(xí)損失的性能收益的顯著性。例如,在Market-1501上mAP提升了2.9%,rank-1提升了2.0%。這驗(yàn)證了聯(lián)合學(xué)習(xí)無(wú)標(biāo)簽樣本和有標(biāo)簽樣本的重要性,以及混合學(xué)習(xí)損失函數(shù)的有效性。
2)不同標(biāo)注預(yù)算分析
本文對(duì)不同標(biāo)注預(yù)算下模型性能進(jìn)行了分析,并在MSMT17數(shù)據(jù)集上進(jìn)行了評(píng)估。在訓(xùn)練階段,當(dāng)標(biāo)注預(yù)算用完,停止選擇支持樣本對(duì),模型根據(jù)現(xiàn)有已標(biāo)注樣本對(duì)和約束聚類結(jié)果進(jìn)行訓(xùn)練。表6表明,隨著標(biāo)注預(yù)算的提升,模型的性能顯著提升。此外,SPAL以更少的標(biāo)注預(yù)算,性能優(yōu)于最先進(jìn)的方法MASS。本文對(duì)于所有實(shí)驗(yàn)設(shè)置的標(biāo)注預(yù)算都為2n。如果標(biāo)注成本低于預(yù)算,則報(bào)告實(shí)際標(biāo)注成本。
3.5 可視化結(jié)果分析
本節(jié)定性地分析了SPAL的行人再識(shí)別性能,進(jìn)行了實(shí)例化分析。如圖4所示,為數(shù)據(jù)集MSMT17測(cè)試集上再識(shí)別的rank10的結(jié)果(從左至右分別為rank1~rank10)。其中,黑色外框樣本為查詢樣本(query),綠色外框樣本為候選庫(kù)(galle-ry)中正確查詢樣本,紅色外框樣本為候選庫(kù)中錯(cuò)誤查詢樣本(見(jiàn)電子版)。與無(wú)監(jiān)督方法baseline相對(duì)比,SPAL通過(guò)少量人工標(biāo)注,提升了行人再識(shí)別檢索的性能。與主動(dòng)學(xué)習(xí)方法MASS相比,MASS通過(guò)標(biāo)注類內(nèi)樣本對(duì)來(lái)提高類簇的純凈度,SPAL通過(guò)標(biāo)注類內(nèi)和類間困難樣本對(duì)來(lái)提升模型對(duì)困難樣本對(duì)的特征表示學(xué)習(xí)。圖4表明,SPAL檢索到了MASS不能檢索到的困難樣本,驗(yàn)證了SPAL對(duì)行人再識(shí)別任務(wù)的實(shí)用性。此外,與監(jiān)督學(xué)習(xí)方法Oracle相比,本文SPAL方法通過(guò)少量人工標(biāo)注,縮小了與監(jiān)督學(xué)習(xí)方法的差距。
4 結(jié)束語(yǔ)
本文提出了一種基于支持對(duì)挖掘的主動(dòng)學(xué)習(xí)(SPAL)框架來(lái)降低標(biāo)簽成本,同時(shí)實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的再識(shí)別性能。提出了一種雙重不確定性的選擇策略,以增量的方式挖掘支持對(duì)并進(jìn)行標(biāo)注。此外,提出一種約束聚類算法和一種混合學(xué)習(xí)損失來(lái)利用無(wú)標(biāo)簽樣本和有標(biāo)簽樣本的互補(bǔ)信息。大量的對(duì)比實(shí)驗(yàn)證明了SPAL的雙重優(yōu)點(diǎn):在大規(guī)模行人再識(shí)別基準(zhǔn)上,獲得較高性能的同時(shí)具有較低的標(biāo)注成本。在后續(xù)的研究中,可以考慮優(yōu)化樣本對(duì)選擇策略進(jìn)一步減少主動(dòng)學(xué)習(xí)過(guò)程中的標(biāo)注量,以及通過(guò)充分利用已標(biāo)注的困難樣本對(duì)來(lái)提升模型的特征表示能力。
參考文獻(xiàn):
[1]羅浩,姜偉,范星,等.基于深度學(xué)習(xí)的行人重識(shí)別研究進(jìn)展[J].自動(dòng)化學(xué)報(bào),2019,45(11):2032-2049.(Luo Hao,Jiang Wei,F(xiàn)an Xing,et al.A survey on deep learning based person re-identification[J].Acta Automatica Sinica,2019,45(11):2032-2049.)
[2]鄧滔,楊娟,汪榮貴,等.基于增強(qiáng)特征融合網(wǎng)絡(luò)的行人再識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2021,38(4):1224-1229.(Deng Tao,Yang Juan,Wang Ronggui,et al.Enhanced feature convergent network for person re-identification[J].Application Research of Computers,2021,38(4):1224-1229.)
[3]Lin Yutian,Dong Xuanyi,Zheng Liang,et al.A bottom-up clustering approach to unsupervised person re-identification[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Menlo Park:AAAI Press,2019:8738-8745.
[4]Ge Yixiao,Zhu Feng,Chen Dapeng,et al.Self-paced contrastive lear-ning with hybrid memory for domain adaptive object re-ID[C]//Proc of the 34th Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2020:11309-11321.
[5]Lin Yutian,Xie Lingxi,Wu Yu,et al.Unsupervised person re-identification via softened similarity learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3390-3399.
[6]Wang Dongkai,Zhang Shiliang.Unsupervised person re-identification via multi-label classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10981-10990.
[7]Wu Yu,Lin Yutian,Dong Xuanyi,et al.Exploit the unknown gradually:one-shot video-based person re-identification by stepwise learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:5177-5186.
[8]Li Minxian,Zhu Xiatian,Gong Shaogang.Unsupervised tracklet person re-identification[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,42(7):1770-1782.
[9]Martinel N,Das A,Micheloni C,et al.Temporal model adaptation for person re-identification[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:858-877.
[10]Liu Wenhe,Chang Xiaojun,Chen Ling,et al.Early active learning with pairwise constraint for person re-identification[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer,2017:103-118.
[11]Liu Zimo,Wang Jingya,Gong Shaogang,et al.Deep reinforcement active learning for human-in-the-loop person re-identification[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6122-6131.
[12]Hu Bingyu,Zha Zhengjun,Liu Jiawei,et al.Cluster and scatter:a multi-grained active semi-supervised learning framework for scalable person re-identification[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:2605-2614.
[13]Zheng Liang,Shen Liyue,Tian Lu,et al.Scalable person re-identification:a benchmark[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:1116-1124.
[14]Zheng Zhedong,Zheng Liang,Yang Yi.Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proc of IEEE International Conference on Computer Vision.Pisca-taway,NJ:IEEE Press,2017:3754-3762.
[15]Wei Longhui,Zhang Shiliang,Gao Wen,et al.Person transfer GAN to bridge domain gap for person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:79-88.
[16]Shu Xiujun,Wang Xiao,Zang Xianghao,et al.Large-scale spatio-temporal person re-identification:algorithms and benchmark[J].IEEE Trans on Circuits and Systems for Video Technology,2021,32(7):4390-4403.
[17]Li Wei,Zhao Rui,Xiao Tong,et al.DeepReID:deep filter pairing neural network for person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:152-159.
[18]Xiao Tong,Li Shuang,Wang Bochao,et al.Joint detection and identification feature learning for person search[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3415-3424.
[19]Zeng Kaiwei,Ning Munan,Wang Yaohua,et al.Hierarchical clustering with hard-batch triplet loss for person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:13657-13665.
[20]Fu Yang,Wei Yunchao,Wang Guanshuo,et al.Self-similarity grou-ping:a simple unsupervised cross domain adaptation approach for person re-identification[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6112-6121.
[21]Yang Fengxiang,Li Ke,Zhong Zhun,et al.Asymmetric co-teaching for unsupervised cross-domain person re-identification[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12597-12604.
[22]Tang Yingzhi,Yang Xi,Wang Nannan,et al.CGAN-TM:a novel domain-to-domain transferring method for person re-identification[J].IEEE Trans on Image Processing,2020,29:5641-5651.
[23]梁文琦,王廣聰,賴劍煌.基于多對(duì)多生成對(duì)抗網(wǎng)絡(luò)的非對(duì)稱跨域遷移行人再識(shí)別[J].自動(dòng)化學(xué)報(bào),2022,48(1):103-120.(Liang Wenqi,Wang Guangchong,Lai Jianhuang.Asymmetric cross-domain transfer learning of person re-identification based on the many-to-many generative adversarial network[J].Acta Automatica Sinica,2022,48(1):103-120.)
[24]Zhong Zhun,Zheng Liang,Luo Zhiming,et al.Invariance matters:exemplar memory for domain adaptive person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:598-607.
[25]Roy S,Paul S,Young N E,et al.Exploiting transitivity for learning person re-identification models on a budget[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7064-7072.
[26]Xu Xin,Liu Lei,Zhang Xiaolong,et al.Rethinking data collection for person re-identification:active redundancy reduction[J].Pattern Recognition,2021,113:107827.
[27]Zhai Yajing,Zeng Yawen,Cao Da,et al.TriReID:towards multi-modal person re-identification via descriptive fusion model[C]//Proc of International Conference on Multimedia Retrieval.New York:ACM Press,2022:63-71.
[28]Zhao Weizhong,He Qing,Ma Huifang,et al.Effective semi-supervised document clustering via active learning with instance-level constraints[J].Knowledge and Information Systems,2012,30(3):569-587.
[29]Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of Knowledge Discovery and Data Mining.New York:ACM Press,1996:226-231.
[30]Zhong Zhun,Zheng Liang,Cao Donglin,et al.Re-ranking person re-identification with k-reciprocal encoding[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1318-1327.
[31]Li Minxian,Zhu Xiatian,Gong Shaogang.Unsupervised person re-identification by deep learning tracklet association[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:737-753.
[32]Ebert S,F(xiàn)ritz M,Schiele B.RALF:a reinforced active learning formulation for object class recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:3626-3633.
[33]Lewis D D,Gale W A.A sequential algorithm for training text classi-fiers[C]//Proc of Special Interest Group on Information Retrieval.Berlin:Springer,1994:3-12.
[34]Abe N,Mamitsuka H.Query learning strategies using boosting and bagging[C]//Proc of the 15th International Conference on Machine Learning.New York:ACM Press,1998:1-9.