摘 要:為解決目前基于卷積網(wǎng)絡(luò)的關(guān)鍵點(diǎn)檢測(cè)模型無(wú)法建模遠(yuǎn)距離關(guān)鍵點(diǎn)之間關(guān)系的問(wèn)題,提出一種Transformer與CNN(卷積網(wǎng)絡(luò))多分支并行的人像關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),稱為MCTN(multi-branch convolution-Transformer network),其利用Transformer的動(dòng)態(tài)注意力機(jī)制建模關(guān)鍵點(diǎn)之間的遠(yuǎn)距離聯(lián)系,多分支并行的結(jié)構(gòu)設(shè)計(jì)使得MCTN包含共享權(quán)重、全局信息融合等特點(diǎn)。此外,提出一種新型的Transformer結(jié)構(gòu),稱為Deformer,它可以將注意力權(quán)重更快地集中在稀疏且有意義的位置,解決Transformer收斂緩慢的問(wèn)題;在WFLW、300W、COFW數(shù)據(jù)集的人像關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn)中,歸一化平均誤差分別達(dá)到4.33%、3.12%、3.15%,實(shí)驗(yàn)結(jié)果表明,MCTN利用Transformer與CNN多分支并聯(lián)結(jié)構(gòu)和Deformer結(jié)構(gòu),性能大幅超越基于卷積網(wǎng)絡(luò)的關(guān)鍵點(diǎn)檢測(cè)算法。
關(guān)鍵詞:計(jì)算機(jī)視覺(jué);深度學(xué)習(xí);人臉關(guān)鍵點(diǎn)檢測(cè);自注意力;Transformer
中圖分類號(hào):TP389.1文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)06-043-1870-06
doi:10.19734/j.issn.1001-3695.2022.10.0501
Research on facial landmarks detection network based on Transformer
Chen Kai Lin Shanling Lin Jianpu Lin Zhixian Miao Zhihui Guo Tailiang
(1.School of Advanced Manufacturing,F(xiàn)uzhou University,Quanzhou Fujian 362200,China;2.Fujian Science amp; Technology Innovation Laboratory for Optoelectronic Information of China,F(xiàn)uzhou 350116,China;3.College of Physics amp; Information Engineering,F(xiàn)uzhou University,F(xiàn)uzhou 350116,China)
Abstract:In order to address the shortcomings of the facial landmarks detection models,which cannot model the relations between long-distance landmarks,this paper proposed a parallel multi-branch architecture combining with convolution and Transformer for facial landmarks tasks,called MCTN,it utilized the dynamic attention mechanism to model the long-distance relations between facial landmarks.The multi-branch parallel structure designing allowed MCTN to include shared weights,global information fusion and other merits.What’s more,this paper proposed the novel Transformer structure,Deformer,which could make the MCTN focused attention weights faster on sparse and meaningful locations and solved the problem of slow convergence of Transformer.MCTN reached 4.33%,3.12% and 3.15% normalized average error respectively on the WFLW,300W and COFW datasets,the results show that MCTN utilizes Transformer with CNN multi-branch parallel structure and Deformer structure to dramatically outperform other facial landmarks localization algorithms based on convolution network.
Key words:computer vision;deep learning;facial landmarks detection;self-attention;Transformer
0 引言
人臉關(guān)鍵點(diǎn)檢測(cè)任務(wù),又稱人臉對(duì)齊任務(wù),是在人臉的主要器官以及面部輪廓的周圍建立坐標(biāo)信息,應(yīng)用在人臉表情識(shí)別[1]、疲勞檢測(cè)[2]、人臉定位[3]等的任務(wù)。近年來(lái),人臉關(guān)鍵點(diǎn)任務(wù)仍然存在極大的挑戰(zhàn),特別是當(dāng)人臉處于模糊、暗光、大姿勢(shì)偏移等極端條件,往往無(wú)法得到精確的關(guān)鍵點(diǎn)。目前的人像關(guān)鍵點(diǎn)檢測(cè)方法的網(wǎng)絡(luò)結(jié)構(gòu)基本上是由卷積網(wǎng)絡(luò)組成,而基于卷積網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)可以分成點(diǎn)直接回歸方法和熱力圖回歸方法兩大類。
點(diǎn)直接回歸方法[4~9]是通過(guò)卷積網(wǎng)絡(luò)結(jié)構(gòu)提取特征圖,最后利用全連接層直接將全部特征圖映射為關(guān)鍵點(diǎn)坐標(biāo)。在diverse cascaded network[5]和recurrent network[7]中,首次使用多階段網(wǎng)絡(luò)結(jié)構(gòu)處理特征圖,通過(guò)多通道特征圖完成映射獲取關(guān)鍵點(diǎn)坐標(biāo)。多階段網(wǎng)絡(luò)的方法可以得到較為準(zhǔn)確的關(guān)鍵點(diǎn)坐標(biāo),但多階段的方法忽略了人臉關(guān)鍵點(diǎn)數(shù)據(jù)集不平衡的問(wèn)題,即數(shù)據(jù)集中存在多種姿勢(shì)的人臉圖片。為了解決人臉數(shù)據(jù)集間的數(shù)據(jù)集差異和提高人臉關(guān)鍵點(diǎn)任務(wù)的魯棒性,Wu等人[8]提出deep variation leveraging network,利用兩個(gè)子網(wǎng)絡(luò)解決數(shù)據(jù)集的差異問(wèn)題。近年來(lái),由于移動(dòng)設(shè)備的普及,對(duì)于人臉關(guān)鍵點(diǎn)算法的要求逐漸向?qū)嶋H可利用性和輕量化方向靠攏,由此PFLD[9]提出了可實(shí)際運(yùn)行的人臉檢測(cè)網(wǎng)絡(luò),利用輔助子網(wǎng)絡(luò)聯(lián)合訓(xùn)練人臉數(shù)據(jù)集的姿勢(shì)屬性,通過(guò)兩個(gè)網(wǎng)絡(luò)聯(lián)合回歸精確的關(guān)鍵點(diǎn)坐標(biāo),PFLD具有輕量化網(wǎng)絡(luò)的優(yōu)勢(shì),算法運(yùn)行時(shí)間短且關(guān)鍵點(diǎn)具有一定的檢測(cè)精度。點(diǎn)直接回歸方法是一種端到端的全微分訓(xùn)練方法,但點(diǎn)直接回歸方法仍然存在一些不足的地方:由于將特征圖直接送入全連接層提取關(guān)鍵點(diǎn)信息,容易導(dǎo)致特征圖中的上下文信息丟失,失去了空間泛化能力,使關(guān)鍵點(diǎn)定位不準(zhǔn)確。當(dāng)人臉圖片處于極端條件下,如模糊、亮度低、姿勢(shì)偏移等條件下,點(diǎn)直接回歸的方法難以通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)回歸精確的關(guān)鍵點(diǎn)坐標(biāo)。
熱力圖回歸坐標(biāo)點(diǎn)的方法[4,10~17]為人臉對(duì)齊任務(wù)提供了出色的解決方案,它可以輕松解決人臉處于極端條件下,關(guān)鍵點(diǎn)定位不準(zhǔn)確的問(wèn)題。網(wǎng)絡(luò)訓(xùn)練過(guò)程中,熱力圖回歸方法將輸入圖片編碼為包含關(guān)鍵點(diǎn)坐標(biāo)信息的熱力圖,在推理階段將包含坐標(biāo)信息的熱力圖解碼為關(guān)鍵點(diǎn)數(shù)字坐標(biāo),文獻(xiàn)[12]首次將熱力圖方法應(yīng)用于關(guān)鍵點(diǎn)檢測(cè)任務(wù),取得令人矚目的成果,提高了關(guān)鍵點(diǎn)坐標(biāo)在不同場(chǎng)景下的魯棒性。為了進(jìn)一步提高關(guān)鍵點(diǎn)檢測(cè)精度,Wu等人[10]利用人臉的邊界信息輔助關(guān)鍵點(diǎn)定位,成功解決關(guān)鍵點(diǎn)定位偏移的問(wèn)題;此外,Wu等人公開WFLW人臉關(guān)鍵點(diǎn)數(shù)據(jù)集,數(shù)據(jù)集包括多種人臉姿勢(shì)屬性和關(guān)鍵點(diǎn)坐標(biāo)信息。文獻(xiàn)[16]首次評(píng)估預(yù)測(cè)坐標(biāo)的不確定性,通過(guò)新型損失函數(shù)加以約束,消除關(guān)鍵點(diǎn)定位的誤差,進(jìn)一步提高了人臉關(guān)鍵點(diǎn)定位的精度。
基于卷積網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)由于局部感受野的限制,難以建模關(guān)鍵點(diǎn)之間的遠(yuǎn)距離信息,缺少關(guān)鍵點(diǎn)與關(guān)鍵點(diǎn)之間的特征表達(dá)能力,對(duì)精度造成一定的影響。為了解決這一問(wèn)題,本文引入Transformer結(jié)構(gòu),用于建模關(guān)鍵點(diǎn)之間的遠(yuǎn)距離相關(guān)性,如圖1所示。
近年來(lái),Transformer結(jié)構(gòu)在自然語(yǔ)言處理領(lǐng)域大放異彩,以至于越來(lái)越多的研究者們?cè)噲D將處理語(yǔ)言信息的Transformer結(jié)構(gòu)引入計(jì)算機(jī)視覺(jué)領(lǐng)域用于解決視覺(jué)任務(wù)。Transformer 因其出彩的結(jié)構(gòu)設(shè)計(jì),包含了卷積網(wǎng)絡(luò)沒(méi)有的特性,如動(dòng)態(tài)注意力機(jī)制、全局信息融合等。這些特性使得視覺(jué)版Transformer在各項(xiàng)視覺(jué)任務(wù)上達(dá)到了與卷積網(wǎng)絡(luò)匹敵的成績(jī)。VIT[17]首次提出將圖片中多個(gè)像素點(diǎn)集合成圖像補(bǔ)?。╬atch)作為一個(gè)標(biāo)記(token)送入Transformer結(jié)構(gòu)的思想,通過(guò)大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練成功超越了由卷積網(wǎng)絡(luò)主導(dǎo)的圖像分類任務(wù),但其處理的補(bǔ)丁(patch)長(zhǎng)度將會(huì)超越常規(guī)的單詞序列,引起巨大的復(fù)雜度和計(jì)算量,導(dǎo)致網(wǎng)絡(luò)收斂緩慢。DETR[18]是首個(gè)端到端的視覺(jué)Transformer模型,通過(guò)Transformer中的自我注意層的作用,它有效捕捉檢測(cè)對(duì)象與全局圖像上下文之間的關(guān)系,成功將目標(biāo)檢測(cè)任務(wù)視為一個(gè)圖像到集合的問(wèn)題。Swin-Transformer[19]利用可移動(dòng)的窗口在輸入圖片上滑動(dòng),提出了局部注意力機(jī)制的概念,有效減少了計(jì)算量的復(fù)雜度并提升網(wǎng)絡(luò)性能。DeepViT[20]利用一個(gè)轉(zhuǎn)移矩陣,將多頭注意力層(multi-head self-attention layer)的信息結(jié)合,達(dá)到異化注意力權(quán)重特征圖的目的,使得Transformer模型的性能可以隨著層數(shù)的加深而提升。
上述文獻(xiàn)[17~20]忽略了Transformer結(jié)構(gòu)無(wú)法像卷積網(wǎng)絡(luò)一樣,快速將注意力權(quán)重集中在稀疏且有意義的位置。這就導(dǎo)致了Transformer結(jié)構(gòu)收斂速度緩慢的問(wèn)題,如VIT[17]和DTER[18]需要更大規(guī)模的數(shù)據(jù)集以及更長(zhǎng)的預(yù)訓(xùn)練時(shí)間,才能應(yīng)用于下游的視覺(jué)任務(wù),取得與卷積網(wǎng)絡(luò)相匹敵的性能。
本文提出Deformer結(jié)構(gòu),在原先的Transformer結(jié)構(gòu)中加入卷積操作,使得自注意力權(quán)重能夠更快地集中在稀疏且有意義的位置。
上述關(guān)于基于卷積網(wǎng)絡(luò)的人像關(guān)鍵點(diǎn)網(wǎng)絡(luò)和Transformer結(jié)構(gòu)的方法仍存在一定的局限性,如基于卷積網(wǎng)絡(luò)的關(guān)鍵點(diǎn)檢測(cè)方法,受限于卷積核的大小,只能獲取人像關(guān)鍵點(diǎn)的上下文局部特征,無(wú)法建模全局關(guān)鍵點(diǎn)之間的聯(lián)系,以及卷積網(wǎng)絡(luò)中單一尺度的特征圖會(huì)丟失較多的語(yǔ)義信息;此外,Transformer結(jié)構(gòu)雖然擁有全局動(dòng)態(tài)注意力機(jī)制,相對(duì)于卷積網(wǎng)絡(luò)擁有更大的感受野,但其中的全局注意力權(quán)重往往無(wú)法快速地集中在稀疏且有意義的位置,導(dǎo)致Transformer結(jié)構(gòu)需要更長(zhǎng)的訓(xùn)練時(shí)間才能夠達(dá)到收斂。
基于此,本文工作如下:
a)針對(duì)卷積網(wǎng)絡(luò)無(wú)法建模全局信息以及卷積特征圖存在尺度單一的問(wèn)題,將Transformer結(jié)構(gòu)引入卷積網(wǎng)絡(luò)中并建模全局信息,本文提出一種新型的卷積網(wǎng)絡(luò)和Transformer多分支并聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu),稱為MCTN,同時(shí)存在多種分辨率和不同特征空間的特征圖之間的特征融合,以解決特征圖尺度單一的問(wèn)題。
b)針對(duì)Transformer結(jié)構(gòu)無(wú)法迅速地將注意力權(quán)重集中在稀疏位置,收斂速度緩慢的問(wèn)題,本文將卷積網(wǎng)絡(luò)引入Transformer中,提出Deformer結(jié)構(gòu),首先通過(guò)常規(guī)卷積網(wǎng)絡(luò)對(duì)特征圖不斷下采樣,使得圖像補(bǔ)丁(patch)的維度不斷加深,然后在多頭注意力層中利用可變形卷積替換常規(guī)的線性層,利用可變形的感受野讓注意力權(quán)重更快地集中在稀疏且有意義的位置。
在人像關(guān)鍵點(diǎn)檢測(cè)公開數(shù)據(jù)集WFLW、COFW、300W進(jìn)行關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn),結(jié)果表明MCTN在人像關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn)中優(yōu)于其他基于卷積網(wǎng)絡(luò)的人像關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),并通過(guò)消融實(shí)驗(yàn)證明了每個(gè)模塊的有效性。
1 本文方法
1.1 實(shí)現(xiàn)方法
本文采用熱力圖回歸的方法預(yù)測(cè)精確的關(guān)鍵點(diǎn)坐標(biāo)。需要對(duì)ground truth熱力圖和預(yù)測(cè)熱力圖進(jìn)行監(jiān)督學(xué)習(xí)。在網(wǎng)絡(luò)訓(xùn)練開始前,需要將數(shù)據(jù)集中的數(shù)字坐標(biāo)信息編碼為二維熱力圖信息,作為ground truth 熱力圖。
整體流程:輸入一張256×256的RGB人臉圖片,經(jīng)過(guò)Transformer和卷積網(wǎng)絡(luò)多分支并聯(lián)網(wǎng)絡(luò),輸出64×64的預(yù)測(cè)二維熱力圖,熱力圖的通道數(shù)為關(guān)鍵點(diǎn)個(gè)數(shù),再通過(guò)熱力圖解碼函數(shù),將二維熱力圖信息解碼為數(shù)字坐標(biāo)。
輸出的二維熱力圖中關(guān)鍵點(diǎn)之間有強(qiáng)相關(guān)性,能夠幫助熱力圖回歸方法獲得比點(diǎn)回歸方法更高的關(guān)鍵點(diǎn)檢測(cè)精度,并且由于熱力圖中的關(guān)鍵點(diǎn)信息由激活值構(gòu)成,距離目標(biāo)點(diǎn)越近,激活值越大,這一特點(diǎn)能夠給卷積網(wǎng)絡(luò)的訓(xùn)練提供一個(gè)方向性的引導(dǎo),精確且快速地達(dá)到目標(biāo)點(diǎn)。
1.1.1 人像關(guān)鍵點(diǎn)熱力圖編碼
1.1.2 人像關(guān)鍵點(diǎn)熱力圖解碼
網(wǎng)絡(luò)輸出得到預(yù)測(cè)二維熱力圖后,需要對(duì)二維熱力圖進(jìn)行解碼操作,從而得到數(shù)字坐標(biāo)信息,由于預(yù)測(cè)熱力圖是通過(guò)輸入圖片經(jīng)過(guò)四倍下采樣得到的,導(dǎo)致熱力圖回歸方法中存在子像素點(diǎn)定位不準(zhǔn)確的問(wèn)題。所以當(dāng)熱力圖作為數(shù)字坐標(biāo)的表現(xiàn)形式時(shí),常常受到量化誤差的影響,無(wú)法獲得精確的坐標(biāo)值。為了解決這一問(wèn)題,本文參考文獻(xiàn)[21]的方法,在熱力圖解碼階段不再選取唯一的極大值點(diǎn)作為激活點(diǎn),而是選擇前九個(gè)極大值點(diǎn)作為候選點(diǎn),將這九個(gè)點(diǎn)通過(guò)softmax函數(shù),對(duì)每一個(gè)點(diǎn)分配相應(yīng)的權(quán)重,然后將這九個(gè)點(diǎn)進(jìn)行相加,最終得到精確的關(guān)鍵點(diǎn)數(shù)字坐標(biāo),從而使得數(shù)字坐標(biāo)中具有精確的小數(shù)部分,提高預(yù)測(cè)關(guān)鍵點(diǎn)的準(zhǔn)確度。
1.2 Deformer框架
現(xiàn)有的Transformer結(jié)構(gòu)因其注意力層的計(jì)算復(fù)雜度龐大,常常無(wú)法快速地集中注意力權(quán)重信息,換句話說(shuō),網(wǎng)絡(luò)無(wú)法快速地注意到特征圖中那些稀疏且有意義的位置,從而導(dǎo)致訓(xùn)練收斂速度緩慢,無(wú)法實(shí)際有效地應(yīng)用。
為了解決上述問(wèn)題并將Transformer應(yīng)用于人臉關(guān)鍵點(diǎn)檢測(cè)任務(wù)中,本文提出了新型的可變形Transformer,稱為Deformer,如圖2所示。此外,現(xiàn)有的人像關(guān)鍵點(diǎn)檢測(cè)方法中針對(duì)人臉角度偏移、人像側(cè)臉等情況,檢測(cè)網(wǎng)絡(luò)往往無(wú)法得到精確的關(guān)鍵點(diǎn)坐標(biāo),這是因?yàn)槌R?guī)的卷積網(wǎng)絡(luò)感受野是固定形狀的,如3×3、7×7,無(wú)法適應(yīng)目標(biāo)的形變。如果將卷積網(wǎng)絡(luò)的感受野擴(kuò)大,的確能夠解決這一難題,但由于感受野擴(kuò)大,相應(yīng)的計(jì)算復(fù)雜度也會(huì)上升,并且提升的精度也非常有限。
針對(duì)人臉角度偏移等問(wèn)題,本文提出的Deformer結(jié)構(gòu)利用可變形卷積(deformable convolution)[22]產(chǎn)生多頭注意力層中的Q(query)、K(key)、V(value)特征圖,而不是常規(guī)的線性映射操作產(chǎn)生Q、K、V的特征向量。在可變形卷積中,存在一個(gè)可以從輸入數(shù)據(jù)中學(xué)習(xí)的偏移量,在感受野的每一個(gè)點(diǎn)加上這一偏移量,偏移后的感受野再也不是常規(guī)的正方形,而是適應(yīng)了物體外表的不規(guī)則形狀。可變形卷積所擁有的稀疏采樣的特性,可以幫助Deformer中的動(dòng)態(tài)注意力機(jī)制更快地將注意力權(quán)重集中在稀疏且有意義的位置,解決了常規(guī)的Transformer結(jié)構(gòu)收斂速度慢的問(wèn)題,同時(shí)在面對(duì)姿勢(shì)偏移的人臉圖片時(shí),不規(guī)則形狀的感受野可以幫助Deformer提取更多的人臉關(guān)鍵點(diǎn)細(xì)節(jié)特征。
Deformer結(jié)構(gòu)如圖2所示,其中包含了卷積嵌入層、可變形注意力層、前向傳播層。
1.2.1 卷積嵌入層
與常規(guī)Transformer的嵌入層不同,本文所提出的Deformer結(jié)構(gòu)中,利用卷積網(wǎng)絡(luò)完成嵌入層的操作,為了充分利用卷積網(wǎng)絡(luò)提取特征的能力,在卷積嵌入層階段,對(duì)輸入的特征圖進(jìn)行下采樣操作,然后,將這些特征圖直接展平,得到寬度和高度都為1的圖片補(bǔ)丁(如圖1中的彩色小塊所示),將這些補(bǔ)丁拼接在一起作為可訓(xùn)練的長(zhǎng)序列向量經(jīng)過(guò)層歸一化(layer normalization)后,通過(guò)reshape操作轉(zhuǎn)換為二維特征圖,送入可變形自我注意力層。I為嵌入層的輸入,則卷積嵌入層的過(guò)程由公式可歸納如下:
1.2.2 可變形注意力層
本文提出利用可變形卷積(deformable convolution network,DCN)代替常規(guī)注意力層中的線性映射操作。DCN中存在一個(gè)補(bǔ)償值offset,它是一個(gè)可學(xué)習(xí)的向量,將這個(gè)offset與卷積網(wǎng)絡(luò)上的感受野相加,使得網(wǎng)絡(luò)的感受野不再是常規(guī)的矩形形狀,而具有適應(yīng)物體形變的不規(guī)則感受野。DCN所擁有的稀疏采樣特性可以幫助Deformer更快地將注意力權(quán)重集中在稀疏且關(guān)鍵的位置,達(dá)到加速收斂的目的,同時(shí)更進(jìn)一步地建模全局信息,除此之外,不規(guī)則的感受野能夠提高人臉關(guān)鍵點(diǎn)定位的魯棒性。
1.2.3 前向傳播層
1.3 卷積網(wǎng)絡(luò)和Transformer多分支并聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)
目前人像關(guān)鍵點(diǎn)檢測(cè)方法是基于卷積網(wǎng)絡(luò)完成的,卷積網(wǎng)絡(luò)雖然可以獲取豐富的細(xì)節(jié)特征以及上下文信息,但卷積網(wǎng)絡(luò)也存在難以避免的弊端,由于卷積網(wǎng)絡(luò)的局部感受野受限,基于卷積網(wǎng)絡(luò)的人像關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)無(wú)法獲取全局動(dòng)態(tài)信息,從而導(dǎo)致了其難以建模關(guān)鍵點(diǎn)與關(guān)鍵點(diǎn)之間的遠(yuǎn)距離聯(lián)系,使得卷積網(wǎng)絡(luò)主導(dǎo)的人像關(guān)鍵點(diǎn)檢測(cè)方法的檢測(cè)精度達(dá)到瓶頸,無(wú)法更進(jìn)一步突破。關(guān)鍵點(diǎn)與關(guān)鍵點(diǎn)之間的聯(lián)系對(duì)于人像關(guān)鍵點(diǎn)檢測(cè)任務(wù)來(lái)說(shuō)是至關(guān)重要的,也是網(wǎng)絡(luò)需要關(guān)注的一部分,為此,本文構(gòu)建了一個(gè)Transformer與卷積網(wǎng)絡(luò)多分支并行的網(wǎng)絡(luò)結(jié)構(gòu),稱為MCTN,整體結(jié)構(gòu)如圖1所示,不同尺度的特征圖如圖上標(biāo)注所示。MCTN中存在多尺度特征圖信息的同時(shí),也存在不同特征空間的特征圖進(jìn)行特征交流。
MCTN利用卷積網(wǎng)絡(luò)提取豐富的細(xì)節(jié)特征信息,同時(shí)利用Transformer建模關(guān)鍵點(diǎn)之間的遠(yuǎn)距離聯(lián)系,擁有全局動(dòng)態(tài)注意力,迅速地將網(wǎng)絡(luò)注意力集中在特征圖中稀疏且有意義的位置。MCTN兼具卷積網(wǎng)絡(luò)和Transformer的優(yōu)點(diǎn),如動(dòng)態(tài)注意力機(jī)制、全局信息融合以及空間下采樣能力、細(xì)節(jié)特征提取能力。
由1.2節(jié)可知,本文提出新型的Transformer結(jié)構(gòu)——Deformer結(jié)構(gòu),Deformer與卷積網(wǎng)絡(luò)的并行結(jié)構(gòu)具體實(shí)現(xiàn)過(guò)程如下:
在初始階段,MCTN利用卷積網(wǎng)絡(luò)對(duì)輸入圖像提取低級(jí)特征,然后將特征圖送入卷積網(wǎng)絡(luò)與Deformer并行的結(jié)構(gòu);其中經(jīng)過(guò)卷積網(wǎng)絡(luò)的特征圖將帶有豐富的細(xì)節(jié)特征信息,而經(jīng)過(guò)Deformer結(jié)構(gòu)的特征圖將帶有全局注意力權(quán)重信息;其中MCTN中的卷積網(wǎng)絡(luò)部分包含了四個(gè)卷積模塊,每個(gè)卷積模塊存在兩層CONV-BN-ReLU組合,如圖3所示。為了提高特征信息的表達(dá)能力,MCTN中加入特征信息交流的操作,對(duì)不同階段產(chǎn)生的特征圖進(jìn)行通道連接以及加入通道注意力機(jī)制[23],以區(qū)別每一個(gè)特征通道的重要性。此外,為了進(jìn)一步融合全局注意力權(quán)重信息,MCTN引入空間注意力機(jī)制[23]并將其應(yīng)用于通道注意力之后,可以幫助整體網(wǎng)絡(luò)結(jié)構(gòu)更快地將注意力權(quán)重集中在稀疏且有意義的位置。
在網(wǎng)絡(luò)訓(xùn)練的前向傳播階段,由于Deformer中存在下采樣操作,重復(fù)三次卷積網(wǎng)絡(luò)與Deformer并行前向傳播過(guò)程,MCTN將得到四種不同分辨率的特征圖,其中由卷積網(wǎng)絡(luò)得到的特征圖始終為最高分辨率(W/4)×(H/4),包含豐富的細(xì)節(jié)特征信息,其他三種分辨率分別為最高分辨率的1/2、1/4、1/8,它們由卷積網(wǎng)絡(luò)和Deformer共同得到,包含全局注意力權(quán)重信息且同時(shí)存在細(xì)節(jié)特征信息。保持最高分辨率的特征圖不變,將其他三種特征圖通過(guò)雙線性插值的方法恢復(fù)到最高分辨率,將這些特征圖通過(guò)通道連接后送入卷積網(wǎng)絡(luò)層,產(chǎn)生包含坐標(biāo)信息的熱力圖,最后將這些熱力圖送入解碼器中。
2 實(shí)驗(yàn)分析
本章將詳細(xì)介紹人臉關(guān)鍵點(diǎn)檢測(cè)的具體實(shí)驗(yàn)操作細(xì)節(jié)與實(shí)驗(yàn)結(jié)果。首先展示關(guān)鍵點(diǎn)檢測(cè)的可視化對(duì)比結(jié)果;然后根據(jù)評(píng)價(jià)指標(biāo)將MCTN與其他方法進(jìn)行比較,測(cè)試本文算法的有效性;最后通過(guò)一系列消融實(shí)驗(yàn),進(jìn)一步驗(yàn)證本文所提出的MCTN的性能。
2.1 實(shí)驗(yàn)數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境
本文采用Windows 10操作系統(tǒng),硬件環(huán)境為Intel CoreTM i5-10200H CPU @ 2.40 GHz處理器,16 GB內(nèi)存,GPU為Tesla P100,使用PyTorch深度學(xué)習(xí)框架,Python版本為3.7。采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1,共有120個(gè)周期,每30個(gè)周期學(xué)習(xí)率下降10倍。
本文通過(guò)裁剪人像圖片的操作,將數(shù)據(jù)集中人像圖片的分辨率設(shè)置成256×256,根據(jù)熱力圖回歸方法的經(jīng)驗(yàn)設(shè)定網(wǎng)絡(luò)模型的輸出熱力圖的分辨率為64×64,最后將熱力圖解碼為坐標(biāo)信息。此外,本文所提出的MCTN設(shè)置三個(gè)并行階段,最后可以得到四種不同尺度的特征圖。將其他三種不同分辨率的特征圖經(jīng)過(guò)雙線性插值的操作后與最高分辨率的特征圖進(jìn)行通道連接,最后得到通道數(shù)與關(guān)鍵點(diǎn)個(gè)數(shù)相同的熱力圖。此外,在訓(xùn)練數(shù)據(jù)方面,本文隨機(jī)增強(qiáng)訓(xùn)練數(shù)據(jù),采用的方法有隨機(jī)翻轉(zhuǎn)、圖像鏡像、圖像遮擋、色域變換等。
本文在三個(gè)普遍適用的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比測(cè)試,即WFLW、COFW、300W。
其中WFLW數(shù)據(jù)集包含了10 000張人像圖片,其中7 500張劃分為訓(xùn)練圖片,2 500張劃分為測(cè)試圖片。每張人像圖片包括了98個(gè)關(guān)鍵點(diǎn)信息,以及多種人像屬性,如模糊人像、表情人像、低光照人像等,根據(jù)人像屬性,WFLW的測(cè)試集劃分了多個(gè)子集。
300W數(shù)據(jù)集中包含了3 148張訓(xùn)練圖片,689張測(cè)試圖片。300W的訓(xùn)練集和測(cè)試集由AFWM[24]、Helen[25]、lfpw[26]、Ibug[27]共同組成,每張人像圖片提供了68個(gè)關(guān)鍵點(diǎn)信息。
COFW數(shù)據(jù)集包含1 345張訓(xùn)練圖片,每張人像圖片提供29個(gè)關(guān)鍵位置,測(cè)試集提供507張圖片。
2.2 評(píng)價(jià)指標(biāo)
本文進(jìn)行的所有實(shí)驗(yàn)采用標(biāo)準(zhǔn)的指標(biāo)對(duì)數(shù)據(jù)集的結(jié)果進(jìn)行評(píng)測(cè),即歸一化平均誤差(normalized mean error,NME)、失敗率(failure rate,F(xiàn)R)、面積曲線(area under curve),NME和FR的值越小代表關(guān)鍵點(diǎn)檢測(cè)的精度越高,而面積曲線(AUC)的值越大,代表關(guān)鍵點(diǎn)檢測(cè)方法性能越好。其中NME的公式為
2.3 比較分析
如圖4所示,為MCTN與基于卷積網(wǎng)絡(luò)的人像關(guān)鍵點(diǎn)檢測(cè)算法PFLD[10]在WFLW不同數(shù)據(jù)子集上的關(guān)鍵點(diǎn)檢測(cè)可視化結(jié)果對(duì)比,紅色方框代表PFLD算法定位不準(zhǔn)確的地方。每個(gè)子圖中左為MCTN,右PFLD。
如圖(a)所示,當(dāng)人臉圖片處于模糊的條件下時(shí),MCTN能夠展現(xiàn)出出色的檢測(cè)精度,而PFLD算法如圖中紅色方框所示,在人臉的邊緣以及眼部位置的關(guān)鍵點(diǎn)定位不夠準(zhǔn)確;如圖(b)所示,當(dāng)人臉處于姿勢(shì)偏移的條件下,MCTN憑借Deformer的稀疏采樣特性,依然能夠捕捉精確的關(guān)鍵點(diǎn)坐標(biāo),而PFLD算法定位人臉邊緣不夠準(zhǔn)確以及眼部定位精度弱于MCTN;如圖(e)所示,當(dāng)人臉處于低光照條件下,PFLD算法無(wú)法有效建立人臉邊緣的坐標(biāo)聯(lián)系,而得益于MCTN的多分支并聯(lián)結(jié)構(gòu),MCTN展現(xiàn)出強(qiáng)大的建模能力,有效建模了關(guān)鍵點(diǎn)與關(guān)鍵點(diǎn)之間的聯(lián)系。這些可視化的對(duì)比結(jié)果有力地證明了MCTN能夠精確定位處于極端條件下的人臉圖片的關(guān)鍵點(diǎn)坐標(biāo)。
此外,本文在WFLW、300W和COFW數(shù)據(jù)集上與目前主流的點(diǎn)回歸直接方法和熱力圖回歸方法進(jìn)行比較,比較結(jié)果如下。
在WFLW數(shù)據(jù)集上,如表1和2所示,本文所提出的MCTN展現(xiàn)了出色的性能。表1中,NME為評(píng)價(jià)指標(biāo),NME值越小代表越精準(zhǔn)。表2中,F(xiàn)R和AUC為評(píng)價(jià)指標(biāo),F(xiàn)R越小越精確,AUC越大越準(zhǔn)確。憑借Deformer和卷積網(wǎng)絡(luò)并行結(jié)構(gòu)的優(yōu)越性,MCTN超越了其他基于卷積網(wǎng)絡(luò)的主流方法,其中點(diǎn)回歸方法如Wing[14]、LAB[10]等,熱力圖回歸方法如Awing[15]、HRNet[28]等。根據(jù)上述所提出的評(píng)價(jià)指標(biāo),本文方法在WFLW數(shù)據(jù)集上,NME的值為4.33%,失敗率(FR)為2.70%,AUC達(dá)到了0.582,這些數(shù)據(jù)表明本文方法可以使得關(guān)鍵點(diǎn)坐標(biāo)定位更加準(zhǔn)確。
如表3所示,在COFW數(shù)據(jù)集上,根據(jù)其他相關(guān)工作的評(píng)價(jià)指標(biāo),本文同樣展現(xiàn)了NME和FR的指標(biāo),其中NME的取值分為眼角間距歸一化(inter-ocular normalization,ION)和瞳孔間距歸一化(inter-pupil normalization,IPN)兩個(gè)類別。對(duì)比結(jié)果如表所示,與其他出色的關(guān)鍵點(diǎn)檢測(cè)方法相比,MCTN超越了其他所有的方法,達(dá)到了最佳的指標(biāo)。其中,在ION的指標(biāo)上本文方法達(dá)到了3.12%,在IPN的指標(biāo)上本文方法達(dá)到了4.53%。
在300W數(shù)據(jù)集上,如表4所示(以NME為評(píng)價(jià)指標(biāo)),在300W的測(cè)試集全集和challenge測(cè)試子集以及common測(cè)試子集上分別完成測(cè)試對(duì)比。其中本文方法在測(cè)試集全集上,NME的值達(dá)到3.15%,在測(cè)試集的challenge子集上達(dá)到了4.62%,在測(cè)試集的common子集上達(dá)到了2.72%。
2.4 消融實(shí)驗(yàn)
2.4.1 對(duì)不同的Transformer和卷積模塊進(jìn)行實(shí)驗(yàn)
為了探究本文所提出的新型Transformer結(jié)構(gòu)Deformer的可行性和有效性,此次消融實(shí)驗(yàn)引入不同的Transformer結(jié)構(gòu)以及卷積網(wǎng)絡(luò)殘差模塊,Transformer如Swin-Transformer[19]和Regular-Transformer[17],卷積網(wǎng)絡(luò)殘差模塊選用ResNet18中的殘差模塊,在WFLW數(shù)據(jù)集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表5所示,表中Def.代表Deformer結(jié)構(gòu),Swin.代表Swin-Transformer結(jié)構(gòu),Reg代表Regular-Transformer結(jié)構(gòu),Res代表ResNet18中的殘差模塊;w/o和w/分別代表是without和with。其中,Deformer取得最佳的實(shí)驗(yàn)結(jié)果,Swin-Transformer次之,卷積網(wǎng)絡(luò)殘差模塊取得較差的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)證明,在人像關(guān)鍵點(diǎn)檢測(cè)任務(wù)中引入Transformer結(jié)構(gòu)可以很好地提升檢測(cè)精度,突破由卷積網(wǎng)絡(luò)主導(dǎo)的人像關(guān)鍵點(diǎn)檢測(cè)方法的瓶頸。
2.4.2 對(duì)是否存在通道注意力機(jī)制進(jìn)行實(shí)驗(yàn)
為了驗(yàn)證通道注意力的有效性,本文對(duì)比兩種不同的網(wǎng)絡(luò)模型,一種網(wǎng)絡(luò)模型嵌入了通道注意力機(jī)制,而另外一種網(wǎng)絡(luò)模型則取消了通道注意力機(jī)制。實(shí)驗(yàn)結(jié)果如表6所示(w/o和w/分別代表是without和with),有效證明通道注意力提高了并行結(jié)構(gòu)在人臉關(guān)鍵點(diǎn)上的檢測(cè)精度。
2.4.3 對(duì)訓(xùn)練收斂速度進(jìn)行實(shí)驗(yàn)
為了驗(yàn)證Deformer結(jié)構(gòu)可以加速網(wǎng)絡(luò)收斂,此次實(shí)驗(yàn)在不同的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行測(cè)試,網(wǎng)絡(luò)結(jié)構(gòu)分別為本文所提出的MCTN、HRNet[28]和DETR[18],網(wǎng)絡(luò)訓(xùn)練收斂情況如圖5所示,其中本文所提出的MCTN因Deformer的稀疏采樣特性,取得了最快的收斂速度,其次是HRNet,而最為緩慢的是常規(guī)Transformer結(jié)構(gòu)的DETR。
3 結(jié)束語(yǔ)
本文發(fā)現(xiàn)可變形卷積對(duì)于Transformer結(jié)構(gòu)中的自我注意層意義重大,它的稀疏采樣特性可以幫助注意力權(quán)重更快地集中在有意義的位置,本文提出的新型Transformer結(jié)構(gòu)Deformer的收斂速度和檢測(cè)精度均優(yōu)于常規(guī)的Transformer結(jié)構(gòu);此外,本文所提出的多分支并行的網(wǎng)絡(luò)結(jié)構(gòu)存在卷積網(wǎng)絡(luò)的優(yōu)點(diǎn),如提取豐富的細(xì)節(jié)特征和空間下采樣能力,同時(shí)也存在Transformer的優(yōu)點(diǎn),如動(dòng)態(tài)注意力和建模全局信息,這些優(yōu)點(diǎn)使得本文算法在各個(gè)數(shù)據(jù)集上超越了其他方法,根據(jù)評(píng)價(jià)指標(biāo)歸一化均方誤差,MCTN在WFLW數(shù)據(jù)集上達(dá)到4.33%,在COFW數(shù)據(jù)集上達(dá)到目前所有方法的最優(yōu),為3.12%,在300W數(shù)據(jù)集上達(dá)到3.15%。但目前本文方法同樣存在不足的地方,如Deformer的復(fù)雜度和計(jì)算量對(duì)比卷積網(wǎng)絡(luò),訓(xùn)練時(shí)占據(jù)大量GPU資源,不方便部署于硬件設(shè)備。未來(lái)的工作將進(jìn)一步對(duì)Deformer進(jìn)行優(yōu)化,減少資源占用并應(yīng)用于移動(dòng)設(shè)備當(dāng)中。
參考文獻(xiàn):
[1]南亞會(huì),華慶一.遮擋人臉表情識(shí)別深度學(xué)習(xí)方法研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2022,39(2):321-330.(Nan Yahui,Hua Qingyi.Advances in deep learning methods for facial expression recognition with occlusion[J].Acta Electronica Sinica,2022,39(2):321-330.)
[2]劉君揚(yáng),王金鳳.基于聚類框架與局部感受野的實(shí)時(shí)人臉疲勞檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2020,37(12):3795-3798.(Liu Junyang,Wang Jinfeng.Real-time face fatigue detection based on clustering framework with local perceptual field[J].Application Research of Computers,2020,37(2):3795-3798.)
[3]Viola P,Jones M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[4]Feng Zhenhua,Kittler J,Awais M,et al.Wing loss for robust facial landmark localisation with convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:2235-2245.
[5]Zhang Kaipeng,ZhangZhanpeng,Li Zhifeng,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[6]Trigeorgis G,Snape P,Nicolaou M A,et al.Mnemonic descent method:a recurrent process applied for end-to-end face alignment[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2016:4177-4187.
[7]Xiao Shengtao,F(xiàn)eng Jiashi,Xing Junliang,et al.Robust facial landmark detection via recurrent attentive-refinement networks[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:57-72.
[8]Wu Wenyan,Yang Shuo.Leveraging intra and inter-dataset variations for robust face alignment[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2017:150-159.
[9]Guo Xiaojie,Li Siyuan,Yu Jinke,et al.PFLD:a practical facial landmark detector[EB/OL].(2019).https://arxiv.org/abs/1902.10859.
[10]Wu W,Qian Chen,Yang Shuo,et al.Look at boundary:a boundary-aware face alignment algorithm[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2129-2138.
[11]Dapogny A,Bailly K,Cord M.DeCaFA:deep convolutional cascade for face alignment in the wild[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6893-6901.
[12]Deng Jiankang,Trigeorgis G,Zhou Yuxiang,et al.Joint multi-view face alignment in the wild[J].IEEE Trans on Image Processing,2019,28(7):3636-3648.
[13]Kowalski M,Naruniec J,Trzcinski T.Deep alignment network:a convolutional neural network for robust face alignment[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2017:88-97.
[14]Jin Haibo,Liao Shengcai,Shao Ling.Pixel-in-pixel net:towards efficient facial landmark detection in the wild[J].International Journal of Computer Vision,2021,129(12):3174-3194.
[15]Wang Xingyao,Bo Liefeng,Li Fuxin.Adaptive wing loss for robust face alignment via heatmap regression[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6971-6981.
[16]Kumar A,Marks T K,Mou Wenxuan,et al.LUVLi face alignment:estimating landmarks’location,uncertainty,and visibility likelihood[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8236-8246.
[17]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL].(2020).https://arxiv.org/abs/ 2010.11929.
[18]Carion N,Massa F,Synnaeve G,et al.End-to-end object detection with transformers[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:213-229.
[19]Liu Ze,Lin Yutong,Cao Yue,et al.Swin-Transformer:hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:10012-10022.
[20]Zhou Daquan,Kang Bingyi,Jin Xiaojie,et al.DeepViT:towards deeper vision transformer[EB/OL].(2021).https://arxiv.org/abs/2103.11886.
[21]Yu Baosheng,Tao Dacheng.Heatmap regression via randomized rounding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(11):8276-8289.
[22]Dai Jifeng,Qi Haozhi,Xiong Yuwen,et al.Deformable convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:764-773.
[23]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.
[24]Zhu Xiangxin,Ramanan D.Face detection,pose estimation,and landmark localization in the wild[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:2879-2886.
[25]Le V,Brandt J,Lin Zhe,et al.Interactive facial feature localization[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:679-692.
[26]Belhumeur P N,Jacobs D W,Kriegman D J,et al.Localizing parts of faces using a consensus of exemplars[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(12):2930-2940.
[27]Christos S,Georgios T,Stefanos Z,et al.300 faces in-the-wild challenge:the first facial landmark localization challenge[C]//Proc of IEEE International Conference on Computer Vision Workshops.Pisca-taway,NJ:IEEE Press,2013:397-403.
[28]Wang Jingdong,Sun Ke,Cheng Tianheng,et al.Deep high-resolution representation learning for visual recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,43(10):3349-3364.
[29]Burgos-Artizzu X P,Perona P,Dollár P.Robust face landmark estimation under occlusion[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013:1513-1520.
[30]Lin Chunze,Zhu Bei’er,Wang Quan,et al.Structure-coherent deep feature learning for robust face alignment[J].IEEE Trans on Image Processing,2021,30:5313-5326.
[31]Dong Xuanyi,Yan Yan,Ouyang Wanli,et al.Style aggregated network for facial landmark detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:379-388.
[32]Feng Zhenhua,Kittler J,Christmas W,et al.Dynamic attention-controlled cascaded shape regression exploiting training data augmentation and fuzzy-set sample weighting[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2481-2490.
[33]Valle R,Buenaposada J M,Valdes A,et al.A deeply-initialized coarse-to-fine ensemble of regression trees for face alignment[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:585-601.
[34]Wan Jun,Lai Zhihui,Liu Jun,et al.Robust face alignment by multi-order high-precision hourglass network[J].IEEE Trans on Image Processing,2020,30:121-133.