孫劉杰,樊景星
非對稱關(guān)鍵點(diǎn)注意力結(jié)構(gòu)的交互式圖像分割方法
孫劉杰,樊景星
(上海理工大學(xué),上海 200125)
人機(jī)交互信息在交互式圖像分割過程中具有重要意義,為了提高交互信息的使用效率,文中提出一種優(yōu)化方法。提出一種非對稱注意力結(jié)構(gòu),將交互信息通過該結(jié)構(gòu)融合到交互式圖像分割算法(IOG)的特征提取網(wǎng)絡(luò)中。該算法能夠進(jìn)一步強(qiáng)化關(guān)鍵點(diǎn)信息對圖像分割所起到的引導(dǎo)作用。非對稱注意力結(jié)構(gòu)能夠在不增加交互成本的條件下,在PASCAL數(shù)據(jù)集上達(dá)到92.2%的準(zhǔn)確率,比目前最好的IOG分割算法提高了0.2%。僅在小樣本PASCAL數(shù)據(jù)集上訓(xùn)練時,文中算法具有更明顯的優(yōu)勢,比現(xiàn)有最好的IOG算法的準(zhǔn)確率提高了1.3%。通過中文的非對稱注意力結(jié)構(gòu),能夠在不增加交互成本的同時提升網(wǎng)絡(luò)的分割精度。
圖像分割;神經(jīng)網(wǎng)絡(luò);關(guān)鍵點(diǎn)信息;人機(jī)交互
在涉及圖像處理和計算機(jī)視覺的項(xiàng)目中,圖像分割往往是必不可少的一項(xiàng)技術(shù)。近年來,圖像分割項(xiàng)目的熱度始終維持在一個較高的水平。圖像分割作為計算機(jī)視覺領(lǐng)域中眾多基礎(chǔ)性任務(wù)之一,體現(xiàn)出了較高的實(shí)用價值。
深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)一經(jīng)提出就被認(rèn)為高度契合圖像處理的需求。從最初廣為人知的Alexnet[1]到后來的Mask–RCNN[2],這些深度學(xué)習(xí)的方法能夠通過卷積來提取圖像特征,并且通過參數(shù)訓(xùn)練來對這些特征進(jìn)行判斷,從而精確預(yù)測出圖像的類別或是實(shí)現(xiàn)圖像的像素級別的實(shí)例分割操作。
實(shí)現(xiàn)圖像語義分割的深度學(xué)習(xí)算法往往依賴著大量優(yōu)質(zhì)的像素級數(shù)據(jù)集。創(chuàng)建一個像素級的大型訓(xùn)練數(shù)據(jù)集來訓(xùn)練這些模型的過程,通常在消耗大量人力物力的同時,有著極長的構(gòu)建周期,因此,建立一個交互式的神經(jīng)網(wǎng)絡(luò)模型來輔助進(jìn)行像素級數(shù)據(jù)集的創(chuàng)建是必不可少的。交互式的圖像分割模型,具體說來就是通過獲取一些用戶提供的輸入,如人工標(biāo)注的邊框或者點(diǎn)擊,使神經(jīng)網(wǎng)絡(luò)能夠快速提取感興趣的目標(biāo)對象,是一種能有效減少人工注釋數(shù)據(jù)集難度和像素級數(shù)據(jù)集構(gòu)建周期的方法。
近期,在交互式圖像分割領(lǐng)域中出現(xiàn)了眾多優(yōu)秀的算法。通過對文獻(xiàn)的閱讀分類和比較,發(fā)現(xiàn)優(yōu)秀的交互式分割網(wǎng)絡(luò),都基于交互過程中人工標(biāo)注的關(guān)鍵點(diǎn)信息進(jìn)行圖像的分割。關(guān)鍵點(diǎn)信息之所以優(yōu)秀,是因?yàn)樗哂幸韵聨讉€特征:易于選取、容錯率高、交互成本低、包含的圖像信息豐富。
基于關(guān)鍵點(diǎn)信息的交互式算法,根據(jù)交互方式可以分為2種類別。
1)人工標(biāo)注邊緣關(guān)鍵點(diǎn)的分割算法。典型算法有Graph cut[3]算法和DEXTR[4]算法,都基于人工標(biāo)注的圖像邊緣信息來將圖像的邊緣進(jìn)行處理和分割。其中DEXTR算法于2017年提出,使用了神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)人工標(biāo)注的分割目標(biāo)上下左右的4個極值點(diǎn)信息。盡管此算法效果優(yōu)秀,可以在4次點(diǎn)擊后達(dá)到90%以上的交并比(IoU)[5],但是在對細(xì)長物體和重疊物體處理的過程中往往誤差較大,同時極值點(diǎn)標(biāo)注的難度會帶來人工成本的增加。
2)人工標(biāo)注中心關(guān)鍵點(diǎn)的分割算法。典型算法有FCANET[6]算法和IOG[7]算法,都基于人工標(biāo)注的圖像中心點(diǎn)信息來分割圖像。其中IOG算法于2020年提出,是近期分割效果最優(yōu)秀和人工成本最低的算法,能在3次人工點(diǎn)擊后取得92的IoU評分。此算法的優(yōu)勢源于同時選取了分割目標(biāo)的包圍框和中心點(diǎn),但是也存在一些問題,如在處理關(guān)鍵點(diǎn)信息的過程中將關(guān)鍵點(diǎn)信息和圖像信息進(jìn)行了融合處理,這就導(dǎo)致關(guān)鍵點(diǎn)信息在一定程度上的丟失。
綜上,IOG算法的優(yōu)勢在于,人機(jī)交互成本更低,有著較高的容錯率,同時在精度方面取得了較好的成績,因此,文中選擇IOG網(wǎng)絡(luò)結(jié)構(gòu)作為文中的基礎(chǔ)框架,使用非對稱注意力機(jī)制對其進(jìn)行優(yōu)化,通過將關(guān)鍵點(diǎn)信息的單獨(dú)處理和再融合,取得一定的改進(jìn)效果。
文中算法的網(wǎng)絡(luò)結(jié)構(gòu)見圖1。如圖1所示,文中算法引入了一個非對稱的注意力機(jī)制結(jié)構(gòu),只在特征提取部分加入了關(guān)鍵點(diǎn)信息的注意力機(jī)制,而在上采樣的部分則沒有加入。文中算法之所以強(qiáng)調(diào)非對稱注意力結(jié)構(gòu)的優(yōu)越性,是因?yàn)樵诖蟛糠謭D像處理算法中,都使用了對稱的注意力結(jié)構(gòu)。多數(shù)的圖像分割或是圖像重建算法都由特征提取網(wǎng)絡(luò)和上采樣網(wǎng)絡(luò)組成。在上采樣網(wǎng)絡(luò)中主要進(jìn)行圖像的生成工作,因此加入一些注意力結(jié)構(gòu)在某些情況下也能提升網(wǎng)絡(luò)精度。
在文中算法中,關(guān)鍵點(diǎn)信息主要的效果是提升特征提取網(wǎng)絡(luò)的效果,本身包含的圖像細(xì)節(jié)信息較少。如果在上采樣部分也加入注意力結(jié)構(gòu),將關(guān)鍵點(diǎn)信息進(jìn)行上采樣后再次輸入,會導(dǎo)致上采樣層中過度關(guān)注分割目標(biāo)中心,從而丟失大量圖像細(xì)節(jié)信息,最終引起分割精度下降。文中在實(shí)驗(yàn)部分將對稱結(jié)構(gòu)與非對稱結(jié)構(gòu)進(jìn)行了對比,非對稱結(jié)構(gòu)比對稱結(jié)構(gòu)的效果要更優(yōu)秀。

圖1 文中算法網(wǎng)絡(luò)體系結(jié)構(gòu)
文中提出的非對稱關(guān)鍵點(diǎn)注意力機(jī)制分割網(wǎng)絡(luò)的主干框架與IOG算法相同,都使用了一個基于DeepLabv 3+[8]提出的ResNet–101[9]網(wǎng)絡(luò)結(jié)構(gòu)。在研究的過程中發(fā)現(xiàn),當(dāng)只使用一個單獨(dú)的特征提取網(wǎng)絡(luò)然后進(jìn)行簡單的上采樣操作獲取結(jié)果時,會產(chǎn)生比較嚴(yán)重的邊緣分割誤差。如果直接將網(wǎng)絡(luò)深度增加,只能夠優(yōu)化小部分邊緣和內(nèi)部的信息分割效果,這就意味著必須做出一些網(wǎng)絡(luò)體系結(jié)構(gòu)的改進(jìn),才能夠避免網(wǎng)絡(luò)忽略目標(biāo)分割對象的邊緣信息。
如圖1所示,文中算法根據(jù)IOG算法的結(jié)構(gòu)采用了類U–Net[10]的網(wǎng)絡(luò)結(jié)構(gòu)去解決上述邊緣分割效果較差的問題。通過特征提取層和上采樣網(wǎng)絡(luò)層的跳躍連接,將低級細(xì)節(jié)信息和高級全局特征從不同尺度輸入上采樣的過程中,以此來達(dá)到優(yōu)化邊緣分割的效果。
具體的分割網(wǎng)絡(luò)共由4個部分組成,相比IOG算法增加了一個關(guān)鍵點(diǎn)特征提取網(wǎng)絡(luò)部分。暫且將整個網(wǎng)絡(luò)的不同部分分別命名為a、b、c和d。第1個部分a,采用了ResNet–101作為特征提取部分的主干,以原圖像信息和關(guān)鍵點(diǎn)信息構(gòu)成的五通道圖像作為輸入。其中圖像信息使用的是RGB三通道圖像表示方法,而關(guān)鍵點(diǎn)信息則分為兩通道,一個通道存放2次外部點(diǎn)擊信息,另一通道存放1次內(nèi)部點(diǎn)擊信息。在b部分包含了一個與a部分相似的注意力結(jié)構(gòu),這個結(jié)構(gòu)的輸入則是關(guān)鍵點(diǎn)信息互相結(jié)合的一個二通道圖像,此子網(wǎng)絡(luò)的每層輸出都會和a部分中的相應(yīng)層輸出進(jìn)行相加操作,這樣做的目的是讓關(guān)鍵點(diǎn)信息在卷積的過程中始終起到引導(dǎo)網(wǎng)絡(luò)進(jìn)行特征提取的效果。c部分是一個實(shí)現(xiàn)上采樣的網(wǎng)絡(luò)結(jié)構(gòu),從整體上看a部分和c部分可以發(fā)現(xiàn),文中算法通過橫向連接,逐步將來自較深層的圖像分割信息與來自淺層的淺層信息融合,這能進(jìn)一步提高特征提取部分在分割過程中所獲取信息的利用率。同時d部分FineNet則獲得從c中每一不同尺度所給出的粗略預(yù)測信息,通過結(jié)合這些不同尺度的信息,能夠起到恢復(fù)缺失的邊緣細(xì)節(jié)的效果。d部分中,每一小塊都采用了bottleneck結(jié)構(gòu)。通過這種多尺度的融合結(jié)構(gòu),上采樣和級聯(lián)操作才能夠?qū)⑻卣魈崛∵^程中的不同級別的信息融合在一起。
文中算法的非對稱注意力結(jié)構(gòu)以Resnet101為基礎(chǔ),見圖2。
圖2中,含有標(biāo)識的塊表示卷積層的疊加,具體疊加方式見圖3。
在文中的非對稱注意力結(jié)構(gòu)中,主要使用了與Resnet101相似的結(jié)構(gòu)。如圖2所示,注意力結(jié)構(gòu)以兩通道的點(diǎn)擊信息作為輸入,整體結(jié)構(gòu)與主特征提取網(wǎng)絡(luò)一致。特征提取網(wǎng)絡(luò)開始時使用了大小為7×7的卷積核進(jìn)行卷積預(yù)處理,然后通過了一個池化層。在整個結(jié)構(gòu)中總共運(yùn)用了4個池化層,能夠在保留數(shù)據(jù)特征的同時進(jìn)行數(shù)據(jù)的輕量化,減少特征圖的深度,從而去除冗余的數(shù)據(jù)部分。在卷積塊疊加的過程中,注意力結(jié)構(gòu)發(fā)揮了作用,在每次主特征提取網(wǎng)絡(luò)對圖像進(jìn)行特征提取的同時,注意力網(wǎng)絡(luò)對關(guān)鍵點(diǎn)信息進(jìn)行特征提取,并將提取結(jié)果與圖像提取結(jié)果進(jìn)行融合,以達(dá)到加強(qiáng)關(guān)鍵點(diǎn)信息引導(dǎo)作用的目的。特征提取部分的提取操作(計算機(jī)語言)可以表示為式(1)—(4)。

圖2 文中算法非對稱注意力結(jié)構(gòu)

圖3 文中算法注意力塊結(jié)構(gòu)





圖3中展示了注意力層的一些細(xì)節(jié)。在這個結(jié)構(gòu)中主要采用了1×1和3×3大小的卷積核,其中1×1大小的卷積核主要用來控制特征圖像的尺寸和深度,3×3的卷積核則能夠?qū)植啃畔⑦M(jìn)行特征提取操作。每個注意力塊中都涉及到次的卷積循環(huán)操作,這是為了在不同的塊中進(jìn)行多次卷積操作的疊加,能夠進(jìn)一步加深網(wǎng)絡(luò)深度,從而獲得更優(yōu)秀的特征提取效果。
IOG的網(wǎng)絡(luò)結(jié)構(gòu)在卷積的過程中,關(guān)鍵點(diǎn)的信息會和圖像信息完全混合,而圖像信息本身有著較高的復(fù)雜程度,這就導(dǎo)致在高層全局特征中關(guān)鍵點(diǎn)信息從一定程度上被丟失,不能起到更好的引導(dǎo)作用。
例如,當(dāng)IOG在處理一個交互式圖像分割項(xiàng)目時,首先會將關(guān)鍵點(diǎn)信息與圖像信息進(jìn)行結(jié)合,生成一個五通道深度的圖像,其中前3個通道分別為R、G、B這3個顏色通道,后2個通道則包含關(guān)鍵點(diǎn)信息,一個通道表示外部關(guān)鍵點(diǎn),另一個通道為內(nèi)部關(guān)鍵點(diǎn)。在第1層卷積的過程中,圖像的五通道信息被綜合考慮,經(jīng)過一個大小為7×7×5的卷積核進(jìn)行卷積,生成一個深度為64的特征圖。由于關(guān)鍵點(diǎn)信息的特殊性,后2個通道中的大部分信息都表示為0的形式,只有關(guān)鍵點(diǎn)部分表示為255,而圖像部分的三通道信息大部分都在0~255,這就意味著相比圖像信息而言,關(guān)鍵點(diǎn)信息的復(fù)雜程度較低。隨著卷積計算多次步驟的疊加,關(guān)鍵點(diǎn)信息與圖像信息會完全融合,盡管關(guān)鍵點(diǎn)信息被考慮進(jìn)了分割的信息池內(nèi),但是在計算的過程中關(guān)鍵點(diǎn)的信息會因與圖像信息混合而變形,丟失了部分原本包含的信息,這就導(dǎo)致關(guān)鍵點(diǎn)信息不能夠在分割過程中起到充分的引導(dǎo)作用。




受到首個關(guān)鍵點(diǎn)注意力機(jī)制分割算法[6]的啟發(fā),文中延續(xù)了關(guān)鍵點(diǎn)注意力機(jī)制的思想,基于IOG網(wǎng)絡(luò)提出了新的特征提取策略。通過采用一個非對稱注意力結(jié)構(gòu)將關(guān)鍵點(diǎn)信息獨(dú)立輸入不同的網(wǎng)絡(luò)層中,使得關(guān)鍵點(diǎn)信息在特征提取的過程中始終起到一個引導(dǎo)的作用。同時關(guān)鍵點(diǎn)信息也通過跳躍連接作用于上采樣網(wǎng)絡(luò)的不同層中。這樣的優(yōu)勢在于關(guān)鍵點(diǎn)信息可以始終作用于整個網(wǎng)絡(luò)部分,將人機(jī)交互過程中所獲取的信息收益放大。
正如1.1節(jié)所提到的,IOG算法在分割過程中會面臨關(guān)鍵點(diǎn)信息部分丟失的問題,而文中提出的非對稱注意力結(jié)構(gòu)可以將關(guān)鍵點(diǎn)信息在卷積的過程中獨(dú)立分離出來進(jìn)行卷積操作,這樣做的好處是分離出的關(guān)鍵點(diǎn)信息部分不會被圖像信息所污染,能夠?qū)⒃镜男畔⒈A舻矫總€特征層部分,通過不同尺度上的疊加來進(jìn)行對分割的引導(dǎo)。




文中算法的人機(jī)交互點(diǎn)擊過程與IOG算法類似,主要包括3次人工點(diǎn)擊:首先在任何對稱的角位置(左上角和右下角或右上角和左下角)進(jìn)行2次外部點(diǎn)擊,形成一個幾乎緊密的包圍感興趣的目標(biāo)的邊界框,然后在內(nèi)部點(diǎn)擊,定位大致位于目標(biāo)中心。
如圖4所示,文中算法的人機(jī)交互包括步驟 如下。
1)第1次外部點(diǎn)擊。用戶單擊確定左上角的邊框點(diǎn)。
2)第2次外部點(diǎn)擊。當(dāng)用戶移動光標(biāo)至邊框右下角時,使用引導(dǎo)線提示用戶包圍框的位置,并在圖像中上生成一個邊界框。
3)內(nèi)部點(diǎn)擊選擇物體。在目標(biāo)對象的中心位置附近放置內(nèi)部單擊。
4)顯示分割結(jié)果。內(nèi)部點(diǎn)擊(紅色)與4個外部點(diǎn)擊(2個點(diǎn)擊的點(diǎn)和2個自動推斷的點(diǎn))(藍(lán)色)構(gòu)成內(nèi)外引導(dǎo),以此分別確定編碼的前景和背景區(qū)域。
調(diào)查表明,在數(shù)據(jù)集ImageNet[11]上繪制一個緊湊型的包圍框平均耗時為25.5 s[12]。這是由于人工標(biāo)注的邊界和物體實(shí)質(zhì)邊界的像素點(diǎn)總有差別,因此難以確定。使用一些簡單的提示來表示邊界框的位置,例如使用水平和垂直向?qū)Ь€使框在單擊時可見,給人繪制邊界框的負(fù)擔(dān)可以大大減輕,見圖4a—b。據(jù)IOG算法中的相關(guān)調(diào)查顯示,在引導(dǎo)線的幫助下繪制一個邊框通常需要只6.7 s[7]。
為了在訓(xùn)練過程中模擬人工選取的關(guān)鍵點(diǎn)信息,文中采用了一種根據(jù)數(shù)據(jù)集中目標(biāo)分割的真值結(jié)果來進(jìn)行模擬關(guān)鍵點(diǎn)選取的方法。
雖然電氣設(shè)備在設(shè)計時已經(jīng)考慮了防振問題,但是由于周邊或自身工作時的振動,容易引起電氣設(shè)備的緊固螺絲松動,接插件等的松動,插件板的松動等,進(jìn)而會引起電氣接觸不良、斷線、脫落、開焊、錯位、使動作失常和控制失靈。因此,對于振動大,或者振動對設(shè)備運(yùn)行造成威脅的場合必須采取防震、隔振的措施。
首先,包圍物體的包圍框是由外部關(guān)鍵點(diǎn)決定的。外部關(guān)鍵點(diǎn)的選取較為簡單,只需要對真值圖像的目標(biāo)部分取一個簡要的包圍框即可。
內(nèi)部關(guān)鍵點(diǎn)由一個位于分割目標(biāo)中心位置周圍的單擊操作來確定,這個內(nèi)部點(diǎn)選取的目的是為了區(qū)分分割目標(biāo),避免在同一個包圍框的區(qū)域中可能有多個對象帶來的干擾。為了模擬人工點(diǎn)擊的效果,采取了選擇在離對象邊界最遠(yuǎn)的位置取內(nèi)部關(guān)鍵點(diǎn)的方法。


實(shí)驗(yàn)使用的相關(guān)環(huán)境為:python3.8、pytorch1.4.1、cuda11.1、windows10、Nvidia GeForce GTX3080Ti GPU。使用了PASCAL[13]數(shù)據(jù)集。值得注意的是,在此網(wǎng)絡(luò)節(jié)點(diǎn)的測試過程中,輸出的掩碼是灰度圖像的格式,因此要先進(jìn)行二值化操作再與數(shù)據(jù)集中給出的真實(shí)值進(jìn)行比對。
文中使用IoU[5]指標(biāo)對圖像分割算法進(jìn)行評估,該值表示算法獲取的分割結(jié)果與圖像中相應(yīng)目標(biāo)區(qū)域的交并比。在表1中,展示了現(xiàn)有交互式分割算法的分割效果,最后3種方法只使用了3次點(diǎn)擊交互,學(xué)習(xí)率均設(shè)定為1×10?8,batch size均設(shè)定為4,使用了相同的SGD損失函數(shù),保證了參數(shù)的一致性。通過數(shù)值的比較可以明顯看出,文中的算法在交互成本和分割精度方面都處于最優(yōu)秀的行列,同時分割精度較目前最優(yōu)秀的方法稍有提升。從提升精度角度來看,文中算法較IOG算法只提升了0.2%,這是因?yàn)樵诮换コ杀臼艿较拗频那闆r下,為保證網(wǎng)絡(luò)的運(yùn)行速度,并未對網(wǎng)絡(luò)的結(jié)構(gòu)和深度進(jìn)行大量修改,進(jìn)一步提升精度較為困難。文中的方法在小批次訓(xùn)練效果和擬合速度方面都取得了更優(yōu)秀的成績,見表2。
表2中展示了4種算法不加載預(yù)訓(xùn)練模型僅在PASCAL數(shù)據(jù)集上訓(xùn)練100個epoch后的結(jié)果。可見文中的非對稱注意力結(jié)構(gòu)除了準(zhǔn)確率更高的優(yōu)勢之外,還可以在更小的訓(xùn)練集上快速擬合。其中,DEXTR算法、IOG算法都選取了第100個epoch為最優(yōu)節(jié)點(diǎn),對稱注意力機(jī)制分割方法選取了第96個epoch為最優(yōu)節(jié)點(diǎn),而文中算法在第93個epoch就達(dá)到了最佳的擬合效果。
表1 基于PASCAL數(shù)據(jù)集的現(xiàn)有算法分割結(jié)果準(zhǔn)確率對比

Tab.1 Accuracy of released networks on PASCAL
注:“—”表示該項(xiàng)目未給出相關(guān)的評級策略;帶“*”的數(shù)值表示該網(wǎng)絡(luò)僅用PASCAL數(shù)據(jù)集進(jìn)行訓(xùn)練。
表2 基于PASCAL數(shù)據(jù)集的小批次訓(xùn)練結(jié)果對比

Tab.2 Accuracy of released networks on PASCAL with small training dataset
在不加載任何預(yù)訓(xùn)練模型的情況下,IOG算法訓(xùn)練100個epoch后取最優(yōu)節(jié)點(diǎn),在PASCAL上取得的準(zhǔn)確率為86.6%,而文中算法可以達(dá)到87.9%的準(zhǔn)確率,DEXTR僅能達(dá)到82.1%的準(zhǔn)確率,對稱注意力機(jī)制算法則略低于非對稱版本,只能達(dá)到87.4%。從準(zhǔn)確率的角度分析,DEXTR算法的準(zhǔn)確率最低,分割精度較差,IOG算法準(zhǔn)確率高于DEXTR算法,但未達(dá)到加入注意力機(jī)制后的算法水平。加入注意力機(jī)制后,在小批次訓(xùn)練的條件下,2種注意力機(jī)制都取得了較好的效果,這是因?yàn)樽⒁饬C(jī)制使得網(wǎng)絡(luò)對交互信息的利用率得到了提升,而非對稱注意力機(jī)制相較對稱注意力機(jī)制領(lǐng)先了0.5%,這是因?yàn)殛P(guān)鍵點(diǎn)信息在上采樣的部分起到的效果一般,因此非對稱注意力機(jī)制的效果更好。在表1中,加入對稱注意力機(jī)制會導(dǎo)致算法效果比IOG更差,這是因?yàn)樵诩虞d預(yù)訓(xùn)練模型后,訓(xùn)練后網(wǎng)絡(luò)的整體精度提升,而上采樣中的關(guān)鍵點(diǎn)信息會對特征提取部分獲得的信息產(chǎn)生較大的影響,反而會以噪聲的形式對圖像重建產(chǎn)生干擾,因此,文中算法在小批次數(shù)據(jù)集上的訓(xùn)練效果要比另外3種算法更優(yōu)秀。
了更加直觀地體現(xiàn)文中算法在圖像信息復(fù)雜的情況下所具備的優(yōu)勢,DEXTR算法(圖5b、g、l)、IOG算法(圖5c、h、m)、對稱注意力機(jī)制算法(圖5d、i、n)和文中算法(圖5c、j、o)的部分分割結(jié)果可視化對比見圖5,均為加載預(yù)訓(xùn)練模型訓(xùn)練后的分割結(jié)果。圖6a、f、k展示了圖5a、f、k這3幅圖像的真值結(jié)果,其余圖為圖5中分割結(jié)果與真值結(jié)果的差值圖像,淺色部分為算法結(jié)果將背景信息誤判為分割目標(biāo)的部分,深色部分為分割目標(biāo)的缺失部分。這個過程中閾值取為0.5級,即以128為閾值,是因?yàn)榇碎撝档燃壸顬槌R?,有較高的實(shí)用性,因此將分割結(jié)果像素值小于128的部分進(jìn)行丟棄,進(jìn)行了分割結(jié)果的二值化操作。

圖5 部分實(shí)驗(yàn)結(jié)果對比

圖6 部分實(shí)驗(yàn)結(jié)果差值圖對比
注:IoU和mIoU的值分別為分割結(jié)果的0.5級閾值準(zhǔn)確率和平均準(zhǔn)確率。
為了進(jìn)一步說明4中方法的差別,將圖6中對應(yīng)的每行圖像加以放大說明,見圖7—9。
圖5a在4種算法下的分割誤差見圖7。DEXTR方法將人物的頭部和部分身體誤判為了馬匹的身軀部分,由叉號標(biāo)出;IOG方法稍有改善,將人物左側(cè)身體成功篩除,但仍將人物頭部和右側(cè)身體誤判為馬匹,由叉號標(biāo)出;對稱注意力機(jī)制方法的分割誤差在馬匹左側(cè)和人物頭部的分割效果都得到了改善,由虛線包圍的區(qū)域和對號標(biāo)出,但是人物的身體部分被大量誤判為馬匹的身軀,由叉號標(biāo)出;文中非對稱注意力機(jī)制算法能做到精確分割人物頭部和身體部分,以及馬匹左側(cè)的部分都被精確分割,虛線和對號標(biāo)出了文中方法所改善的區(qū)域。
當(dāng)原圖中包含顏色相似接觸緊密的多個目標(biāo)時(圖5a中的馬匹和人物),DEXTR方法、IOG方法容易產(chǎn)生不同目標(biāo)間分割混亂的情況。采用對稱注意力機(jī)制的算法能夠減少不同顏色間的誤判,但容易在顏色相近的部分生成更多的雜邊和分割誤差。文中的方法則能夠更為清晰地得到分割結(jié)果,能夠區(qū)分顏色相近且距離緊密的不同目標(biāo)。
圖5f在4種算法下的分割誤差見圖8。DEXTR方法、IOG方法分割誤差部分,人物的腿部被自行車所遮擋,產(chǎn)生了較嚴(yán)重的目標(biāo)丟失,由叉號標(biāo)出;對稱注意力機(jī)制部分,人物的腿部被大量丟失,同時將自行車部分誤判為人物的腿部,由叉號標(biāo)出;文中非對稱注意力部分,人物的腿部得到了有效分割,同時不存在將自行車誤判為人物腿部的情況,由虛線包圍的區(qū)域和對號標(biāo)出。
當(dāng)原圖中的分割目標(biāo)被障礙物遮擋時(圖5f中的人物),DEXTR方法、IOG方法會由于目標(biāo)被遮擋而丟失一些信息。采用對稱注意力機(jī)制則容易丟棄更多目標(biāo)被遮擋的部分,同時存在遮擋物被誤判為目標(biāo)物的情況。文中的方法則能夠獲得較為精確的分割結(jié)果,能夠在排除遮擋物的情況下對目標(biāo)做出正確分割。
圖5k在4種算法下的分割誤差見圖9。DEXTR方法部分,將背景中的陰影部分誤判為了人體,由叉號標(biāo)出;IOG方法部分,則將人物手臂下的背景部分誤判為人物手臂,由叉號標(biāo)出;對稱注意力機(jī)制部分,人物手臂下的誤判得到了改善,由虛線包圍的區(qū)域和對號標(biāo)出,但在人物頭部的分割精度下降,將背景部分誤判為人物頭發(fā),由叉號標(biāo)出;文中非對稱注意力機(jī)制部分,既改善了人物手臂下的誤判區(qū)域,在人物頭部生成的多余雜邊也較少,由2處虛線包圍的區(qū)域和對號標(biāo)出。
當(dāng)圖像整體偏暗,目標(biāo)顏色相近信息復(fù)雜時(圖5k中的人物),DEXTR方法、IOG方法都會產(chǎn)生較多雜邊。對稱注意力機(jī)制能夠減少一些外圍的雜邊,但在主體分割的精確度上反而會有部分下降。文中的分割算法在此情況下最清晰精確,能夠做到減少雜邊和誤判所帶來的分割誤差。
通過綜合分析這3種情況,說明了文中的方法在多目標(biāo)色彩相似且距離復(fù)雜、目標(biāo)之間存在明顯遮擋關(guān)系、前景和背景色調(diào)相似等情況下都擁有更好的分割精度。

圖7 圖5a實(shí)驗(yàn)結(jié)果差值

圖8 圖5f實(shí)驗(yàn)結(jié)果差值

圖9 圖5k實(shí)驗(yàn)結(jié)果差值
如表3所示,在泛化性測試中,選用了COCO2017數(shù)據(jù)集中的部分圖片。首先對人像圖片進(jìn)行泛化性能測試,由于人像信息的復(fù)雜性,IOG算法和文中算法均表現(xiàn)一般。在PASCAL數(shù)據(jù)集進(jìn)行訓(xùn)練的條件下,IOG算法的準(zhǔn)確率為49.0%,文中算法準(zhǔn)確率為50.4%。對車輛圖片進(jìn)行測試,IOG算法準(zhǔn)確率為59.4%,文中算法準(zhǔn)確率為60.8%。對家具圖片測試,IOG準(zhǔn)確率為52.9%,文中算法準(zhǔn)確率為53.8%。在測試中,對人物圖像和家具圖像效果較一般的原因是,這2類圖像一般構(gòu)成信息較為復(fù)雜,多存在物體重疊的部分,且顏色較為鮮艷,因此分割效果要略低于車輛圖片。在泛化性能上文中方法的準(zhǔn)確率較IOG算法平均高出1.2%,提升效果較為明顯。
表3 基于COCO數(shù)據(jù)集的算法泛化能力對比

Tab.3 Accuracy of interactive image segmentation network on COCO
泛化性能測試中部分實(shí)驗(yàn)結(jié)果見圖10,圖10a、d為實(shí)驗(yàn)圖像,圖10b、e為IOG算法的分割結(jié)果,圖10c、f為文中算法分割結(jié)果。從圖10中可以看出文中算法的分割結(jié)果邊緣更加清晰,像素填充更加穩(wěn)定均勻。
綜上,文中方法的泛化性能比IOG算法更加優(yōu)秀。

圖10 COCO數(shù)據(jù)集部分實(shí)驗(yàn)結(jié)果對比
文中提出了一種簡單有效的非對稱注意力結(jié)構(gòu),將交互式分割過程中的關(guān)鍵點(diǎn)信息單獨(dú)卷積后,在特征提取部分與圖像信息再融合,在避免關(guān)鍵點(diǎn)信息損失的同時加強(qiáng)了其對分割的引導(dǎo)效果,從而獲取了精度上的提升。同時,文中將多種方法進(jìn)行了對比,在小批次訓(xùn)練以及泛化性能等角度,文中算法均具優(yōu)勢。
盡管文中方法的交互模式十分簡單,但實(shí)驗(yàn)表明,關(guān)鍵點(diǎn)模型在數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果和交互的便利性上具有優(yōu)勢,從而證明了它作為一個注釋工具的可能。后期的工作可以嘗試在其輸入信息中加入更多圖像信息,如邊緣信息和梯度信息。從信息量的角度來細(xì)化輸入或者從加深網(wǎng)絡(luò)深度的角度來進(jìn)一步優(yōu)化,能作為該算法以后的改進(jìn)方向。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 1097-1105.
[2] HE K, GKIOXARI G, DOLLáR P, et al. Mask R-Cnn[C]// Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.
[3] VICENTE S, KOLMOGOROV V, ROTHER C. Graph Cut Based Image Segmentation with Connectivity Priors[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2008: 1-8.
[4] MANINIS K K, CAELLES S, PONT-TUSET J, et al. Deep Extreme Cut: From Extreme Points To Object Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 616-625.
[5] YU J, JIANG Y, WANG Z, et al. Unitbox: An Advanced Object Detection Network[C]// Proceedings of the 24th ACM international conference on Multimedia. 2016: 51-520.
[6] LIN Z, ZHANG Z, CHEN L Z, et al. Interactive Image Segmentation with First Click Attention[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 13339-13348.
[7] ZHANG S, LIEW J H, WEI Y, et al.Interactive Object Segmentation With Inside-Outside Guidance[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 12234-12244.
[8] CHEN L C, ZHU Yu-kun, PAPANDREOU G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]//Computer Vision-ECCV 2018, 2018: 801-818.
[9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[10] LI Xiao-meng, CHEN Hao, QI Xiao-juan, et al. H-DenseUNet: Hybrid Densely Connected UNet for Liver and Tumor Segmentation from CT Volumes[J]. IEEE Transactions on Medical Imaging, 2018, 37(12): 2663-2674.
[11] DENG J, DONG W, SOCHER R, et al. Imagenet: A large-Scale Hierarchical Image Database[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009: 248-255.
[12] SU Hao, DENG Jia, LI Fei-fei. Crowdsourcing Annotations for Visual Object Detection[C]// Workshops at the Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012.
[13] EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The Pascal Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[14] GRADY L. Multilabel Random Walker Image Segmentation Using Prior Models[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), IEEE, 2005, 1: 763-770.
[15] BAI Xue, SAPIRO G. Geodesic Matting: A Framework for Fast Interactive Image andVideo Segmentation and Matting[J]. International Journal of Computer Vision, 2009, 82(2): 113-132.
[16] XIE E, SUN P, SONG X, et al. Polarmask: Single Shot Instance Segmentation with Polar Representation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 12193-12202.
[17] LIEW J H, WEI Y, XIONG W, et al. Regional Interactive Image Segmentation Networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV), IEEE Computer Society, 2017: 2746-2754.
[18] HU Yang, SOLTOGGIO A, LOCK R, et al. A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation[J]. Neural Networks, 2019, 109: 31-42.
Interactive Image Segmentation with Asymmetric Key Points Attention
SUN Liu-jie, FAN Jing-xing
(University of Shanghai for Science and Technology, Shanghai 200125, China)
In the process of interactive image segmentation, human-computer interaction plays an important role. For higher efficiency of human-computer interaction, this paper describes a structure of asymmetric key points attention, which can integrate human-computer interaction into the feature extraction network of interactive object segmentation with inside-outside guidance (IOG), based on guidance reinforcement of IOG for image segmentation of key points. This structure enhanced the accuracy to 92.2% without increasing the cost of interaction on PASCAL, 0.2% higher IOG (current best segmentation algorithm). While only training on PASCAL, the accuracy of this structure was obviously 1.3% higher than IOG. Under the assistance of the structure of asymmetric key points attention, the accuracy of segmentation can be improved without increasing the cost of interaction.
image segmentation; neural network; key points; human-computer interaction
TP183
A
1001-3563(2022)11-0292-10
10.19554/j.cnki.1001-3563.2022.11.037
2021–06–18
孫劉杰(1965—),男,博士,上海理工大學(xué)教授,主要研究方向?yàn)楣庑畔⑻幚砑夹g(shù)、印刷機(jī)測量與控制技術(shù)、數(shù)字印刷防偽技術(shù)。
責(zé)任編輯:曾鈺嬋