基于注意力機(jī)制和輔助任務(wù)的語(yǔ)義分割算法

2021-09-15 07:36:24葉劍鋒熊峻峰王化明

計(jì)算機(jī)工程 2021年9期

葉劍鋒，徐軻，熊峻峰，王化明

（南京航空航天大學(xué)機(jī)電工程學(xué)院，南京 210008）

0 概述

語(yǔ)義分割是計(jì)算機(jī)視覺(jué)的基礎(chǔ)任務(wù)之一，其目的是將輸入圖像劃分為不同語(yǔ)義可解釋的類別，即像素級(jí)別的多類別分類任務(wù)［1］。目前，語(yǔ)義分割廣泛應(yīng)用于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、城市交通規(guī)劃等領(lǐng)域。

傳統(tǒng)的圖像分割算法主要包括基于閾值的分割算法［2］、基于邊緣的分割算法［3］、基于區(qū)域的分割算法［4］等，這些算法通常采用圖像特征分類器來(lái)完成圖像分割，針對(duì)分割目標(biāo)設(shè)計(jì)多個(gè)特征，分別對(duì)每個(gè)特征設(shè)計(jì)一個(gè)結(jié)構(gòu)復(fù)雜的特征提取器，最后構(gòu)建一個(gè)分類器對(duì)所獲取的特征進(jìn)行識(shí)別和分類。

近年來(lái)，卷積神經(jīng)網(wǎng)絡(luò)［5-7］在圖像分類任務(wù)上取得了顯著成果。相比傳統(tǒng)圖像處理算法，基于深度學(xué)習(xí)的圖像處理算法采用通用的學(xué)習(xí)過(guò)程，從數(shù)據(jù)中主動(dòng)學(xué)習(xí)得到特征，并不需要手工設(shè)計(jì)特征［1］。

深度學(xué)習(xí)方法成功應(yīng)用在圖像分類、目標(biāo)檢測(cè)、自然語(yǔ)言處理等領(lǐng)域，其被改進(jìn)、遷移到語(yǔ)義分割領(lǐng)域，圖像的語(yǔ)義分割技術(shù)也逐漸取得突破。例如LONG 等［8］提出的全卷積神經(jīng)網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN）在圖像分類網(wǎng)絡(luò)視覺(jué)幾何組（Visual Geometry Group，VGG）網(wǎng)絡(luò)的基礎(chǔ)上去除全連接層，加入多級(jí)上采樣還原分辨率，實(shí)現(xiàn)端到端的語(yǔ)義分割，何凱明等［9-10］在此基礎(chǔ)上進(jìn)一步加以改進(jìn)。CHEN 等［11］在網(wǎng)絡(luò)模型中引入自然語(yǔ)言處理中的注意力機(jī)制以實(shí)現(xiàn)多尺寸特征圖像的加權(quán)融合，提高算法的尺寸不變性。為了增大感受野、降低特征維度、減少計(jì)算量，現(xiàn)有算法對(duì)輸入圖像做多次下采樣，但在此過(guò)程中損失函數(shù)對(duì)特征的約束力越來(lái)越低，造成低層特征的離散度低，丟失大量空間細(xì)節(jié)信息。為提升網(wǎng)絡(luò)模型低層特征的離散度［12］和語(yǔ)義分割算法的性能，YANG 等［13］提出一種區(qū)域級(jí)別的基于紋理基元塊識(shí)別與合并的圖像語(yǔ)義分割算法，該算法采用紋理基元等特征，考慮到相鄰像素點(diǎn)間的相互關(guān)系，保留物體間的棱角和邊緣信息，分割出輪廓清晰的對(duì)象，但其仍然存在對(duì)目標(biāo)形狀、邊緣細(xì)節(jié)分割欠缺等問(wèn)題。

本文提出一種基于輔助損失、邊緣檢測(cè)輔助任務(wù)和注意力機(jī)制［14］的語(yǔ)義分割算法。通過(guò)圖像分類中的輔助損失并為其重新設(shè)計(jì)網(wǎng)絡(luò)模型，使網(wǎng)絡(luò)低層特征編碼更多語(yǔ)義信息。利用機(jī)器學(xué)習(xí)領(lǐng)域中的多任務(wù)學(xué)習(xí)，選擇邊緣檢測(cè)作為輔助任務(wù)，基于自然語(yǔ)言處理中的注意力機(jī)制為其設(shè)計(jì)輔助任務(wù)分支，使網(wǎng)絡(luò)模型更關(guān)注物體的形狀和邊緣信息。

1 相關(guān)工作

1.1 語(yǔ)義分割

語(yǔ)義分割是計(jì)算機(jī)視覺(jué)應(yīng)用（如自動(dòng)駕駛、場(chǎng)景理解等）的關(guān)鍵技術(shù)。近年來(lái)，卷積神經(jīng)網(wǎng)絡(luò)迅猛發(fā)展，像素級(jí)語(yǔ)義分割也取得顯著進(jìn)展。語(yǔ)義分割如圖1 所示。

圖1 語(yǔ)義分割Fig.1 Semantic segmentation

語(yǔ)義分割的研究主要集中在以下兩方面：

1）編碼器-解碼器結(jié)構(gòu)，將神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)為編碼器-解碼器結(jié)構(gòu)，通過(guò)在編碼階段保留更多的圖像信息，同時(shí)在解碼階段恢復(fù)圖像損失的信息來(lái)生成更好的語(yǔ)義分割結(jié)果。例如，SegNet［15］利用在編碼階段保存的池化索引來(lái)恢復(fù)圖像池化時(shí)丟失的空間信息；U-Net［16］設(shè)計(jì)跳躍連接結(jié)構(gòu)，通過(guò)直接在解碼階段引入低層特征圖來(lái)恢復(fù)圖像所丟失的信息。

2）上下文信息，使神經(jīng)網(wǎng)絡(luò)聚合更多的圖像上下文信息，連接不同采樣率的特征圖像，解決尺度多樣性問(wèn)題，得到更精準(zhǔn)的語(yǔ)義分割結(jié)果。例如，DeepLab［17］通過(guò)空洞空間金字塔池化結(jié)構(gòu)在多尺寸圖像上捕捉上下文信息；ParseNet［18］通過(guò)添加全局池化分支，在解碼階段引入全局上下文信息。

本文結(jié)合以上兩種方法：一方面采用FCN 作為基礎(chǔ)模型，且可以更換為其他任意具有編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型；另一方面采用注意力機(jī)制聚合更多上下文信息，采用跳躍連接結(jié)構(gòu)連接不同采樣率上的特征圖像。

1.2 輔助損失

網(wǎng)絡(luò)深度是神經(jīng)網(wǎng)絡(luò)的主要特征之一，但神經(jīng)網(wǎng)絡(luò)過(guò)深會(huì)存在梯度消失、收斂困難等問(wèn)題，使得神經(jīng)網(wǎng)絡(luò)訓(xùn)練失敗或達(dá)不到理想的效果［7］。因此研究人員設(shè)計(jì)了多種訓(xùn)練方法和網(wǎng)絡(luò)結(jié)構(gòu)來(lái)解決這個(gè)難題，如Dropout［19］、批歸一化［20］、殘差結(jié)構(gòu)［7］等。輔助損失（又稱中間監(jiān)督）通過(guò)直接在網(wǎng)絡(luò)中間加入輔助損失分支，降低梯度消失、網(wǎng)絡(luò)難以收斂的概率，使深度網(wǎng)絡(luò)更加容易訓(xùn)練。

本文將輔助損失引入語(yǔ)義分割網(wǎng)絡(luò)中的主要目的并不是解決收斂困難等問(wèn)題，而是使低層特征編碼更多語(yǔ)義信息，提升低層特征的離散度。

1.3 多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)是指模型同時(shí)學(xué)習(xí)多個(gè)具有相關(guān)表征的任務(wù)，提高學(xué)習(xí)效率和預(yù)測(cè)準(zhǔn)確率、改善泛化性能。多任務(wù)學(xué)習(xí)普遍應(yīng)用在機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域［21-24］。MultiNet［21］設(shè)計(jì)了一種能夠同時(shí)進(jìn)行圖像分割、目標(biāo)檢測(cè)、語(yǔ)義分割等視覺(jué)任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)，十字繡網(wǎng)絡(luò)［22］針對(duì)性研究多任務(wù)網(wǎng)絡(luò)中神經(jīng)元共享的方法，提出通過(guò)端對(duì)端的學(xué)習(xí)來(lái)自動(dòng)決定共享層的十字繡網(wǎng)絡(luò)結(jié)構(gòu)。多任務(wù)學(xué)習(xí)過(guò)程如圖2 所示。

圖2 多任務(wù)學(xué)習(xí)過(guò)程Fig.2 Multi-task learning process

多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)專注于計(jì)算機(jī)視覺(jué)任務(wù)的并行學(xué)習(xí)，需要在多個(gè)任務(wù)結(jié)果之間權(quán)衡，不能保證單個(gè)任務(wù)取得最優(yōu)結(jié)果。本文提出的輔助任務(wù)是在多任務(wù)學(xué)習(xí)中區(qū)分主任務(wù)與輔助任務(wù)，只專注于主任務(wù)的訓(xùn)練效果，使用輔助任務(wù)的訓(xùn)練信號(hào)中所擁有的特定領(lǐng)域信息來(lái)提升主任務(wù)的泛化效果，使主任務(wù)取得最優(yōu)結(jié)果。

1.4 注意力機(jī)制

注意力機(jī)制在自然語(yǔ)言處理領(lǐng)域中廣泛應(yīng)用［23-24］。近年來(lái)，如何將注意力機(jī)制引入到計(jì)算機(jī)視覺(jué)中也成為研究熱點(diǎn)。HU 等［25］提出目標(biāo)關(guān)系模組來(lái)建模一系列目標(biāo)間的關(guān)系從而提升目標(biāo)檢測(cè)效果。CHEN 等［11］提出多尺寸注意力機(jī)制來(lái)自適應(yīng)融合多尺寸圖像，提升語(yǔ)義分割效果。

本文將自注意力機(jī)制和殘差模塊相結(jié)合，設(shè)計(jì)針對(duì)邊緣檢測(cè)任務(wù)的輔助任務(wù)分支。自注意力機(jī)制可以根據(jù)通道間的依賴關(guān)系自適應(yīng)增強(qiáng)相關(guān)語(yǔ)義的通道圖，提升殘差模塊相關(guān)語(yǔ)義的表達(dá)能力。

2 網(wǎng)絡(luò)結(jié)構(gòu)

2.1 輔助損失分支

深度神經(jīng)網(wǎng)絡(luò)中加入輔助損失的目的是降低梯度消失、網(wǎng)絡(luò)難以收斂的概率，便于深度網(wǎng)絡(luò)訓(xùn)練。最近研究［4，26-28］發(fā)現(xiàn)，在精心設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)及采用其他訓(xùn)練方法的情況下，超過(guò)100 層的深度神經(jīng)網(wǎng)絡(luò)不采用輔助損失也不會(huì)出現(xiàn)無(wú)法收斂的問(wèn)題，甚至在部分淺層的圖像分類網(wǎng)絡(luò)上使用輔助損失會(huì)降低分類準(zhǔn)確率。

在語(yǔ)義分割網(wǎng)絡(luò)中引入輔助損失的主要目的是提高低層特征的質(zhì)量。為了在輔助損失分支中輸出語(yǔ)義信息，低層特征需要編碼更多語(yǔ)義信息，提高低層特征的離散度，有利于其后的特征融合。因此對(duì)于淺層網(wǎng)絡(luò)，加入輔助損失后，雖然其分類準(zhǔn)確率變化不大甚至降低，但仍然可以提高其分割的準(zhǔn)確度，即平均交并比。

輔助損失分支結(jié)構(gòu)如圖3 所示，圖像分類只有一維輸出如圖3（a）所示，而語(yǔ)義分割輸出是二維圖像，因此輔助損失分支的結(jié)構(gòu)設(shè)計(jì)也不一樣，針對(duì)語(yǔ)義分割的輔助損失分支結(jié)構(gòu)如圖3（b）所示。最上方為通過(guò)基礎(chǔ)模型中間某層所得到的特征圖，經(jīng)過(guò)多層卷積處理降維后，再通過(guò)雙線性插值進(jìn)行拉伸，得到與原圖像尺寸一致的特征圖，最后計(jì)算特征圖與目標(biāo)圖像的二維交叉熵?fù)p失。算法的總損失函數(shù)為基礎(chǔ)模型損失和所有輔助損失的加權(quán)和。訓(xùn)練完成后，將移除所有輔助損失分支，僅使用基礎(chǔ)模型進(jìn)行推斷，避免輔助損失分支帶來(lái)額外的內(nèi)存及時(shí)間消耗。

圖3 輔助損失分支結(jié)構(gòu)Fig.3 Branch structure of auxiliary loss

2.2 輔助任務(wù)分支

2.2.1 輔助任務(wù)

雖然同樣是多個(gè)任務(wù)并行訓(xùn)練，相比多任務(wù)學(xué)習(xí)，本文算法專注于提升主任務(wù)的訓(xùn)練效果，其余任務(wù)均為輔助任務(wù)。對(duì)于輔助任務(wù)，其本身的訓(xùn)練效果并不重要，重要的是提升主任務(wù)的訓(xùn)練效果。

輔助任務(wù)能提升模型分割效果的原因主要有以下三方面：1）輔助任務(wù)能為模型提供歸納偏置，提高模型的泛化能力；2）輔助任務(wù)提供額外的數(shù)據(jù)信息，可以視作一種數(shù)據(jù)增廣算法；3）輔助任務(wù)所提供的信息也有可能成為噪聲，HOLMSTROM 等［29］的研究表明偶爾在訓(xùn)練過(guò)程中加入噪聲，能夠增強(qiáng)網(wǎng)絡(luò)模型的泛化能力。因此，輔助任務(wù)的選擇應(yīng)滿足以下要求：1）主任務(wù)的概念層次應(yīng)高于輔助任務(wù)，且主任務(wù)的目標(biāo)域應(yīng)與輔助任務(wù)的目標(biāo)域存在交集；2）主任務(wù)和輔助任務(wù)的訓(xùn)練圖像應(yīng)一致或輔助任務(wù)的標(biāo)注圖像應(yīng)便于從主任務(wù)的標(biāo)注圖像中獲得。

本文研究的主任務(wù)為語(yǔ)義分割，根據(jù)上述原則，選擇的輔助任務(wù)為邊緣檢測(cè)。邊緣檢測(cè)是傳統(tǒng)圖像處理中的基本問(wèn)題之一，目的是提取圖像中對(duì)象與背景間的交界線，使低層共享網(wǎng)絡(luò)更關(guān)注于物體的形狀和邊緣信息，獲取更多關(guān)于物體類內(nèi)差異的特征［30］。而邊緣檢測(cè)所需的標(biāo)注圖可以從語(yǔ)義分割的標(biāo)注圖中獲取，語(yǔ)義分割和邊緣檢測(cè)標(biāo)注如圖4 所示。

圖4 語(yǔ)義分割標(biāo)注和邊緣檢測(cè)標(biāo)注Fig.4 Label of semantic segmentation and edge detection

2.2.2 注意力殘差模塊

本文結(jié)合自注意力機(jī)制與殘差模塊設(shè)計(jì)注意力殘差模塊（Attention Residual Module，ARM）結(jié)構(gòu)，將注意力殘差模塊堆疊得到輔助任務(wù)分支，注意力殘差模塊構(gòu)建如圖5 所示。原始?xì)埐钅K如圖5（a）所示，模塊輸入和輸出如式（1）、式（2）所示：

其中：xl和xl+1分別為第l 層輸入和輸出；F為殘差函數(shù)；h為恒等映射函數(shù)；f為整流線性激活函數(shù)。雖然殘差模塊內(nèi)恒等映射函數(shù)可以保證信息流無(wú)損流動(dòng)，但由于激活函數(shù)的存在，整個(gè)網(wǎng)絡(luò)的信息流并不能無(wú)損流動(dòng)。因此為保證信息流無(wú)損地在各層間流動(dòng)，將f變?yōu)楹愕扔成浜瘮?shù)，得到改進(jìn)后的殘差模塊，即恒等殘差模塊［31］，如圖5（b）所示。

圖5 殘差模塊構(gòu)建Fig.5 Construction of residual module

殘差模塊構(gòu)建如式（3）、式（4）所示：

根據(jù)反向傳播鏈?zhǔn)椒▌t有：

從式（5）可以看出，損失梯度可以無(wú)損地傳遞到任意殘差模塊，甚至任意殘差模塊的損失梯度都可以無(wú)損地傳遞其余任意殘差模塊，因此減小了梯度消失的概率。

但是特征圖的每個(gè)通道可以被視為特定于某種語(yǔ)義特征的響應(yīng)圖，并且不同的語(yǔ)義特征彼此相關(guān)聯(lián)。顯然殘差模塊中xl與yl語(yǔ)義特征并不一致，不能直接相加。因此在恒等殘差模塊xl與yl的融合中引入自注意力機(jī)制，用于顯式建模xl與yl各語(yǔ)義特征之間的相互依賴關(guān)系。利用通道之間的相互依賴性，增強(qiáng)相互依賴的特征并改進(jìn)特定語(yǔ)義的特征表示，如式（6）、式（7）所示：

輸入特征圖為X?RC×H×W，經(jīng)過(guò)兩輪批歸一化、激活函數(shù)和卷積后可得到新特征圖Y?RC×H×W，然后將X和Y分別重排為X′?RC×N和Y′?RC×N，對(duì)X′和Y′的轉(zhuǎn)置作矩陣乘法，再經(jīng)過(guò)歸一化指數(shù)函數(shù)后得到通道注意力圖A?RC×C，X的第i個(gè)通道對(duì)Y的第j個(gè)通道的影響因子如式（8）所示：

對(duì)A和Y′作矩陣乘法，再重排E?RC×H×W為增強(qiáng)后的特征圖。將E與X作元素加操作得到最終輸出特征圖O?RC×H×W。注意力殘差模塊結(jié)構(gòu)如圖6所示。

圖6 注意力殘差模塊結(jié)構(gòu)Fig.6 Structure of attention residual module

與輔助損失分支一樣，訓(xùn)練完成后將移除所有輔助任務(wù)分支，僅使用基礎(chǔ)模型進(jìn)行推斷，避免輔助任務(wù)分支帶來(lái)額外內(nèi)存及時(shí)間消耗。

2.3 整體結(jié)構(gòu)

FCN 在深度圖像分類神經(jīng)網(wǎng)絡(luò)VGG 的基礎(chǔ)上去除全連接層，大幅降低網(wǎng)絡(luò)的參數(shù)量，提高計(jì)算速度。由于FCN 只剩卷積層和激活函數(shù)，因此可以看作一個(gè)大型卷積核，能接受任意尺寸圖像作為輸入圖像。最后，加入多級(jí)上采樣還原分辨率，實(shí)現(xiàn)端到端的語(yǔ)義分割。網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖7所示。

圖7 網(wǎng)絡(luò)模型整體結(jié)構(gòu)Fig.7 Overall structure of network model

由于FCN 具有輕量化、高精度、結(jié)構(gòu)簡(jiǎn)單且能接受任意尺寸圖像作為輸入圖像的特點(diǎn)，便于實(shí)現(xiàn)復(fù)雜算法并快速驗(yàn)證的同時(shí)依舊保持高精度，故本文采用FCN 作為基礎(chǔ)模型。

輔助任務(wù)分支中所有注意力殘差模塊后都加入雙線性上采樣層還原分辨率。網(wǎng)絡(luò)模型損失函數(shù)如式（9）所示：

總損失能量為主任務(wù)、輔助任務(wù)分支和輔助損失分支的損失能量加權(quán)和，主任務(wù)、輔助任務(wù)分支和輔助損失分支的損失函數(shù)均為交叉熵?fù)p失函數(shù)，并取α=0.1、β=1。

3 實(shí)驗(yàn)與分析

為驗(yàn)證所提出算法的有效性，本文在PASCAL VOC2012 大型數(shù)據(jù)集上進(jìn)行測(cè)試，采用像素準(zhǔn)確率和平均交并比來(lái)衡量分割真值（Groud Truth，GT）與實(shí)際分割結(jié)果的差異。PASCAL VOC2012 擁有1 464 張訓(xùn)練集圖像，14 449 張驗(yàn)證集圖像和1 456 張測(cè)試集圖像。本文實(shí)驗(yàn)環(huán)境采用操作系統(tǒng)Ubuntu 16.04 LTS，算法框架Pytorch，CPU 為Intel i7-4710MQ，GPU 為NVIDIA GTX950m，顯存2 GB，內(nèi)存8 GB，CUDA 版本10.0。

3.1 輔助損失分支實(shí)驗(yàn)及分析

首先在淺層網(wǎng)絡(luò)模型ResNet50 上進(jìn)行實(shí)驗(yàn)以驗(yàn)證2.1 節(jié)中的理論。在CIFAR-10 驗(yàn)證集上測(cè)試分類準(zhǔn)確率，在VOC2012 驗(yàn)證集上測(cè)試平均交并比。ResNet18 加入輔助損失前后的性能對(duì)比如表1 所示。加入輔助損失后，雖然其分類準(zhǔn)確率變化不大，但其平均交并比提升0.78 個(gè)百分點(diǎn)。淺層網(wǎng)絡(luò)模型加入輔助損失后，分割的準(zhǔn)確度即平均交并比確實(shí)得到提升。低層特征需要編碼更多的語(yǔ)義信息來(lái)提升其質(zhì)量，最終提高分割的準(zhǔn)確度。

表1 ResNet18 加入輔助損失前后的性能對(duì)比Table 1 Performance comparison of ResNet18 before and after adding auxiliary loss %

在FCN 中加入輔助損失分支來(lái)提升其低層特征的質(zhì)量。FCN 不同層加入輔助損失的驗(yàn)證集性能對(duì)比如表2 所示，F(xiàn)CN 加入輔助損失分支后取得66.2%的平均交并比，相比于基準(zhǔn)模型提升了0.7 個(gè)百分點(diǎn)，驗(yàn)證了輔助損失算法的有效性。從表2 可以看出，隨著輔助損失在網(wǎng)絡(luò)模型中位置變深，網(wǎng)絡(luò)模型性能反而降低，這可能是隨著輔助損失的層數(shù)在網(wǎng)絡(luò)模型中位置越來(lái)越深，其對(duì)低層特征的約束力越來(lái)越弱，因此提升效果越來(lái)越差。

表2 FCN 不同層加入輔助損失的驗(yàn)證集性能對(duì)比Table 2 Performance comparison of validation sets with auxiliary losses between different FCN layers %

3.2 輔助任務(wù)分支實(shí)驗(yàn)及分析

輔助任務(wù)進(jìn)一步加強(qiáng)網(wǎng)絡(luò)低層特征的離散度，本文采用圖像分類與語(yǔ)義分割多任務(wù)作為對(duì)比。多任務(wù)和輔助任務(wù)驗(yàn)證集性能對(duì)比如表3 所示，加入輔助任務(wù)后網(wǎng)絡(luò)模型的平均交并比從65.5%提升到70.7%，而多任務(wù)產(chǎn)生了負(fù)面的影響，使網(wǎng)絡(luò)性能降低了5.7 個(gè)百分點(diǎn)，驗(yàn)證了輔助任務(wù)算法的有效性。

表3 多任務(wù)和輔助任務(wù)驗(yàn)證集性能對(duì)比Table 3 Performance comparison of multi-task and secondary task validation set %

邊緣檢測(cè)輔助網(wǎng)絡(luò)的分割結(jié)果如圖8 所示。邊緣檢測(cè)輔助任務(wù)分支正常學(xué)習(xí)到語(yǔ)義邊界特征。

圖8 邊緣檢測(cè)結(jié)果對(duì)比Fig.8 Results comparison of edge detection

3.3 實(shí)驗(yàn)結(jié)果及分析

為測(cè)試本文算法性能，在VOC2012 測(cè)試集上對(duì)加入輔助任務(wù)分支和輔助損失分支后的完整算法進(jìn)行實(shí)驗(yàn)，同時(shí)與基于相同基礎(chǔ)模型FCN 的主流語(yǔ)義分割算法進(jìn)行對(duì)比。在VOC2012 測(cè)試集上不同算法性能對(duì)比如表4 所示。從表4 可以看出，F(xiàn)CN-A 為本文算法模型，基礎(chǔ)模型為FCN。將輔助任務(wù)分支與輔助損失分支應(yīng)用到SegNet上，即SegNet-A。最終FCN-A 的平均交并比為71.5%。相比基礎(chǔ)模型，F(xiàn)CN-A 模型提高了6 個(gè)百分點(diǎn)，推斷時(shí)間僅增加30 ms，驗(yàn)證了本文算法的有效性。同時(shí)，SegNet-A 的平均交并比為72.2%，比之前ParseNet 高了2.4 個(gè)百分點(diǎn)，推斷時(shí)間僅增加5 ms，驗(yàn)證了本文算法的可擴(kuò)展性。

表4 在VOC2012 測(cè)試集上不同算法性能對(duì)比Table 4 Performance comparison of different algorithms on VOC2012 test set

網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果對(duì)比如圖9 所示。從圖9可以看出，加入邊緣檢測(cè)輔助任務(wù)分支的網(wǎng)絡(luò)模型對(duì)于物體的形狀、語(yǔ)義邊界的分割效果更好。說(shuō)明邊緣檢測(cè)輔助任務(wù)分支使網(wǎng)絡(luò)模型更關(guān)注物體的形狀和邊緣信息，獲取更多關(guān)于物體類內(nèi)差異特征，提升網(wǎng)絡(luò)模型低層特征的離散度，優(yōu)化了基礎(chǔ)模型分割結(jié)果的語(yǔ)義邊緣。但是從圖9 第4 行的分割結(jié)果中可以看出，本文模型對(duì)物體與背景紋理、顏色近似度高的情況分割結(jié)果并不理想。這可能是因?yàn)榫W(wǎng)絡(luò)模型特征的類間差異度較低，需要學(xué)習(xí)更多關(guān)于紋理、顏色的特征，后續(xù)可以嘗試加入最大化類間差異度的損失函數(shù)或結(jié)構(gòu)等。

圖9 不同網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果對(duì)比Fig.9 Prediction results comparison between different network models

4 結(jié)束語(yǔ)

本文提出一種基于輔助損失、邊緣檢測(cè)輔助任務(wù)和注意力機(jī)制的語(yǔ)義分割算法。重新設(shè)計(jì)網(wǎng)絡(luò)模型的輔助損失分支，基于自然語(yǔ)言處理中的注意力機(jī)制設(shè)計(jì)輔助任務(wù)分支，將基礎(chǔ)模型、重新設(shè)計(jì)網(wǎng)絡(luò)模型的輔助損失分支和輔助任務(wù)分支集成構(gòu)造為語(yǔ)義分割模型。實(shí)驗(yàn)結(jié)果表明，本文算法在VOC2012測(cè)試集上的平均交并比達(dá)到了71.5%，將基礎(chǔ)模型更換為SegNet 后，平均交并比達(dá)到72.2%，驗(yàn)證了該算法的有效性和可擴(kuò)展性。下一步將利用輔助任務(wù)機(jī)制的內(nèi)在數(shù)學(xué)機(jī)理，并結(jié)合新的特征提取網(wǎng)絡(luò)研究成果進(jìn)行注意力機(jī)制和輔助任務(wù)的泛化性研究。