劉青茹 李剛 趙創 顧廣華 趙耀
圖像密集描述是基于自然語言處理和計算機視覺兩大研究領域的任務,是一個由圖像到語言的跨模態課題.其主要工作是為圖像生成多條細節描述語句,描述對象從整幅圖像擴展到圖中局部物體細節.近年來,該任務頗受研究者關注.一方面,它具有實際的應用場景[1],如人機交互[2]、導盲等;另一方面,它促進了眾多研究任務的進一步發展,如目標檢測[3?4]、圖像分割[5]、圖像檢索[6]和視覺問答[7]等.
作為圖像描述的精細化任務,圖像密集描述實現了計算機對圖像的細粒度解讀.同時,該任務沿用了圖像描述的一般網絡架構.受機器翻譯[8]啟發,目前的圖像描述網絡[9?11]大多為編碼器?解碼器(Encoder-decoder,ED)框架,因此圖像密集描述任務也大多基于該傳統結構.該框架首先將卷積神經網絡(Convolutional neural network,CNN)作為編碼器來提取圖像視覺信息[12],得到一個全局視覺向量,然后輸入到基于長短期記憶網絡(Long-short term memory,LSTM)[13]的解碼器中,最后逐步輸出相應的描述文本單詞.
基于上述編碼?解碼框架,為實現圖像區域密集描述,Karpathy等[14]試圖在區域上運行圖像描述模型,但無法在同一模型中同時實現檢測和描述.在此基礎上,Johnson等[15]實現了模型的端到端訓練,并首次提出了圖像密集描述概念.該工作為同時進行檢測定位和語言描述提出了一種全卷積定位網絡架構,通過單一高效的前向傳遞機制處理圖像,不需要外部提供區域建議,并且可實現端到端的優化.雖然全卷積定位網絡架構可實現端到端密集描述,但仍存在兩個問題:
1)模型送入解碼器的視覺信息僅為感興趣區域的深層特征向量,忽略了淺層網絡視覺信息和感興趣區域間的上下文信息,從而導致語言模型預測出的單詞缺乏場景信息的指導,所生成的描述文本缺乏細節信息,甚至可能偏離圖像真實內容.
2)對于單一圖像的某個區域而言,描述文本的生成過程即為一次圖像描述.圖像描述中,由于網絡僅使用單一LSTM 來預測每個單詞,故解碼器未能較好地捕捉到物體間的空間位置關系[16],從而造成描述文本的句式簡單,表述不夠豐富.
為解決上下文場景信息缺失問題,Yang等[17]基于聯合推理和上下文融合思想提出了一種多區域聯合推理模型.該模型將圖像特征和區域特征進行集成,實現了較為準確的密集描述.但是提出的上下文信息過于粗糙,且尚不完整.Yin等[18]通過相鄰區域與目標區域間的多尺度信息傳播,提出一種上下文信息傳遞模塊.該模塊引入了局部、鄰居和全局信息,從而獲取較細粒度的上下文信息.此外,Li等[19]通過目標檢測技術揭示了描述區域與目標間的密切關系,提出一種互補上下文學習架構,也可實現上下文信息的細粒度獲取.在圖像密集描述任務的最新進展中,Shao等[20]提出一種基于Transformer 的圖像密集描述網絡,打破了傳統的編碼?解碼框架,致力于改進LSTM 網絡和關注信息豐富區域.上述工作在一定程度上解決了上下文場景信息的缺失問題,但尚未有研究能解決淺層特征信息利用不完全和區域內空間位置信息獲取不完備的問題.
為提高圖像區域描述的準確性,本文提出一種基于多重注意結構的圖像密集描述生成方法 —MAS-ED (Multi-attention structure-encoder decoder).該方法通過構建多尺度特征環路融合(Multiscale feature loop fusion,MFLF)機制,為解碼器提供多尺度有效融合特征,增加比較細節的幾何信息;并設計多分支空間分步注意力(Multi-branch spatial step attention,MSSA)解碼器,通過提取目標間的空間維度信息,以加強文本中目標間的位置關系描述.模型訓練過程中,MFLF 機制和MSSA解碼器之間交替優化、相互促進.實驗結果表明,本文的MAS-ED 方法在Visual Genome 數據集上獲得了具有競爭力的結果.
本文提出的基于多重注意結構的密集描述生成方法網絡框架如圖1 所示.模型是一個端到端的網絡模型.據圖1 可知,MAS-ED 模型是基于殘差網絡和LSTM 網絡的編碼?解碼架構,總體可分解為以下幾個階段.
圖1 基于多重注意結構的圖像密集描述生成方法Fig.1 Dense captioning method based on multi-attention structure
1)區域視覺特征獲取.選用在ImageNet 數據集上預訓練過的ResNet-152 網絡作為特征提取器,用來獲取含有整幅圖像視覺信息的全局視覺向量,然后將其送入區域建議網絡(Region proposal network,RPN),得到高質量的區域建議候選框.
2)上下文信息處理.通過交并比(Intersection over union,IoU)計算兩個區域圖像塊間的交并比分數,并進行排序.將分值最高的相鄰圖像塊特征作為當前圖像塊的上下文特征.全局特征的獲取由全局池化層(Global pooling layer,GAP)來完成.
3)多尺度環路融合特征提取.MFLF 機制會從殘差網絡的各Block 層視覺特征中提取各向量上包含的幾何信息和語義信息,然后將其中顯著性視覺信息編碼進一個和Block 層視覺特征維度相同的特征向量中.最后將該向量送入RPN 層,以得到含有幾何細節和語義信息豐富的多尺度環路融合特征.
4)空間位置信息提取.空間分步注意力(Spatial step attention,SSA)模塊會根據上一解碼器當前的隱含層狀態,動態決定從多尺度環路融合特征中獲取哪些位置信息,同時決定位置信息在當前單詞預測時刻的參與比例,從而向語言模型提供對預測本時刻單詞最有用的位置關系特征.
5)單詞預測.本文采用表示物體間空間位置關系的注意力特征來引導LSTM 網絡的單詞序列建模過程.圖1 中L-LSTM 表示Language-LSTM,輸入的視覺特征由區域特征、上下文特征和全局特征組成;A-LSTM 表示Attention-LSTM,輸入的視覺特征是注意力引導的多尺度環路融合特征.為使空間位置信息更好地融入到解碼器的輸出中,本文將SSA 模塊和三個LSTM 網絡組成圖1 所示結構,以形成選擇和融合的反饋連接,并稱為多分支空間分步注意力(MSSA)解碼器.
圖像密集描述兼具標簽密度大和復雜性高兩大難點,其任務網絡模型較為龐大.現有研究方法僅將深層網絡特征用于文本生成,而淺層網絡特征并未有效利用.雖然深層網絡特征語義信息表征能力強,但其特征圖分辨率低,幾何信息含量少.而淺層網絡特征的特征圖分辨率高,幾何信息表征能力強.故本文在增加少許網絡參數量和計算量的情況下,提出一種多尺度特征環路融合機制,即MFLF 機制,將同一網絡的深層和淺層特征進行多尺度融合,使模型可更完備地提取出圖中含有的幾何信息和語義信息.其結構如圖2 所示.
受到特征金字塔算法[21]啟發,MFLF 機制效仿其實現過程,改進逐層流向結構,以減少計算資源開支.MFLF 機制讓高層網絡輸出特征流向低層網絡輸出特征,以實現在低層特征圖中加權有效的語義信息.本文將此過程稱為語義流,其實現過程如圖2 中虛線子圖框所示.經幾次語義流向過程后,最底層特征圖完成了全部有效語義信息的加權.為使模型有效利用語義加權優化后低層特征圖中的有效幾何信息,MFLF 機制設計了從低層特征流向高層的網絡結構,以實現在高層特征圖中加權有效幾何信息的目的.此過程稱為幾何流,其實現過程如圖2 中實線子圖框所示.需要注意的是,幾何流的初始特征是經語義信息加權后的,故可削弱冗雜信息的比重.由圖2 可知,語義流和幾何流構成了閉合回路,組成了多尺度特征環路融合(MFLF)機制.
ResNet-152 網絡可分為4 個Block,第1 個Block 層的網絡層數較少,其特征圖含有較多冗雜信息[22].因此在構建MFLF 機制時,僅考慮后3 個Block 的輸出特征,即圖2 中所示的C2、C3和C4.此外,語義流和幾何流的組合具有多種可能.本文將在消融實驗部分闡述如何選擇語義流分支和幾何流分支.本文確定的最佳組合為語義流分支選擇C3-C2和C4-C2,幾何流分支選擇C2-C4,其中C3-C2 表示C3 層特征信息流向C2 層,以此類推.
圖2 多尺度特征環路融合機制Fig.2 Multi-scale feature loop fusion mechanism
如圖2 所示,單條語義流分支實現過程為: 1)將兩個不同尺度的特征圖送入1×1 卷積層,以保留原有平面結構,達到通道數統一;2)通過上采樣將高層特征表示映射到低層特征表示空間;3)將上采樣后的高層特征與低層特征進行元素級相加操作,得到融合特征;4)將融合特征送入1×1 卷積層完成通道數調整.實際操作中,若殘差網絡Block 層輸出特征通道數統一,則不需要完成步驟1)和步驟4).本文為提高MFLF 機制的健壯性和可遷移性,特意增加這兩個步驟.單條幾何流分支實現過程同單條語義流分支,僅將其中的上采樣操作更改為下采樣操作即可.最終,MFLF 機制將語義流分支和幾何流分支融合形成一組多尺度視覺特征.隨著訓練過程中網絡參數的逐步優化,各Block 層的輸出視覺特征也隨之優化,使MFLF 機制動態調整幾何信息和語義信息在輸出特征中的比例,為解碼器提供了可動態優化的多尺度融合特征,從而使模型能夠準確生成含有豐富細節的文本描述.
1.3.1 空間分步注意力模塊
注意力機制在各個研究領域中得到廣泛應用[23?25].本文引入注意力機制獲取目標位置信息,并借鑒卷積塊注意模塊(Convolutional block attention module,CBAM)[26]模型方法,同時考慮通道和空間兩個維度,以獲得更好的注意效果.如圖3 所示,空間分步注意力模塊(SSA)的類通道注意力模塊(Channel-like attention module,CLAM)由維度變換操作和通道注意力模塊[27]共同組成,且通道注意與空間注意交叉進行.
給定視覺特征F∈RH×W×C和預測單詞w∈RC,其中H,W,C分別表示特征圖的高、寬和通道.首先擴充預測單詞的空間維度S∈RH×W×C,并與視覺特征進行元素級加和及非線性 R eLu 函數激活,得到攜帶預測單詞信息的加和特征圖FS∈RH×W×C:
由圖3 可知,SSA 模塊包含上下兩支路,其作用過程類似.以上支路為例,先考慮預測單詞在特征圖height 維度的加權,后考慮width 維度.SSA模塊將加和特征FS輸入CLAM 中,得到預測單詞在特征圖height 維度的注意力權重圖AH:
圖3 空間分步注意力模塊Fig.3 Spatial step attention module
其中,fT是維度變換函數,目的是將特征圖空間維度中的height 維度信息映射到通道維度所在空間.利用式(3)將注意力權重圖AH與視覺特征F相乘進行自適應特征優化,得到經預測單詞加權height維度后的特征矩陣向量FH:其中,M atmul 函數表示兩個矩陣的乘積.
接下來介紹上支路中第二步空間注意,即考慮預測單詞在特征圖width 維度的加權.將經預測單詞加權height 維度后的特征矩陣FH送入式(2),得到預測單詞在width 維度各向量上的注意權重分布圖AH&W(H&W表示先考慮height 維度,后考慮width 維度).特別注意,此次fT函數是將特征圖中的width 維度信息映射到通道維度所在空間.由此得到基于預測單詞加權特征空間height,width兩維度的特征圖表示:
圖3 中下支路的作用流程與上支路類似,加和特征FS經式(2)~式(4)操作后,可得到基于預測單詞加權特征空間width,height 兩維度的特征圖FW&H.最后,SSA 模塊將優化后的上、下兩分支特征圖進行元素級加和,得到預測單詞調整后的視覺特征:
綜上,SSA 模塊通過結合解碼器上一時刻的預測單詞,實現了在空間維度和通道維度的交叉注意,以加權視覺特征中的位置信息,并將其用于指導解碼器下一時刻的單詞預測.在解碼器序列建模過程中,模型可根據當前單詞的預測結果,完成有選擇性地關注視覺特征中的空間位置關系.
1.3.2 多分支解碼器
一般來說,若只將單一LSTM 網絡作為語言模型,則在本時刻的單詞預測僅可根據前幾個時刻的信息來推斷.然而,隨著時間軸的不斷延長,解碼器較大概率會出現錯誤累積現象[16].因此在當前時刻采用糾正手段來緩解錯誤累積,可在一定程度上提高密集描述的準確率.由第1.3.1 節可知,SSA 模塊可結合解碼器上一時刻的預測單詞,來指導下一時刻的單詞預測.基于此,本文設計如圖4 所示的多分支解碼器結構以實現在當前時刻對預測單詞的及時糾正.多分支解碼器結構由兩個SSA 模塊、一個L-LSTM 網絡和兩個A-LSTM 網絡組成.三個LSTM 網絡的輸入構成級聯以實現同一時刻的錯誤糾正,其輸出構成并聯以完成本時刻預測單詞的反復驗證.
圖4 多分支空間分步注意力模塊Fig.4 Multi-branch spatial step attention module
三個LSTM 網絡的初始化向量均為局部特征、全局特征及上下文特征的串行連接向量Fconcat.在密集描述文本生成前,網絡初始化過程為:
其中,Flocal,Fglobal和Fcontext分別表示描述區域特征,全局信息特征和上下文信息特征;Fconcat表示特征向量的拼接.在t時刻下,為生成預測單詞yt,解碼器 L -LSTM 的向量轉化如下:
其中,和表示經過 L -LSTM 解碼器一次糾正和二次糾正后的預測單詞向量,F1和F2表示經SSA 模塊優化后的多尺度環路融合特征.由此可知,多分支解碼器不僅可實現當前時刻預測單詞的及時糾正,還為單詞預測過程引入了幾何信息和空間位置信息,從而使模型生成的描述文本更為精細.最后,多分支解碼器更新當前隱藏狀態ht:
MAS-ED 方法主要包括多尺度特征環路融合、空間位置注意權重獲取和多分支解碼器建模幾個步驟.在多尺度特征環路融合中,由于本文模型無需調整特征圖通道數,因此可去除MFLF 機制的1×1卷積層,故MFLF 機制共有3 次加法運算、3 次上采樣和2 次下采樣.實驗中上采樣和下采樣由雙線性插值函數來完成,因此每個像素點坐標需完成8次乘法和11 次加法運算.因此MFLF 機制的乘法運算次數為 4 0×(w×h),加法運算次數為55×(w×h)+3.新增8 個輸出特征圖,故空間、時間復雜度分別為 O (8×(w×h×C))、O (95×(w×h)+3).而將同等w×h分辨率的高維特征圖送入單個卷積層后,其時間和空間復雜度可達到O(k2×w×h×Cin×Cout)和O (k2×Cin×Cout).由此可知,MFLF 機制增加的計算量和參數量尚不如一個卷積操作.
用SSA 模塊獲取空間位置注意權重時,模型需要完成3 次加法運算、4 次矩陣乘法運算、2 次ReLu非線性變換和4 次CLAM 模塊.每個CLAM 模塊包含2 次池化、2 次 R eLu 變換、4 次卷積和1 次Sigmoid 變換.其中,僅卷積操作和中間新增特征圖涉及空間復雜度計算,故SSA 模塊增加的參數量為 O (k2×Cin×Cout+w×h×C),增加的計算量為O(k2×w×h×Cin×Cout+C+C2).此外,構建多分支解碼器建模時,模型僅增加了1 次加法運算,可以忽略.
基于編碼器?解碼器框架下,CAG-Net[18]方法采用VGG16 網絡進行特征提取,并將3 個LSTM網絡用于文本序列解碼;而MAS-ED 則采用Res-Net-152 網絡,同樣使用3 個LSTM 網絡用于解碼.VGG16和ResNet-152 的計算復雜度大致等同[23],但前者參數量超出后者約21 MB.暫不考慮CAGNet 所提出的CFE和CCI 這兩個模塊,僅基礎架構模型的參數量就已超MAS-ED 所有參數量;而且兩者計算復雜度基本持平.TDC (Transformerbased dense captioner)[20]模型同樣采用參數量較少的ResNet-152 網絡,但其后端解碼網絡使用了Transformer[28].與3 個LSTM 網絡相比,Transformer 網絡增加的計算量和參數量相對較大.綜上可知,相對于CAG-Net和TDC,MAS-ED 雖然增加了MFLF 機制和MSSA 解碼器兩個模塊,但是增加的計算量和參數量均很小.
本文使用標準數據集Visual Genome 對MASED 方法進行測試.該數據集有V1.0和V1.2 兩個版本,V1.2 比V1.0 標注重復率更低,標注語句也更符合人類習慣.對數據集的處理同文獻[15],將出現次數少于15 的單詞換為
與目標檢測任務的平均準確均值(Mean average precision,mAP)指標不同,本文所用的mAP指標專門用來評估圖像密集描述任務,由文獻[15]首次提出.該指標的計算過程為: 首先,利用交并比函數(IoU),將區域間重疊分值處于{0.2,0.3,0.4,0.5,0.6}的幾種精度均值(Average precision,AP)作為預測區域性定位的準確性度量;之后,使用METEOR 指標[29]將語義相似度處于{0,0.05,0.10,0.15,0.20,0.25}的幾種精度均值(AP),作為預測文本和真值標注間的語義相似度度量;最后,計算這幾組AP 的平均值作為最終的mAP 分值.
本文采用文獻[17]的近似聯合訓練方法來實現模型的端到端訓練,并使用隨機梯度下降來優化模型,其學習率和迭代數的設置均與基線方法相同.訓練過程中,圖像批大小設為1,且每次前向訓練中為單個圖像生成256 個感興趣區域.實驗使用具有512 個隱藏節點的LSTM單元,并將單詞序列長度設為12.對于測試評估,將高度重疊的框合并為具有多個參考標題的單個框,來預處理驗證/測試集中的真值標注區域.具體地,對于每個圖像,迭代選擇具有最多重疊框的框(基于閾值為0.7 的IoU),將它們合并在具有多個標注的單個框中.之后排除該組,并重復以上過程.
為驗證MAS-ED 方法的有效性和可靠性,本文選取幾種典型的基線方法來完成對比實驗.基線方法根據網絡框架分為兩組: 基于LSTM 解碼網絡框架和基于Transformer 解碼網絡框架.其中,僅TDC[20]模型為基于Transformer 解碼網絡框架.密集描述模型性能由mAP 分值來評估.
基于LSTM 解碼網絡框架下的各模型性能如表1 所示.針對V1.0 數據集,與FCLN 相比,MASED 的mAP 分值提高了98.01%,性能提升明顯;與T-LSTM和COCG 相比,MAS-ED 的mAP 分別提升了14.64%和8.76%.由于T-LSTM和COCG模型僅致力于上下文信息的改進,而MAS-ED 不僅考慮到上下文關系,還有效利用淺層特征和空間位置關系,所以本文mAP 性能得到有效提升.與最先進的CAG-Net 方法相比,為公平起見,MAS-ED未使用ResNet-152 網絡而使用VGG16 網絡,其mAP 性能仍提升1.55%.這表明,MAS-ED 優于CAG-Net.針對V1.2 數據集,MAS-ED 性能同樣優于基線方法,與最先進的COCG 相比,MAS-ED獲得了6.26%的性能優勢.
表1 基于LSTM 解碼網絡密集描述算法mAP 性能Table 1 mAP performance of dense caption algorithms based on LSTM decoding network
表2 所示為基于Transformer 解碼網絡框架下的模型性能.由表2 可見,MAS-ED 方法的mAP分值優于TDC 方法,在V1.2 數據集上mAP 分值達到了11.04;而與TDC+ROCSU 模型相比,MASED 性能稍差.但TDC+ROCSU 模型算法復雜度遠高于MAS-ED.具體來說,TDC+ROCSU 模型選用Transformer 作為序列解碼器,而本文選用LSTM 網絡,前者所增加的計算量和參數量遠遠大于后者;其次,TDC+ROCSU 模型在使用ROCSU模塊獲取上下文時,部分網絡不能進行on-line 訓練,無法實現整個網絡的端到端訓練,而MAS-ED卻可實現端到端的網絡優化;最后,TDC+ROCSU 致力于獲取準確的文本描述,而MAS-ED 不僅考慮文本描述的準確性,還試圖為文本增加幾何細節和空間位置關系,在一定程度上增加了文本的豐富度.所以相比于TDC+ROCSU 模型,本文方法MAS-ED 算法復雜度低,可端到端優化且能提高文本豐富性.
表2 基于非LSTM 解碼網絡密集描述算法mAP 性能Table 2 mAP performance of dense caption algorithms based on non-LSTM decoding network
本文共實現了三種基于注意結構的密集描述模型: 1)多尺度特征環路融合模型(MFLF-ED),使用深、淺層網絡的融合特征作為視覺信息,由標準三層LSTM 解碼;2)多分支空間分步注意力模型(MSSAED),僅使用深層網絡特征作為視覺信息,由多分支空間分步注意力解碼器解碼;3)多重注意結構模型(MAS-ED),使用深、淺層網絡的融合特征作為視覺信息,由多分支空間分步注意力解碼器解碼.為驗證兩個模塊的有效性,在相同實驗條件下,本文設置了如表3 所示的對比實驗.
由表3 可知,在兩種不同網絡框架下,MSSAED 模型和MFLF-ED 模型的性能表現均優于基線模型,這表明淺層細節信息和空間位置信息都利于圖像的密集描述.此外,MSSA-ED 模型要比MFLFED 模型表現更優.這是因為在MSSA 解碼器中,SSA 模塊通過上一解碼器的預測單詞指導下一解碼器的單詞生成時,模塊有額外視覺特征輸入,所以MSSA-ED 模型除了可獲取物體的空間位置信息,還在一定程度上利用了視覺特征中區域目標的相關信息.而MFLF-ED 模型僅使用MFLF 機制來融合多尺度特征,增加幾何信息,以此提升小目標的檢測精度和增加大目標的描述細節.因此相對而言,MSSA-ED 模型的改進方法較為多元,實驗效果較好.
表3 VG 數據集上密集描述模型mAP 性能Table 3 mAP performance of dense caption models on VG dataset
此外,MAS-ED 模型性能優于兩個單獨模型.這是因為在MAS-ED 模型訓練過程中,MSSA 解碼器通過反向傳播機制,促使MFLF 機制不斷調整視覺融合特征中語義信息和幾何信息的參與比例;同時,MFLF 機制通過提供優質融合特征,來輔助MSSA 解碼器盡最大可能地獲取區域實體間的空間位置關系.最后,由表3 可知,基于ResNet-152 的三個消融模型性能比基于VGG16 更優越.說明密集描述模型不僅需要具有幾何細節的淺層特征,也需要包含豐富語義的深層特征,從而也證明本文將深層殘差網絡ResNet-152 作為特征提取網絡的正確性.
2.4.1 MFLF-ED
為探索MFLF 機制的最佳實現方式,本文設計了不同語義流和幾何流支路組合的性能對比實驗,實驗結果如表4 所示.由MFLF 機理可知,語義流的源特征層應為最高的C4 層,以保證最優的語義信息可流向低層特征圖;其目的特征層應為最低的C2 層,以確保較完整的幾何細節可流向高層特征圖.而幾何流的源特征層和目的特征層應與語義流相反,從而幾何流和語義流構成環路融合.語義流有4種情況: C4-C2,C4-C3 &C3-C2,C4-C2+(C3-C2),C4-C2+(C4-C3 &C3-C2),同樣幾何流有C2-C4,C2-C3 &C3-C4,C2-C4+(C3-C4)和C2-C4+(C2-C3 &C3-C4).本文將從源特征層直接流向目的特征層的分支(如C4-C2)稱為直接流向分支,而將途經其他特征層的分支(如C4-C3 &C3-C2)稱為逐層流向分支.
由表4 可知,當語義流和幾何流均采用單條直接流向分支[C4-C2]+[C2-C4]時,其性能(10.530)優于兩者均采用單條逐層流向分支[C4-C3 &C3-C2]+[C2-C3 &C3-C4](10.349),更優于兩者均采用逐層流向分支和直接流向分支[C4-C2+(C4-C3 &C3-C2)]+[C2-C4+(C2-C3 &C3-C4)](7.704).這是由于直接流向結構可確保源特征圖信息完整地融入目的特征圖,而逐層流向結構會造成信息丟失.此外,若同時使用兩種結構進行信息傳播,由于信息含量過多且較為冗雜,會造成顯著性信息缺失,從而性能表現最差.
當語義流和幾何流均選用單條直接流向分支和部分逐層流向分支[C4-C2+(C3-C2)]+[C2-C4+(C3-C4)] 時,其模型性能(10.504)雖優于逐層流向結構模型(10.349),但劣于直接流向結構模型(10.530).為進一步提高模型性能,本文選擇分開考慮語義流和幾何流配置.當語義流選用直接流向分支,而幾何流選用直接流向分支和部分逐層流向分支[C4-C2]+[C2-C4+(C3-C4)]時,其模型性能較差(9.727).而當語義流選用直接流向分支和部分逐層流向分支,幾何流選用直接流向分支[C4-C2+(C3-C2)]+[C2-C4]時,其模型性能(10.654)要優于直接流向結構模型(10.530).
除此之外,由表4 中前2 行數據可知,C4 層中的優質語義信息多于C3 層,C2 層中的幾何細節信息也比C3 層多,從而進一步證明了MFLF 機制將C4 層和C2 層作為源特征層和目的特征層的正確性.
表4 不同分支組合模型的mAP 性能比較Table 4 Comparison of mAP performance of different branch combination models
綜上,[C4-C2+(C3-C2)]+[C2-C4]是MFLF機制的最優組合方式.為了更加直觀,本文將各模型的描述結果可視化如圖5 所示.當語義流和幾何流均采用直接流向和逐層流向的雙通路實現時,由于信息冗雜,語句中含有的信息量少,甚至出現錯誤信息,如 “A shelf of a shelf”.當單獨采用直接流向或逐層流向時,語句中含有的語義和幾何信息有所提升,如 “wood”和“yellow”.隨著網絡結構不斷優化,生成語句中的語義信息更抽象,如 “kitchen room”,幾何信息也更加具體,如 “many items”.
圖5 不同分支組合模型結果可視化(圖中每行上面 “[·]”表示語義流,下面 “[·]”表示幾何流)Fig.5 Visualization of results of different semantic flow branching models (The upper “[·]” of each line in the figure represents the semantic flow,and the lower “[·]” represents the geometric flow)
2.4.2 MSSA-ED
1) SSA 模塊.基于相同實驗條件下,本文在模型MSSA-ED 上對SSA 模塊中上下兩分支進行冗余性分析,實驗結果如表5 所示.表中Up-ED 表示僅使用SSA 模塊上支路,即先考慮預測單詞在特征圖height 維度的加權,后考慮width 維度;Down-ED 則僅使用SSA 模塊下支路,維度加權順序與上支路相反.由表5 可知,兩個單支路模型的性能相差不大,而采用雙支路的MSSA-ED 性能優于兩個單支路模型.這是因為每個支路對兩個空間維度(height 維度和width 維度)都進行加權考慮,加權先后順序對模型性能影響并不大,若將上下兩支路所得到的加權信息融合,模型便可獲得更加準確的空間位置信息.
表5 SSA 模塊支路模型的mAP 性能Table 5 mAP performance of SSA module branch model
各模型的可視化效果如圖6 所示.Up-ED 能檢測出 “sign”與“wall”的左右關系,Down-ED 則捕捉到目標物體與“refrigerator”的高低關系,而MSSA-ED 則通過融合兩個位置信息得出最符合真值標注的預測語句.
圖6 SSA 模塊支路模型的結果可視化Fig.6 Visualization of results from the SSA module branch model
2)多分支解碼器.本文通過設計對比實驗來確定多分支解碼器的支路數,實驗結果見表6.其中單支路表示僅添加一條A-LSTM 通路,依此類推兩支路與三支路表示.由表6 可知,基于三種不同SSA模塊,兩支路模型的性能都優于單支路模型和三支路模型.這是因為采用A-LSTM 對預測單詞進行實時糾正時,過少支路的模型不能在復雜特征信息中準確定位描述目標;而過多支路的模型,雖對單目標區域十分友好,但在多目標區域描述時,會過度關注每個目標,導致模型忽略目標間的語義關系.
表6 不同支路數對多分支解碼器性能的影響Table 6 Effects of different branch numbers on the performance of multi-branch decoders
為了更加直觀,圖7 將基于MSSA-ED 的三種不同支路模型的注意權重可視化.圖中從左到右依次為原圖、單支路注意圖、兩支路注意圖和三支路注意圖,圖下方為各模型的預測語句.其中單支路模型的注意權重分布較分散,無法準確捕捉到目標;三支路對單目標注意相對集中,但對多目標注意權重圖成點簇狀;而兩支路不僅能突出描述區域內的目標,并且可關注到區域內目標間的空間位置關系.
圖7 注意圖可視化Fig.7 Attentional map visualization
為進一步直觀表明各個模塊實驗效果,圖8 給出了多個密集描述模型的定性表現.由圖中的描述語句可得,MFLF-ED 模型可以描述出灌木叢 “bush”的 “small”和“green”,建筑物 “building”和公交車“bus”的顏色 “red”等細節信息,說明MFLF 機制能為密集描述增加有效幾何信息,但描述語句均為簡單句,較少體現物體間的邏輯關系;MSSA-ED 模型能夠捕捉到建筑物 “building”與植物 “plants”、樹 “trees”與大象 “elephant”間的空間位置關系,證明MSSA 解碼器能為密集描述獲取有效位置關系,但因缺乏幾何細節,左子圖中 “bush”的信息表述模糊,采用了廣泛的 “plant”來表述;而MAS-ED模型不僅可檢測出灌木叢 “bush”、建筑物 “building”以及公交車 “bus”的顏色、大小細節,而且還在一定程度上能夠表達出各物體間的空間位置關系,如 “side”,“behind”等.
圖8 圖像密集描述模型的定性分析Fig.8 Qualitative analysis of image dense captioning model
值得注意的是,MAS-ED 模型的預測語句沿用了MSSA-ED 中的 “growing on”詞組,這表明 “bush”的一種生長狀態,是基準描述語句中未體現的.類似地,右子圖中的 “beard man”也沒有存在于基準語句中,這些都體現了MAS-ED 方法可為密集描述增加豐富度,能夠生成靈活多樣的描述語句.
特殊地,對于大目標物體的細節信息,如 “building”,MAS-ED 模型指出了該物體的顏色 “red”和組成 “brick”.但GT和MFLF-ED 模型的語句中僅體現了顏色這一細節,因此 “brick” 是MAS-ED模型自適應添加的幾何細節,且該幾何細節完全符合圖中物體.此外,MAS-ED 還一定程度上增加了小目標物體的精確檢測,如GT 語句中未體現 “beard man”.該目標是MAS-ED 模型在描述語句中自適應增加的,并且由圖8 可知當前描述區域中的確含有這一目標.此外,圖8 中間子圖的密集描述語句體現了MAS-ED 模型可自適應加入位置信息.在該子圖中,MSSA-ED 模型捕捉到了 “tress”與“elephant”間的位置關系,但MAS-ED 模型中卻未體現,而是指出了 “building”與“elephant”間的關系.這是由于MAS-ED 模型經訓練后,有選擇地篩選出了最為突出的目標間位置信息.
本文提出了一種基于多重注意結構的圖像密集描述生成方法,該方法通過構建一個多尺度特征環路融合機制,為文本描述增加了較為細節的幾何信息;并設計了多分支空間分步注意力解碼器,以加強描述目標間的空間位置關系.實驗結果表明,基于LSTM 解碼網絡框架,本文MAS-ED 方法的性能優于其他圖像密集描述方法.