基于自然語言的目標檢測算法綜述

2021-03-27 13:06:03

中文信息 2021年1期

（重慶交通大學信息科學與工程學院，重慶 400074）

目標檢測是計算機視覺領域的重要研究內容，近年來得益于GPU的并行計算能力以及深度神經網絡強大的特征表達能力，深度學習在圖像處理領域取得了很大的進步。但在目標檢測中除了使用圖像信息以外，學術界早已提出使用多模態的信息來提升某一個任務的性能，其中自然語言就是一種重要的多媒體信息。與其他類型的信息相比，自然語言可以提供一種靈活而緊湊的方式來描述區分不同的視覺特征。

自然語言與圖像的匹配方法主要分為兩種類型，一種是匹配式：提取圖像特征與自然語言特征，將二者的特征進行匹配，返回相似度最高的圖片區域。另一種是生成式：為每個圖像的候選區域生成自然語言描述，與目標自然語言對比，返回相似度最高的區域。

本文將從匹配式和生成式兩個方面介紹基于自然語言的目標檢測算法，并對該領域的發展趨勢進行展望。

一、匹配式算法

2017年，Shuang Li等人首次提出使用自然語言進行行人重識別，并且首次建立了一個包括不同來源圖片樣本和詳細自然語言注釋的大型行人資料數據集CUHK-PEDES，其中提出了一種基于門控神經注意機制的遞歸神經網絡GNA-RNN，該網絡中包含一個視覺子網絡和一個語言子網絡，視覺子網絡用于提取圖像特征，語言子網絡用于提取語言特征并為不同的詞語賦予權重，根據查詢對象的文本描述，利用搜索算法對數據庫中的所有樣本進行排序，從而檢索出與描述最相關的樣本[1]。

Tianlang Chen等人針對Shuang Li的算法中對圖像空間中的關鍵屬性感知能力不強的問題，設計了一個動態閾值機制來計算單詞與局部圖像塊的關聯度。對于每個單詞都設置一個閾值來判定是否和圖像匹配，并對關聯度進行一個動態壓縮以緩解匹配時的敏感問題。Ying Zhang在隱空間特征學習的跨模態檢索方法基礎上提出了兩個損失函數，分別為Cross-Modal Projection Matching（CMPM）和Cross-Modal Projection Classification（CMPC），用以提升跨模態特征的匹配性能。Dapeng Chen等人針對行人重識別的問題，提出在訓練階段利用自然語言來輔助進行圖像特征的學習，使用注意力函數構建自然語言和圖像特定區域的關聯，形成加權聚合特征向量，最終測試時利用學習到的圖像特征進行檢索。Kuang-Huei Lee分別對文本和圖像應用注意力機制，學習比較好的文本和圖像表示，然后再在共享的子空間中利用三重損失度量文本和圖像之間的相似性。周炫余[2]首先利用圖像分析的方法初步獲取圖像目標的候選框，其次通過文本分析的方法獲取文本中有關圖像目標的實體表達，并提出一種基于馬爾科夫隨機場的模型用于推斷圖像候選框與文本實體表達之間的共指關系，以此聯合圖像和文本信息以輔助機器視覺提高交通場景下行人檢測精度。

匹配式方法計算量小、速度快，但是訓練過程中圖像特征不能被優化，模型準確率不高。

二、生成式算法

Bokun Wang等人基于在不同模態之間進行對抗學習可以獲得一個有效的共享子空間，提出了一種對抗性的跨模態檢索方法。Yan Huang等人發現使用券積神經網絡提取特征向量時，背景的一些細節將會被忽略，像素級別的圖片描述缺少高層次的語義信息。針對該問題Yan Huang提出了語義增強圖片及語句匹配模型，該模型中設計了一個門融合單元將全局特征和局部特征組合在一起，通過對圖片進行語義學習并組織為正確的語義順序來實現語句生成。

Jiuxiang Gu第一次同時利用生成對抗網絡（Generative Adversarial Networks，GAN）和強化學習做跨媒體檢索，提出了可以同時做三件跨媒體任務的生成式跨模態特征學習框架（Generative Cross-modal Feature Learning Framework，GXN）。主要包含三個步驟：Look、Imageine、Match。Look：給出一個查詢文本或圖像，提取出對應的抽象表示。Image：將第一步中得到的一種模態的特征表示生成為另一種模態表示，并將其和真實數據進行比較來生成一個更加精細的底層表示。Match：使用組合了高層抽象表示和局部底層表示的特征表示來進行圖像和文本對的關聯匹配。莫建文[3]在堆疊式文本到圖像生成模型的基礎上，針對其生成樣本分布不均勻導致多樣性不足的問題，提出了一種結合局部－全局互信息最大化的堆疊式文本到圖像的生成對抗網絡模型。

生成式方法可以在訓練的過程中端到端的訓練圖像區域特征，但是對每個圖像區域特征都需要生成自然語言，計算量大。當圖像中候選區域較多時，生成式方法計算速度慢，消耗資源多。

三、數據集

大量免費公開的數據集用于圖像及文本的研究，這些數據集中的圖像與文本描述相關聯，不同的數據集中圖像張數，自然語言描述的條數、句子長短、句子格式等也不相同。常用的數據集包括CUHK-PEDES數據集、Flickr8K數據集、Flickr30k數據集、MSCOCO數據集、Cops-Ref數據集等。

結語

目前基于自然語言的目標檢測算法發展相對緩慢，主要原因在于建模理解圖像和自然語言之間的聯系比較難。圖像中有顏色、位置、紋理等多種屬性，自然語言可能描述其一種或多種屬性。針對這些挑戰，未來可以考慮結合更復雜的多任務或注意力機制，充分融合圖像特征和語言特征向量。