999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言的目標檢測算法綜述

2021-03-27 13:06:03
中文信息 2021年1期
關鍵詞:模態特征文本

(重慶交通大學 信息科學與工程學院,重慶 400074)

目標檢測是計算機視覺領域的重要研究內容,近年來得益于GPU的并行計算能力以及深度神經網絡強大的特征表達能力,深度學習在圖像處理領域取得了很大的進步。但在目標檢測中除了使用圖像信息以外,學術界早已提出使用多模態的信息來提升某一個任務的性能,其中自然語言就是一種重要的多媒體信息。與其他類型的信息相比,自然語言可以提供一種靈活而緊湊的方式來描述區分不同的視覺特征。

自然語言與圖像的匹配方法主要分為兩種類型,一種是匹配式:提取圖像特征與自然語言特征,將二者的特征進行匹配,返回相似度最高的圖片區域。另一種是生成式:為每個圖像的候選區域生成自然語言描述,與目標自然語言對比,返回相似度最高的區域。

本文將從匹配式和生成式兩個方面介紹基于自然語言的目標檢測算法,并對該領域的發展趨勢進行展望。

一、匹配式算法

2017年,Shuang Li等人首次提出使用自然語言進行行人重識別,并且首次建立了一個包括不同來源圖片樣本和詳細自然語言注釋的大型行人資料數據集CUHK-PEDES,其中提出了一種基于門控神經注意機制的遞歸神經網絡GNA-RNN,該網絡中包含一個視覺子網絡和一個語言子網絡,視覺子網絡用于提取圖像特征,語言子網絡用于提取語言特征并為不同的詞語賦予權重,根據查詢對象的文本描述,利用搜索算法對數據庫中的所有樣本進行排序,從而檢索出與描述最相關的樣本[1]。

Tianlang Chen等人針對Shuang Li的算法中對圖像空間中的關鍵屬性感知能力不強的問題,設計了一個動態閾值機制來計算單詞與局部圖像塊的關聯度。對于每個單詞都設置一個閾值來判定是否和圖像匹配,并對關聯度進行一個動態壓縮以緩解匹配時的敏感問題。Ying Zhang在隱空間特征學習的跨模態檢索方法基礎上提出了兩個損失函數,分別為Cross-Modal Projection Matching(CMPM)和Cross-Modal Projection Classification(CMPC),用以提升跨模態特征的匹配性能。Dapeng Chen等人針對行人重識別的問題,提出在訓練階段利用自然語言來輔助進行圖像特征的學習,使用注意力函數構建自然語言和圖像特定區域的關聯,形成加權聚合特征向量,最終測試時利用學習到的圖像特征進行檢索。Kuang-Huei Lee分別對文本和圖像應用注意力機制,學習比較好的文本和圖像表示,然后再在共享的子空間中利用三重損失度量文本和圖像之間的相似性。周炫余[2]首先利用圖像分析的方法初步獲取圖像目標的候選框,其次通過文本分析的方法獲取文本中有關圖像目標的實體表達,并提出一種基于馬爾科夫隨機場的模型用于推斷圖像候選框與文本實體表達之間的共指關系,以此聯合圖像和文本信息以輔助機器視覺提高交通場景下行人檢測精度。

匹配式方法計算量小、速度快,但是訓練過程中圖像特征不能被優化,模型準確率不高。

二、生成式算法

Bokun Wang等人基于在不同模態之間進行對抗學習可以獲得一個有效的共享子空間,提出了一種對抗性的跨模態檢索方法。Yan Huang等人發現使用券積神經網絡提取特征向量時,背景的一些細節將會被忽略,像素級別的圖片描述缺少高層次的語義信息。針對該問題Yan Huang提出了語義增強圖片及語句匹配模型,該模型中設計了一個門融合單元將全局特征和局部特征組合在一起,通過對圖片進行語義學習并組織為正確的語義順序來實現語句生成。

Jiuxiang Gu第一次同時利用生成對抗網絡(Generative Adversarial Networks,GAN)和強化學習做跨媒體檢索,提出了可以同時做三件跨媒體任務的生成式跨模態特征學習框架(Generative Cross-modal Feature Learning Framework,GXN)。主要包含三個步驟:Look、Imageine、Match。Look:給出一個查詢文本或圖像,提取出對應的抽象表示。Image:將第一步中得到的一種模態的特征表示生成為另一種模態表示,并將其和真實數據進行比較來生成一個更加精細的底層表示。Match:使用組合了高層抽象表示和局部底層表示的特征表示來進行圖像和文本對的關聯匹配。莫建文[3]在堆疊式文本到圖像生成模型的基礎上,針對其生成樣本分布不均勻導致多樣性不足的問題,提出了一種結合局部-全局互信息最大化的堆疊式文本到圖像的生成對抗網絡模型。

生成式方法可以在訓練的過程中端到端的訓練圖像區域特征,但是對每個圖像區域特征都需要生成自然語言,計算量大。當圖像中候選區域較多時,生成式方法計算速度慢,消耗資源多。

三、數據集

大量免費公開的數據集用于圖像及文本的研究,這些數據集中的圖像與文本描述相關聯,不同的數據集中圖像張數,自然語言描述的條數、句子長短、句子格式等也不相同。常用的數據集包括CUHK-PEDES數據集、Flickr8K數據集、Flickr30k數據集、MSCOCO數據集、Cops-Ref數據集等。

結語

目前基于自然語言的目標檢測算法發展相對緩慢,主要原因在于建模理解圖像和自然語言之間的聯系比較難。圖像中有顏色、位置、紋理等多種屬性,自然語言可能描述其一種或多種屬性。針對這些挑戰,未來可以考慮結合更復雜的多任務或注意力機制,充分融合圖像特征和語言特征向量。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩中文字幕免费在线观看| 伊人激情综合| 亚洲国产看片基地久久1024 | 国产麻豆福利av在线播放| 国内精品91| 2020精品极品国产色在线观看| 亚洲国产成人久久精品软件| 99视频在线精品免费观看6| 伊人久综合| 久久这里只有精品23| 综合天天色| 中文无码精品A∨在线观看不卡| 国产色婷婷| 国产成人h在线观看网站站| www.精品国产| 国产网友愉拍精品视频| 在线观看国产一区二区三区99| 伊人久久久大香线蕉综合直播| 99re在线观看视频| 自拍偷拍欧美日韩| 在线免费无码视频| a天堂视频| 欧美性色综合网| 国产精品私拍99pans大尺度 | 99久久成人国产精品免费| 91久久天天躁狠狠躁夜夜| 久久窝窝国产精品午夜看片| 免费不卡在线观看av| 日韩欧美中文字幕在线精品| 亚洲swag精品自拍一区| 成人午夜视频免费看欧美| 9999在线视频| 日日碰狠狠添天天爽| 亚洲精品无码专区在线观看| 精品国产自在在线在线观看| 成人午夜视频在线| 新SSS无码手机在线观看| 在线视频一区二区三区不卡| 青草视频久久| 日a本亚洲中文在线观看| 日韩国产欧美精品在线| 一级毛片a女人刺激视频免费| 色综合网址| 91精品国产丝袜| 精品国产美女福到在线不卡f| 国产国语一级毛片| 国产美女精品人人做人人爽| 国产精品香蕉在线观看不卡| 亚洲中文字幕久久无码精品A| 欧美视频免费一区二区三区| 91福利在线看| 夜夜高潮夜夜爽国产伦精品| 国产高清不卡| 国产欧美日韩18| 91九色最新地址| 国产成人1024精品下载| 中文字幕无码制服中字| 激情无码字幕综合| 国产99视频在线| 国产乱子伦精品视频| 国产精品天干天干在线观看| 亚洲 欧美 中文 AⅤ在线视频| 国产成人精品男人的天堂| 国产清纯在线一区二区WWW| 新SSS无码手机在线观看| 熟女成人国产精品视频| 中文字幕在线观| 精品一区二区无码av| hezyo加勒比一区二区三区| 狠狠色噜噜狠狠狠狠奇米777| 青青热久免费精品视频6| 在线毛片免费| 亚洲国产亚洲综合在线尤物| 亚洲日韩Av中文字幕无码| 免费看一级毛片波多结衣| 久精品色妇丰满人妻| 秋霞午夜国产精品成人片| 美女扒开下面流白浆在线试听| 永久在线精品免费视频观看| 国产极品美女在线| 免费激情网站| 人妻免费无码不卡视频|