999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言的目標檢測算法綜述

2021-03-27 13:06:03
中文信息 2021年1期
關鍵詞:模態特征文本

(重慶交通大學 信息科學與工程學院,重慶 400074)

目標檢測是計算機視覺領域的重要研究內容,近年來得益于GPU的并行計算能力以及深度神經網絡強大的特征表達能力,深度學習在圖像處理領域取得了很大的進步。但在目標檢測中除了使用圖像信息以外,學術界早已提出使用多模態的信息來提升某一個任務的性能,其中自然語言就是一種重要的多媒體信息。與其他類型的信息相比,自然語言可以提供一種靈活而緊湊的方式來描述區分不同的視覺特征。

自然語言與圖像的匹配方法主要分為兩種類型,一種是匹配式:提取圖像特征與自然語言特征,將二者的特征進行匹配,返回相似度最高的圖片區域。另一種是生成式:為每個圖像的候選區域生成自然語言描述,與目標自然語言對比,返回相似度最高的區域。

本文將從匹配式和生成式兩個方面介紹基于自然語言的目標檢測算法,并對該領域的發展趨勢進行展望。

一、匹配式算法

2017年,Shuang Li等人首次提出使用自然語言進行行人重識別,并且首次建立了一個包括不同來源圖片樣本和詳細自然語言注釋的大型行人資料數據集CUHK-PEDES,其中提出了一種基于門控神經注意機制的遞歸神經網絡GNA-RNN,該網絡中包含一個視覺子網絡和一個語言子網絡,視覺子網絡用于提取圖像特征,語言子網絡用于提取語言特征并為不同的詞語賦予權重,根據查詢對象的文本描述,利用搜索算法對數據庫中的所有樣本進行排序,從而檢索出與描述最相關的樣本[1]。

Tianlang Chen等人針對Shuang Li的算法中對圖像空間中的關鍵屬性感知能力不強的問題,設計了一個動態閾值機制來計算單詞與局部圖像塊的關聯度。對于每個單詞都設置一個閾值來判定是否和圖像匹配,并對關聯度進行一個動態壓縮以緩解匹配時的敏感問題。Ying Zhang在隱空間特征學習的跨模態檢索方法基礎上提出了兩個損失函數,分別為Cross-Modal Projection Matching(CMPM)和Cross-Modal Projection Classification(CMPC),用以提升跨模態特征的匹配性能。Dapeng Chen等人針對行人重識別的問題,提出在訓練階段利用自然語言來輔助進行圖像特征的學習,使用注意力函數構建自然語言和圖像特定區域的關聯,形成加權聚合特征向量,最終測試時利用學習到的圖像特征進行檢索。Kuang-Huei Lee分別對文本和圖像應用注意力機制,學習比較好的文本和圖像表示,然后再在共享的子空間中利用三重損失度量文本和圖像之間的相似性。周炫余[2]首先利用圖像分析的方法初步獲取圖像目標的候選框,其次通過文本分析的方法獲取文本中有關圖像目標的實體表達,并提出一種基于馬爾科夫隨機場的模型用于推斷圖像候選框與文本實體表達之間的共指關系,以此聯合圖像和文本信息以輔助機器視覺提高交通場景下行人檢測精度。

匹配式方法計算量小、速度快,但是訓練過程中圖像特征不能被優化,模型準確率不高。

二、生成式算法

Bokun Wang等人基于在不同模態之間進行對抗學習可以獲得一個有效的共享子空間,提出了一種對抗性的跨模態檢索方法。Yan Huang等人發現使用券積神經網絡提取特征向量時,背景的一些細節將會被忽略,像素級別的圖片描述缺少高層次的語義信息。針對該問題Yan Huang提出了語義增強圖片及語句匹配模型,該模型中設計了一個門融合單元將全局特征和局部特征組合在一起,通過對圖片進行語義學習并組織為正確的語義順序來實現語句生成。

Jiuxiang Gu第一次同時利用生成對抗網絡(Generative Adversarial Networks,GAN)和強化學習做跨媒體檢索,提出了可以同時做三件跨媒體任務的生成式跨模態特征學習框架(Generative Cross-modal Feature Learning Framework,GXN)。主要包含三個步驟:Look、Imageine、Match。Look:給出一個查詢文本或圖像,提取出對應的抽象表示。Image:將第一步中得到的一種模態的特征表示生成為另一種模態表示,并將其和真實數據進行比較來生成一個更加精細的底層表示。Match:使用組合了高層抽象表示和局部底層表示的特征表示來進行圖像和文本對的關聯匹配。莫建文[3]在堆疊式文本到圖像生成模型的基礎上,針對其生成樣本分布不均勻導致多樣性不足的問題,提出了一種結合局部-全局互信息最大化的堆疊式文本到圖像的生成對抗網絡模型。

生成式方法可以在訓練的過程中端到端的訓練圖像區域特征,但是對每個圖像區域特征都需要生成自然語言,計算量大。當圖像中候選區域較多時,生成式方法計算速度慢,消耗資源多。

三、數據集

大量免費公開的數據集用于圖像及文本的研究,這些數據集中的圖像與文本描述相關聯,不同的數據集中圖像張數,自然語言描述的條數、句子長短、句子格式等也不相同。常用的數據集包括CUHK-PEDES數據集、Flickr8K數據集、Flickr30k數據集、MSCOCO數據集、Cops-Ref數據集等。

結語

目前基于自然語言的目標檢測算法發展相對緩慢,主要原因在于建模理解圖像和自然語言之間的聯系比較難。圖像中有顏色、位置、紋理等多種屬性,自然語言可能描述其一種或多種屬性。針對這些挑戰,未來可以考慮結合更復雜的多任務或注意力機制,充分融合圖像特征和語言特征向量。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日本精品一在线观看视频| 伊人久久精品无码麻豆精品| 三上悠亚一区二区| 国产无码精品在线| 一区二区三区国产| 免费一极毛片| 久久精品亚洲专区| 不卡的在线视频免费观看| 美女无遮挡拍拍拍免费视频| 亚洲中文字幕日产无码2021| 国产精品欧美亚洲韩国日本不卡| 日本一区高清| 天堂中文在线资源| 国产免费久久精品99re丫丫一| 亚洲天堂精品视频| 毛片免费网址| 国产欧美日韩资源在线观看| 永久在线播放| 精品人妻系列无码专区久久| 国产一二视频| 欧美国产日韩一区二区三区精品影视| 黄色片中文字幕| 亚洲色图欧美视频| 国产黄在线免费观看| 日韩欧美国产三级| 国产最爽的乱婬视频国语对白| 性视频久久| 午夜免费小视频| 日本成人在线不卡视频| 国产1区2区在线观看| 毛片久久久| 真人免费一级毛片一区二区 | 国产哺乳奶水91在线播放| 综合久久五月天| 精品成人免费自拍视频| 国产一区亚洲一区| 国产在线拍偷自揄拍精品| 色噜噜狠狠色综合网图区| 免费人成在线观看视频色| 国产小视频网站| 国产97视频在线观看| 黄色三级网站免费| 99色亚洲国产精品11p| 国产伦精品一区二区三区视频优播 | 好紧太爽了视频免费无码| 99精品伊人久久久大香线蕉| 久久人人爽人人爽人人片aV东京热| 九九这里只有精品视频| 中日无码在线观看| 3D动漫精品啪啪一区二区下载| 伊在人亞洲香蕉精品區| 日本免费高清一区| 国产精品午夜福利麻豆| 国产国拍精品视频免费看| 日韩精品久久无码中文字幕色欲| 免费无码AV片在线观看国产| 在线精品视频成人网| 在线免费观看AV| 日本午夜在线视频| 欧美亚洲第一页| 99久久精品视香蕉蕉| 欧美精品伊人久久| 午夜色综合| 欧美日韩国产成人在线观看| 国产一区二区丝袜高跟鞋| 亚洲国产成人精品无码区性色| 亚洲色欲色欲www在线观看| 好吊日免费视频| 精品亚洲麻豆1区2区3区| 国产69囗曝护士吞精在线视频| 久久一级电影| 女同国产精品一区二区| 国产真实乱子伦视频播放| 亚洲人成网站在线观看播放不卡| 毛片大全免费观看| 蝴蝶伊人久久中文娱乐网| 日韩精品久久久久久久电影蜜臀| 波多野一区| 国产精品妖精视频| 国产精品成人免费视频99| 粉嫩国产白浆在线观看| 亚洲Aⅴ无码专区在线观看q|