999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像描述生成方法研究文獻綜述

2019-12-05 08:35:54張姣楊振宇
智能計算機與應用 2019年5期
關鍵詞:特征提取

張姣 楊振宇

摘 要:隨著人工智能技術的興起,圖像特征提取技術和文本自動生成技術都得到了長足的進步,將兩者結合的圖像描述生成技術也越來越受到學術界和工業界的重視。圖像到文本生成是一個綜合性問題,涉及自然語言處理和計算機視覺等領域。本文介紹了圖像描述生成技術的研究背景及國內外研究現狀,概述了目前研究者評估生成圖像描述質量的圖像數據集,對現有模型進行了詳細的分類概括:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法、基于深度學習的圖像描述生成方法。與此同時一并總結闡述了該領域面臨的問題和挑戰。

關鍵詞: 圖像描述;文本生成;特征提取;計算機視覺

【Abstract】 Image caption generation technology is used in many fields such as news communication, smart transportation, smart home and smart medical. Therefore, this technology has important academic and practical value. Image-to-text generation is a comprehensive problem involving areas such as natural language processing and computer vision. This paper introduces the research background of image caption generation technology and the research status at home and abroad, and summarizes the current image datasets that researchers evaluate to generate quality of the image caption. The existing models are classified and summarized in detail: template-based image caption generation method, retrieval-based image caption generation method and deep-learning-based image caption generation method. It also summarizes the problems and challenges which the field is facing.

【Key words】 ?image caption; text generation; feature extraction; computer vision

0 引 言

0.1 研究背景

大數據時代的到來使人工智能產品不斷進入人們的視野。圖像描述生成技術的產生為計算機從圖像中快速獲取信息帶來了新的發展和應用前景。

圖像描述生成技術與圖像語義分析、圖像標注和圖像高級語義提取等技術緊密相關。圖像描述生成技術是計算機自動為圖像生成一個完整、通順的描述語句。大數據背景下的圖像描述生成技術在商業領域有著廣泛的應用。如購物軟件中用戶輸入關鍵字快速地搜索出符合要求的商品;用戶在搜索引擎中進行的圖片搜索;視頻中多事物目標的識別、醫學圖像專業的自動語義標注以及自動駕駛中目標物體的識別等。如何在計算機中更有效、準確、快速地實現這一過程即是本文的研發課題。

從圖像描述生成的發展過程[1]來看,可以分為3個主要發展階段:基于模板的圖像描述生成方法;基于檢索的圖像描述生成方法;基于深度學習的圖像描述生成方法。

0.2 國內外研究現狀

結合國內外研究人員對圖像描述生成方法的研究以及各個階段所采用的不同關鍵技術,可將圖像描述的方法分為3類。對此可做分析闡述如下。

(1)基于模板的圖像描述生成方法。該方法[2]利用圖像標注技術為物體、物體場景以及組成部分進行標注[3]。選擇與圖像內容描述場景相關的句子作為表達模板,將提取的圖像特征填入模板,繼而得到圖像的描述句子。概率圖模型方法[4]對文本信息和圖像信息建立模型,可從文本數據集中挑選合適的關鍵詞,將其作為體現圖像描述內容的關鍵詞,利用語言模型技術[5-7]將選取的內容關鍵詞組合為合乎語法規則習慣的英文句子。該方法的研究雖然能夠描述圖像內容,但是在一定程度上限制了描述語句的多樣性,使生成的描述不夠靈活、新穎。

(2)基于檢索的圖像描述生成方法。該方法探尋文本與圖像之間的關聯[8-9],把文本和圖像映射到一個共同語義空間。結合相似度[10-11]的計算方法,對圖像內容和文本意義的關系程度進行排名,檢索出和測試圖像關系最接近的文本作為測試圖像的最終文本描述。該方法把生成圖像描述看作是一種檢索任務,但檢索前都需要調整和泛化過程,這無疑給描述任務又增加了處理過程和復雜度。

(3)基于深度學習的圖像描述生成方法。目前主流的深度學習模型是端到端的訓練方法。一方面采用多層深度卷積神經網絡技術對圖像中的物體特征概念建立模型;另一方面采用循環神經網絡對文本建立模型。運用循環神經網絡[12-15]進行建模,將文本信息與圖像信息映射在同一個循環神經網絡中,利用圖像信息指導文本句子的生成。隨著深度學習的研究進展,基于注意力機制和強化學習改進的研究方法[16-20]相繼涌現,并不斷推動圖像描述生成模型的發展。該方法沒有任何模板、規則的約束,能自動推斷出測試圖像和其相應的文本,自動地從大量的訓練集中去學習圖像和文本信息,生成更靈活、更新穎的文本描述,還能描述從未見過的圖像內容特征。

1 數據集

大量免費公開的數據集用于圖像描述研究,這些數據集中的圖像與文本描述相關聯,某些方面彼此不同,例如大小、描述的格式和描述詞的長短。多種數據集信息匯總見表1。

表1中,Flickr8K數據集及其擴展版本Flickr30K數據集包含來自Flickr的圖像,分別包含約8 000和30 000幅圖像。這2個數據集中的圖像是針對特定對象和動作的。這些數據集包含5個描述句子,每個圖像是工作人員采用類似于Pascal1K數據集的策略收集的。

MSCOCO數據集包括123 287幅圖像,每幅圖像均可給出5個不同的描述。此數據集中的圖像包括80個對象類別,所有圖像都可以使用這些類別中的所有實例。該數據集已被廣泛用于圖像描述,目前有研究者正在開發MSCOCO的擴展,包括增加問題和答案。

Flickr30K和MSCOCO數據集舉例如圖1所示。

基于強化學習的研究方法是近期智能控制領域應用最廣的方法。Liu等人提出的基于強化學習的策略梯度的圖像描述方法,根據值函數對策略進行改進,選取最優策略。經過實驗證明該方法生成的描述質量優于傳統方法。深度強化學習[24-26]的融合極大地推動了圖像描述生成的效果。將強化學習的獎懲機制[27]引入圖像字幕任務中,可以通過抽取字幕來優化句子級評價標準,利用“策略網絡”和“價值網絡”[28]來共同預測每個時間步中的下一個單詞。

基于深度學習的圖像描述生成的主流是端到端的訓練方法,生成的描述語句具有多樣性,不依賴于單一的語言模板。不僅結構清晰明確、容易理解,而且訓練速度和生成效果相當突出。

3 圖像描述的挑戰與難點

圖像描述生成技術的研究經歷了多個發展階段并漸趨成熟,而且也已取得突破性的進步。深度學習技術的發展為圖像描述領域打開一個新的局面。雖然圖像描述生成技術表現出了強大的研發能力,但仍存在一定問題亟待解決,對此可做分述如下。

(1)描述文本信息的不完整。視覺特征的提取是生成圖像文本描述的重要基礎,包括圖像類別、場景、對象及對象關系等。這些都依賴于目前還不成熟的計算機視覺技術。所以圖像的視覺特征提取關鍵技術的提高是有待解決的關鍵問題和難點。

(2)復雜圖像關注點的選取。圖像中常存在多義和不確定的事物、隱式和顯式的信息,如何充分利用圖像特征和文本信息的融合特征,有效進行圖像關注點的選取是圖像描述中仍待解決的關鍵問題和難點。

(3)圖像描述的泛化能力較低。從以往的研究中可以看出,對于同一個圖像數據集中的圖片進行測試時,效果往往是令人滿意的。但是當采用隨機的圖片進行測試時,效果并不盡如人意。所以圖像描述的泛化能力的提高是尚待解決的難題。

4 結束語

圖像描述生成技術已廣泛應用于新聞傳播、智慧交通、智能家居、智能醫療等眾多領域,現已成為各大頂尖科研機構綜合研究實力的較量方式之一。

本文簡述了圖像描述生成任務的研究背景以及國內外研究現狀;討論了基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法和基于深度學習的圖像描述生成方法。綜前論述可以發現,圖像描述生成技術正在向著更復雜、更靈活、更智能的方向發展。

針對圖像描述面臨的挑戰與問題,未來可考慮結合更復雜的多任務或注意力機制,充分融合圖像特征和語言特征向量。在圖像描述文本信息不完整的問題上可考慮3D建模的方式對原2D數據進行映射處理,圖像描述技術還可融入深度強化學習,使用無監督自主學習模型,在減少耗費資源的情況下,提升圖像描述的性能。

參考文獻

[1]HELMUT H. Building natural language generation systems[J]. Artificial Intelligence in Medicine,2001,22(3):277-280.

[2]YAO B Z, YANG Xiong, LIN Liang, et al. Image2text: Image parsing to text description[J]. Proceedings of the IEEE,2010,98(8): 1485-1508.

[3]郭喬進,丁軼,李寧. 基于關鍵詞的圖像標注綜述[J].計算機工程與應用,2011,47(30):155-158.

[4]FENG Yansong, LAPATA M. How many words is a picture worth? Automatic caption generation for news images [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden:ACL, 2010: 1239-1249.

[5]康瑩瑩.新聞圖像內容與字幕文本協同識別與檢索方法研究[D].哈爾濱:哈爾濱工業大學,2012.

[6]LIT L, PELICAN E. A low-rank tensor-based algorithm for face recognition[J]. Applied Mathematical Modelling, 2015, 39(3):1266-1274.

[7]KULKARNI G, PREMRAJ V, DHAR S, et al. Babytalk: Understanding and generating simple image descriptions[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Colorado Springs, Co, USA:IEEE,2011,35(12):1601-1608.

[8]MITCHELL M, HAN Xufeng, DODGE J, et al. Midge: Generating image descriptions from computer vision detections [C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon,France:ACL, 2012:747-756.

[9]ELLIOTT D, KELLER F. Image description using visual dependency representations [C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA:ACL, 2013:1292-1302.

[10]HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013,47(1): 853-899.

[11]KARPATHY A, LI Feifei.Deep visual-semantic alignments for generating image descriptions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA:IEEE,2015:3128-3137.

[12]SOCHER R, KARPATHY A, LE Q V,et al. Grounded compositional semantics for finding and describing images with sentences[J]. Transactions of the Association for Computational Linguistics (TACL) , 2014,2:207-218.

[13]CHEN X, ZITNICK C L. Minds eye: A recurrent visual representation for image caption generation [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA, USA:IEEE, 2015:2422-2431.

[14]MAO Junhua, XU Wei, YANG Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[J]. arXiv preprint arXiv:1412.6632, 2014.

[15]XU Hongteng, WANG Wenlin, LIU Wei, et al. Distilled Wasserstein learning for word embedding and topic modeling [C]// 32nd Conference on Neural Information Processing Systems (NIPS) 31. Montréal, Canada:[s.n.], 2018:1-10.

[16]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//32nd International Conference on Machine Learning. Lille, France:dblp,2015:2048-2057.

[17]陳強普.面向圖像描述的深度神經網絡模型研究[D].重慶:重慶大學,2017.

[18]申永飛. 圖像描述文本自動生成方法研究[D].重慶:重慶大學,2017.

[19]陳龍杰,張鈺,張玉梅,等.基于多注意力多尺度特征融合的圖像描述生成算法[J].計算機應用,2017,39(2):354-359.

[20]陳晨.基于深度學習及知識挖掘的零樣本圖像分類[D].北京:中國礦業大學,2016.

[21]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.

[22]XU K, BA J, COURVILLE R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. arXiv preprint arXiv:1502.03044v1,2015.

[23]VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: A neural image caption generator[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Boston, MA, USA:IEEE,2015,1: 3156-3164.

[24]LEIBFRIED F, TUTUNOV R, VRANCX P, et al. Model-based stabilisation of deep reinforcement learning[J]. arXiv preprint arXiv:1809.01906v1,2018.

[25]WANG Pin, CHAN C Y, LI Hanhan. Maneuver control based on reinforcement learning for automated vehicles in an interactive environment[J].arXiv preprint arXiv:1803.09200,2018.

[26]WANG Jing, FU Jianlong, TANG Jinhui, et al. Show, reward and tell: Automatic generation of narrative paragraph from photo stream by adversarial training[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans,Louisiana,USA:AAAI,2018:7396-7403.

[27]LIU Xihui, LI Hongsheng, SHAO Jing, et al. Show, tell and discriminate: Image captioning by self-retrieval with partially Labeled data[M]//FERRARI V, HEBERT M, SMININCHISESCU C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham:Springer, 2018,11219:353-369.

[28]REN Zhou, WANG Xiaoyu, ZHANG Ning, et al. Deep reinforcement learning-based image captioning with embedding reward[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI, USA:IEEE,2017:1151-1159.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 日本成人精品视频| 日韩高清一区 | 亚洲福利视频一区二区| 欧美三级日韩三级| 欧美精品导航| 最新亚洲人成无码网站欣赏网| 91美女视频在线观看| 久久国产黑丝袜视频| 无码久看视频| 国产91精品最新在线播放| 亚洲第一国产综合| 久久亚洲国产最新网站| 亚洲三级片在线看| 亚洲第一黄色网| 高清国产在线| 国产欧美视频在线观看| 日本高清视频在线www色| 国产福利一区在线| 中文字幕在线视频免费| 亚洲av片在线免费观看| 国产精品久久精品| 欧美日韩国产高清一区二区三区| 天堂亚洲网| 国产免费久久精品99re丫丫一| 欧美亚洲激情| 国产91全国探花系列在线播放| 91探花国产综合在线精品| 日韩一区二区三免费高清| 91美女视频在线| 欧美性猛交xxxx乱大交极品| 视频二区国产精品职场同事| 日韩AV手机在线观看蜜芽| 免费国产好深啊好涨好硬视频| 久久久国产精品无码专区| 日韩欧美中文在线| 成年人国产视频| 国产精品综合久久久 | 日韩在线视频网站| 99久久国产综合精品女同| 天天综合网在线| a亚洲天堂| 久久精品国产91久久综合麻豆自制 | 毛片国产精品完整版| 91久久天天躁狠狠躁夜夜| 一本色道久久88综合日韩精品| 中文字幕久久精品波多野结| 亚洲浓毛av| 岛国精品一区免费视频在线观看| 亚洲网综合| 欧美在线伊人| 日韩专区欧美| 无码粉嫩虎白一线天在线观看| 国产精品v欧美| 国产产在线精品亚洲aavv| 又粗又硬又大又爽免费视频播放| 美女视频黄又黄又免费高清| 国产精品无码久久久久久| 欧美在线免费| 高潮毛片无遮挡高清视频播放| 欧美日本在线一区二区三区| 最新国产你懂的在线网址| 国产国语一级毛片在线视频| 国产自产视频一区二区三区| 99人妻碰碰碰久久久久禁片| 免费在线看黄网址| 国产欧美精品一区二区| 好吊色国产欧美日韩免费观看| 久久精品国产在热久久2019| 国产精品19p| 青青草国产精品久久久久| 天天色综合4| 国产精品亚洲а∨天堂免下载| 国产在线视频导航| 国产精品夜夜嗨视频免费视频| 91av成人日本不卡三区| 亚洲一区无码在线| 亚洲天堂伊人| 57pao国产成视频免费播放 | 91区国产福利在线观看午夜 | 丁香五月亚洲综合在线| 国模粉嫩小泬视频在线观看| 国产精品成人第一区|