999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Se-ResNet50特征編碼器的公共環境圖像描述生成

2023-01-01 00:00:00唐漁何志琴周宇輝吳欽木王霄
計算機應用研究 2023年6期

摘 要:針對傳統公共環境圖像描述模型中編碼器—解碼器結構在編碼過程中特征提取能力不足以及解碼過程中上下文信息丟失嚴重的問題,提出了一種基于Se-ResNet50與M-LSTM的公共環境圖像描述模型。將SeNet模塊添加到ResNet-50的殘差路徑中得到改進殘差網絡提取圖像特征,SeNet對特征的各個部分賦予權重生成不同的注意力特征圖,再融合文本特征向量輸入具有額外門控運算的改進長短期記憶網絡(M-LSTM)訓練。模型訓練結束后,輸入公共環境圖像就能得到描述圖像內容的自然語句。該模型在多種數據集上進行了評估,實驗結果表明,提出的模型在MSCOCO數據集上相較傳統模型,在 BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr等評價指標上分別提高了3.2%、2.1%、1.7%、1.7%、1.3%、8.2%,證明了提出的方法在評價指標、語義多樣性上具有一定的優越性。

關鍵詞:公共環境圖像描述;SeNet;ResNet-50;長短期記憶網絡

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2023)06-042-1864-06

doi:10.19734/j.issn.1001-3695.2022.09.0490

Public environment image caption generation based on

Se-ResNet-50 feature encoder

Tang Yu,He Zhiqin,Zhou Yuhui,Wu Qinmu,Wang Xiao

(Electrical Engineering College,Guizhou University,Guiyang 550025,China)

Abstract:Aiming at the problem that the encoder-decoder structure in the traditional public environment image description model has insufficient feature extraction ability in the encoding process and the serious loss of context information in the decoding process,this paper proposed a public environment image caption model based on Se-ResNet-50 and M-LSTM.It added the SeNet module to the residual path of ResNet-50 to obtain the improved residual network to extract image features,and weighted each part of the feature to generate different attention feature maps.It input the fused text feature vector to the improved and long short-term memory network(M-LSTM) training with additional gating operations.After the model training,input the public environment image to get the natural sentence describing the image content.It evaluated the model on a variety of datasets.The expe-rimental results show that the proposed model has improved by 3.2%,2.1%,1.7%,1.7%,1.3%,8.2% on BLEU-1,BLEU-2,BLEU-3,BLEU-4,METER,CIDEr and other evaluation indicators respectively compared with the traditional model on MSCOCO datasets,which proves that the method has certain advantages in evaluation indicators and semantic diversity.

Key words:image caption of public environment;SeNet;ResNet-50;long short-term memory network

0 引言

圖像描述[1]即理解一張圖像的含義并用一句自然語言描述圖像的主要內容。公共環境圖像描述技術是使得計算機以人類的思維挖掘圖像信息,并解讀圖像中主要對象間的聯系,最終輸出能夠準確描述公共環境的文字表達。該技術可以有效地應用到視障人士的生活里,例如,在盲人導航設備中將識別到的環境描述文字轉換成語音形式播報,讓盲人能夠實時了解和感知所處環境。目前,圖像描述模型已經由基于模板匹配[2,3]和基于搜索[4,5]的算法朝著深度學習方向快速發展,基于編碼器—解碼器結構的深度學習的圖像描述模型[6]成為了當前主流的圖像描述工具。2015年,Vinyals等人[7]借鑒了機器翻譯領域的研究成果,提出了基于編碼—解碼框架的端對端圖像描述生成模型(NIC),該模型主要采用預處理好的卷積神經網絡(CNN)[8]作為圖像編碼器提取輸入圖像的特征向量,使用長短期記憶(long short-term memory,LSTM)網絡作為解碼器將圖像特征解碼為對應的描述句子。同樣在2015年,多模態循環神經網絡(multimodal recurrent neural network,m-RNN)框架率先將深度學習[9]方法應用于解決圖像描述生成問題。m-RNN[10]模型通過CNN對需要生成描述的圖像進行特征提取,然后將提取到的圖像特征輸入到循環神經網絡(recurrentnerual network,RNN)中,開創性地將卷積神經網絡與循環神經網絡相結合,相較于基于模板與搜索的方法,取得了很不錯的效果。Xu等人[11]將注意力機制應用于基于NIC模型,該模型保留了原先的整體結構,只是在圖像特征的選取與生成自然語言描述這一最關鍵的部分引入了注意力機制[12],該方法能夠讓網絡提取相關性更強的圖像特征,因此,NIC圖像描述模型描述語句質量得到了大幅度提升。Lu 等人[13]為了更準確地提取圖像語義信息,添加“崗哨向量”對解碼端上一時刻的信息進行儲存,同時提出的自適應注意力機制能夠為不同語義信息的圖像特征分配不同的權重。Liu等人[14]在文本輸出中結合注意力,使得輸出信息更加完整并生成了更加準確的圖像描述語句。

雖然以上基于深度學習的圖像描述模型能夠生成比較準確的自然語言來描述圖像,但句子不完善且描述內容與真實圖像之間還存在較大差異。原因是在圖像編碼階段,傳統的編碼器不能提取到圖像全部關鍵特征信息,導致解碼器圖像特征輸入不充分,從而生成的句子不能準確描述圖像。此外,在圖像解碼階段,傳統的長短期記憶網絡的輸入和狀態只在網絡內部進行交互,在這之前缺乏交互,導致上下文信息丟失嚴重。

針對這兩個問題,本文提出了一種基于Se-ResNet-50與M-LSTM 網絡的圖像描述模型,改進了傳統模型的編碼器與解碼器結構。使用提取圖像特征優于傳統卷積神經網絡的ResNet-50網絡融合Se注意力模塊作為編碼器提取圖像關鍵區域特征,并在解碼階段使用改進的長短期記憶網絡(M-LSTM),引入額外的門控運算,讓網絡的輸入和狀態在網絡內部計算之前進行多輪交互計算,使得輸入和上下文之間具有更加豐富的交互表示的語言建模能力。為了優化訓練模型,本文采用了Adam優化器進行算法訓練優化,隨著模型的迭代,模型評價指標在不斷提升,模型相較于此前的描述,其語句明顯更精確和豐富。

1 相關工作

國內外最新的圖像描述模型都是基于編碼器—解碼器結構進行改進的,例如,Fang等人[15]將編碼過程設為三個步驟:a)識別圖像并生成自然語句中常見的單詞;b)組織句子,采用MELM模型預測下一輸出單詞,選取預測概率最大的單詞;c)改變單詞語序,得到最匹配的描述語句。Li等人[16]使用Fast R-CNN目標檢測網絡作為編碼器提取目標檢測框作為編碼向量,利用該特征向量進行屬性分類訓練,最終獲取目標的類別。之后,將圖像特征和屬性特征作為長短期記憶網絡LSTM的輸入進行解碼。目標檢測網絡提取到的圖像特征相當于進行了注意力編碼,使得解碼端生成的句子更加精確。Anderson等人[17]采取了同樣的方法進行特征編碼,并改進了解碼器,圖像描述句子得到了優化。改進編碼器能夠提升圖像描述的能力,同樣解碼器的改進也會生成更加精確的自然語句描述。Wang等人[18]設計了一種新的解碼器,該結構模仿了人類描述圖像的流程,首先定位目標對象的位置以及各對象間的聯系,最后解釋目標對象的屬性。根據此流程,他們提出了一種 coarse-to-fine 的結構。主干網絡是SkelLSTM,使用CNN提取的圖像特征來生成骨架語句,然后使用 Attr-LSTM 為骨架語句中的詞語生成對應的屬性詞,最后將這兩部分結合生成完整的最終描述語句。Yu等人[19]提出使用 Transformer作為解碼器,Transformer采用了Self-Attention,能夠有效地提取上下文聯系更好的圖像特征。該網絡使用Faster R-CNN提取圖像特征,編碼端Transfor-mer對特征向量編碼,然后輸入解碼端Transformer進行解碼,該結構的優點是圖像特征能夠直接被解碼器進行解碼輸出。由于Transformer能夠使得圖像中各目標聯系與描述句子中單詞的聯系統一,所以對同一圖像的描述效果更好。

2 模型框架

2.1 特征提取網絡

2.2 Se-ResNet50編碼器

2.3 解碼器M-LSTM

長短期記憶網絡[25]有效地改善了循環神經網絡中常見的長時依賴問題,但該網絡模型仍然存在著泛化能力弱和語言建模能力不強、在面對上下文不相關時表現不佳等問題。MOGRIFIER-LSTM[26]模型通過引入額外的門控運算,讓輸入和隱藏狀態在輸入到LSTM之前進行多輪交互計算,使得輸入和上下文之間具有更加豐富的交互表示,增強模型的上下文建模能力。輸入與隱藏狀態交互計算的具體過程如圖4所示。

3 實驗過程及結果分析

3.1 實驗環境配置

在實驗過程中,本章實驗所用的平臺為:處理器Intel 12900K 16核心24線程(x1);威剛 DDR 32 GB內存;技嘉 RTX4090 24 GB顯卡(x2)。選取的編碼器是Se-ResNet-50殘差網絡,圖片輸入尺寸為 224×224×3,解碼器環節M-LSTM 的輸入和輸出維度為512,損失函數采用交叉熵損失函數作為模型的損失函數來訓練模型,使用Adam作為算法優化器,更好地對模型進行訓練,提高模型質量。

實驗所用電腦操作系統為Windows 10的64位操作系統,編程語言為Python語言,使用的深度學習框架為TensorFlow框架,訓練中使用CUDA和cuDNN對GPU模型學習進行加速,提高訓練速度。

3.2 實驗數據集

為驗證模型的效果,實驗主要在Flickr8k、Flickr30k和MSCOCO三個數據集上進行,Flickr8k數據集從Flickr上收集了8 000張圖像。其中訓練集包含6 000張圖像,測試集和驗證集分別分配1 000張圖像。數據集中的每個圖像包含五個人工標注的圖像描述。Flickr30k數據集同樣是一個圖像描述訓練的數據集,它包含了從Flickr上收集的31 783張圖片,該數據集對應了由人工注釋者提供的至少158 000條圖像描述語句,每張圖像含有五個描述。MSCOCO數據集總共包含123 287張圖像,其中訓練集82 783張圖像,驗證集40 504張圖像。每張圖像包含來自人工標注的五個描述,目前MSCOCO數據集已經成為圖像描述生成領域首選的數據集。

3.3 模型評價指標

3.3.1 BLEU指標

3.3.2 METEOR指標

為了解決BLEU評價指標的一些缺陷,基于單精度的加權調和平均數和單字召回率提出METEOR[28]度量方法,該指標考慮了整個語料庫上的準確率和召回率,最終得出測度。

3.3.3 CIDEr指標

CIDEr(consensus-based image description evaluation)[29]是研究者通過TF-IDF計算每個n-gram的權重。將句子用n-grams表示成向量形式,每個參考句和待評測句之間通過計算TF-IDF向量的余弦距離來度量其相似性。研究表明,CIDEr在匹配人工共識方面比上述其他評價指標表現得更好。

3.4 實驗參數設置及訓練過程

實驗所使用的數據集中,圖片存在著很多噪聲會干擾和影響實驗結果,因此,在實驗前需要對數據進行預處理,以降低原始數據對實驗結果的影響,得到真實可靠的結果。具體預處理方式為:對輸入圖像進行裁剪處理,將數據集中用來訓練圖像的大小調整為ResNet50的輸入大小和維度,即224×224×3;對數據集圖像對應的描述語句進行預處理,篩選描述語句中不是字母或者數字的字符并剔除,通過空格進行分詞,并把分詞后得到的單詞進行提取,制作為詞匯表,其中出現次數少于 5次的詞用〈UNK〉標記并進行代替,創建詞到索引和索引到詞的映射;為避免特殊的過長描述語句對模型產生影響,設置描述語句的最大長度為 15 個詞。模型訓練前需要確定訓練時的超參數設置,超參數不需要數據來驅動,但需要在訓練前或者訓練中進行人為調整,模型訓練的學習率需要人為進行調整,過高或過低的學習率都會導致模型優化失敗。本文通過預先設置不同的學習率對模型進行訓練,用評價指標 CIDEr 作為模型訓練結果的評價為例,評價結果如圖5所示。根據實驗結果,選擇評價指標得分最高的學習率作為后續模型訓練的超參數設置,以便更好地訓練模型。

訓練時交叉熵損失函數變化如圖6所示。訓練時,評價指標隨著模型的迭代變化如圖7所示,從圖中可以看到,各項評價指標隨著模型的迭代而不斷提升,模型效果越來越好。

3.5 實驗結果分析

為了驗證本章算法對圖像描述生成的效果,本節進行了兩個對比實驗。

對比實驗1 使用本文模型與Multimodal RNN、DeepVS、Google NIC[7]等模型進行對比,各模型分別在 MSCOCO[30]、Flickr8k[31]和 Flickr30k[32]三個數據集上進行訓練測試并將測試結果進行對比。MSCOCO、Flickr8k和Flickr30k分別被劃分為訓練集、驗證集、測試集三部分。在MSCOCO中,80 000張圖像用于訓練,20 000用于評估。在Flickr8k數據集上的訓練集、驗證集和測試集分別為6 000張、500張、500張。在 Flickr30k數據集上的訓練集、驗證集和測試集分別為20 000張、5 000張、5 000張。評價結果如表1所示,加粗數值表示當前最高。

在MSCOCO數據集上的對比結果表明,本文模型相較于Multimodel RNN、DeepVS、Google NIC以及使用注意力機制的Soft-Attention和Hard-Attention模型,在評價生成句子的通順性和準確性的BLEU、反映精確性的METEOR和反映圖像描述生成多樣化的CIDEr評價指標上均有較大的提升。在BLEU-1指標上,相較于此前最好的Hard-Attention提高了3.2個百分比;BLEU-2指標相較于此前Hard-Attention模型提高了2.1個百分比;BLEU-3相較于此前的模型提高了1.7個百分比;BLEU-4提高了1.7個百分比;METEOR指標相較于此前表現最好的Soft-Attention模型,指標提升了1.3個百分比;CIDEr指標相較于此前的Google NIC模型,提升最為明顯,提升了8.2個百分比。

在Flickr8k數據集上,本文模型相較于此前模型,除了BLEU-2與CIDEr指標略低于此前表現最好的Soft-Attention與Google NIC模型,其余指標均有不小的提高,BLEU-1指標提高了1.8個百分比;BLEU-3提高了2.2個百分比;BLEU-4提高了2.9個百分比;METEOR提高了2.1個百分比。

在Flickr30k數據集上,本文模型相較于此前模型,在BLEU-2與METEOR指標略低于此前得分最高的Soft-Attention模型,其余指標相較于此前最高得分均有所提升,BLEU-1 提高最為明顯,提高了5.2個百分比;BLEU-3提高了1.5 個百分比;BLEU-4 提高了1.7 個百分比;CIDEr 提高了2.4個百分比。

對比實驗2 本文模型與文獻[13,15,16,18]的各模型在MSCOCO數據集上進行對比,對比結果如表2所示。

在MSCOCO數據集上的對比結果表明,本文模型相較于對比的四個模型,除了在BLEU-1以及CIDEr指標外,在BLEU-2、BLEU-3、BLEU-4、METEOR各項評價指標均有不小的提升。基于本文模型針對不同的公共環境這一場景隨機抽取圖像生成圖像描述,驗證本文模型對公共環境的場景描述情況,示例如圖8所示。

從該模型在公共環境圖像的驗證描述結果圖可以看出,本文模型對于公共環境這一場景有著很好的描述能力。針對不同的公共場景,可以準確地對主題場景進行識別,并對場景中的事物進行準確的描述,不同角度拍攝的圖像均可以被識別,在描述過程中可以對圖像場景中物體的顏色進行描述。在圖像描述模型生成描述時,本文結合了注意力機制的方法,在生成描述的解碼環節,接受注意力機制計算出的編碼向量,讓模型根據當前所關注的圖像部分生成相應的詞,對輸入信息的各個局部都賦予權重。針對同樣的公共環境圖片用不同的模型產生描述與本文模型產生描述相對比,以模型自身標注的描述作為參考,對比結果如圖9所示。

從對比圖中可以看出,本文模型相較于此前的模型,可以提取更加豐富的圖像特征并以此生成更加準確多樣的描述,第一張圖中,本文模型更好地捕捉到了圖像中的自行車并對其加以描述,相較于此前的模型,準確描述出了圖像主體與其他事物之間的空間上的相對位置,生成的圖像描述更豐富準確;第二張圖中,本文模型提取到了更多圖像中的信息并對其生成相關聯的描述,相較于此前模型的描述,本文模型生成的描述明顯更精確,描述內容更多。

4 結束語

本文提出了一種基于Se-ResNet50與M-LSTM 的圖像描述模型。采用融合Se注意力機制的深度殘差網絡提取圖像特征,通過SeNet模塊中的壓縮、激勵層對特征進行權重賦值得到新的注意力特征編碼向量,然后通過改進的M-LSTM 長短期記憶網絡進行解碼,解碼過程中根據Se-ResNet50編碼器輸入特征向量對應的特征權重動態選擇相應圖像區域中需要主動注意的特征,進而生成更合理的描述單詞。最后,模型訓練采用了優化實驗算法,并在Flickr8k、Flickr30k和MSCOCO三個公共環境數據集下采用多種評估模型所生成的文本描述質量自動化評價指標進行了多組實驗,證明了本文的圖像描述方法在評價指標、語義多樣性上的優越性。

參考文獻:

[1]Dash S K,Acharya S,Pakray P,et al.Topic-based image caption gene-ration[J].Arabian Journal for Science and Engineering,2020,45(4):3025-3034.

[2]Yang Yezhou,Teo C K,Daumé H,et al.Corpus-guided sentence gene-ration of natural images[C]//Proc of Conference on Empirical Methods in Natural Language Processing.New York:ACM Press,2011:444-454.

[3]Kulkarni G,Premraj V,Ordonez V,et al.Babytalk:understanding and generating simple image descriptions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

[4]Kuznetsova P,Ordonez V,Berg A,et al.Collective generation of natural image descriptions[C]//Proc of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL Press,2012:359-368.

[5]Elliott D,Keller F.Image description using visual dependency representations[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL Press,2013:1292-1302.

[6]許昊,張凱,田英杰,等.深度神經網絡圖像描述綜述[J].計算機工程與應用,2021,57(9):9-22.(Xu Hao,Zhang Kai,Tian Yingjie,et al.Review of deep neural network-based image caption[J].Computer Engineering and Applications,2021,57(9):9-22.)

[7]Vinyals O,Toshev A,Bengio S,et al.Show and tell:a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3156-3164.

[8]周飛燕,金林鵬,董軍.卷積神經網絡研究綜述[J].計算機學報,2017,40(6):1229-1251.(Zhou Feiyan,Jin Linpeng,Dong Jun.Review of convolutional neural networks[J].Journal of Computer Science and Technology,2017,40(6):1229-1251.)

[9]張榮,李偉平,莫同.深度學習研究綜述[J].信息與控制,2018,47(4):385-397,410.(Zhang Rong,Li Weiping,Mo Tong.Review of deep learning[J].Information and Control,2018,47(4):385-397,410.)

[10]Herdade S,Kappeler A,Boakye K,et al.Image captioning:transforming objects into words[J].Advances in Neural Information Processing Systems,2019,32:232-236.

[11]Xu K,Ba J,Kiros R,et al.Show,attend and tell:neural image caption generation with visual attention[C]//Proc of International Conference on Machine Learning.[S.l.]:JMLR.org,2015:2048-2057.

[12]Ba J,Mnih V,Kavukcuoglu K.Multiple object recognition with visual attention[EB/OL].(2020-11-15).https://arxiv.org/abs/1412.7755v2.

[13]Lu Jiasen,Xiong Caiming,Parikh D,et al.Knowing when to look:adaptive attention via a visual sentinel for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition .Piscataway,NJ:IEEE Press,2017:375-383.

[14]Liu Maofu,Li Lingjun,Hu Huijun,et al.Image caption generation with dual attention mechanism[J].Information Processing and Ma-nagement,2020,57(2):102178.

[15]Fang Hao,Gupta S,Iandola F,et al.From captions to visual concepts and back[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1473-1482.

[16]Li Nannan,Chen Zhenzhong.Image captioning with visual-semantic LSTM[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:793-799.

[17]Anderson P,He Xiaodong,Buehler C,et al.Bottom-up and top-down attention for image captioning and visual question answering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6077-6086.

[18]Wang Yufei,Lin Zhe,Shen Xiaohui,et al.Skeleton key:image captioning by skeleton-attribute decomposition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7272-7281.

[19]Yu Jun,Li Jing,Yu Zhou,et al.Multimodal transformer with multi-view visual representation for image captioning[J].IEEE Trans on Circuits and Systems for Video Technology,2020,30(12):4467-4480.

[20]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CFV Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.

[21]Szegedy C,Ioffe S,VanhouckeV,et al.Inception-v4,inception ResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:4278-4284.

[22]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE International Confe-rence on Distributed Computing and Electrical Circuits and Electro-nics.Piscataway,NJ:IEEE Press,2022:1-4.

[23]Hu Jie,Shen Li,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,42(8):2011-2023.

[24]熊煒,熊子婕,楊荻椿,等.基于深層特征融合的行人重識別方法[J].計算機工程與科學,2020,42(2):358-364.(Xiong Wei,Xiong Zijie,Yang Dichun,et al.Pedestrian recognition based on deep feature fusion[J].Computer Engineering and Science,2020,42(2):358-364.)

[25]Shi Xingjian,Chen Zhourong,Wang Hao,et al.Convolutional LSTM network:a machine learning approach for precipitation nowcasting[J].Advances in Neural Information Processing Systems,2015,28:212-218.

[26]Melis G,Kocˇisky T,Blunsom P.MOGRIFIER LSTM[EB/OL].(2019-05-16).http://doi.org/10.48550/arxiv.1709.01507.

[27]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 40th Annual Mee-ting of the Association for Computational Linguistics.Stroudsburg,PA:ACL Press,2002:311-318.

[28]Banerjee S,Lavie A.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and Summarization.Stroudsburg,PA:ACL Press,2005:65-72.

[29]Vedantam R,Zitnick C L,Parikh D.CIDEr:consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4566-4575.

[30]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:740-755.

[31]Hodosh M,Young P,Hockenmaier J.Framing image description as a ranking task:data,models and evaluation metrics[J].Journal of Artificial Intelligence Research,2013,47:853-899.

[32]Young P,Lai A,Hodosh M,et al.From image descriptions to visual denotations:new similarity metrics for semantic inference over event descriptions[J].Trans of the Association for Computational Linguistics,2014,2:67-78.

主站蜘蛛池模板: 国产精品三级av及在线观看| 一本大道无码日韩精品影视| 国产成人精品一区二区秒拍1o| 欧美激情一区二区三区成人| 人人爽人人爽人人片| 内射人妻无码色AV天堂| 国产精品手机在线观看你懂的 | 亚洲综合经典在线一区二区| 亚洲精品福利网站| 无码中字出轨中文人妻中文中| 日日噜噜夜夜狠狠视频| 亚洲开心婷婷中文字幕| 亚洲国产日韩一区| 无码免费视频| 成人国产一区二区三区| 91精品情国产情侣高潮对白蜜| 91精品久久久无码中文字幕vr| 香蕉eeww99国产精选播放| 国产最爽的乱婬视频国语对白| 亚洲男人的天堂久久香蕉网| 欧美高清国产| 999精品免费视频| 欧美天天干| 欧美在线导航| 国模私拍一区二区三区| 日韩中文字幕亚洲无线码| 国产精品久久久精品三级| 久久99国产精品成人欧美| 亚洲精品少妇熟女| 中文精品久久久久国产网址 | 亚洲AV无码久久精品色欲| 五月激情综合网| 一区二区三区国产| 日韩无码视频网站| 国产三级毛片| 四虎影视国产精品| 久久这里只精品热免费99| 欧美日韩导航| 久久一日本道色综合久久| 久久国产亚洲偷自| 成人在线天堂| 凹凸精品免费精品视频| 亚洲AV免费一区二区三区| 国内嫩模私拍精品视频| 日韩在线中文| 久久久成年黄色视频| 久久精品aⅴ无码中文字幕 | 少妇高潮惨叫久久久久久| 亚洲无码高清一区二区| 91成人试看福利体验区| 国产成人精品亚洲77美色| 福利片91| 韩国v欧美v亚洲v日本v| а∨天堂一区中文字幕| 国产福利免费观看| 中文国产成人久久精品小说| 伊人色天堂| 国产二级毛片| 色偷偷一区| 99人体免费视频| 国产色图在线观看| 色婷婷天天综合在线| 亚洲精品爱草草视频在线| 激情亚洲天堂| 九九这里只有精品视频| 天天综合色网| 欧美自拍另类欧美综合图区| 黄片一区二区三区| 99爱在线| 美女毛片在线| 天天综合天天综合| 日本免费高清一区| 一级毛片基地| 激情综合婷婷丁香五月尤物| 免费毛片在线| 一级毛片免费高清视频| 天堂在线视频精品| 国产91视频观看| 精品国产Av电影无码久久久| 亚洲天堂啪啪| 亚洲精品黄| 91久久性奴调教国产免费|