999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于IndRNN 與BN 的深層圖像描述模型

2021-10-15 10:08:24曹渝昆魏健強
計算機工程 2021年10期
關鍵詞:深度效果模型

曹渝昆,魏健強,孫 濤,徐 越

(上海電力大學計算機科學與技術學院,上海 201306)

0 概述

圖像描述是指通過分析輸入圖像來生成恰當的關于圖像內容的文字描述[1],可應用于圖像檢索、機器人問答、兒童輔助教育、導盲等多個領域,對圖像描述進行研究具有重要的現實意義[2]。

目前,主流圖像描述框架以基于深度卷積神經網絡(Convolutional Neural Network,CNN)[3]和循環神經網絡(Recurrent Neural Network,RNN)[4]為主。RNN 一般由LSTM(Long-Short Term Memory)單元構成,由于其使用sigmoid 等飽和激活函數,使得網絡在訓練過程中收斂較慢,并存在層間梯度消失等問題,導致無法使用LSTM 單元構建一個深層網絡模型。因此,由上述單元構成的模型性能有限,生成的描述語句缺乏豐富性與連貫性,需要構建一個深層次的解碼端網絡,使用正確的模型訓練和優化方法,使得語言生成模型具有更好的擬合能力與訓練效果。

本文提出一種深度圖像描述模型Deep-NIC。在Deep-NIC 中,編碼端由inception V3[5]提取圖像特征,解碼端由7 層解碼單元構成,每個解碼單元包含IndRNN 層[6]和BN 層[7]。通過IndRNN 來有效避免層間梯度消失問題,利用BN 方法提升訓練效率同時避免過擬合問題,在此基礎上,構建深層解碼端來提升模型的擬合效果。

1 相關工作

圖像描述是一個綜合性任務,涉及計算機視覺與自然語言處理兩大方面,近年來受到國內外眾多研究人員的關注。圖像描述在提出初期,主要依靠固定模板:首先利用有效的算子提取圖像特征;然后通過機器學習中的分類算法進行分類,從而得到圖像中可能存在的目標;最后使用得到的目標及相關屬性,結合條件隨機場(CRF)或者特定的規則來生成圖像描述。文獻[8-9]等都是利用上述方法進行圖像描述,但是,這種基于固定模板的方法存在很大局限性,原因是這種方法在很大程度上依賴于圖像特征的提取和生成句子時的規則。

現階段的主流模型基本采用編碼-解碼(encoderdecoder)框架來完成圖像描述。將機器翻譯中提取文字特征的RNN 部分替換為CNN 的相關深度模型,如Inception Net、VGGNet等,而在解碼端,使用RNN 接受CNN 網絡提取出的特征向量,其中,RNN 可以使用LSTM、GRU 等代替,這樣可以獲得更好的記憶效果。

谷歌公司在文獻[10]中首先提出基于編碼-解碼框架的圖像描述模型,隨后的圖像描述模型幾乎都沿用了這個基本框架,并在此基礎上對編碼端和解碼端進行改進。

在編碼端,圖像特征的提取效果直接影響所生成文字序列的質量,進而影響整個圖像描述模型所生成語言的效果。基線模型NIC 采用谷歌的inception V3[5]提取圖像高級特征,文獻[11]采用VGG16 作為圖像編碼器提取圖像的低級局部特征,并在訓練過程中加入attention 結構,使得提取出來的多個低級局部特征在生成語言時和指定單詞進行權重匹配,進而提升整個模型的描述效果。

解碼端主要生成語言序列,其決定了語言表達的準確性。在獲取圖像特征后,利用圖像的特征向量生成符合人類表述方式的語言將成為整個任務的關鍵部分。深度神經網絡在目標識別[12]、圖像分類[13]等任務中效果良好,但隨著網絡深度的增加,網絡訓練效果降低[14],即準確率增長速度會趨于飽和并出現下降[15],HE 等[16]提出的殘差網絡(Residual Learning Network,ResNet)有效地解決了網絡退化問題。但是,在實驗分析中發現,上述研究仍有不足,如LSTM 面對長序列時收斂速度較慢,此外,由于深層模型層間梯度消失問題嚴重,導致無法多層疊加,使得所生成的句子描述效果欠佳。

隨著對抗學習以及強化學習方法的逐漸普及,圖像描述領域也誕生出一些新的模型訓練方法。文獻[17]使用對抗學習的思想,使得圖像和描述內容之間關聯更加密切。文獻[18]提出一種強化學習訓練策略,提升了模型的訓練效果。此外,新的圖像描述模型評測方法的提出也對該領域的發展起到重要作用。文獻[19]提出新的度量指標,為評測描述語言多樣性方面作出了貢獻。文獻[20]通過加入噪聲的方式來檢測圖像描述系統的魯棒性。

2 技術描述

本文提出一種Deep-NIC 模型,該模型是在基線模型NIC 上的改進。在編碼端使用inception V3 模型獲取圖像的高級特征;在解碼端采用7 層解碼單元構成深層解碼端(Deep Decoder),解碼單元由IndRNN 層和BN 層構建;詞嵌入使用word2vec。圖1 所示為Deep-NIC 模型整體結構。

圖1 Deep-NIC 模型結構Fig.1 Deep-NIC model structure

2.1 圖像特征提取模型

inception V3 是一款圖像識別模型,其主要使用多個不同尺度大小的卷積核和池化層進行深層疊加,從而達到提取圖像高級特征的目的。相較于上一代inception 模型,inception V3 采用多個小卷積核代替單個大卷積核,大幅減少了卷積運算的特征數量。同時,inception V3 將對應尺度的卷積操作和池化操作堆疊到一起,在增加網絡寬度的同時也提升了網絡對圖片尺度的適應性。

本文采用預訓練好的inception V3 模型作為圖片編碼器,將輸入的圖片編碼為512 維的特征向量,再輸入后續的語言生成模型中進行解碼。

2.2 深層次語言生成模型

深層次網絡具有更好的擬合效果,但是,僅僅簡單地疊加網絡層數會因網絡難以訓練而無法收斂。同時,隨著網絡深度的疊加,收斂過慢、過擬合等問題突顯,因此,需要一種合理的深層網絡結構。本文采用IndRNN 作為整個深層解碼端的基礎計算單元,結合BN 方法共同構建一個高效的深層神經網絡。

2.2.1 獨立循環神經網絡

獨立循環神經網絡(IndRNN)是對RNN 的一種改進,其采用哈達瑪積替代傳統的矩陣乘法,使用非飽和激活函數ReLU 替代sigmoid 等飽和激活函數,因此,IndRNN 在處理長序列任務和面對層間梯度消失問題時具有良好表現。IndRNN 的計算公式表示為:

第n個神經元的計算方式為:

和傳統RNN 以及LSTM 相比,IndRNN 在權重系數的計算方面做了調整,將權重矩陣U替換為獨立的權重向量u。在式(1)中,⊙表示矩陣元素積。在t時刻,每個神經元只接受此刻的輸入以及t?1 時刻自身的狀態作為輸入。

IndRNN 中的每個神經元都可以獨立地處理自身的輸出,不再受上一時刻其他神經元的影響,因此,在面對更長的時間序列時,也不會出現模型難以收斂的問題。此外,非飽和激活函數能夠避免深層網絡的層間梯度消失問題,使得IndRNN 單元可以有效構建深層次的網絡結構。

2.2.2 批標準化

批標準化(BN)常用于優化深度神經網絡,其在提升訓練速度的同時也在一定程度上放寬了對調參的要求。此外,BN 還可以起到類似于dropout 一樣的正則化效果,防止模型過擬合。BN 操作流程具體如下:

1)批次均值(m為批次大小):

2)批次方差:

3)歸一化:

4)縮放和平移:

在訓練過程中,BN 處理每一個mini-batch 數據,使之服從N(0,1)的正態分布,從而減少內部神經元分布的改變。BN 結構如圖2 所示。

圖2 BN 結構Fig.2 BN structure

在傳統訓練方法中,每個批次的數據分布不盡相同,因此,訓練難度較高,通常通過減小學習率的方式使模型收斂,這會導致模型的訓練效果在極大程度上受制于學習率。此外,過小的學習率還會導致模型收斂過慢、訓練效率低下。在BN 中,一方面可以選用較大的學習率來加快模型收斂并提升訓練效率,另一方面可以起到正則化作用,從而取消dropout并簡化網絡結構。

2.2.3 解碼單元

為了構建一個深層、有良好收斂效果的解碼端結構,本文模型使用IndRNN 與BN 來構建深層網絡結構解碼單元。在IndRNN 單元中,神經元之間的相互連接依賴層間交互來完成,下一層的神將元會接受上一層所有神經元的輸出作為輸入(相當于全連接層),并使用BN 層來起到加速網絡收斂、防止網絡過擬合等效果。

數據在IndRNN多層結構之間的傳遞通過如下方式:

因此,IndRNN 可構建深層結構。

此外,通過在每層循環神經元之后連接BN 層,從而“規范化”神經元的輸出,起到優化網絡結構的作用。因此,本文采用IndRNN+BN 的方式構建解碼單元。

在每個解碼單元中,第一層由512 個IndRNN 單元構成,第二層是BN 層,兩層之間采用全連接方式,且BN 層的輸出為512 維向量。深層解碼端由7 層解碼單元構成,每層解碼單元都將數據進行規范化后傳入下一層解碼單元。深層解碼端的具體結構如圖3 所示。

圖3 深層解碼端模型結構Fig.3 Deep decoder model structure

2.2.4 詞編碼

詞編碼部分使用woed2vec 進行映射,使用MS COCO2014 數據集中的圖像描述語句對其實現預訓練。

3 實驗驗證

本節首先通過加法實驗對IndRNN 與常用循環神經元進行性能對比,以驗證IndRNN 在面對長序列、深層次網絡時的性能表現;然后分別使用IndRNN、LSTM和GRU 單元搭建不同結構的解碼端,在完成整個圖像描述模型的訓練后,使用BLEU、METEOR、CIDER 等評分標準進行比較;最后使用本文解碼單元構成深層解碼端,并結合編碼端共同構建圖像描述模型,通過深度消融實驗,選擇效果最優的解碼端網絡深度(7 層),驗證具有深層解碼端的圖像描述模型在訓練效率和整體評分方面的性能表現。

3.1 神經元性能對比

實驗通過加法問題[21]將IndRNN 單元與常用循環神經元RNN、LSTM 進行性能對比。在加法任務中,向模型輸入2 個長度為T的序列,第一個序列是一串在(0,1)之間均勻采樣的數字,第二個序列是一串同等長度、其中只有2 個數字為1 而其余為0 的數字,要求找到第一個序列中對應第二個序列中為1的2 個數字的位置,并將第一個序列對應位置上的數字求和輸出。

在此次實驗中,分別采用不同的網絡單元,將IndRNN、LSTM、RNN 進行對比(GRU 和LSTM 效果相近,沒有展示)。損失函數使用MSE(Mean Square Error),優化器采用Adam,時間序列長度分別使用T=100、T=500 的步長,IndRNN、LSTM、RNN 的具體收斂效果如圖4 所示。

圖4 神經元在不同步長下的收斂效果Fig.4 Convergence effect of neurons under different step size

從圖4 可以看出,在面對較長序列時,IndRNN單元具有更好的收斂效果。

采用序列步長為100,在RNN、LSTM 和IndRNN 網絡中對神經元進行簡單疊加,分別疊加2 層、3 層、4 層、5 層,在加法任務中RNN、LSTM、IndRNN 的收斂情況如圖5 所示。

圖5 神經元在不同層數下的收斂效果Fig.5 Convergence effect of neurons under different layers

從圖5 可以看出,當網絡深度疊加到4 層時,較大的學習率(0.02)已經無法使得模型收斂,因此,采用更小的學習率(0.000 2)訓練模型。實驗結果表明,IndRNN 單元在多層疊加時具有更好的性能表現,層間梯度消失導致的模型無法收斂程度降低。

3.2 深度消融實驗

深度消融實驗構建完整的圖像描述模型,使用不同結構的解碼端在MS COCO2014 數據集上進行模型訓練,通過BLEU、METEOR、CIDER 等評判指標衡量模型效果。

3.2.1 基于IndRNN 的解碼端

利用不同神經元構建解碼端,采用簡單的全連接方式進行層數疊加。對比神經元有LSTM、GRU、IndRNN 單元,結果如表1 所示,最優結果加粗表示。

表1 基于不同神經元結構的模型對比結果Table 1 Comparison results of models based on different neuron structures

LSTM 和GRU 的多層疊加會導致模型難以訓練,因此,本次實驗僅取2 層參與對比。由于IndRNN 層間梯度消失現象較輕,因此,設計更多層次的實驗。由表1 可以看出,IndRNN 單元在3 層結構時具有最佳性能,更多層結構時反而效果不佳,這是由于在多層結構中,隨著網絡層數的堆積,學習率的初值設定需不斷減小,過小的學習率使得網絡收斂速度變得極為緩慢,而稍大的學習率則會導致模型收斂不佳。

3.2.2 深層解碼端的深度消融實驗

在本次實驗中,使用解碼單元搭建不同深度的解碼端結構,并參與圖像描述模型的訓練,最后進行模型效果評分,結果如表2 所示,最優結果加粗表示。

表2 不同深度解碼端的模型效果對比Table 2 Comparison of model effects with different depth decoders

由表2 可以看出:當解碼單元疊加至7 層(即深度為7 層的解碼端)時,模型整體評分已取得最佳(8 層的評分效果與7 層相差無幾,但層數的提升會導致模型訓練復雜度提升),因此,本文最終選定深度為7 層的解碼單元構成深層解碼端。此外,由于解碼單元中BN 層的加入,即使在整個模型的訓練過程中采用0.2 的學習率(雙層LSTM 模型學習率為0.000 2 時方可收斂),模型依然能夠高效收斂。

3.3 深層圖像描述模型

在本次實驗中,詞編碼部分使用預訓練好的word2vec 模型,詞向量映射大小為256 維,解碼端由深層解碼端(7 層解碼單元)構成,利用端到端的方式進行訓練,最終得到深層圖像描述模型Deep-NIC,并將Deep-NIC 與其他5 種模型進行比較,性能對比結果如表3 所示,最優結果加粗表示。

表3 不同解碼端結構的模型對比結果Table 3 Model comparison results with different decoder structures

Deep-NIC 模型通過word2vec 進行詞編碼,該編碼方式在生成詞向量的同時會顧及單詞的上下文信息,因此,向量包含的信息會更豐富。然而,在單個詞語的表征方面,不包含上下文信息的one-hot 編碼方式更具優勢,因此,Deep-NIC 模型在BLEU-1(單個詞評價)的評分上稍有不佳,而在BLEU-4、METEOR、CIDER 評判指標下表現較好。

3.4 Deep-NIC 模型應用

本次實驗通過實例展示Deep-NIC 模型的描述效果,并分析其執行效率。

3.4.1 描述效果

分別使用3 張照片作為Deep-NIC 模型的輸入,觀察該模型在實際應用中的描述效果,如圖6 所示。由圖6 可以看出,Deep-NIC 模型可以準確識別圖片中的主要目標,并能夠用恰當的語言對圖片內容進行描述。

圖6 Deep-NIC 模型在不同場景下的應用效果Fig.6 Application effect of Deep-NIC model in different scenarios

3.4.2 模型執行效率

除了要求對圖片內容進行準確描述外,執行效率也是考量圖像描述模型應用性能的標準之一。分別選取100 張像素大小為1M 以下、1M~5M、5M~10M 的實景照片進行測試,分別統計Deep-NIC 模型和基線模型生成描述所需時間,結果如表4 所示。

表4 不同模型的時間消耗對比Table 4 Comparison of time consumption of different models s

從表4 可以看出,隨著模型復雜度的提升,Deep-NIC 在描述準確度提升的同時生成描述語言所消耗的時間也會增加,但和基線模型相比,由于Deep-NIC 特殊的深度結構,即使具有高達7 層的復雜解碼結構,其時間消耗也在可接受范圍之內。

4 結束語

本文提出一種深層圖像描述模型Deep-NIC。由IndRNN 單元和BN 層構成解碼單元,解碼單元能夠使得解碼端多層疊加,網絡也更加易于訓練,同時防止了過擬合問題的出現。Deep-NIC 模型的解碼端由7 層解碼單元構成,詞編碼部分使用預訓練的word2vec。實驗結果表明,與基線模型相比,Deep-NIC 模型的BLEU-4、METEOR、CIDER 評分均有提升。Deep-NIC 模型中采用詞嵌入的方式,導致其整體性能提升幅度不大,下一步將對詞嵌入方式進行改進,以構建效果更優的圖像描述模型。

猜你喜歡
深度效果模型
一半模型
按摩效果確有理論依據
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
迅速制造慢門虛化效果
深度觀察
深度觀察
深度觀察
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
主站蜘蛛池模板: 久久天天躁狠狠躁夜夜2020一| 亚洲欧美不卡中文字幕| 五月婷婷导航| 色婷婷成人| www.日韩三级| 欧美精品不卡| 国产美女在线观看| 国产大片喷水在线在线视频| 1024你懂的国产精品| 国产亚洲高清在线精品99| 人妻丰满熟妇av五码区| 国产无码在线调教| 国产美女91视频| 精品少妇人妻无码久久| 成年人国产视频| 中文字幕在线日本| 青青操国产| 午夜综合网| 成人小视频在线观看免费| 五月婷婷综合网| 欧美激情首页| 国产微拍一区二区三区四区| 在线欧美一区| 亚洲AⅤ无码国产精品| 视频一区视频二区中文精品| 国产欧美在线视频免费| 69视频国产| 国产一在线观看| 久久免费看片| 亚洲 欧美 偷自乱 图片| 中文字幕第1页在线播| www欧美在线观看| 毛片免费在线| 欧美19综合中文字幕| 亚洲色图在线观看| 国产激情无码一区二区APP | 久草性视频| 国产成人久久777777| 国产成人一区二区| 四虎影视8848永久精品| 欧美中文字幕一区| 制服丝袜无码每日更新| 欧美高清日韩| 波多野结衣的av一区二区三区| 欧亚日韩Av| 国产精品免费电影| 天天色天天操综合网| 在线观看亚洲精品福利片| 午夜一区二区三区| 99免费在线观看视频| 潮喷在线无码白浆| 二级特黄绝大片免费视频大片| 国产91小视频在线观看| 国产女人在线| 亚洲精品成人福利在线电影| 亚洲午夜福利精品无码| 波多野结衣亚洲一区| 亚洲美女高潮久久久久久久| 国产欧美另类| 久久久久久久蜜桃| 91青草视频| 99无码中文字幕视频| 91探花在线观看国产最新| 无码中文字幕乱码免费2| 欧美成人精品一区二区| 最新国产网站| 国产一区二区三区精品欧美日韩| 亚洲第一av网站| 亚洲国产中文精品va在线播放 | 青青青伊人色综合久久| 99在线国产| 亚洲欧洲一区二区三区| 国产 在线视频无码| 久久久久久久久18禁秘| 精品欧美一区二区三区久久久| 亚洲天堂免费在线视频| 伊人成人在线| 欧美国产在线看| 中文无码日韩精品| 91无码国产视频| 国产一级毛片在线| 免费无码在线观看|