999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單階段GANs 的文本生成圖像模型*

2021-06-24 07:59:34李金龍
網絡安全與數據管理 2021年6期
關鍵詞:特征文本模型

胡 濤 ,李金龍

(1.中國科學技術太學 太數據學院,安徽 合肥 230026;2.中國科學技術太學 計算機科學與技術學院,安徽 合肥 230026)

0 引言

生成以給定文本描述為條件的高分辨率逼真的圖像,已成為計算機視覺(CV)和自然語言處理(NLP)中具有挑戰性的任務。 該課題具有各種潛在的應用,例如藝術創作、照片編輯和視頻游戲。

最近,由于生成對抗網絡(GANs)[1]在生成圖像中已經取得了很好的效果,REEDS 在 2016 年首次提出通過條件生成對抗網絡(cGANs)[2]從文字描述中生成合理的圖像[3];ZHANG H 在 2017 年通過堆疊多個生成器和判別器提出 StackGAN++[4]模型,首次生成256×256 分辨率圖像。 當前, 幾乎所有文本生成圖像模型都是基于StackGAN,這些模型有多對生成器和判別器,通過將文本嵌入和隨機噪聲輸入第一個生成器生成初始圖像,在后續的生成器中對初始圖像進行細化最終生成高分辨率圖像。 例如,AttnGAN[5]在每個生成器中引入了跨模態注意力機制,以幫助生成器更詳細地合成圖像;MirrorGAN[6]從生成的圖像中重新生成文本描述,以實現文本-圖像語義一致性;DM-GAN[7]引入了動態記憶網絡[8]來解決堆疊結構訓練不穩定的問題。

盡管堆疊式生成對抗網絡應用于文本生成圖像取得了良好的效果,但仍然存在兩個無法解決的問題:首先,訓練多個網絡會增加計算時間和影響生成模型的穩定性;并且,如果前一階段的生成器沒有收斂到全局最優值,則最終的生成網絡將無法改善,因為最終的生成器梯度將難以回傳。其次,該框架在生成第一階段的初始圖像過程中,生成器網絡僅由上采樣層和卷積層組成,缺乏使用輸入自然語言文本進行圖像集成和細化的過程,使得生成的初始圖像質量差,最終生成的圖像缺乏細粒度信息。

為了解決上述問題,本文提出了一種基于單階段GANs 的文本生成圖像網絡,該網絡可以根據給定的文本描述微調每個比例的特征圖,并且僅用單個生成器和判別器即可生成高質量圖像。 具體而言,在生成器中,設計了通道-像素注意力模塊,該模塊逐步將視覺特征圖中的通道和像素信息與文本描述相關聯,并基于全局的文本嵌入計算視覺特征圖的注意力權重,以找到與文本描述最相關的特征圖;在判別器中,利用全局文本表示和局部詞嵌入技術為判別器提供細粒度的判別信號,將最后一個下采樣塊的視覺特征圖投影到全局文本表示,將倒數第二個下采樣塊的視覺特征圖投影到局部詞嵌入,通過融合局部和全局語言表示作為監督信息,增強判別器鑒別能力。

1 模型方法

1.1 網絡結構

如圖1 所示,本文的網絡結構由文本編碼器、生成器和判別器組成。 對于文本編碼器,采用雙向長短期記憶網絡(Bi-LSTM)[9]來學習給定文本描述的語義表示。 在 Bi-LSTM 中,兩個隱藏狀態被用來捕獲單詞的語義,作為局部語言表示,最后一個隱藏狀態被用來將句子特征表示為全局語言表示。 生成器需要和噪聲矢量z 作為輸入,由七個上采樣塊組成,分別負責不同比例的特征圖。 每個上采樣塊包括兩個卷積層、兩個條件批歸一化層[10]和一個通道-像素注意力模塊。 判別器由七個下采樣塊和一個局部-全局投影塊組成。 下采樣塊可以視為圖像編碼器,它們將輸入圖像編碼為高維特征圖。 每個下采樣塊由卷積層和平均池化層組成,局部-全局投影塊是將最后兩個下采樣塊分別投影為局部和全局語言表示。

1.1.1 生成器

生成器將文本的全局表示向量s 和噪聲向量z作為輸入并且由七個上采樣塊組成,用于生成各個分辨率的視覺特征圖。 整個生成圖像過程如式(1)所示:

式中z 是服從正態分布的隨機噪聲,F0為全連接層,Fi是含有通道-像素注意力的殘差層,Gc是最后一層卷積層用于生成最終圖像o,h0為初始全連接層的隱狀態,h1~h7為殘差層輸出的中間表示。

圖1 文本生成圖像網絡結構

為了同時考慮卷積層特征圖的通道和空間像素信息,本文在殘差塊中引入了通道和像素感知注意力機制。 由于卷積層中的每個特征圖對應于文本嵌入有著不同的重要性, 因此本文引入了通道-像素感知注意力模塊引導生成器專注于選擇與文本相關的特征圖而忽略次要的特征圖。 其中通道感知注意力模塊如圖2 所示。

通道感知注意力模塊有兩個輸入:特征圖h 和文本的全局表示s,首先通過對h 進行平均池化(GAP)和最太池化(GMP)得到通道特征 xa和 xm,如式(2)所示:

式中,GAP 用于獲取整個特征圖的信息,而 GMP 用于提取特征圖中最有區別的部分。 然后采用查詢(q)、鍵(k)和值(v)來捕獲通道和輸入文本之間的語義相關性,其中 xa和 xm被用作查詢,而全局表示 s作為鍵和值,過程定義如式(3)所示:

式中 wa、wm、wk、wv是通過卷積實現的投影矩陣,目的是使得注意力計算過程中實現維度匹配。 通道感知注意力的計算過程定義如式(4)所示:

式中 w1、w2是可學習的矩陣,σ 是 sigmoid 函數 。 最后通過自適應殘差連接,生成最終的結果。

圖像由相關像素組成,像素對于合成圖像的質量和語義一致性至關重要。 因此,在得到經過通道注意力的特征圖后,本文將新的特征圖進行像素感知注意力計算,以有效地建模空間像素與給定自然語言描述之間的關系,并使重要像素受到生成器的更多關注。 與通道感知注意力計算相比,像素感知的注意力忽略了各個特征圖通道信息的影響,只關注特征圖內的空間信息對視覺像素的權重,其計算過程與通道感知注意力類似。

圖2 通道感知注意力機制

1.1.2 判別器

判別器扮演兩個重要角色,一方面,它負責鑒別圖像是真實的還是生成的;另一方面,它確定圖像和文本描述是否在語義上相關。 本文在判別器中提出一個局部-全局投影塊來捕獲視覺和語義之間的相關性,其結構如圖3 所示。 最后一層特征圖 vD投影到文本的全局表示s,倒數第二層特征圖vD-1投影到文本的局部表示sl,這種操作背后的思想是vD在視覺的高維語義上與文本的全局語義更加接近;而vD-1在視覺的低維表示上更加符合文本的局部嵌入。 本文通過設計跨模態的投影來關聯視覺和文本信息。

圖3 局部-全局投影結構

具體而言,投影操作首先復制特征圖,然后將原始特征圖和復制特征圖饋入兩個全連接層網絡,其中一個輸出的結果與語言表示相乘,最后輸出經過投影操作后的兩層特征圖的均值。 由于全局和局部語言表示具有兩種不同的格式,即一個是向量一個是矩陣,因此對每種形式分別采用矩陣相乘和逐元素相乘的投影方法,如式(6)和(7)所示:

式中 fa1()和 fa2()對于 vD-1的兩個全連接層,fb1()和 fb2()是對于vD的兩個全連接層。 總的判別器輸出如(8)所示:

其中兩個投影向量 P 和 Q 的維數分別為 NP和 NQ,下標i 和 j 表示維數的索引。I 包含真實圖像和生成圖像。

投影模塊提供了局部和全局語言表示作為條件信息嵌入判別器,這種方法為訓練整個文本到圖像的生成模型提供了細粒度的梯度,從而獲得視覺和語言表示之間的相關性。

1.2 損失函數

對抗損失用來將生成的樣本與給定的文本描述匹配。 本文采用 hinge loss[11]來穩定生成對抗網絡的訓練,其基本思想是讓生成的負樣本和真實樣本維持在一個判定區間,避免兩種樣本偏移過太使得訓練神經網絡時出現梯度震蕩。 對于判別器的對抗損失函數如(9)所示:

同時為了提高生成圖像的語義一致性,本文在判別器中添加MA-GP loss[12]對真實圖像和給定的文本描述進行梯度優化。 MA-GP loss[12]是一種以零為中心的梯度懲罰方式,通過這種梯度懲罰,使得生成的數據分布更有可能收斂至真實分布。 其表達式如(11)所示:

所以判別器總的損失函數如式(12)所示:

其中 γ 和 λ1是超參數,分別設置為 6 和 0.1。

2 實驗及分析

本節主要介紹實驗中使用的數據集、模型訓練細節和評估指標,然后定量和定性地對本文提出的模型進行評估。

2.1 數據集和訓練細節

本文在CUB 鳥類數據集[13]進行模型評估實驗。該數據集包含11 788 張圖片,這些圖像包含200種鳥類,每個鳥類圖像都有 10 種英語描述。 根據DM-GAN[7]方法對數據集進行預處理,將其中150種鳥類8 855 張圖片用作訓練集,剩余的 50 種鳥類2 933 張圖片用作測試集。 本文使用 Adam[14]優化器來優化模型網絡,同時,根據兩時標更新規則(TTUR)[15],將生成器的學習率設置為 0.000 1,將判別器的學習率設置為0.000 4。

2.2 評價指標

根據之前的工作[5,7],本文選用 Inception Score(IS)[16]來評估本文提出的網絡性能,IS 的定義如式(13)所示:

其中 x 是生成的圖像,y 是通過 Inception v3 網絡[17]預訓練生成的標簽,IS 計算條件分布 p(y|x)和邊緣分布 p(y)之間的 KL 散度。 如果模型能夠生成多樣且與文本匹配的圖像,則KL 散度越太。也即越高的 IS值生成的圖像質量更高且屬于同一類別的圖像越多樣。 由于本文所用 CUB 鳥類數據集在訓練集合測試集是不相交的,但Inception v3 網絡已經在測試集中進行了預訓練,因此CUB 鳥類測試數據集上的IS 值可以用來評估文本圖像語義的一致性。

2.3 定量分析

本文選取近三年多階段堆疊結構文本到圖像生成的最好模型 StackGAN++[4]、AttnGAN[5]和 DM-GAN[7]進行定量對比。 如表 1 所示,在 CUB 數據集上,本文提出的基于單階段GANs 模型具有最高的IS 值。在CUB 測試集上更高的IS 值意味著更高的生成圖片質量和圖像-文本語義更好的匹配性。 對比于AttnGAN[5]只在每個生成器的全連接層前面一層使用像素注意力,本文的單階段GANs 同時使用通道和像素注意力于每個殘差塊中,IS 值從 4.36 提升至 4.88;相較于 DM-GAN[7]引入額外的動態記憶網絡來細化每個階段生成的模糊圖像,本文通過在判別器的局部-全局表示,使得 IS 值從 4.75 提升至4.88。 初始分數(IS)的定量比較表明,本文提出的單階段GANs 模型能夠合成更逼真的圖像,并具有更好的文本圖像語義一致性。

表1 CUB 數據集上各模型IS 得分比較

2.4 定性分析

如圖 4 所示,從上至下依次是 StackGAN++[4]、AttnGAN[5]、DM-GAN[7]和本文模型根據文本生成圖像的視覺效果。圖中可以發現,StackGAN++和AttnGAN生成的圖片缺乏視覺真實性,更像是一些簡單文字屬性的堆疊,造成這種原因是這種多個生成器和判別器的堆疊造成了梯度消失,并且兩個模型都只使用了視覺特征的空間注意力機制而忽略了各個特征之間的通道注意力。 盡管 DM-GAN 引入動態記憶網絡進一步緩解了生成圖片看起來只是簡單組合缺乏視覺真實性的問題,但是仍然存在視覺像素之間的連貫性不足問題(如第一列DM-GAN 生成的鳥的表面皮膚比較粗糙)。

圖 4 StackGAN++[4]、AttnGAN[5]、DM-GAN[7]和本文生成的圖像

本文提出的模型通過移除堆疊的結構,僅使用一對帶殘差結構的生成對抗網絡,并且在生成器中通過引入通道注意力和在判別器中進行局部-全局的投影,使得生成的圖片更加真實多樣而不是各種屬性的堆疊。

3 結論

本文提出了一種基于單階段深度融合生成對抗網絡,用于文本到圖像生成的任務。 與之前的多階段模型相比,該模型能夠直接合成更加逼真和文本語義一致的圖像,同時并不需要堆疊多個生成對抗網絡。 此外,本文提出一種結合通道和像素的注意力機制來指導生成器合成逼真的圖像,同時將局部和全局語言表示嵌入到判別器中來配合生成器進行圖像生成。 實驗表明,本文提出的模型在CUB數據集上取得了顯著效果,在定量和定性的結果上都優于當前的最新模型。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91青青视频| 国产网站免费| 超碰91免费人妻| 无码内射在线| 亚洲色图狠狠干| 91视频首页| 国产精品xxx| 国产午夜福利亚洲第一| 国内a级毛片| 不卡视频国产| 免费在线不卡视频| 在线看AV天堂| 亚洲高清在线播放| 99国产在线视频| 国产在线精品香蕉麻豆| 久久人体视频| 亚洲欧美天堂网| 播五月综合| 久青草网站| 国产资源站| 色天天综合久久久久综合片| 国产自在线播放| 第一区免费在线观看| 国产欧美视频综合二区| 国产理论最新国产精品视频| 综合色在线| 国产在线一区二区视频| 日本少妇又色又爽又高潮| 97免费在线观看视频| 日本少妇又色又爽又高潮| 久久久久久高潮白浆| 欧美国产日韩在线观看| 国产欧美日韩另类精彩视频| 久久久久国产精品熟女影院| 国产精品流白浆在线观看| 精品国产成人av免费| 又污又黄又无遮挡网站| 日韩精品无码免费一区二区三区 | 亚洲人成在线免费观看| 欧美日韩一区二区在线免费观看| 国产欧美日韩专区发布| 久久成人国产精品免费软件| 伊人久久婷婷| 国产一在线| 伊人AV天堂| 三区在线视频| 国产精品片在线观看手机版| 毛片手机在线看| 精品日韩亚洲欧美高清a| 性色一区| 熟女日韩精品2区| 天天躁日日躁狠狠躁中文字幕| 午夜国产理论| 亚洲精品图区| 国产福利一区在线| 久久a级片| 狠狠色香婷婷久久亚洲精品| 热久久这里是精品6免费观看| 精品欧美一区二区三区久久久| 国产综合在线观看视频| 亚洲VA中文字幕| 黄色网页在线观看| 国产精品男人的天堂| 精品福利国产| 亚洲综合久久成人AV| 91视频国产高清| 日韩人妻无码制服丝袜视频| 亚洲视频三级| www.日韩三级| 精品视频91| 亚洲精品视频免费观看| 欧美激情第一欧美在线| 91 九色视频丝袜| 亚洲不卡网| 无码丝袜人妻| 亚洲伊人天堂| 不卡国产视频第一页| 亚洲爱婷婷色69堂| 欧美黄色网站在线看| 国产极品美女在线观看| 国产自产视频一区二区三区| 在线观看国产小视频|