








摘" 要:近幾年因為深度學習的快速發展,圖像合成技術也得到長足的進展。傳統方法的圖像合成技術已經在逐步淘汰當中,基于深度學習的圖像合成模型發展迅猛。但是圖像合成模型普遍存在一些問題,比如歸一化層進行處理時會模糊語義信息,生成圖像時僅僅利用特征圖的局部空間信息,并且運用于農業領域的圖像合成模型寥寥無幾。針對這些問題,該文提出一種基于生成對抗網絡的圖像合成模型,其可以生成水果圖像,還能對水果圖像中腐爛、發霉等缺陷進行圖像生成。經過實驗,該文與對比模型相比有著更好的性能,并且提升一定的計算效率。
關鍵詞:圖像合成;生成式對抗網絡;注意力機制;深度學習;水果圖像
中圖分類號:TP391.9" " " 文獻標志碼:A" " " " " 文章編號:2096-9902(2023)17-0013-05
Abstract: Due to the rapid development of deep learning in recent years, image synthesis technology has made great progress. Traditional image synthesis techniques have been phased out, and image synthesis models based on deep learning are developing rapidly. However, there are some common problems in image synthesis models, for instance, the semantic information will be blurred when the normalization layer is processed, only the local spatial information of the feature map is used to generate the image, and there are few image synthesis models used in the agricultural field. In order to solve these problems, this paper proposes an image synthesis model based on generation confrontation network, which can not only generate fruit images, but also generate images such as rot, mildew and other defects in fruit images. Through experiments, compared with the comparison model and other models, this paper has better performance, and improves the computational efficiency.
Keywords: image synthesis; generative confrontation network; attention mechanism; deep learning; fruit image
圖像合成在各個領域都有廣泛的應用,例如虛擬現實、增強現實、視頻編碼、醫學圖像處理[1]和藝術創作等。在虛擬現實和增強現實中,圖像合成可以將虛擬圖像和真實圖像融合在一起,提高用戶的沉浸感和真實感[2]。在視頻編碼中,圖像合成可以通過合成預測幀來減少視頻的碼率,提高視頻的壓縮效率。在醫學圖像處理中,圖像合成可以將不同模態的圖像合成在一起,提高醫生對病情的判斷和診斷效率。在藝術創作中,圖像合成可以生成更加復雜和有趣的圖像,拓展藝術家的創作空間。在農業水果領域也是,通過圖像合成可以將水果與其他元素進行圖像組合,用于營銷宣傳等,還可以對一些缺陷進行修復或者生成所需要的缺陷來創造一個需要的圖像環境。本課題就以農業中的水果圖像作為研究目標。
對本文的水果圖像進行研究整理,組成了一份新的數據集,并提出了一種基于深度學習的圖像合成模型,該模型可以生成上述種類的水果圖像以及符合它們的缺陷圖像又或是對缺陷圖像進行復原,為圖像合成在農業領域提供一些研究思路。
1" 算法設計
本文提出了一種基于深度學習的圖像合成網絡,結構如圖1所示。該模型以GAN為基礎,對GAN的各個結構重新進行設計改進,并加入了空間自適應歸一化模塊SPADE和稀疏注意力機制YLG。
算法的主要思想包括以下幾個方面。
以GAN為基礎。生成對抗網絡通過生成器和判別器的互相對抗來得到一個良好的輸出,作為一種生成模型,能夠很好地處理數據生成問題,該模型所采用的神經網絡結構能夠擬合各類數據的高維表示[3]。GAN采用2個神經網絡互相對抗的方式和反向傳播方式進行端到端優化更新,能有效地改善生成模型的訓練效率和難度[4]。
圖像編碼器。圖像編碼器主要由卷積層和線性層組成,輸入真實圖像并對其進行編碼,以生成向量數據作為生成器的輸入。
生成器。過往基于深度學習的方法經常將語義圖像直接送入生成器中的神經網絡進行學習。這些方法雖然有著一定的效果,但是不利于生成高質量的圖,因為普通神經網絡中的歸一化層會不自覺地減少語義信息。為了解決這個問題本文引入了SPADE,它可以代替普通的歸一化層,通過空間自適應的學習轉換,使用輸入的語義信息布局來激活調節,并可以在整個網絡中有效傳播語義信息。
鑒別器。本文的鑒別器參考了一些其他模型的經典設計,主要由卷積層組成,以標簽圖像、生成器的輸出以及真實圖像作為輸入,對它們進行判斷。
引入注意力機制YLG。注意力機制通過建模像素間關系,能有效地處理復雜的幾何形狀以及捕獲長距離的依賴關系,以進一步提高網絡性能[5]。然而,注意力也存在上文所說的一些限制。針對以上的問題,本文引入了注意力機制YLG,該方法引入了局部稀疏注意力層,降低了計算復雜度,減少了計算注意力時將二維空間結構的張量展開成一維空間結構時損失的空間特性,并且可以支持良好的信息流,和其他注意力機制相比性能和訓練時間均得到一定幅度的優化。
1.1" 生成器的改進
本文模型對生成器進行了重新設計優化,激活函數采用了ReLU,卷積層采用了3×3的卷積,將常用的“卷積→激活→歸一化”模塊替換成了“SPADE→激活→卷積”,這個模塊可以看作是利用了圖像語義信息來引導特征圖進行歸一化的處理,結構如圖2所示。為了解決殘差塊前后通道數量不同的問題,結構內加入了一個skip connection[6],也就是圖2中虛線框內的部分。圖3顯示了生成器的結構,生成器由一系列的SPADE塊和卷積組成,整個網絡結構是先生成一列學習好的數據分布,然后通過一層一層的SPADE塊堆疊而成。
SPADE塊將之前輸出的低分辨率圖片與輸入圖像的標簽圖像作為下一個塊的輸入,用來生成分辨率更高的圖像。逐漸增大的灰色方塊就是表示尺寸不斷變大的圖像。而且在每一層SPADE塊中,不斷地加入語義分割圖片來進行干預,這樣可以讓網絡在每一層都能學習到多尺度的語義信息。因為學習到的調制參數已經編碼了關于標簽布局的足夠信息,所以不需要將分割圖像反饋到生成器的第一層,這樣可以使網絡更加輕量[7]。
1.2" 注意力機制的引入
轉置卷積層是一種基本的架構組件,因為它們捕捉到自然圖像的空間不變性,這是一個關鍵的屬性。中心限制使得卷積無法建模復雜的幾何形狀和長距離的相關性,例如可能會生成6條腿的狗等。為了彌補這個限制,很多學者在生成模型中加入了注意力層。注意力機制的加入使得長距離的空間依賴關系建模成為了可能,其還能自動捕捉圖像的相關部分。
YLG注意力機制是一種稀疏注意力機制,可以提升模塊的計算效率,將注意力分成了多個步驟進行計算而不是集中一起計算,輸入的注意力的二階復雜度可以用矩陣AX,Y=XQ·Y來表示,其中X,Y是一種中間表示(Intermediate Representation),它們將幾個矩陣與輸入關聯到一起。在每一個步驟i,注意力都會關注輸入位置的子集,而這個位置由Mi來確定,用公式(1)表示
式中:-∞表示在激活函數后,這個位置的數值將會清零,不再進行計算的傳遞,也就對其沒有影響。因此掩模的設計顯得十分重要,關系到參與注意力計算的數據復雜度,該機制設計使用了一種attention mask來解決,其規定了哪些點與點是有計算關系的,哪些點是不進行結算的,并且該機制還參考了Rewon Child等的方法,讓單獨的注意力頭并行運算不同的矩陣,然后再沿著特征維度進行串聯。
2" 實驗設計
2.1" 數據集
數據集的采集是后續處理的關鍵,對圖像質量的好壞有著很大的影響。戶外拍攝所獲取的圖像會受到多種環境因素的干擾,如天氣、光照等,因此存在較多的干擾因素。在搜索引擎中搜索圖像時,由于上傳者使用的采集設備不同,所獲取的圖像像素、清晰度等方面存在較大的差異,這會給后續的圖像預處理帶來不必要的工作量。而kaggle上的fruit360數據集的圖像數據使用統一的設備進行采集,圖像質量較高,并且是一個面向大眾的免費數據集(圖4)。
目前帶缺陷水果的數據集并不常見,很多種類的水果都沒有這樣的數據集,所以本文所使用的水果缺陷圖像數據集由自己采集并進行處理制作,所采用的都是各種水果比較典型的缺陷情況,比如蘋果表皮變黃腐爛,橘子長斑發霉等(圖5)。缺陷水果圖像數據只使用水果的缺陷部分圖像。每種水果有訓練集500張,測試集50張。
將上述水果圖像數據以及缺陷水果圖像數據使用經典圖像分割模型U-Net進行分割操作,以獲得分割掩碼作為圖像合成模型的輸入。分割掩碼輸入前還要進行標注,對不同種類的水果和缺陷進行分類區分,使每個種類都有不同的標簽,這樣合成模型可以更好地識別并學習。
2.2" 評價指標
自從圖像合成技術問世以來,人們一直在探尋一種有效的方法來評估生成圖片的質量。由于合成圖像的質量受到多種因素的影響,例如真實性、多樣性和與輸入條件的一致性等,這些因素都十分的主觀,靠人眼進行辨別,很難用一個標準去對其進行評定,因此很難找到一種客觀準確的數值評估方法。雖然如此,許多研究仍然致力于探索更好的數值評估方法。
為了評價模型精度,本文同時使用了像素準確率(PA)、平均交并比(MIoU)和Fréchet Inception Distance(FID)[8]來測量合成圖像分布和真實圖像分布之間的差距。
2.3 軟硬件配置
本章所有實驗都以Python3.7為基礎進行開發,在深度學習框架PyTorch上實現,具體軟硬件配置見表1。
3" 結果與分析
3.1" 對比實驗
將本文方法在不同場景的數據集上與多種圖像合成模型進行了比較,分別為CRN、SIMS、pix2pixHD和GauGAN。
本次實驗給定所用水果圖像,所有模型在給定的圖像上進行缺陷的生成融合,使用MIoU、PA與FID作為指標,其中MIoU與PA的值越高表示性能越好,FID的值越低表示性能越好。缺陷融合圖像實驗結果如圖6和表2所示。
因為本小結的實驗是給定一個水果圖像進行融合,而不是直接融合生成,從上述結果中也可以看出本文方法在給定圖像的條件下成功合成了語義標簽,生成的圖片相比于其他模型有明顯的改善,使得生成圖像更接近人類主觀感受,各種表現更加自然,相接觸的邊緣過度更加順滑,各個指標也顯示本文模型更加優秀。從其他模型看來,SIMS的效果并不好,CRN雖然看著效果還不錯,但是經常偏離輸入的標簽圖像。Pix2pixHD也有著相同的問題,輸出會有偏離。GauGAN的表現很好,但是從數據和圖像上來看比本方法稍微低了一點。總體上來說本文的方法與其他相比會有更多的細節可以更好地生成標簽所包含的語義信息。
本次實驗根據所用水果的標簽圖像進行測試,而不是給定一個水果圖像,所有模型對標簽圖像進行缺陷水果的生成融合,本次使用MIoU、PA與FID作為指標,其中MIoU與PA的值越高表示性能越好,FID的值越低表示性能越好。缺陷融合圖像實驗結果如圖7和表3所示。
從實驗結果可以看出,總體來說,GauGAN在4個對比模型中表現為最好的,CRN和SIMS的輸出經常會有偏離使得圖像失真,不符合人類的主觀判斷,根據圖6、圖7和表2、表3可以看出本文方法在給定標簽的條件下成功生成了缺陷圖像,生成的圖片相比于其他模型有明顯的改善,使得生成圖像更接近人類主觀感受,相比其他的模型SYGAN有著明顯的領先優勢。
3.2" 消融實驗
消融實驗結果見表4,其中SGAN表示不加入YLG的模型,YGAN表示不加入SPADE的模型,GAN表示不加入SPADE和YLG的模型。表中的MIoU與PA的值越高表示性能越好,FID的值越低性能越好。
從表4中可以看出,SGAN和YGAN的FID與GAN的FID相比有著很高的提升,這說明SPADE和YLG對于模型的性能都有十分不錯的改善。SGAN的FID與YGAN的相比提升了9左右,說明SPADE對性能的提升大于YLG。SYGAN在結合了SPADE與YLG的情況下,與SGAN和YGAN的FID相比分別有著大概5、14的提升。YLG注意力機制也可以提升模型性能但相對于平時常用的注意力機制,它的主要優勢是可以顯著降低計算復雜性,提升訓練速度。
4" 結論
通過對于圖像合成與深度學習的不斷學習探索,提出了一種基于深度學習的圖像合成模型SYGAN,它在GAN的基礎上對其各個部分都進行了特定的優化與改進,并引入了SPADE和YLG注意力機制。還針對特征匹配進行了損失函數的改進優化,這些改進使得模型有著不錯的性能表現,提高了圖像合成的精度,減少了錯誤特征的生成并擴展了模型的感受野,縮短了訓練時間。
從實驗結果可以看出本文模型有著不錯的表現,與對比的幾個模型相比有著不錯的提升。雖然本文方法可以很好地完成圖像合成任務,但是在復雜環境、生成邊緣顯示上會生成一些問題圖像,不符合人類的主觀印象。這將會在我們未來的學習工作中研究和解決。
參考文獻:
[1] 謝凱,陸正大,李春迎,等.醫學圖像合成方法研究進展[J].中國醫學影像技術,2020,36(12):1903-1906.
[2] 胡偉文.多場景商品圖像合成與風格遷移算法研發[D].杭州:浙江大學,2020.
[3] 鮑建敏.基于生成對抗網絡的圖像合成[D].合肥:中國科學技術大學,2019.
[4] CRESWELL A, WHITE T, DUMOULIN V, et al. Generative adversarial networks: An overview [J]. IEEE signal processing magazine, 2018,35(1):53-65.
[5] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation[C]//proceedings of the Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, F, 2019:10705-10714.
[6] MAZAHERI G, MITHUN N C, BAPPY J H, et al. A Skip Connection Architecture for Localization of Image Manipulations[C]//proceedings of the CVPR workshops, F, 2019:119-129.
[7] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional gans[C]//proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, F, 2018:8798-8807.
[8] OBUKHOV A, KRASNYANSKIY M. Quality assessment method for GAN based on modified metrics inception score and Fréchet inception distance[C]//proceedings of the Proceedings of the Computational Methods in Systems and Software, F, 2020:102-114.