基于pix2pixHD 的行人圖像生成

2019-10-14 02:08:04程平

數(shù)字通信世界 2019年9期

關(guān)鍵詞：特征

程平

（四川長虹電器股份有限公司，綿陽 621000）

1 pix2pixHD

圖像處理的很多問題都是將一張輸入的圖片轉(zhuǎn)變?yōu)橐粡垖?yīng)的輸出圖片，比如灰度圖、梯度圖、彩色圖之間的轉(zhuǎn)換等。通常每一種問題都使用特定的算法如：使用CNN 來解決圖像轉(zhuǎn)換問題時(shí)，要根據(jù)每個(gè)問題設(shè)定一個(gè)特定的損失函數(shù)來讓CNN 優(yōu)化。這些方法的本質(zhì)其實(shí)都是從像素到像素的映射。“翻譯”常用于語言之間的翻譯，就比如中文和英文的之間的翻譯。但是圖像翻譯的意思是以不同形式在圖與圖之間轉(zhuǎn)換。比如，一張場景可以轉(zhuǎn)換為RGB 全彩圖，也可以轉(zhuǎn)化成素描，也可以轉(zhuǎn)化為灰度圖。一張夜景圖也可以轉(zhuǎn)化為這個(gè)地方的日景圖。本文在GAN 的基礎(chǔ)上提出一個(gè)通用的方法：pix2pixHD 來解決行人圖像翻譯問題。該網(wǎng)絡(luò)采用一種完全監(jiān)督的方法，即利用完全配對的輸入和輸出圖像訓(xùn)練模型，通過訓(xùn)練好的模型將輸入的圖像生成指定任務(wù)的目標(biāo)圖像。在訓(xùn)練階段，使用成對的行人姿態(tài)mask 和行人圖像訓(xùn)練pix2pixHD 網(wǎng)絡(luò)，在測試階段將行人姿態(tài)mask 輸入到訓(xùn)練好的pix2pixHD 網(wǎng)絡(luò)中，得到基于mask 姿態(tài)的行人圖像。

2 相關(guān)工作

大量研究者已經(jīng)利用對抗學(xué)習(xí)來做圖像到圖像翻譯[9]，其目標(biāo)在于翻譯一個(gè)輸入圖像從一個(gè)域到另一個(gè)域，給定輸入-輸出圖像對來作為訓(xùn)練數(shù)據(jù)。相較于常使得圖像模糊的L1損失，對于大多圖像到圖像的任務(wù)adversarial loss 已經(jīng)變得流行起來。因?yàn)榕袆e器能夠?qū)W到一個(gè)新的可訓(xùn)練的損失函數(shù)并且自動(dòng)地適應(yīng)目標(biāo)域中生成的和真實(shí)的圖片之間的差異。從另一方面來說，圖像到圖像翻譯的出現(xiàn)在某種程度上是占了卷積神經(jīng)網(wǎng)絡(luò)的天時(shí)，卷積神經(jīng)網(wǎng)絡(luò)所帶來的對圖像特征的高層特征的抽取使得風(fēng)格和內(nèi)容的分離成為了可能。pix2pix 網(wǎng)絡(luò)[1]提出了藝術(shù)風(fēng)格的神經(jīng)網(wǎng)絡(luò)算法可以將圖像的內(nèi)容和圖像的自然風(fēng)格分離和再合并，它不再輸入隨機(jī)噪聲，而是輸入用戶給的圖片，但該網(wǎng)絡(luò)需要成對的訓(xùn)練圖像。CycleGAN 網(wǎng)絡(luò)[2]通過使用成對的生成器和判別器，添加一致性損失函數(shù)，先將源于上的圖像轉(zhuǎn)換到目標(biāo)域中，再將轉(zhuǎn)換后的圖像還原為原始的圖像。解決了在沒有成對圖像的基礎(chǔ)上，將源域圖像轉(zhuǎn)化為目標(biāo)域圖像的問題。pix2pixHD 網(wǎng)絡(luò)[3]采取了金字塔式的方法，先輸出低分辨率的圖片。將之前輸出的低分辨率圖片作為另一個(gè)網(wǎng)絡(luò)的輸入，然后生成分辨率更高的圖片。本文將采用pix2pixHD 網(wǎng)絡(luò)，實(shí)現(xiàn)根據(jù)行人姿態(tài)mask 到行人圖像的生成。

3 pix2pixHD 網(wǎng)絡(luò)結(jié)構(gòu)

圖1 pix2pixHD

3.1 生成器結(jié)構(gòu)

如圖1所示，生成器由G1和G2兩部分組成，其中G2又被割裂成兩個(gè)部分。G1和pix2pix 的生成器沒有差別，就是一個(gè)端到端的U-Net 結(jié)構(gòu)。G2的左半部分提取特征，并和G1的輸出層的前一層特征進(jìn)行相加融合信息，把融合后的信息送入G2的后半部分輸出高分辨率圖像。首先在低分辨率圖像上訓(xùn)練殘差網(wǎng)絡(luò)G1，然后，G2接在G1的后面，在高分辨率圖像上這兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。

G1 為全局生成網(wǎng)絡(luò)，G2 為局部提升網(wǎng)絡(luò)。生成器由G={G1，G2}組成，全局生成器網(wǎng)絡(luò)在一張1024×512 分辨率上進(jìn)行操作，局部提升網(wǎng)絡(luò)輸出一個(gè)比之前（每張圖片維度的2倍）的輸出多4倍的一張圖。在一個(gè)很高的分辨率上進(jìn)行圖像合成。其全局生成網(wǎng)絡(luò)由三個(gè)部分組成：一個(gè)卷積前向到端部分，一系列的殘差結(jié)構(gòu)，和一個(gè)反卷積后向到端部分。一個(gè)分辨率為1024×512的語義標(biāo)簽圖連續(xù)經(jīng)過這三個(gè)部分生成一個(gè)1024×512的圖像。

局部提升網(wǎng)絡(luò)也由3個(gè)部分組成：一個(gè)卷積前向到端部分，一系列的殘差結(jié)構(gòu)和一個(gè)反卷積后向到端部分。G2的輸入標(biāo)簽圖的分辨率是2048×1024，和全局生成器網(wǎng)絡(luò)不同，殘差塊的輸出是兩個(gè)特征圖的對應(yīng)元素之和：卷積前向到端部分的輸出特征圖和全局生成器網(wǎng)絡(luò)中的最后一層特征圖。這有助于整合G1的全局信息到G2。

3.2 判別器結(jié)構(gòu)

判別器使用多尺度判別器，在三個(gè)不同的尺度上進(jìn)行判別并對結(jié)果取平均。判別的三個(gè)尺度為：原圖，原圖的1/2降采樣，原圖的1/4降采樣。將判別器分別稱為D1，D2，D3。具體來說，我們對真實(shí)圖像和合成圖像進(jìn)行2倍和4倍的下采樣來創(chuàng)造3個(gè)尺度的圖像金字塔，判別器D1、D2和D3分別由這三個(gè)不同尺寸的不同真實(shí)和合成圖像進(jìn)行訓(xùn)練，雖然判別器的結(jié)構(gòu)都相同，但是最粗糙的尺度的那個(gè)有最大的感受野。這有著更多的圖像全局視角信息，能夠引領(lǐng)生成器生成全局一致的圖像。另一方面，最精細(xì)尺度的判別器鼓勵(lì)生成器能夠生成更加精細(xì)的細(xì)節(jié)。這也使得訓(xùn)練由粗到細(xì)的生成器更加容易。

3.3 損失函數(shù)

pix2pixHD 網(wǎng)絡(luò)中使用了三個(gè)判別器，每個(gè)判別網(wǎng)絡(luò)分的輸入是不同尺度的圖片，原始的GAN 變成了一個(gè)多任務(wù)的GAN，因此GAN loss 如式（1）所示：

pix2pixHD 也加入了特征匹配技術(shù)，將生成的樣本和真實(shí)樣本分別送入判別器D 網(wǎng)絡(luò)中除了輸出層以外的所有層的特征圖都拿過來對特征做Element-wise loss。因此其特征匹配損失函數(shù)如式（2）所示：

式中，k 表示第k 個(gè)D 網(wǎng)絡(luò)；i 表示D 網(wǎng)絡(luò)中的第i 層；s 表示待轉(zhuǎn)換圖片；x 表示轉(zhuǎn)換目標(biāo)圖片；G（s）表示G 網(wǎng)絡(luò)生成的目標(biāo)圖片。

加入特征匹配損失函數(shù)后，pix2pixHD 的損失函數(shù)如式（3）所示，其中λ 為特征匹配損失函數(shù)的權(quán)重：

4 實(shí)驗(yàn)

在網(wǎng)絡(luò)的訓(xùn)練階段，將行人姿態(tài)mask 輸入到pix2pixHD 網(wǎng)絡(luò)的生成器G 中用于生成行人圖像。pix2pixHD 網(wǎng)絡(luò)的判別器D用于判斷行人圖像為真實(shí)的行人圖像還是生成的行人圖像。通過pix2pixHD 網(wǎng)絡(luò)的生成器和判別器進(jìn)行聯(lián)合訓(xùn)練，生成器和判別器不斷博弈，優(yōu)化。最終在測試階段，只需輸入行人姿態(tài)mask，pix2pixHD 生成器G 便能生成逼真的行人圖像。由于Market1501等行人數(shù)據(jù)集中只有低分辨率的行人圖像，沒有高分辨率的行人圖像，因此在實(shí)驗(yàn)過程中，我們的高分辨率圖像和低分辨率圖像是同一張低分辨率的行人圖像。經(jīng)過兩個(gè)生成器后，我們可以看到生成的行人圖像雖然分辨率不高，但是生成的行人圖像的細(xì)節(jié)性更好。在參數(shù)設(shè)置中，我們將特征匹配損失函數(shù)的權(quán)重λ 設(shè)置為10。batchsize 設(shè)置為32。實(shí)驗(yàn)表明epoch 為104時(shí)，在測試階段，pix2pixHD 生成的行人圖像逼真，視覺效果最佳。圖2為pix2pixHD 訓(xùn)練階段的實(shí)驗(yàn)結(jié)果，圖3為測試階段的實(shí)驗(yàn)結(jié)果。

圖2 pix2pixHD訓(xùn)練階段的實(shí)驗(yàn)結(jié)果

圖3 pix2pixHD測試階段的實(shí)驗(yàn)結(jié)果

5 結(jié)束語

本文使用了pix2pixHD 網(wǎng)絡(luò)實(shí)現(xiàn)了行人姿態(tài)mask 到行人圖像的翻譯。通過該網(wǎng)絡(luò)我們可以生成具有目標(biāo)姿態(tài)mask 的不同屬性性質(zhì)的行人圖像。該網(wǎng)絡(luò)實(shí)現(xiàn)了多尺度生成器-判別器結(jié)構(gòu)，通過用了一種最新的生成損失adversarial loss 和特征匹配損失函數(shù)以用于提高行人細(xì)節(jié)的生成，從而使生成的行人視覺效果更加逼真。