










摘要:目前基于GAN的手繪草圖圖像翻譯工作處于起步階段,分析了草圖圖像翻譯面臨的挑戰性問題,從無控制和精細控制的草圖圖像翻譯兩個方面對基于GAN的草圖圖像翻譯研究工作進行分析,并對生成圖像的評估方法進行總結。基于已有研究工作的總結歸納,對該領域未來可能的發展趨勢進行了展望,為該領域研究人員拓展研究思路提供了線索。
關鍵詞:手繪草圖;圖像翻譯;生成式對抗網絡;圖像合成;解耦
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2022)08-002-2249-08
doi:10.19734/j.issn.1001-3695.2022.01.0027
Research on freehand sketch to image translation based on generative adversarial networks
Wang Jianxin1a,Shi Yingjie1b,Liu Hao1c,Huang Haiqiao1d,Du Fang2
(1.a.School of Arts amp; Sciences,b.School of Business,c.Fashion Accessory Art amp; Engineering College,d.School of Fashion,Beijing Institute of Fashion Technology,Beijing 100029,China;2.School of Information Engineering,Ningxia University,Yinchuan 750021,China)
Abstract:At present,sketch to image translation based on GAN is in its infancy.This paper analyzed the challenging problems on sketch to image translation,and summarized the work based on GAN from two aspects of uncontrolled sketch to image translation and finely controlled sketch to image translation.This paper also summarized the method of evaluating generative image.Based on the summary of the existing research,this paper proposed the possible future development trends in this field,which provides clues for researchers to expand their research ideas.
Key words:freehand sketch;image to image translation;generative adversarial network(GAN);image synthesis;disentanglement
0引言
繪畫是自人類早期就開始的一項重要藝術活動,如原始人類可以通過稀疏草圖描繪狩獵活動的主要獵物。手繪草圖反映了人類大腦對現實世界的視覺感知,任何人都可以通過手繪草圖來表達自己的想法并輔助交流。從古至今,手繪草圖一直是人類可視化物體或場景最直接快速的手段。因此,針對手繪草圖的研究在計算機視覺領域很受關注。早期人們對草圖的研究主要集中在草圖識別、基于草圖的圖像檢索、基于草圖的3D形狀檢索等領域,隨著深度學習技術的發展,出現了一些新的研究課題,如合成草圖、深度草圖哈希、實例級草圖的圖像檢索等。近年來圖像翻譯領域出現了風格遷移和超分辨率等研究成果,對手繪草圖的圖像翻譯引起了學術界和工業界的廣泛關注。圖像翻譯是指將一種類型的圖像轉換成另一種類型的圖像,本質上是兩個不同圖像域之間的相互轉換,例如冬天場景圖像轉換成夏天場景圖像,語義圖像轉換成真實圖像,草圖轉成真實彩色圖像等。手繪草圖圖像翻譯是指將人類手繪風格的筆畫稀疏、抽象并帶有一定噪聲的草圖轉換成既忠實于草圖所繪內容,又在視覺上具有真實感的圖像[1]。傳統的基于草圖的圖像翻譯通過圖像檢索實現[2,3]:根據草圖給定的對象和背景,從大規模的圖像數據集中搜索與之對應的圖像塊,再將這些圖像塊融合在一起。這種方法的缺點是不能生成全新的圖像。近年來生成式深度學習尤其是生成式對抗網絡(GAN)[4]的迅速發展,使得基于GAN草圖的圖像翻譯成為可能。由于手繪草圖區別于普通圖像的特質,導致目前基于GAN的手繪草圖圖像翻譯面臨著挑戰性問題:a)手繪草圖筆畫稀疏、抽象,導致手繪草圖圖像翻譯需要矯正變形的筆畫和增加更多的細節;b)一一對應的草圖圖像數據較少,從而導致訓練模型缺乏足夠的數據;c)手繪草圖風格多樣且難以模仿,導致使用擴充的草圖訓練的模型不能在真實的手繪草圖上泛化。
基于草圖的圖像翻譯可以在實際應用場景中幫助用戶創建或設計新穎的圖像,是展示人們創造力和交流想法的有效途徑之一。在設計領域,草圖圖像翻譯可以幫助設計師快速直觀地可視化設計產品。設計師可以通過彩色的線條或者輪廓內填充不完全的彩色塊為草圖區域指定顏色紋理,草圖翻譯系統根據這些指導信息生成與其風格相近真實圖像,為設計師提供有力的設計參考。在電商領域,草圖翻譯系統將用戶繪制的需求產品草圖翻譯成真實的商品圖像,一方面可幫助用戶有效搜索出相似的線上商品,從而增強消費體驗;另一方面可為商家分析用戶需求提供重要的數據支撐,從而有效促進線上商品的成交量。此外,手繪草圖的圖像翻譯在其他領域也可大顯身手:從稀疏的草圖生成逼真的人類面部圖像,可以幫助沒有任何繪畫基礎的目擊證人更好地描繪犯罪嫌疑人的特征,從而幫助公安機關抓捕,如圖1[5]所示;在影視拍攝領域,編劇或者導演可以根據自己的想象繪制人物角色草圖,通過生成逼真的人臉圖像對比選擇更適合的演員;在圖像編輯領域,可以通過草圖來編輯人的面部輪廓、頭發、胡須、褶皺等,結合風格遷移技術改變妝容膚色,如圖2[6]所示。
1手繪草圖圖像翻譯的挑戰
從草圖生成逼真的圖像并不是一項簡單的任務,合成圖像需要忠實于給定的草圖,同時保持真實性和語義連貫性。手繪草圖描繪了對象的近似邊界和內部輪廓,是一個特殊的數據域,而真實圖像則精確地對應對象的邊界并且像素密集,因此手繪草圖到圖像的翻譯是典型的跨模態轉換問題。基于GAN的圖像翻譯是以數據驅動的,訓練過程需要大規模的草圖和圖像數據,而收集人類手繪草圖難度大、成本高,導致可直接使用的草圖數據較少,這是基于GAN的手繪草圖圖像翻譯必須解決的問題。
1.1手繪草圖抽象且多樣化
手繪草圖是一種生動的數據形式,其特點是簡潔抽象,而自然圖像像素密集,兩者有著本質的區別。首先,手繪草圖是抽象的,筆畫稀疏、色彩單一,非專業繪畫人士一般會用比較少的筆畫描繪事物;其次,草圖是多樣化的,不同的人有不同的繪畫風格,如圖3所示,針對同一雙鞋子不同人繪制的草圖完全不同;最后,手繪草圖通常帶有一些冗余和嘈雜的筆觸,從而使得草圖帶有一定的噪聲。手繪草圖與圖像屬于不同的數據域,手繪草圖圖像翻譯是跨域模態轉換問題,而一般的圖像到圖像翻譯是單模態任務,并且在翻譯過程中結合了像素對應[7]類似的硬條件,這使得輸出與輸入邊緣嚴格對齊。與一般圖像翻譯相比,手繪草圖圖像翻譯有其自身的特點。首先,手繪草圖筆畫未與對象邊界精確對齊且顏色單調,因此轉換過程中需要矯正筆畫形變和上色;其次,草圖不包含關于背景和細節的更多信息,因此生成模型必須自己插入更多信息;最后,草圖筆畫包含的細節特征,模型必須學會處理它們,例如圖3[8]中草圖筆畫描繪的鞋子表面上的金屬裝飾。
1.2成對手繪草圖數據缺乏
手繪草圖圖像翻譯屬于跨模態轉換,訓練模型需要手繪草圖和圖像兩類數據。表1總結了現有草圖圖像翻譯研究工作所使用的數據集,其中包含兩種模態的數據集有Sketchy database[9]、ShoeV2[8]和ChairV2[8],其他數據集只包含真實圖像或者草圖。對于不包含草圖的數據,研究人員采用特定方法進行擴充,草圖擴充方法如表2所示;只包含草圖的數據采用草圖圖像嵌入方法選擇與收集的圖像最相近的草圖作為數據擴充。
1.3人類手繪草圖模仿困難
目前公開數據集中成對的草圖圖像數據較少,一些研究工作通過雇傭人工繪制草圖[5,46],此類方法的草圖圖像翻譯效果較好,然而人工繪制草圖的成本比較高,并不適用于大規模的草圖數據集生成。為此,研究人員提出各種方法來擴充草圖數據,然后使用擴充的草圖和圖像進行訓練,如表2所示。擴充草圖的方法可分為三類:a)提取真實圖像的邊緣圖作為草圖,如使用整體嵌套邊緣檢測(HED)[32]、XDoG[34]邊緣檢測器、FDoG[36]過濾器等,此類方法獲得的草圖細節依賴于閾值大小;b)使用圖像草圖翻譯網絡生成草圖,如Im2pencil[39]、Photosketching[41],此類方法生成的草圖能夠很好地捕捉目標輪廓,甚至精細描繪,但不能模仿普通用戶的稀疏抽象的手繪草圖;c)抽象筆畫來模仿手繪草圖,如對邊緣圖的筆畫進行隨機變形或者簡化線條以去除重復、潦草的邊,這類方法對原有的線條筆畫做比較小的改動。總的來說,目前已有的草圖擴充方法或者直接提取邊緣圖作為草圖,或者利用草圖翻譯網絡生成草圖,然而這些草圖不能模擬新手用戶稀疏的筆畫,研究新的草圖擴充方法或者提升模型到手繪草圖的泛化能力是草圖圖像翻譯的重點問題之一。
2基于GAN的草圖圖像翻譯方法
草圖圖像翻譯的目標是學習草圖到圖像的跨域圖像映射,根據對生成圖像的控制程度,可將已有的研究工作分成兩類:a)無控制的草圖圖像翻譯,目前大部分方法是利用配對數據或未配對數據的條件生成對抗網絡(CGAN)[47]解決問題;b)精細控制的草圖圖像翻譯,從草圖到圖像的映射本質上是多模態的,為了實現對輸出進行精細控制,研究人員提出了使用屬性和筆畫控制輸出的圖像。
2.1無控制的草圖圖像翻譯
草圖到圖像翻譯旨在學習兩個不同圖像域之間的轉換。按照訓練方式的不同,一般的草圖圖像翻譯可以分為基于監督的方法和無監督的方法兩類,如表3所示。通用的圖像翻譯框架要求成對的草圖和圖像,使用條件GAN對配對圖像進行一對一映射,此為監督學習的方法。無監督的基于GAN的草圖圖像翻譯方法使用一對GAN將圖像從源域映射到目標域,然后再將其返回到源域,允許使用未配對的數據進行訓練。
2.1.1基于草圖監督的方法
pix2pix[7]是一個通用的圖像翻譯框架,常被用來作為基線對比。但它不是專門針對草圖設計的,只有專業的寫實草圖甚至邊緣圖作為輸入時才能產生合理的結果,其翻譯過程是推斷筆畫之間缺失的紋理或陰影信息,因此當使用稀疏的手繪草圖作條件時,網絡不能產生很好的結果。圖像到圖像成模型通常無法用于草圖圖像生成,因為草圖和圖像之間的域差距很大,無法直接在視覺空間中進行逐像素對齊。pix2pixHD[48]也是圖像到圖像的轉換方法,可以生成分辨率為2 048×1 024的圖像,但它同樣不能處理手繪草圖問題。
手繪草圖作為一種通用的表達方式,其所描繪的內容包羅萬象。根據草圖翻譯生成的圖像對象可以分為生成多類別的圖像、生成發型人臉和生成場景級圖像,下面分別對這三類方法進行具體介紹。
1)生成多類別的圖像
2018年,Chen等人[1]提出了SketchyGAN,它訓練以草圖圖像對的類標簽為條件的編碼器—解碼器模型,是一種基于GAN的端到端的多模態合成方法,可以生成馬、沙發、摩托車等50個類別的對象。在生成器和判別器使用屏蔽剩余單元(MRU)塊來代替卷積層,通過掩碼輸入不同比例的圖像金字塔提取特征。同時為了鼓勵生成圖像的多樣性,提出一種多樣性損失,最大化具有不同噪聲向量的兩個相同輸入草圖的輸出之間的L1距離。同年,Lu等人[11]提出了另一種解決方案——ContextualGAN。其把草圖到圖像轉換問題,轉換成草圖作為上下文弱約束的圖像補全問題。通過使用聯合圖像來學習草圖和相應圖像的聯合分布,避免跨域學習中的復雜問題,這種方法也可用于圖像到草圖的生成。文獻[29]提出了從草圖到邊緣圖再到圖像的兩階段草圖圖像翻譯模型,通過引入特征間相關性學習可以使模型在無類別標簽下生成與類別一致的圖像。為了幫助新手用戶創建草圖對象,Ghosh等人[40]提出了iSketchNFill,它是基于交互式GAN的草圖到圖像的翻譯系統,引入了一種基于門控的類調節方法從單個生成器網絡生成籃球、雞肉、餅干、紙杯蛋糕等10類圖像。當用戶繪制所需對象類型的草圖時,系統會自動推薦筆畫反饋給用戶幫助其完成草圖,并根據類條件進行紋理填充。它由基于非圖像生成網絡的形狀完成階段[49]和基于MUNIT[50]的編碼器—解碼器模型的類條件外觀轉換階段組成,可以生成256×256分辨率的圖像。
總的來說,生成多類別的圖像往往需要大量的訓練數據,以上三種方法都提出了不同的草圖數據擴充辦法。但是它們擴充的草圖更加接近于真實圖像的邊緣圖,當使用稀疏抽象的真實人類手繪草圖時往往不能生成合理的圖像,如圖4[51]所示。此外,生成圖像的分辨率較低,如SketchyGAN[1]只能生成64×64分辨率的圖像。
2)生成發型人臉
毛發模擬是計算機圖形學的一個非常具有挑戰性的研究課題,因為它往往需要對數十萬根毛發進行模擬,同時要考慮毛發之間的運動特性和相互碰撞。隨著生成式深度學習的發展,研究人員將目光投向了基于GAN的毛發生成。HIS[46]提出了基于GAN的草圖到發型轉換的兩階段模型,同時構造了640對頭發面積限制在512×512以內的高分辨率的發型草圖圖像數據。該模型能夠輸入發型草圖或者低分辨率的頭發圖像產生逼真頭發圖像。具體來說,首先將發型草圖或者低分辨率的頭發圖像應用pix2pix[7]框架生成粗糙的發型圖像,然后將粗糙發型圖像輸入具有自增強能力的再生網絡生成高質量的結果。其中的自增強能力是由作者提出的結構提取層,從頭發圖像中提取紋理和方向圖,從而生成更精細的紋理和發絲。
人臉相關問題一直都是計算機視覺應用領域研究的重點,如人臉識別、人臉檢測等。同樣在生成式深度學習的各項任務中,合成人臉一直都是研究人員關注的熱點。Xia等人[18]提出了Cali-Sketch,其是基于草圖的人像合成的兩階段網絡。具體來說,第一階段筆畫校準網絡負責將輸入的稀疏的草圖轉換為更詳細和校準的類似于邊緣圖的草圖。第二階段將精制的草圖用于圖像合成網絡,以獲得逼真的肖像圖像。文獻[38]使用隱碼向量來實現人臉圖像多模態的輸出,但是圖像分辨率僅為64×64。為了解決過度擬合草圖的問題,Gao等人[5]提出了DeepFaceDrawing,能夠生成分辨率為512×512的逼真圖像。其實驗采用高清人臉數據集,并通過對人臉圖像PS影印[35]加筆畫簡化[43]的方法擴充草圖。為了從粗糙稀疏的或不完整的草圖也能夠生成高質量的面部圖像,作者將擴充的草圖作為軟約束。具體是采用局部到全局方法,將人臉分為左眼、右眼、鼻子、嘴和面部剩余五個關鍵人臉組件部分,學習這些組件的特征嵌入。然后訓練深度神經網絡將嵌入的組件特征映射到逼真的圖像,同時使用流形投影來提高手繪草圖的生成質量和魯棒性。Li等人[20]提出了另一種解決方案——DeepFacePencil,它使用一個名為空間注意力池(SAP)的模塊,可以自適應地調整生成圖像的真實性和生成圖像與輸入草圖之間的一致性之間的空間變化平衡。其網絡使用雙生成器框架,來促進SAP感知局部不夠真實完美的筆畫,并將合成的面部區域從不完美的筆畫修正為逼真的圖像域。pSp[22]是一個通用的圖像翻譯框架,它將編碼器與StyleGAN2[52]解碼器相結合,可應用于草圖到圖像的轉換,且能夠實現多樣化的輸出,而不止是生成正面人臉圖像。但是草圖幾何被編碼在潛在代碼中,由pSp生成的人臉通常不會忠實地尊照輸入草圖,它采用的風格混合操作也會不利地影響合成真實幾何形狀的面部。
總的來說,目前絕大部分工作是生成正面人臉圖像,利用人臉的固定結構可以生成高質量的圖像。未來,探索其他屬性比如頭部姿勢和照明,以及如何克服草圖語義的模糊性生成準確的頭發、背景、頸部等的邊界是具有挑戰性的工作。
3)生成場景級圖像
與單個對象的圖像不同,場景級的圖像結構復雜,涉及多個對象和復雜的背景關系。為此,Gao等人[25]提出了SketchyCOCO,專注于從手繪草圖生成整個場景的圖像。由于草圖繪制的粗糙程度不同,它將草圖分為前景和背景兩部分順序生成圖像。前景是指數據集中的鹿、斑馬、大象等動物,背景是指草地、藍天、樹木等。前景生成的目的是盡可能符合用戶的要求,背景部分生成與草圖對齊。針對前景草圖的抽象性和差異性,作者設計了新的神經網絡算法 EdgeGAN,在訓練階段不需要成對的手繪草圖和圖像而僅使用圖像以及對應的邊緣圖。具體做法是將前景和對應的邊緣圖輸入網絡,學習圖像和邊緣圖的公共屬性向量表示,最后通過輸入草圖的屬性向量映射到對應的圖像。背景部分的圖像生成則用pix2pix[7]架構完成,把生成的前景圖像和背景草圖一起送入網絡可以生成分辨率為128×128和256×256的場景級圖像。
草圖到場景級圖像的合成研究成果比較少,現有工作生成的圖像分辨率較低。對于數據集構建的相關技術問題,依賴于更先進的草圖分割技術來處理抽象的草圖。
此外,文獻[31]使用雙層級聯的GAN來生成分辨率更高紋理豐富的圖像,可以生成貓和花卉類圖像。針對手繪草圖稀缺的問題,作者提出了移動最小二乘的策略來對提取的邊緣圖輪廓進行變形來模擬手繪草圖的風格。文獻[33]專注于中國少數民族服飾的草圖圖像翻譯,針對服飾特點設計服飾圖案輪廓提取方法,并根據草圖風格的特點對邊緣圖處理以模仿草圖。總的來說,以上兩種方法生成的圖像還不夠真實,無法處理帶有密集筆畫或者夸張線條的草圖。
2.1.2基于草圖無監督的研究方法
由于成對的數據獲取難度大成本高,研究人員開發了一系列無監督的方法來實現圖像翻譯。在通用的圖像翻譯領域,CycleGAN[53]是基于無監督的圖像翻譯方法,之后MUNIT[50]將圖像數據分為內容部分和風格部分,從不同的數據空間采樣進行重構實現圖像域之間的多對多映射;U-GAT-IT[54]提出一個注意力模塊引導注意力圖區分源域和目標域,AdaLIN函數引導模型能更加靈活地控制形狀和紋理的變化。然而以上方法都不是專門針對草圖圖像翻譯的方法,無法有效處理稀疏的幾何變形的人類手繪草圖。US2P[28]是采用不成對的草圖圖像數據的兩階段無監督模型,同時可以生成多樣化的逼真的圖像。首先通過循環一致性損失[53]的監督將輸入草圖轉換為灰度圖像,然后利用單獨的GAN模型進行基于樣本的著色,下面具體介紹這兩個階段。
第一階段進行形狀翻譯,用來處理草圖的空間形變,包括抽象線條和多變的繪畫風格。此階段使用的數據是未配對的草圖和灰度圖,包括草圖到灰度圖和灰度圖到草圖兩對映射,使用循環一致性損失監督,類似于CycleGAN[53]的模型。針對草圖的特殊性,存在密集的無用筆畫或細節噪聲而引入了自監督和注意力模塊。自監督模塊用來將噪聲草圖恢復成原始的干凈草圖,如圖5[28]所示。由于草圖空白的區域大,使用注意力模塊來重新加權注意力圖來抑制激活密集筆畫區域,進而忽略噪聲干擾,如圖6[28]所示。第二階段稱為內容豐富,網絡將灰度圖生成包含細節的彩色圖像。此階段使用配對的灰度圖和圖像進行訓練可以提供參考圖像作為樣式指導,并遵循 AdaIN[55]通過調整特征圖來使輸出多樣化。
由于形狀轉換網絡是雙向的,從草圖轉換為灰度圖和從灰度圖轉換為草圖,所以US2P[28]可以將圖像轉換為草圖,還可以應用到基于草圖的無監督檢索。總體上來說,US2P[28]只關注鞋和沙發兩類數據,且草圖數據量較少,生成的圖像分辨率僅為128×128。由于成對的手繪草圖圖像很難獲得,未來突破循環一致性損失的瓶頸,探索更先進的無監督方法是解決草圖圖像翻譯難點。
2.2精細控制的草圖圖像翻譯
雖然以上部分工作支持多模態的圖像生成,但是生成圖像的屬性、風格等均不可控。為了讓用戶更好地對輸出進行精細控制,研究人員進一步提出了一系列方法,如表4所示。已有研究工作控制的具體對象包括圖像屬性和筆畫。
2.2.1圖像屬性控制
圖像屬性控制是指將需要翻譯的圖像分解為幾個視覺屬性,對每一個屬性,設計相應的模塊進行控制生成圖像。其中,圖像的紋理風格能更好地幫助用戶指定期望的目標,為此,研究人員做了一些基于范例的圖像翻譯方法的研究工作。
基于范例的圖像翻譯是指將圖像(如語義分割圖、人體骨骼關鍵點、邊緣圖等)按照指定風格(顏色、紋理等)參考圖像進行圖像翻譯。網絡接收源域圖片時也接收一張與其具有相似語義信息的目標域的范例圖片,它具有用戶期望的目標風格,網絡將這兩個圖像同時作為條件學習輸出符合指定風格的圖片。CoCosnet[61]提出一個基于范例的圖像翻譯的框架,方法是建立輸入圖及范例圖之間的密集語義對應,以此定位輸入圖在范例中相應位置的顏色和紋理信息,使生成的圖像風格與范例中物體對應,可以應用到圖像編輯和人臉上妝。RBNet[62]利用參考圖像給草圖或者邊緣圖上色。此外,文獻[59]提出一種基于藝術風格范例的草圖圖像翻譯方法,可以生成分辨率為512×512高質量圖像。其采用的是SketchyGAN[1]中的數據擴充方法構建草圖,同時論文中展示了網絡也可以生成人體圖像。但以上方法都不是針對人類手繪草圖生成真實圖像的方法。
為了實現可控的頭發操作,MichiGAN[15]提出了交互式人像頭發圖像生成方法,專為以解耦屬性(包括形狀、結構、外觀和背景)為條件的肖像照片生成逼真的頭發圖像。其交互式系統還可以通過參考人像或者繪畫對圖像進行局部和細節的編輯。文獻[45]也是一種交互式方法可以合成圖像中頭發和胡須。DeepFaceEditing是Chen等人[16]的最新成果,是一種專為人臉圖像設計的結構化解纏框架,通過幾何和外觀的解纏控制來實現人臉生成和編輯。具體做法是采用局部到全局的方法來合并人臉,局部組件圖像被分解為幾何和外觀表示,最后再對其進行全局融合,最終生成高質量的圖像。它的原理是利用草圖提取幾何表示,因此支持通過草圖編輯人臉圖像。由此產生的方法既可以從人臉圖像中提取幾何和外觀表示,也可以直接從人臉草圖中提取幾何表示。Liu等人[23]提出了SSS2I,是一種基于范例的帶有手繪草圖的圖像合成方法。為解決成對手繪草圖圖像的缺失問題,作者提出一種基于GAN的域轉移無監督模型TOM。模型將草圖合成視為由RGB圖像域R映射到線草圖域S圖像域轉移問題,通過在線特征匹配為每個圖像合成多個草圖。以風格范例為導向的草圖到圖像生成主要由兩部分組成,第一階段把草圖轉換為彩色圖像,第二階段使用對抗網絡進一步細化彩色圖片細節,提高分辨率和合成質量。首先使用合成的配對數據,通過自監督的自編碼器(AE)[57]來將草圖和RGB圖像的內容和風格特征分離。具體來說,先把圖片進行風格編碼提取風格特征,然后把草圖進行內容編碼提取內容特征,通過一個簡單的風格分類器來讓提取后的風格和內容進一步解耦,然后將兩者輸入給生成器,將草圖轉換為圖片。再把轉換后的圖片經過另一個生成器,進一步地細化圖片的分辨率和風格。
2.2.2筆畫控制
在毛發生成方面,研究人員認為帶有顏色的筆畫能夠為圖像生成提供屬性指導。BHS[45]使用一組類似草圖的“引導筆畫”來描述要合成的頭發的局部形狀和顏色,同時更加方便交互。編輯一個提取毛發信息的矢量場,使用相對較少的用戶輸入調整發型的整體結構,通過合成的引導筆劃來簡單地編輯、添加或刪除單個筆畫來實現最終圖像形狀和顏色的細微局部變化。Fu等人[6]認為彩色頭發草圖已經隱含了目標頭發形狀和頭發外觀信息,為此提出了SketchHairSalon一個新穎的網絡框架。該框架可以直接從一組彩色筆畫合成512×512分辨率的逼真頭發圖像,它由使用了自注意力模塊的草圖到亞光(S2M-Net)生成和草圖到圖像(S2I-Net)生成兩部分網絡組成。同時為了訓練網絡,作者構建了一個新數據集,包含數千個帶人工注釋的頭發草圖圖像對和相應的頭發遮罩。其設計界面如圖2所示,包括頭發結構定制、頭發形狀優化、頭發的外觀定制、自動完成草圖等功能。由于訓練高質量的生成模型需要大規模的數據集和高性能的計算平臺,且訓練耗時通常較長。文獻[60]提出了一種用少量草圖示例定制生成模型的方法,利用在大規模數據上預先訓練的生成模型,通過草圖來指定對象的形狀和姿勢,同時保持真實性和多樣性。其原理是設計了一種跨域模型微調的方法來調整模型權重的子集以匹配用戶草圖,使新模型創建類似于用戶草圖的圖像,同時保留預訓練模型的顏色、紋理和細節。
目前的研究成果主要是對毛發和人臉兩個任務做精細控制,算法針對性強,不適用于其他任務的草圖圖像翻譯控制。尤其在藝術設計領域,精細地控制生成的圖像或者圖像編輯能夠輔助設計師進行設計,具有非常好的商業價值,同時也非常具有挑戰性,是未來很有前景的研究方向。
3結果評估
評估生成模型的性能是一項復雜的任務,由于一些定量指標缺乏與人類感知的一致性[63],許多研究工作仍然依賴于定性的人工評價評估合成圖像的質量。對于特定任務或應用程序,評估不僅應基于最終圖像質量,還應考慮生成的圖像與條件輸入的匹配程度,以及服務于預期應用程序或任務。基于GAN的手繪草圖圖像翻譯的結果評估主要包含定性評估和定量評估兩類,如表5所示。
a)定性評估。常用的定性評估有感知研究、可用性研究、泛化能力比較、消融研究和與先進模型比較等方法。感知研究是邀請一些沒有受過專業繪畫訓練的人員來評價生成的圖像,通常以在線問卷的形式讓他們對生成的圖像進行評估,然后進行投票或者分數統計。可用性研究也是邀請一部分用戶實地體驗草圖翻譯系統,然后填寫問卷來評估可用性和有效性。泛化能力比較是訓練好模型后,使用稀疏的或者夸張變形的沒有繪畫經驗的人繪制的草圖測試模型生成結果,通常此類模型訓練時采用的數據多為邊緣圖或者接近邊緣圖的專業手繪草圖。以上的定性評估方法是最直接最有效的評估方式,也最能真實地反映模型生成圖片的質量。
b)定量評估。研究表明僅選擇一種指標來證明模型的有效性通常是不夠的,一般模型都使用以下指標的組合來更有效地衡量其性能。Fréchet inception distance(FID)[64]計算兩組之間的分布相似性,并作為生成圖像的多樣性和質量以及圖像與草圖的匹配程度的度量。較低的FID表示生成數據的分布更接近真實樣本的分布。結構相似性指數度量(SSIM)給出圖像與參考圖像的相對相似性分數,其中較低的分數表示生成圖像的多樣性較高(即模式崩潰較少)。學習感知圖像塊相似性(LPIPS)[65]使用從神經網絡中學習到的深度特征來評估圖像塊之間的感知相似性。IS(inception score)[66]是應用在ImageNet數據集上預訓練的inception模型來提取生成圖像的特征,并計算條件類分布和邊緣類分布之間的KL散度,更高的IS呈現更高質量的生成圖像。風格相關性(SR)[61]是利用低級感知特征的距離來衡量顏色和紋理的一致性。它檢查模型與輸入的風格一致性,并反映模型的內容或者風格分離性能。形狀相似度L2 Gabor feature[67]和結構相似性度量是用于評估生成的圖像和真實圖像的相似度的一種度量。文獻[5]針對草圖生成頭發使用絕對差異總和(SAD)[68]以評估頭發磨砂生成的準確性,同時使用聯合交集(IoU)對生成的遮罩和地面實況進行閾值處理來評估邊界區域的準確性。
部分評估指標展示了有效性,但是不同的評估方法適合于不同的模型。例如IS[66]評估圖像有局限性,且分數高低不能如實反映圖像的真實度。Fréchet inception distance[64]可評估與ImageNet不同的數據,但它們都不能反映過擬合的問題。SSIM[69]在圖像去噪、圖像相似度評價方面表現較好,是一個廣泛使用的圖像質量評價指標。
4結束語
基于GAN的手繪草圖圖像翻譯通過手繪草圖指定合成目標,從而實現可控制的圖像生成。在實際應用中,可以根據特定要求生成圖像。本文首先分析了手繪草圖圖像翻譯面臨的挑戰,并對相關工作和評價指標進行了總結和分析。目前基于GAN的手繪草圖圖像翻譯已有一些研究工作,但仍處于起步階段。人類手繪草圖復雜多變,描繪對象千變萬化,仍有很多有價值的問題亟待解決。
a)對人類手繪草圖數據擴充。由于缺乏草圖和圖像的大規模數據集,收集手繪草圖又非常耗時;而且針對不同描繪對象的草圖圖像翻譯通常需要不同的數據集,所以需要大規模的數據集訓練模型。現有的數據增強方法如基于全圖的增強(旋轉、移位),或者筆畫變形、筆畫加粗,都沒有考慮如何模仿人類的真實繪畫風格[70]。文獻[23]探索了一種無監督的方法合成草圖,解決了草圖數據缺乏的問題,但其合成的草圖更類似于專業的寫實風格。如圖7[51]所示,采用合成草圖訓練的模型無法在真實草圖上泛化,因此如何合成模仿人類多種真實繪畫風格的草圖,并縮小合成草圖和真實草圖之間的域差距[51],是未來研究工作的重點和難點。
b)精細控制生成的圖像。盡管大量的工作支持多模態的草圖圖像翻譯,但是具體紋理、顏色、材質特征等很難控制。基于范例的草圖圖像翻譯可以通過指定單個風格范例圖片來控制生成圖像的紋理和顏色等信息。未來參考多風格范例或者使用帶有顏色的筆畫來控制生成圖像的工作更具有商業價值,如可以減少動畫、電影和視頻游戲故事板中的重復工作。在藝術設計領域,如何表現物體的材質屬性而不單單是顏色,從而更好地輔助設計師進行創作也是未來很有探索價值的方向。
c)草圖到藝術風格圖像生成。目前,大多數研究工作都集中在從草圖合成逼真的自然照片圖像,藝術圖像與其他類型圖像的區別在于藝術風格的多樣性,這些藝術風格會影響草圖如何合成為全彩色的紋理圖像。文獻[59]研究了基于草圖的藝術風格(如印象派、現實主義等)圖像合成,局限是某些藝術風格的特征很難被模型學習,不能很好地平衡模型從草圖的語義特征和風格參考圖像中學習表示。將草圖轉換為藝術繪畫風格的圖像為推動深度神經網絡在捕捉和翻譯各種藝術風格方面的工作作出貢獻。未來,此項工作不僅可以用作娛樂應用,能夠讓用戶體會藝術繪畫創作的樂趣,提升藝術修養,而且可以從多個藝術風格合成圖像,輔助藝術家進行創意藝術創作。
參考文獻:
[1]Chen Wengling,Hays J.SketchyGAN:towards diverse and realistic sketch to image synthesis[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9416-9425.
[2]Chen Tao,Cheng Mingming,Tan Ping,et al.sketch2photo:Internet image montage[J].ACM Trans on Graphics,2009,28(5):1-10.
[3]Eitz M,Richter R,Hildebrand K,et al.Photosketcher:interactive sketch-based image synthesis[J].IEEE Computer Graphics and Applications,2011,31(6):56-66.
[4]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proc of the 28th Conference on Neural Information Processing Systems.Cambridge:MIT Press,2014:2672-2680.
[5]Chen Shuyyu,Su Wanchao,Gao Lin,et al.Deepfacedrawing:deep generation of face images from sketches[J].ACM Trans on Gra-phics,2020,39(4):72:1-72:16.
[6]Xiao Chufeng,Yu Deng,Han Xiaoguang,et al.Sketchhairsalon:deep sketch-based hair image synthesis[J].ACM Trans on Graphics,2021,40(6):216:1-216:16.
[7]Isola P,Zhu Junyan,Zhou Tinghui,et al.Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1125-1134.
[8]Yu Qian,Liu Feng,Song Yizhe,et al.Sketch me that shoe[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:799-807.
[9]Sangkloy P,Burnell N,Ham C,et al.The sketchy database:learning to retrieve badly drawn bunnies[J].ACM Trans on Graphics,2016,35(4):119:1-119:12.
[10]Liu Ziwei,Luo Ping,Wang Xiaogang,et al.Deep learning face attri-butes in the wild[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:3730-3738.
[11]Lu Yongyi,Wu Shangzhe,Tai Y,et al.Image generation from sketch constraint using contextual GAN[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:205-220.
[12]Wah C,Branson S,Welinder P,et al.The Caltech-UCSD Birds-200-2011 dataset[EB/OL].(2011)[2022-01-01].http://www.vision.caltech.edu/datasets/cub_200_2011.
[13]Krause J,Stark M,Deng Jia,et al.3D object representations for fine grained categorization[C]//Proc of IEEE International Conference on Computer Vision Workshops.Washington DC:IEEE Computer Society,2013:554-561.
[14]Karras T,Laine S,Aila T.A style-based generator architecture for generative adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4401-4410.
[15]Tan Zhentao,Chai Menglei,Chen Dongdong,et al.MichiGAN:multi-input-conditioned hair image generation for portrait editing[J].ACM Trans on Graphics,2020,39(4):article No.95.
[16]Chen Shuyu,Liu Fenglin,Lai Yyukun,et al.Deepfaceediting:deep face generation and editing with disentangled geometry and appearance control[J].ACM Trans on Graphics,2021,40(4):90:1-90:15.
[17]Wang Xiaogang,Tang Xiaoou.Face photo-sketch synthesis and recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(11):1955-1967.
[18]Xia Weihao,Yang Yujiu,Xue Jinghao.Cali-sketch:stroke calibration and completion for high-quality face image generation from poorly-drawn sketches[EB/OL].(2019-11-01)[2022-01-13].https://doi.org/10.48550/arXiv.1911.00426.
[19]Lee C,Liu Ziwei,Wu Lingyun,et al.MaskGAN:towards diverse and interactive facial image manipulation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5548-5557.
[20]Li Yuhang,Chen Xuejin,Yang Binxin,et al.Deepfacepencil:creating face images from freehand sketches[C]//Proc of the 28th International Conference on Multimedia.New York:ACM Press,2020:991-999.
[21]Karras T,Aila T,Laine S,et al.Progressive growing of GANs for improved quality,stability,and variation[EB/OL].(2018)[2022-01-01].https://arxiv.org/abs/1710.10196.
[22]Richardson E,Alaluf Y,Patashnik O,et al.Encoding in style:a styleGAN encoder for image-to-image translation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:2287-2296.
[23]Liu Bingchen,Zhu Yizhe,Song Kunpeng,et al.Self-supervised sketch-to-image synthesis[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Menlo Park:AAAI Press,2021:2073-2081.
[24]Caesar H,Uijlings J,Ferrari V.Coco-stuff:thing and stuff classes in context[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1209-1218.
[25]Gao Chengying,Liu Qi,Xu Qi,et al.Sketchycoco:image generation from freehand scene sketches[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5174-5183.
[26]Eitz M,Hays J,Alexa M.How do humans sketch objects?[J].ACM Trans on Graphics,2012,31(4):article No.44.
[27]Ha D,Eck D.A neural representation of sketch drawings[EB/OL].(2017)[2022-01-01].https://arxiv.org/abs/1704.03477.
[28]Liu Runtao,Yu Qian,Yu S.Unsupervised sketch-to-photo synthesis[C]//Proc of the 16th European Conference on Computer Vision.Berlin:Springer,2020:36-52.
[29]宗雨佳.兩階段草圖至圖像生成模型與應用實現[D].大連:大連理工大學,2021.(Zong Yujia.A two-stage method and application implementation for image generation from sketch[D].Dalian:Dalian University of Technology,2021.)
[30]Nilsback M,Zisserman A.Automated flower classification over a large number of classes[C]//Proc of the 6th Indian Conference on Computer Vision,Graphics amp; Image Processing.Washington DC:IEEE Computer Society,2008:722-729.
[31]蔡雨婷,陳昭炯,葉東毅.基于雙層級聯 GAN 的草圖到真實感圖像的異質轉換[J].模式識別與人工智能,2018,31(10):877-886.(Cai Yuting,Chen Zhaojiong,Ye Dongyi.Bi-level cascading GAN-based heterogeneous conversion of sketch-to-realistic images[J].Pattern Recognition and Artificial Intelligence,2018,31(10):877-886.)
[32]Xie Saining,Tu Zhuowen.Holistically-nested edge detection[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:1395-1403.
[33]劉波.民族服飾草圖自動著色方法研究[D].昆明:云南師范大學,2020.(Liu Bo.Automatic coloring method for national costume sketches[D].Kunming:Yunnan Normal University,2020.)
[34]Winnem H,Kyprianidis,J E,Olsen S.Xdog:an extended difference-of-Gaussians compendium including advanced image stylization[J].Computers amp; Graphics,2012,36(6):740-753.
[35]Photocopy.Create filter gallery photocopy effect with single step in photoshop[EB/OL].[2022-01-01].https://www.youtube.com/watch?v=QNmniB_5Nz0.
[36]Kang H,Lee S,Chui C.Coherent line drawing[C]//Proc of the 5th International Symposium on Non-Photorealistic Animation and Rendering.New York:ACM Press,2007:43-50.
[37]Sketch master[EB/OL].[2022-01-01].http://www:ouyaoxiazai.corn/soft/txtx/108/8389.htm1.
[38]王鵬程.基于感知注意力和隱空間正則化的GAN在草圖到真實圖像的轉換研究[D].合肥:安徽大學,2020.(Wang Pengcheng.Research on GAN translation from sketch to real image based on perceptual attention and latent space[D].Hefei:Anhui University,2020.)
[39]Li Yijun,Chen Fang,Hertzmann A,et al.Im2pencil:controllable pencil illustration from photographs[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1525-1534.
[40]Ghosh A,Zhang R,Dokania P,et al.Interactive sketchamp;fill:multi-class sketch-to-image translation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1171-1180.
[41]Li Mengtian,Lin Zhe,Mech R,et al.Photosketching:inferring contour drawings from images[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2019:1403-1412.
[42]AutoTrace[EB/OL].[2022-01-01].http://autotrace.sourceforge.net/.
[43]Simo-Serra E,Iizuka S,Sasaki K,et al.Learning to simplify:fully convolutional networks for rough sketch cleanup[J].ACM Trans on Graphics,2016,35(4):121:1-121:11.
[44]Kyprianidis J E,Kang H.Image and video abstraction by coherence-enhancing filtering[J].Computer Graphics Forum,2011,30(2):593-602.
[45]Olszewski K,Ceylan D,Xing Jun,et al.Intuitive,interactive beard and hair synthesis with generative models[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:7446-7456.
[46]Qiu Haonan,Wang Chuan,Zhu Hang,et al.Two-phase hair image synthesis by self-enhancing generative model[J].Computer Gra-phics Forum,2019,38(7):403-412.
[47]Mirza M,Osindero S.Conditional generative adversarial nets[EB/OL].(2014)[2022-01-01].https://arxiv.org/abs/1411.1784.
[48]Wang Tingchun,Liu Mingyu,Zhu Junyan,et al.High-resolution image synthesis and semantic manipulation with conditional GANs[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8798-8807.
[49]Mescheder L,Geiger A,Nowozin S.Which training methods for GANs do actually converge?[C]//Proc of the 35th Annual International Conference on Machine Learning.New York:ACM Press,2018:3478-3487.
[50]Huang Xun,Liu Mingyu,Belongie S,et al.Multimodal unsupervised image-to-image translation[C]//Proc of the 15th European Confe-rence on Computer Vision.Berlin:Springer,2018:172-189.
[51]Xiang Xiaoyu,Liu Ding,Yang Xiao,et al.Adversarial open domain adaption for sketch-to-photo synthesis[EB/OL].(2021)[2022-01-01].https://arxiv.org/abs/2104.05703.
[52]Karras T,Laine S,Aittala M.Analyzing and improving the image qua-lity of styleGAN[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8107-8116.
[53]Zhu Junyan,Park T,Isola P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2242-2251.
[54]Kim J,Kim M,Kang H,et al.U-GAT-IT:unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[EB/OL].(2020-04-08)[2022-01-01].https://arxiv.org/abs/1907.10830.
[55]Huang Xun,Belongie S.Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proc of IEEE International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2017:1510-1519.
[56]Fu Jun,Liu Jing,Tian Haijie,et al.Dual attention network for scene segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3146-3154.
[57]Kingma D P,Welling M.Auto-encoding variational Bayes[EB/OL].(2013-12-20)[2022-01-01].https://arxiv.org/abs/1312.6114.
[58]He Kaiming,Fan Haoqi,Wu Yuxin,et al.Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9729-9738.
[59]Liu Bingchen,Song Kunpeng,Zhu Yizhe,et al.Sketch-to-art:synthesizing stylized art images from sketches[C]//Proc of the 15th Asian Conference on Computer Vision.Berlin:Springer,2020:207-222.
[60]Wang Shengyu,Bau D,Zhu Junyan.Sketch your own GAN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:14030-14040.
[61]Zhang Pan,Zhang Bo,Chen Dong,et al.Cross-domain correspondence learning for exemplar-based image translation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5143-5153.
[62]Lee J,Kim E,Lee Y,et al.Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5800-5809.
[63]Lucic M,Kurach K,Michalski M,et al.Are GANs created equal?A large-scale study[C]//Proc of Annual Conference on Neural Information Processing Systems.Cambridge:MIT Press,2018:698-707.
[64]Heusel M,Ramsauer H,Unterthiner T,et al.GANs trained by a two time-scale update rule converge to a local Nash equilibrium[C]//Proc of Annual Conference on Neural Information Processing Systems.Cambridge:MIT Press,2017:6626-6637.
[65]Zhang R,Isola P,Efros A,et al.The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:586-595.
[66]Salimans T,Goodfellow I,Zaremba W,et al.Improved techniques for training GANs[C]//Proc of Annual Conference on Neural Information Processing Systems.Cambridge:MIT Press,2016:2226-2234.
[67]Eitz M,Richter R,Boubekeur T,et al.Sketch-based shape retrieval[J].ACM Trans on Graphics,2012,31(4):31:1-31:10.
[68]Li Yaoyi,Lu Hongtao.Natural image matting via guided contextual attention[C]//Proc of the 34th Conference on American Association for Artificial Intelligence.New York:AAAI Press,2020:11450-11457.
[69]Wang Zhou,Bovik A,Sheikh H,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans on Image Processing,2004,13(4):600-612.
[70]Xu Peng,Hospedales T,Yin Qiyue.Deep learning for free-hand sketch:a survey[J/OL].IEEE Trans on Pattern Analysis and Machine Intelligence.(2020-06-01)[2022-01-01].http://doi.org/10.1109/TPAMI.2022.3148853.
收稿日期:2022-01-13;修回日期:2022-03-12基金項目:國家自然科學基金資助項目(61502279,62062058);北京服裝學院重點科研項目(2021A-02);北京服裝學院青年拔尖人才培養計劃資助項目(YS22-1005096);北京市服裝產業數字化工程技術研究中心科研項目(KJCX20801-30299/016)
作者簡介:王建欣(1989-),女,河北唐山人,碩士研究生,主要研究方向為時尚大數據分析、圖像生成(1171618230@qq.com);史英杰(1983-),女,山東濱州人,副教授,碩導,博士,主要研究方向為云數據管理、時尚大數據管理與分析;劉昊(1979-),男,北京人,副教授,碩導,碩士,主要研究方向為智能交互與可穿戴產品開發;黃海嶠(1978-),男,北京人,副教授,碩導,博士,主要研究方向為服裝數字化、服裝大數據分析;杜方(1974-),女,寧夏銀川人,教授,碩導,博士,主要研究方向為智能信息檢索、大數據管理.