基于解耦內容-風格特征表示的圖像轉換研究進展

2023-06-12 07:57:50毛琪陳瀾

中國傳媒大學學報(自然科學版) 2023年2期

毛琪，陳瀾

（中國傳媒大學信息與通信工程學院，北京 100024）

1 引言

喚醒黑白相片，還原歷史色彩；重繪自然風景，打造藝術世界；勾勒動漫形象，打破“次元”壁壘……得益于計算機視覺的發展，各種智能圖像處理應用豐富和便利了人們的日常生活。早期，不同的圖像處理任務分別由特定的模型單獨完成，Isola 等人[1]在2016 年首次提出圖像到圖像轉換的概念（Image-to-Image translation,I2I），其目標是將圖像從一個圖像域轉換到另一個圖像域，其中圖像域定義為共享視覺特征的一類圖像。轉換過程期望圖像的風格特征滿足目標圖像域的分布，而圖像本身的內容特征保持不變。如圖1 所示，統一的圖像轉換模型可以解決包括語義圖像合成[2,3]、圖像增強[4]和風格遷移[5,6]等任務，是當前圖像合成領域研究的熱點之一。

圖1 圖像轉換應用舉例

與圖像轉換任務最具有相關性的任務是風格遷移[7]，如圖2（a）所示，風格遷移后的圖像期望能夠保持源圖像的內容，遷移參考圖像的風格。其中內容通常指輸入圖像的結構信息，風格通常指參考圖像的紋理與顏色信息；而圖像轉換中內容和風格的含義不固定，與數據集本身的特性有關。如圖2（b）所示，當源圖像域是風景照片，目標圖像域為藝術風格畫時，內容特征和風格特征與風格遷移任務相同；當源圖像域是男性，目標圖像域是女性時，內容特征是姿態、五官和臉型，而風格特征是頭發、妝容等；當源圖像域是貓，目標圖像域是狗時，內容特征是姿勢、朝向和表情，風格特征是顏色、形狀、毛發等。由此可見，圖像轉換任務的定義更加寬泛，其風格和內容的具體含義是通過數據集的學習得到的。一個更準確的定義是，內容特征指圖像轉換中的域不變（Domain-Invariant）特征，風格特征指圖像轉換中的域特定（Domain-Specific）特征。

圖2 神經風格遷移（左）與圖像轉換（右）對比示例

早期的圖像轉換模型[1,4]直接通過生成模型，隱式建模內容和風格特征的變換，轉換過程中保持輸入圖像內容特征不變，改變風格特征，給定輸入圖像只能得到唯一的輸出結果，極大地限制了圖像轉換過程中的可控性和多樣性。為了解決這個問題，Huang 等人[8]和Lee 等人[9]首次提出了基于解耦內容-風格特征表示的圖像轉換模型，對不同圖像域的風格和內容特征顯示建模，從而能夠實現基于樣例圖像引導和基于隨機風格向量引導的多樣且可控的圖像轉換，后續研究者們也沿著這個思想進行更深入地探索。

盡管目前的研究已經取得了很大的成功，但圖像轉換仍然存在很多未被清晰定義的問題，例如，如何構建一個更好的風格和內容特征的表示，如何更準確地評價圖像轉換的結果等。為了進一步挖掘模型的潛力，探究未來的改進方向，本文對基于解耦內容-風格特征表示的圖像轉換模型的研究現狀和進展進行綜述。本文的第2節首先對圖像轉換目前的主要研究問題和基于解耦內容-風格特征表示模型的基本框架進行簡要介紹；第3節對基于解耦內容-風格特征表示模型的發展脈絡以及研究現狀進行梳理；第4 節對圖像轉換任務中常見數據集和評價指標進行整理與歸類，并對經典模型進行定量與定性的對比和評價；第5節總結了此類模型的發展歷程，并對未來的發展方向進行思考和展望。

2 圖像轉換概述

圖像轉換的核心在于學習不同圖像域之間的映射，這與生成模型有很高的相關性。生成模型使用特定網絡結構來建模一類圖像的分布，從而可以采樣生成類似于樣本數據、服從同一分布的圖像。同樣地，在圖像轉換中，生成模型以損失函數為約束條件進行映射學習，使輸出符合目標域圖像的分布。在圖像轉換領域，變分自編碼器[25]（Variational Auto Encoder，VAE）和生成對抗網絡[26]（Generative Adversarial Net‐work，GAN）是最常用且最有效的生成模型。VAE 通過最大化對數似然下限來模擬數據分布，GAN 則試圖尋找生成器和鑒別器之間的納什平衡。

經過近些年的發展，圖像轉換模型從有監督到無監督（圖3a）、從一對一映射到一對多映射（圖3c）、從雙域到多域（圖3b），逐漸走向成熟和完善。表1 對部分經典的圖像轉換模型進行了梳理和歸納。最初，Isola 等人[1]提出的Pix2Pix 模型使用配對數據集建模映射函數，BicycleGAN[10]在此基礎上進行改進，使模型具有一對多映射的能力。由于構建不同域的配對圖像數據集難度大、代價高，Cycle‐GAN[4]、DiscoGAN[27]等模型提出循環一致性約束，在非配對數據集來建立域間的雙向關系。為了進一步使模型同時具有無監督訓練和多輸出的能力，Huang 等人[8]和Lee 等人[9]提出了基于解耦內容-風格特征表示的圖像轉換模型，開拓了圖像轉換模型的一個全新結構分支。

表1 圖像到圖像轉換經典模型概覽

表2 基于解耦內容-風格圖像轉換模型的常用損失函數

圖3 圖像轉換模型分類

當前圖像轉換的關鍵問題在于無監督的多域轉換和一對多映射。從表1可以看出，基于解耦內容-風格特征表示模型是有效且高效的解決方式。如圖4所示，在此模型中，圖像被嵌入到兩個隱空間：域間共享的內容空間和域內特定的風格（樣式、屬性）空間，分別用內容編碼和風格編碼表示。

圖4 基于解耦內容-風格特征表示的圖像轉換模型

具體而言，此類模型包含風格編碼器、內容編碼器、生成器和鑒別器。如圖4所示，以圖像域A到圖像域B 的轉換為例，生成器利用內容編碼cA和風格編碼sB，生成屬于B 域的圖像xA→B。其中，cA來自內容編碼器Ec，sB根據模型的不同，來自風格編碼器Es或先驗分布p(z)。表達式如公式（1）所示：

3 基于解耦內容-風格特征表示的圖像轉換算法研究現狀

從解耦的角度出發，內容特征和風格特征的提取與空間的構建是圖像轉換的關鍵，也是本文研究的重點。本文3.1 節和3.2 節分別梳理了此類模型在風格特征建模和內容特征建模上的改進與發展。

3.1 風格特征建模

直觀上，域特定空間中的風格編碼應具有多樣性、靈活性與可控性。以此為目的，風格空間的發展（圖5）主要從空間構建的角度出發，從雙域到多域、從分離到統一，取得了極大的進展。

圖5 風格特征的發展脈絡

MUNIT[8]和DRIT[9]是解耦內容-風格I2IT 模型的開篇之作。其核心有二：一是引入隨機風格向量，使模型可以進行一對多的轉換。DRIT[9]使用KL 損失（公式2）顯式地將風格編碼嵌入正態分布；MUNIT[8]則將從正態分布中采樣的向量作為輸入生成器的風格編碼，通過重建損失（公式3）使風格編碼器的輸出和采樣得到的向量達到一致。二是引入循環一致性損失，使模型可以利用非配對的圖像數據集。

然而，與圖像域一一對應的風格編碼器具有局限性，模型無法擴展應用到多域圖像轉換。為了解決此問題，Yu 等人[14]提出DMIT 模型，所有圖像域共用一個風格編碼器。如圖6（a）所示，域標簽作為風格編碼的域標識，與風格編碼在通道維度上拼接后輸入生成器。但是這種完全忽略域信息的風格編碼器在圖像域間差異較大時效果不佳。Lee 等人[5]在DRIT[9]的基礎之上，提出了使用統一風格編碼器的DRIT++。如圖6（b）所示，通過將域標簽和圖像共同作為輸入，風格編碼器可根據域標簽提取各域特有的風格特征。

圖6 多域轉換的風格編碼器

和DRIT++[5]不同，StarGAN-v2[17]在風格編碼器的輸出層采用多分支結構。如圖6（c）所示，域標簽用于選擇對應的輸出分支作為圖像的風格編碼。統一的風格編碼器不僅簡化了模型結構，還使其在多圖像域訓練中獲益，獲得更強的泛化能力。此外，Star‐GAN-v2[17]增加了同樣具有多分支輸出結構的映射網絡模塊。從先驗分布采樣的隨機向量不直接作為風格編碼，而是經由此網絡被映射到各域的風格空間后，由域標簽選擇對應維度的輸出。

映射網絡和風格編碼器輸出層分支結構的設計顯式地分離了不同域的風格編碼，使其更準確地捕捉到了域特定的風格特征，產生更多樣化的圖像。然而，分離的分布使模型不具備域間連續轉換的能力。為了解決此問題，Liu 等人[28]在StarGAN-v2[17]的基礎上加入了兩個和風格特征相關的損失項：公式（4）為三元組損失，其中，α為邊距常量，保證各域的風格向量相互分離的同時，控制域間的緊湊程度；sa、sp和sn為風格編碼，sn的所屬域不同于sa和sp；公式（5）為風格正則化，通過懲罰較大的風格編碼l2范式，風格空間以原點為中心收縮。其中，s表示風格編碼。

Mao 等人[22]則從編碼的角度出發，提出域共享的統一風格空間，利用符號操作對圖像域信息進行編碼，使得域間插值的風格編碼能夠產生合理的結果。如圖7所示，首先從高斯分布中采樣d×N維向量zp，其中N表示域的數量，d為每個域風格屬性向量的維度。其次根據域標簽構造有符號向量（Signed Attribute Vector，SAV）zs。然后使用最大均值差異（公式8）統一zs和風格編碼器的輸出z。zs和zp的計算公式如公式（6）、公式（7）所示：

圖7 SAVI2I示意圖

上述使用域標簽的無監督I2IT 模型已極大地降低了數據集的收集難度。但是，當數據集非常龐大時（如FFHQ[29]），為每一張圖片標記域信息同樣成本高昂，且對于有些數據集來說，域的劃分是多樣且模糊的。針對此問題，Baek 等人[20]提出了TUNIT 模型，創造性地引入自監督訓練的思想。過MI[30]和In‐foNCE[31]等約束，風格編碼器能夠充分利用域特定的風格信息，自動判斷輸入圖像的所屬域，輸出偽標簽。

然而，TUNIT[20]無法實現多樣式輸出，并且存在錯誤分類的問題。Kim 等人[23]指出，這種錯誤產生的原因在于單一的域標簽區分方式并未考慮到域間的語義距離。同時，域標簽將I2IT 限制在預先定義的圖像域中，無法控制訓練所用標簽之外的域。為了解決此問題，Kim 等人[23]使用一組標準化的原型向量來統一風格空間，每個原型向量可以被簡單地理解為各域風格編碼的聚類中心。此外，風格編碼器被集成到鑒別器中，共享骨干網絡。如圖8 所示，通過SwAV[32]聚類方法，風格編碼被嵌入原型向量空間，在擺脫域標簽約束的同時，模型可以采樣原型向量，產生多樣輸出。

圖8 原型向量示意圖

雖然上述模型取得了良好的轉換效果，但其訓練階段需依賴大量的圖像數據，且無法基于先驗知識從少量樣本中獲得泛化能力，應用于不屬于訓練數據的圖像域。針對此問題，Liu 等人[13]提出了少樣本學習模型FUNIT。如圖9 所示，訓練時使用包含K 個類別的圖像數據集S，對其中某一類的一張圖像進行內容編碼，對另一類的一組圖像分別進行風格編碼后求算術平均。測試時通過少量不屬于S 的新目標域圖像作為風格指導，模型就能將S 中的任意一類圖像轉換到新目標域。

圖9 FUNIT[13]訓練示意圖

3.2 內容特征建模

如圖10所示，內容編碼器的發展從信息獲取的角度出發，通過增加內容映射模塊，內容特征的空間分布從域共享到域特定；通過引入生成先驗等來增強不同語義級別的特征提取能力和表現能力，不同域的內容空間關系從語義對應擴展到語義非對應。

圖10 內容特征的發展脈絡

MUNIT[8]和DRIT[9]中包含兩個和圖像域一一對應的內容編碼器。為了統一各域的內容空間，保證內容分布一致，DRIT[9]共享兩個內容編碼器的最后一層和兩個生成器的第一層權重，并提出了內容對抗損失（公式9）；MUNIT[8]則證明了通過圖像轉換映射的學習，兩個域的內容編碼分布在隱式空間達到一致。但是，域間完全共享內容空間的假設損失了部分圖像特有的內容信息，降低了內容編碼的表達能力。因此，Chang等人[16]提出DSMAP，將共享內容空間的特征二次映射到域特定的空間中，使圖像的內容信息得到更充分的表達。如圖11所示，內容編碼器輸出共享空間的內容特征后，由映射函數φB將其二次投影至目標域B 的內容空間，得到內容編碼CA→B。映射函數φA則將內容特征重映射至圖像原屬域A，得到CA→A。φA映射通過內容編碼器中間層特征和CA→A組成的域特定內容損失學習。

圖11 DSMAP域特定內容空間示意圖

上述模型在語義對應且幾何形狀差距不大的圖像域上（如貓和狗、男性和女性等）取得了良好的轉換效果，但無法應用于語義相似但空間分布差異較大的情況（圖13）。為了解決此問題，Wu等人[15]提出Trans‐GaGa模型，如圖12所示，通過幾何估計器和幾何轉換模塊提煉、映射圖像的幾何結構信息，內容編碼能夠學習圖像的高級語義表示。

圖12 TransGaGa[15]部分模型結構圖

圖13 TransGaGa[15]（左）與GP-UNIT[24]（右）的轉換效果

為了進一步將圖像轉換擴展到無語義對應的數據集（如轎車和鳥類），Yang等人[24]提出GP-UNIT模型，通過引入BigGAN[34]生成先驗，內容編碼器能夠學習更為抽象的內容信息，如方位、布局等，并建立域間對應關系。圖14 展示了訓練的第一階段，首先采樣噪聲，利用BigGAN[34]生成兩張具有相似方位和布局的不同類圖像。其次，內容編碼器將兩張圖像分別編碼為單通道灰度圖以消除域信息。最后，將單通道灰度圖輸入解碼器F。F的第Ⅰ部分預測輸入圖像的形狀，第Ⅱ部分重建輸入圖像。如圖13所示，得益于強大的內容編碼器，GP-UNIT[24]成功實現了異質、不對稱的圖像轉換。

圖14 GP-UNIT[24]第一階段訓練示意圖

3.3 內容-風格的解耦與融合

以內容-風格解耦為前提，上述模型從風格和內容兩方面進行改進和完善。而如何強制風格特征和內容特征被分別提取和利用以滿足前提，是模型運轉的關鍵。

損失函數的約束是解耦的基礎。根據域共享內容空間和內容信息在轉換中保持不變的假設，Lee 等人[9]提出了內容對抗損失（公式9）和跨域循環一致損失（公式15）、Liu 等人[28]提出內容保留損失（公式10）。從風格表示多樣的特點出發，為了緩解模式崩潰問題，Mao 等人[35]提出模式查找正則化（公式11）、Baek 等人[20]引入風格對比損失（公式12）。而Choi等人[36]認為，模式崩潰的一個重要原因是單一的決策邊界，而這兩種損失函數并不能從根本上解決此問題。因此，Choi 等人[36]從GAN 的基本原理出發，引入靈活判決邊界機制，提出樣式引導鑒別器損失（公式14）。此外，規范化點互信息（公式13）用于消除潛在空間中編碼風格表征的糾纏，從而進一步緩解模式崩潰。

風格特征和內容特征在生成器中通常使用AdaIN[37]進行融合，也有一些模型[23,38]使用目前最先進的生成模型StyleGAN[29]。生成對抗損失（公式16）保證生成器將風格編碼和內容編碼相結合，輸出真實且屬于目標域的圖像。為了進一步讓鑒別器接近納什平衡點，生成更逼真的圖像，Choi 等人[36]使用重要性采樣，如公式（20）所示，根據鑒別器的輸出，將特定權重分配給生成器。此外，風格編碼重建損失（公式17）和內容編碼重建損失（公式18、19）用于促進圖像和隱空間的逆映射，強制生成器在生成圖像時利用風格編碼和內容編碼。

3.4 存在的問題

目前，基于解耦內容-風格特征表示的圖像轉換模型側重于探索內容和風格的空間分布，缺少對風格和內容的具體內涵的研究。圖像表達的特征包羅萬象，顏色、紋理、形狀、結構和語義等方面均蘊含大量可變性。對于圖像轉換模型來說，最關鍵的核心就是捕捉并且改變某些特征。解耦內容-風格特征表示模型的風格編碼與內容編碼控制的是哪些特征、控制的程度能達到多少等問題值得深入探討。

風格和內容在形式上是解耦的，但在含義上是關聯互補的，模型需要根據圖像數據的不同權衡風格和內容特征的分配，并調整其變化程度。因此，為了更好地研究此類圖像轉換模型在不同數據集上對內容和風格特征的學習能力和適應程度，本文第4 節根據域間差異性對圖像轉換常用數據集進行進歸類和對比。

4 數據集、評價指標及模型比較

數據集的選擇是評價模型性能的基礎，如表3 所示，根據圖像域之間的差異程度，數據集可劃分為以下三類：

表3 數據集總結

（1）場景類此類數據集的域間差異為顏色和紋理，形狀和語義特征保持不變。比較有代表性的場景數據集如圖15（a）所示，Architectural labels2photo[1]數據集，包含配對的建筑物正面圖象和其結構標簽圖；Summer2winter[4]數據集，由非配對的一組夏季風景圖和一組冬季風風景圖組成。。

圖15 數據集示例

（2）真實對象類此類數據集圖像大多為真實事物，如圖15（b）所示，包括不同性別的人臉、不同物種的動物等。域間差異程度較大，有顏色、紋理、形狀等，轉換難度比場景類高。

（3）藝術風格對象類此類數據集圖像包含一組夸張藝術風格圖像，如圖15（c）所示，真實人臉和動漫人臉在顏色、紋理、形狀和語義特征上差異極大，轉換難度最高。

4.2 評價指標

圖像轉換的評價指標從圖像質量、圖像多樣性、圖像在內容上的保持程度以及圖像與參考圖像在風格上的相似程度這四個方面來衡量模型的性能。以下介紹4種常用指標。

（1）FID(Fréchet Inception Distance)

FID[55]以在ImageNet[56]數據集上訓練的Inception-V3[57]模型作為特征提取器，計算真實圖片和生成圖片的特征向量的距離。計算公式如公式（21）所示。

其中，g表示生成圖像，r表示真實圖像，μ和∑分別表示均值和協方差。當生成圖像和真實圖像特征的均值和協方差相近時，生成圖像的分布接近真實圖像的分布，即FID越小，生成的圖像質量越好。

（2）LPIPS(Learned Perceptual Image Patch Simi‐larity)

LPIPS[39]度量兩張圖像的感知距離，其特征提取網絡的訓練使用真實圖像和失真圖像，因此LPIPS 對真實程度不同的生成圖像評估更加魯棒。計算公式如公式（22）所示：

其中，g和r分別表示生成圖像和真實圖像，l表示特征提取網絡的層數，和分別表示生成圖像和真實圖像在第l 層輸出的特征，Hl和Wl分別表表示第層特征的高度和寬度，wl表示第一層和第l 層特征的余弦距離。LPIPS 越小表示兩張圖像越相似；用于多樣性評價時，值越高表示生成的圖像越多樣。

（3）DIPD(Domain-Invariant Perceptual Distance)

DIPD[13]計算源域圖像和轉換后圖像在VGG[58]網絡中Conv5 輸出特征的距離，衡量轉換后圖像的內容保持程度。

（4）SIFID(Single Image Fréchet Inception Dis‐tance)

SIFID[59]通過計算兩幅圖像特征之間的FID[55]衡量生成圖像和參考圖像內部分布的差異。SFID 得分越低，表示兩張圖像風格越相似。

4.3 模型比較

在比較基于解耦內容-風格特征圖像轉換模型時，通常會分別比較隱向量引導方法和參考圖像引導方法。前者指的是通過采樣隨機向量來生成風格編碼，而后者則是利用參考圖像來生成風格編碼。為了更好地說明風格的學習和內容的保持，本文只比較由參考圖像引導的圖像轉換效果。本小節在Sum‐mer2winte[4]、CelebA-HQ[17]、AFHQ[17]和Face2Anime[54]數據集上對部分模型[5,8,16,17,22,23]進行了定性和定量的比較。

4.3.1 定性比較

圖16 定性比較了不同模型在Summer2winter[4]數據集上的圖像轉換效果，DRIT++[5]、StarGAN-v2[17]和SAVI2I[22]可以在保持結構特征的同時表現參考圖像的風格，而SA-Dis[23]對域不變的內容特征把握不當，過多地改變了輸入的結構。

圖16 Summer2winter[4]數據集上的定性比較

圖17 定性比較了CelebA-HQ[17]數據集上的圖像轉換結果，MUNIT[8]和DRIT++[5]僅改變了輸入圖像的妝容特征，無法改變變化較大的胡須和頭發樣式；StarGAN-v2[17]和SAVI2I[22]對頭發的轉換效果較好，較為準確地捕捉并還原了參考圖像中的頭發樣式；Star‐GAN-v2[17]對人臉的身份特征保持得最好，但對人臉之外的部分（背景、飾品等）轉換效果較差。

圖17 CelebaHQ[17]數據集上的定性比較

圖18 定性比較了AFHQ[17]數據集的轉換效果，MUNIT[8]模型無法在域間差異較大的貓和狗圖像域間成功轉換；SA-Dis[23]、StarGAN-v2[17]和SAVI2I[22]相比，內容特征（嘴的開合、背景）保持效果以及風格特征（耳朵、鼻子的形狀）的改變效果更好。值得注意的是，第四行輸入圖像的耳朵較大，垂于面部兩側，此特征僅存在于狗的圖像中且數量極少，轉換難度較高。DSMAP[16]將此特征保留；StarGAN-v2[17]和SAVI2I[22]在此部分產生模糊的結果；DRIT++[5]和SA-Dis[23]較為合理地將輸入中的耳朵轉換為貓面部的一部分。

圖18 AFHQ[17]數據集上的定性比較

圖19 定性比較了不同模型在Face2Anime[54]數據集上的圖像轉換效果。DSMAP[16]、StarGAN-v2[17]、SAVI2I[22]和SA-Dis[23]都能夠學習參考圖像的發色特征，但眼睛的顏色、面部妝容等學習程度不夠。對于內容特征，僅有DSMAP[16]和SA-Dis[23]保持了輸入圖像的方位，而嘴巴的形狀、眼睛的張開程度以及視線方向等在所有模型的轉換結果中均無法體現。

圖19 Face2anime[54]數據集上的定性比較

從模型的角度來看，StarGAN-v2[17]和SAVI2I[22]在四類數據集上的總體轉換效果最好，除Face2Anime[54]數據集外，都能較好地保持內容特征、表現風格特征，從具體數據集中學習解耦域不變和域特定的圖像特征。

從數據集的角度來看，模型在風景類的Sum‐mer2Winter[4]數據集上的整體轉換效果最好，在Face2Anime[54]數據集的轉換效果最差，藝術對象類數據集對I2I模型仍是一個挑戰。

4.3.2 定量比較

本文從每個域的測試集中隨機選取了100張圖像進行定量模型評估，以目標域參考圖像作為風格指導來進行圖像轉換。表4為模型在不同數據集上的定量評價結果，每個指標最好的結果用粗體標示。

表4 模型在不同數據集上的定量比較評價結果

從數據集的角度來看，六個模型在CelebAHQ[17]數據集或AFHQ[17]數據集上的圖像轉換效果最好，對真實對象類數據集的適應性最強。對于內容特征的保持和風格特征的學習，模型在CelebAHQ[17]數據集上的完成度最高，而由于藝術類對象數據集的域間差異極大，模型對Face2Anime[54]數據集的完成度最低。觀察發現，模型在Summer2Winter[4]上表現不佳，除了模型本身不適合場景類圖像外，也可能因為數據集本身存在缺陷：數量小且有重復圖像；一些圖片中出現了大面積的人類或動物；某些圖像的域特點不明顯，域歸屬不明確。

從模型的角度來看，SAVI2I[22]的圖像轉換效果最好，在4 個數據集的6/16 項指標上取得最優表現，對不同類數據集的適應能力最強；其次是StarGANv2[17]，在4 個數據集的3/16 項指標取得最優表現。雖然MUNIT[8]在CelebAHQ[17]數據集和AFHQ[17]數據集上的DIPD[13]指標最低，但從圖17、圖18 來看，跨域轉換效果不明顯，甚至轉換失敗，導致SIFID[59]指標較高。因此，DIPD[13]指標需和SIFID[59]指標結合進行比較。

5 總結與展望

基于解耦內容-風格特征表示的圖像轉換模型在生成圖像的質量、多樣性和連續性等方面已取得了很大的進展，是圖像轉換模型中的重要組成部分。本文首先對圖像轉換進行簡要介紹，梳理了基于解耦內容-風格特征表示模型的研究脈絡，整理了常見數據集和評價指標，并對經典模型進行定量和定性的比較。

解耦內容和風格的I2IT 模型因其“解耦”的特點在圖像控制方面有著天然的優勢，可以被進一步利用和挖掘。未來可探索的方向有：

（1）內容-風格特征表示的控制。現有模型缺少對內容特征和風格特征在不同類數據集上表達能力的研究，因此對不同轉換任務的兼容能力不足。從控制內容和風格的角度出發，如何使模型能夠根據不同數據集權衡內容和風格的保持、變化程度對構建通用轉換模型有著重要意義。

（2）結構的簡化?，F有模型結構復雜，訓練時間較長，受限于巨大的運算開銷，模型通常只能對分辨率較低的圖像進行處理。如何在保持模型性能的同時簡化結構有待進一步探索和研究。

（3）少樣本學習?；诮怦顑热?風格特征表示的圖像轉換模型對少樣本學習的研究較少，雖然目前的模型在許多大型數據集上取得了良好的效果，但應用范圍受限于數據集的種類和訓練時長。