杜 娟,胡 靜
(1.南昌航空大學 藝術與設計學院,江西 南昌 330063; 2.江西藝術職業學院 美術系,江西 南昌 330044)
在全球化的今天,文化藝術是國家和民族的顯著標簽[1]。在面向世界和接受世界多民族文化的同時,如何讓現代化服裝保持中國民族特色及風格是我們現在應該思考的問題[2]。讓中國人的服裝具有中國風格,這是文化自信的直接體現。當前市場中存在著大量的中國風服飾,但總體來說質量不高,并且存在以下2個重要的問題:①中國風服飾設計對專業設計師掌握中國文化深度廣度的要求較高,設計師培養周期較長;②創意匱乏,在傳統風格和元素的固定框架下進行二次創作的難度較大,導致大多數傳統風格服飾的成衣效果千篇一律。
因此,如何高效高質量地創造出真正具有中國風的服飾,并且在現代服裝的適當部分,融入適當的中國風格元素,成為現在大家關注的焦點。
早期非參數的圖像風格遷移是一種分析風格圖像的方法,根據風格繪制物理模型或者數學統計模型,然后對遷移的圖像進行紋理的合成,讓其更符合建立的模型。這種方法需要建立復雜的模型,對于理論有較高要求,且每個風格需要單獨建模,費時費力。相較于深度學習方法[3],非參數的圖像風格遷移方法表現出了越來越多的不足。Gatys等[4]提出了基于神經網絡的圖像風格遷移算法。然而早期基于深度學習方法產生的圖像存在噪聲、不清晰的問題。而且相較于傳統方法需要巨大的數據集,這導致了訓練速度慢、程序穩定性不佳等問題[5]。2017年,Zhu等[6]提出CycleGAN (Cycle Generative Adversarial Network),采用2個生成器和2個判別器實現風格轉化,并加入一致性損失用于保存內容信息。Luan等[7]在CycleGAN的基礎上添加了正則化用于防止過擬合,最終有效提升了圖像清晰度。整體而言,基于GAN網絡的風格遷移系統在圖像全局風格遷移中有較好的效果,但在局部風格遷移中普遍存在局部區域劃分不佳、風格遷移后存在邊界偽影等問題。
在這樣的背景下,本文結合服飾局部風格遷移的特點,提出了基于變分自編碼器的局部服裝風格遷移方法,有效利用了注意力機制的思想加強了各局部區域之間的相關性,可以只對特定相關區域進行風格遷移,其他區域保持不變,有效保留了原始圖像的部分風格與遷移風格相結合,從而提高了輸出圖像整體的真實性和藝術性。
隨著人工智能技術和深度學習技術的飛速發展,越來越多的領域應用了智能技術[8]。隨著人民生活質量的不斷提高,以文化和藝術為代表的產業快速崛起,并且其多為技術密集型產業,其發展依賴創意和創新。但創新能力的高低是該行業發展的重要瓶頸,因此,為廣大的設計者注入全新創意的圖像風格遷移技術便應運而生。
深度學習在目標識別、目標分類、圖像分割和目標跟蹤等領域都取得了重大的突破[9],而隨著Gatys等[4]研究者將深度學習技術應用在圖像風格遷移上時,人工智能又一次在全新的領域上大放異彩。
在機器視覺中許多經典的問題可以被認為是圖像轉換任務,即系統接收一些輸入圖像并將其轉換為輸出圖像。圖像處理的例子包括去噪、超分辨率和著色,其中輸入是一幅原始圖像(有噪聲、低分辨率或灰度),輸出是一幅高質量的彩色圖像[10]。計算機視覺的例子包括語義分割和深度估計,其中輸入是一幅彩色圖像,而輸出圖像編碼了有關場景的語義或幾何信息。實現圖像變換的一種方法是在監督下訓練前饋卷積神經網絡,使用每個像素損失函數來測量輸出圖像和真值圖像之間的差異[11]。
Gatys等[4]進行圖像藝術風格轉換,將一幅圖像的內容與另一幅圖像的風格相結合,共同最小化特征重構損失,風格重構損失也是基于訓練的卷積網絡提取特征,類似的方法已經被用于紋理合成。他們的方法產生了高質量的結果,但計算代價昂貴,因為優化問題的每一步都需要通過預先訓練好的網絡向前和向后傳遞。為了克服這種計算負擔,研究者訓練了一個前饋網絡來快速逼近其優化問題的解。目前基于傳統方法的圖像風格遷移算法主要有以下幾種:基于畫筆的渲染技術(SBR)、基于區塊的渲染技術(Region-Based)、基于實例的渲染技術(EBR)、基于圖像處理與濾波的技術(IPF)[12]。這些方法都可以有效對圖像場景進行風格遷移,但由于傳統方法對原始圖像的要求過高,難以應對靈活多變的場景和圖像結構。因此,隨著深度學習的逐漸發展,越來越多的研究者采用深度學習方法進行圖像風格遷移[12]。
從原始圖像數據中自動發現和識別的視覺概念是人工智能研究的一個重大開放挑戰。為了解決這個問題,研究者提出了一種變異的無監督學習方法來表示潛在的復雜因素關系。人們從神經科學中獲得靈感,并解釋了如何在無監督生成模型中通過應用同樣的學習能力來實現這一點。通過模擬在大腦的腹側視覺通路,強制減少冗余,鼓勵統計獨立性,建立了一個能夠學習復雜因素的變分自編碼器(VAE)框架。現有的變分自編碼器模型利用鑒別器和變分自編碼器的對抗性訓練,使編碼器從圖像中分離出圖像內容在潛在空間的表示。然后將圖像內容表示作為生成器的輸入,同時加入目標風格向量Z,從而生成目標風格的圖像。在生成器端加入的風格向量是由二進制的標簽向量通過線性變換得到。當前,變分自編碼器在廣泛的數據集上訓練測試都展示出了極佳效果。該框架在無監督學習的情況下對獨立數據生成的因子進行可解釋的因素化表示。人工智能能夠像人類一樣學習和推理,可以在完全無監督的方式下從原始圖像數據自動發現可解釋的因子潛在表示形式。
自編碼器是一種數據處理形式,其將目標數據X編碼為向量Z,并通過解碼器可以將Z重新生成X′。由于Z的形式固定,自編碼器的工作過程是固定的,無法滿足對多形式任意數據的處理需求。因此研究者們提出了變分自編碼器來解決這個問題。變分自編碼器結構示意圖見圖1。

圖1 變分自編碼器結構示意圖
由圖1示出,其直接對原始數據生成新的潛在向量Z,其中包括原始數據的信息和噪聲信息。其中原始數據樣本{X1,X2,…,Xn},整體用X來表示。X的分布為p(X):

(1)
其中,對于潛在結構維度的描述,是變分自編碼器和自編碼器不同的關鍵。
變分自編碼器內部示意圖見圖2,由圖示出,簡單的向量Z并不能解釋維度,樣本Z可以從1個簡單分布中獲得:N(0,I),其中I是單位矩陣。由于n維空間中任何分布都可以有n個服從正態分布的變量生成,并且可以產生1個足夠復雜的函數映射出來。這一過程在變分自編碼器中被稱為編碼器,其主要作用是通過原始數據的輸入,產生潛在變量的概率分布。而其中解碼器是生成新的X′條件分布。由于噪聲的加入,重構的過程變得更加復雜,但正是噪聲的存在,增加了重構結果的隨機性,目的是為了得到更好的重構模型。

圖2 變分自編碼器內部示意圖
基于變分自編碼器的自身特點,本文設計了基于變分自編碼器的風格遷移算法,并且將其應用在現代服飾的中國風格遷移研究中。該算法是在傳統變分自編碼器的基礎上進行重新設計后得到的,主要由3部分組成:編碼器、解碼器和損失函數[13]。基于變分自編碼器的圖像風格遷移算法結構示意圖見圖3,由圖示出,輸入原始數據為內容圖像(內容)和合成圖像(風格),輸入編碼器后獲得潛在的風格因素Z。風格因素與內容圖像共同輸入編碼器后,可以融合內容圖像的內容和合成圖像的風格得到新的輸出圖像。進一步,損失函數中利用重構損失函數來評估輸出圖像與合成圖像的差異,KL散度損失函數用來限定風格因素Z的正態分布[14]。

圖3 基于變分自編碼器的圖像風格遷移算法結構示意圖
在當前流行的服飾中融入中國風格,不是簡單將整幅圖像進行風格遷移變化。因為沒有無風格的服裝,也沒有脫離服裝單獨存在的風格。并且內容與風格的界限十分模糊,應用在服裝的風格遷移上,更難劃分界限。
本文研究利用變分自編碼器,將風格從風格圖片中提取出來,并且應用在期望改變風格的服飾局部上。其中,服裝圖像預處理主要有目標檢測和目標分割[15]。Yolo v3原理結構圖如圖4所示,選用Yolo v3的算法對內容圖像中的服裝模特進行目標檢測。再利用經典語義分割算法(FCN)對目標區域進行更精確的語義分割,實現對局部目標的準確提取,最終實現僅對局部位置進行風格遷移。

圖4 Yolo v3原理結構圖
本文研究采用的Mask-RCNN以Faster-RCNN為主體框架,在其網絡的頭部引入另1條FCN并行分支用于檢測ROI的mask map信息,這樣其頭部包含3個子任務:分類、回歸和分割。第1階段掃描圖片并生成提議(即有可能包含1個目標的區域),第2階段對提議進行分類并生成邊界框和掩碼[16]。
Mask-RCNN的處理過程一般是輸入一幅要處理的圖片進行相應的預處理(或者直接輸入預處理后的圖片),將處理結果輸入到1個預先訓練好的神經網絡中得出對應的特征圖,對特征圖中每一點設定預定的ROI區域,從而獲得多個候選ROI區域。將候選的ROI送入區域生成網絡(RPN)進行二值分類(識別出是前景或是背景)和邊框回歸,過濾掉一部分候選ROI。對剩下的ROI將原圖和特征圖的像素點對應起來,將特征圖和固定的特征對應起來,即ROI中的每個點取其所在格子的4個頂點的坐標值做雙線性插值,對這些ROI進行分類、邊框回歸和MASK生成(在每個ROI里面進行FCN操作)[17]。
在傳統變分自編碼器的基礎上,對編碼器和解碼器進行調整,能夠以多種方式實現服裝的風格遷移,從而達到不同的效果。第1種方法,保留完整變分自編碼器架構,把整體模型用作風格遷移網絡,在編碼器中輸入帶有中國風格的風格圖片,和經過預處理的原始服裝內容圖片,對局部細節進行中國特色風格遷移,找到潛在變量,通過解碼器輸入風格化后的合成圖。第2種方法,通過屏蔽掉編碼器,利用輸入解碼器的內容圖像和正態分布中的采樣作為潛在風格變量,最終實現固定服裝樣式不變,對目標服裝進行多風格的變化。第3種方法,利用固定的風格編碼,改變輸入的服裝內容圖像,屏蔽編碼器提取潛在風格步驟,可以實現輸出風格一樣而內容不同的服裝樣圖。
根據服飾風格遷移的實驗需求,實驗選取的計算機硬件CPU(配置Intel i7-9700K)、GPU(配置NVidia RTX2080)、內存32G;計算機軟件為python(3.7.3版本)、TensorFlow(TensorFlow 2.0 Alpha版本)、IDE (PyCharm community edition版本)。
在數據集的選擇上,由于本文是對變分自編碼器的創新應用,網絡同時輸入內容圖像與風格圖像。內容圖像數據集(局部)如圖5所示,內容圖像來自于AIUAI-Dataset-DeepFashion服裝數據集,該數據集包含了50個服裝類別和289 222張服裝照片,本文研究選取50張不同類別圖案簡單的衣服圖片,防止過于復雜的圖案(如卡通人物等)影響實驗效果。

圖5 內容圖像數據集(局部)
風格圖片如圖6所示,風格圖片選擇了2種具有中國傳統特色的圖片,一種為中國水墨畫風格,另一種為中國傳統西域壁畫風格[18]。

圖6 風格圖片
本文采用Yolo v3的算法進行目標檢測,其具有收斂速度快和避免過擬合的特點[19-20]。由于本文選用數據集的大部分目標,在背景中都是十分突出的,多種目標檢測方法識別的準確率非常高,但考慮到未來實際環境中服裝圖片背景多較為復雜。因此復雜背景下的服裝分割是必不可少的,因此選用兼顧速度與準確性的Yolo v3框架進行目標檢測。圖像分割見圖7。

圖7 圖像分割
采用在Mask-RCNN引入FCN進行圖像分割的方法。首先,算法對已經確定的模特所在區域進行二次目標檢測,確定期望風格遷移區域。如圖7所示,算法對2張不同圖片目標檢測得到的重點區域進行分割,在每個目標中生成高質量的分割掩膜,算法成功地將裙子、領口和裙擺分割出來。將分割出來的檢測目標進行標記,作為生成器的輸入進行中國風格的遷移。采用2.3節風格遷移的第1種方法進行實驗,局部風格遷移實驗效果如圖8所示。首先生成1張全局風格遷移圖片,同時在局部采用先目標檢測后實例分割的方法生成掩膜。通過掩膜覆蓋在全局風格遷移圖片的方式實現風格轉換。可以清楚看出,變分自編碼器成功實現了對2種不同中國風格的采樣,并且在該算法下所獲得的風格數據可以在不同的對像中進行遷移。該算法同時可以學習一系列圖像的潛在特性,并且依據這些規律和特征設計圖像的潛在風格,為設計者提供了極大的方便。

圖8 局部風格遷移
本文研究了變分自編碼器在圖像風格遷移方面的應用,針對圖像風格遷移的算法所存在的局部區域劃分不佳、風格遷移后存在邊界偽影等問題,對服飾圖片的風格遷移過程進行改進,提出了一種基于Mask-RCNN框架的FCN圖像分割,對現代服裝可編輯局部區域進行自動分割提取,設計了用于現代服飾風格遷移的變分自編碼器方法模型,通過實驗獲得遷移后的合成圖片變得更為清晰,細節更加豐富。同時可以對不同的中國風格進行有機融合實現風格遷移,在應用以后將大幅減輕了服飾風格遷移設計者的工作量。
此外,由于圖像風格遷移的背景為服裝設計,故對圖片分辨率的要求遠高于一般的圖像風格遷移算法,但是在基于深度神經網絡進行圖像合成的方法中,分辨率不足的問題是不可避免的。如果想要獲得更高質量的結果圖像,意味著模型的參數增大,需要更大的訓練集。在實際應用背景下,必須平衡二者之間的關系,這是未來服飾風格遷移算法的研究重點。同時,變分自編碼器和傳統的風格遷移算法中,都存在相同的問題,就是風格遷移的過程中,往往是固定內容圖像對風格圖像進行遷移,難以實現固定風格圖像,對內容進行采樣或者二者同時采樣進行風格遷移,這個問題有待于未來進行解決。