馮 威 諸躍進 肖金球 段 杰 周 惟
(蘇州科技大學電子與信息工程學院 江蘇 蘇州 215009)
室內裝飾是現代社會滿足人們的社會活動和生活需要,組織和塑造具有美感而又舒適、方便的室內環境已成為現代社會的一門綜合性藝術。裝飾行業已成為當下新興的熱門行業之一,從而產生許多室內裝飾設計公司。現代室內裝飾設計已從產品設計拓展到文化設計、環境設計、氛圍設計。由于現代年輕人更加追求完美的室內裝飾設計,所以現代家居風格設計在室內裝飾中扮演著非常重要的角色。
家居風格是通過對建筑的內部空間結構的把握,運用物質技術對其進行有組織的規劃,設計滿足人們物質要求和精神需求的室內設計風格[1],包括色彩、造型和裝飾等。每個人的生活習慣以及審美觀點各不相同,裝修也會跟隨主人的偏好不同而有所差異。所以人們開始將一種類型的家居設計風格與另一種類型的家居設計內容進行融合,來決定如何設計家居風格。通過使用圖像風格遷移技術,將兩種不同類型的現代家居風格圖像進行遷移,來觀察遷移后的綜合家居風格是否滿足自己的追求。
國內外對于家居風格的設計都有著一定的研究,從最開始的桌椅簡單放置,到慢慢出現的古代宏偉建筑的室內布局,再發展到現在的現代家居風格設計,衍生出許多各種各樣類型的現代家居風格,例如現代簡約、中式、歐式和美式等。但是隨著社會的不斷進步以及科技和經濟的不斷發展,現代室內裝飾更加強調以人為中心進行設計,并追求個性化的家居風格設計。當今社會的人們不再滿足單一的家居風格,開始追求更高質量和更加自由的家居風格設計,來滿足人們在物質上和精神上的追求,所以需要將風格遷移技術應用到現代家居風格設計中。通過兩種不同風格的家居圖像遷移來生成遷移效果圖,讓人們更加直觀地明白融合后的家居設計美觀度,從而根據需求選擇自己滿意的裝修設計。
傳統的非參數圖像風格遷移方法主要基于筆畫的渲染、圖像類別或濾波方法以及紋理的合成,尤其是紋理合成方法得到更深的研究。Efros等[2]提出了一種簡單的紋理算法,通過對樣本紋理進行拼接和重組以合成新的紋理。Hertzmann等[3]提出了一種基于類推思想的方法,通過圖像特征映射關系合成具有新紋理的圖像。張海嵩等[4]運用多層紋理陣列、國畫光照模型提取輪廓線等模塊。后來發展為數學建模方式,首先人工分析圖像風格,然后建立數學或統計模型,再改變目標圖像使其更貼合[5]。這些圖像風格遷移的方法不僅效率低下且只能提取圖像的底層特征,無法提取高層抽象特征,僅適用于藝術化的圖像風格遷移,而現代家居風格的設計內容比較繁多,各種各樣的造型、色彩和裝飾都相對比較復雜,且講究寫實與逼真,所以上述方法得到的圖像風格遷移效果較差,無法讓人們直觀地感受到遷移后的效果圖,難以符合實際需求。
近年來,隨著人工智能發展的熱潮,深度學習開始興起,因其具有超強的圖像特征提取能力,在計算機視覺領域得到了廣泛使用,取得很多優秀的成果。深度神經網絡開始被人們運用到圖像風格遷移中,比以往的方法更加高效和優越。將深度神經網絡用于圖像風格遷移最初起源于2015年Gatys等的研究,他們開創性地提出了一種基于神經網絡的風格遷移算法[6]。在研究使用卷積神經網絡合成紋理的過程中發現,卷積神經網絡中的特征圖的統計特性可以反映一幅圖像的風格,而特征圖本身是對網絡輸入圖像的一種深層的特征表示,反映了圖像的內容特征。那么,可以通過迭代優化的方法將一幅隨機初始化的圖像調整成一幅在風格上和名畫相近,但是內容還是那幅普通的圖像。后來他們又提出了使用卷積神經網絡的圖像風格轉換[7],利用卷積神經網絡提取圖像不同層級的特征,使用低層次響應描述圖像的風格,使用高層次響應描述圖像的內容,經多次迭代之后,輸入響應即為特定風格和內容的圖像。Luan等[8]在Gatys的基礎上提出空間局部仿射并表示完全可微的正則項,但這種方法復雜度高且實現速度較慢,生成的遷移圖局部可能會模糊。
上述研究對于書畫等藝術作品追求圖像藝術化風格遷移效果較好,但是由于約束不強,對于現代家居風格這樣講究逼真實用且語義內容復雜繁多的圖像,不能達到理想效果,實現的遷移圖較差且易導致藝術化,許多細節部分無法實現風格遷移,已經遷移的部分還可能會出現畸變和失真。
本文針對現代家居風格圖像的特點,追求真實且不失真的效果,基于深度學習算法對現代家居風格圖像遷移進行了研究。通過圖像分割技術以及泊松圖像編輯方法進行圖像梯度約束得出清晰真實的遷移圖像,避免出現失真或遷移內容錯誤的問題。
圖像風格遷移,就是一種用其他不同類型的風格來渲染圖像語義內容的圖像處理方法[9]。簡單說來,就是使一幅普通的圖像變換成具有另外一種風格的圖像,但保留原始圖像的內容和結構。假設有兩幅圖像,一幅圖像為風格圖像,另外一幅圖像為內容圖像,在保留內容圖像的全部內容及結構的前提下,對風格圖像進行特征提取,將提取出的特征對原來的內容圖像進行重構,得到的輸出圖像是將風格圖像的風格與內容圖像的內容進行完美融合的遷移圖像,其結構如圖1所示。

圖1 風格遷移流程圖
卷積神經網絡(Convolutional Neural Network,CNN)作為深度學習中的核心,在圖像處理領域取得很大的成功。CNN是一種前饋式神經網絡,是基于傳統神經網絡的一種改進版,將中間傳統的全連接層改進為卷積層,通過局部視野機制和參數共享的方式,大大減少了需要計算的參數量,且隨著網絡層數的加深,可以提取出更加抽象的特征。其網絡結構主要由輸入層、卷積層、池化層、激活函數和全連接層構成,在卷積層中,通過不同的卷積核在輸入層圖像上滑動進行卷積操作,提取圖像特征,得到不同的特征圖,將卷積后的結果做非線性變化,得到輸出作為下一層的輸入。CNN結構如圖2所示。
VGG-Net是牛津大學的視覺幾何組聯合Google Deep Mind部門共同開發的深層卷積神經網絡[10]。根據網絡不同的層數以及配置,VGG網絡分別有A、A-LRN、B、C、D和E六種類型,目前通常將后兩者的D和E類型用于圖像風格遷移,也被稱為VGG-16和VGG-19網絡。由于現代家居圖像語義內容特征較復雜,且現在的GPU運算能力超強,本文選擇更多層數的VGG-19網絡來提取到更加抽象的圖像特征,以取得更好的遷移效果,避免出現失真畸變。VGG-19網絡模型共有19層,包含16層卷積層和3層全連接層,結構中反復使用3×3的小尺寸卷積核,步長為1,每個卷積層后面都有一個ReLU非線性激活函數,經過激活函數后的輸出即為圖像風格化使用到的特征圖。
Gram矩陣是一種統計運算,在圖像風格遷移中,CNN網絡中每層卷積層輸出的特征圖不僅包含圖像的內容,還包含著圖像的紋理特征,需要通過計算Gram矩陣來求出特征之間的相關性,從而表示出圖像的風格。Gram矩陣的數學形式為:
G(x)=A×AT
(1)
Gram矩陣實際上是矩陣的內積運算,可以看作是特征之間的偏心協方差矩陣(沒有減去均值的協方差矩陣)。在特征圖中,每個數字表示特征的強度,Gram計算的實際是兩兩特征之間的相關性,同時Gram矩陣的對角線元素體現了每個特征在圖像中出現的量,有助于把握整個圖像的大體風格,通過比較Gram矩陣的差異來度量兩個圖像風格之間的差異,可以成功地防止任何區域被忽略,從而實現圖像的風格遷移。
從邏輯上講,模糊圖像是由于圖像中的物體輪廓不明顯,輪廓邊緣灰度變化不強烈造成層次感不強,要想生成清晰的圖像就需要圖像輪廓邊緣灰度變化明顯,從而需要計算圖像灰度的變化率,即導數(梯度)。為了獲得較為清晰的風格遷移圖像,本文利用泊松圖像編輯對圖像梯度進行約束,其主要思想是根據源圖像和目標圖像的邊界信息,利用插值的方法重新構建出融合區域的圖像像素,如圖3所示。其中:u表示源圖像;v是源圖像的梯度場;Ω是合并后目標圖像中被覆蓋的區域;?Ω表示邊界;S是合并后的圖像;設f表示Ω區域內的圖像,f*表示Ω區域外的圖像合并后圖像。

圖3 泊松圖像編輯示意圖
圖像合成的目標是合并后的圖像盡量平滑沒有明顯的邊界,即Ω區域內的梯度變化盡量的小。此外,在保證Ω區域盡量平滑的同時需要保證源圖像能夠保持本身的紋理信息,則此約束下的優化問題為:
(2)
此時被積函數為:
(3)
然后再應用歐拉-拉格朗日方程,其中:
(4)
則可以得到:
(5)
從散度的角度定義拉普拉斯算子,此時拉普拉斯算子定義為梯度的散度:
Δf=div(▽f)=▽·(▽f)=▽2
(6)
所以二維空間則表示為:
(7)
則式(6)可以寫成下列泊松方程的形式:
Δf=div(▽u)=▽2u
(8)
式中:Δf為拉普拉斯算子;div是散度運算符。通過解這個泊松方程可獲得期望的合成圖像。
現代家居圖像風格遷移由于其圖像語義內容的復雜性和真實性,要求遷移生成的圖像在內容和細節上盡量與內容圖像相似,且不會發生失真或圖像內容遷移錯誤的問題,在風格上應盡可能與風格圖像相似,且追求清晰真實的效果。其風格遷移實現過程如圖4所示。

圖4 風格遷移實現過程
由于不同類型的現代家居風格之間的設計內容具有差異性,直接計算整個圖像的風格損失沒有考慮到語義內容,遷移過程中導致紋理被映射到與紋理語義不對應的區域,且忽略內容上的差異而導致物體風格溢出到圖像的其他部分,可能會出現家居風格內容圖像上的物體內容與風格圖像上物體內容不相等,造成圖像內容不匹配遷移變換。本文采用圖像語義分割的方法將風格遷移局限在相同語義內容的區域上。首先將輸入的內容圖像和風格圖像分別進行圖像分割,并將分割出的同類別圖像內容用相同蒙版顏色對其標注,不同類別的圖像內容使用不同顏色,可以為每個語義類別構造單獨的風格損失。然后將內容圖像、風格圖像以及二者標記的分割圖像都作為輸入圖像輸入到已訓練好的不帶全連接層的VGG-19網絡來提取圖像不同層級的特征信息,以便在語義等價的子區域之間進行遷移,且在每個子區域內的映射一致。本文使用Photoshop軟件的快速選擇工具來進行圖像分割,分別將家居圖像的柜子、桌子、椅子等物體分割出大致的框架,并使用蒙版顏色標記,不同的物體內容使用不同的顏色,例如圖5所示標記好的分割圖。

圖5 家居風格分割圖
給定家居風格的一幅內容圖像c、一幅風格圖像s和隨機的一個白噪聲圖像,將其輸入到VGG-19網絡中,用低層次響應來提取圖像的風格,而高層次響應提取圖像的內容,隨機的白噪聲圖作為初始輸入。然后計算內容特征圖和白噪聲特征圖之間的內容損失,通過卷積層可以得到許多feature map,選擇conv3_2、conv4_2層作為內容圖像的表示。最后生成圖像g,圖像g在內容上與圖像c相似,采用平均損失函數計算內容圖像和生成圖像的內容損失為:
(9)
式中:l表示卷積神經網絡的第l層卷積層,每層有Nl個feature map,將feature map向量化得到大小為Dl的向量;Kl為圖像在VGG-19網絡中的特征矩陣表示,Kl∈RNl×Dl。
此外,通過誤差反向傳播可以計算出關于生成圖像g的梯度,將生成圖像g更新為輸入圖像,不停地改變初始隨機圖像,直到在卷積神經網絡層中產生與內容圖像相同的響應。
圖像的風格也就是紋理信息可以通過特征之間的相關性表示。用Gram矩陣計算特征之間的相關性捕獲圖像的紋理信息,選擇conv1_1、conv2_1、conv3_1、conv4_1、conv5_1作為圖像的風格表示,通過使用白噪聲圖像的梯度下降來構建與給定圖像的風格表示相匹配的圖像。此外,將標色好的分割圖像添加到輸入圖像作為另一個通道,可以為每個語義類別構造單獨的風格損失,通過連接分割通道來增強卷積神經網絡算法,用下列函數計算輸出圖像g與風格圖像s之間的風格損失:
(10)
式中:Gl,c(·)=Kl,c(·)Kl,c(·)T是Gram矩陣運算,即向量特征圖之間的內積,C是語義分割掩碼中的類別數。
Kl,c(g)=Kl(g)Pl,c(c)
(11)
Kl,c(s)=Kl(s)Pl,c(s)
(12)
式中:Pl,c(c)為內容圖像的分割掩碼;Pl,c(s)為風格圖像的分割掩碼。則總的損失函數為:
Ltotal=αLcontent+βLstyle
(13)
通過迭代最小化損失函數得出風格化的圖像。
為了生成清晰、準確的遷移效果圖,將上述風格化的圖像Cs(x,y)作為輸入圖像,則給定內容圖像c的梯度場為:
g(x,y)=▽c(x,y)
(14)
則約束空間梯度同時保證需要滿足的目標函數F(x,y)為:
(15)
從而得出優化目標函數的泊松方程為:
F(1-λ▽2)=Cs-λ▽g
(16)
式中:λ是控制兩項之間的相對權重。通過最小二乘法可求解此方程。
本文的實驗環境是基于Python 3.6.6版本,處理器為Intel i7-6700K,配備16 GB內存和NVIDIA GTX1080Ti顯卡,在Windows 64位操作系統上基于開源的深度學習框架TensorFlow來運行。
本文實驗數據集選取英國帝國理工學院與酷家樂開放的室內場景數據集InteriorNet[17]。原始數據包含2 200萬室內場景,涵蓋這些場景的3D、全景、燈光、語義等多種不同樣式,這些場景的許多整體設計風格與現實世界中的室內場景相同,數據集中提供了多個不同的風格和樣式,包括語義分割、材料分割、照明效果、nyu-mask標簽、光流等效果圖,可用于深度學習訓練中。
本文研究的是面向室內裝飾的現代家居設計圖像風格遷移,故從中隨機選擇涵蓋不同風格的室內場景圖共10 000幅作為預訓練數據集,在此數據集上預訓練不包含全連接層的VGG-19網絡模型來獲取網絡模型參數,并將其作為常量,構建適用于本文中室內裝飾場景的網絡模型,從而能夠節省大量的訓練時間。
本文使用不同類型以及不同場景的現代家居風格圖像來進行實驗,根據實驗選擇以及數學計算,α=1、β=100、λ=20時得到的遷移效果較好。此外,為了獲得滿意的遷移效果圖,實驗共分為兩輪迭代,每輪迭代2 000次,每輪開始前都重新提取圖像風格來最小化目標函數。
為了實現圖像語義內容較為精確的分割并用不同顏色標記,使用蒙版來進行操作。蒙版是浮在原有圖層之上的一塊擋板層,將不同灰度色值轉化為不同透明度并作用到所在圖層,使圖層不同部位透明度產生相應變化,從而能夠保護原有圖片內容。首先將風格圖像導入Photoshop軟件中,在圖層面板中新建空白圖層,填充一種顏色,將其置于背景并將其與風格圖像進行融合;然后在圖層面板中選中風格圖像并點擊添加圖層蒙版按鈕添加蒙版,選中添加的蒙版后前景色和背景色自動變成黑白色;接著選擇快速選擇工具中畫筆工具在風格圖像層上繪制出圖像中同類別的區域,并通過調節畫筆大小和前、背景色自由修改區域,從而繪制的圖像語義內容實現準確分割并標記為所填充色;最后重復新建填充不同顏色的背景圖層進行操作,直至所有風格圖像內容全部實現分割并標記不同顏色,內容圖像進行相同操作。
本文實驗基于圖像語義分割和圖像梯度約束的家居設計圖像風格遷移具體步驟如下:
(1) 將風格圖像和內容圖像以及它們的分割圖像輸入已訓練的VGG-19網絡,并隨機初始化像素的白噪聲圖,同樣輸入到網絡中。
(2) 在VGG-19網絡的conv3_2和conv4_2層提取內容圖像的內容特征矩陣,并計算白噪聲圖與內容圖的內容損失。
(3) 在VGG-19網絡的conv1_1、conv2_1、conv3_1、conv4_1和conv5_1層提取風格圖像的風格特征矩陣的Gram矩陣,并將標色好的分割圖像作為另外一個通道,通過連接分割通道來增強卷積神經網絡算法,計算白噪聲圖與風格圖的增強風格損失。
(4) 求出用于訓練的內容損失和風格損失加權和的總損失函數。
(5) 通過訓練使白噪聲圖像梯度下降來最小化總損失函數,經過多次迭代進行調整,從而得出風格化圖像;通過泊松圖像編輯方法進行梯度約束風格化圖像,得出兼具風格圖像風格以及內容圖像內容的清晰真實遷移效果圖。
此外,為了測試目標函數在處理家居風格圖像的魯棒性,分別選取了廚房、客廳、餐廳和臥室四種不同的主要設計場景,每個場景選擇不同的主流風格類型進行轉換。如圖6所示,從左到右分別對應著內容圖像、風格圖像和遷移結果圖像。其中:(a)的內容圖像是美式風格,風格圖像為現代簡約風格,兩者之間可以得到較好的遷移效果;(b)是測試同種類型風格但設計內容不同的風格轉換,其內容圖像和風格圖像都為美式風格,也可以得到較好的遷移效果;(c)為客廳的家居設計,其內容圖像為現代風格,風格圖像為極簡式風格,可以發現墻壁上的圖畫也能實現風格遷移,這取決于圖像的分割標記圖;(d)為餐廳的家居設計,其內容圖像為歐式風格,風格圖像為工業風格,兩者遷移后的顏色變化為融合的色彩;(e)為臥室場景,其內容圖像為新中式風格,風格圖像為復古式風格,可以發現整體遷移效果良好,尤其是左邊墻壁實現了可靠的風格遷移。

(a) 廚房(不同風格)

(b) 廚房(相同風格)

(c) 客廳

(e) 臥室圖6 風格遷移效果圖
圖6證明了該方法在現代家居圖像風格遷移方面的有效性,且具有較強的魯棒性,能夠實現現代大多主流家居設計的多種場景,多種類型的圖像風格遷移,在取得良好效果的同時不會出現畸變。
本文提出將圖像風格遷移技術引入面向室內裝飾設計的現代家居風格圖像領域中,針對現代室內裝飾風格設計圖像的語義內容復雜、色彩繁多以及布局講究等特性,初步證明了其在室內裝飾領域中可以實現得到良好的圖像風格遷移效果,有效地防止內容圖像和風格圖像的內容不同而導致遷移溢出的現象發生。同時,還有效地規定某個語義內容是否需要進行遷移,保留了圖像的真實性。利用泊松圖像編輯方法對圖像的梯度約束,能夠得出清晰且滿足現代家居風格設計的需求遷移圖像。