鄧 旭,趙連軍,郇 靜
(山東理工大學 計算機科學與技術學院,山東 淄博 255000)
藝術家識別是指在沒有其它元數據的情況下,僅給定圖像的情況下識別作品的藝術家。這一領域的專家需要很長時間來學習各種藝術家的風格,然后才能分析繪畫作品。此外,即使具有專業知識,藝術家的身份也很難確定,因為一個藝術家的風格在不同的繪畫作品中有很大的差異。通過機器學習,可以為專家提供基本估計,以減少必要的時間和精力,并使經驗不足的人更容易識別藝術家身份。
在這項工作中,前人做了很多工作。Qian等主要是將自然圖像進行油畫、粉筆畫等藝術風格模擬,或者是針對油畫等西方畫進行藝術風格分析[1]。Wang等提出了復合特征的自適應遴選及對水墨畫風格描述的優化,其還通過提取多種底層異構視覺特征對國畫風格進行描述,對國畫作者進行分類預測[2]。Saleh和Elgammal使用了GIST、Classemes和PiCoDes特征[3]。Misumi等利用SIFT特征對3種不同風格的作品進行分類[4]。Sahu等利用局部二元模式(local binary patterns)、顏色直方圖(color histograms)、HOG和GIST對作品美學評估分類[5]。
近年來,深度學習的卷積神經網絡模型在圖像識別上取得了很大的進步,例如在ImageNet上top-5分類的錯誤率僅有3.6%[6]。相比于淺層的特征提取,深度學習的深層網絡結構可以逐層進行特征提取,這些特征更容易被分類識別。
卷積神經網絡(CNNs)能夠將圖像內容和圖像風格分開識別,并通過風格遷移可以將一幅畫的藝術風格遷移到另一幅畫上面[7,8]。Li等通過將VGG-F模型直接應用于中國畫作風格識別問題,取得了很好的成果[9]。
深度學習可提取圖像特征,應用于字體手寫識別、人類圖像識別、目標檢測等方面[10]。近年來,深度學習也被用于圖像細粒度分析與分類的研究,取得了很好的結果[11-14],通過遷移學習分類也有不錯的效果[15]。
卷積神經網絡學習目標特征需要花費大量的機器運算時間,預訓練后的卷積神經網絡模型(PretrainedCNN)具有良好的可遷移性。遷移學習既可以確保較為理想的訓練效果,又可以節省大量的訓練時間。遷移學習近年來成為圖像識別領域的主要方法。
基于上述分析,針對藝術家識別,提出了一種基于 ImageNet 的ResNet-50遷移學習方法。ResNet-50能自動學習訓練數據中的低層次信息,得到更詳細高層的特征數據。實驗結果表明,基于ImageNet的ResNet-50的遷移學習預訓練模型在識別準確率方面效果最優。實驗還通過顯著圖[16]驗證了畫家藝術風格分布在整幅畫作中,通過風格遷移[7]驗證畫家的藝術風格能被神經網絡學習,同時實驗基于DenseNet-201[17]的遷移學習進行對比實驗。
深度神經網絡層數的不斷增加,模型精度不斷得到提升,但當網絡層級增加到一定以后,測試正確率和訓練正確率迅速下降,這說明當神經網絡層數變多以后,深度神經網絡難以訓練。針對這個問題,深度殘差網絡提出了捷徑連接(shortcut connections)。
CNN隨著深度的增加會出現梯度消失問題,一般的卷積神經網絡隱藏層直接會存在特征圖丟失、不完整問題。殘差網絡是CNN的一種特殊結構,ResNet引入了殘差網絡結構,通過這種殘差網絡結構,一般隨著深度的增加,識別效果會越好。
殘差網絡的基本結構如圖1所示,在圖1的殘差網絡結構中,通過捷徑連接的方式,直接把輸入傳到輸出,這條連接沒有權重,可以避免特征圖丟失問題。

圖1 殘差網絡基本結構
遷移學習的目的是為了將原領域學習的信息應用推廣到新領域。本文為了驗證深度神經網絡遷移學習有效,訓練了2個神經網絡進行對比,分別是基于ImageNet遷移學習的ResNet-50和DenseNet-201這2個模型。
1.2.1 遷移學習的ResNet-50
基于ResNet-50結構的遷移學習卷積神經網絡見表1,遷移學習的卷積神經網絡權重來自ImageNet數據集的預訓練權重。其它與前一個神經網絡一樣,將ResNet-50全連接的層替換為23維新的連接層,用來計算數據集中每個藝術家的得分。

表1 ResNet-50卷積神經網絡結構
基于ImageNet的ResNet-50的遷移學習有效地減少了神經網絡學習特征時間,原因在于一些從文藝復興開始的藝術家,通常在繪畫時都會畫出栩栩如生的場景,這些場景描繪都能直接代表現實世界的畫面,這些圖畫和ImageNet數據集里面的圖面有相似之處。
1.2.2 DenseNet-201
DenseNet采用的是一種更密集的連接方式,是一個密集卷積神經網絡,以前向傳播方式,將每一層與其余層密集連接。這樣做的目的是可以確保各層之間的信息流動達到最大,將所有層(特征圖大小匹配)直接連接在一起。DenseNet有著4個顯著特點:①緩解了梯度消失問題;②增強了特征在網絡間的傳播;③實現和加強了特征重用;④有效減少了參數數量。本文主要使用了DenseNet-201卷積神經網絡,具體見表2。

表2 DenseNet-201卷積神經網絡模型結構
實驗訓練了兩種不同的CNN模型來識別分類畫家。每個神經網絡模型都是基于3×224×224RGB圖像輸入,輸出數據集的23個畫家得分。
對于兩個神經網絡模型,使用SoftMax分類和交叉熵損失
(1)
式中:Li表示在訓練集中第i作品的損失。f是神經網絡計算分數的方法,j表示23個可能的選擇中的一個。yi表示正確類型。這個損失函數能保證神經網絡在訓練集中能最大化正確畫家的分數。
為了訓練CNN模型識別畫家,使用WikiArt數據集,整個數據集包括2300位畫家的超過100 000幅作品,這些作品的時間和風格跨越廣度非常廣,數據集有抽象派、寫實派、人物畫、風景畫、水墨畫、油畫。
整個數據集中的絕大多數藝術家只有不到50幅繪畫作品,因此為了確保訓練網絡有足夠的樣本量,實驗只使用數據集中有400幅或更多繪畫作品的藝術家。為了保證每位藝術家畫作數量平衡,這些畫家畫作只取400幅。因此,數據集來自23位藝術家的400幅作品組成(總共9200幅)。實驗將每個藝術家畫作按80-10-10的分割將此數據集分割為訓練集驗證集和測試集。因此,數據集中每個藝術家320幅畫作作為訓練集,40幅畫作作為驗證集,40幅畫作作為測試集。這個數據集比以前的工作中使用的數據集要大得多,圖2給出了數據集部分樣本。

圖2 WikiArt數據集
如圖2所示,數據集中的畫作有不同形狀和大小,所以在將圖像傳送到CNN之前會對其進行修改。將圖像歸零并進行標準化,在訓練網絡的同時,隨機對繪畫的任意部分進行裁剪,每個輸入圖像進行224×224像素裁剪,這種隨機性增加了訓練數據的多樣性,有助于避免過度擬合。在驗證和測試圖像時,實驗也是對圖像進行隨機224×224像素裁剪,以確保結果的穩定性和可重復性。實驗假設藝術家的風格在圖像中無處不在,而不僅僅局限于特定的區域,所以繪畫作品的隨機裁剪可以包含足夠的信息供CNN確定風格。
模型訓練與測試均是在PyTorch框架下完成的。實驗都是在云平臺完成,使用GTX1080TiGPU,16 G內存和200 GB存儲空間。
實驗通過Adam update rule訓練兩個模型。遷移學習的ResNet-50和DenseNet-201的神經網絡,使用默認 Adam 參數,learning-rate=10-3,實驗可以觀察到訓練和驗證數據集在整個訓練階段的準確性和損失,當神經網絡性能不再提升的時候,將learning-rate降低10倍,直到最后神經網絡訓練準確率不再提高。
2.3.1 實驗結果對比
如表3所示,實驗對比了5個神經網絡模型,可以看到top-1的Precision,Recall和F1準確率。
實驗與文獻[15]進行對比,后者展示了3個神經網絡分類的準確性。 Precision,Recall和的F1定義如下
(2)

表3 藝術家分類結果總結
(3)
(4)
其中,TruePositives和FalsePositives分別表示正樣本被正確識別和錯誤識別的個數,TrueNegetives和FalseNege-tives則分別表示負樣本被正確識別和錯誤識別的個數。
表3比較了不同模型的CNN在關鍵指標中的準確性對比,基于遷移學習的ResNet-50的神經網絡的性能優于文獻[15]中的3種神經網絡模型,同時優于DenseNet-201模型,實驗結果表明并不是神經網絡更深效果更好。
2.3.2 實驗結果分析
圖3表示兩個神經網絡在訓練中準確率的變化,如圖3(a)所示實驗發現基于遷移學習的ResNet-50開始訓練模型,訓練集和有效集的兩個模型準確率提升曲線相似。實驗分為4個階段,每個階段4次epochs訓練,每個階段完成后學習率下降10倍,如圖3(a)所示第一階段訓練集和有效集的準確率都得到提高,其中第二階段準確率提高并不明顯,第三階段準確提高迅速,可見不同的學習率對神經網絡模型有不同提高效果,第四階段表示神經網絡已不再提高。

圖3 3種不同模型的準確率
圖3(b)所示,DenseNet-201CNN模型初始準確率非常高,后面準確率提高的非常緩慢,多次訓練后準確率最高達到70%。DenseNet-201開始學習的模型第一階段明顯提升,將learning-rate縮小10倍時,第二階段對準確率有一個曲線上升。第三階段沒有提升,而且準確率相對較低,實驗驗證ResNet-50神經網絡相對DenseNet-201神經網絡在藝術家畫作識別上效果更好。
實驗考查了基于ResNet-50和DenseNet-201的遷移學習神經網絡在正確分類方面遇到的困難。圖4顯示了兩個混淆矩陣,該矩陣是使用Torchnet for Pythorch計算的。每一列表示每個藝術家畫家預測分類,因為實驗數據集中有23個藝術家,為清晰起見,圖中省略了矩陣上的標簽。理想情況下實驗希望盡可能多地預測集中在對角線上,這意味著神經網絡正確地預測了正確的藝術家。

圖4 測試集上混亂矩陣對于top-1分類準確率
測試集中每個藝術家有40幅畫,測試集中混淆矩陣中單元格最大值為40。可以看到,對大多數藝術家來說,對角線上的數值都是較大的,這表明大多數繪畫作品都被正確分類。倒數第二位藝術家Salvador_Dali是預測正確最少的,在ResNet-50測試數據集中,他40幅作品中只有22幅是正確預測。在DenseNet-50測試數據集中,他40幅作品中只有14幅是正確預測。Dali是一位具有非凡才能和想象力的藝術家,他的作品把怪異夢境般的形象與卓越的繪圖技術和受文藝復興大師影響的繪畫技巧令人驚奇地混合在一起,他的藝術風格與其它藝術家的交叉重疊,所以他的畫作極易分辨錯誤,這表明具有多種風格的藝術家畫作極易分類錯誤。
計算顯著性首先計算神經網絡正確的類分數相對于輸入圖像的梯度,然后在計算的梯度的RGB這3個信道上取最大值。用于計算顯著性圖M的方程如公式所示,其中w是相對于正確類的導數,c是顏色通道Mij是圖像中的位置,h(i,j,c) 是與原始圖像中i,j,c相對應的w的索引[14]
Mij=max|wh(i,j,c)|
(5)
顯著圖能夠可視化圖像中的哪些像素對該圖像的預測分數貢獻最大。實驗實現了藝術家識別的顯著圖,以確定繪畫的哪些部分對于預測藝術家有重大影響。
圖5展示了不同畫家作品的顯著圖,圖6展示了同一個畫家不同作品的顯著圖。在這些繪畫顯著圖中,畫作中物體或人并不是影響分類最明顯的地方,因為影響分類的像素分布整個畫作。實驗檢查了許多其它繪畫的顯著性地圖,發現在大多數繪畫中,影響預測的像素分布在整個圖像,而不是集中在其中的物體或人周圍。因為藝術家畫作風格存在于整個圖畫中,表明預處理數據隨機切割圖像并不會影響繪畫的風格,證明假設正確。

圖5 不同畫家畫作的顯著圖

圖6 同一個畫家不同畫作的顯著圖
實驗將一個畫家藝術風格遷移到另一個畫家畫作上,然后通過這幅畫作在神經網絡中分類從而得出藝術家風格能被神經網絡識別。圖7使一座城堡的原畫經過Max Ernet的風格遷移,并且在基于遷移學習的ResNet-50模型顯示top 5預測。神經網絡預測Max Ernst最可能是這幅畫的畫家,意味神經網絡能獨自預測的繪畫風格,而不是看重它的繪畫內容,神經網絡可以分開理解繪畫內容和繪畫風格。遷移學習的ResNet-50模型對遷移風格圖像進行了大量實驗,雖然神經網絡并沒有每次為正確的藝術家產生最高的分數,但正確的藝術家通常在前5名,進一步證實藝術家的風格確實能被卷積神經網絡理解。

圖7 基于Max Ernst風格遷移的畫作畫家預測
本文提出了一種基于ImageNet預訓練ResNet-50的遷移學習方法。通過遷移學習ResNet-50和DenseNet-201這2個神經網絡對比,驗證基于遷移學習ResNet-50識別效果最好。實驗通過顯著圖驗證藝術家風格存在于整幅畫作中,其次通過風格遷移實驗驗證藝術家風格能被神經網絡學習。雖然本文方法對藝術家識別取得一定效果,但如2.4節所說基于ImageNet預訓練ResNet-50卷積神經網絡在畫家具有多種風格時,分類正確率一般,如何更加準確識別具有多種藝術風格的畫家是未來主要研究方向。