基于語義感知的圖像美學質量評估方法

2018-12-14 05:26:24楊文雅宋廣樂崔超然尹義龍

計算機應用 2018年11期

楊文雅,宋廣樂,崔超然,尹義龍,2

(1.山東財經大學計算機科學與技術學院，濟南 250014； 2.山東大學計算機科學與技術學院，濟南 250014)(*通信作者電子郵箱crcui@sdufe.edu.cn)

0 引言

傳統的客觀圖像質量評估方法主要關注在圖像的獲取、傳輸和存儲等過程中引入的不同類型的失真(如噪聲、扭曲、壓縮等)以及由此帶來的圖像質量下降問題。隨著圖像采集設備的不斷升級和編解碼技術的快速進步，普通圖像的失真問題目前已經得到一定程度的緩解, 因此，一些研究者開始嘗試從美學的角度對圖像質量進行客觀評估，并提出了圖像美學質量評估的概念。

圖像美學質量評估旨在模擬人類視覺及審美思維，進而對圖像進行美學建模，使計算機能夠自動地對圖像的美學價值進行定量的評價。伴隨計算機視覺和模式識別等技術的快速發展，圖像美學質量評估技術已經被應用到多個領域,例如: 在圖像檢索系統中，考慮返回圖像的美學質量，為用戶提供準確且更有吸引力的檢索結果[1]；針對用戶拍攝的關于同一場景的多張候選照片，篩選最具美感的作品保存和展示，合理地降低數據的存儲開銷以便節省存儲空間的成本[2]；圖像美學質量評估算法也可以部署在攝像機上，在用戶拍照過程中實時地分析取景內容的美學質量[3]。

如圖1所示，伴隨計算機視覺和模式識別等技術的快速發展，圖像美學質量評估通常被簡化為一個分類問題，從而達到區分高美感圖像和低美感圖像的目的。許多數據驅動的方法[4-6]被相繼提出，核心在于提取和構造有效的圖像特征，進而利用模式識別技術建立圖像內容表達和圖像美學判定之間的關聯。

圖1 圖像美學質量評估示例

早期的圖像美學質量評估研究主要以攝影中的美學規則為先驗知識，人為地設計提取圖像的視覺特征，利用這些特征對高美感和低美感圖像進行分類; 但是，研究人員在設計這些特征時，需要有一定的攝影經驗, 同時，這些特征也無法全面地覆蓋所有實用的攝影規則，而且為了抽取它們往往需要付出巨大的計算開銷。近年來，伴隨深度學習在模式識別領域的興起，一些研究者開始嘗試利用深層神經網絡自動地抽取圖像特征用于圖像美學質量評估。

值得注意的是，不論是早期人工提取特征的方法還是當前比較熱門的深度學習方法，在對圖像進行美學質量評估時都只考慮圖像視覺特征這一方面的信息; 然而，在實際生活中，在感受圖像的視覺美感之前，人們首先要理解他們所看到的圖像內容[5]。現有的大多數方法在進行圖像美學質量評估時并沒有考慮圖像的語義信息，如圖像的物體類別、場景類別，從而可能導致評估結果不準確。針對該問題，本文提出了一種新穎的基于語義感知的圖像美學質量評估方法。對于每一幅圖像，首先設計了3個卷積神經網絡(Convolutional Neural Network, CNN)來分別提取圖像的物體類別特征、場景類別特征以及美學特征;然后，將這3種特征輸入到一個高層次的混合網絡中以實現有效的特征融合;最后，利用融合后的網絡對圖像進行美學質量評估。

本文的主要貢獻如下：

1)提出了一種基于語義感知的圖像美學質量評估方法，在圖像美學質量評價過程中有效地引入圖像的語義理解信息。

2)采用遷移學習的思想分別提取圖像的物體信息和場景信息，并設計了一個高層混合網絡將這些信息與圖像的美學信息進行有效的融合。

3)在不同數據集上的實驗結果表明，本文方法相比現有方法在分類準確率等測度上有明顯提高。

1 相關工作

早期的圖像美學質量評估研究主要以攝影中的美學規則為先驗知識，人為地設計提取圖像的視覺特征。例如，Datta等[7]率先提取了包括亮度、色彩分布、三分構圖、景深等在內的56種圖像特征，并結合特征選擇篩選了最有效的15種特征，利用這些特征對高美感和低美感圖像進行分類；Ke等[8]提出了幾種用簡單性、對比度、亮度等表示圖像的特征[9-11]，從圖像的布局、內容和照明等方面構建了一些高層次的可描述屬性; 顧婷婷等[12]從圖像主題和布局兩方面出發，提出結合深淺景與構圖的圖像美學質量評估方法。

農村資金互助社的管理人員多數沒有較高的金融知識水平，對專業知識的了解少之又少，不熟悉業務，操作失誤時有發生。對于貸款過程來說，手續也較為簡單，沒有嚴格的規定制度，雖然滿足了絕大部分農戶的貸款需求，但給儲戶帶來了更多的信貸危機，沒有做到有效的監督和管理。

不同于上述工作從整幅圖像中抽取特征的做法，一些研究者關注從圖像局部區域中抽取有效的特征用于圖像美學質量評估, 例如:文獻[13]中提出利用模糊感檢測技術估計圖像的聚焦主體區域，從分離出的主體區域中提取特征，有效改善圖像美學質量分類的效果；隨后，該研究團隊分析了專業攝影照片的相關特點，發現不同類別的圖像對應不同的美學評價標準，因而提出將圖像分為7個類別，針對每一類別的圖像分別提取不同的區域特征[2,14]。國內研究方面，王偉凝等[15]通過顯著區域檢測將圖像劃分為整體區域和關鍵區域，在進行美學質量評估時抽取并融合圖像的低層視覺特征、高層美學特征和區域特征。

為了提升特征的判別性和魯棒性，基于中間語義特征的美學建模方法逐漸得到廣泛關注, 例如，Dhar等[9]首先利用訓練數據提取圖像在布局、內容、光照方面的中間視覺屬性(visual attribute)，進而再利用這些屬性實現對圖像美學質量的判定；類似地，Marchesotti等[16]提出利用與圖像相關的文本信息來挖掘有效的中間視覺屬性；Zhang等[17]通過融合多種低層視覺特征構造圖基元(graphlet)來描述圖像的空間結構，采用高斯混合模型學習圖基元的分布，并基于此實現圖像美學質量評估。

近年來，深度學習在模式識別領域興起，一些研究者開始嘗試利用深層神經網絡自動地抽取圖像特征用于圖像美學質量評估。例如，Lu等[18]采用CNN來分別抽取圖像的局部特征和全局特征，并利用圖像的風格和語義標簽進一步提升圖像美學質量評估的性能。國內研究方面，中國科學技術大學的田新梅研究組利用在大規模圖像數據庫上預訓練得到的卷積神經網絡模型來提取圖像特征，并將其與人工設計的特征進行融合，用于高低美感圖像分類，取得了較好的效果[19]；Wang等[20]提出基于并行CNN的圖像美感分類方法，從同一圖像的不同視角出發，利用多個卷積神經網絡自動完成特征學習。

總體而言，現有方法純粹基于圖像視覺內容提取美學特征，而忽略了對圖像語義信息的理解; 與之相反，本文結合圖像的物體類別信息以及場景類別信息，提出了一種基于語義感知的圖像美學質量評估方法。

2 方法介紹

基于語義感知的圖像美學質量評估方法的思想是通過構建一個由三層神經網絡組成的混合網絡，將圖像的美學信息、物體類別信息以及場景類別信息進行融合后再對圖像進行美學質量評估。它的輸入是對每幅圖像提取的3種特征：1)物體類別特征,2)場景類別特征,3)美學特征。3種特征的提取都基于卷積神經網絡，并最終通過混合網絡進行融合。

2.1 問題形式化

張量Xi表示一幅輸入圖像，yi表示該圖像的美學類別標簽，yi∈{0,1}。具體來說，當yi=1時，認為這是一幅高美感圖像；當yi=0時，認為這是一幅低美感圖像。

本文采用深度神經網絡作為方法的主框架，將圖像美學質量評估看作一個二分類問題，故網絡的最后一層有2個神經節點,a=Φ(Xi;θ)表示它們的激活值，其中θ為模型參數，利用softmax函數將激活值轉化為概率分布值：

(1)

本文采用監督學習的方法來確定權重θ。假定有一組訓練樣本D={(x1,y1),(x2,y2),…,(xN,yN)}，其中N表示訓練樣本的個數。在訓練過程中的目標是優化以下損失函數：

(2)

在網絡訓練過程中，使用隨機梯度下降(Stochastic Gradient Descent, SGD)算法來求解上述優化問題，進而得到模型參數θ。

2.2 語義感知

本文認為在進行圖像美學質量評估時，應該充分考慮圖像的語義信息。為此，對于每一幅輸入圖像，分別提取其物體類別特征、場景類別特征以及美學特征。在此，本文使用ResNet50[21]卷積神經網絡模型進行特征提取。它的網絡結構如圖2所示，首先是若干連續卷積層，緊接著為全局平均池化層，最后為全連接層，該網絡已被證明在很多計算機視覺分類任務中都取得較好性能。接下來，將對每種特征的提取作簡單介紹。

圖2 ResNet50網絡圖像特征提取及分類示例圖

對于每一幅圖像，物體類別特征旨在提取其在圖像美學評估中相關的物體信息。采用遷移學習的思想，利用由120萬幅圖像組成的并且具有1 000個物體類別的ImageNet數據集上預訓練的ResNet50網絡模型來抽取每幅輸入圖像的物體類別特征，并將該模型最后完全連接層的輸出作為混合網絡的輸入，這樣對于每一幅圖像就得到了一個1 000維的物體類別特征。

對于每一幅圖像，場景類別特征旨在提取其在圖像美學評估中相關的場景信息。類似地，采用遷移學習的思想，利用由180萬幅圖像組成的并且具有365個場景類別的Place365數據集上預訓練的ResNet50網絡模型來抽取每幅圖像的場景類別特征，并將該模型最后完全連接層的輸出作為混合網絡的輸入，這樣對于每一幅圖像就得到了一個365維的物體類別特征。

對于每一幅圖像，美學特征旨在提取其在圖像美學評估中相關的美學信息。利用在ImageNet數據集上預訓練的ResNet50模型架構，將其最后一層改為由2個神經節點組成的全連接層，在AVA數據集[22]上利用反向傳播的方法將其訓練為一個專門用來進行美學分類的網絡模型，并在訓練過程中更新其權重，這樣就生成了一個專門用于美學分類的新的ResNet50網絡模型，并將此模型倒數第二層的輸出作為混合網絡的輸入，這樣對于每一幅圖像就得到了一個2 048維的美學特征。

2.3 混合網絡

本文構建了一個混合網絡，如圖3所示。該網絡包含2個隱藏層和1個輸出層，它被設計用來融合以上提取的3種特征。首先，對3種輸入特征作降維處理, 對于物體類別特征和美學特征，通過全連接的方式將其饋送到有128個神經節點的第一隱藏層；考慮到場景類別特征維度相對其他兩者較低，故通過全連接的方式將其饋送到有64個神經節點的第一隱藏層；第一個隱藏層有助于保留每個特征的關鍵信息，并減少后續的計算負擔。其次，對所有特征的第一隱藏層的輸出由共同的全連接層進行融合，該層共包含128個神經節點。它可以被看作是一個共享嵌入式空間，將來自不同特征的信息組合為統一表示。最后，將第二個隱藏層的輸出作為綜合特征輸入到具有2個神經節點的全連接層中，產生最終的預測美學分布。

2.4 實現細節

在構建混合網絡時，使用Keras(https://github.com/fchollet/keras)的深度學習庫實施網絡培訓和測試，使用Xavier[23]來初始化網絡權重，即所有的偏差均被初始化為零。為了解決過度擬合問題，從每個圖像或其水平翻轉中隨機抽取224×224的裁剪子圖像，使其每個像素減去在訓練集上計算的像素平均值來對其作處理。對于最小批量隨機梯度下降(SGD)算法，將批量大小設置為16，所有層的初始學習率均為0.001，并且每當驗證集的損失函數值在10個epoch內不再下降時，學習率就變為原先的0.1倍。使用10-6的學習率衰減因子和0.9的動量。當學習率下降到10-7時，訓練階段會提前停止。在測試時，對每個測試圖像中的10個224×224裁剪子圖像進行預測，并將所得平均值作為最終預測結果。

圖3 基于語義感知的混合網絡

3 實驗與分析

3.1 數據集

本文對圖像美學評估的實驗是在兩個基準數據集上進行的，即AVA[22]和CUHKPQ[2]。AVA數據集包含大約255 530幅圖像，每幅圖像平均得到210個美學評分，評分范圍從1分到10分。按照與之前研究相同的程序[5-6, 22,24]為每幅圖像分配一個二值美學標簽。具體來說，平均評分小于5-δ的圖像被標記為低美感圖像，平均評分大于5+δ的圖像被標記為高美感圖像，其他被認為是高低美感分類不明確的，并將其丟棄。在本文的實驗中，取δ=1，隨機選取70%的圖像進行訓練，10%用于驗證，剩下的用于測試。

CUHKPQ數據集由17 690幅圖像組成，分為7類，即動物、建筑、人類、風景、夜晚、植物和靜物。在CUHKPQ數據集上，每個圖像已被10個不同觀眾中的至少8個標記為高美感或低美感兩種標簽。為了驗證不同方法的泛化能力，按照文獻[25]的建議進行了交叉評估。換言之，在AVA數據集上訓練了一個模型，但同時在AVA和CUHKPQ數據集上進行了測試，即CUHKPQ數據集僅用于測試。

3.2 評價指標

本文采用分類準確率來評價本文方法在圖像美學質量評估中的表現, 通過將閾值設為0.5的二值化的輸出結果與圖像的ground-truth二值美學標簽相比較來獲得分類準確率; 此外，由于正例和負例測試圖像之間的不平衡，繪制了刻畫分類性能的接受者操作特征(Receiver Operating Characteristic, ROC)曲線。為了定量比較不同的方法，本文還計算了ROC曲線下的面積(Area Under Curve, AUC)。

3.3 方法對比

在此比較了本文方法SAAN(Semantic-sensed image Aesthetics Assessment Network)與幾種最先進的圖像美學質量評估方法。具體而言，對比方法包含以下幾種：

Customized[8]該方法從簡單性、對比度、亮度等角度采用7種特征來對圖像進行美學質量評估。

Generic[3]該方法利用通用視覺描述符(包括視覺詞和Fisher矢量)來預測圖像的美學類別。

Efficiency[26]該方法使用了幾種可以高效計算的手工美學特征。

DMA-Net[24]該方法利用從一個圖像中提取的多個補丁提出了一個深度多方面匯集網絡。

3.4 AVA數據集實驗結果與對比

圖4繪制了AVA上不同方法的ROC曲線，表1列出了不同方法的分類準確率和AUC方面的表現, 可以看出，SAAN在不同指標上優于其他方法, 例如，它在分類準確率和AUC方面的平均改善分別為5.6%和19.9%。此外，傳統的提取圖像特征的方法，如Customized、Generic和Efficiency，大大落后于基于深度模型的方法DMA-Net和SAAN。分析結果表明深度學習方法在圖像美學質量評估任務中的潛力, 在基于深度模型的方法中，SAAN比以上最好方法DMA-Net在分類準確率提升了2.5個百分點。一個可能的原因是SAAN從語義感知的角度出發對圖像進行美學質量評估，這在圖像美學質量評估過程中起著至關重要的作用。

圖4 AVA上不同方法的ROC曲線

方法分類準確率AUC方法分類準確率AUCCustomized[8]0.8660.669DMA-Net[24]0.8700.807Generic[3]0.8020.671SAAN0.8950.877Efficiency[26]0.8170.567

3.5 CUHKPQ數據集實驗結果與對比

CUHKPQ的比較結果分別顯示在圖5和表2中。正如預期的那樣，SAAN仍然取得最佳表現。值得注意的是，所有方法都是在AVA上進行訓練，在CUHKPQ上進行測試。在這種情況下，其他方法的分類準確率急劇下降，而SAAN保持相對穩定的表現。更確切地說，SAAN在CUHKPQ的分類準確率上最小提升為19個百分點。結果表明本文提出的圖像美學評估方法具有優越的泛化能力。對于表2中Customized和Generic方法性能較差的原因，簡要分析如下：首先，Customized和Generic是傳統的分類方法，并不是深度學習的方法；其次，在CUHKPQ數據集上驗證的是模型的泛化能力，由于模型是在AVA數據上訓練得到的，故其在CUHKPQ數據集上性能表現較其在AVA數據集上差些。

方法分類準確率AUC方法分類準確率AUCCustomized[8]0.2560.524DMA-Net[24]0.5070.815Generic[3]0.2650.507SAAN0.6970.875Efficiency[26]0.3340.418

4 結語

圖像美學質量評估在圖像處理和計算機視覺領域一直是一個長期存在的問題。本文提出了基于語義感知的圖像美學質量評估方法，從一個新的視角對該問題進行了研究。實驗證明，基于語義感知的圖像美學質量評估方法相較于現有的僅僅基于圖像的視覺信息的美學評估方法在分類準確率上有了很大提升。未來，在對圖像進行美學評估時，也應考慮人類認知和行為的相互影響，可以從他們的社交行為中感知用戶對圖像的認知，進一步更好地完成圖像美學評估這項工作。此外，未來研究也可以從實現個性化圖像美學評估方面著手，針對具有不同審美偏好的用戶對同一圖像進行不同評估。對于這個問題，如何理解個人用戶的審美偏好是一項艱巨的挑戰。