


摘 ?要:圖像美感質量評估作為計算美學中重要的研究領域,是指利用計算機模擬人類的主觀審美思維,并在此基礎上對圖像的美感進行定性或定量評估。作為圖像美感質量評估中的一類主要研究對象,照片圖像美感質量評估在檢索與排序、照片圖像美化等方面有著廣泛的應用。本文主要對基于深度學習技術的照片圖像美感質量評估研究進行歸納和總結,并從基于深度學習的美感評估這一基本思路出發,依次對照片圖像美感質量評估類別、照片圖像美感評估數據集及其建立方法進行綜述,并對相關研究內容提出建議。
關鍵詞:計算美學;深度學習;照片圖像美感質量評估;評估類別;數據集
中圖分類號:TP391 ? ? 文獻標識碼:A
Overview of Aesthetic Quality Evaluation of Photo
Images based on Deep Learning
LI Wenxuan
(School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
xuchange2022@163.com
Abstract: As an important research field in computational aesthetics, image aesthetic quality evaluation refers to the use of computer to simulate human subjective aesthetic thinking, and on this basis, to carry out a qualitative or quantitative evaluation of the image aesthetics. Photo image aesthetic quality evaluation, as one of the main research objects in image aesthetic quality evaluation, has been widely applied in retrieval and sorting, photo image beautification and so on. This paper mainly proposes to summarize the research on the aesthetic quality evaluation of photo images based on deep learning technology. Starting from the basic idea of the aesthetic evaluation based on deep learning, categories of photo image aesthetic quality evaluation, photo image aesthetic evaluation datasets and establishment methods are reviewed in turn, and suggestions for relevant research are put forward.
Keywords: computational aesthetics; deep learning; photo image aesthetic quality evaluation; evaluation categories;
dataset
1 ? 引言(Introduction)
美學是以藝術為主要對象,研究美、丑等審美范疇和人的審美意識、美感經驗,以及美的創造、發展及其規律的科學[1]。而使用人工智能技術對圖像進行定量或定性的評估則被稱為“計算美學[2]”,即通過研究“美”的可計算方法,使得計算機能夠對圖像做出符合人類傾向的審美決策,該概念在2005 年歐洲計算機圖形學會(EG)舉辦的第一屆圖形圖像視覺計算美學學術會議上被正式提出。
照片圖像美感質量評估是“計算美學”研究的重點領域。隨著照相機、智能手機等攝影成像設備的快速普及,在線照片圖像的數據量呈指數式增長,產生了繁雜且冗余的海量在線照片圖像,因此,如何在海量照片圖像中獲取更高質量美感的照片圖像顯得尤為重要。使用人工智能技術模擬人的審美感知,并對海量照片圖像高效地進行美感質量評估可以有效地解決該類問題。
2 ?基于深度學習的照片圖像美感質量評估基本思路(Basic ideas of photo image aesthetic quality evaluation based on deep learning)
本文總結了以照片圖像為美感評估對象,以美感質量為美感評估任務,以自動特征提取方法為主的基于深度學習的照片圖像美感質量評估基本思路,如圖1所示。
實際上,在研究過程中,往往對自動特征提取和預測模型進行統一的設計和訓練,實現“端到端”的學習模式。并且,在確立照片圖像美感質量評估類別階段,往往也同時考慮照片圖像美感質量評估模型,因此,本文不再單獨對照片圖像美感質量評估模型進行綜述。
3 ?基于深度學習的照片圖像美感質量評估類別(Evaluation categories of photo image aesthetic quality based on deep learning)
基于深度學習的照片圖像美感質量評估類別可以分成三類:第一類是二元分類,即把照片圖像美感質量按照高美感和低美感進行定性劃分;第二類是美感分數預測,即以連續數值的形式對照片圖像美感質量進行量化;第三類是美感分布預測,即在美感分數預測的基礎上預測照片圖像美感分數的概率分布,得到相應的直方圖,并根據概率論和數理統計的知識計算出平均值、方差等數據。
3.1 ? 二元分類
二元分類是早期照片圖像美感質量評估研究的主要內容。2014 年,隨著卷積神經網絡在圖像分類問題上被廣泛使用并表現出優異的性能,LU等人[3]首次嘗試將卷積神經網絡應用于二元分類的圖像美感質量評估研究,開創了自動提取特征方法的先河,并在進行模型訓練時使用隨機裁剪方法加入圖像的局部信息。
TIAN[4]通過加入跳連操作,提出了一種基于深度和淺層特征融合的圖像美感評估模型。但是以上方法的模型輸入都是固定256×256大小的照片圖像,因此針對不同大小的照片圖像需要進行裁剪,會在一定程度上降低照片圖像的分辨率甚至導致照片圖像失真,影響美感質量評估的模型性能。MA等人[5]提出一種自適應感知的卷積神經網絡,通過設計算法提取多個圖像的局部特征塊作為神經網絡的輸入,從而使得神經網絡模型接受任意大小的圖像輸入。他們盡管實現了任意圖像大小的輸入,但是通過局部圖像塊的方式又會使圖像的全局結構信息丟失。實際上,輸入圖像大小固定的原因在于輸入最后一層全連接的特征維度必須固定,MAI等人[6]在此基礎上通過增加自適應空間池層固定最后的輸出維度,使得輸入圖像的大小可以不受限制。不難發現,為了提高二元分類模型的性能,早期研究者主要圍繞局部圖像塊與全局結構信息之間的矛盾進行研究。
3.2 ? 美感分數預測
隨著基于深度學習的照片圖像美感質量評估研究的深入,二元分類的缺陷也愈發明顯,盡管其可以區分高美感圖片和低美感圖片,但是無法應用于照片圖像質量排序、照片圖像增強等場景。并且,相較于二元分類,回歸模型預測美感分數也更接近人類視覺系統中美感評估的過程[7]。2015 年,KAO等人[8]首次將卷積神經網絡應用于美感分數預測的圖像美感質量評估研究。但是由于圖像美感分數的評分數據相較于二值分類更難獲得,建立數據集的代價比較昂貴,為了減小建立數據集方面的工作量,HUANG等人[9]使用遷移學習的方法將分類任務學習到的特征遷移到回歸模型中,該方法在減小工作量的同時提高了模型的性能。但是實際上,考慮到美感評分的主觀差異,現今的工作大都偏向于直接預測美感分布,通過美感分布間接算出美感分數。
3.3 ? 美感分布預測
美感分布預測是對美感分數預測的進一步深入,即預測人類審美評估間的概率分布,并最終以直方圖的形式進行呈現,同時利用概率論與數理統計的知識,在此基礎上計算出均值、方差、中位數、偏度、峰度等一系列數據,最終從各個角度對照片圖像美感進行評估。其考慮到了人類審美評估的主觀性,避免了用一個連續量表示照片圖像美感所帶來的弊端。2018 年,TALEBI等人[10]首次將卷積神經網絡應用于美感分布預測。他們使用遷移學習的方法,選擇性能優異的圖像分類卷積神經網絡模型,將其最后一層分類層修改為包含十個類別的全連接層,十個類別對應十個美感分數區間,最后經Softmax輸出美感分布。
TALEBI等人還同時考慮到了美感分布預測的類間關系,例如第一個美感分數區間與第二個美感分數區間之間的聯系會比第一個美感分數區間與第三個美感分數區間之間的聯系更緊密,因此提出使用EMD分布距離損失函數取代交叉熵損失函數對模型進行訓練,最終的結果表明,EMD損失函數在美感分布預測任務中表現出的性能優于交叉熵損失函數。最后,TALEBI等人通過實驗結果證明,使用美感分布預測的結果計算平均值,從而間接得到的美感分數相較于直接預測美感分數的準確率更高,但是根據該方法計算出來的方差準確性欠佳。CUI等人[11]提出了一種語義感知混合網絡,通過收集圖像中的內容信息,比如圖像分類和場景類別,提高美感分布預測的性能。WANG等人[12]提出了一種能夠保留原始圖像縱橫比信息的美感分布預測方法,與CUI等人的方法相比,在沒有加入額外信息(比如圖像內容信息)的同時,仍保持較好的性能,因此該方法對其他學習任務有普適性意義。不難發現,自TALEBI等人將深度學習應用于美感分布預測之后,該研究方向的重點逐漸集中于提出不同的神經網絡結構,加入更多的圖像信息,提高模型本身的性能。
4 ?照片圖像美感質量評估數據集(Photo image aesthetic quality evaluation datasets)
4.1 ? AVA數據集
MURRAY等人[13]在2012 年建立了照片圖像美感評估領域第一個大型數據集——AVA照片圖像美感評估數據集。AVA數據集收集了大約255,000 張照片圖像,每張照片圖像分別有三類注釋:第一類是美感評分,每張照片圖像由78—549 人進行評分,平均每張照片圖像有210 名評分者,評分范圍為1—10 分,并最終根據評分的平均值得到照片圖像的美感評分數據,評分者的身份包括專業攝影師和業余愛好者。第二類是語義標簽,具體為家庭、建筑、天空等66 個語義描述。第三類是照片圖像屬性,研究者根據光線、顏色、構圖三種關鍵要素設計和選擇互補色、雙色等14 個屬性對照片圖像進行描述。
AVA數據集來源于網站www.dpchallenge.com。該網站有一種“挑戰”機制,即給出一個挑戰標題和簡短的描述,參與者上傳符合挑戰要求的圖片并接受全網站用戶的評分,最終根據每張圖片的平均得分對其進行排序,如圖2所示。
4.2 ? AADB數據集
KONG等人[14]在2016 年建立了AADB數據集,包含大約10,000 張圖像,每張圖像有兩類標簽:第一類是美感評分,評分范圍為1—5 分;第二類是美感屬性,研究者借鑒傳統攝影原理,設計和選擇三分法則、運動模糊、平衡元素等八個美感屬性對圖像進行描述。
AADB數據集的圖像來源于網站www.flickr.com,研究者從該網站下載大量圖像并進行人工清洗,去除非照片圖像,最終得到10,000 張照片圖像,然后五位評分者在AMT眾包平臺對其依次進行評估。考慮到不同評分者評估的主觀差異,并為了確保在對大量圖片進行評估的過程中不會出現錯誤注釋,評分者的個體評估信息被記錄下來,通過概率論和數理統計的知識計算出個體評分間的顯著性差異,從而實現去除錯誤數據的效果。
4.3 ? AROD數據集
SCHWARZ等人[15]于2017 年建立了AROD數據集,其圖像來源和AADB數據集圖像來源一致,都來自網站www.flickr.com。但是與AADB數據集構建方法不同,SCHWARZ等人通過建立一種美感模型從而直接利用該網站圖像的在線描述信息,比如圖像喜好人數和查看次數,直接推導計算出美感分數。該方法能夠大批量獲取圖像數據和美感分數,因此AROD數據集一共包含了大約38萬張照片圖像,規模遠遠大于AADB數據集。AROD數據集示例如圖3所示。
4.4 ? 對比分析
如前文所述,AVA數據集中的圖像來源于www.dpchallenge.com,該網站能夠獲取大量有美感評分的照片圖像,但是該網站采用“挑戰”機制,用戶大多偏向上傳經過二次處理的美化后的照片,因此該數據集的整體圖像美感質量分布并不均衡,多以二次處理后的專業照片圖像為主,高美感照片圖像遠遠多于低美感照片圖像,因此無法真實地代表人類照片圖像的分布情況。相較于AVA數據集,AADB數據集的照片圖像更加均衡,它同時包含了普通攝影照片和專業攝影照片,且二者比例接近。并且,AVA數據集中照片圖像的美感屬性標簽是研究者通過對每類“挑戰”進行注釋,從而間接對該“挑戰”下的全部照片圖像打上同樣的二元標簽,而AADB數據集則是評分者依次對每個照片圖像進行評估,相比之下,AADB數據集在美感屬性標簽方面的注釋更加準確。但是AADB數據集的總體評分人數過少,相較于AVA每張照片圖像平均有210 名評分者評分,AADB數據集每張照片圖像僅有五名評分者進行打分,因此在評分人數方面有所不足,沒有廣泛的代表性。另外,AVA數據集和AADB數據集的注釋都來自人工標注,而AROD數據集獲取注釋的方法是直接利用在線的信息得到美感分數,不需要在人工評分上花費大量精力,因此在數據集建立方面,AROD數據集提供了一種全新的思路。
與圖像分類數據集相比,圖像美感評估數據集的建立更加困難,因為圖像分類問題是一個模擬人類客觀感知的過程,而圖像美感評估是模擬人類主觀感知的過程。在建立照片圖像美感評估數據集的時候,照片圖像數量、照片圖像質量的均衡程度、評分者數量和審美水平、錯誤標簽的去除,甚至建立數據集的工作量都是需要研究者考慮的。
5 ? 結論(Conclusion)
基于深度學習的照片圖像美感質量評估作為計算美學中非常重要的研究內容,因其能夠在海量照片圖像中檢索并推送高美感質量照片圖像,在當今移動互聯網時代有著廣泛的應用。本文從基于深度學習的照片圖像美感質量評估基本思路出發,對三種照片圖像美感評估類別進行了詳細的歸納。同時,按照時間順序梳理了該領域主要的三個照片圖像美感質量評估數據集,并對其優缺點進行了分析。
數據集在照片圖像美感評估中起著至關重要的作用,但由于人類評估的主觀性,建立數據集的難度較大。盡管一些研究者使用遷移學習的方法對數據集的重要性進行弱化,如DONG等人[16]提出使用AlexNet[17]模型中倒數第二層的輸出作為美感評估的特征,然后訓練支持向量機對照片圖像進行二元分類;LI等人[18]使用包含兩次微調的嵌入式學習,進一步利用圖像分類模型提高照片圖像美感評估的準確率,但是遷移學習在該領域的研究仍未達到飽和。并且,利用深度學習技術構建的神經網絡學習到的特征缺乏可解釋性,如何進一步深入探究照片圖像美感評估工作的學習過程,是相關研究者需要思考解決的問題。
參考文獻(References)
[1] 朱立元.美感大辭典[M].上海:上海辭書出版社,2010:1.
[2] HOENIG F. Defining computational aesthetics[C]// NEUMANN L, SBERT M, GOOCH B, et al. Computational Aesthetics in Graphics, Visualization and Imaging. Girona,Spain: The Eurographics Association, 2005:13-18.
[3] LU X, LIN Z, JIN H L, et al. Rating pictorial aesthetics using deep learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):1.
[4] TIAN X L. Aesthetic evaluation of images based on deep and shallow feature fusion network models[C]// LIU N S, WANG Y S, FU Y G, et al. EITCE 2020: 2020 4th International Conference on Electronic Information Technology and Computer Engineering. New York, USA: ACM, 2020:
814-818.
[5] MA S, LIU J, CHEN C W. A-lamp: Adaptive layout-aware multi-patch deep convolutional neural network for photo aesthetic assessment[C]// MORTENSEN E, YUAN J S, TUREK M, et al. IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles, USA: IEEE Computer Society, 2017:4535-4544.
[6] MAI L, JIN H L, LIU F. Composition-preserving deep photo aesthetics assessment[C]// MORTENSEN E, YUAN J S, TUREK M, et al. IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles, USA: IEEE Computer Society, 2016:497-506.
[7] DATTA R, LI J, WANG J Z. Algorithmic inferencing of aesthetics and emotion in natural images: An exposition[C]// ALZAHIR S, LABEAU F, MOCK K, et al. IEEE International Conference on Image Processing. Los Angeles, USA: IEEE Computer Society, 2008:105-108.
[8] KAO Y, WANG C, HUANG K Q. Visual aesthetic quality assessment with a regression model[C]// ALZAHIR S, LABEAU F, MOCK K, et al. IEEE International Conference on Image Processing. Los Angeles, USA: IEEE Computer Society, 2015:1583-1587.
[9] HUANG W Z, YANG P P, HUANG K Q. From classification to regression: Model transfer for visual aesthetic quality assessment[C]// KIMURA A, ALIREZA A, DENGEL A, et al. 2017 4th IAPR Asian Conference on Pattern Recognition. Los Angeles, USA: IEEE Computer Society, 2017:304-309.
[10] TALEBI H, MILANFAR P. NIMA: Neural image assessment[J]. IEEE Transactions on Image Processing, 2018, 27(8):3998-4011.
[11] CUI C R, LIU H H, LIAN T, et al. Distribution-oriented aesthetics assessment with semantic-aware hybrid network[J]. IEEE Transactions on Multimedia, 2019, 21(5):1209-1220.
[12] WANG L, WANG X, YAMASAK T, et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction[C]// DAVIS L, TORR P, ZHU S C, et al. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Los Angeles, USA: IEEE Computer Society, 2019:1833-1842.
[13] MURRAY N, MARCHESOTTI L, PERRONNIN F. AVA: A large-scale database for aesthetic visual analysis[C]// MORTENSEN E, YUAN J S, TUREK M, et al. IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles, USA: IEEE Computer Society, 2012:2408-2415.
[14] KONG S, SHEN X H, LIN Z, et al. Photo aesthetics ranking network with attributes and content adaptation[C]// LEIBE B, MATAS J, SEBE N, et al .European Conference on Computer Vision. Berlin, Germany: Springer, 2016:662-679.
[15] SCHWARZ K, WIESCHOLLEK P, LENSCH H. Will people like your image? Learning the aesthetic space[C]// KOVASHKA A, BOWYER K, MORTENSEN E, et al. IEEE Winter Conference on Applications of Computer Vision. Los Angeles, USA: IEEE Computer Society, 2018:2048-2057.
[16] DONG Z, SHEN X, LI H Q, et al. Photo quality assessment with DCNN that understands image well[C]// HE X J, LUO S H, TAO D C, et al. International Conference on Multimedia Modeling. Berlin, Germany: Springer, 2015:
524-535.
[17] KRIZHEVSKY A, SUTSKEYER I, HINTON G. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25:1097-1105.
[18] LI Y X, PU Y Y, XU D, et al. Image aesthetic quality evaluation using convolution neural network embedded learning[J]. Optoelectronics Letters, 2017, 13(6):471-475.
作者簡介:
李文軒(2001-),男,本科生.研究領域:計算美學,計算機圖形學.