汪 一,周 玉,康 凱
(1.江蘇師范大學(xué)科文學(xué)院,江蘇 徐州 221132;2.中國礦業(yè)大學(xué)信息與控制工程學(xué)院;3.徐州市第一人民醫(yī)院)
圖像美學(xué)評(píng)估是指通過構(gòu)建數(shù)學(xué)模型來描述人眼對(duì)于圖像美學(xué)的感知特性,從而使計(jì)算機(jī)具備和人類相似的圖像美感判斷能力的技術(shù)。其研究成果在圖像搜索、相片分類、圖像智能剪裁和圖像質(zhì)量優(yōu)化等領(lǐng)域具有非凡的應(yīng)用價(jià)值,因此該研究是國內(nèi)外前沿的研究方向。
初期的圖像美學(xué)評(píng)估方法主要通過設(shè)計(jì)手工特征來描述攝影師拍攝過程中采用的常規(guī)技巧。這類方法邏輯清晰、容易理解,但是手工特征表達(dá)能力的有限性制約了此類方法的準(zhǔn)確性,具體為:①攝影技巧抽象且繁雜,難以通過手工特征進(jìn)行準(zhǔn)確描述;②手工特征彼此間相關(guān)性強(qiáng),會(huì)造成語義的高耦合。基于此,研究人員開始采用一些描述自然圖像特性的通用特征來進(jìn)行美學(xué)評(píng)估。與手工特征相比,這類特征的美學(xué)評(píng)估能力更好,但是它們不是專門為圖像美學(xué)任務(wù)設(shè)計(jì),因此評(píng)估的準(zhǔn)確性仍有非常大的提升空間。
數(shù)十年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的興起,各領(lǐng)域開始采用CNN 進(jìn)行相關(guān)研究[1,2]。在圖像美學(xué)評(píng)估領(lǐng)域,起初僅采用CNN進(jìn)行簡單特征提取,然后采用機(jī)器學(xué)習(xí)的方法從特征中學(xué)習(xí)分類模型。該類方法未充分利用CNN 強(qiáng)大的信息挖掘能力,因此逐漸被基于端到端訓(xùn)練的美學(xué)評(píng)估模型取代。然而,盡管現(xiàn)有的端到端評(píng)估模型相比以往模型取得了較大進(jìn)展,但它們?nèi)圆荒茌^好描述人類視覺系統(tǒng)對(duì)圖像美學(xué)的判斷過程,從而不能全面描述圖像美學(xué)特征,無法精確構(gòu)建美學(xué)評(píng)估模型。
本文針對(duì)現(xiàn)有算法存在的不足,提出了采用弱監(jiān)督學(xué)習(xí)的思想提取圖像美感注意力進(jìn)行美學(xué)評(píng)估的算法。該算法包括深度特征提取、美感注意力提取和美學(xué)分?jǐn)?shù)預(yù)測三個(gè)模塊。其中,深度特征提取模塊采用主流的深度CNN(Deep CNN,DCNN)網(wǎng)絡(luò)實(shí)現(xiàn),以提取與圖像美感相關(guān)的高層次特征。在此基礎(chǔ)上,進(jìn)一步設(shè)計(jì)美感注意力提取模塊和美學(xué)分?jǐn)?shù)預(yù)測模塊。其中美感注意力模塊采用弱監(jiān)督學(xué)習(xí)的方法,通過訓(xùn)練圖像美感分類模型來實(shí)現(xiàn),以模擬人眼在感知圖像美學(xué)時(shí)的特性。該方法還能克服目前美學(xué)評(píng)估數(shù)據(jù)集中缺少美感注意力標(biāo)簽的問題。美學(xué)分?jǐn)?shù)預(yù)測模塊是在將美感注意力特征與深度特征進(jìn)行交叉融合的基礎(chǔ)上構(gòu)建。最后,將整個(gè)模型在公開的圖像美學(xué)評(píng)估數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到最終的美學(xué)評(píng)估模型。
本文算法的流程圖如圖1所示。

圖1 本文算法框架圖
鑒于DCNN 強(qiáng)大的信息挖掘和表達(dá)能力,本文采用主流的DCNN 網(wǎng)絡(luò)來提取深度特征。具體地,以常用的ResNet50 為例,保存原網(wǎng)絡(luò)結(jié)構(gòu)中的5 個(gè)卷積模塊并去除其中的全連接層,最后一個(gè)卷積模塊的輸出即為提取的深度特征圖d。假設(shè)每批次輸入的圖像數(shù)為N,對(duì)于每一幅待評(píng)估圖像In(n∈[ 1,N]),將其輸入該模型,均能夠獲得相應(yīng)的深度特征圖dn。
獲得美感注意力提取模塊最直接的方法是搭建網(wǎng)絡(luò)模型,在含有美感注意力標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練。然而目前的圖像美學(xué)評(píng)估數(shù)據(jù)集未提供該標(biāo)注,因此該方法并不可行。為此,本文采用弱監(jiān)督學(xué)習(xí)的思想實(shí)現(xiàn)無需美感注意力標(biāo)注仍能學(xué)習(xí)出美感注意力提取模型的目標(biāo)。首先,使用數(shù)據(jù)集中已有的美學(xué)分類標(biāo)簽進(jìn)行監(jiān)督,實(shí)現(xiàn)美學(xué)分類預(yù)測模型的訓(xùn)練。之后,借助訓(xùn)練好的模型捕捉與美學(xué)相關(guān)的注意力特征。構(gòu)建美學(xué)分類任務(wù)模型的方法為:在深度特征提取模塊的最后一層卷積層獲取的深度特征圖dn上,進(jìn)行全局平均池化(Global Average Pooling,GAP)操作實(shí)現(xiàn)特征降維。然后,采用全連接層(Fully Connected,FC)進(jìn)行美感二分類。在AVA[3]數(shù)據(jù)集上進(jìn)行分類模型的訓(xùn)練。本文采用交叉熵?fù)p失進(jìn)行監(jiān)督學(xué)習(xí):
其中,aj和bj分別為第j張訓(xùn)練圖像的美學(xué)標(biāo)簽值和本文分類預(yù)測網(wǎng)絡(luò)輸出的美學(xué)分?jǐn)?shù)。
訓(xùn)練好美感分類模型后,借助類激活圖的方法從該模型中GAP 操作的輸出獲取美感注意力圖。對(duì)于第n張輸入圖像In,其美感注意力特征圖記為An。該注意力特征圖能夠反映圖像中不同區(qū)域內(nèi)容對(duì)圖像美感影響的高低。
為了模擬人類視覺系統(tǒng)對(duì)美學(xué)感知的特性,采用交叉融合的方法將輸入圖像In對(duì)應(yīng)的深度特征圖dn和美感注意力特征圖An進(jìn)行融合。該融合模塊的結(jié)構(gòu)如圖2所示。

圖2 交叉融合方法圖
首先,對(duì)dn與An實(shí)行交互操作,即利用dn(An)dn生成An(dn)的權(quán)重系數(shù)。生成權(quán)重的過程通過Sigmoid激活函數(shù)實(shí)現(xiàn):
將求得權(quán)重先與特征相乘,然后與原特征求和,以實(shí)現(xiàn)特征的充分融合:
其中,σ為激活操作,An和dn表示美感注意力特征和深度美學(xué)特征。之后,對(duì)與進(jìn)行拼接和1×1卷積,實(shí)現(xiàn)特征的交叉融合。該融合方法可以提取更有效的圖像美學(xué)特征。
最后,采用GAP 和FC 進(jìn)行分?jǐn)?shù)預(yù)測。該模塊訓(xùn)練時(shí)的損失函數(shù)為:
美感注意力提取模塊采用EfficientNet作為主干網(wǎng),初始化參數(shù)為在ImageNet 數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù),優(yōu)化器選擇Adam;批處理數(shù)為32;學(xué)習(xí)率為1×10-3,每十輪次下降0.1倍,小于1×10-5時(shí)停止訓(xùn)練,權(quán)重衰減參數(shù)和動(dòng)量為5×10-4和0.9。美學(xué)分?jǐn)?shù)預(yù)測模塊采用ResNet/EfficientNet 作為主干網(wǎng),批處理數(shù)為40/64;優(yōu)化器為Adam;學(xué)習(xí)率為1×10-4,每十輪次下降0.1倍,小于1×10-7時(shí)停止訓(xùn)練;權(quán)重衰減參數(shù)和動(dòng)量為1×10-5和0.9。
本文采用AADB[3]和AVA[4]兩個(gè)主流的美學(xué)評(píng)估數(shù)據(jù)集進(jìn)行性能測試。其中,AADB 數(shù)據(jù)集共有10,000張圖。每張圖像有一個(gè)整體美學(xué)分?jǐn)?shù)標(biāo)簽和11種屬性分?jǐn)?shù)標(biāo)簽。AVA 數(shù)據(jù)集共有255,530 張圖,每張圖像有一個(gè)美學(xué)分?jǐn)?shù)標(biāo)簽。
表1 展示了本文算法和現(xiàn)有美學(xué)評(píng)估算法[5-7]在AADB 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,“—”表示結(jié)果未在原文給出。如表1 所示,在現(xiàn)有方法中,方法[6]獲得了最大的PLCC 和SRCC 值及最小的RMSE 值,而本文方法采用ResNet-101 作為主干網(wǎng)時(shí),性能均優(yōu)于方法[6]。表2通過與現(xiàn)有算法[8-12]在AVA數(shù)據(jù)集上的對(duì)比試驗(yàn),同樣展示了本文算法具有最優(yōu)性能。綜上,本文算法具有最優(yōu)越的圖像美學(xué)評(píng)估性能。

表1 各方法在AADB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

表2 各方法在AVA數(shù)據(jù)集上的性能
為進(jìn)一步驗(yàn)證美感注意力特征對(duì)算法性能的貢獻(xiàn),表3 展示了采用ResNet101 和EfficientNet 作為主干網(wǎng)時(shí),本文算法在融合美感注意力特征前后的性能值。結(jié)果表明,無論選用哪種主干網(wǎng),融合注意力特征后都比融合前的性能好很多。這說明本文提出的美感注意力提取模塊的有效性。

表3 各主干網(wǎng)在添加美學(xué)注意力前后的性能對(duì)比
圖3 展示了本文美感注意力提取方法的效果。第一行是原圖像,第二行是提取的美感注意力圖。從圖3可以看出,本文方法獲取的美感注意力圖與人眼判斷圖像美感時(shí)的感知特性具有較高一致性。例如,當(dāng)觀察第一幅圖時(shí),人主要會(huì)關(guān)注女性的上半身,本文方法輸出的結(jié)果與其一致,其他圖像均可得到相同結(jié)論。

圖3 美感注意力可視化圖
本文提出了一種融合美感注意力的圖像美學(xué)評(píng)估算法,該算法可更好模擬人類視覺系統(tǒng)對(duì)圖像美學(xué)的判斷過程。該算法首先采用弱監(jiān)督學(xué)習(xí)的方法獲取美感注意力特征,然后將其與深度特征交叉融合。實(shí)驗(yàn)結(jié)果表明,該算法能夠更準(zhǔn)確的做出圖像美學(xué)評(píng)估,在圖像檢索和排序、智能剪裁和質(zhì)量優(yōu)化等方向具有廣闊的應(yīng)用前景。下一步工作中,將通過建立含有美感注意力標(biāo)簽的數(shù)據(jù)庫來訓(xùn)練更加準(zhǔn)確的美感注意力提取模型,以進(jìn)行更準(zhǔn)確的美學(xué)評(píng)估。