基于三支特征表示的抽象畫情感聚類分析

2024-03-21 02:00:00趙婧琦李宇蕊杜明晶劉靜瑋

計算機工程與設計 2024年3期

趙婧琦，李宇蕊，杜明晶+，劉靜瑋

(1.江蘇師范大學美術學院，江蘇徐州 221100；2.江蘇師范大學計算機科學與技術學院，江蘇徐州 221100；3.中國航天科工集團第二研究院七〇六所，北京 100854)

0 引言

長久以來，針對繪畫作品情感分析的研究備受關注。隨著計算機視覺技術的日益成熟，研究人員開始運用計算機進行大規模的繪畫情感分析[1]。

相對于具象畫，抽象畫采用的是無邏輯的創作風格和非具象的表現手法[2]。由于缺少具體物象的描述，因此其較難與特定的情感建立直觀聯系。這使得抽象畫的情感分析變得非常困難和復雜。該問題引起了諸多學者的關注，涌現了諸多采用監督學習方法的抽象畫情感分析的研究。監督學習表現取決于數據集規模和標注質量，但人工標注耗時且易受主觀影響。因此，無監督學習在抽象畫情感分析中具有極大的應用前景。

針對抽象畫的情感分析問題，本文提出了一種基于三支特征表示的多核聚類方法(multiple kernel K-means using three-way features，MKKM-3WF)。首先采用本文提出的基于三支決策的顏色特征表示方法和紋理特征表示方法以及改進的深度學習模型，分別提取抽象畫的顏色特征、紋理特征和高層語義特征；然后使用核函數構建不同特征的相似度矩陣；最后采用多核聚類算法完成多特征融合與圖像的情感劃分。

1 相關工作

1.1 抽象畫情感分析

本節主要探討抽象畫圖像情感分析領域的研究進展。該領域的早期研究深受自然語言處理工作的啟發。例如，Yanulevskaya等[3]將文本處理中的詞袋模型引入到抽象畫圖像處理中，提出了一套視覺詞袋表征框架，并運用支持向量機分類模型實現情感預測。Sartori等[4]將該算法運用到了業余抽象畫的情感分析中，也取得了良好的預測結果。在圖像情感分析中，紋理特征也扮演著至關重要的角色。文獻[5]通過所設計的特征濾波器提取這些灰度圖像的紋理特征，在此基礎上采用支持向量機進行情感分類。深度學習技術的出現給抽象畫情感分析注入新的動力。文獻[6]除了利用人工特征表示方式提取抽象畫圖像底層顏色、紋理特征外，還運用卷積神經網絡提取圖像的高層語義特征。白茹意等[7]在卷積神經網絡的基礎上引入遷移學習的思想，提取抽象畫圖像的高層語義信息。楊子文等[8]針對抽象畫圖像標注困難、標注較少的問題，提出了兩層遷移學習卷積神經網絡設計方案。上述抽象畫圖像情感分析工作均采用監督學習策略，而應用無監督學習方法的工作尚未得到廣泛關注。

1.2 三支決策

為解決現實世界中的不確定信息決策問題，Yao[9]提出了三支決策(three-way decisions，3WD)理論。近年來，學者們將三支決策進行了拓展，構建了諸多理論模型，如三支屬性約簡[10]、三支分類[11，12]、三支聚類[13，14]和三支沖突分析[15]等。針對混合型數據，胡聲丹等[16]將三支決策和主動學習思想引入標簽傳播算法中，提出了三支標簽傳播的半監督屬性約簡方法。Du等[17]結合序貫三支決策的思想，提出多步三支聚類方法。為解決q環正交模糊信息中的沖突問題，Li等[18]提出基于三支決策和粗糙集理論的三支沖突分析和解決模型。三支決策理論在處理復雜動態的不確定性問題方面得到了廣泛應用。該理論在信用評價[19]、文本分析[20]和推薦系統[21]等領域發揮著重要作用。但是，當前鮮有應用于圖像特征表示的相關工作。

2 基于多核的情感聚類

2.1 基于三支決策的顏色特征

本文選擇使用HSL顏色空間，該顏色空間基于人類對顏色的感知能力，更適用于圖像的情感分析工作。此外，相比于其它類似的顏色空間，如HSV顏色空間和L*a*b*顏色空間，HSL顏色空間在后續劃分操作中更具優勢。

HSL顏色空間將顏色分為3個分量：色調(Hue)、飽和度(Saturation)和明度(Lightness)。色調通過角度來表示，范圍為0°到360°。從0°的紅色開始，逆時針旋轉，經過120°的綠色和240°的藍色，然后回到360°的紅色。圓柱的直徑方向表示飽和度，圓柱軸心的飽和度為0，表示最低飽和度；圓柱邊緣的飽和度為1，表示最高飽和度。圓柱的垂直方向表示明度，圓柱頂部的明度為1，呈現白色；圓柱底部的明度為0，呈現黑色；圓柱中間部分的明度為0.5，表示中等明度，對應HSV中亮度V等于1的情況。

傳統的顏色量化方式采用的是硬化分的方式，將某個區間指定為某種顏色，即顏色量化采用二支劃分的方式(屬于或者不屬于)。這種劃分方式將導致非此即彼的問題，而人類對顏色的視覺感知具有模糊特性，因此會產生與人們視覺感知的偏差。本文采用三支決策理論來解決該問題。

下文將介紹本文提出的三支決策方案。首先，從HSL顏色空間中提取出3類不包含色彩信息的顏色，它們分別是白色、黑色和灰色。白色的范圍是明度L>0.95；黑色的范圍是明度L<0.05；灰色為明度處于0.05≤L≤0.95且飽和度S<0.1。

接下來，將針對剩余的顏色空間開展三支劃分。在H通道上，我們將依據人類對顏色的感知將色調設定為10個子集，并將它們命名為紅、橙、黃、綠、青、天藍、藍、紫、洋紅、玫紅。在S通道上，我們將飽和度設定為2個子集：不飽和與飽和。在L通道上，我們將明度設定為3個子集：暗、中、明。

(1)

(2)

通過笛卡爾積，可以將3個通道上的子集組合成60個HSV顏色空間的子集，再加上3種不含色彩的顏色子集(白色、黑色和灰色)，共63個顏色特征。

2.2 基于三支決策的紋理特征

本文提出一種基于三支決策的紋理特征表示方法可以有效地獲取抽象畫中的紋理信息。

首先，將抽象畫圖像轉換為灰度圖像，該灰度圖像表示為矩陣G。

接著定義4種濾波矩陣形式，分別是近似(低通)矩陣、細節(高通)矩陣、伴隨近似(伴隨低通)矩陣和伴隨細節(伴隨高通)矩陣。

近似矩陣A中各元素的定義如下[22]

(3)

式中：下標 (i，j) 被用來標識矩陣A的i行第j列的元素。

細節矩陣D中各元素的定義如下[22]

(4)

伴隨近似矩陣A?中各元素的定義如下[22]

(5)

伴隨細節矩陣D?中各元素的定義如下[22]

(6)

接下來，對灰度圖像矩陣進行二級小波變換，提取圖像水平、垂直和對角方向的信息。一級小波分解得到的低頻子圖的計算公式如下[22]

G′2n×2m=A?2n×4n·G4n×4m·A4m×2m

(7)

式中：下標2n×2m表示矩陣G′是一個2n行2m列的矩陣。其它矩陣的下標也采用這種表示方法標識矩陣的大小。

在子圖G′2n×2m的基礎上進行二級小波分解，所得水平、垂直和對角方向的子圖分別表示為TH、TV和TD，它們的計算公式如下[22]

(8)

類似于顏色特征的計算，紋理特征上的三支量化計算公式為

(9)

式中：[p1，p2]為紋理特征子集Ti的最小區間，[b1，b2]為其最大區間。

通過笛卡爾積，可以將3個方向的信息子集組合成8個紋理特征。

2.3 高層語義特征

本文提出VGG16的改進模型，用于提取抽象畫圖像中的高層語義特征。

為去除特征中無用信息和噪聲，在VGG16的輸出層之前增加一層包含10個神經元的全連接層。本研究在原VGG16最后一個全連接層(包含4096個神經元)和新增的全連接層(包含10個神經元)之間，增加了兩個全連接層。這樣做是為了讓網絡結構更穩定，并且增強模型的非線性變換能力和表達能力。兩個額外添加的全連接層的神經元個數分別為1024和256。本文最終目標是提取最后一層全連接層(包含10個神經元)上的權重，這樣的低維特征有助于提升后續處理步驟的效率和聚類精度。

2.4 多核k均值聚類

本文采用多核k均值算法(multiple kernel K-means，MKKM)[23]實現圖像的聚類。

在多核學習中，X={x1，x2，…，xn} 表示一個包含n個樣本的數據集。φp(·) 表示第p個特征映射函數，這類函數可以將數據從原始空間映射到新的特征空間。因此，數據x在m個特征函數的融合表達形式為φβ(x)=[β1φ1(x)T，…，βmφm(x)T]T，其中β=[β1，…，βm]T為m個特征函數的權重向量。因此，融合后的核函數形式如下所示[24]

(10)

式中：Kp(·，·) 為第p個特征映射函數φp(·) 所對應的核函數形式。

可以用上述核函數形式，把原始數據集表征轉換成核矩陣形式Kβ[24]

(11)

式中：Kp是第p個核函數所轉換的數據核矩陣。

在上述定義的基礎上，MKKM的目標函數可以定義為如下形式[25]

(12)

式中：H是一個聚類劃分矩陣，大小為n×k，其中n是樣本數目，k是聚類數目；In和Ik分別表示大小為n×n和k×k的單位矩陣；βp為權重向量β的第p個分量。

可以通過一種兩步迭代優化算法來自適應地更新權重β并求解式(12)的目標函數[26]。

(1)固定β，更新H。該種情況下，式(12)與下式等價[27]

(13)

可以通過特征分解進行求解，H的最優解為Kβ最大的前k個特征值所對應的特征向量。

(2)固定H，更新β。該種情況下，式(12)與下式等價[27]

(14)

可以將上述問題看作帶有線性約束條件的二次規劃問題，進而求解相應的β。

2.5 基于特征融合的聚類情感分析

基于特征融合的聚類情感分析框架如圖1所示。

圖1 本文方法框架

首先對抽象畫圖像進行預處理：將不同規格的圖像縮放為統一大小；將部分灰度圖像轉換到RGB空間中。

第一個核心階段是使用2.1節～2.3節描述的方法分別提取抽象畫圖像的顏色特征、紋理特征以及高層語義特征。

本文選用高斯核函數作為特征映射函數。高斯核函數是多核學習中最常用的核函數之一，其形式如下

(15)

式中：σ為高斯核函數的帶寬參數，控制著高斯函數的寬度。本文將該參數設置為1。

令K1、K2、K3分別表示使用高斯核函數對抽象畫圖像的顏色特征、紋理特征和高層語義特征計算得到的核矩陣?？梢允褂眉訖嗥骄姆绞降玫匠跏既诤虾司仃?，其形式如下

(16)

第二個核心階段是使用2.4節描述的MKKM聚類算法實現抽象畫圖像情感劃分。

3 實驗部分

3.1 數據集

本文選用廣泛應用于抽象畫情感分析領域的MART數據集和DeviantArt數據集[3，4]。MART數據集共包含500張專業的抽象畫作。DeviantArt數據集共包含500張業余愛好者繪制的抽象畫作。

3.2 基準算法

為了驗證所提方法的有效性，本文選擇了幾種性能優異的聚類方法作為基準。

PCA+k-means[28]：對原始圖像采用主成分分析(principal component analysis，PCA)進行降維，在降維后的特征上進行k-means聚類。本文將此種策略記作PCA+k-means。

UMAP+k-means[29]：對原始圖像采用統一流形逼近與投影方法(uniform manifold approximation and projection，UMAP)[30]進行降維，在降維后的特征上進行k-means聚類。本文將此種策略記作UMAP+k-means。

AE+k-means[31]：采用自動編碼器(AutoEncoder，AE)[32]對圖像進行特征提取，在提取的特征上進行k-means聚類。本文將此種策略記作AE+k-means。

DCEC[33]：一種經典的深度卷積嵌入聚類模型，該模型直接可以讀入圖像數據并給出聚類結果。本文將此種策略記作DCEC。

3.3 評價標準

為衡量聚類結果的好壞，本文采用3種常用的聚類評價指標：準確度(accuracy，ACC)、Fowlkes-Mallows指數(Fowlkes-Mallows index，FMI)和歸一化互信息(norma-lized mutual information，NMI)。

3.4 對比實驗

將本文的方法與4種基準聚類方法進行對比，表1展示了這些方法在MART和DeviantArt數據集上的聚類效果。從表1中可以看出，本文方法在ACC、FMI和NMI這3類指標上都顯著優于其它4種基準方法。在MART數據集上，本文方法的ACC指標達到了0.872，而4種方法的ACC值均低于0.7；本文方法的FMI值為0.807，其相較于4種基準方法平均提高了20個百分點；在NMI指標上，本文方法得分為0.46，超過4種基準方法一個數量級以上。而DeviantArt數據集上，本文方法的ACC指標達到了0.884，而4種方法的ACC值均低于0.6；本文方法的FMI值為0.819，其相較于4種基準方法提高了26個百分點以上；在NMI指標上，本文方法得分為0.543，同樣超過4種基準方法一個數量級以上。

表1 方法性能

綜上所述，該方法明顯優于其它基準方法，包括兩種基于深度學習的基準方法(AE+k-means和DCEC)。這充分說明在處理抽象畫圖像的情感分析問題時，采用多特征融合的聚類策略具有更為明顯的優勢。3種不同特征(顏色特征、紋理特征和高層語義特征)能夠捕捉抽象畫的不同方面或視角。多核聚類算法有助于發現這些特征之間的一致性和差異性，通過整合3種特征，實現信息的互補和校正，從而提供更全面、更準確的情感表征，最終達到更高的聚類精度。

3.5 消融實驗

本節通過消融實驗驗證本文提出的顏色特征表示方法和紋理特征表示方法的有效性。將本算法中基于三支決策的顏色特征分別替換為Itten顏色特征[34]和顏色命名特征[35]，并分別記作MKKM-Itten和MKKM-Name。將本算法中基于三支決策的紋理特征分別替換為GLCM紋理統計特征[36]和Tamura紋理特征[37]，并分別記作MKKM-GLCM和MKKM-Tamura。此外，還同時替換掉了顏色特征和紋理特征。將本算法使用顏色特征和紋理特征同時替換Itten顏色特征[34]和GLCM紋理統計特征[36]，將此種模型記作MKKM-IG。將本算法使用顏色特征和紋理特征同時替換顏色命名特征[35]和Tamura紋理特征[37]，將此種模型記作MKKM-NT。

表2展示了消融實驗的結果。從表中的聚類結果可以看出，本方案的聚類表現明顯優于改動方案。相較于基于顏色特征的改動方案(MKKM-Itten和MKKM-Name)，本方案在ACC、FMI和NMI上的平均提升分別為31個、24個和49個百分點。相較于基于紋理特征的改動方案(MKKM-GLCM和MKKM-Tamura)，本方案在ACC、FMI和NMI上的平均提升分別為15個、15個和26個百分點。相較于顏色和紋理特征同時改動的方案(MKKM-IG和MKKM-NT)，本方案在ACC、FMI和NMI上的平均提升分別為36個、26個和50個百分點。基于三支決策的顏色特征相較于兩種經典的顏色特征(Itten顏色特征和顏色命名特征)，在應對抽象畫情感聚類任務時具有明顯優勢。同樣地，基于三支決策的紋理特征相比于兩種經典的紋理特征(GLCM紋理統計特征和Tamura紋理特征)，也有較大提升。同時融合三支決策的顏色特征和紋理特征的方案相較于同時融合經典顏色特征和紋理特征的方案具有非常顯著提升，且優于僅改動一種特征的方案。這可能源于三支決策在不確定處理方面具有天然優勢。

表2 消融結果

綜上所述，本文提出的兩種圖像特征表示方式顯著提高了抽象畫的情感聚類分析表現。

4 結束語

本文提出了一種抽象畫圖像自動情感聚類方法。所提出的基于三支決策的顏色特征表示方法和紋理特征表示方法以及改進的深度學習模型能夠有效地提取抽象畫中的顏色特征、紋理特征和高層語義特征。多核k均值算法能夠自適應地融合從抽象畫圖像中提取的3種特征，并實現情感聚類分析。實驗結果表明，相較于4種基準方法，本文方法取得了更好的聚類表現。多模態環境下的情感聚類分析是未來的研究方向。