圖像美學質量評價模型的可解釋性分析

2022-07-26 01:28:56董柏巖李熹橋金鑫

中國傳媒大學學報(自然科學版) 2022年3期

董柏巖,李熹橋,金鑫

（北京電子科技學院，北京 100070）

1 引言

圖像美學質量評價是利用計算機模擬人類對美的感知與認知，自動評價圖像的“美感”，分析圖像在構圖、顏色、光影、景深、虛實等美學因素影響下所形成的美感刺激［1］。最初的研究基于人工設計的美學特征，通過設計的視覺特征，擬合人類對圖像美學質量的評價，進行圖像的美感分類與評分［2-6］。2014年以來，圖像美學質量評價的研究工作進入了深度學習時代，研究人員改造了多種用于圖像識別的卷積神經網絡，并且將圖像風格、圖像內容等額外信息顯式或隱式地建模于改造后的卷積神經網絡中，這種方式構建的圖像美學質量評價模型取得了更優秀的效果［7-11］。

神經網絡可解釋是人工智能3.0的新要求，目標在于使得人工智能算法更加透明可靠，特別是在醫療、金融和軍事領域。深度學習模型在訓練過程中，使用了大量的數據優化模型參數，但是神經網絡中間神經元個數、網絡的深度、全連接層的設置等神經網絡參數會如何影響結果還需要依賴專業研究人員的工作經驗。目前基于深度卷積神經網絡圖像設計的美學評價模型可解釋性不強，這不利于圖像美學評估的進一步研究。

本文使用深度學習解釋性研究中事后解釋性的幾種方法對圖像美學單一評價模型進行一定的解釋，包括特征圖可視化、類激活圖可視化、層級相關性傳播方法。通過特征圖可視化理解了淺層和深度網絡模型的學習重點。對模型類激活圖進行可視化，證明了經過注意力模型，網絡模型更加關注圖像主體。通過相關性歸因算法，發現了當前模型對圖像中光影、輪廓等高級語義信息敏感度較強。通過對圖像美學評價模型進行解釋，既可以獲得美學指導，也可以根據網絡的特性對模型進行修改。

2 可解釋性方法簡介

在許多計算機視覺任務中，卷積網絡的性能已經遠遠超過傳統模式識別算法。但相比傳統算法，深度卷積網絡可解釋性低。在一些關鍵領域，如醫療、航空和軍事領域，許多實際應用都要路經模型背后的決策過程和決策依據，才能避免一些嚴重威脅。如果飛機巡航程序缺乏合理的解釋性，可能會在一些環境突變的情況下給旅客造成生命危險。在日常生活中，手機面容解鎖已經成為公眾接受的方式，但是一些研究表明，構造對抗樣本即可將面容識別模型的結果更改，這其實也是因為面容識別模型的可解釋性低。

為了使人工智能算法更加透明和可靠，更安全地將模型落地，近年來，許多科研人員針對模型可解釋性提出了不同的方案。這些方案可以分為事前解釋和事后解釋兩種。事前解釋一般是通過在算法設計時加入可解釋模塊進行的。深度卷積神經網絡由于隱含層較多，透明性低。通過在網絡結構引入注意力機制是一種行之有效的可解釋性方法。注意力機制是對人腦認知方式的模擬，由于大腦信息處理水平的局限性，人類會對輸入信息進行篩選，處理信息中重要部分，忽略不必要信息。神經網絡的注意力機制是建立對輸入的注意矩陣，重要部分權重大，通過反向傳播，注意矩陣也會不斷調整，最終體現了對結果影響最大的區域。比如在自然語言處理領域，Bahdanau［12］等人將注意力機制引入到基于編碼器-解碼器架構的機器翻譯中，有效地提高了“英語-法語”翻譯的性能。在編碼階段，機器翻譯模型采用雙向循環神經網絡將原語言編碼到向量空間中；在解碼階段，注意力機制為解碼器的隱藏狀態分配不同的權重，從而允許解碼器在生成法語翻譯的每個步驟選擇性地處理輸入句子的不同部分。最后通過可視化注意力權重，用戶可以清楚地理解一種語言中的單詞是如何依賴另一種語言中的單詞進行正確翻譯的。

事后解釋主要是在模型訓練結束之后，通過可視化、參數分析對比實驗解釋模型。分為兩類，一類是全局性解釋，另一類是局域性解釋。全局性解釋通過可視化解釋每個神經元的狀況來理解神經網絡的有效性；局域性解釋主要是理解圖片分類的原因，只關注輸入圖像的部分區域。

針對神經網絡的常見全局性解釋方法有模型蒸餾、激活最大化等。深度卷積網絡的復雜度高，從全局進行解釋的難度高。模型蒸餾是將復雜的大模型學習到的知識遷移到簡單的小模型，其目標是在保證模型泛化能力的前提下將復雜模型進行濃縮。小模型可以采用可解釋性強的模型，比如決策樹、淺層神經網絡。模型蒸餾主要的難題是表達能力弱的小模型難以將從大量數據得到復雜特征進行表達，因而導致小模型性能較低。激活最大化是將卷積神經網絡中間的特征圖進行可視化，從圖像的視覺語義信息直觀地理解神經網絡的內部邏輯。常見的局部解釋算法主要有 LIME［13］、Scaliency Maps［14］、LRP［15］、Deep-LIFT［16］幾種，其中LIME是一種和模型無關的局部可解析性算法。主要思路是基于想要解釋的部分模型及樣本來構建局部的簡單模型。該方法適用于特征易于解釋的情況。具體做法是對樣本進行可解釋的擾動，得到若干個擾動樣本，然后再將這些樣本還原到特征空間中，建立局部模型。比如在動物分類任務中，只保留動物的頭部或者尾巴，生成新樣本。然后對只保留頭部的圖片作出預測，生成真實值。最后將新樣本和所對應真實值進行簡單建模，觀察樣本對于結果的影響。

3 美學單一評價模型簡介

圖像美學質量評價從美學特征提取方式來看可分為基于傳統視覺算法構建美學規則和基于深度學習構建美學模型兩個階段。前期的圖像美學質量評估主要是基于人類對圖像特征和攝影規則的審美感知來人工設計特征，包括三分法則［17］，圖片的景深［18］和平衡性［19］等。自深度學習在計算機視覺其他領域的任務表現出色之后，國內外研究者開始使用深度神經網絡來提取美學特征［20-22］，雖然可解釋性比人工設計要低，但是基于深度學習的圖像質量評價的效果得到了大大的改進。

目前圖像美學質量評價的研究主要集中在以下兩類，一類為美學分類、美學單一數值評價、美感分布預測等數值型評價研究；一類為與美學語言評論生成相關的自然語言處理研究。其中，單一數值評價是給出原始輸入圖像的美學評分或者屬性評分。本文所介紹的圖像美學單一評價模型基于深度學習，包括了注意力機制以及美學評分分類化兩個部分。注意力機制是對人類視覺機制的有效模擬，在自然語言處理中，句子中的“美好”和“樂觀”等詞語比“生活”這類詞更有意義地決定了評論的情感。在神經網絡中增加注意力模塊可以有效提高模型的表達能力和模型可解釋性。引入美學評分分類化則是為了美學分類指導美學回歸任務。主要的依據是美學分類是弱分類，類別之間不像物品識別一樣具有嚴格的界限。因此采取先分類再回歸的方法，可以提高美學單一數值評價的性能。

如圖1所示，神經網絡模型主要分為三部分，分別為：特征提取部分、注意力部分以及分類回歸部分。特征提取部分采用效率高的EfficientNet［23］，注意力部分采用位置注意力和通道注意力相結合的方式，分類回歸部分的設計為先分類再回歸。

圖1 圖像單一數值評價網絡模型示意圖

EfficientNet是一種通過網格搜索深度、寬度和分辨率尋找到最佳比例的網絡，其效率高、速度快。對于圖像美學而言，更多參數的卷積神經網絡將有助于多主體的圖片特征的提取。模型使用雙路的并行注意力機制，包括位置注意力和通道注意力。原因是圖像美學質量評估中，圖像中各個物體的位置及相對關系和圖像整體的顏色、光照、深度都會對圖像美學質量結果有較大的影響。因此使用建立圖像的特征關系的位置注意力和通過將不同通道的依賴性進行學習來增強特征圖的表達能力。在特征提取部分的特征圖通過注意力模塊之后，通過級聯的方式將特征聚合，綜合了多個位置、多個通道的多尺度信息。分類回歸部分是在聚合特征之后使用全局池化層（Global Average Pooling，GAP），主要原因是使用全連接層會在迭代若干次之后使得模型出現過擬合的現象，而使用GAP層可以實現有效的抗過擬合效果，準確率變得穩定。位置注意力網絡模型如圖2所示。

圖2 位置注意力示意圖

4 神經網絡的特征圖可視化

卷積網絡在訓練中學習了圖像中的各種空間結構，將特征圖進行可視化有助于更好地理解深度網絡。在本節中，將直接可視化網絡每層的特征圖，觀察特征圖隨著網絡深度的變化，并且通過轉置卷積在輸入圖像中得到映射。

轉置卷積操作能夠使特征圖在原始輸入找到對應位置，主要是因為神經網絡在前向傳播時，每個卷積的輸出都依賴輸入的區域。如圖3所示，Layer1綠色區域以外的值不會影響Layer2綠色區域的值。

卷積的前向傳播就是轉置卷積層的反向傳播過程，兩者正好是相反的。卷積層可以理解為一個稀疏矩陣，卷積核以外的都為0。卷積核內部為需要學習的參數。假設輸入圖像為A，卷積層為X，那么卷積后的結果為AX=B。

反卷積操作的主要難點是，一般來說，為了提高模型的泛化能力，卷積網絡會在卷積層之后使用池化操作來降低卷積層輸出的特征向量。最大池化方法是最常用的池化操作之一，是一種不可逆的操作。因此在反卷積之后需要近似的進行反池化，也就是將特征圖最大激活值的位置進行記錄，其他區域賦值為0。

圖4 反池化示意圖

圖5為特征圖可視化的流程圖，輸入的圖像為一幅沙漠風景圖，圖片內容顯示正值中午，有幾個人騎著駱駝在沙丘的頂峰行走。通過可視化特征層，并將特征層映射到原始輸入圖像中，可以發現網絡淺層部分確實將沙漠、天空、甚至陰影部分的紋理學習到了；而深層部分關注的是沙漠的流動性，并學習到了背景和前景的區別。

圖5 特征圖可視化流程

圖6為有代表性的特征圖。可以得出以下幾條規律：

圖6 代表性特征圖

（1）淺層網絡主要提取紋理、顏色、細節特征。

（2）深層網絡主要提取輪廓、形狀特征。

根據可視化的結果與對感受野的理解，得出結論：出現這種情況的原因是淺層網絡感受野較小，對應的像素區域也較小，能夠利用更多的細粒度特征信息捕獲更多細節。而深層網絡，由于下采樣或卷積次數逐步增加，感受野逐漸增加，感受野之間的重疊區域也不斷增加，此時的像素點代表的信息是一個區域的信息，獲取的是這塊區域或相鄰區域之間的特征信息，對應語義信息，細粒度相對不夠。特征圖可視化不能完全解釋神經網絡，但通過這種方法可以發現卷積神經網絡學習的特征是呈現分層特征，淺層網絡抽取圖像的具體特征，而深層網絡呈現圖像抽象特征，這個過程與人類認知一致。這對未來設計美學深度模型提供了指導，比如針對圖像色彩評價可以利用淺層特征，有效防止過擬合。

5 類激活圖的可視化

類激活圖可視化,是一種神經網絡解釋方法，通過對輸入圖像生成類激活的熱力圖來表示每個位置對該類別的重要程度，有助于通過可視化把握輸入圖片的不同區域對預測結果的影響程度。

類激活圖利用特征圖權重疊加的原理進行可視化。具體而言，就是將神經網絡結構中的全連接層更換為全局平均池化加全連接層。全局平均池化層的工作原理是將池化層的滑動窗口設置為與特征圖的尺寸一致，這種做法可以理解為將特征圖每一通道壓縮為一個值。在神經網絡中使用全局平均池化層可以使得模型參數大大減少，運行速度更快，有效防止過擬合。

類激活的主要公式為：

重新推導此過程：A表示網絡最后的卷積層輸出，大小為w*h*n，其中w為最后小全連接層的權重,C為類別數。經過一個全局池化層得到：1*n,然后經過一個權重為n*c的小全連接層，得到大小為1*c的分類向量。最后高亮圖片中對分類最重要作用的區域，得到圖像的類激活圖。

在本節中使用類激活圖可視化方法評測美學單一評價模型中注意力機制的有效性。圖7中第一列為原始輸入圖像，第二列為輸入圖像只通過特征提取層的結果，第三列為輸入圖像通過注意力機制后的特征圖。顏色越靠近紅色，說明影響越大；顏色越藍則說明影響越小。可以發現，在經過位置注意力和通道注意力之后，神經網絡可以定位到主體上，且主體對結果的影響增大。合理利用注意力機制可以有效提升神經網絡性能。

圖7 類激活圖結果

6 相關性歸因

基于梯度的方法對卷積神經網絡的結果進行歸因，是可解釋性神經網絡的主要方法。一個成熟的歸因方法要滿足敏感性和實現不變性。敏感性是一個歸因方法對于所有的輸入和基準輸入都應該滿足敏感性，即對不同的輸入特征，產生不同的預測結果時，不同的特征所對應的歸因（屬性）非0。實現不變性是指如果兩個完全不同的方式實現的網絡對于所有輸入、輸出都相等，則兩個網絡在功能上是等效的。

層級相關性傳播方法是一種試圖將分類器結果在原始輸入圖像上找到對應關系，得到圖像中每個像素的決策權重的方法。層級歸因化是一種貢獻傳播方法，該方法首先利用加性模型計算高層特征對模型預測結果的貢獻，然后通過反向傳播將高層特征的貢獻逐層傳遞到模型的輸入，以確定每一層的每一個神經元節點對其下一層神經元節點的相對貢獻。該方法將模型高層特征分解為多個多維向量，且每個多維向量對應一個相關性分值，然后將相關性分值遞歸地傳播到低層。基于梯度反向傳播的解釋方法雖然充分利用了模型的結構特性，但無法實際解決預測函數梯度小導致激活函數失真的問題，因此這類解釋方法依然存在許多人類無法理解的噪音。而基于重要性或相關性的反向傳播方法不要求激活是可微的，可以有效解決該問題。

本節運用層級相關性傳播方法計算標簽與輸入圖像的關聯，并將結果可視化。如圖8顯示，原始輸入圖像中光影、輪廓等信息對預測結果影響權重大。第一幅圖畫面前景部分為動物，背景為烏云，通過層級相關性可以發現這類肖像圖前景主體對結果的影響比背景大。從第二幅圖像和第三幅圖像的結果可以看出光影變化的位置比圖像中同色調的部分對結果的影響權重大。第4幅圖是一把輪椅在懸崖上，輪椅的位置在圖像的三分位置，畫面中其余部分表現了一種靜謐陰森的感覺。從可視化結果來看，模型可以準確的識別畫面的主體。

圖8 層級相關性結果

7 總結

本文運用當前深度學習領域前沿的可解性方法對圖像美學單一數值模型進行解釋。主要使用了基于梯度的類激活圖可視化、上卷積網絡提取特征圖、層級歸因算法三種方法，并對三種方法展現的結果進行解釋。進行可解釋性工作一方面證明了模型性能變好的依據，比如注意力機制使得卷積網絡更加關注圖像中主體，而不是關注圖像中無用信息。一方面在解釋模型之后可根據輸出結果的特性對模型進行改進，同時在模型解釋的過程中可以提供對美學的指導。