多特征融合的深度強化學習色彩增強方法

2022-07-13 07:51:58王帥鄭茜穎鄭巧

福州大學學報(自然科學版) 2022年4期

王帥，鄭茜穎，鄭巧

(福州大學物理與信息工程學院，福建福州 350108)

0 引言

圖像增強在計算機視覺和圖像處理領域歷史悠久. 圖像增強工作可以增強圖像的色彩、構圖、內容等. 目前圖像自動增強技術在醫學診斷、軍事偵察以及航空航天等各個領域發揮著重要的作用.

傳統的圖像增強方法包括直方圖均衡化和視網膜圖像增強等方法. 其中，直方圖均衡化不需要外部因素的參數設置，可以有效增強圖像對比度[1]. 但是該方法作為一種全局調整圖像地方法，不能有效地提高局部對比度，因而在某些情況下其效果不理想. 視網膜圖像增強方法在模仿人類視覺系統判斷圖像的真實顏色而不受光線干擾的情況下提出，主要解決圖像的顏色位移以及光照不均勻問題[2]. 上述兩種方法均屬于非監督算法，該類方法無需訓練樣本和標簽，但缺乏圖像內容信息的理解，即沒有考慮圖像的整體語義信息.

隨著深度學習的發展，出現了一系列基于深度學習方法的圖像自動增強研究. Bychkovsky等[3]提供包含5組專家修飾的MIT-Adobe FiveK數據集，并利用該數據集提出有監督式的圖像增強模型. Isola等[4]提出基于條件生成對抗網絡的像素級圖像翻譯方法，該方法將圖像轉換到不同的域，因此也適用于顏色增強問題. Yan 等[5]使用深度學習方法搭建深度卷積網絡，利用顏色和語義上下文信息構造全局和局部特征進行空間變換的顏色映射，從而生成特定風格的像素顏色. Gharbi等[6]提出基于雙邊濾波器的圖像增強網絡HDR-Net，使用神經網絡提取多種特征，并利用雙邊濾波器存下線性變換的系數. 該方法使用局部線性變換的思路，魯棒性好，使用雙邊網格，保證在得到較高質量圖像的同時，也減少了計算量. Zamir等[7]提出一種基于卷積神經網絡的MIR-Net模型，該模型通過使用多尺度殘差模塊，可以在結合多個尺度上下文信息的同時保留圖像的高分辨率空間細節. 基于深度學習的方法可以有效地理解圖像的整體語義信息，最終輸出滿意的結果，然而，神經網絡作為一個黑匣子，圖像可解釋性較差，無法充分理解圖像增強過程，為此，產生了一系列結合深度強化學習的圖像增強方法.

深度強化學習(deep reinforcement learning, DRL)算法在游戲競賽、機器人控制、計算機視覺和自然語言處理等多個領域取得了滿意的效果[8-10]. Park等[11]提出一種基于深度Q網絡的Distort-and-Recover 色彩增強方法，通過使用不同的濾波器修飾圖像，并對專家修飾圖像進行非線性變換，得到訓練圖像對, 解決了配對資源稀缺的問題. Hu等[12]提出基于Actor and Critic網絡的Exposure圖像增強方法，通過學習一組圖片風格進行圖像風格增強操作，實現了可視化圖像修飾過程. Furuta等[13]提出基于Asynchronous Advantage Actor-Critic的圖像增強方法，該方法使用并行智能體操作，即為每個像素分配一個智能體，智能體可執行操作更改像素值. 該方法對A3C算法進行了拓展，使其可以在圖像細節, 比如圖像邊緣和背景噪聲等部分得到更準確的結果, 但其缺點也是明顯的，過多的智能體表明具有較大的計算量，并且難以部署至實際應用中.

深度強化學習的圖像可解釋性較強，但是基于深度強化學習的圖像增強算法中獎勵構造較為困難. 現有的基于深度強化學習的圖像增強方法在設計收益問題時，大部分只是通過比對目標與圖像對的像素間距離，這種做法會默認像素獨立，不足以評估結構化輸出問題. 針對此問題，提出在深度強化學習方法中構造感知獎勵判別機制，并搭建一個用于圖像色彩增強的深度強化學習框架.

本研究工作主要包括以下4個方面.

1) 提出基于深度強化學習方法的色彩增強方法，實現多特征融合的預測模型.

2) 提出的深度強化學習的增強模型獎勵中引入深度特征，從而更準確的感知圖像質量.

3) 提出結合美學訓練模型的獎勵判別機制，通過評分概率計算美學相對距離.

4) 根據實驗結果提出色彩增強模型，在結構相似度和平均均方誤差上優于其他基線算法.

1 色彩增強方法

將色彩增強過程視為智能體與環境的迭代交互過程. 智能體根據當前圖像選擇待修飾濾波器，改變當前環境中的圖像狀態并得到及時獎勵. 將上述過程建模為馬爾可夫決策過程，以得到最大累積獎勵.

本研究的圖像增強方法如圖1所示.

圖1 圖像增強過程Fig.1 Image enhancement process

智能體評估網絡依據當前圖像It做出采樣動作a，得到修飾圖像It+1、獎勵值r、將狀態s、動作a、及時獎勵r以及下一狀態s′構成的序列(s,a,r,s′)存入回訪緩存中，待得到最優圖像后將經驗取出更新智能體網絡參數θ. 該方法主要是基于近端策略優化算法(proximal policy optimization, PPO)[14]，對PPO算法策略輸出的內部結構以及獎勵模型進行修改. 本節首先簡要介紹PPO算法，指出相對于PPO算法的改進，然后對本色彩增強方法中的結構進行詳細描述.

1.1 近端策略優化算法(PPO)

PPO算法將約束條件更改為懲罰項，不必計算其共軛梯度，相比于其他深度強化學習算法更穩健. PPO算法的目標函數如下：

(1)

L的最大化將會導致一個無約束條件下的較大策略更新.為此，通過增加一個約束項來重新定義目標函數.此時，目標函數變為

(2 )

在使用神經網絡結構時，目標函數必須包含值函數誤差的損失函數，同時還增加熵損失來確保進行足夠的探索. 因此，PPO算法的最終目標函數為：

LCLIP+VE+S(θ)=Et[LCLIP(θ)-c1LVE(θ)+c2Sπθst]

(3 )

其中：c1和c2是系數；LVE為實際值函數與目標值函數之間的均方差；S為熵的獎勵.

1.2 智能體評估網絡

圖 2 智能體評估網絡框架Fig.2 Evaluation network framework for the agent

智能體評估網絡框架主要由4部分構成，分別是語義特征模塊、顏色特征模塊、累積動作池模塊以及預測模塊. Park等[11]的工作指出對于照片修飾工作，專業人員考慮的照片信息特征是非常重要的. 因此需要充分考慮圖像的整體信息特征. 智能體評估框架結構如圖2所示.

圖2左側為語義特征模塊. 圖像的語義特征是基于預訓練分類網絡VGG19的隱藏層實現的. 最底層為輸入圖像，經過圖像預處理操作將圖像尺寸及像素值進行調整，輸入經由在ImageNet數據集的預訓練模型中的FC 4 096層輸出向量表示vcontent.

圖2中間部分為顏色特征模塊. 最底層輸入RGB色彩空間圖像，經由轉換模塊將其轉換為CIELab顏色空間圖像. 相比于RGB格式，CIELab格式具有更加充分的顏色數值信息. 為了降低模型復雜度與參數量，圖像經過顏色直方圖計算后，將其線性量化為20 × 20 × 20的向量表示vcolor.

圖2右側部分為動作池模塊. 專家修飾圖像時，除了考慮當前圖像的整體信息外，歷史動作對圖像的整體修飾也有幫助作用. 因此加入長度為12的歷史累積動作特征向量表示vact, 用于記錄智能體在每輪episode中執行動作前的各個動作的累計采樣頻次.

預測模塊的作用是利用上述3個模塊的輸出，給出當前圖像的策略π(a|s;θ)與價值函數V(s;θ).首先拼接上述3個模塊的輸出向量表示vcontent、vcolor、vact，其次將拼接好的向量通過多層感知機(MLP)輸出最終的π(a|s;θ)與V(s;θ).由于色彩增強過程中的智能體評估模塊只是更改了π(a|s;θ)與V(s;θ)的計算方式，因此可以繼續使用PPO算法的更新策略.

1.3 獎勵模型

在深度強化學習任務中，目標通過累積獎勵進行表示. 獎勵作為一個特殊的觀測標量，代表著環境對智能體依據當前狀態做出行為后的瞬時測量. 絕大多數的目標都可以通過設計合理的獎勵函數得以實現[15]. 在色彩增強的智能體環境中，環境需要根據智能體執行的行為，合理給出當前決策的質量. 智能體決策行為的目的是為了接近目標圖像，采樣某一行為并進行優化圖像后，如果靠近目標圖像，則應該得到合適的正向獎勵，反之，則必須接受懲罰. 研究人員發現，收益的大小與評估指標有關[15].

1.3.1圖像重建獎勵

判斷圖像在CIELab色彩空間的歐式距離，即使前后兩步操作使圖像重構距離縮小程度較小，也會鼓勵智能體積極探索，增大可行性動作概率，即：

(4)

其中：MSE為計算圖像間的均方誤差；Lcurr、Lprev與Ltar分別為當前圖像，上一步被修飾圖像以及目標圖像的Lab顏色模型.

1.3.2基于深度特征的感知獎勵設計

Zhang 等[16]證明在監督、半監督以及無監督的分類任務中，深度特征在模擬低層次感知的相似性比以往廣泛應用的方法表現都好.

如圖3所示，本研究采用VGG16預訓練模型的部分激活網絡層提取當前圖像I與目標圖像Itarget的深度特征(f1、f2、f3、f4、f5)，作為獎勵模型的輸入.

圖3 基于VGG16的深度特征提取網絡Fig.3 Shallow feature extraction network based on pretrained VGG16 model

由于不同網絡層取出的深度特征對圖像變化有不同的“敏感度”，因此要將展開后的特征向量賦以不同的權重ω. 從激活層提取到的特征點轉換為特征向量，將被修飾圖像與目標圖像的特征向量進行余弦相似度計算，然后判別前后兩步的得分差，即：

(5 )

式中：Rp為當前時刻t的獎勵值, 獎勵值范圍為[-2, 2]；N為特征數；ω為權重值；F為VGG16網絡函數, 它輸出部分激活層的特征值；I為輸入圖像.其中，余弦距離函數cosine的公式為：

(6 )

式中：A1和A2為特征向量.

1.3.3基于美學估計模型的評分獎勵設計

由Google提出的美學評分模型(neural image assessment, NIMA)[17]可以評判當前圖像的美學得分，其網絡輸出10個美學等級的概率p=[ps1,ps2, …,ps10]，其中si代表美學等級，由低至高美學程度逐漸提升.

采用在AVA數據集的預訓練模型NIMA來增強圖像質量的感知能力. 選擇使用推土距離(earth mover’s distances, EMD)計算被修飾圖像與目標圖像的美學感知距離，通過判斷前后兩步的推土距離得到當前步數t：

(7 )

1.3.4懲罰因子

在實驗中發現，智能體選擇動作較為聚斂，這是因為強化學習中的動作后期探索率較低，強化學習中的開發和探索是一種相互權衡的關系. 為了防止智能體只學習單一動作，缺少對其他動作的學習，陷入局部最優的情況，加入一項懲罰函數. 動作較為單一即熵值較低，將懲罰因子R′定義為：

(8 )

其中：a,s分別為智能體選中動作和當前狀態；A,S屬于所有動作組和狀態組.

最終的及時獎勵R是以上所有獎勵的和，即：

R=Rdist+Rp+Raes-R′

(9 )

1.4 實驗偽代碼

下面是本次色彩增強過程的訓練偽代碼.

算法1: 圖像色彩增強過程訓練方法1: 初始化回放緩存2: 初始化智能體評估網絡參數θ3: while 當前episode小于最大episode: 4: 初始化訓練圖像對5: for當前步數小于最大步數: 6: 根據智能體策略采樣動作, 獲得獎勵, 進入下一狀態7: 存儲狀態轉移( st, at, rt, st+1)到回訪緩存中8: if V(s)<0:9: 結束當前episode10: 結束if判斷11: 循環更新8次: 12: 計算優勢函數估計量, 更新策略網絡參數θ13: 清空回訪緩存14: 結束for循環15: 結束while循環

2 實驗結果與分析

2.1 實驗環境及參數設置

采用Python 3.7編程語言和Tensorflow 1.15深度學習框架建立網絡. 所有的實驗均在單張NVIDIA GeForce GTX 1 080Ti顯卡上完成訓練.

修飾動作采用Distort and Recover方法[11]的12個修飾動作，包括對比度、飽和度、亮度及色溫等操作.

PPO網絡采用Actor-Critic共享網絡結構訓練，其中前4層的全連接層維度分別為4 096、4 096、2 048、1 024，每層均連接線性整流函數(rectified linear unit，ReLU)，最后Actor網絡輸出維度為12的后接Softmax層概率值，Critic輸出維度為1的狀態價值.

為了防止訓練過程中梯度爆炸或者梯度消失現象，圖像在輸入網絡前需要進行圖像預處理操作. 圖像尺寸大小設置為(224，224)，像素值范圍設置為(0，1).

除獎勵模型外，智能體網絡需要從零開始訓練. 本次訓練采用多線程操作，采取6個線程分別進行經驗的采集，每個線程同時采樣4組照片進行采樣修飾，每輪episode采用的最大步數為50，當超過50步或者滿足終止條件V(s)< 0時，環境重置，智能體重新進行采樣操作，共訓練300 000輪episode.

智能體網絡的優化器選用Adam優化器，網絡采樣的最小批次為64，初始學習率設置為1×10-4，每3 000步衰減0.97倍，最小學習率設置為1×10-8. 對估計優勢函數的裁剪clipε為0.2，折扣因子設置為0.96. PPO算法目標函數中c1設置為1，c2設置為0.001.

2.2 數據集及評價標準

本次實驗選擇Bychkovsky等提出的MIT-Adobe FiveK數據集[3]. 作者收集了5 000張由不同攝影師用單反相機拍攝的照片. 這些圖像涵蓋了廣泛的場景、主題和照明條件. 作者又聘請5位專家(A/B/C/D/E)，使用Adobe Lightroom軟件對所有圖像進行潤色，最終使圖像產生令人愉悅的渲染效果. 專家C得到了最高的平均意見得分(mean opinion score, MOS)，因此在本次實驗中，采用專家C潤色的圖像作為目標圖像. 為了保證實驗的公平性，本研究隨機選擇250組圖像對作為測試圖像，其余的4 750組圖像作為訓練圖像.

為了做定量比較，選擇使用RGB色彩空間上的結構相似度(structural similarity, SSIM)、峰值信噪比(peak signal to noise ratio, PSNR)，以及CIELab色彩空間的meanL2error作為評價指標，以此與之前的算法進行定量和定性的比較，評價本算法的整體性能表現.

2.3 實驗結果

2.3.1客觀評價

為了驗證本方法的有效性，在MIT-Adobe FiveK數據集上進行對比試驗. 為進行一個全面的實驗，加入一些深度學習基線方法進行定量比較. 表1將本方法與所有領先的成對訓練方法進行比較，加粗的數字代表最好的結果，NA表示參考論文中未給出相關指標的測試數據. 由于文章中并非所有的實驗都是在相同的條件下進行的，在表格中進行了詳細的說明.

如表1所示，在CIELab色彩空間的meanL2error評價標準與RGB色彩空間的SSIM評價標準均優于其他算法，說明本算法能更好地平衡圖像的色度、飽和度以及清晰度. 盡管在RGB色彩空間上指標PSNR沒有達到最高，但是它仍然處在一個可接受的范圍，圖像質量總體來說符合圖像色彩增強的要求.

表1 MIT-Adobe FiveK數據集上指標對比

2.3.2可視化比較

圖像增強結果如圖4所示，該圖選用文獻[7, 11-12]中的圖像增強方法與本方法進行比較. 本研究選取人像、物體、風景、復雜場景、夜景5個場景的測試圖像. 文獻[7]方法不適用于調整任意尺寸圖像，并且在本測試集中整體圖像偏白，表現不太自然，由于需要調整圖像尺寸，所以被修飾圖像整體輪廓不夠清晰. 經文獻[11]方法處理后的圖像整體視覺效果有一定的提升，解決人像中環境色溫的干擾. 但是在簡單物體圖像中亮度較低，增強效果不明顯，導致最終整體圖像不夠清晰. 文獻[12]方法整體看來圖像具有較高的曝光度，導致圖像細節部分缺失，比如纜樁圖像中的“頂部”位置，該算法在人像圖中受到原圖的影響造成圖像色彩發生偏差，違背主觀審美. 經本方法處理后的圖像在人像圖中與專家修飾圖像較為接近，不僅在物體圖像中提升圖像的亮度，而且突出圖像的輪廓等細節部分，在風景圖像以及夜景圖像中均未發生過度增強的情況，并且也能較好的提高復雜場景的整體視覺表現.

通過這幾組圖像可以發現，本方法在人像、簡單以及復雜場景都具有較強的適用性，并且經過本算法增強后的圖像在整體的自然度以及細節方面均表現良好，圖像中的目標、景物更突出，整體輪廓更鮮明，物體更真實. 然而對于夜景圖像的色彩提升，相較于其他方法還有待改進.

圖4 隨機采樣測試集上與文獻[7, 11, 12]模型的定性比較Fig.4 Qualitative comparison with the literatures[7, 11, 12] model on the randomly sampled test set

為驗證本模型在實際應用中的效果，繪制了實際圖像的增強效果圖，如圖5所示.

圖5 實拍圖像色彩增強比較Fig.5 Comparison of color enhancement of actual captured images

本次實驗選用榮耀20系列手機實際拍攝的圖像進行測試，并采用Google提出的美學評分模型(neural image assessment, NIMA)[17]進行美學評分, 分為圖5(a)、5(b)和圖5(c)、5(d)兩組圖像列于圖5. 其中，圖5(a)與圖5(c)為手機拍攝圖像，圖5(b)與圖5(d)為增強圖像，前2行為第3行圖像中紅框中的細節部分，對應數字為美學評分. 從圖中可以看出，增強后的圖像整體表現自然，細節保留完整，具有適當的色彩提升. 從美學評分中可以得出，本模型具有一定美學意義上的增強效果，提升了圖像整體的視覺吸引力.

圖6為實拍圖像(圖6(a)、6(b))與修飾圖像(圖6(c)、6(d))的圖像直方圖分布. 其中，圖(a)和圖(c)分別為全通道實拍圖像與修飾圖像直方圖，圖(b)與圖(d)分別為單通道實拍圖像與修飾圖像直方圖. 從圖中可以看出，實拍圖像的黑色和白色區域缺少像素，而修飾圖像將直方圖從最暗的黑色區域一直延伸到了最亮的區域，使得照片更具有層次感.

圖6 圖像直方圖分布Fig.6 Image histogram distribution

2.3.3消融實驗分析

為驗證深度感知特征與美學模型對圖像色彩增強方法的影響，進行消融實驗. 實驗采用對不同特征獎勵進行組合的方式，分別保留Rdist、Rdist+Rp、Rdist+Raes、Rdist+Rp+Raes在MIT-Adobe FiveK數據集上的增強效果.

表2 不同色彩增強方法的SSIM 指標對比

消融實驗的結果如表2所示. 從實驗中可以得出，深度特征在判定圖像相似性時要優于點對點的像素距離以及美學特征. 同時，Rdist+Rp+Raes在結構相似度的評價指標上要優于其他方法，這表明深度特征以及美學特征有助于模型對圖像質量的判斷，同時也說明融合了深度感知特征與美學模型的模型可以提升圖像的色彩增強效果，提高圖像視覺質量.

3 結語

提出基于深度強化學習的色彩增強方法，并成功結合深度特征與美學特征重構收益模型，提升圖像的感知質量. 通過預訓練分類模型激活層網絡提取深層特征，使用余弦距離獲得圖像間的深度感知距離；利用美學模型獲得圖像間的概率距離. 結合兩方面的距離表示, 將其用于近端策略梯度獎勵構造中，并設計新的PPO網絡融合圖像的多種特征. 在MIT-Adobe FiveK數據集上的實驗結果表明，本色彩增強方法在結構相似度和平均均方誤差上優于其他基線算法，盡管在RGB色彩空間上峰值信噪比指標沒有達到最高，但是它仍然處在一個可接受的范圍，圖像質量總體來說符合色彩增強的整體要求.