張博文,夏振平,周波,宋玉,馬鳳云,柏溢
(蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215009)
視覺是人類獲取外界信息的重要渠道,顯示系統(tǒng)則是當今人們獲取視覺信息的主要途徑之一。隨著科學技術的不斷發(fā)展,人們對于顯示系統(tǒng)成像質量的要求越來越高。以液晶顯示器(Liquid Crystal Display,LCD)為例,其主要由面板、控制板、菜單控制板等組件構成,其中,控制板在整個液晶顯示器中至關重要,其上裝載的圖像引擎(一種集成芯片)是對成像質量起到?jīng)Q定性作用的一環(huán)[1]。圖像引擎上集成的色彩優(yōu)化算法能夠對圖像的色彩進行優(yōu)化[2],這對于顯示設備的圖像質量優(yōu)化具有重要意義[3]。
傳統(tǒng)圖像引擎色彩優(yōu)化算法一般由多種算法組合而成,每種算法實現(xiàn)單一的圖像優(yōu)化。例如,直方圖均衡化算法可以使圖像亮度在顯示系統(tǒng)的成像范圍內(nèi)更加均勻地分布,優(yōu)化局部細節(jié),在優(yōu)化整體亮度過高或過低的圖像時有顯著效果[4];銳化算法主要用于補償圖像輪廓,增強局部對比度,使圖像邊緣變得清晰[5];均值濾波算法一般用于消除圖像獲取過程中因照明環(huán)境不佳或高溫引起的傳感器噪聲[6]。傳統(tǒng)算法若要追求較好的效果,需要根據(jù)圖像特征人工調(diào)整各個算法的參數(shù),這對于一個有實時性要求的算法來說是不切實際的,故其難以自動完成圖像的最佳優(yōu)化。
隨著深度學習在圖像處理領域的快速發(fā)展,諸多深度學習架構在該領域取得了長足的進步。Moran等人[7]使用了深度局部參數(shù)濾波器(Deep Local Parametric Filters)以改善圖像的色彩,借此提升圖像整體質量。Guo等人[8]提出了一種零參考深度曲線估計(Zero-Reference Deep Curve Estimation)方法,該方法可以增強微光圖像,使微光圖像展示更多的局部細節(jié)。Deng等人[9]使用對抗學習(Adversarial Learning)方法實現(xiàn)了圖像剪裁和色彩增強的功能。當前,實現(xiàn)上述研究中的圖像優(yōu)化功能均需要較高的硬件成本和時間成本,在實際應用中阻力較大。為此,本文提出了一種采用全卷積神經(jīng)網(wǎng)絡[10](Fully-Convolutional Network)構建圖像優(yōu)化算法的方法,借助空洞卷積[11]在盡量保留原圖信息的同時既擴大了感受野,又減少了計算量和參數(shù)量,時間和硬件成本較小。因此,該網(wǎng)絡在圖像引擎色彩優(yōu)化領域具有較大的潛力。此外,色彩優(yōu)化算法一般使用圖像增強類的數(shù)據(jù)集進行訓練[12],但其中多數(shù)規(guī)模較小,不適用于需要優(yōu)化任意圖像的圖像引擎算法,本文為此構建了一個全新的大規(guī)模數(shù)據(jù)集。
為解決傳統(tǒng)圖像引擎色彩優(yōu)化算法無法針對圖像特性做出自適應優(yōu)化的問題,本文提出了一種基于空洞卷積的全卷積神經(jīng)網(wǎng)絡以構建自適應圖像引擎色彩優(yōu)化算法。該算法結合空洞卷積融合多種圖像優(yōu)化算法,可以替代多種獨立算法組合而成的傳統(tǒng)算法,側重于從人眼主觀感知的角度優(yōu)化圖像色彩。同時,為了更好地構建數(shù)據(jù)集,引入了基于神經(jīng)網(wǎng)絡的圖像質量評估方法[13]對擴充后的圖像對分別進行圖像質量評估,籍 此 優(yōu) 化 在AVA[14](Aesthetic Visual Analysis)數(shù)據(jù)集的基礎上構建的High Quality AVA,最終取得了較好的效果。
顯示器目前主要由面板、控制板、逆變器、OSD菜單控制板、連接線纜和外殼6個部分組成[15]。其中,圖像引擎是控制板上一顆至關重要的集成芯片。圖像引擎的主要功能是接收主機發(fā)送的所有圖像信息并在其內(nèi)部實現(xiàn)圖像的轉換、測量及優(yōu)化,保證優(yōu)化后的圖像能夠正確、穩(wěn)定地顯示。其需要解決的問題主要有圖像縮放、時序控制、色彩優(yōu)化等。色彩是決定圖像質量的重要組成部分,故而優(yōu)越的色彩優(yōu)化算法是十分必要的。
圖像在獲取、壓縮、傳輸和縮放的過程中難免會被平滑,導致圖像邊緣產(chǎn)生模糊。為使顯示器給予用戶較好的視覺體驗,需要對圖像進行銳化和對比度調(diào)整。傳統(tǒng)圖像引擎色彩優(yōu)化算法采用了8鄰域的拉普拉斯銳化算法以及基于雙重自動閾值分割的分段線性變換對比度增強算法(雙閾值線性增強法)。雙閾值線性增強法是基于Otsu[16]改進的三段線性變換法,表達式如式(1)所示。

其中,?(x,y)為原始圖像,g(x,y)為輸出圖像,w=0.5,T2和T3為Ostu分割方法得出的閾值分割界限。通過Ostu方法可以得到最佳的分割閾值T1,設灰度級大于T1的區(qū)域為目標區(qū)域,灰度級小于T1的區(qū)域為背景區(qū)域。分別對目標區(qū)域和背景區(qū)域之間再進行一次分割,背景區(qū)域的閾值為T2,目標區(qū)域的閾值為T3。雙閾值線性增強法能夠在一定程度上獲取圖像的特征信息,但是僅局限于輪廓層次較為分明的圖像,且需要人工調(diào)整參數(shù),而圖像引擎需要處理所有類型的圖像且在處理過程中需要盡量避免人工干預,算法的自適應性就顯得尤其重要。
Howard等 人 提 出 了MobileNet[17]和 一 組 超參數(shù),可以搭建規(guī)模極小的低延遲模型來滿足移動端或嵌入式應用的要求。MobileNet基于深度可分離卷積的模型,它將一個標準卷積分解為深度卷積和一個1×1的點卷積(圖1)。深度卷積對輸入圖像的每個通道應用單個濾波器,然后點卷積應用1×1卷積來組合深度卷積的輸出,該方法大幅減少了計算量,縮小了模型尺寸。因此,該輕量級架構適用于一個資源有限平臺上的計算任務,例如圖像引擎、機器人、自動駕駛等。

圖1 標準卷積被替換成深度卷積和點卷積Fig.1 Standard convolutional are replaced by depthwise convolution and pointwise convolution
Google在2018年提出了一種與人類感知高度相關的無參考單幅圖像評價模型:NIMA(Neural Image Assessment)[13]。該 模 型 能 對 輸 入 圖 像 進行評分,給出一個范圍在1~10之間的小數(shù)作為圖像的評分。構建大規(guī)模圖像對數(shù)據(jù)集時普遍存在無法保證圖像優(yōu)化效果的問題,即對原始圖像進行增強后無法保證沒有過度優(yōu)化圖像,從而導致圖像質量下降。NIMA模型可以幫助我們改善這一狀況,模型具體結構如圖2所示。網(wǎng)絡首先在ImageNet數(shù)據(jù) 集[18]上進行預訓練,初始化基干網(wǎng)絡的權值參數(shù),然后分別在AVA數(shù)據(jù)集和TID 2013[19]數(shù)據(jù)集上進行端到端的訓練,得到最終的參數(shù)。

圖2 基 于MobileNet的NIMA模 型Fig.2 NIMA model based on MobileNet
本文將單幅圖像的評分數(shù)據(jù)命名為NINA Score(列出的NIMA Score均取3位有效數(shù)字)。考慮到實際應用中遇到的計算資源及存儲空間的問題,采用以MobileNet為基干的評價模型作為圖像質量預測器。該預測器用于對已構建的圖像對進行評分,以確保構建理想化的數(shù)據(jù)集,使其中的目標圖像質量不低于原始圖像。
本文為色彩優(yōu)化算法確立了3個理想標準:(1)精度。一張圖像經(jīng)本文算法處理后,其峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似性(Structural Similarity,SSIM)應不低于傳統(tǒng)算法處理后。(2)自適應。算法應當具備較強的泛化能力,即能夠對不同內(nèi)容的圖片做出合理的優(yōu)化。(3)規(guī)模。模型應當能夠被部署在圖像引擎(邊緣設備)上。
空洞卷積可以增加感受野,同時保持特征圖尺寸不變,從而代替下采樣和上采樣。空洞卷積引入了“擴張率”這一超參數(shù),該參數(shù)定義了卷積運算時卷積核中各個值的間距,具體原理如圖3所示。
在圖3中,菱形代表卷積核元素,加粗方框代表左上角卷積核元素的感受野大小,感受野的擴大使神經(jīng)元可以接觸到圖像中更大的范圍,使得這種卷積方法可以提取出更加全局、語義層次更高的圖像特征,同時提高了卷積的效率。相比于傳統(tǒng)算法僅能獲取邊緣信息的情況,卷積神經(jīng)網(wǎng)絡可以共享所有卷積提取的圖像信息,能更好地根據(jù)圖像特征做出自適應優(yōu)化。圖4為基于空洞卷積的圖像色彩優(yōu)化網(wǎng)絡架構。網(wǎng)絡由9個卷積層構成,從第一層至第八層采用空洞卷積,擴張率分別為1,2,4,8,16,32,64,1。最后一層卷積采用大小為1×1的卷積核,卷積核個數(shù)為3,且不使用激活函數(shù)。除最后一層外,每個卷積層中卷積核的個數(shù)均為32,卷積核為3×3大小,均使用LReLU非線性修正單元函數(shù)進行激活(式(2)),其中α=0.2,對卷積結果采用自適應歸一化(Adaptive Normalization,AN)(式(3))。

圖3 空洞卷積原理示意圖。(a)擴張率為1,感受野為3×3的普通卷積;(b)擴張率為2,感受野為5×5的空洞卷積;(c)擴張率為3,感受野為7×7的空洞卷積。Fig.3 Schematic diagram of the principle of dilated convolution.(a)1-dilated convolution,each element has a receptive field of 3×3;(b)2-dilated convolution,each element has a receptive field of 5×5;(c)3-dilated convolution,each element has a receptive field of 7×7.

圖4 圖像色彩優(yōu)化網(wǎng)絡架構Fig.4 Architecture of image color optimization network

其中,λs和μs是通過反向傳播與其他參數(shù)一起學習到的兩個標量,BN是批標準化操作[20]。網(wǎng)絡通過最小化輸出圖像和參考圖像的損失函數(shù)進行優(yōu)化,損失函數(shù)L(w,b)由L2損失和MSSIM損失構成,對應的權重系數(shù)分別為0.8和0.2(式(4))。

其中輸入圖像為Ii,Ni為圖像Ii的像素個數(shù),w和b為網(wǎng)絡待訓練的權重,?(Ii;w,b)表示網(wǎng)絡的輸出圖像,參考圖像為?(Ii)。
數(shù)據(jù)集是算法性能的決定性因素之一,大規(guī)模數(shù)據(jù)集能顯著提升算法的精度并增強其泛化能力。Zhang等人使用普通手機和數(shù)碼單反相機拍攝相同內(nèi)容的照片構建了DPED[12]數(shù)據(jù)集,包含了6000多張圖像。Bychkovsky等人邀請了5位攝影專業(yè)的學生對5000張圖片進行了人工修飾,最終得到了MIT-Adobe FiveK[21]數(shù)據(jù)集。這兩種方法構建的數(shù)據(jù)集質量較高,但所需成本非常高,因此難以構建更大規(guī)模的數(shù)據(jù)集,而色彩優(yōu)化算法需要對輸入顯示系統(tǒng)的所有圖像進行優(yōu)化,小規(guī)模數(shù)據(jù)集很難保證網(wǎng)絡的泛化能力。受圖像質量評價任務[22]及相關數(shù)據(jù)集的啟發(fā),采用對AVA數(shù)據(jù)集中的高質量圖像添加不同程度失真的方法[23]構建了更大規(guī)模的色彩優(yōu)化數(shù)據(jù)集High Quality AVA dataset。AVA數(shù) 據(jù) 集 共 包 括超過25萬張圖片,包含了豐富的主題。數(shù)據(jù)集中的每一張圖片平均都會被約200位攝影師打分,最后得出圖像的平均主觀意見分(Mean Opinion Score,MOS),分數(shù)的取值范圍在1~10之間,分數(shù)越高,說明人們對于該圖像的評價越好。色彩優(yōu)化數(shù)據(jù)集中每組圖像對由原始圖像和參考圖像構成,原始圖像的圖像質量應當?shù)陀趨⒖紙D像。選取AVA中MOS在前20%的圖像作為參考圖像,共49178張圖像。對參考圖像使用退化算法,生成對應的原始圖像,將該圖像作為原始圖像和參考圖像組合成一組圖像對以構成數(shù)據(jù)集。圖像處理的表達式如式(5)所示:
g(x,y)=h(x,y)△f(x,y)+η(x,y),(5)其中,?(x,y)代表高質量的參考圖像;h(x,y)代表兩種圖像處理操作的組合,分別是冪律變換S(r)和高斯模糊G(r),符號“△”代表h(x,y)對?(x,y)的操作;η(x,y)代表由高斯噪聲構成的加性噪聲項。冪律變換的表達式如式(6)所示:

其中,c和γ為常數(shù),c取1。將冪律變換后的圖像與日常生活中的低質量圖像進行對比,當γ分別取0.8和1.3時,變換圖像的亮度特征與低質量圖像較為相符,經(jīng)此處理后的數(shù)據(jù)集能夠幫助網(wǎng)絡更好地學習到灰度變換的參數(shù)信息。高斯模糊的表達式如式(7)所示:

其中,n是模糊半徑,取值為5,δ是正態(tài)分布的標準偏差,取值為1。圖像在傳輸過程中通常會受到壓縮算法的處理,圖像邊緣易被平滑,經(jīng)對比驗證,采用該參數(shù)處理后的圖像邊緣與經(jīng)壓縮算法處理后的圖像邊緣較為相似。高斯噪聲的表達式如式(8)所示。

其中,z表 示 灰 度 值;zˉ表 示z的 平 均 值;σ表 示z標準 差,標 準差的平方σ2為σ的方差。此 處zˉ取0,σ2取0.001,以此來對圖像添加輕微的噪聲,避免將模型建模為圖像去噪模型。High Quality AVA數(shù)據(jù)集的構建過程如圖5所示。圖5(a)為兩張相同的參考圖像,作為算法的輸入。首先,對圖5(a)使用兩個γ值不同的冪律變換算法S(r)得到對應的圖像對圖5(b);然后,對其添加高斯模糊G(r)得到圖5(c);最后,對圖5(c)添加高斯噪聲η(x,y)得到圖5(d),將其標記為原始圖像。在構建數(shù)據(jù)集的過程中,默認對參考圖像添加的失真會降低圖像質量,但由于篩選出的圖像數(shù)量規(guī)模較大,無法保證每一對圖像均滿足要求,故使用NIMA模型對每一對圖像進行評分,如果參考圖像的評分低于原始圖像,則交換兩張圖像的標記;反之,則不做任何操作。評分和圖像重排完成后,將原始圖像與參考圖像對應組合,以此生成新的數(shù)據(jù)集High Quality AVA dataset(HQAVA),共包含98356對圖像。
網(wǎng)絡訓練時的硬件及軟件環(huán)境如表1所示。所使用的訓練集和測試集從HQAVA中按照9∶1的比例隨機抽取生成。訓練基于TensorFlow框架,采用Adam優(yōu)化器,初始學習率為0.0001,10個epoch后學習率降低為0.00001,訓練至損失函數(shù)平穩(wěn)為止。為驗證算法對圖像的優(yōu)化效果,采用了3個評價指標,分別是PSNR、SSIM以及NIMAScore。PSNR是基于均方誤差(Mean Squared Error,MSE)的圖像質量評價指標,其值越大說明圖像的失真程度越低。SSIM是一種基于圖像局部亮度和對比度進行計算的圖像質量評價標準,該指標由德州大學奧斯丁分校的圖像和視頻工程實驗室提出,是一種符合人類視覺的標準,其值越接近1,說明圖像質量越好。

表1 系統(tǒng)配置Tab.1 System configuration
除了與傳統(tǒng)方法進行對比,本文還選取了領域內(nèi)其他基于深度學習的方法進行了對比。Ignatov[12]創(chuàng) 建 了DPED數(shù) 據(jù) 集 并 提 出 使 用 雙 階段網(wǎng)絡對圖像進行優(yōu)化,該方法中所提出的損失函數(shù)被廣泛應用。De Stoutz[24]在Ignatov網(wǎng) 絡架構的基礎上進行了優(yōu)化,在降低模型參數(shù)量的同時提升網(wǎng)絡的性能和處理速度。Zamir[25]提出了一種全新的多尺度殘差塊,以此搭建的網(wǎng)絡能在圖像去噪、超分、增強3個領域達到最佳性能。
表2展示了上述方法在測試集上的表現(xiàn),包括傳統(tǒng)方法(2.1節(jié)所述)、DPED、FPIE、MIRNet和本文方法的平均PSNR值、平均SSIM值以及NIMA模型的平均得分,加粗值為同一評價指標下所有方法的最優(yōu)結果。結果表明,原始圖像經(jīng)過本文算法處理后,圖像的3個評價指標均有不同程度的提升,相較于傳統(tǒng)方法,PSNR提高了4.01 dB,SSIM提升了0.04,NIMA Score增加了0.6,表明本文方法對圖像起到了更好的優(yōu)化作用,且從NIMA Score來看,其對圖像的優(yōu)化也更加符合人的主觀感受。相較于其他深度學習的相關方法,本文方法在PSNR和NIMA Score上具有較大優(yōu)勢,同時SSIM與最優(yōu)的MIRNet極為接近。圖6為本文和上述算法的優(yōu)化結果對比。圖6表明,每種方法均能從色彩角度對原始圖像進行優(yōu)化,但也都存在不足之處。傳統(tǒng)方法能夠在一定程度上改善原始圖像邊緣模糊、色彩不夠鮮艷的問題,但多種優(yōu)化算法的疊加放大了原始圖像中的噪聲,導致圖像細節(jié)不夠清晰,同時,由于無法感知圖像信息并自動調(diào)整參數(shù),傳統(tǒng)方法有時會反向優(yōu)化圖像的色彩。例如,參考圖像表明天空是烏云密布的,而傳統(tǒng)方法卻將天空中的烏云變成了白云,這與圖像原本的含義產(chǎn)生了沖突,這是沒有人工調(diào)整參數(shù)所導致的結果。DPED和FPIE雖能夠根據(jù)圖像特征做出優(yōu)化,但是降噪效果較差,從局部放大的圖像中可以看出,優(yōu)化過后圖像細節(jié)不夠清晰,甚至可能在優(yōu)化過程中引入了新的噪聲。MIRNet的優(yōu)化效果較好,但是整體亮度明顯地高于參考圖像,使得人群衣著的顏色不夠鮮明。本文方法在優(yōu)化圖像的同時盡可能地避免了噪聲的產(chǎn)生,由此得到的圖像亮度更加適宜,色彩更加鮮艷,具有較好的觀感。測試表明,提出的網(wǎng)絡架構是一種有效可行的架構,希望該架構及相關測試能為未來圖像引擎色彩優(yōu)化算法的發(fā)展提供理論參考以及新的思路。

表2 本文方法與其他方法在測試集上的客觀評價指標對比Tab.2 Comparison of objective evaluation indexes in test set between our method and others

圖6 算法優(yōu)化效果對比圖Fig.6 Comparison chart of the optimization effect of algorithms
圖像色彩優(yōu)化算法的優(yōu)化效果最終還是取決于人的感知,無論在圖像質量評價領域或是視頻質量評價領域,都存在具有統(tǒng)計學意義的主觀感知實驗標準。為從主觀感知的角度分析本文方法對圖像質量的優(yōu)化效果,設計了相應的主觀實驗。被試者通過視覺感知實驗對原始圖像和經(jīng)本文方法優(yōu)化后的圖像進行評價。實驗從AVA數(shù)據(jù)集中挑選了不同類型的60幅圖像,包含室內(nèi)圖像、室外圖像、自然圖像和計算機生成圖像,利用算法對原始圖像進行優(yōu)化,得到了對應的60幅優(yōu)化圖像。在實驗過程中,圖像成對隨機出現(xiàn),每對圖像前后隨機顯示,被試者觀察每幅圖像后對圖像質量進行評分。實驗設置如圖7所示,被試者端坐在顯示屏3倍圖像高處,正對顯示屏中央位置觀看圖像。

圖7 視覺感知實驗設置Fig.7 Visual perception experiment setting
評分標 準采用5分制[26],5分為極佳,1分為最差,具體分值對應主觀圖像質量表述如表3所示。為保證實驗數(shù)據(jù)真實可靠,于正式實驗前安排練習實驗對被試者進行實驗方法的練習。共22名被試者[27](包含6名女性)參與實驗,年齡在22~37歲之間,平均年齡24.5歲。所有被試者雙眼視力均正常或矯正至正常水平。

表3 視覺感知實驗評分標準Tab.3 Grading standard of visual perception experiment
實驗結果采用SPSS軟件(IBM SPSS Statistics 20.0)進行分析。方差分析(ANOVA)(表4)結果表明,優(yōu)化過程和圖像內(nèi)容對圖像質量有高度顯著影響(p<0.01),且優(yōu)化過程與圖像內(nèi)容的交叉作用對圖像質量具有高度顯著影響(p<0.01)。

表4 各變量因素對圖像質量評分的ANOVA分析結果Tab.4 Results of ANOVA analysis for different factors on image quality score
原始圖像經(jīng)本文方法優(yōu)化后,圖像質量顯著提升,如圖8所示。原始圖像的平均主觀評分為2.53,優(yōu)化圖像的平均主觀評分為3.47,歸一化后的平均主觀得分上升了61%。實驗結果表明,本文方法能較好地優(yōu)化圖像,顯著提升了原始圖像的圖像質量。

圖8 原始圖像與優(yōu)化圖像的質量評分平均值Fig.8 Mean scores of original and optimized images for image quality
本文提出了一種具有高度自適應性的圖像引擎色彩優(yōu)化算法。算法采用了基于空洞卷積的全卷積神經(jīng)網(wǎng)絡以構建優(yōu)化算法,側重于從人眼主觀感知的角度優(yōu)化圖像色彩,可以替代多種獨立算法組成的傳統(tǒng)算法。同時,針對該領域缺少大規(guī)模數(shù)據(jù)集的現(xiàn)狀,借助AVA數(shù)據(jù)集構建了大規(guī)模圖像增強數(shù)據(jù)集High Quality AVA,并使用NIMA模型保證其合理性。所提出的色彩優(yōu)化算法能夠在圖像的亮度、對比度、清晰度方面針對圖像做出合理優(yōu)化且具有一定的泛化能力。原始圖像在經(jīng)過本文算法處理后,PSNR、SSIM以及NIMA Score相較于傳統(tǒng)算法均有顯著提升,從主觀上看能較好地優(yōu)化顯示設備畫面的色彩。在未來的研究中將會更進一步優(yōu)化High Quality AVA數(shù)據(jù)集,從數(shù)據(jù)集的角度加強算法自適應的優(yōu)化能力,同時改進網(wǎng)絡結構,讓其能夠對原始圖像進行更加符合人眼的優(yōu)化。