
















收稿日期:2022-02-25;修回日期:2022-04-20
作者簡介:胡宇航(1995-),男,浙江慈溪人,碩士研究生,主要研究方向為工作流識別技術、圖像算法(192050155@hdu.edu.cn);胡海洋(1977-),男,江蘇寶應人,教授,博士,主要研究方向為軟件業務過程技術、過程檢索與挖掘;李忠金(1986-),男,江蘇句容人,講師,博士,主要研究方向為云計算、工作流調度.
摘 要:針對傳統高光去除方法對梯級圖像高光去除表現不佳問題,提出了一種基于條件生成對抗網絡的梯級圖像高光去除方法(multi-scale spatial dense gradient cascade generative adversarial network,MSDGC-GAN)。該方法設計了一種空間上下文密集模塊(spatial contextual feature dense block,SCFDB)能夠深度提取像素行與列之間的空間背景信息。此外,設計了一種多尺度梯度級聯結構以彌補網絡下采樣中的尺度特征損失,并且該結構能夠賦予模型多尺度鑒別能力同時穩定訓練梯度分布。在分析了經典雙色反射模型基礎上,將最大漫反射度估計應用于損失函數以監督網絡訓練。實驗結果表明,該方法在經典高光數據集和自制梯級高光圖像數據集中表現均優于對比方法。
關鍵詞:高光去除; 條件生成對抗網絡; 多尺度; 特征級聯; 漫反射估計; 密集連接網絡
中圖分類號:TP391.4"" 文獻標志碼:A
文章編號:1001-3695(2022)09-048-2867-06
doi:10.19734/j.issn.1001-3695.2022.02.0089
Conditional generative adversarial network-based method for stepped surface highlight removal
Hu Yuhang1, Hu Haiyang1, Li Zhongjin1,2
(1.College of Computer amp; Technology, Hangzhou Dianzi University, Hangzhou 310018, China; 2.Intelligent Software Technology amp; Application Research Center, Advanced Institute of Information Technology, Peking University, Hangzhou 310000, China)
Abstract:It is difficult for traditional highlight removal algorithms to effectively deal with the processing of stepped highlight images in the stepped palletizing of factory robots. To solve this problem, based on the knowledge of conditional generative adversarial network, this paper proposed a stepped surface highlight removal network model named MSDGC-GAN. In this method, the SCFDB aimed to deeply extract the spatial background information between pixel rows and columns. In addition, the multi-scale gradient cascade structure aimed to compensate for the scale feature loss in network downsampling, and this structure could endow the model with multi-scale discriminative ability while stabilizing the training gradient distribution. Based on the analysis of the classical two-color reflectance model, this paper applied the maximum diffuse reflectance estimation to the loss function to supervise the network training. The experimental results show that the proposed method outperforms the compared methods in both the classical highlight dataset and the self-made stepped highlight image dataset.
Key words:highlight removal; conditional generative adversarial network; multi-scale; feature cascade; diffuse reflectance estimation; densely connected network
0 引言
隨著新一輪科技革命和產業變革浪潮的興起,越來越多的企業開始注意到企業生產智能化一體化在未來競爭中所具備的獨特優勢,而機器人作為智能裝備的代表,已越來越成為助推企業轉型升級的動力器,企業生產效益的倍增器,企業競爭優勢的放大器,并成為各大企業爭奪經濟發展的制高點,被廣泛地應用在各大生產場景下。近年來機器視覺技術不斷進步與創新,其在實際生產環境下的技術應用越來越成熟,以視覺引導為基礎的機器人已經被廣泛應用于各類自動化生產場景。利用機器視覺技術對抓取物體進行定位,再將相關的位姿信息傳遞給機器手使其具備“感知”能力,成為當前智能化工廠發展導向,而其中對于抓取物體圖像的相關處理是機器人能否成功抓取的關鍵前提。
與普通材質物體不同,在實際扶梯梯級碼垛生產線上,機器人所要抓取的梯級材質通常為金屬鋁制,為此在自然光照射下具有高反光、背景復雜等特性,如圖1(a)所示。梯級表面部分區域存在高光覆蓋會給后續視覺引導中的圖像處理步驟如閾值分割、邊緣直線檢測等帶來麻煩,容易造成分割不勻、檢測失敗等問題,進而影響后續梯級識別、抓取點定位提取等。因此,金屬材質的扶梯梯級圖像高光去除對于以視覺引導的機器人碼垛系統具有重要意義。
在早期,許多方法[1,2]采取多視圖方式給圖像增加額外的約束來實現高光去除,對于硬件操作要求較高,而其他方法則基于單視圖對圖像進行高光去除。然而此類算法大多基于嚴格的假設分析和先驗條件約束,如顏色空間分析和稀疏矩陣分解,在圖像紋理或者光照條件復雜的情況下算法性能差,不能滿足實際需求。近年來,深度學習不斷發展,已廣泛加入社會生產、生活的各個方面。與傳統算法相比,深度學習能夠通過對訓練圖像的自學習捕捉圖像的相關特征信息,使得圖像領域的發展邁上了一個新的臺階,不僅在高級語義視覺任務(如目標檢測、文字識別等)中取得了成功[3],其在各種低級視覺任務中也有所建樹。然而,由于缺乏大量高質量的高光訓練數據,目前利用相關深度學習方法進行高光去除的研究仍然較少,通常僅局限于自制小規模數據集進行訓練,不具備通用解決性,如Yi等人[4]將對象外觀分解為高光、陰影和反照率層,通過在線收集產品照片來構建多視圖數據集對圖像進行高光去除。高光去除方法可以看做一種圖像復原生成方法,而近年來生成對抗網絡(generative adversarial network)的提出與發展,使得其在圖像復原生成領域如圖像去霧[5,6]、去噪聲[7]和陰影去除[8,9]有著突出表現,效果要優于傳統卷積網絡模型。因此生成對抗網絡的發展也為圖像高光去除提供了一個全新的研究方向。
綜上所述,根據實際工廠需要,為提高梯級圖像獲取質量從而更利于后續視覺引導系統的分析與處理,本文提出一種基于條件生成對抗網絡的梯級圖像高光去除模型MSDGC-GAN(multi-scale spatial dense gradient cascade generative adversarial network),如圖2所示。其目的在于盡可能去除梯級表面高光信息,同時最大程度還原梯級紋理細節,提高整體圖像質量。首先,采用編碼—解碼(encode-decode)結構作為生成器基本架構,在密集連接卷積網絡基礎上(densely connected convolution network)構造了一種空間上下文密集塊模塊(spatial contextual feature dense block,SCFDB)作為生成器的基本模塊,模塊中基于多路并聯片間(slice-by-slice)卷積來提取和傳遞圖像像素背景特征信息,通過深層次的密集網絡獲取圖像的語義特征信息;其次,提出一種自底向上的特征級聯方式,旨在彌補網絡下采樣時所損失的部分尺度信息。在借鑒MSG-GAN[10]的基礎上,提出一種多尺度梯度鑒別方法,將編碼器各尺度級聯后的特征圖輸出通過SOS(strengthen-operate-subtract)增強策略結構與解碼器長距離相連,其分支經卷積后輸出至對應鑒別器;最后,在損失函數構造上分析了傳統雙色反射模型,將最大漫反射分量估計應用于損失函數的監督訓練。由于目前無大量梯級表面高光圖像數據,為了能夠訓練本文網絡框架并評估它的優勢,本文創建了一個一對一的梯級表面高光對照數據集,數據集分為高光組和無高光組。實驗表明,本文提出的梯級表面高光去除網絡框架MSDGC-GAN的表現要明顯優于傳統高光去除算法。
1 相關工作
1.1 圖像去高光算法
對于圖像去高光而言,現階段大多數的處理方式可分為單視圖和多視圖兩種方式。前者認為物體表面的光照可由漫反射分量和鏡面反射分量所構成,其主要思路也集中在如何最大程度地分離圖像的鏡面反射分量。Tan等人[11]開創性提出先估計偽無鏡圖像,然后通過比較生成的偽無鏡圖像與輸入圖像的強度對數微分,迭代去除鏡面分量。Yang等人[12,13]對該方法進行了擴展,提出用雙邊濾波方法對偽無鏡面圖像和輸入圖像進行比較,達到圖像實時處理目的。由于這些偽無鏡圖像會顯著影響最終的光點去除結果,所以基于先驗假設理論的高光去除方法也應運而生,如Ramos等人[14]提出了一種從單個圖像中分離漫反射和鏡面反射分量的全自動方法以更少的計算成本獲得了更好的質量結果。Yamamoto等人 [15]對現有單張圖片反射分量分離方法進行改進進一步提高檢測精度。Xin等人[16]提出一種基于暗通道先驗的鏡面高光圖像增強算法,通過引入基于局部像素色差的加權函數來處理圖像中的光暈偽影。郭碧茹等人[17]提出了一種導向濾波的高光去除改進算法,通過設定閾值分離圖像黑色像素同時通過導向濾波的優勢最大限度保留圖像的邊緣和紋理避免了紋理效應。但是,由于這些方法需要嚴格的先驗假設,在背景和光照條件復雜的真實場景中這些方法很容易失敗,導致高光無法有效去除的問題。
而基于多視圖的去高光方式認為高光是方向相關的,所以依賴于從多視角多副圖像尋找圖像特征關系并進行相互映射以施加額外的約束從而達到圖像去高光復原的效果。如文獻[1,2]選取固定的場景從不同的角度拍攝了多幅圖像,而Lin等人[2]則在不同光源下對物體拍攝一系列圖像,Shah等人[18]提出利用視頻片段中相鄰圖像幀中的附加信息來減少每個幀的鏡面反射從而實現高光去除。溫佩芝等人[19]提出了一種基于多視角圖像特征匹配的高光去除方法。此類多視圖方法雖然能達到不錯的去除效果,但是其缺陷也明顯,即在實際過程中需要有條件的一系列圖像作為支撐,應用拓展性不好。
1.2 生成對抗網絡
生成對抗網絡由Goodfellow等人[20]提出,其主要思想來源于兩人零和博弈,網絡結構由生成器與鑒別器所構成。生成器接受一個隨機噪聲生產對應的假樣本,而鑒別器則接受生成器所給的假樣本和真樣本并試圖判別他們的真偽。總的來說生成網絡是為了生成更具欺騙性的樣本使得鑒別器無法分辨真偽,從而達到以假亂真的效果,使得整體處在一個動態平衡過程,其理論關系可表示為
minGmaxD V(D,G)=Ex~Pr[log(D(x))]+Ez~Pg[log(1-D(G(z)))](1)
其中:Pr為真實數據的樣本分布;Pg為生成器產生的數據分布;z為簡單樣本噪聲。而由于傳統生成網絡無法控制圖像的生成,Mirza等人[21]提出了一種條件生成對抗網絡CGAN(conditional generative adversarial nets),其將原生GAN的概率判斷全改成條件概率,即在生成器與判別器的輸入端增加條件輸入以指導圖像生成,損失函數表示為
minGmaxDV(D,G)=Ex~Pr[log(D(x|y))]+Ez~Pg[log(1-D(G(z|y)))](2)
其中:y為先決條件。基于CGAN思想,Isola等人[22]提出了一種有監督的圖像到圖像翻譯網絡(pix2pix),用于圖像配對的翻譯轉換,其生成器與鑒別器分別使用了U-Net架構和馬爾可夫判別器。pix2pix方法取得了良好的效果,但是由于其網絡結構問題最終生成圖片只適合低分辨率圖像,并且與真實圖像存在一定差距,為此Wang等人[23]提出一種高分辨率pix2pixHD網絡,利用多尺度判別技術彌補了pix2pix網絡對于生成高分辨率圖像的不足,但其生成的圖像色彩過大,雖然對于粗尺度上的圖像生成能夠有效地進行監督,但對于細尺度的生成具有缺陷難以生成具有質感的真實圖像。Fu等人[24]提出一種無監督的循環對抗網絡(CycleGAN),解決了圖像到圖像轉換需要配對圖像的問題。為了解決GAN訓練時梯度不穩定和對超參數敏感的問題,Karnewar等人[10]提出了一種多尺度梯度生成對抗網絡(MSG-GAN),將鑒別器與各尺度特征輸出圖建立通道從而穩定梯度流動。
為了解決傳統高光去除算法對于梯級表面高光處理效果不佳的問題,本文基于條件生成對抗網絡提出了一種MSDGC-GAN梯級高光去除模型,利用自定義梯級數據集訓練模型網絡,在實驗分析中本文不僅與傳統高光去除算法進行對比,同時加入了基于pix2pixHD的模型方法進行比較,實驗證明本文MSDGC-GAN模型表現要優于現有方法。
2 本文方法
2.1 網絡架構
本文的目的是通過輸入一張待去除高光梯級圖像IH,且不通過其他任何相關信息輔助生成一張高光抑制的對應清晰圖像IS,因此構建了一個多尺度條件生成對抗網絡,旨在通過端到端的方式獲取高光去除圖像。網絡主體結構由生成器與鑒別器組成,其中生成器基本架構采用U-Net結構,利用其編碼—解碼結構特點提取圖像深層結構信息。同時為了充分提取特征像素之間的空間上下文背景信息特征,提出了一種空間上下文密集塊作為生成器的基本模塊。為了解決網絡在下采樣池化操作中容易丟失部分尺度特征信息的問題,提出一種多尺度梯度級聯方法。通過從底層特征依次進行級聯輸出以彌補相鄰模塊之間的下采樣特征損失,并將各尺度鑒別器與生成器級聯輸出各自相連,使得網絡增強對圖像細節的處理能力并具備多尺度鑒別能力,實現了梯度的傳導改善了網絡訓練時梯度不穩定的問題。在損失函數階段,分析了雙色反射模型,將圖像的漫反射分量估計應用于損失函數,同時結合對抗性損失函數和特征匹配損失作為目標總損失。網絡的總體架構如圖2所示。
2.2 生成器架構
2.2.1 空間上下文密集塊
本文方法的生成器結構以U-Net為基礎,同時為了解決傳統U-Net在網絡層數加深情況下梯度消失和表面特征易丟失的問題, 本文借鑒DensNet[25]理念,將DB密集塊(dense block)引入U-Net,通過密集連接來加強特征和梯度的傳遞,如圖3所示。但是傳統密集塊的堆疊卷積方式不能有效地獲取各行各列像素間的空間背景信息,而這種信息已經被證明對高亮檢測和低級圖像處理是有用的[26]。
S′i=R(G(Si))""" i=1
S′i+R(G(Si))i=2,3,…,H(3)
其中:G為卷積操作;S0為卷積后得到的特征切片;R為激活函數,采用LeakyReLU。其中每個維度方向上的片間卷積函數共享同一個卷積核,通過這種方式可以使得更加豐富的特征信息在像素維度的層與列中實現傳遞從而有效提取像素的空間背景信息,并且其效率優于普通卷積,簡化了信息傳遞并加快模型的運算效率。對每一路切片信息進行拼接和LeakyReLU激活后將兩路支路進行加權融合,最后經過一次3×3卷積層輸出特征圖,如圖4所示。本文密集塊之內用SCF層對相同尺寸的輸入特征圖進行特征提取。與傳統密集層類似,每一個SCF層的輸出都會被添加到后續所有SCF層作為共同輸入,同時編碼器密集塊之間利用過渡層的1×1卷積壓縮特征圖通道,再通過平均池化實現特征圖的下采樣將源輸入特征圖每次降至1/2尺寸。解碼器上采樣過程采取與編碼器相同的密集層連接結構,而在過渡層中則使用4×4轉置卷積(transpose convolution)將特征圖依次向上采樣。層內所有歸一化采取實例化歸一化(instanceNorm)技術。
2.2.2 多尺度梯度級聯
如圖2所示,本文將SCFDB模塊作為生成器的基本模塊,整個編碼器的下采樣過程涵蓋五個密集塊,每個塊內有四個密集連接層。雖然通過密集塊能夠在每個層級極大豐富特征信息,但是無法解決U-Net在下采樣操作過程中存在容易丟失部分尺度特征信息的問題,且網絡的底層特征已被證明在恢復物體細節方面具有重要作用。為此本文提出一種特征級聯方法,通過從底層特征逐步與上層特征在通道維度進行級聯以增強尺度語義特征的傳遞,如圖5所示。通常網絡的深層特征圖具有較高的通道數,如直接進行特征圖的堆疊拼接將會增加網絡運行參數影響網絡運行效率。為了減少網絡內存的消耗,本文通過一次簡單卷積操作將每次級聯后的特征塊通道數壓縮至原始數量級。設在編碼器下采樣操作后得到第k個尺度的特征塊為ωk(x),則每一級級聯操作可表示為
k(x)=conv(up(ωk(x)))
i(x)=conv(up(cat(ωi(x),i+1(x)))) i=1,…,k-1(4)
其中:k(x)為級聯后輸出特征塊;up()、cat()和conv()表示上采樣、串聯和卷積操作。同時受MSG-Net啟發,本文在特征級聯方法上提出了一種多尺度梯度級聯方法(圖2所示),將編碼器每個尺度級聯后的特征輸出圖經過一次3×3卷積,隨后通過長距離跳躍連接送入對應尺度的解碼器轉置后特征塊。此外解碼器在不同尺度的層級上有分支,將每次尺度級聯增強后的特征圖進行輸出,經過一次1×1卷積后將特征圖像送入對應尺度鑒別器,使得鑒別器不但以最終輸出作為輸入,同時還以編碼器中間級聯輸出作為輸入。這讓模型能夠在更多尺度上捕捉圖像信息,使得最終生成圖像具有更好的表征同時讓網絡梯度可以直接從鑒別器流向生成器的中間層,增加了訓練期間的穩定性,并解決了U-Net架構非常深入時梯度漸變消失的問題。本文不采用傳統U-Net的長距離跳躍連接方式將模塊中的上采樣增強特征和潛在特征連接起來,而是采取SOS增強策略結構[27],此結構受圖像增強算法啟發設計能夠對圖像進行細化增強處理。如圖2虛框所示,其操作可表述為
ψk(x)=Ck(ωk(x)+up(ψk+1(x)))-up(ψk+1(x))(5)
其中:ψk(x)為解碼器輸出特征圖;C為修復單元,每個修復單元代表一個密集塊。對于第k層的輸出ψk(x),首先對上一層得到的特征圖ψk+1(x)進行2倍的上采樣,然后將對應編碼器輸出的特征圖ωk(x)相加送入修復單元,其結果再減去ψk+1(x)作為最終輸出,通過這種方式細化輸出結果以增強圖像細節。
2.3 鑒別器架構
在生成器訓練過程中解碼器將會輸出各個尺度的圖像,本文采用PatchGAN[22]判別器結構作為鑒別器網絡。相比于傳統二分類的鑒別器,PatchGAN將圖片分為多個區域分別進行單獨判別并輸出預測概率值,而不是直接對整幅圖片進行打分,從而在圖像局部細節特征的提取上具有更好的表達能力。本文將源圖像縮放至與編碼器分支輸出圖像相應尺度,并互相連接起來,作為一個假的樣本提供給鑒別器,同樣另外將源圖像和實際目標圖像同尺度也相互連接作為真樣本提供給鑒別器。本文使用了三個鑒別器D1、D2、D3來接受不同尺度的輸出圖像,所有鑒別器的結構都是相同的。
2.4 損失函數
本文網絡訓練的目的是盡可能將輸入圖片轉換為目標無高光圖,為此提出一種漫反射分量損失函數(diffuse reflection loss),即將漫反射分量估計應用于內容損失用來約束預測圖與目標圖的差異。根據文獻[11]提出的雙色反射模型,非均勻光照下的任意一點的光照反射可分為漫反射與鏡面反射,其數學模型為
P(Z)=wf(Z)F(Z)+wh(Z)H(Z)(6)
其中:P(Z)為圖像像素強度;wf(Z)為漫反射分量系數;wh(Z)為鏡面反射分量;F(Z)為漫反射分量;H(Z)為鏡面反射分量。其中圖像中任意一點像素點的色度可表示為
α(Z)=P(Z)Pr(Z)+Pg(Z)+Pb(Z)
β(Z)=F(Z)Fr(Z)+Fg(Z)+Fb(Z)
γ(Z)=H(Z)Hr(Z)+Hg(Z)+Hb(Z)(7)
wf(Z)F(Z)=P(Z)-βmax(Z)(Pr(Z)+Pg(Z)+Pb(Z))-Pmax(Z)3βmax(Z)-1(8)
因此,若能求解最大漫反射色度βmax(Z),便能獲得圖像的漫反射分量,根據文獻[13]所提通常最大漫反射分量可由式(9)表示。
(Z)=αmax(Z)-αmin(Z)1-3αmin(Z)(9)
其中:(Z)為最大漫反射色度βmax(Z)的估計值,因此定義多尺度下的漫反射分量損失函數如下:
Euclid Math OneLApD=12n∑nk=11ckwkhk‖zk-yk‖2(10)
其中:zk和yk分別為第k尺度圖像的預測和真實的漫反射分量;ck、wk和hk為第k尺度圖像尺寸大小;漫反射分量可由式(8)(9)求出。本文總的結構損失函數由對抗性損失函數、漫反射分量損失函數和特征匹配損失三個部分所組成,其中采用pix2pix-HD所提出的改進對抗損失,其公式如下:
Euclid Math OneLAp=minG(maxD1,D2,…,Dn∑nk=1Euclid Math OneLApGAN(G,Dk))(11)
其中:Euclid Math OneLApGAN表示條件損失函數:
Euclid Math OneLApGAN(G,D)=E(x,y)[log D(x,y)]+E(x,z)[log(1-D(x,G(x,z)))](12)
關于特征匹配損失部分,其定義為
Euclid Math OneLApFM(G,Dk)=∑nk=1∑Ti=11Ni[‖D(i)k(xk,yk)-D(i)k(xk,zk)1‖1](13)
其中:Ni代表判別器第i層的元素數;T為總層數;D(i)k代表判別器Dk的i層特征。總的損失函數如下:
Euclid Math OneLAptotal=minGmaxD1,D2,…,Dn∑nk=1Euclid Math OneLApGAN(G,Dk)+
λ1∑nk=1∑Ti=11Ni[‖D(i)k(xk,yk)-D(i)k(xk,zk)1‖1]+
λ212n∑nk=11ckwkhk‖zk-yk‖2(14)
其中:λ1、λ2分別為特征匹配損失函數和漫反射損失的權值。
3 實驗結果與分析
3.1 實驗設置
本文去高光條件生成對抗網絡基于PyTorch深度學習框架搭建,編程語言為Python 3.7,網絡訓練服務器配置為八核Intel CPU I7,圖像處理器(GPU)采用NVIDIA GTX 2080Ti,顯存20 GB。在訓練時采用自適應動量估計優化算法(Adam)作為求解器,動量參數β1為0.5,β2為默認值,權重采用高斯分布隨機初始化,均值為0,標準差為0.02,總共訓練200個epoch,前170個epoch保持初始學習率不變,后30個epoch采取線性衰減方式至0。對于損失權重的權值,經過多次實驗設置λ1為10,λ2為0.5。由于大多數圖像高光去除的傳統算法基于顏色空間分布和矩陣運算原理,這類算法不需要大量的圖片進行驗證,為此目前還未有大規模的公共數據庫用于高光梯級圖像的去除,所以本文對現實梯級進行拍照采集建立了用于訓練與測試的數據集。為了模擬高光效果,通過打光器對梯級進行照射分別收集了在同一位置高光照射下和與無高光照射的梯級物體圖像,并對圖像進行相同切割選出最優圖像對,將其統一裁剪為512×512大小后(圖6所示)按照有無高光進行分組,總計2 000組對照圖像。
由于本文模型采用了全卷積結構所以對任何圖片輸入都適用,為了增加網絡的泛化性和通用性,本文還從文獻[11~16,28]中收集高光圖像,并將其進行了數據集擴充處理操作至共700組用于泛化訓練并且對其進行了分析比較。本文采取客觀和主觀方面對圖像進行實驗分析,客觀評價方面選取了峰值信噪比(PSNR)和結構相似性(SSIM)作為分析評價指標,PSNR越大表示失真越小,SSIM越大表示圖片越接近原始圖像,同時本文針對所提模塊和損失函數做了消融實驗分析。
3.2 結果對比分析
為了評估本文MSDGC-GAN方法去高光效果,首先選取了測試梯級高光圖像進行了實驗,并與文獻[4,12,14~16]和基于pix2pixHD的模型方法分別進行了對比,實驗效果如圖7所示。
可以看出傳統基于顏色分析和優化的算法在實際處理梯級單一表面大面積高光時效果很差,如圖7所示,文獻[14]對于此類圖像的高光去除方法較差,異常像素面積大,高光區域并未還原,說明算法存在缺陷。文獻[16]在一定程度上對光點附近進行了抑制,但無法去除中心高光。而文獻[30]則無法很好地檢測出此類高光,處理結果與輸入圖并無多大差距。pix2pixHD方法結果圖顏色失真嚴重,高光去除效果差。本文模型在梯級的紋理細節處理上更為細膩,一定程度上保留了梯級紋理,同時顏色保真好,高光去除結果自然且未出現異常像素問題。表1是在本文梯級數據集上平均PSNR和SSMI的指標對比,可見本文模型在梯級測試集上的平均PSNR領先其余方法近11 dB,而傳統算法指標表現普遍較差,進一步顯示了本文模型在處理梯級高光圖像上的優勢。
圖8為不同高光去除方法與本文方法在現實工位上收集的梯級圖像結果對比。文獻[14]在第一行圖片中對高光區域進行了處理,但顏色還原不自然,文獻[16]對于高光的去除效果不明顯。同時可以看出在處理背景金屬高光區域時(第三行),傳統算法顯得無能為力,既無法對梯級邊緣高光進行抑制去除,也無法有效對背景強光進行消除,同時在背景處產生了大量噪點。而基于pix2pixHD的方法雖然對高光進行一定程度上抑制但是色彩過大不真實。由于高強度反光區域已經完全喪失了其原有應該具有的特征,算法只能通過附近像素信息盡可能來進行后續的消除還原,而本文模型通過SCFDB模塊的稠密特征提取,不僅能夠對梯級黃色表面高光進行抑制,同時對于背景處的高強度金屬高光消除也具有良好的呈現效果,說明其能有效提取和利用像素背景間的信息,圖像整體結構保留完善,未發生嚴重顏色畸變,還原效果較好,足夠滿足實際生產中的后續處理要求。
為了驗證網絡的通用泛化性,本文在訓練中將經典高光圖像進行數據集擴充并加入訓練,選取了幾張代表性高光圖像進行了對比實驗,如圖9所示。從視覺上分析各方法差距很小,在圖9(a)中,文獻[15]在兔子耳朵和黃水果上方的光暈殘留較, 文獻[4]水果高光去除結果中蘋果存在光暈殘留且還原較為模糊。表2為各方法在經典高光數據集上的平均PSNR和SSIM數值比較,可以看出pix2pixHD方法的平均性能最差,本文方法性能最優,說明模型在此類簡單問題圖像上表現也十分優異,整體視覺展示效果和色彩度還原更好,生成圖像質量高。
綜上所述,本文方法不論是視覺效果還是指標比較上都有巨大優勢,這說明了本文網絡所采用的深度編碼—解碼結構不僅有效利用了U型對稱網絡結構提取深層次信息的優勢,同時通過空間上下文密集模塊與多尺度梯度級聯增強了視野范圍,充分提取了圖像的紋理、背景特征信息,為此能夠有效生成較高質量的圖像,使表面特征得到有效恢復,特征還原更接近實際圖片。
3.3 消融實驗
為驗證SCFDB模塊和多尺度梯度級聯對于圖像結果的影響,本文將網絡按照不同模塊組合在梯級圖像集上進行消融對比,共設計為三組:a)DB模塊作為模型基本模塊,采用單一尺度鑒別器方式;b)采用DB模塊和本文多尺度梯度級聯方式;c)SCFDB模塊和多尺度梯度級聯,實驗結果如圖10所示。可以看出只采用傳統密集塊時,如圖(b)所示,由于沒有利用圖像多尺度信息,結果圖較為模糊,梯級紋理還原度不夠好質量較差。而對于圖10(c),圖像對梯級邊緣處還原不夠細膩,出現了較為明顯的像素異常現象,圖像還原差。在應用本文模塊后,不僅對于高光區域得到了有效抑制,上述問題也得到解決,圖像更為逼真,證明了本文模塊能更好地捕獲和傳遞圖像像素間的特征并且能有效利用多尺度信息。
表3是本文模塊消融實驗在梯級數據集上的實驗對比,通過實驗結果可以看出,由于第a)組方法并未采用多尺度鑒別器,模型運行速度相對最快,但指標表現最低。比較第b)c)組實驗可以發現,在同樣采用多尺度梯度級聯方法下,本文所提出的空間上下文密集塊網絡模型運行速度要快于傳統密集塊網絡模型,這是由于slice-by-slice的卷積方式極大提高了卷積效率,且在PSNR和SSMI指標表現上都優于其他實驗,進一步證明了本文方法的有效性。
圖11顯示了本文所提特征損失函數與漫反射損失函數在訓練中的收斂情況,可以看到隨著網絡訓練次數的增加模型逐漸趨于收斂,證明損失函數對生成器的訓練起到了監督作用。同時為了研究損失函數對于圖像重建效果的影響,基于梯級數據集,選取了不同的損失函數進行了消融實驗:分別將漫反射損失替代為感知損失Euclid Math OneLApP,像素距離損失Euclid Math OneLAp1并形成不同組合方式對其圖像結果進行了指標對比,其中對抗損失和特征函數作為基準不單獨進行消融實驗。結果如表4所示,可以看出采用本文所采取的損失函數組合,模型的表現更佳。
為驗證編碼器與鑒別器多尺度梯度相連的影響對于訓練時梯度分布的影響,本文分別采用編碼器中間層級聯輸出作為鑒別器輸入和不采用中間層級聯輸出分別訓練20 epoch時的梯度分布,如圖12所示,可以注意到,在不使用中間層輸出時,由于梯度遞減問題,梯度非常接近于零,而在使用編碼器中間層級聯輸出時,模型的梯度分布更好,原因是鑒別器與生成器相連實現了梯度的傳導,緩解了梯度訓練不穩定問題。
4 結束語
本文設計了一種基于條件生成對抗網絡方法來解決單張梯級圖像表面高光去除問題。通過將SCFDB模塊替代為傳統U-Net架構基本模塊來增強網絡對于圖像深層信息的特征提取能力,并設計出一種多尺度梯度級聯方法賦能網絡多尺度鑒別能力并穩定了網絡訓練梯度,通過對梯級表面模擬高光照射建立了一個用于網絡訓練和測試的自定義數據集。實驗結果表明,本文模型相比基于顏色空間和先驗條件分析的傳統算法和基于pix2pixHD網絡的方法在梯級圖像數據集和經典高光數據集高光處理上都具有更優異的表現,具有一定的實際應用前景。但也能看到在處理高強度金屬反光區域時所有方法都難以有效去除和還原梯級圖像紋理,下一步的工作是繼續優化網絡結構,解決高強度反光去除問題,同時更進一步優化圖像細節還原能力,提高算法效率。
參考文獻:
[1]Lin S, Li Yuanzhen, Kang S B, et al. Diffuse-specular separation and depth recovery from image sequences[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2002:210-224.
[2]Lin S, Shum H Y. Separation of diffuse and specular reflection in color images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2001.
[3]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J].Advances in Neural Information Processing Systems,2015,28:91-99.
[4]Yi Renjiao, Tan Ping, Lin S. Leveraging multi-view image sets for unsupervised intrinsic image decomposition and highlight separation[C]//Proc of AAAI Conference on Artificial Intelligence.2020:12685-12692.
[5]Suárez P L, Sappa A D, Vintimilla B X, et al. Deep learning based single image dehazing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1169-1176.
[6]Dong Yu, Liu Yihao, Zhang He, et al. FD-GAN: generative adversarial networks with fusion-discriminator for single image dehazing[C]//Proc of AAAI Conference on Artificial Intelligence.2020:10729-10736.
[7]Chen Jingwen, Chen Jiawei, Chao Hongyang, et al. Image blind denoising with generative adversarial network based noise modeling[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:3155-3164.
[8]Wang Jifeng, Li Xiang, Yang Jian. Stacked conditional generative adversarial networks for jointly learning shadow detection and shadow removal[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1788-1797.
[9]Liu Daquan, Long Chengjiang, Zhang Hongpan, et al. ARShadowGAN: shadow generative adversarial network for augmented reality in single light scenes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8139-8148.
[10]Karnewar A, Wang O. MSG-GAN: multi-scale gradients for generative adversarial networks[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:7799-7808.
[11]Tan R T, Ikeuchi K. Separating reflection components of textured surfaces using a single image[M]//Digitally Archiving Cultural Objects.Boston:Springer,2008:353-384.
[12]Yang Qingxiong, Tang Jinhui, Ahuja N. Efficient and robust specular highlight removal[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,37(6):1304-1311.
[13]Yang Qingxiong, Wang Shengnan, Ahuja N. Real-time specular highlight removal using bilateral filtering[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2010:87-100.
[14]Ramos V S, Júnior L G D Q S, Silveira L F D Q. Single image highlight removal for real-time image processing pipelines[J].IEEE Access,2019,8:3240-3254.
[15]Yamamoto T, Nakazawa A. General improvement method of specular component separation using high-emphasis filter and similarity function[J].ITE Trans on Media Technology and Applications,2019,7(2):92-102.
[16]Xin Ye, Jia Zhenhong, Yang Jie, et al. Specular reflection image enhancement based on a dark channel prior[J].IEEE Photonics Journal,2021,13(1):1-11.
[17]郭碧茹,孔韋韋,陳斌.導向濾波的高光去除改進算法[J].計算機工程與應用,2021,57(20):229-235.(Guo Biru, Kong Weiwei, Chen Bin. Improved specular removal algorithm for guided filtering[J].Computer Engineering and Applications,2021,57(20):229-235.)
[18]Shah M Z A, Marshall S, Murray P. Removal of specular reflections from image sequences using feature correspondences[J].Machine Vision and Applications,2017,28(3):409-420.
[19]溫佩芝,周迎,苗淵淵,等.多視角圖像特征匹配的高光去除方法[J].計算機工程與應用,2018,54(23):156-161.(Weng Peizhi, Zhou Ying, Miao Yuanyuan, et al. A highlight removal method for multi-view image feature matching[J].Computer Engineering and Applications,2018,54(23):156-161.)
[20]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J].Advances in Neural Information Processing Systems,2014,3:2672-2680.
[21]Mirza M, Osindero S. Conditional generative adversarial nets[EB/OL].(2014-11-06)[2021-07-23].https://arxiv.org/abs/1411.1784.
[22]Isola P, Zhu Junyan, Zhou Tinghui, et al. Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1125-1134.
[23]Wang Tingchun, Liu Mingyu, Zhu Junyan, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:8798-8807.
[24]Fu Gang, Zhang Qing, Lin Qifeng, et al. Learning to detect specular highlights from real-world images[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1873-1881.
[25]Chen Qifeng, Xu Jia, Koltun V. Fast image processing with fully- convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2497-2506.
[26]Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connec-ted convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4700-4708.
[27]Suo Jinli, An Dongshen, Ji Xiangyang, et al. Fast and high quality highlight removal from a single image[J].IEEE Trans on Image Processing,2016,25(11):5441-5454.
[28]Dong Hang, Pan Jinshan, Xiang Lei, et al. Multi-scale boosted dehazing network with dense feature fusion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:2157-2167.