999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合細粒度自注意力的實例圖像著色

2024-06-01 18:47:21劉航普園媛王成超趙征鵬朱朋杰徐丹
計算機應用研究 2024年5期

劉航 普園媛 王成超 趙征鵬 朱朋杰 徐丹

摘 要:盡管基于深度學習的圖像著色方法已取得顯著效果,但仍存在冗余色斑、著色暗淡和顏色偏差三個問題。為此,提出了一種結合細粒度自注意力(fine-grain self-attention,FGSA)的實例圖像著色方法。具體地,首先將提取的特征圖分為顏色和空間位置,并結合兩者擬合提高顏色和圖像空間位置的對應關系,以緩解冗余色斑;其次,受光學攝影HDR原理的啟發,利用感受野小的卷積核增強或抑制圖像的顏色特征,并結合softmax對特征進行動態映射,從而提高對比度,緩解著色暗淡的問題;最后,組合不同的非線性基函數,增加網絡對非線性顏色的表達,擬合出最接近真實圖像的顏色分布,以解決顏色偏差。大量的實驗結果表明,該方法在實例圖像著色中取得了良好的效果。特別地,與當前較優的著色方法相比,該方法在特征感知評價指標LPIPS和FID上分別降低了4.1%和7.9%。

關鍵詞:圖像著色; 細粒度注意力機制; 冗余色斑; 著色暗淡; 顏色偏差

中圖分類號:TP391 文獻標志碼:A?文章編號:1001-3695(2024)05-041-1569-09

doi:10.19734/j.issn.1001-3695.2023.08.0393

Instance image coloring combined with fine-grained self attention

Abstract:Although deep learning-based image coloring methods have achieved significant results, but there are still suffer from three problems: redundant stain, color dimming, and color deviation. To this end, this paper proposed an instance image coloring method combined with fine-grained attention(fine-grain self-attention,FGSA). Specifically, it firstly divided the extracted feature maps into color and spatial location, and combined the two parts of the fittingto improve the correspondence between the color and the spatial location of the image to mitigate the redundant color patches. Secondly, inspired by the principle of HDR for optical photography, it utilized convolutional kernels with small sensory fields to enhance or suppress the color features of the image, and combined them with softmax to dynamically map the features, thus improving contrast and alleviating the darkness of the coloring. Finally, combining different nonlinear basis functions increased the networks representation of nonlinear colors and fitted a color distribution that was closest to the real image to address color bias. Extensive experimental results show that the proposed method achieves satisfactory results in instance image coloring. In particular, compared with the state-of-the-art methods, the proposed method improves 4.1% and 7.9% in feature perception evaluation indexes LPIPS and FID, respectively.

Key words:image coloring; fine-grain self-attention; color stain; color dimming; color deviation

0 引言

圖像著色指為輸入單色圖像中的每個像素分配顏色和感知顏色的過程。圖像著色不僅可以賦予黑白照片或影視作品新的意義,也可以作為一種技術手段輔助平面設計師完成作品著色。現有的圖像著色方法主要分為交互式著色和非交互式著色兩類。交互式著色主要基于用戶指導,將用戶選擇的顏色傳播到圖像其他像素,或選擇一張語義相似的彩色圖像,根據相鄰像素具有相似顏色的原理,將彩色圖像與單色圖像語義對應,完成顏色遷移,從而實現著色。然而,交互式著色存在效率低、過度依賴參考圖像、著色質量差且不適于批量著色等問題。為解決此問題,大量基于非交互式的著色方法被提出。非交互式著色使用大量的數據集訓練網絡,學習真實圖像的顏色分布,直接映射出灰度圖像缺失的彩色像素,從而完成著色。例如,Zhang等人[1]將圖像著色建模為一個自監督學習任務,提出了一種新型著色網絡框架,且使用加權平滑像素損失方式學習正確的圖像顏色。DeepAPI[2]將訓練好的著色網絡封裝為API供測試。Zhang等人[3]提出一種結合先驗知識和全局提示的非交互式著色方法,通過局部先驗知識使著色網絡能任意選擇目標顏色,全局信息保證著色網絡預測的準確性。Su等人[4]提出了一種非交互著色方法,將著色分解為全局和局部著色,再將局部著色結果融合到全局圖像中。然而,當前的非交互式著色方法有三個主要缺陷:a)冗余色斑,非交互式著色在顏色預測階段未能正確學習到圖像的顏色和位置信息,導致顏色和目標對應錯誤,如圖1(a)中第三行矩形框所示;b)著色暗淡,基于深度卷積神經網絡(convolutional neural network,CNN)非交互式著色,隨著網絡的加深,卷積層提取特征的不充分造成中間層的顏色、細節等信息丟失,如圖1(b)中第三行矩形框所示;c)顏色偏差,非交互式著色網絡中的擬合函數單一,不能準確從顏色分布中擬合出最接近真實圖像顏色分布的函數,從而出現色差,如圖1(c)中第三行矩形框所示。

針對上述問題,本文提出一種結合細粒度自注意力(fine-grain self-attention,FGSA)的著色網絡。本工作主要有以下三個方面的貢獻:

a)一種新穎的著色網絡。該網絡結合細粒度注意力的實例圖像著色,包括全局顏色預測網絡、實例顏色預測網絡、細粒度注意力機制、實例分割網絡和融合網絡五個部分實現非交互著色。

b)細粒度注意力(FGSA)。本文設計了一個新的注意力機制,該注意力機制將圖像特征分為顏色通道和空間位置兩部分,兩者的結合使網絡著重學習圖像顏色與位置間的非線性關系,縮小冗余色斑的范圍。此外,FGSA擴大顏色的動態映射范圍,增強圖像顏色特征,緩解結果中的著色暗淡。

c)一個新的融合模塊。該模塊通過卷積層分別預測全局特征和實例特征的權重圖后進行融合,減少顏色偏差。

1 相關工作

1.1 非交互式著色

非交互式著色通過學習網絡映射,模擬真實圖像的分布,從而完成著色。近年來,深度學習成功應用于計算機視覺諸多領域,如風格遷移[5,6]、字體風格遷移[7]等。一些研究者為了更好地捕獲顏色分布,提出了許多基于深度學習的圖像著色方法。例如,Cheng等人[8]提出一種基于深度神經網絡的全自動著色方法,從不同圖像中提取特征,再利用聯合雙邊濾波進一步細化輸出的色度值,從而確保無偽影的圖像著色。Larsson等人[9]提出一種全自動端到端的CNN著色系統,預測每個像素的顏色直方圖,從而使著色效果更加生動。此外,該系統使用語義特征描述符從不同卷積層中提取特征圖級聯之后作為分類層的輸入,使網絡更加有效地學習不同尺度的特征,從而提升圖像著色細節。Zhang等人[1]提出一種自動著色的網絡,作者基于每個像素的顏色分布,使用多項式交叉熵損失進行訓練和平衡稀有類,進而增加圖像顏色的多樣性,但著色結果中存在冗余色斑等問題。Zhao等人[10]使用像素化語義嵌入和像素化語義生成器,使網絡正確將語義和顏色對應,從而減少冗余色斑。Treneska等人[11]首次利用生成對抗網絡(generative adversarial network,GAN),通過圖像著色,實現自監督視覺特征學習。Wu等人[12]將參考圖像上色的優勢融入到自動上色模型中,利用封裝在預訓練BigGAN生成網絡中豐富多彩的顏色先驗來指導圖像上色,緩解自動上色中存在的顏色暗淡問題。此外,也有一些研究人員嘗試使用新方法來實現自動圖像上色。如Wang等人[13]提出了一種新的基于GAN的著色方法PalGAN,它結合了調色板估計和顏色注意。首先從輸入的灰度圖像中估計一個概率調色板,然后通過生成模型,在調色板的條件下進行顏色分配,并通過顏色注意來處理顏色溢出問題。Ozbulak[14]修改原始膠囊網絡的架構,將膠囊網絡成功應用到圖像上色的任務中。近年來, Transformer在計算機視覺任務中取得了巨大成功,許多基于Transformer的圖像著色方法被提出。Kumar等人[15]首次將Transformer應用到上色任務中,實現了高保真質量的圖像上色。ColorFormer[16]提出了一種基于顏色記憶輔助混合注意Transformer的圖像自動著色方法。 最近,Unicolor[17]基于Transformer提出了一種統一的著色框架。在其理論中,通過一個兩階段的著色框架,將各種條件合并到一個模型中。一階段將多模態條件轉換為提示點的公共表示,階段基于Transformer生成多樣化和高質量的著色結果。然而,上述非交互式著色方法有兩個問題:a)忽略了著色的細粒度,導致著色位置不精確;b)隨著網絡的加深,中間層的有用信息可能會丟失。

1.2 注意力機制

近年來,注意力機制在計算機視覺領域取得了巨大的成功。郭璠等人[18]引入通道注意力機制和語義分割引導的空間注意力改善網絡對目標的關注程度,使網絡聚焦和增強有效特征,提高了對小目標和遮擋變形目標的檢測性能。Zhao等人[19]提出配對自注意力和補丁自注意力,配對自注意力對局部近鄰特征采用核參數加權得到輸出特征,而補丁自注意力的性能比CNN更佳,能夠精準地輸出非線性映射,兩個自注意力的結合很好地實現了特征聚合和特征變換,從而準確地識別圖像。Zhang等人[20]在GAN[21]中結合原始自注意力機制,解決了卷積層中感受野所帶來的限制,讓網絡在生成圖片的過程中能夠自己學習應該關注的不同區域,使得網絡不僅能夠區分前景和背景,甚至對一些物體的不同結構也能準確地進行劃分,生成圖片的時候也會更合理。Su等人[22]在視覺和語言模型中引入Transformer注意力模塊,通過堆疊多層多模態Transformer,輸出具有豐富視覺-語言融合與對齊的特征,從而提高了視覺和語言內容之間細節的一致性。

上述方法的主要目的是通過注意力機制引導網絡關注更加感興趣的區域。然而,忽略了注意力機制在顏色通道和空間位置對圖像著色結果的影響。本文重點關注特征圖顏色通道和目標位置之間的非線性關系,提高網絡對著色圖像顏色和位置的對齊能力。

2 本文方法

2.1 問題分析

給定一個灰度圖像,本文模型的目標是估計灰度圖像的RGB顏色,從而實現著色。從圖1的著色結果中可以看到,非交互著色方法結果中主要面臨著冗余色斑、著色暗淡和顏色偏差問題。本文試圖去分析產生這些問題的原因:a)在顏色預測階段,模型不能正確學習到圖像的顏色和位置信息,這會造成顏色和目標對應錯誤,從而出現冗余色斑;b)隨著網絡的加深,卷積層提取的特征利用不充分造成中間層的顏色、細節等信息丟失,從而導致著色暗淡;c)非交互式著色網絡中的擬合函數單一,不能準確地從顏色分布中擬合出最接近真實圖像顏色分布的函數,導致顏色偏差。

基于上述分析,本文設計了一個新的非交互式著色模型。具體來說,針對冗余色斑問題,本文首先利用目標檢測網絡提取圖像中存在的顯著實例,分為全局和實例圖像顏色預測。進一步地,在實例和全局顏色預測網絡中結合細粒度注意力。該注意力將圖像特征分為顏色通道特征和空間位置特征,顏色通道部分學習圖像顏色信息,空間位置部分學習圖像語義位置信息,顏色通道和空間位置的結合學習圖像顏色與空間位置間的非線性關系,使圖像顏色與空間位置精確對齊,從而提升著色區域的準確性,約束實例和背景間的冗余色斑。此外,為消除全局和實例圖像融合中,融合比重不同導致的顏色偽影,實例圖像顏色預測網絡和全局圖像預測網絡使用相同的網絡結構,并結合可學習的網絡權重參數,讓網絡根據損失函數不斷更新權重比例,直至找到網絡的最優解,從而消除融合階段存在的顏色偽影。針對著色暗淡問題,本文借鑒HDR原理和激活函數的動態映射。使用小感受野的卷積核從不同方向增強或抑制提取到的圖像顏色特征,再使用softmax增加顏色范圍,提升顏色對比度,從而減少著色暗淡。針對顏色偏差問題,本文基于U-Net顏色預測網絡,并結合不同的非線性函數,包括sigmoid和softmax。其中,sigmoid增強網絡的非線性表達能力,而softmax擬合最接近真實圖像的顏色分布,從而縮小顏色偏差。接下來,本文將詳細闡述模型的細節。

2.2 網絡框架

2.3 實例分割網絡(instance segmentation)

為降低背景對前景實例顏色預測的影響,本文使用目標檢測網絡Mask R-CNN[23]進行實例檢測和定位分割,如圖2中part1實例分割所示。實例分割網絡從輸入灰度圖像X中獲取N個實例邊界框{Bk}Nk=1,并剪裁出對應的N個實例圖像{Xk}Nk=1,從而輔助實例顏色預測。也就是說,實例分割能同時生成對應實例的box和mask,box在實例和全局特征融合中提供位置信息,減少顏色偽影或冗余色斑;mask則用于圖像顏色預測區域的選擇,控制實例著色區域,增加著色精確度。

2.4 顏色預測網絡

顏色預測網絡分為全局和實例顏色預測兩部分,受 Zhang等人[3]方法的啟發,本文提出的顏色網絡框架如圖2中part2和part3所示。本文使用U-Net作為顏色預測的基線,將灰度圖像X和{Xk}Nk=1映射為對應的彩色圖像Xg和{Xi}Ni=1。具體來說,全局灰度圖像X送入全局顏色預測網絡中,預測X缺失的a*b*通道圖像Xg,并同灰度圖像疊加成XG,從而為實例顏色預測階段和融合階段訓練提供模型參數。相似地,將檢測分割出的實例圖像{Xk}Nk=1送入同樣結構的顏色預測網絡中,預測缺失的a*b*通道圖像{Xi}Ni=1,并同灰度圖像疊加成{XI}NI=1,從而為融合階段提供初始化實例顏色預測訓練的模型參數。為進一步提升顏色和圖像目標區域匹配度、增強顏色鮮艷度和縮小預測顏色值和真實顏色值之間的距離,本文分別在全局、實例顏色預測網絡中插入細粒度注意力機制。

2.5 細粒度注意力機制(FGSA=PPM+SPM+CM)

為提高網絡對顏色預測、著色位置捕獲成功率,改善特征表示,擬合真實圖像顏色分布,本文提出細粒度注意力機制FGSA,如圖3所示。

FGSA由并行極化模塊(parallel polarized module,PPM)、順序極化模塊(sequential polarized module,SPM) 和聯合模塊(combination module,CM)組成。PPM模塊將圖像分為顏色通道特征和空間位置特征,學習顏色與圖像位置間的非線性關系,從而解決模型因不能正確學習到圖像的顏色和位置信息,造成顏色和目標對應錯誤導致的冗余色斑問題。SPM模塊使用小感受野卷積核增強圖像的顏色信息,再結合動態機制提高圖像顏色映射范圍,以此提高對比度,從而使著色鮮艷明亮,緩解著色暗淡問題。CM模塊結合不同的非線性基函數,學習真實數據集中的顏色分布,最終成功約束圖像中的冗余色斑,減少著色暗淡和縮小顏色偏差,FGSA映射函數如式(1)所示。

其中:SPM表示串行極化操作;PPM表示并行極化操作;X1T表示輸入圖像特征;X2T表示PPM輸出特征,T表示特征張量tensor;SSM表示softmax操作。

總的來說, FGSA考慮圖像著色的根本問題,從提高著色目標位置精度、強化圖像顏色特征和擬合真實顏色分布三個角度來提升著色細粒度,進而提升著色質量。具體地,FGSA用于全局和實例顏色預測網絡,實現圖像顏色特征和位置對齊,增加顏色特征動態范圍和擬合真實圖像的非線性映射,從而使全局和實例顏色預測網絡輸出無冗余色斑、著色暗淡和顏色偏差的圖像。

2.5.1 PPM提高著色目標位置精度

為緩解圖像著色中由于顏色和空間位置不對齊帶來的冗余色斑問題,根據卷積塊注意力模塊(convolutional block attention module,CBAM)[24]、瓶頸注意力模型(bottleneck attention module,BAM)[25]中通道和空間的劃分,本文將圖像特征分為顏色通道特征和空間位置特征,從而提高著色目標位置精度,分別對應圖3 PPM中的channel self-attention和spatial self-attention。PPM由學習著色“什么”的channel self-attention和學習著色“哪里”的spatial self-attention兩部分組成,兩者的結合增強了網絡對圖像顏色特征和語義位置的非線性捕捉能力,使圖像顏色和位置精確對齊,從而減少著色中的冗余色斑。

PPM映射函數如式(2)所示。

在spatial self-attention中,為了讓網絡能夠學習圖像對象中的位置權重,本文將圖像特征分別送入兩個1×1的conv中,輸出不同方向的圖像特征。本文將其中一個方向的圖像特征進行全局平均池化操作以降低網絡的參數量。然后將對應的圖像特征張量分別進行不同的reshape操作。之后兩條支路中的張量相乘輸出圖像位置特征,位置特征張量維度為1×HW。為了匹配圖像位置特征和避免過擬合,1×HW的圖像位置特征進行了reshape和sigmoid操作,從而輸出網絡對圖像位置特征的學習權重1×H×W。channel self-attention對圖像顏色通道的學習過程與spatial self-attention的學習過程類似,在此不作過多細述。

2.5.2 SPM強化圖像顏色特征

為改善著色結果存在的顏色暗淡問題,本文借鑒光學攝影中的高動態范圍成像技術強化圖像顏色特征,PPM模塊的輸出送入SPM模塊,結構如圖3中的SPM所示。SPM映射函數如式(3)所示。

在顏色通道分離的基礎上,使用softmax的動態映射SPM實現圖像顏色的高動態對比,從而提升圖像色彩,解決著色暗淡問題,如圖3中channel self-attention操作前所示,其映射關系如式(4)所示。

HDRch(X2T)=σ1(M1(X2T))×SSM(σ2(M2(X2T)))(4)

其中:HDRch(·)表示圖像動態映射增強操作;σ1、σ2表示不同的reshape操作;M1、M2表示不同的conv操作。根據從攝影中不同方向所得同一物體的成像在視覺明暗度和清晰度方面具有層次差異性,本文首先在輸入圖像特征中分別進行1×1的conv操作,從而輸出不同方向的顏色特征,使圖像顏色變得分明。再分別將不同方向的顏色特征進行reshape操作。之后,選取顏色信息最多的一個方向進行softmax操作,從而形成一個高度動態范圍的顏色特征。softmax如式(5)所示。

其中:XT表示輸入特征;xj表示輸入特征XT第j個位置的特征;N表示XT的特征數量。最后為了使增強后的顏色特征成功輸出,本文根據HDR中的全局映射機制,在SPM channel self-attention操作最后使用sigmoid,使增強后的顏色特征映射到0~1,最終形成高對比度的圖像顏色特征。

全局映射為HDR色調映射的一種方式,色調映射是為了使高動態范圍的顏色圖像能成功限制在一定區間內,然后顯示輸出。sigmoid作為全局映射的核心,是為了避免使用直方圖校準算法只利用很少區域內的色度壓縮再拓展,導致的對比度失真,和為了避免線性變換造成的顏色信息丟失。sigmoid如式(6)所示。

其中:Ssig表示sigmoid操作;XT表示輸入特征;xj表示輸入特征XT第j個位置的特征。

2.5.3 CM擬合真實圖像顏色分布

在提高圖像目標精度和強化圖像顏色特征的基礎上,為了擬合真實圖像的顏色分布,減小顏色偏差,本文根據不同非線性基函數的作用,提出CM模塊,如圖3中FGSA的CM部分所示,其映射函數如式(7)所示。

其中:X1T、X2T和X3T表示不同階段的圖像特征。CM在網絡本身具有擬合非線性函數的基礎上,聯合sigmoid和softmax擬合出真實圖像的顏色分布,從而縮小顏色偏差。sigmoid使網絡的非線性擬合能力增加,而softmax在所有分布中能輸出概率最大的一個。聯合使用sigmoid和softmax的原因是,單獨使用sigmoid激活函數時,網絡僅能將網絡的非線性表達限定在0~1,并不會得到最接近真實圖像顏色的分布函數;單獨使用softmax作為激活函數時,網絡雖然能選擇最接近真實圖像的顏色分布,但缺少sigmoid的映射作用和平滑易求導優勢,網絡難以擬合出接近真實圖像的顏色分布。所以本文在整個網絡使用ReLU的基礎上,結合sigmoid和softmax。sigmoid將顏色映射到0~1,softmax使其中的擬合分布輸出概率最大,即最符合真實圖像顏色的映射,從而縮小顏色偏差。

2.6 融合模塊(fusion module)

2.7 損失函數

圖像著色任務中通常使用像素回歸損失函數L1或L2訓練網絡,如Zhang等人[1]使用L2損失函數去優化網絡。然而,L2在多模態性質的著色中存在兩個缺陷:首先,L2對離群點著色敏感且容易發生梯度爆炸;其次,L2求解速度慢。為避免這兩個問題,本文使用L1損失函數優化整個網絡,如式(9)所示。

3 實驗結果與分析

3.1 數據集

本文方法基于COCO-Stuff[26]訓練整個網絡,COCO-Stuff有164 000張圖片,172個類別,包括80個thing classes,91個stuff classes和1個unlabeled class。為定性測試算法的有效性,本文選擇常用于圖像著色測試的數據集Pascal VOC[27]作為驗證集,該數據集包含20個類別,9 963張標注過的圖片,共標注24 640個物體。本文從中隨機選取231張測試圖像,包含了人、動物、食物、植物、風景、建筑等,并對其裁剪為256×256的大小,進行灰值化處理后送入網絡生成彩色圖像。

3.2 實驗參數

為了適應圖像著色任務,本文采用Xavier[28]來初始化網絡,采用自定義學習策略,該學習率來自于Cycle-GAN[29]中訓練的Demo,本文在此基礎上進行調整來適應網絡著色訓練;優化器為Adam Optimizer[30],動量設置為0.9。根據第一階段提取的實例圖像,本文在第二、三階段訓練迭代為150個epoch,batchsize為16;第四階段訓練融合網絡,epoch為30,batchsize為1。本文方法使用PyTorch 1.6.0和Detectron實現整個網絡,并在3塊NVIDIA Tesla V100S 的服務器上進行訓練,整個網絡的訓練過程大約需要4天。

3.3 評價指標

現有圖像著色的評價標準主要包括主觀評價和客觀評價。主觀評價即人眼觀測圖像輸出圖像,評定圖像著色質量。目前普遍的客觀量化方法包括PSNR[31]、SSIM[32]和LPIPS[32],為了更有力評估算法的有效性,本文還使用了Fréchet inception distance(FID)[33]、CCI和CNI[34]三個評價指標。PSNR用來度量生成圖像的質量和保真度;SSIM用來度量生成圖像和真實圖像之間在亮度、結構和對比度之間的相似度;LPIPS從圖像特征層面來度量它們之間的感知相似性,LPIPS指標為[0,1],LPIPS越接近0,表示著色結果越接近真實圖像;FID用來評估圖像質量(清晰度)、生成多樣性。FID指標越接近0,表示著色結果質量越好,越接近真實圖像;顏色豐富性指數CCI和顏色自然性指數CNI用來評估圖像顏色的色彩和自然度, CCI指標通常在[15,30],圖像色彩比較符合人類視覺。CNI指標在[0,1],越接近1說明圖像顏色越和諧自然。

3.4 最新著色方法對比

本文方法對比了五種先進的圖像著色方法,包括DeepAPI[2]、EAMSPC[35]、UGIC[3]、ChromaGAN[36]和IAIC[4]。對比方法的著色結果均由作者開源的代碼生成。

圖像著色定性結果:圖5為本文方法對比五種著色算法的測試結果,為了觀察分析不同實例數量下圖像的著色結果,將對比實驗圖的測試結果分為單實例著色(圖5(a))和多實例著色(圖5(b))。從這些結果圖中來看,本文方法取得了最優的視覺結果,不存在其他方法中遭遇的冗余色斑、著色暗淡和顏色偏差問題。而次優的結果ChromaGAN存在冗余色斑問題(可以從雪人中看到)。

具體來說,DeepAPI以生成質量較好的GAN作為基線,但其面向對象主要為過去的黑白照片,所以其著色結果主要呈現出著色暗淡和顏色偏差問題,而無明顯的冗余色斑,如圖5(a)(b)的第二列所示。特別地,圖5(a)中的女士頭部、煙囪和船等均出現了著色暗淡的情況,圖5(b)中的襯衫、草地等都出現了著色偏差。EAMSPC使用了多尺度上色的方法來改善上色結果,但其上色結果偏暗淡,特別是圖5(a)第一行的矩形框所示。UGIC通過U-Net來直接預測圖像缺失的a*b*通道圖像,但其網絡缺少能精確擬合圖像顏色和位置間非線性關系的部分,其著色結果依然出現一定的冗余色斑,如圖5(a)(b)的第四列所示。ChromaGAN結合的語義類分布反饋機制依賴于前期提取特征,而該網絡提取特征僅用簡單卷積層堆疊,勢必會遭遇圖像信息的丟失,導致語義類識別降低,從而出現冗余色斑,也就出現圖5(a)第五列雪人著色錯誤。IAIC著色方法對真實彩色圖像的顏色、語義位置特征映射提取不準確,出現語義與顏色不對齊,導致出現冗余色斑,且隨著顏色特征提取網絡不斷加深而造成顏色信息的丟失,導致著色暗淡,著色結果如圖5(a)(b)的第六列所示。

相比以上五種著色方法,本文方法對應的圖5(a)(b)解決了著色中存在的冗余色斑、著色暗淡和顏色偏差問題。此外,當網絡生成的結果偏離真實結果時,考慮不同的非線性函數組合能讓分布更接近真實的輸出。五種著色方法對單實例圖像和多實例圖像都表現出相同的問題,這說明網絡對于存在一定數量實例的圖像著色不存在顯著差異,也說明網絡魯棒性較好。總之,本文的實驗結果進一步表明本文方法在著色位置和對象上對顏色通道和空間位置進行分離的準確性和必要性。

圖像著色定量結果:表1列出了不同著色方法如在七項評價指標上的定量比較結果。最優和次優的結果分別用加粗和下畫線標出。向上的箭頭表示數值越高越好,反之亦然。可以看出,本文方法在所有指標上均取得到了最優或次優的結果。其中,SSIM達到最優,但SSIM提升不大,原因是SSIM不止衡量圖像之間的相似程度,也同樣衡量生成圖像的失真程度。雖然對比方法存在冗余色斑、著色暗淡和顏色偏差問題,但測試結果并未出現明顯圖像失真,如圖像模糊或大范圍的冗余色斑,且SSIM基于圖像像素的均值和標準差來進行計算,圖像中局部冗余色斑、著色暗淡和顏色偏差的像素值中和導致SSIM差距微小。特別地,本文方法的LPIPS和FID指標明顯優于其他比較方法,分別比次優方法提升了4.1%和7.9%,提升最大。原因是LPIPS利用Inception網絡來提取特征,最后根據高斯模型計算其均值和方差,從而得到特征距離值。FID指標利用卷積層提取特征,再分別計算其對應的特征距離。從本文方法的測試結果可看出不存在明顯的冗余色斑、著色暗淡和顏色偏差,但在特征級別這個問題上將被放大,因此LPIPS和FID兩個評價指標的提升最大。

為了更清晰地表明提出方法的優越性,本文根據測試集中每張圖的LPIPS、CCI繪制了對應的箱線圖,如圖6所示。在LPIPS箱線圖中,五種著色方法在數據分布上的異常值差距較小,相比之下,本文方法的LPIPS值更集中且更接近0。在CCI箱線圖中,本文方法的CCI值集中在中位數及均值附近,說明著色結果顏色豐富,但存在部分高異常值,經查驗測試結果發現,異常值高的顏色最接近真實圖像,且圖像中顏色較鮮艷單一,如夕陽和海水等。

3.5 消融實驗

為驗證所提著色算法中各組成部分的有效性,本文對框架的每個重要部分進行了如下分析:

baseline:初始訓練網絡。以Mask R-CNN作為實例分割工具,U-Net作為顏色預測主干網絡,融合網絡作為實例特征和全局特征結合模塊。

+FGSA:在初始訓練網絡的第一、二階段顏色預測網絡中加入細粒度注意力機制(FGSA)。

+FGSA+PPM:在初始訓練網絡的第一、二階段顏色預測網絡中加入細粒度注意力機制,在第三階段的生成器中加入極化注意力模塊(PPM)。

本文方法:在初始訓練網絡的第一、二階段顏色預測網絡中添加FGSA,在第三階段的生成器中加入PPM,在整個網絡中使用L1損失函數進行優化。

不同組成部分的定性結果和對應的LPIPS映射圖、指標值如圖7所示。映射圖為評價指標LPIPS值的可視化結果,圖中顏色越接近深紫色表示著色圖像和真實圖像越接近,對應的LPIPS分數值越低;圖中顏色越接近黃色表示著色圖像越遠離真實圖像,LPIPS分數值越高。

從圖7中可以看出,結合細粒度注意力機制后的著色結果在顏色協調性和接近真實圖像上均有顯著提升,解決了冗余色斑問題。特別地,結合細粒度注意力機制對網絡性能的提升最大。因為FGSA中組合sigmoid和softmax非線性激活函數。sigmoid使網絡擬合出多個滿足真實圖像的分布;softmax從多個分布中選擇一個輸出概率最大的分布,即最接近真實圖像的顏色分布;FGSA中結合卷積核的濾波機制,將顏色特征分為不同的方向,形成不一樣的顏色層次,然后通過不同方向特征分離選擇性增強或削弱顏色特征,并用softmax進行顏色范圍擴大,從而提升顏色色深也就是對比度,使著色結果鮮明;FGSA將圖像特征分為顏色通道特征和空間位置特征,顏色通道和空間位置的結合能學習圖像中顏色與位置間的非線性關系,使網絡訓練真實圖像怎樣讓顏色和目標精準對齊,提高著色準確率,減少冗余色斑產生。從圖7可以看到,與基線模型相比,當加入FGSA模塊后,模型的著色效果有著明顯的提升(第一行的天空。圖7(b1)(c1)(d1)背景部分的上色結果更接近標簽;圖7(f1)基線模型前景目標與標簽的差異巨大,相比之下,FGSA模型的著色結果與標簽更為接近)。 與+FGSA相比,+FGSA+PPM的大多數結果在LPIPS映射圖、分數值上并沒有提高反而降低,是因為FGSA只在全局顏色預測和實例顏色預測網絡中加入,未在融合生成器中結合,全局顏色預測模型參數和實例顏色預測模型參數發生改變,實例顏色預測結果和全局圖像對應實例的顏色預測位置出現偏差,從而產生冗余特征,但+FGSA+PPM的著色結果比+FGSA更接近真實圖像。 特別是圖7(a1)中的大海,FGSA存在著色錯誤,而加入PPM之后與標簽更為接近。當添加了所有模塊后(本文方法),輸出著色更真實、無冗余色塊的圖像,因為冗余色塊的產生可以視作異常值,異常值在L2中會被放大,不宜收斂,而L1損失函數對異常值不敏感,且能找到多個解,網絡只需通過L1不斷學習訓練,找到全局最優解,從而輸出無冗余色塊的圖像。

表2總結了不同組成部分的定量結果。從表中可以看出,與baseline相比,各模塊的FID、SSIM、LPIPS、CCI和CNI指標均有顯著提升。表中加粗為最優結果,下畫線為次優結果。

總的來說,每加入一個組件后,模型的上色結果均得到了性能提升,表明這些模塊相輔相成,共同改進了著色結果。

3.6 注意力機制對比實驗

相關對比實驗進一步驗證了所提注意力機制的有效性。將所提細粒度注意力機制FGSA與單個的PPM和SPM兩個模塊進行實驗,以此說明雙重注意力機制比單個注意力機制著色效果好。此外,本文也對比了兩種注意力機制方法,包括經典的和通道與空間結合的注意力機制CBAM[24]和SA[37],實驗測試結果如圖8所示。

PPM中雖然包含顏色通道和空間位置,但顏色通道最后輸出缺少softmax的動態映射,使得顏色特征范圍沒有明顯擴大,結果出現一定的著色暗淡,但相比其他五種方法,整體著色效果有一定優勢,對應的定量指標也處于次優。SPM中雖然包含顏色通道和空間位置注意力,但其顏色通道和空間位置的串行沒有并行方式的顏色與空間位置對齊能力強,因為串行方式是先提取顏色特征,然后學習圖像位置信息,顏色與空間位置的非線性擬合沒那么強,從而在著色結果中出現冗余色斑,但其著色效果和定量指標僅次于PPM。CBAM為初始時期經典的通道與空間位置注意力的組合,但在其結構中,顏色特征與本文方法相比,通道數出現折疊導致顏色信息丟失,同時空間位置上的位置信息也出現相應的折疊,使得兩部分的顏色特征和空間位置信息不能夠充分學習其對齊能力,等同于該機制對冗余色斑的約束并未達到期望的著色效果,其實驗結果也可以看出存在一定的冗余色斑。SA中將特征分為通道和空間位置兩個分支,兩者結合學習圖像顏色與位置間的非線性表達,從而約束一定的冗余色斑,同時結合了組卷積和channel shuffle來減少計算量,但注意力進行分支的同時,顏色通道信息遭遇到一定損失,且沒有得到后續補充,導致圖像出現著色暗淡,如定性測試結果所示,著色結果暗淡且CCI、CNI指標處于較低水平。與上述注意力機制相比,本文所提注意力機制消除了冗余色斑,增強了色彩并更接近真實圖像,并且本文方法提出的細粒度注意力機制在大多數指標上能達到最優。

3.7 損失函數對比實驗

為驗證本文方法中使用損失函數的有效性,選擇了三種最常用于圖像著色的像素回歸損失函數及其三個組合進行對比,如表3所示。其中加粗為最優結果,下畫線為次優結果。

第一個版本Huber loss與L1 loss的組合(HL1),第二版本Huber loss與L2 loss的組合(HL2),第三個版本L1 loss與L2 loss組合(L1L2),第四個版本僅使用L2 loss(L2),第五個版本僅使用Huber loss(H)和最后一個版本僅使用L1 loss(L1)。因為三種像素回歸損失函數的組合仍然是像素損失函數,所以其著色結果整體對比先前各種對比實驗效果均有一定優勢,其對應的大部分定量指標也說明圖像著色的整體質量。L2因為其不穩定和解單一等特性,整體著色結果相較其他幾種損失函較差。H和L1L2在組成上較為接近,均由L1和L2組成。其損失相較于L2函數,曲線更加平滑和易于求導。相較于L1,收斂更快。但L1具有多個解的優勢,這也說明為什么H和L1L2對應的著色結果中存在微弱的著色暗淡和色差等冗余色塊,而L1沒有,且三者對應的定量指標占據絕大部分的最優和次優結果。本文方法對應最終著色結果得到了一定優化完善。

4 結束語

本文提出一種細粒度注意力機制和融合模塊,并應用于非交互式著色網絡,能有效解決非交互式著色中出現的冗余色斑、著色暗淡和顏色偏離真實圖像等問題。本文提出的注意力機制FGSA將圖像特征分為顏色通道和空間位置,以關注在圖像上著“什么”顏色和在“哪里”著色,加上濾波與動態映射機制增強或抑制部分特征,消除圖像中的冗余色斑和減少著色暗淡。融合模塊中的非線性基函數擬合真實圖像的顏色分布,以此拉近生成圖像和真實圖像間的顏色差距,最終完成圖像著色中的細粒度任務。同時本文設計一系列對比實驗、消融實驗、注意力機制對比實驗和損失函數對比實驗來驗證本文算法的有效性。大量實驗結果表明,本文提出的細粒度注意力機制與現有的五種先進著色方法相比,取得了較好結果。在未來的工作中,筆者將致力于探索基于擴散模型的著色任務。此外,還將探討如何將框架作為修復老照片的輔助工具。

參考文獻:

[1]Zhang R, Isola P, Efros A A. Colorful image colorization[C]//Proc of the 14th European Conference Computer Vision. Netherlands: Springer, 2016: 649-666.

[2]Antic J. DeOldify image colorization on DeepAPI[EB/OL]. (2019-12-24)[2021-12-01]. https://deepai. org/machine-learning-model/colorizer.

[3]Zhang R, Zhu Junyan, Isola P, et al. Real-time user-guided image colorization with learned deep priors[J]. ACM Trans on Graphics, 2017,36(4): 1-11.

[4]Su J, Chu H K, Huang Jiabin. Instance-aware image colorization[C]//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington: DC: IEEE Computer Society, 2020: 7968-7977.

[5]李鑫, 普園媛, 趙征鵬, 等. 內容語義和風格特征匹配一致的藝術風格遷移[J]. 圖學學報, 2023,44(4): 699-709. (Li Xin, Pu Yuanyuan, Zhao Zhengpeng, et al. Conten semantics and style features match consistent artistic style transfer[J]. Journal of Gra-phics, 2023,44(4): 699-709.)

[6]Kong Fanmin, Pu Yuanyuan, Lee I, et al. Unpaired artistic portrait style transfer via asymmetric double-stream GAN[J]. IEEE Trans on Neural Networks and Learning Systems, 2023,34(9): 5427-5439.

[7]姚偉健, 趙征鵬, 普園媛, 等. 稠密自適應生成對抗網絡的爨體字風格遷移模型[J]. 計算機輔助設計與圖形學學報, 2023, 35(6): 915-924. (Yao Weijian, Zhao Zhengpeng, Pu Yuanyuan, et al. Cuan font generation model of dense adaptive generation adversa-rial network[J]. Journal of Computer-Aided Design & Computer Graphics, 2023,35(6): 915-924.)

[8]Cheng Zezhou, Yang Qingxiong, Sheng Bin. Deep colorization[C]//Proc of the 15th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2015: 415-423.

[9]Larsson G, Maire M, Shakhnarovich G. Learning representations for automatic colorization[C]//Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 577-593.

[10]Zhao Jiaojiao, Han Jungong, Shao Ling, et al. Pixelated semantic colorization[J]. International Journal of Computer Vision, 2020, 128(4): 818-834.

[11]Treneska S, Zdravevski E, Pires I M, et al. GAN-based image colo-rization for self-supervised visual feature learning[J]. Sensors, 2022,22(4): 1599.

[12]Wu Yanze, Wang Xintao, Li Yu, et al. Towards vivid and diverse image colorization with generative color prior[C]//Proc of the 18th IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2021: 14377-14386.

[13]Wang Yi, Xia Menghan, Qi Lu, et al. PalGAN: image colorization with palette generative adversarial networks[C]//Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 271-288.

[14]Ozbulak G. Image colorization by capsule networks[C]//Proc of the 22nd IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington DC: IEEE Computer Society, 2019: 2150-2158.

[15]Kumar M, Weissenborn D, Kalchbrenner N. Colorization transformer[C]//Proc of the 8th International Conference on Learning Representations. 2020: 3388-3411.

[16]Ji Xiaozhong, Jiang Boyuan, Luo Donghao, et al. ColorFormer: image colorization via color memory assisted hybrid-attention transformer[C]//Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 20-36.

[17]Huang Zhitong, Zhao Nanxuan, Liao Jing. Unicolor: a unified framework for multi-modal colorization with transformer[J].ACM Trans on Graphics, 2022, 41(6): 1-16.

[18]郭璠, 張泳祥, 唐琎, 等. YOLOv3-A: 基于注意力機制的交通標志檢測網絡[J]. 通信學報, 2021, 42(1): 87-99. (Guo Fan, Zhang Yongxiang, Tang Jin, et al. YOLOv3-A: traffic sign detection network based on attention mechanism[J]. Journal on Communications, 2021,42(1): 87-99.)

[19]Zhao Hengshuang, Jia Jiaya, Koltun V. Exploring self-attention for image recognition[C]//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2020: 10076-10085.

[20]Zhang Han, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]//Proc of the 7th International Conference on Machine Learning. 2019: 7354-7363.

[21]Goodfellow I, Pouget A J, Mirza M, et al. Generative adversarial nets[C]//Proc of the 28th Conference and Workshop on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2661-2669.

[22]Su Weijie, Zhu Xizhou, Cao Yue, et al. VL-BERT: pre-training of generic visual-linguistic representations.[C]//Proc of the 22nd IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2019: 8530-8544.

[23]He Kaiming, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//Proc of the 16th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 2961-2969.

[24]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision. Berlin: Springer, 2018: 3-19.

[25]Park J, Woo S, Lee J Y, et al. BAM: bottleneck attention module[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC: IEEE Computer Society, 2018: 6514-6527.

[26]Caesar H, Uijlings J, Ferrari V. COCO-Stuff: thing and stuff classes in context[C]//Proc of the 21st IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2018: 1209-1218.

[27]Everingham M, Ali Eslami S M, Van Gool L, et al. The Pascal visual object classes challenge: a retrospective[J]. International Journal of Computer Vision, 2015,111(1): 98-136.

[28]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Conference on Artificial Intelligence and Statistics. 2010: 249-256.

[29]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of the 20th IEEE Conference on Computer Vision and Pattern Recognition. Wa-shington DC: IEEE Computer Society, 2017: 2223-2232.

[30]Kingma D P , Ba J. Adam: a method for stochastic optimization[C]//Proc of the 3rd International Conference on Learning Representations. 2015: 6980-6994.

[31]Horé A, Ziou D. Image quality metrics: PSNR vs. SSIM[C]//Proc of the 20th International Conference on Pattern Recognition. Pisca-taway,NJ: IEEE Press, 2010: 2366-2369.

[32]Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2018: 586-595.

[33]Thomas E, Mannila H. Computing discrete Fréchet distance[J]. See Also, 1994,64(3): 636-637.

[34]Yue Guanghui, Hou Chunping, Zhou Tianwei. Blind quality assessment of tone-mapped images considering colorfulness, naturalness, and structure[J]. IEEE Trans on Industrial Electronics, 2018,66(5): 3784-3793.

[35]Xia Jun, Tan Guanghua, Xiao Yi, et al. Edge-aware multi-scale progressive colorization[C]//Proc of the 46th IEEE International Confe-rence on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 1655-1659.

[36]Vitoria P, Raad L, Ballester C. ChromaGAN: adversarial picture co-lorization with semantic class distribution[C]//Proc of the 19th IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC: IEEE Computer Society, 2020: 2445-2454.

[37]Zhang Qinglong, Yang Yubin. SA-Net: shuffle attention for deep con-volutional neural networks[C]//Proc of the 46th IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 2235-2239.

主站蜘蛛池模板: 97久久超碰极品视觉盛宴| 久久一级电影| 亚洲Av激情网五月天| 亚洲人在线| 免费人成视网站在线不卡| 亚洲国产欧美国产综合久久| 色综合五月婷婷| 美女无遮挡被啪啪到高潮免费| 久久久无码人妻精品无码| 久久午夜夜伦鲁鲁片不卡| 亚洲精品片911| 亚欧美国产综合| 亚洲av中文无码乱人伦在线r| 久久精品娱乐亚洲领先| 露脸一二三区国语对白| 国产剧情国内精品原创| 日本在线视频免费| 亚洲国产清纯| 中国国产高清免费AV片| 亚洲欧美日韩另类| 视频国产精品丝袜第一页| 在线观看国产小视频| 98超碰在线观看| 亚洲欧美另类视频| 亚洲精选高清无码| 国产真实乱子伦视频播放| 日韩福利视频导航| 国产白浆在线| 五月婷婷综合色| 亚洲综合亚洲国产尤物| 人妻无码AⅤ中文字| 日韩精品一区二区深田咏美| 永久成人无码激情视频免费| 999精品视频在线| 少妇人妻无码首页| 国产欧美在线| 午夜老司机永久免费看片| 九九热在线视频| 欧美一级黄色影院| 国产日韩丝袜一二三区| 欧美精品在线看| 40岁成熟女人牲交片免费| 国产在线精彩视频二区| 毛片手机在线看| 精品国产香蕉在线播出| 久久青草免费91观看| 亚洲高清无在码在线无弹窗| 精品国产三级在线观看| 狠狠亚洲五月天| 国产69精品久久久久妇女| 国产三级视频网站| 国产欧美综合在线观看第七页| 国产亚洲高清视频| 动漫精品啪啪一区二区三区| 3D动漫精品啪啪一区二区下载| 91亚洲精选| 欧美黄网站免费观看| 欧美天天干| 亚洲天堂久久| av天堂最新版在线| 亚洲成a人片| 在线视频一区二区三区不卡| 亚洲综合18p| 成年A级毛片| 中文字幕色在线| 性做久久久久久久免费看| 亚洲人成网站在线播放2019| 国产午夜人做人免费视频中文| 国产欧美日韩视频怡春院| 亚洲精品亚洲人成在线| 成人午夜久久| 伊人成人在线| 成人永久免费A∨一级在线播放| 国产SUV精品一区二区6| 99精品免费在线| 成人国产一区二区三区| 狠狠色综合久久狠狠色综合| 成人小视频网| 亚洲91精品视频| 久久免费视频播放| 欧美国产在线精品17p| 视频在线观看一区二区|