999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態(tài)學(xué)習(xí)的高動(dòng)態(tài)范圍圖像色調(diào)映射

2025-09-28 00:00:00岳煥景何長安楊敬鈺

中圖分類號:TP37 文獻(xiàn)標(biāo)志碼:A

Abstract: In response to several key challenges faced by the existing tone mapping techniques in practical applications,suchasinsufficient stabilityof mappingresults,diffcultyin balancing thenatural aestheticsof images,and limited adaptability to complex lighting environments and diverse scene types,this paper proposes a tone mapping method based on multimodal learning.The goal is to acquire cross modal supervisory information through the shared semantic space of text and images,aiming to achieve more accurate,natural,and universally applicable tone mapping.Byleveraging the text-imagematching information from large text-image modelsto asist in unsupervised training,the method effectively suppresses the occurrence of underexposed and overexposed areas, avoiding the training instabilityand complexity issues present in generativeadversarial methodsand contrastive learning.Experiments demonstrate that the proposed tone mapping method displays superior performance across multiple open benchmark datasets.Compared with the existing mainstream tone mapping algorithms,this method not only maintains the overall lighting atmosphere of images but also more effectively suppresses overexposed areas, enhancesunderexposed areas,retains rich color details,and enhances visual hierarchy,with stronger adaptability tovarious lighting conditionsand scene types.Moreover,this work alsoconfirms the significant potential of multimodal learning in foundational vision tasks.

Key words :tone mapping;image enhancement;unsupervised learning

隨著科技發(fā)展,高動(dòng)態(tài)范圍(highdynamicrange,HDR)成像技術(shù)在攝影、電影制作、游戲開發(fā)以及虛擬現(xiàn)實(shí)(VR)等領(lǐng)域被廣泛應(yīng)用.HDR成像能夠捕捉到遠(yuǎn)超傳統(tǒng)低動(dòng)態(tài)范圍(lowdynamic range,LDR)設(shè)備所能再現(xiàn)的寬廣亮度范圍,提供更接近人眼所見的真實(shí)世界視覺效果.盡管如此,但常見顯示設(shè)備并非全部支持HDR,大量手機(jī)、電視和電腦顯示器仍然是LDR規(guī)格,無法直接呈現(xiàn)HDR圖像.隨著電子消費(fèi)品市場對HDR內(nèi)容呈現(xiàn)需求的增長,作為實(shí)現(xiàn)LDR顯示屏適配HDR圖像的關(guān)鍵手段,色調(diào)映射技術(shù)受到學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注與高度重視.

色調(diào)映射任務(wù)旨在通過壓縮HDR圖像場景亮度范圍盡可能還原人眼觀察到的真實(shí)場景效果.傳統(tǒng)的色調(diào)映射方法可以分為全局算子和局部算子兩類.全局算子i-2在所有圖像上應(yīng)用相同的映射關(guān)系.盡管這類算子非常簡單高效,但往往導(dǎo)致局部出現(xiàn)大幅度的對比度衰減,造成局部細(xì)節(jié)丟失嚴(yán)重.局部算子3-6通過設(shè)計(jì)基于局部細(xì)節(jié)的自適應(yīng)算子解決這個(gè)問題.這些研究成果顯著提高了HDR圖像的色調(diào)映射效果,同時(shí)保留了它們的局部對比度,并最大限度地減少了邊緣相關(guān)的偽影.然而,由于不同局部區(qū)域?qū)Ρ榷炔町愝^大,高壓縮水平仍然可能導(dǎo)致偽影,影響觀感.因此,本文希望利用深度學(xué)習(xí)技術(shù)解決這一問題.

伴隨著深度學(xué)習(xí)技術(shù)在圖像處理領(lǐng)域的快速發(fā)展,許多學(xué)者嘗試?yán)蒙疃壬窠?jīng)網(wǎng)絡(luò)完成HDR色調(diào)映射.Hou等人[利用VGG感知損失函數(shù)[8],使網(wǎng)絡(luò)學(xué)習(xí)從HDR圖像到LDR圖像的映射關(guān)系.然而他們的網(wǎng)絡(luò)必須針對每個(gè)輸入圖像進(jìn)行專門的訓(xùn)練.Gharbi等人9受雙邊網(wǎng)格的啟發(fā)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),通過學(xué)習(xí)給定輸入和其增強(qiáng)結(jié)果之間的映射關(guān)系,致力于利用神經(jīng)網(wǎng)絡(luò)完成實(shí)時(shí)的對應(yīng)圖像增強(qiáng)操作.最近的一些工作[10-14]利用條件生成對抗網(wǎng)絡(luò)[15](condi-tional generativeadversarial network,CGAN)學(xué)習(xí)色調(diào)映射任務(wù).然而CGAN訓(xùn)練要求配對的HDR圖像和其色調(diào)映射后的LDR圖像.這些工作的不同之處在于獲取配對數(shù)據(jù)的方式.Rana 等人[]、Patel等人[3]和Cao等人[14]在HDR圖像上應(yīng)用了一系列傳統(tǒng)色調(diào)映射算法并選擇 TMQI[16](tone mapped qualityindex)指標(biāo)最高的結(jié)果作為訓(xùn)練標(biāo)簽.Zhang等人[12]利用三個(gè)專業(yè)人士為HDR圖像提供色調(diào)映射后圖像,并選擇TMQI指標(biāo)最高的作為訓(xùn)練標(biāo)簽.盡管上述方法已經(jīng)取得了優(yōu)于傳統(tǒng)方法的結(jié)果,但通常導(dǎo)致在訓(xùn)練場景中過擬合,在其他場景中泛化能力較差.

色調(diào)映射任務(wù)真值具有很強(qiáng)的主觀性,采用人工標(biāo)注結(jié)果進(jìn)行訓(xùn)練往往無法得到最佳結(jié)果.因此,以無監(jiān)督學(xué)習(xí)為基礎(chǔ)的訓(xùn)練方法更適合用于訓(xùn)練色調(diào)映射任務(wù).Vinker等人[1將基于非配對學(xué)習(xí)的生成對抗網(wǎng)絡(luò)引入色調(diào)映射任務(wù)中,取得了很好的結(jié)果.然而該方法輸出穩(wěn)定性較差,在局部區(qū)域經(jīng)常生成不自然的黑點(diǎn).這本質(zhì)上是因?yàn)榕袆e器對場景亮度范圍判別能力有限.Cao等人18引入了對比學(xué)習(xí),在特征域引導(dǎo)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),然而對比學(xué)習(xí)訓(xùn)練較為困難.

與上述方法不同,本文引入文本圖像預(yù)訓(xùn)練模型輔助提升色調(diào)映射任務(wù),旨在借助跨模態(tài)信息提升模型對亮度動(dòng)態(tài)范圍的理解能力,進(jìn)而提升色調(diào)映射結(jié)果的穩(wěn)定性.

1基于多模態(tài)學(xué)習(xí)的色調(diào)映射

本文采用的是跨模態(tài)信息輔助的非配對學(xué)習(xí)方法.如圖1所示,本文所提方法主要包括兩個(gè)階段:第一階段是設(shè)計(jì)多模態(tài)損失函數(shù),如圖1(a)所示,旨在通過共享的文本和圖像語義空間構(gòu)建HDR和LDR圖像對應(yīng)的文本表達(dá);第二階段是多模態(tài)輔助色調(diào)映射,如圖1(b)所示,旨在利用跨模態(tài)監(jiān)督信息優(yōu)化色調(diào)映射網(wǎng)絡(luò)輸出的美觀和自然程度.

1.1多模態(tài)損失設(shè)計(jì)

本文方法的第一階段在于設(shè)計(jì)多模態(tài)損失,并利用非配對數(shù)據(jù)構(gòu)建HDR和LDR圖像對應(yīng)的文本表達(dá).本文使用CLIP模型[9整合跨模態(tài)信息,即通過對比學(xué)習(xí),使匹配的圖像-文本對在特征空間中相對接近,而不匹配的圖像-文本對則相對遠(yuǎn)離.這一機(jī)制使得模型能夠有效關(guān)聯(lián)文本特征與對應(yīng)圖像特征.基于這一機(jī)制,我們在網(wǎng)絡(luò)訓(xùn)練第一階段利用真實(shí)的HDR和LDR圖像來訓(xùn)練并獲取對應(yīng)的文本表征向量.如圖1(a)所示,本文使用預(yù)訓(xùn)練的CLIP模型[9計(jì)算特征相似度.為不改變CLIP模型特征,CLIP圖像編碼器和文本編碼器的權(quán)重在本文訓(xùn)練過程中都固定不變,不受網(wǎng)絡(luò)訓(xùn)練影響.首先隨機(jī)初始化HDR表征向量 和LDR表征向量PL∈RN×512 ,其中 N 表示文本表征向量中的語素個(gè)數(shù).然后將它們輸人至訓(xùn)練好的CLIP文本編碼器Φtest 中獲取對應(yīng)的潛在特征.同時(shí),本文將HDR圖像和LDR圖像 IH,IL∈RN×W×3 分別輸入訓(xùn)練好的CLIP圖像編碼器 Φimage 中獲取對應(yīng)的潛在特征.受已有研究工作2啟發(fā),本文基于CLIP特征空間中語義相同的文本圖像之間特征相似的前提條件,對上述文本圖像潛在特征計(jì)算余弦相似度,并利用二分類交叉熵?fù)p失函數(shù)迭代優(yōu)化HDR表征向量 PH 和LDR表征向量 PL 公式可表示為:

圖1模型整體結(jié)構(gòu)

Fig.1 Architecture of theproposed model

式中: y 代表當(dāng)前輸入圖像標(biāo)簽;表示當(dāng)前輸入圖像與HDR表征向量的相對相似概率,公式可表示如下,

式中:1代表當(dāng)前輸入圖像; IH 對應(yīng)標(biāo)簽 y 為 1:IL 對應(yīng)標(biāo)簽 y 為0.通過本階段訓(xùn)練,優(yōu)化表征向量與對應(yīng)的圖像在CLIP特征空間潛在特征相似,使 PH 和 PL 可以分別表示與HDR圖像和LDR圖像語義相同的文本信息.

1.2多模態(tài)輔助色調(diào)映射

本文方法的第二階段訓(xùn)練致力于優(yōu)化色調(diào)映射網(wǎng)絡(luò).借助CLIP的共享圖像文本特征空間,第一階段訓(xùn)練得到的文本表征向量包含了不同類型圖像對應(yīng)的色調(diào)、亮度和其他視覺特征信息.為利用這一點(diǎn),在網(wǎng)絡(luò)訓(xùn)練第二階段,本文利用表征向量構(gòu)建CLIP損失函數(shù),提升色調(diào)映射網(wǎng)絡(luò)輸出結(jié)果與LDR文本向量在上述共享特征空間的特征相似度,同時(shí)降低其與HDR文本向量的特征相似度,使得色調(diào)映射網(wǎng)絡(luò)輸出結(jié)果更為真實(shí)自然.具體而言,如圖1(b)所示,本階段將上一階段訓(xùn)練得到的HDR和LDR表征向量與CLIP文本圖像編碼器組合形成CLIP感知損失.本文選用最常見的UNet網(wǎng)絡(luò)結(jié)構(gòu)作為色調(diào)映射網(wǎng)絡(luò).與常見色調(diào)映射方法相同,本文網(wǎng)絡(luò)只對圖像亮度層(灰度圖)進(jìn)行處理,致力于在保持色彩的前提下,壓縮圖像亮度動(dòng)態(tài)范圍,即本文以HDR圖像亮度層 Ii∈RH×W×1 為輸入,以映射后LDR圖像亮度層 Io∈RH×W×1 為輸出.參考以往研究工作[18.22],本文使用HDR圖像 IH 和網(wǎng)絡(luò)輸出 Io 生成LDR圖像 ,HDR圖像中每個(gè)顏色通道被獨(dú)立映射到估計(jì)的LDR圖像中,公式表示如下:

式中:s為色調(diào)飽和參數(shù),本文使用默認(rèn)值0.5.為使網(wǎng)絡(luò)輸出與真實(shí)LDR圖像相近,本文希望網(wǎng)絡(luò)生成LDR圖像 與第一階段訓(xùn)練得到的LDR表征向量 PL 在CLIP潛在特征空間中具有相似性,由此得到CLIP損失函數(shù),公式表示如下:

同時(shí),色調(diào)映射任務(wù)應(yīng)該只對圖像亮度進(jìn)行處理,而不改變其他信息.因此,本文使用結(jié)構(gòu)損失函數(shù) Lstruct 來保證映射后LDR圖像與網(wǎng)絡(luò)輸入HDR圖像場景一致.由于結(jié)構(gòu)相似性指標(biāo)[23](structuresimi-larityindexmeasure,SSIM)對圖像亮度和對比度變化敏感,不適用于約束色調(diào)映射任務(wù),因此本文采用皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient)來衡量兩幅圖像之間的結(jié)構(gòu)相似度,公式表示如下:

式中: PI1 和 PI2 表示圖像 I1 和 I2 的相同位置的圖像塊;cov(?,?) 和 σ(?) 表示在這些圖像塊上計(jì)算的協(xié)方差和標(biāo)準(zhǔn)差; np 表示圖像塊數(shù)量.由此定義結(jié)構(gòu)損失,公式表示如下:

式中: ↓k 表示 k 次 1/2 下采樣操作,當(dāng) k 為0時(shí)表示不進(jìn)行下采樣操作.結(jié)構(gòu)損失函數(shù) Lstruct 通過約束多尺度輸入輸出的局部相似來保證場景信息的一致性.同時(shí),本文利用CLIP圖像編碼器設(shè)計(jì)感知損失函數(shù),約束輸人輸出圖像在CLIP圖像特征空間的特征相似,在保證場景一致性的前提下,提升網(wǎng)絡(luò)輸出觀感,公式表示如下:

式中: αl 表示CLIP圖像編碼器第 l 層輸出特征的權(quán)重.最終色調(diào)映射網(wǎng)絡(luò)損失可表示如下:

Ltone=LstructCLIP?LCLIPpere?Lperc

式中: λCLIP 和 λperc 分別表示CLIP損失權(quán)重和感知損失權(quán)重.

在網(wǎng)絡(luò)訓(xùn)練的第一階段,由于只使用了真實(shí)的HDR和LDR圖像進(jìn)行學(xué)習(xí),表征向量只能模糊表征兩類圖像.而隨著色調(diào)映射網(wǎng)絡(luò)的不斷優(yōu)化,網(wǎng)絡(luò)輸出與上述圖像存在較大差異,第一階段訓(xùn)練得到的表征向量逐漸無法指導(dǎo)網(wǎng)絡(luò)訓(xùn)練.所以本文在第二階段借助色調(diào)映射網(wǎng)絡(luò)輸出對表征向量進(jìn)行微調(diào).本文希望在第一階段表征訓(xùn)練的基礎(chǔ)上,提升表征對各類圖像的識別能力,拉近網(wǎng)絡(luò)輸出與LDR表征相似度,拉遠(yuǎn)網(wǎng)絡(luò)輸出與HDR表征相似度,所以定義表征損失函數(shù)如下:

式中: 分別表示輸入的HDR圖像、輸人的LDR圖像、色調(diào)映射網(wǎng)絡(luò)輸出的LDR圖像;↓*表示 k 次 1/2 下采樣操作.通過多尺度訓(xùn)練,表征向量可以更準(zhǔn)確地感知不同亮度范圍的圖像特征,提升圖像辨別能力 .S(?) 表示輸入圖像與HDR表征相似的分?jǐn)?shù),公式表示如下:

當(dāng)圖像 I 被表征向量認(rèn)為是HDR圖像時(shí), S(I)= 1;當(dāng)圖像 I 被表征向量認(rèn)為是LDR圖像時(shí), S(I)=0 因此 s(?) 可被認(rèn)為是根據(jù)表征向量判斷輸入圖像為HDR圖像的概率.本文實(shí)驗(yàn)中, m0 取0.9,表示要求的文本特征對真實(shí)LDR圖像和真實(shí)HDR圖像的分類概率差異下限,也表示網(wǎng)絡(luò)輸出和真實(shí)HDR圖像的分類概率差異下限,希望文本表征可以在保證對真實(shí)圖像正確判斷的前提下有效分類網(wǎng)絡(luò)輸出結(jié)果.同時(shí), m1 取0.2,表示要求的文本表征對真實(shí)LDR圖像和網(wǎng)絡(luò)輸出的分類差異下限.在微調(diào)文本表征中,并不希望文本表征對真實(shí)LDR圖像和網(wǎng)絡(luò)輸出的分類概率完全一致,否則在后續(xù)優(yōu)化網(wǎng)絡(luò)時(shí),CLIP損失將趨于0,失去優(yōu)化空間.本文希望利用CLIP損失和prompt損失交替訓(xùn)練色調(diào)映射網(wǎng)絡(luò)和文本表征,進(jìn)而提升文本表征對HDR和LDR圖像的特征判斷的準(zhǔn)確性,同時(shí)指導(dǎo)色調(diào)映射網(wǎng)絡(luò)輸出更優(yōu)結(jié)果.

2實(shí)驗(yàn)結(jié)果與分析

2.1整體訓(xùn)練流程

本文訓(xùn)練主要分為兩個(gè)階段.第一階段是表征向量初始化訓(xùn)練階段,如圖1(a)所示.第二階段是色調(diào)映射網(wǎng)絡(luò)與表征向量交替訓(xùn)練階段,如圖1(b)所示.在第一階段,本文使用固定長度的字符串作為初始化文本,通過文本編碼器生成相應(yīng)的文本特征,并通過梯度回傳不斷調(diào)整這些文本特征,使其能夠有效表示對應(yīng)的圖像信息.在第二階段,本文交替訓(xùn)練色調(diào)映射網(wǎng)絡(luò)和文本表征向量.首先利用第一階段訓(xùn)練好的文本表征向量構(gòu)建CLIP損失函數(shù),通過最小化 Ltone 訓(xùn)練色調(diào)映射網(wǎng)絡(luò),然后通過最小化 Lprompt 優(yōu)化兩類表征向量.兩種優(yōu)化交替進(jìn)行,直至網(wǎng)絡(luò)收斂.

2.2訓(xùn)練細(xì)節(jié)及參數(shù)設(shè)置

參考以往工作[17],本文使用HDR + 數(shù)據(jù)集[24中的1000張HDR圖像和DIV2K數(shù)據(jù)集[25]中的1000張曝光良好的LDR圖像作為色調(diào)映射任務(wù)的訓(xùn)練數(shù)據(jù).在輸入色調(diào)映射網(wǎng)絡(luò)前,本文利用裁剪和縮放將每張訓(xùn)練圖像的圖像大小都調(diào)整為 256×256. 本文在訓(xùn)練過程中色調(diào)映射網(wǎng)絡(luò)和表征向量均采用Adam優(yōu)化器.在表征向量初始化訓(xùn)練階段,本文采用固定學(xué)習(xí)率為 2×10-4 ,訓(xùn)練周期為150,輸入圖像批次大小為64.在色調(diào)映射網(wǎng)絡(luò)與表征向量交替訓(xùn)練階段,初始學(xué)習(xí)率均設(shè)定為 2×10-4 ,并且通過余弦退火算法最后衰減至 5×10-5 ,訓(xùn)練周期為200,輸入圖像批次大小為24.色調(diào)映射網(wǎng)絡(luò)中CLIP損失權(quán)重 λCLIP 和感知損失權(quán)重 λperc 分別設(shè)定為32和54.在皮爾遜相關(guān)系數(shù)計(jì)算中,滑窗大小設(shè)定為 5×5 ,并且滑窗步長大小設(shè)定為1.在感知損失函數(shù) Lperc 中,通過本文觀察,深層特征通常與圖像色彩信息關(guān)系緊密,而色調(diào)映射任務(wù)對圖像色調(diào)深淺有較大影響,所以設(shè)定各層輸出特征損失權(quán)重為 [α1,α2,α3,α4,α5]=[1,1,1] 1,0.5」.本文所提方法基于PyTorch框架實(shí)現(xiàn),并且利用一塊NVIDIA3090顯卡進(jìn)行訓(xùn)練.

2.3對比實(shí)驗(yàn)

為了展示本文所提方法的先進(jìn)性,本文與領(lǐng)域內(nèi)5種先進(jìn)方法進(jìn)行了實(shí)驗(yàn)對比.為了驗(yàn)證所提方法的泛化性能,本文采用了三個(gè)訓(xùn)練階段未見的數(shù)據(jù)集用于測試,即LVZ-HDR數(shù)據(jù)集[22],HDRIHaven數(shù)據(jù)集26和HDRSurvey數(shù)據(jù)集27.本文用于檢驗(yàn)HDR圖像色調(diào)映射性能的指標(biāo)包括TMQI[16和BTMQI[28].TMQI[16]以HDR圖像和映射后LDR圖像為輸入,從保真度和自然度兩方面衡量色調(diào)映射質(zhì)量.BTMQI28在不依賴于原始HDR數(shù)據(jù)或任何參考圖像的情況下,對經(jīng)過色調(diào)映射處理生成的LDR圖像進(jìn)行質(zhì)量評價(jià).在比較方法中,CLIP-LIT[20]被提出用于背光圖像增強(qiáng),同樣利用多模態(tài)損失和感知損失處理非配對數(shù)據(jù).但與本文不同的是,CLIP-LIT以RGB三通道圖像作為輸人,且并未考慮結(jié)構(gòu)損失和多尺度信息,更加關(guān)注圖像語義信息.TMONet22是基于監(jiān)督學(xué)習(xí)的色調(diào)映射方法,由于其只向外界提供了模型在LVZ-HDR數(shù)據(jù)集上的測試結(jié)果,未開源工程代碼,因此本文只在LVZ-HDR數(shù)據(jù)集上與TMONet進(jìn)行比較.TMOCAN[29]是基于無監(jiān)督學(xué)習(xí)的色調(diào)映射方法,只需要使用HDR數(shù)據(jù)即可訓(xùn)練.由于其未提供訓(xùn)練權(quán)重文件,為了進(jìn)行公平對比,本文按照其所述方法在HDR + 數(shù)據(jù)集上對TMOCAN進(jìn)行了訓(xùn)練.UnpairedTMO[17]和UnCLTMO[8]是基于非配對學(xué)習(xí)的色調(diào)映射方法,與本文所提方法相同,利用非配對的HDR圖像和LDR圖像進(jìn)行訓(xùn)練.

不同方法在三個(gè)HDR數(shù)據(jù)集上的定量比較結(jié)果分別如表1、表2和表3所示.不難發(fā)現(xiàn),本文所提方法在各個(gè)測試數(shù)據(jù)集中BTMQI指標(biāo)都取得了最好的結(jié)果,TMQI指標(biāo)也僅次于UnCLTMO的結(jié)果.UnCLTMO方法在訓(xùn)練過程中,利用TMQI指標(biāo)指導(dǎo)對比學(xué)習(xí),對結(jié)果的TMQI指標(biāo)有較好的提升作用,但在BTMQI指標(biāo)中表現(xiàn)不及本文.

表1LVZ-HDR數(shù)據(jù)集對比實(shí)驗(yàn)

Tab.1 ComparisonsonLVZ-HDRdataset

可以觀察到,在同樣引入多模態(tài)信息的CLIP-LIT的實(shí)驗(yàn)結(jié)果中,TMQI和BTMQI都表現(xiàn)較差.原因在于,色調(diào)映射任務(wù)與低照度圖像增強(qiáng)任務(wù)不同,HDR圖像與LDR圖像存在更加顯著的亮度差異,而感知損失相對結(jié)構(gòu)損失對亮度信息更加敏感,只利用感知損失約束色調(diào)映射網(wǎng)絡(luò)輸入輸出一致,極大地限制了網(wǎng)絡(luò)對圖像亮度的調(diào)整,同時(shí)抑制了跨模態(tài)信息的輔助作用.而本文方法只在亮度層上進(jìn)行處理,同時(shí)引入結(jié)構(gòu)損失,并在結(jié)構(gòu)損失和表征損失中都采用多尺度輸入,在保證結(jié)構(gòu)一致的前提下,給予網(wǎng)絡(luò)更大的亮度調(diào)整空間,并利用跨模態(tài)信息監(jiān)督,可以很好地完成色調(diào)映射任務(wù).

表2HDRIHaven數(shù)據(jù)集對比實(shí)驗(yàn)Tab.2ComparisonsonHDRI Havendataset

表3HDRSurvey數(shù)據(jù)集對比實(shí)驗(yàn)

Tab.3 ComparisonsonHDRSurveydataset

圖2、圖3和圖4分別展示了不同方法在三個(gè)HDR數(shù)據(jù)集上的輸出結(jié)果對比.其中,CLIP-LIT輸出結(jié)果過暗,原因如上文所述.TMONet輸出圖像色彩表現(xiàn)較差且不自然.TMOCAN方法復(fù)雜度較低,但輸出結(jié)果過飽和嚴(yán)重,場景色彩出現(xiàn)了明顯偏差.UnpairedTMO和UnCLTMO方法表現(xiàn)較好,但對場景的理解能力較差,對同一物體經(jīng)常輸出差異的亮度信息,導(dǎo)致物體出現(xiàn)不自然的亮度差異,如圖2中的垃圾桶、房屋,圖3中的天空等.此外,其傾向于在高光區(qū)域產(chǎn)生褪色效應(yīng),即一定程度的過曝,如圖2中的南瓜、圖4中的牛形雕塑等.而本文所提方法在視覺效果上可以取得較好的結(jié)果,說明了在多模態(tài)模型的輔助下,本文方法可有效提升被攝物體的自然性以及亮度一致性,可以更真實(shí)地還原觀看體驗(yàn).本文在表4中給出了不同方法的復(fù)雜度、參數(shù)量、推理時(shí)間和顯存占用的比較.本文方法相較于UnpairedTMO和UnCLTMO具有更低的復(fù)雜度和參數(shù)量,同時(shí)具有更快的推理速度,內(nèi)存占用也略低.這說明了本文所提方法具有更高的計(jì)算效率.

圖2不同方法在LVZ-HDR數(shù)據(jù)集上的測試結(jié)果

圖3不同方法在HDRIHaven數(shù)據(jù)集上的測試結(jié)果

Fig.3TestresultsofdifferentmethodsonHDRHavendataset

圖4不同方法在HDRSurvey數(shù)據(jù)集上的測試結(jié)果

表4復(fù)雜度比較

Tab.4 Computingcomplexitycomparison

2.4消融實(shí)驗(yàn)

為了體現(xiàn)所提方法的有效性,本文在HDRSur-vey數(shù)據(jù)集上進(jìn)行了損失函數(shù)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示,效果對比如圖5所示.首先,將不引人跨模態(tài)信息輔助的模型定為基準(zhǔn)模型,即表5中的“w/ocliploss\"模型.其次,在引入共享的文本和圖像語義空間后,對微調(diào)表征向量進(jìn)行消融,即表5中的“w/oprompt loss\"模型.

圖5在HDRSurvey數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 Fig.5Results of ablation experiments onHDR Survey dataset

表5損失函數(shù)消融實(shí)驗(yàn)

Tab.5 Ablation experiment on the loss function

實(shí)驗(yàn)結(jié)果顯示,在僅采用結(jié)構(gòu)損失的情況下,模型能夠產(chǎn)生一個(gè)初步的色調(diào)映射結(jié)果,但性能有限.此時(shí)模型缺少對場景的理解能力,對復(fù)雜光照調(diào)節(jié)能力不足,常常導(dǎo)致部分區(qū)域欠曝或過曝.在引入多模態(tài)損失函數(shù)并且保持預(yù)初始化的表征向量不變的情況下,性能增益并不顯著.原因在于,初始化表征向量僅通過真實(shí)的HDR圖像和LDR圖像進(jìn)行訓(xùn)練,無法對網(wǎng)絡(luò)訓(xùn)練中的輸出結(jié)果進(jìn)行有效判斷.而利用 Lprompt 微調(diào)文本表征后,可以很好借助文本表征指導(dǎo)色調(diào)映射網(wǎng)絡(luò)輸出更優(yōu)結(jié)果.

本文在HDRSurvey數(shù)據(jù)集上進(jìn)行了損失函數(shù)權(quán)重消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示.CLIP損失函數(shù)旨在提升生成圖像的自然程度,而感知損失旨在增強(qiáng)圖像在場景信息上的保真度.通過權(quán)重參數(shù)設(shè)定,平衡二者之間關(guān)系,使模型輸出達(dá)到最佳效果,

另外,本文也嘗試在網(wǎng)絡(luò)訓(xùn)練第一階段使用不同的字符串作為初始變量進(jìn)行實(shí)驗(yàn),但最后經(jīng)過梯度更新后會(huì)收斂到類似的結(jié)果.這表明我們的方法對不同的初始化具有一定魯棒性.

表6損失函數(shù)權(quán)重消融實(shí)驗(yàn)

Tab.6 Ablations experiment on the weights of loss function:

2.5用戶主觀評測

為更好地說明所提方法相對其他方法的先進(jìn)性,本文開展了用戶研究,各方法偏好率如表7所示,為減少用戶評測壓力,本文在上述三個(gè)測試集中隨機(jī)抽取40組圖像進(jìn)行比較,用戶被要求挑選最喜歡的結(jié)果.參與調(diào)研的用戶人數(shù)為25位.結(jié)果顯示,有33% 的用戶更喜歡我們方法的輸出結(jié)果,高于第二名的 29% .這些結(jié)果表明,本文的色調(diào)映射結(jié)果更符合用戶的主觀偏好.

表7用戶主觀評測結(jié)果

Tab.7Resultsof userstudy

3結(jié)論

本文針對色調(diào)映射問題,提出了一種創(chuàng)新性的多模態(tài)學(xué)習(xí)方法,旨在通過深度融合文本與圖像的跨模態(tài)信息,提升圖像色調(diào)映射的準(zhǔn)確性和自然度,同時(shí)增強(qiáng)其適應(yīng)復(fù)雜光照條件和場景變化的能力.本文通過引入多模態(tài)信息先驗(yàn)知識,輔助色調(diào)映射網(wǎng)絡(luò)優(yōu)化映射結(jié)果,相較于生成對抗和對比學(xué)習(xí)方法,所提方法訓(xùn)練更容易,且可以實(shí)現(xiàn)更加穩(wěn)定自然的增強(qiáng)效果.視覺對比結(jié)果顯示了本文方法的優(yōu)越性,充分說明了多模態(tài)學(xué)習(xí)的有效性,也為后續(xù)更多基于多模態(tài)學(xué)習(xí)的底層視覺技術(shù)研究提供了重要的參考價(jià)值.

參考文獻(xiàn)

[1]KALANTARI N K,RAMAMOORTHI R.Deep high dynamic range imaging of dynamic scenes [J].ACM Transactions on Graphics,2017,36(4):1-12.

21

[2]DRAGO F,MYSZKOWSKI K,ANNEN T,et al. Adaptive logarithmic mapping for displaying high contrast scenes [J]. Computer Graphics Forum,2003,22(3): 419-426.

[3]FATTAL R,LISCHINSKI D,WERMAN M. Gradient domain high dynamic range compression [M]/Seminal graphics papers: pushing the boundaries:volume 2.New York,NY,USA:ACM, 2023:671-678.

[4]REINHARD E,STARK M,SHIRLEY P,et al. Photographic tone reproduction for digital images[M]//Seminal graphicspapers: pushing the boundaries:volume 2.New York,NY,USA: ACM, 2023:661-670.

[5]LIANG Z T,XU J,ZHANG D,et al.A hybrid l1-lO layer decomposition model for tone mapping [C]/2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA.IEEE,2018:4758-4766.

[6]SHIBATA T,TANAKA M,OKUTOMI M.Gradient-domain image reconstruction framework with intensity-range and basestructure constraints[C]/2O16 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas,NV,USA. IEEE,2016:2745-2753.

[7]HOU X X,DUAN J,QIU G P.Deep feature consistent deep image transformations:downscaling,decolorization and HDR tone mapping[EB/0L].(2017-09-11)[2024-01-10]2017:1707. 09482.https://arxiv.org/abs/1707.09482v2.

[8]JOHNSON J,ALAHI A,LI FF. Perceptual losses for real-time style transfer and super-resolution[M]//Computer vision-ECCV 2016.Cham: Springer International Publishing,2016:694-711.

[9]GHARBI M,CHEN JW,BARRON JT,et al.Deep bilateral learning for real-time image enhancement[J].ACM Transactions on Graphics,2017,36(4):1-12.

[10]MONTULET R,BRIASSOULI A. Deep learning for robust endto-endtonemapping [C]//3OthBritishMachineVision Conference.BMVA Press,2020:160373.

[11]RANA A,SINGH P,VALENZISE G,et al. Deep tone mapping operator for high dynamic range images[J].IEEE Transactions on Image Processing,2019,29:1285-1298.

[12] ZHANG N,WANG C,ZHAO Y,et al. Deep tone mapping network inHSV color space[C]//2O19 IEEE Visual Communications and Image Processing(VCIP).Sydney,Australia. IEEE,2019:1-4.

[13]PATEL V A,SHAHP,RAMAN S.A generative adversarial network for tone mapping HDR images [M]//omputer vision, pattern recognition,image processing,and graphics. Singapore: Springer Singapore,2018:220-231.

[14]CAO X,LAI K,YANUSHKEVICH S N,et al. Adversarial and adaptive tone mapping operator for high dynamic range images [C]//2020 IEEE Symposium Series on Computational Intellgence (SSCI).Canberra,ACT,Australia. IEEE,2020:1814-1821.

[15]ISOLA P,ZHU JY,ZHOU TH,et al.Image-to-image translation with conditional adversarial networks[C]//2O17 IEEE Conference on Computer Vision and Patern Recognition (CVPR). Honolulu,HI,USA.IEEE,2017:5967-5976.

[16]YEGANEH H,WANG Z. Objective quality assessment of tonemapped images[J]. IEEE Transactions on Image Processing, 2013,22(2):657-667.

[17]VINKER Y,HUBERMAN-SPIEGELGLASI,F(xiàn)ATTAL R. Unpaired learning for high dynamic range image tone mapping [C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC,Canada.IEEE,2O21:14637- 14646.

[18]CAO C,YUE HJ,LIU X,et al. Unsupervised HDR image and video tone mapping via contrastive learning[J].IEEE Transactions on Circuitsand Systems forVideo Technology,2024, 34(2):786-798.

[19]RADFORD A,KIMJW,HALLACYal C,et al.Learning transferable visual models from natural language supervision[C]// International conference on machine learning.PMLR,2021: 8748-8763.

[20]LIANG Z X,LI C Y,ZHOU SC,et al. Iterative prompt learning forunsupervised backlit image enhancement[C]/2O23 IEEE/CVF International Conference on Computer Vision(ICCV).Paris, France.IEEE,2023:8060-8069.

[21]RONNEBERGER O,F(xiàn)ISCHERP,BROX T.U-Net:convolutional networks forbiomedical image segmentation[M]//Medical image computing and computer-assisted intervention-MICCAI 2015. Cham:Springer International Publishing,2015:234-241.

[22]PANETTA K,KEZEBOU L,OLUDAREV,et al. TMO-net:a parameter-free tone mapping operatorusing generativeadversarial network,and performance benchmarkingon large scale HDR dataset[J]. IEEEAccess,2021,9:39500-39517.

[23]WANG Z,BOVIK A C,SHEIKHHR,et al.Image quality assessment:from error visibility to structural similarity[J]. IEEE Transactions on Image Processing,2004,13(4):600-612.

[24]HASINOFF S W,SHARLET D,GEISS R,et al.Burst photographyforhighdynamicrange and low-light imagingon mobile cameras[J].ACM Transactions onGraphics,2O16,35(6): 1-12.

[25]AGUSTSSON E,TIMOFTE R. NTIRE 2017 challenge on single image super-resolution:dataset and study [C]//2O17 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Honolulu,HI,USA.IEEE,2017:1122- 1131.

[26]Hdri-haven[EB/OL].(2024-11-3)[2025-05-13]. https://hdrihaven.com/#google_vignette.

[27]FAIRCHILD M D. The HDR photographic survey[J]. Color and ImagingConference,2007,15(1):233-238.

[28]GUK,WANG SQ,ZHAI GT,et al.Blind quality assessment of tone-mapped images via analysisof information,naturalness,and structure[J].IEEE Transactionson Multimedia,2016,18(3): 432-443.

[29]LECY,YANJB,F(xiàn)ANGYM,et al.Perceptually optimized deep high-dynamic-range image tone mapping[EB/OL]. (2021-09- 11)[2024-01-10]. https://arxiv.org/abs/2109.00180v3.

主站蜘蛛池模板: 成人国产精品2021| 狠狠做深爱婷婷久久一区| 欧美中文字幕在线视频| 91成人试看福利体验区| 亚洲成人精品| 国产在线97| 日韩大乳视频中文字幕| 国禁国产you女视频网站| 日本少妇又色又爽又高潮| 91毛片网| 日本在线国产| 尤物在线观看乱码| 色丁丁毛片在线观看| 国产亚洲精品在天天在线麻豆| 国产成人综合网| 日韩在线观看网站| 国产美女主播一级成人毛片| 中文字幕乱码二三区免费| 久久精品最新免费国产成人| 四虎精品黑人视频| 中文字幕无码av专区久久| AV熟女乱| 国产91小视频在线观看| 欧美亚洲中文精品三区| 欧日韩在线不卡视频| 国产一级二级在线观看| 国产福利拍拍拍| 免费女人18毛片a级毛片视频| 毛片久久网站小视频| 欧美特黄一免在线观看| 日本高清免费一本在线观看| 在线欧美国产| 秋霞一区二区三区| 亚洲欧美精品日韩欧美| 波多野结衣中文字幕一区二区| 天堂中文在线资源| 美女一级毛片无遮挡内谢| 国产精品香蕉在线观看不卡| 欧美视频在线观看第一页| 亚洲男人在线天堂| 久久国产精品波多野结衣| 久久国产高潮流白浆免费观看| 国产特级毛片aaaaaaa高清| 中文字幕在线永久在线视频2020| 午夜小视频在线| 欧美激情视频一区| 黄色国产在线| 国产原创第一页在线观看| 国产亚洲精品va在线| JIZZ亚洲国产| 无遮挡国产高潮视频免费观看 | 国产精品3p视频| 国产人成在线观看| 免费在线看黄网址| 国产精品内射视频| 亚洲欧美另类日本| 中文字幕免费播放| 99er这里只有精品| 国产a v无码专区亚洲av| 色婷婷啪啪| 91精品啪在线观看国产91| 九九久久99精品| 最新国产精品鲁鲁免费视频| 国产网站黄| 亚洲欧美日韩成人在线| 久久窝窝国产精品午夜看片| 乱系列中文字幕在线视频 | 72种姿势欧美久久久久大黄蕉| 国产尹人香蕉综合在线电影 | 国模粉嫩小泬视频在线观看| 天天综合亚洲| 91成人在线观看| 精品福利网| 国产理论精品| 无码福利视频| 亚洲视频色图| 免费毛片a| 一区二区偷拍美女撒尿视频| 狠狠色丁香婷婷| h视频在线播放| 成人在线不卡视频| 久久综合AV免费观看|