閆鵬剛



關鍵詞:顏色恒常性;拉普拉斯特征;色度特征;輕量級神經網絡
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2023)20-0047-04
0 引言
作為計算機視覺中一個重要且有效的特征,顏色信息已經廣泛應用于目標檢測、識別、分割、行為理解等領域。然而,作為一種十分容易受到外界因素影響的圖像特征,會隨著外界各種環境因素的變化而發生明顯的變化。相機以及其他設備在獲取圖像時,會受到場景中的光照、物體表面的反射率以及成像傳感器感光系數等多方面的影響,使得圖像顏色存在巨大的差異,然而人眼系統可以排除這些因素的干擾,確保其感知的色彩保持穩定不變。顏色恒常性的目的是讓機器擁有類似人眼視覺系統的顏色恒常性功能,其算法就是盡可能地使設備成像時的圖像與人類視覺系統所看到的一致。準確識別出場景物體本身的顏色,不僅可以得到高質量的圖像,還可以為后續的圖像理解打下良好基礎。因此顏色恒常性是一個值得關注的經典問題。
基于光源估計的顏色恒常性計算是顏色恒常性的重要研究方向,其過程通常是首先估計出場景的光源,然后通過 Von Kries 模型對圖像進行轉換。光源估計的方法主要包括基于統計的方法和基于學習的方法?;诮y計的方法包括Gray World 算法[1]、White-Patch 算法[2]、Gray-Edge 算法的多種變形[3-4]以及一些利用統計信息融合的算法[5]。這些算法不需要訓練數據,實現簡單、快速、高效,在實際生活中有著大量的應用,但因是在假設的基礎上,所以有著一定的局限性?;趯W習的算法主要包括色域映射算法(Gamut Mapping) [6]、貝葉斯統計及其改進算法[7-8]、空間域方法[9]、色度先驗知識[10]等,其主要是通過機器學習的方法提取色度、亮度、邊緣等關鍵特征并進行光源估計,能取得較好的圖像校正效果,但相較于基于統計的方法,這些算法計算復雜度高,泛化性較差,限制了在實際中的應用。
隨著深度學習領域的發展,相關的研究已應用于光源估計。Bianco等人[11]提出的CNN、Lou 等人[12]提出的 AlexNet、Shi 等人[13]提出的 DS-Net,崔帥等人[14]提出的深度殘差,Afifi 等人[15-16]提出的光源估計方法等,這些方法使用卷積神經網絡不斷訓練學習數據的內在分布特征,使光源估計的準確度得到了提高,也使算法有著良好的泛化性與魯棒性。Barron等人[17-18]通過將圖像轉換到對數空間并計算直方圖特征,對光源進行定位,提出了快速傅里葉顏色恒常性算法 FFCC,是近些年來廣受關注的一個算法。但是該算法僅僅考慮了像素的分布情況,卻忽略了像素本身具備的信息,使得基本信息丟失。本文提出了一種基于色度特征與輕量級神經網絡聯合的顏色恒常性算法。在公開數據集上的實驗表明,本文方法能夠更進一步提高光源估計精度。
1 本文方法
為了進一步提高顏色恒常性算法的精確性與穩定性,本文提出了一種聯合色度特征與輕量級神經網絡的顏色恒常性算法。該算法流程如圖1所示,首先,計算圖像的 Laplace 特征,獲取與圖像相同分辨率的特征;然后計算圖像與對應的 Laplace 特征的色度信息,并統計直方圖對應的平均色度值;最后,將平均色度輸入輕量級網絡中,進行自適應均值池化,得到整幅圖像的光源顏色估計。
實驗環境是英特爾至強處理器E5-2640 v4 @ 2.40GHz, GPU 為NVIDIA TITAN Xp,操作系統是 Ubuntu-18.04,本文提出的算法是基于Py?Torch實現的。
2.1 Color Checker 數據集
Color Checker 數據集是Gehler等人[21]提供的,該數據集共有568張圖片,包含室內室外場景,其中室內場景246張,室外場景322張。圖片由兩種分辨率較高的相機 Canon 5D 和 Canon 1D 進行拍攝。被拍攝的圖像經處理得到兩種分辨率,分別是384×256 和48×32。在實際應用中,小分辨率(如 48×32) 常作為輸入圖像計算光源估計值,其主要由于移動端或者嵌入式端內存受限。本方法采用分辨率為48×32的圖像進行訓練和測試。
2.2 評價標準
本文采用角度誤差作為衡量光源估計誤差的度量值,并采用幾個不同的度量標準作為算法的評價指標,分別是所有誤差的平均值(Mean) 、中位數(Me?dian) 、三均值(Tri-mean) 、最低25 %誤差的平均值(Best 25%) 、最高25%誤差的平均值(Worst 25%) 。角度誤差越小表示預測的光源估計值越接近真實光源,角度誤差越大表示顏色恒常性算法越差。
2.3 對比分析
本文對比的算法包括基于統計、基于機器學習以及基于深度學習的方法。通過對比表格中的數據可知,本文方法的深度學習算法最優。與基于統計方法相比,本文算法在 mean、median、tri、best25%、worst25% 這五個指標上提升范圍分別是:36%~74%、30%~79%、32%~77%、14%~82%、37%~70%,與基于機器學習方法相比,本文算法在mean、median、tri、best25%、worst25% 這五個指標上提升范圍分別是18%~53%、21%~56%、16%~53%、3%~61%、18%~55%,與基于深度學習方法相比,本文算法在mean、median、tri、best25%、worst25% 這五個指標上提升范圍分別是 6%~29%、2%~34%、4%~31%、0%~37%、5%~26%,需要注意的是 best 25% 指標下相比Multi-Hypothesis 算法精度略有下降,但整體相比是有提升的。相比FFCC-thumb 算法,本文算法在Mean、Worst25% 這兩個指標上提升了1.2%、6.6%,證明了該算法的穩健性??紤]到移動端或嵌入式端的內存限制,本文方法與 FFCC 均采用統計圖作為輸入(圖像分辨率是 48×32) ,與采用高分辨率圖像進行光源估計的 DS-Net(Shi 等,2016) 和 FC4(Hu 等,2017)方法相比,在 Color Checker 數據集上,本文方法的結果比這兩種方法差,但優于其他方法。
本文算法采用輕量級網絡結構,與其他深度學習算法在參數量上進行對比,如表2所示,對于單幀圖像進行顏色恒常性處理的平均時間是0.004s,可滿足移動端或者嵌入式端的應用需求。
3 結論
針對單光源復雜場景的問題,本文提出了一種色度特征與輕量級神經網絡聯合的顏色恒常性算法。該方法不僅獲得了色度的統計分布特征,而且保留了原始的色度信息。此外,本文采用的神經網絡模型相比性能較優的深度學習算法,模型參數量少、計算復雜度低。通過實驗發現,在 ColorChecker 數據集上,本文算法的準確度高于基于統計、基于機器學習以及大部分深度學習的方法,且相比于目前性能較優的深度學習方法,本文算法的模型參數量少,在運算速度和占用內存上有顯著優勢,能夠滿足移動端或者嵌入式端應用的實際需求。下一步的工作計劃是解決多光源條件下的顏色恒常性問題。