中圖分類號:TP314 文獻標志碼:A
Abstract:To addressthelimitations ofcurrent digital halftoning algorithms,such as slow processing speed suboptimal halftoning efects,adata-driven halftoning framework is proposed.By introducing the Gumbel-Softmax reparameterization strategy,thenon-diferentiability issuecaused by discrete halftoneselection isresolved, enablingunbiased gradient estimation during network backpropagation.To further enhance the halftoning fects,a novelblue noise loss function is designed tooptimize thedistribution of halftone dots.Aditionally,aPatch-wise Confidence Aggegation module is introduced to incorporate spatial correlations betweenpixels,allowing thenetwork tofocus more on pixel interactions during training.Based onthesestrategies,a label-free,self-supervised, diffrentiable halftoning framework isconstructed byoptimizingtheexpectedvalueof thehalftonequalitymetric. Experimental results demonstrate that the proposed method,without requiring image labels,can generate highquality halftone images maintain high processing speed low parameter complexity,effctively preserving localstructural information texturedetails.Moreover,this frameworkcanbeflexiblyextendedtomulti-level halftoning to accommodate the requirements of multi-level printheads.
Key words:halftoning;deep learning;gradient estimation;blue noise characteristics
半色調作為將連續色調圖像轉換為其近似的離散版本的技術,在打印領域應用廣泛.在半色調處理中,通過像素點的不同排列與像素密度來營造不同的灰度層次.由于人類視覺系統的低通濾波特性,肉眼在一定的觀察距離下會將半色調圖像感知為平滑過渡的連續色調圖像.半色調算法依據像素點排布的周期性和其為聚集點還是分散點來分類,非周期性分散點半色調算法生成的半色調圖片通常由均勻分布且離散的黑白點組成,往往具有藍噪聲特征,符合人眼感知特性,因此,與藍噪聲屬性相匹配的半色調圖案是生成高質量半色調圖像的關鍵.彩色半色調的實現通常將彩色圖像分解為多個顏色通道,對每個通道的顏色強度信息分別進行半色調處理.在印刷或顯示過程中,通過特定方式對這些經過半色調處理的通道進行疊加,網點之間相互作用,會再現原始圖像的色彩和亮度.因此,灰度圖像的半色調處理方法是擴展到彩色半色調的基礎,理解和優化灰度半色調處理對實現高質量的彩色半色調至關重要.在半色調技術研究中,圖像質量與處理效率是主要的研究重點.常見的半色調算法可以分為三類:有序抖動算法、誤差擴散算法2-4以及基于搜索的算法[5-7.有序抖動算法將連續色調圖像系統地劃分為均勻的小區域,并將其與預先設計或生成的抖動矩陣進行比較處理.該方法憑借其高效的并行處理能力和較低的計算復雜度,為快速圖像半色調處理提供了有效途徑,然而,這種速度優勢往往以犧牲半色調圖像的質量為代價.誤差擴散算法通過精細的像素級處理和誤差傳遞機制,在視覺質量上取得了顯著進步,但算法的串行本質8及潛在的視覺偽影問題成為進一步優化的阻礙.基于搜索的算法將半色調處理視為一個復雜的優化問題.這類方法首先定義一個綜合考慮人類視覺系統(HVS)特性的半色調質量評估指標[9],然后利用啟發式算法,如模擬退火算法或直接二分搜索算法對這些評估指標進行精確優化.這種方法直接對專門設計的指標(例如像素級的均方誤差)進行調整,因此能夠生成質量較優的半色調圖像,然而其高昂的計算成本成為限制此項技術廣泛應用的主要障礙.
深度學習模型特別是卷積神經網絡,因其在圖像識別、生成和轉換任務中的出色表現而備受關注.監督學習、無監督學習和強化學習是深度學習中常見的三種范式,在半色調處理中,卷積神經網絡通過學習成對圖像數據之間映射關系,期望通過單次前向傳播實現圖像的高效抖動處理[10-13].然而,此學習過程面臨兩大主要挑戰:首先,準備“真實\"半色調圖像作為訓練標簽成本高昂[14],尋求最佳半色調圖像需要龐大的計算資源.現有的基于搜索的方法要么僅能優化特定的指標度量,要么依賴于需要針對每個實例進行調參的元啟發式搜索算法.其次,半色調處理本質上是一個一對多的映射問題,即同一連續圖像可能對應多種有效的半色調表現形式.若直接采用像素級損失函數(例如交叉熵)來優化,可能會導致模型僅學習到輸入圖像的平均表現形式,無法滿足半色調處理的離散性要求.因此,如何在沒有大規模標注數據集的情況下,依靠自監督的方式來實現半色調[15],是半色調研究的重要內容.在深度學習應用于半色調處理的過程中,一個核心問題源自半色調圖像的強二值特性,這直接導致離散選擇(如確定性地選擇最佳像素狀態)在訓練過程中不可微,從而阻礙了梯度的反向傳播.現有研究一方面利用生成對抗網絡從預先準備好的半色調標簽數據集進行訓練,旨在最小化輸出和標簽之間的皮爾遜x散度,但因其需要構建大量標簽數據集,實用性受到一定限制.另一方面研究主要解決梯度回傳問題,一種策略是梯度直通估計器[6.該方法在前向傳播中執行實際的離散操作,而在反向傳播過程中,則直接將梯度傳遞至離散變量的輸入,忽略離散化帶來的非連續性,這種方式削弱了二值化的特性,因此需要引入離散化懲罰損失,將輸出值推向最近的離散端[17].然而,這種貪婪的二值化規則可能會損害全局角度的優化.梯度直通估計器雖然簡單易行,但其梯度估計的不準確性可能影響模型的優化質量;也有研究采用REINFORCE等基于策略梯度的方法,由于半色調圖像處理需要對所有像素進行采樣[18],其梯度估計通過累積往往伴隨較高的方差,導致訓練效率低下,模型難以收斂.
本文針對上述問題,提出一種基于自監督學習的可微分半色調框架.無須依賴預先準備好的半色調標簽數據集進行訓練,而是通過優化半色調評價度量的期望訓練一個輕量級的殘差網絡,所做的主要貢獻如下:
1)采用重參數化策略提供了一種平滑可微的近似方法來模擬離散分布的采樣過程,使模型能夠有效地估計梯度,并進行端到端的優化.
2)對半色調圖像網點分布加以分析并提出藍噪聲損失,令半色調圖像展現出理想的藍噪聲特性.
3)提出區域置信度聚合評估機制.通過綜合考量像素間的相互依賴性,有效地模擬人類視覺系統的感知特性,從而維持圖像的局部結構信息和紋理細節.
4)展示了該框架從二級到多色調處理的靈活拓展能力,顯示了其在不同半色調場景下的應用潛力.
1方法
本節將首先探討基于數據驅動的深度學習半色調處理框架,該框架通過精確的梯度估計解決了由離散選擇導致的不可微分問題.隨后介紹了藍噪聲損失函數,此函數設計用于優化生成圖像的視覺感知質量,并誘導圖像展現出理想的藍噪聲特性.最后,提出了區域置信度聚合機制,這種機制綜合考慮了局部區域信息,能夠更全面地優化圖像的紋理和結構細節.
1.1網絡架構
本文根據藍噪聲的抖動模式,提出了一種基于自監督學習的卷積殘差網絡的模型.由于卷積神經網絡具有空間共享內核的卷積范式,其所帶來的歸納偏置容易產生平坦性退化的現象.具體而言,常數信號 s(x)≡b 與任意核函數 k(x) 的卷積仍然是一個常數信號
,其中 μ(k(x) )表示核函數的均值,因此,給定平坦輸入 X ,無論CNN參數如何,CNN的操作都會退化為縮放操作 Y=αX. 于是本文在不破壞原始輸入信息完整性的前提下,利用高斯噪聲圖作為空間變化,并將其引人特征空間中為模型提供足夠的抖動依賴[17-20].圖1展示了深度半色調的具體流程,網絡輸入由下述公式定義:

式中: c 是連續調灰度圖像; cg 是額外采樣的恒定灰度 圖像; z 則為動態采樣的高斯噪聲,引入的隨機性噪 聲有助于引導模型聚焦于整體圖案的統計分布特性 而非單一像素值.
網絡主體包含多個殘差塊,每個殘差塊處理輸入特征并將處理后的特征圖與原始輸入相加,這些殘差塊有助于在深層網絡中有效傳遞信息,從而避免梯度消失問題,使得網絡在學習深層特征時保持
圖1深度可微分半色調框架
Fig.1Deepdifferentiablehalftoningframework

性能的穩定.
在深度框架網絡輸出的最后階段,采用Gumbel-Softmax操作對模型處理結果進行離散化[21,并實現梯度的無偏估計,生成半色調圖像.Gumbel-Softmax策略旨在解決無法直接將重參數化技巧應用于離散數據的問題,這種策略基于兩個洞察:利用Gumbel分布能夠實現離散分布的參數化;argmax函數本身不具備連續性,通過使用溫度參數控制的Softmax函數,為離散選擇過程提供了一個連續且可微的近似.具體來說,對于給定的離散隨機變量 X ,設其具有 K 個類別,且第 k 個類別非標準化對數概率表示為 logπk. 對每個類別 k 都生成一個獨立的Gumbel噪聲:
Gk=-log(-log(Uk))
其中 Uk 服從均勻分布 U~Uniform(0,1) 對于這 k 個事件的類別分布,概率分別為 π1,…,πk ,計算出 logπ1 …,logπk ,并且在這些項中都加入從Gumbel分布中采樣的獨立同分布噪聲,然后通過argmax函數來表征隨機樣本 X .

在離散變量的處理中,直接基于argmax操作選擇的過程是非連續的[22],則通過依賴于溫度參數 τ 的Softmax函數將離散變量松弛為連續變量:

其中 i=1,…,k ,因此,該策略將參數 π1,…,πk 的依賴性從不可微的隨機采樣函數轉移到了由Softmax和log 運算組成的可微函數上,而且其內在機制巧妙地延續了初始Concatenate操作中引人的噪聲效益,即通過引入基于Gumbel分布的噪聲,不僅有效地模擬和擴展了初始噪聲的隨機性影響,且進一步增強了模型處理離散輸出的能力.
由于半色調的離散性,通過人類視覺系統(HVS)過濾后圖像能夠有效地模擬人眼的感知特性[23].本文在此基礎上進行端到端的優化.
1.2藍噪聲損失
在半色調處理中,藍噪聲紋理圖案具有非周期性特征的同時避免了低頻顆粒感,符合人眼感知[24].符合藍噪聲的半色調應保持以下頻譜特性:1)含有較少的低頻分量;2)高頻區的能量分布相對平坦;3)各向異性在所有頻率上都非常低.以往的研究表明,在處理恒定灰度圖像時,僅僅依賴降低通過人類視覺系統過濾后圖像的均方誤差損失和結構相似性損失,并不足以確保較好的藍噪聲質量[25].此外,卷積神經網絡的并行處理特性易引發全局一致性的棋盤偽影,這進一步導致了半色調圖像質量下降.Xia等人[通過離散余弦變換懲罰半色調圖像的低頻分量,雖然在一定程度上最小化了這些分量,但并未顯著解決過度的各向異性問題,這種過度的各向異性在視覺上可能導致不受歡迎的紋理偏向.為了優化生成圖像的藍噪聲特性并評估其質量[18],避免模型傾向于極端輸出,本文引入了基于功率譜方差的度量方法.首先,通過離散傅里葉變換(DFT)計算半色調 h 圖像的功率譜 

其中 N 是樣本的像素總數,進一步地,為了得到徑向平均功率譜密度 P(fρ) (RAPSD),將其定義為每個頻率環
的平均功率譜:

其中 n(r(fρ) )是徑向頻率 fρ 周圍寬度為 Δρ=1 的圓環中離散頻率樣本的數量,此外,定義相同頻率的樣本方差為:

由于方差用于衡量數據離散程度,可以顯式地表征半色調點的分布特性和波動程度,基于這些分析,設計了一種藍噪聲損失函數:
LN=MSE(Vc(fρ),Vh(fρ))
其中 Vc(fρ) 是理想的藍噪聲頻譜方差,通過量化對比模型輸出與理想藍噪聲頻譜方差的均方誤差(MSE),該損失函數能夠精確評估模型在保持圖像藍噪聲屬性方面的效果.由于光譜分析只對恒定灰度的半色調圖像有意義,因此本文在額外的小批量恒定灰度圖像 Cg 上優化該損失函數.
為了綜合評估并優化模型生成的半色調圖像的質量,定義一個總體損失函數 Ltotal ,結合不同的損失成分:
Ltotal=Lc+w1?LN+w2?Ls
其中, Lc 是基于HVS濾波(其核大小為 11×11 )后半色調圖像 h 和原圖 c 的均方誤差23的損失,其定義為:
Lc=MSE(HVS(h),HVS(c))
Ls 是結構相似性指數(SSIM)損失,用于評估圖像之間的相似性:
LS=1-SSIM(h,c)
其中超參數 w1=0.02,w2=0.01 是經驗設置值.在訓練過程中,將總體損失函數 Ltotal 作為最終優化自標,指導模型在學習過程中同時優化圖像的視覺相似度、結構相似性和藍噪聲特性.通過這種方式,不僅能夠生成在視覺上與原圖像相近的半色調圖像,還能確保其具備理想的藍噪聲特性,從而在視覺效果上達到最優平衡.
1.3區域置信度聚合
在半色調圖像質量評估中,現有度量標準如均方誤差和結構相似性指數雖然能夠量化圖像間差異,但它們往往受限于對像素級精確度的片面追求,忽略了像素間的相互作用對整體感知質量的影響.這些指標通過人類視覺系統模型對目標圖像和參考圖像進行預處理,以模擬人眼對圖像細節的敏感度,繼而生成反映圖像差異的誤差圖并對其進行平均計算得到標量度量結果.像素的表現不僅僅依賴于其自身的值,還會受到其所在局部窗口內其他像素的影響,這一作用范圍由HVS濾波器所限定的窗口大小決定.然而,僅通過廣義平均池(generalizedmeanpooling)直接優化平均精度,將每個網絡參數的梯度簡化為所有像素處梯度的平均值,該處理方式將所有像素對的置信度成本等同對待,未能充分考慮到半色調圖像中像素點排列模式對生成圖像質量的關鍵影響[26-27].
針對上述局限,提出區域置信度聚合模塊,即摒棄孤立審視像素的做法,轉而采取一種更加全局化的視角,將局部像素的置信度聚合到統一的聚類中心來進行處理.旨在通過綜合考慮像素所在局部區域的質量評估,更全面地優化圖像的紋理和結構細節.具體而言,利用模型輸出的均方誤差構建逐像素匹配置信度特征圖 F ,采用區域置信度聚合機制,從特征圖中提取密集采樣子區域(大小為 11×11 的局部描述符 Di,j. 每個描述符不僅包含當前像素的信息,還綜合了其鄰域內所有像素的置信度值.同時引入可學習的卷積濾波器權重 w ,用于調節不同像素在聚合過程中的貢獻度,確保模型能夠自適應地捕捉圖像的局部特征,局部描述符由下式來定義:

式中: N(i,j) 表示以 (i,j) 為中心、大小為 11×11 的鄰域.通過將區域置信度聚合的鄰域大小與HVS濾波器窗口保持一致,使得模型能夠在和HVS相同的感知范圍內,從而更有效地聚合鄰域內的置信度信息.
與此同時, w 可以視為模型中卷積層的一部分,并且可與網絡參數一同學習.為了更快達到收斂目標,將初始權重值設置為標準差為2的高斯分布.在這種機制下,模型的決策輸出不僅基于當前像素點,而且通過標記像素之間的相關性,更好地捕捉圖像的上下文信息,從而增強了模型的空間感知能力.
2實驗與分析
本節將介紹方法的實現細節,比較本文提出的工作與現有半色調方法的性能差異,進行相關消融實驗,并探討其在不同應用場景中的可擴展性.
2.1實驗設置
本文采用V0C2012數據集進行訓練和評估,隨機選取其中的13758幅圖像作為訓練集,并保留其中的1684幅和1683幅圖像作為驗證集和測試集.基于自監督學習,通過設計特定的損失函數,使模型在訓練時無須依賴標注數據,從而能夠利用大量未標注的灰度圖像進行學習.為了確保實驗的一致性和可比性,所有圖像在處理前都被轉換為灰度圖像,將所提出的方法與其他方法進行了全面的比較.為了進一步證明模型的有效性以及泛化能力,在多個公開數據集上進行測試,包括Set5,Set14,BSD100,BSD200,General100,Manga109,Urban100,DIV2KVal數據集.
本文采取殘差網絡作為半色調的主干網絡,在訓練中,將批量大小設置為64,并對訓練圖像進行64×64 的隨機裁剪.訓練過程中通過最小化損失函數Ltotal 來訓練網絡,取超參數 w1=0.02,w2=0.01 ,重參數化的初始溫度系數 τ 設為0.5.整個網絡模型選取ADAM優化器進行訓練,學習率 α 通過余弦退火計劃從 3×10-4 調整為 1×10-5 ,整個訓練過程在NVIDIARTX2080TiGPU上進行400個輪次.
2.2半色調質量評價
為了全面評估提出的方法在半色調圖像生成任務中的性能,本文進行了系統的定量評估和視覺質量分析,對比了多種現有的半色調方法,包括基于Void--cluster方法(VAC)[1]、Ostromoukhov的方法(OVED)[4]、基于優化的搜索方法(DBS)[6],以及基于深度神經網絡的方法( RVH[17] 和 TRH[12] ).表1中詳細列出了所有方法在測試數據集上的定量結果,其中base表示未采用區域置信度聚合機制.通過
HVS過濾的半色調和輸入連續色調之間的峰值信噪比(PSNR)來測量色調一致性,并通過結構相似性指數(SSIM)來評估半色調圖像的結構和紋理信息.
表1半色調方法定量比較
Tab.1 Quantitativecomparisonofhalftoningmethods

實驗結果表明,所提方法在PSNR方面取得了具有競爭力的分數,并在SSIM方面獲得了最佳表現.值得注意的是,盡管DBS方法通過優化搜索策略獲得了最高的PSNR值,但極高的PSNR并不代表視覺上更佳的半色調效果,且極致追求PSNR指標會犧牲圖像結構細節.圖2(d)展示了DBS方法生成的結果在視覺上丟失局部細節.本文方法則更加重視圖像結構紋理和色調一致性的平衡.
表1還比較了不同方法的參數量以及在 512× 512像素的“Lenna\"測試圖像上的運行時間.結果顯示,VAC方法雖然運行時間最短,但其生成的半色調圖像質量相對較低.另一方面,基于優化的搜索方法(DBS)采用計算密集型操作,較長的運行時間限制了其在實際應用中的可行性.相比之下,基于深度神經網絡的方法能夠生成細節更豐富、質量更高的半色調圖像.同時,本文的方法在減少參數量和縮短運行時間方面均優于RVH和TRH方法,表現出更高的計算效率和更低的時間開銷.總體上看,本文提出的框架在圖像質量評估和計算成本方面處于領先地位.
圖2展示了各方法對“SnailShapedOrgan”圖像的半色調效果.其中VAC、OVED和DBS,未能有效保留圖像的靜脈結構細節,因為這些方法在生成半色調圖像時忽視了圖像的結構相似性,導致在處理邊緣細節時表現不佳,使得半色調圖片過度模糊化并丟失了細節.盡管這些方法能夠在一定程度上抑制偽影,但這通常以犧牲細微紋理和邊緣信息為代價.相比之下,本文的方法有效地平衡了偽影抑制與細節保留之間的關系,更準確地反映了原始圖像的結構特征.不僅在抑制偽影方面表現出色,而且避免了過度模糊,成功地保留了圖像的關鍵特征,這使得本文的方法在半色調圖像的生成質量上顯著優于其他方法.
292429 K (a)input (b)VAC (c)OVED (d)DBS Bg (e)RVH (f)TRH (g)Ours/base (h)Ours
圖3展示了真實圖像及對其采用不同方法生成的半色調結果.可以觀察到,OVED、RVH和TRH方法生成的半色調圖像中出現了明顯的棋盤狀網格偽影,且OVED具有相對嚴重的斜向紋理特征,盡管這種模式在視覺上呈現出相對較低的低頻特征,但它未能完全滿足藍噪聲的理想特性;而RVH和TRH方法存在點聚集現象,即像素點傾向于在某些區域聚集,這樣的點分布不屬于理想中的隨機均勻分布,這進一步影響了半色調圖像的整體視覺效果.這些方法在優化低頻特征的同時,未能有效地處理藍噪聲分布和點分散問題.相比之下,本文方法生成的半色調圖像不僅有效避免了棋盤狀網格圖案的產生,還顯著減少了點聚集現象,能夠生成具有更自然紋理的半色調圖像.
圖3“Butterfly”的半色調效果
Fig.3Halftoning result of the \"Butterfly\"

為了驗證所提方法的有效性,在多個公開測試集上對不同方法的PSNR和SSIM指標進行了對比實驗,定量指標比較如表2所示.本文方法在各個測試集上均表現出最好的SSIM指標和較好的PSNR指標,驗證了該方法在保持圖像細節和結構完整性方面具有明顯優勢,同時也表明了其具有較好的泛化性.
表2公開數據集的測試結果(SSIM/PSNR)
Tab.2 Test results on public datasets(SSIM/PSNR)

2.3消融實驗
為了在二值化過程中實現網絡框架的可微性,RVH和TRH方法使用了直通估計器來實現二值化過程中的梯度回傳,并提出了二值化損失.該方法盡管在某種程度上促進了離散選擇,但二值化損失的存在卻限制了整體圖像質量的優化.與此不同,本文采用了基于Gumbel-Softmax重參數化的策略,在保留離散選擇特征的同時,允許模型在訓練時探索連續的決策空間.這樣不僅實現了離散選擇過程的可微性,還提高了模型的訓練穩定性和效率,從而顯著改善了圖像質量評價的優化效果.
在半色調過程中,藍噪聲特性是影響半色調圖像質量的關鍵因素.圖4展示了不同恒定灰度圖像的半色調結果以及徑向平均功率譜密度和各向異性度量.在首行圖像半色調結果圖中,每個子圖的左、中、右分別為不使用藍噪聲損失、使用藍噪聲損失以及DBS方法生成的半色調效果,可以明顯看出:不使用藍噪聲損失的半色調圖像存在較為突出的條紋偽影,而使用該損失能夠明顯解決條紋偽影問題,同時經過優化后的半色調圖像在徑向頻率功率譜上也呈現出理想的藍噪聲特性,即較少的低頻分量和較高且平緩過渡的中高頻分量.此外,具有藍噪聲特性的半色調頻譜的各向異性曲線也相對平緩,避免了尖銳的頻率峰值或突兀的變化,這種平滑的頻率響應不僅提高了圖像的視覺質量,還有效抑制了可能的視覺偽影.圖5顯示了恒定灰度等級為127的圖像在不使用Lv 和使用 Lv 情況下的傅里葉振幅譜.從圖5(a)可以明顯觀察到:不使用 Lv 時半色調點分布具有明顯的方向偏好,而使用 Lv 后,這種偏好顯著減少,顯示出更理想的藍噪聲特性.
圖4恒定灰度圖像半色調表現及光譜分析
Fig.4 Halftoning performance spectral analysis of constant grayscale images

圖5恒定灰度半色調圖像的傅里葉振幅譜 Fig.5Fourieramplitude spectrumof halftone images with constant grayscale

通過引入區域置信度聚合機制,能夠更全面地捕捉和利用局部區域內的置信度信息.表1展示了該機制在測試數據集上的SSIM和PSNR得分均有所改進(base表示未引入區域置信度聚合機制).圖6展示了各種深度學習方法的MSE損失曲線,進一步表明通過綜合考量像素間的置信度信息,模型能夠更快速地收斂,從而提升訓練效率.
此外,為進一步分析模型超參數對性能的影響,本文對損失函數中的超參數 w2 進行了敏感性分析.圖7繪制了不同 w2 值下的優化結果,在本研究中選擇 w2=0.01 ,其生成的半色調圖像在結構清晰度和一致性之間表現較好.根據圖像質量不同偏好,可以通過降低 w2 來獲得更高的PSNR分數,但這可能以犧牲結構和紋理細節為代價.
2.4多級半色調
本研究中介紹的框架雖然以基礎的二級半色調問題為出發點,但其靈活性和擴展性使其能夠適應更為復雜的圖像處理場景,特別是對于多級半色調的拓展.多級半色調技術通過增加灰度層次,為圖像每個區域提供了更多的網點選項,從而在視覺上實現了更加平滑和連續色調的模擬.為具體說明此點,本文在此提供了一個多級半色調的具體示例.通過調整模型的輸出通道數,并利用Gumbel-Softmax技巧,將其輸出的one-hot向量與預定義的多級半色調等級權重進行加權求和,由于所提出的藍噪聲損失僅針對二值離散化輸出進行優化,因此不使用該藍噪聲解決方案,最終得到所需的離散半色調結果.經實驗得出五級半色調在VOC測試集上的SSIM和PSNR分數分別為0.3216和42.825.圖8展示了兩個五級半色調的實例,可以在折線圖中觀察到模型的輸出依舊集中在離散的灰度級中心.
圖7超參數 w2 的敏感性分析Fig.7Sensitivity analysis for hyperparameter w2 (204號

圖8五級半色調實例
Fig.8Five-level halftoning example

雖然本研究提出的擴展解決方案在多級半色調算法實現上展現出可行性,但為了進一步提升圖像質量,必須注意到幾個額外的復雜維度,包括選用合適的藍噪聲模型以優化視覺質量,以及有效緩解條紋偽影。為了實現這些目標,需要將這些考量因素融入現有框架中,以期達到更深層次的優化與完善2.鑒于多維度問題的復雜性,要求更為精細的理論分析與實驗驗證,這些深人的研究工作可視為未來研究的方向,
3結論
本研究提出基于數據驅動方法的高效半色調方法,引入Gumbel-Softmax重參數化策略,解決了半色調離散選擇帶來的不可微分問題,實現了有效的無偏梯度估計.設計新的損失函數,在訓練階段顯著抑制了恒定灰度圖像的各向異性現象,從而促進了藍噪聲特性的自然生成.提出區域置信度聚合機制,綜合考慮鄰域內像素間的相互關系,增強了網絡對局部區域細節和全局結構的信息提取.總的來說,該可微分框架擺脫了對標簽數據的依賴,直接針對半色調評價度量進行優化.與其他方法相比,本研究所訓練的深度學習模型不僅能夠生成富含細節的高質量半色調圖像,而且在運算效率方面具有顯著優勢.此外,該框架具備良好的可擴展性,能夠應用于多級半色調等場景中,為圖像半色調提供了有效的解決方案.未來工作會進一步優化神經網絡結構以及多級半色調和彩色半色調的藍噪聲問題.
參考文獻
[1] ULICHNEY R A.Void--cluster method for dither array generation[C]/Human Vision,Visual Processing, Digital Display IV.SanJose,CA.SPIE,1993:332-343.
[2]MAOYF,ABELLOL,SARKARU,et al.4-row serpentine tone dependentfast errordiffusion[C]//2O18 25th IEEE International Conference on Image Processing(ICIP).Athens,Greece.IEEE, 2018:3973-3977.
[3] HU XY.Simple gradient-based error-diffusion method[J]. Journal of Electronic Imaging,2016,25(4) :043029.
[4] OSTROMOUKHOV V.A simple efficient error-diffusion algorithm[C]//Proceedings of the 28th Annual Conferenceon Computer Graphics Interactive Techniques.ACM,2001: 567-572.
[5]FRANKT,LIUJY,GATS,etal.A machinelearning approach to design of aperiodic,clustered-dot halftone screensvia direct binary search[J]. IEEE Transactions on Image Processing,2022, 31:5498-5512.
[6] LIAOJR.Theoretical bounds of direct binary search halftoning [J].IEEE Transactions on Image Processing,2015,24(11): 3478-3487.
[7] UFUK AGAR A,ALLEBACHJP. Model-based color halftoning using direct binary search[J]. IEEE Transactions on Image Processing,2005,14(12):1945-1959.
[8] 王曉紅,劉麗麗,陳豪,等.一種基于動態誤差擴散系數的數 字半色調算法[J].包裝工程,2017,38(13):199-203. WANG X H,LIULL,CHEN H,et al.A digital halftone algorithm based on the dynamic error diffusion coefficient[J]. Packaging ,2017,38(13):199-203.(in Chinese)
[9] FUNGY H,CHAN YH. Tone-dependent noise model for highquality halftones[J]. Journal of Electronic Imaging,2013,22(2): 023004.
[10]SHAO LH,ZHANG EH,LI M. An efficient convolutional neural network model combined with attention mechanism for inverse halftoning[J]. Electronics,2021,10(13):1574.
[11]JIANGHT,XIONGDL,JIANGXW,etal.Halftoningwith multi-agent deep reinforcement learning [C]//O22 IEEE International Conferenceon ImageProcessing(ICIP).Bordeaux, France.IEEE,2022:641-645.
[12]LAU C K,XIA M H,WONG TT. Taming reversible halftoning via predictive luminance[J].IEEE Transactions on Visualization Computer Graphics,2024,30(8): 4841-4852.
[13]GUO J M,SANKARASRINIVASAN S. H-GAN: deep learning model forhalftoning its reconstruction [C]//2O20 IEEE International Conference on Consumer Electronics(ICCE).Las Vegas,NV,USA.IEEE,2020:1-2.
[14]CHOI B,ALLEBACH JP. Mimicking DBS halftoning via a deep learning approach[J]. Electronic Imaging,2022,34(15):158-1- 158-7.
[15]LAU DL,ARCEGR.Modern digital halftoning[M]. Boca Raton: CRC Press,2018.
[16]TITSIAS M K,LAZARO-GREDILLA M. Local expectation gradients for black box variational inference[J].Advances in Neural Information Processing Systems,2015:1-9.
[17]XIA MH,HUWB,LIUXT,et al.Deep halftoning with reversible binary pattern [C]//2O21IEEE/CVF International Conference on Computer Vision(ICCV).Montreal,QC,Canada. IEEE,2021:13980-13989.
[18]JIANG HT,XIONG D L,JIANG X W,et al.Effient halftoning via deep reinforcement learning[J].IEEE Transactions on Image Processing,2023,32:5494-5508.
[19]HE K M,ZHANG XY,REN SQ,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision Pattern Recognition(CVPR).LasVegas,NV,USA.IEEE, 2016:770-778.
[20]李碩士,劉洪瑞,甘永東,等.基于殘差密集塊與注意力機制的 圖像去霧網絡[J].湖南大學學報(自然科學版),2021,48(6): 112-118. LI S S,LIU HR,GAN Y D,et al. Image dehazing network based onresidual dense block attention mechanism[J].Journal of Hunan University(Natural Sciences),2021,48(6):112-118. (in Chinese)
[21]Unsupervised multi-object segmentation using attention softargmax[C]//2023 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV).Waikoloa,HI,USA.IEEE, 2023:3266-3275.
[22]HUIJBENIAM,KOOL W,PAULUS MB,et al.A review of the gumbel-max trick its extensions for discrete stochasticity in machine learning[J].IEEE Transactions on Pattern Analysis Machine ,2023,45(2):1353-1371.
[23]KIM S H,ALLEBACH JP. Impact of HVS models on modelbased halftoning [J]. IEEE Transactions on Image Processing, 2002,11(3):258-269.
[24]ULICHNEY RA.Dithering with blue noise[J].Proceedings of the IEEE,1988,76(1):56-79.
[25]ITOUA P,BEGHDADI A,VIARIS DE LESEGNO P. Objective perceptual evaluation of halftoning using image quality metrics [C]//10th International Conference on Information Science,Signal Processing their Applications (ISSPA 201O). Kuala Lumpur, Malaysia.IEEE,2010:456-459.
[26]FURUTAR,INOUEN,YAMASAKIT.PixelRL:fuly convolutional network with reinforcement learning forimage processing[J]. IEEE Transactions on Multimedia,2020,22(7): 1704-1719.
[27]VASSILO K,HEATWOLE C,TAHA T,et al. Multi-step reinforcement learning for single image super-resolution [C]// 2020 IEEE/CVF Conference on Computer Vision Pattern RecognitionWorkshops(CVPRW).Seattle,WA,USA.IEEE, 2020: 2160-2168.
[28]ABEDINI F,GOORAN S. Structure-aware color halftoning with adaptive sharpness control[J].Journal of Imaging Science Technology,2022,66(6):1-11.