尹甜甜,劉 婷,郭一娜
(太原科技大學 電子信息工程學院,太原 030024)
在出土文物中,經常會出現古漢字的遮擋與損失現象,手工復原無法完成,文字內容成謎,而單通道盲去卷積旨在從單通道卷積混合信號中分離和解卷積源信號[1],在圖像,語音,音頻的去噪和修復中都有重要研究意義.在僅有一張古漢字與遮擋的混合圖像時,即僅有單通道的混合物可用,此時,沒有關于混合矩陣的先驗知識,源古漢字圖像信號和混合矩陣都需要估計[2],傳統的源分離方法分為基于分解的方法和基于回歸的方法,許多基于分解的方法都是較為簡單的模型,例如非負矩陣分解法(Nonnegative Matrix Factorization,NMF)和獨立成分分析法(Independent Component Correlation Algorithm,ICA),這種方法通常用一種解線性方程組的方式求解源信號,僅解決線性混合問題,而與神經網絡相比,這些簡單模型并沒有足夠的能力表示各種源信號.基于回歸的方法則通過深度神經網絡能夠對復雜的映射關系進行建模,但是需要混合矩陣與源信號進行訓練,如果測試數據中的混合矩陣與訓練數據中的混合矩陣分布不同,由于在測試數據中看不到混合矩陣類型,導致分離效果不佳[3].
在最近關于單通道盲去卷積的研究中,Stoller[4]、Subakan 和Smaragdis[5]、Fan[6]等人都先后提出使用生成對抗網絡(Generative Advesarial Network,GAN)來解決源分離問題,但這些方法都假定已知單通道盲去卷積問題中的混合矩陣.針對此類問題,本文提出一種基于深度卷積生成對抗網絡的單通道盲去卷積算法(DCSS),與傳統的基于回歸方法相比[7],DCSS算法使用深度卷積生成對抗網絡(Deep convolution generating adversarial network,DCGAN)以生成方式解決此類問題.DCSS可以估計源信號和混合矩陣,而常規的回歸方法則無法估計混合矩陣.DCSS算法中,使用DCGAN對古漢字與遮擋圖像集進行訓練預處理,在分解過程中,通過最小化混合物的重建誤差來獲得源信號和卷積混合過濾器[8].此外,在該算法中,將單通道盲去卷積[9]中去卷積問題轉為貝葉斯最大后驗(Bayesian Maximum posterior estimation,MAP)估計,這是一個受約束的非凸優化問題,為了解決該非凸優化問題,用不同的初始化重復分解可以顯著提高欠定的單通道盲去卷積性能.基于古漢字與遮擋圖像數據集做欠定的單通道盲去卷積實驗,以證明DCSS算法的有效性.
在單通道盲去卷積中,單通道混合信號x(t)由各個源信號sk(t)與未知混合矩陣ak(t)以及未知噪聲n(t)組成,其中x(t),sk(t),ak(t),n(t)∈L2(Ω),t∈Ω,k=1,2,...,K,空間Ω可以是歐幾里得空間Rd,k,d分別表示信號源的數量和維數,可用公式(1)表示:
(1)
古漢字與遮擋混合圖像為觀測到的單通道卷積混合圖像信號x(t)可用公式(2)表示:
x(t)=(a1*s1)(t)+(a2*s2)(t)
(2)
符號“*”表示卷積運算:

(3)
在單通道信號盲分離和去卷積問題涉及從單通道混合物x(t)分離和解卷積單個信號源sk(t),而混合矩陣ak(t)同樣未知.在下文討論中,分別將x(t),sk(t),ak(t)的形式簡化為x,sk和ak.
在古漢字圖像修復問題中,基于深度卷積生成對抗網絡的單通道盲去卷積算法(DCSS)主要分為兩步,首先使用DCGAN對古漢字與遮擋圖像集進行訓練預處理,將貝葉斯最大后驗概率估計(MAP)中的約束問題轉為優化問題;其次在單通道盲去卷積時,DCGAN中生成器G是非線性映射,因此用基于梯度的優化方法,通過多次重建,選擇誤差最小的分離結果.

(4)
其中x為公式(1)中所提及的信號源{s1,s2,…,sk}和混合濾波器{a1,a2…ak}的集合,即x={s1,s2…sk,a1,a2…ak}.
公式(4)由貝葉斯法則可得:
(5)
在公式(5)中Pr(yc|xc)是數據圖像中類別定義為c的似然函數,Pr(xc)為先驗概率,重建后信號為:
(6)
其中求和是一個高斯過程,因此給定估計信號時,觀測到的信號可能性如公式(7)所示:
(7)
在單通道盲去卷積中信號源和混合矩陣都是未知的,假設源信號和混合矩陣是相互獨立的,Pr(xc)可以表示為:
(8)
則源信號和混合矩陣的估計為:
(9)
在古漢字修復問題中,僅研究古漢字與遮擋兩路混合圖像信號,所以kmax=2.
在單通道盲去卷積中,由于源信號sk和混合矩陣ak未知,導致上節中公式(9)存在約束性,DCSS算法將該問題轉化為無約束的優化問題,首先使用DCGAN訓練預處理古漢字與遮擋圖像集,DCGAN由生成器G和判別器D組成,生成器G主要實現高斯分布噪聲與源信號實際分布之間的映射,生成器G生成的樣本欺騙判別器D,判別器D通過訓練將生成的假樣本與訓練數據集中的真實樣本區分開來.圖1為深度卷積生成對抗網絡(DCGAN)的工作原理圖.

圖1 深度卷積生成對抗網絡工作原理圖Fig.1 Working principle of deep convolution generating adversarial network
深度卷積生成對抗網絡(DCGAN)的損失函數為:

Εx~ρdata(s)[logD(x)]+Εz~ρz(z)[log(1-D(G(z)))]
(10)
其中ρdata為實際數據的概率密度,DCGAN的訓練算法如表1所示.

表1 DCGAN訓練算法Table 1 DCGAN training algorithm
DCGAN訓練結束后,為解決上節公式(9)中的局限問題,訓練預處理生成的數據zk代替源信號sk,進而將sk的優化問題轉為對zk的優化問題.將Pr(sk)近似為:
(11)
對公式(9)取對數,優化問題如公式(12)所示:
(12)

在深度卷積生成對抗網絡(DCGAN)中,生成器G為非線性映射,分解單通道卷積混合信號為非凸問題,為了解決該問題,使用基于梯度的優化方法多次迭代達到局部誤差最小,定義τ為生成源信號zk和混合矩陣ak的集合,則可以通過公式(13)計算τ的梯度:
(13)
最終結果通過多次重建選擇初始化之后誤差最小的一個以達到最好的分離效果.
實驗設置:為驗證DCSS算法的有效性,實驗從華文字庫古漢字圖像集中隨機抽取5組古漢字圖像集,其中每組訓練集有4096張圖片,古漢字與遮擋圖片分別2048張,測試集512張圖片,古漢字與遮擋分別256張,完成單通道盲去卷積.圖2為數據集樣本.

圖2 古漢字與遮擋數據集樣本Fig.2 Samples of ancient Chinese characters and occlusion datasets
DCGAN采用深度卷積網絡對生成器G建模.生成器G網絡具有4個轉置卷積層,特征圖數量分別為512,256,128和1,在每個轉置卷積層之后應用批處理歸一化,使用ReLU作為激活函數防止梯度消失,移除全連接層,以使該網絡為完全卷積網絡.圖3為DCGAN網絡結構圖.

圖3 DCGAN網絡結構圖Fig.3 DCGAN network structure diagram
DCGAN輸入是一個維度為100的隨機噪聲向量,服從高斯分布,區間為[0,1].生成器G的輸出是與訓練數據中的圖像具有相同尺寸大小的圖像,判別器D將假的或真實的圖像作為輸入并判定其真偽.DCGAN通過5000次迭代對源信號sk訓練預處理生成結果zk.DCGAN訓練預處理源信號結果如圖4所示.DCGAN判別器D訓練_loss如圖5所示.

圖4 DCGAN訓練預處理源信號結果圖Fig.4 DCGAN training preprocessing source signal result

圖5 DCGAN判別器D訓練_lossFig.5 DCGAN Net D training _loss
單通道盲去卷積中混合矩陣ak和每個源信號sk都需要估計.依據古漢字圖像特點,研究兩路混合信號s1,s2,的盲去卷積問題.圖6顯示了DCSS算法的單通道盲去卷積結果,第

圖6 單通道盲去卷積Fig.6 Single-channel blind deconvolution
1列為信號源s1分離信號的分離信號s11,第2列為去卷積得混合矩陣a22,第3列為信號源s2分離信號s22,第4列為去卷積得混合矩陣a22.
本文實驗使用峰值信噪比(PSNR)評估單通道盲去卷積質量,較高的峰值信噪比表明質量較好.PSNR定義:
(14)
其中MAXI表示無噪聲圖像的最大值,MSE表示兩個圖像A和B之間的均方誤差,其中圖像A、B的大小為m×n:
(15)
5組古漢字與遮擋混合圖像作為觀測信號,進行單通道盲去卷積實驗并計算PSNR,結果如圖7所示.

圖7 PSNRFig.7 PSNR
本文實驗使用同樣的古漢字與遮擋圖像數據集,分別對比非負矩陣分解法(NMF),卷積非負矩陣分解法(convolu-tive NMF)和S-D方法[12](synthesizing-decomposition)并計算比較PSNR,結果如表2所示.

表2 多種算法的PSNR比較Table 2 Different methods of single channel blind deconvolution PSNR
本文提出基于深度卷積生成對抗網絡的單通道盲去卷積方法(DCSS).使用DCGAN網絡建立源的生成模型,用生成的信號源代替真實的信號源,將貝葉斯最大后驗概率估計(MAP)中的約束問題轉為優化問題;在單通道盲去卷積時,優化混合濾波器和信號源,最大程度減少混合物的重建誤差在實驗中共采用5組古漢字與遮擋圖片數據集,每組分別4096張圖片作為訓練集,512張圖片作為測試集,最終實驗結果在古漢字圖像修復峰值信噪比(PSNR)為29.2dB,在單通道盲去卷積方面具有最佳性能.