趙樹陽 李建武
基于低秩的模型是近年來處理高維數據的新工具,它的興起受到稀疏表示和壓縮感知理論[1?2]的推動,由此系統而快速地發展出很多理論和應用.因此,結構性的低秩表示也引起了許多視覺領域學者與專家的重視.但在現實環境中,我們很少能見到絕對的低秩結構,這是由于拍攝角度,噪聲等因素對獲取圖像造成的畸變和干擾,例如仿射變換、旋轉變換和投影變換等,這些變換直接限制了相關視覺任務的性能.因此,從原始圖像的復雜變換中提取出具有魯棒性的高語義結構特征,成為許多計算機視覺任務的熱門方向.很多對于圖像變換紋理不變性的研究開始在一些視覺任務,例如目標識別[3]、圖像拼接[4]、視頻分析[5]和3D重建[6]等中大量涌現.為了從受到變換干擾的圖像中提取出其內在的低秩結構信息,并排除這些干擾量,Zhang等提出了具有變換不變特性的低秩紋理映射算法(Transform invariant low-rank textures,TILT)[7].
TILT是一種利用低秩性與噪聲的稀疏性進行低秩紋理恢復的算法,可以從具有一定仿射變換、旋轉變換干擾的二維圖像中恢復出低秩紋理結構.它的思想是通過幾何變換把數據矩陣所代表的圖像區域校正過來,例如具有橫平豎直、對稱等特性,這些特性可以通過低秩性來進行刻畫.
基于TILT,在文獻[8]中,Zhang等提出在不使用先驗知識的前提下通過對稱幾何理論來緩解影射圖像匹配中的變換問題.該方法基于現實世界中物體具有的對稱特性,減小影射圖像和原始圖像關鍵點之間的匹配誤差,這種不使用先驗知識的方法極大地提升了關鍵點的匹配精度.更進一步,Zhang等在文獻[9]中提出學習一種結構化的低秩表示,該方法通過引入一個稀疏的低秩目標函數,有助于識別圖像的分類標簽,從而提高低秩圖像在圖像分類任務上的性能.Zhang等還考慮了基于廣義柱體表面的變換不變低秩紋理模型[10],用于人造建筑物表面的紋理提取.該方法還被進一步拓展應用到了建筑物幾何模型[11],相機自動校準和鏡頭畸變自動校正[12],字符校正與識別[13]等.在文獻[14]中,Lin等特別研究了TILT基于線性自適應懲罰交替方向法(Linearized alternating direction method,LADM)的快速算法,把求解奇異值分解的計算速度提高了5倍以上.Zhang等用它來解決影射變換下圖像校正的問題[15],取得了一定的效果.
圖1舉例說明了使用TILT模型進行圖像校正的效果.其中,圖1(a)~(d)為4張包含低秩紋理的原始圖像,圖1(e)~(h)為經過TILT算法轉換處理得到的低秩紋理圖像.現存的大多數方法都是將此問題看作是一個“轉換問題”,從圖1(c),(d),(g),(h)的轉換結果可以發現,由于圖像拍攝的背景區域相對復雜,雖然主體物體具有很好的低秩特性,但是背景區域像素組成的噪聲矩陣占據像素比例較高,不具有明顯的低秩特性.例如圖1(d),當背景區域和主體物體是由不同紋理和結構組成時,換句話說,當背景和主體物體不能由一個較低的低秩矩陣進行線性表示時(即圖像矩陣是由兩種不同特性的矩陣疊加而成),轉換的思想就無法將圖像整體轉換成較優的低秩圖像.為了跳出圖像中不具有明顯的低秩特性區域的干擾,本文轉換思路,嘗試直接對圖像進行低秩整合,提出了低秩紋理生成對抗網絡LR-GAN,利用生成式思想去產生高質量的低秩紋理圖像.本文的主要貢獻包括:1)對之前提出方法的局限性進行詳細研究之后,嘗試使用生成式框架來緩解圖像中不具明顯低秩特性區域的校正結果不理想的問題,從而實現了使用一種自動生成方法取代轉換方法來解決低秩紋理問題;2)提出了低秩紋理生成對抗網絡(Low-rank generative adversarial network,LR-GAN),使用TILT做引導,利用傳統的機器學習方法來輔助LR-GAN的學習過程,整體而言該網絡是一種非監督式學習方法,這種端對端(由圖像生成圖像)的網絡減少了整個網絡的訓練復雜度;3)為了得到超越傳統方法效果的模型,經過一定次數TILT的引導之后,設計并加入低秩梯度濾波層,該層在保證圖像質量的前提下,盡可能地的確保低秩約束,從而使最終生成的圖像既具有高質量又具有更低的秩.

圖1 利用TILT模型進行圖像校正的例子Fig.1 Examples of image correction that using TILT
從視覺任務的結果來看,壓縮感知和深度學習都讓我們能夠在像素級別上處理圖像的全局信息.無論是來自數學理論的壓縮感知低維模型,還是來自海量數據與訓練網絡的深度神經網絡模型,兩者的結果都可以得到同樣強大且可擴展的算法,并且其流程與結構也有很多相似之處,甚至可以用低維模型來解釋深度神經網絡理論的有效性.由此可以看出,壓縮感知對于深度學習具有一定的理論指導意義.眾所周知,深度學習對大量標簽數據的依賴顯而易見,啟發式的有監督學習也成為抑制深度學習縱向發展的一個潛在要素.機器學習領域一直都在探索使用盡量少的標簽數據,希望實現從監督式學習到半監督式學習,再到無監督式學習的轉化.如果能將壓縮感知算法與神經網絡、深度模型以及當今GPU強大的并行處理能力結合起來去解決相關的視覺問題,特別是進行深度生成式模型的研究,對于提高算法的運行效率至關重要,計算成本也會大幅降低.
來自于現實世界中的圖像作為像素的集合,其本身就具有對稱性與規律性.事實上,對于未加旋轉的圖像,可以將其建模成是一個帶噪聲的低秩矩陣.當圖像由端正發生旋轉時,圖像的原始對稱性和自相似性就會被破壞,即各行像素間的線性相關性被這些干擾量破壞,因此矩陣的秩就會增加.
在TILT算法中,將一個位于平面空間R2上的二維圖像看作是一個矩陣χ(x,y)∈R2,圖像(x,y)是轉變視角后再觀察低秩紋理圖像χ(x,y)所獲取的圖像,用數學公式可以表述為

其中,τ:R2→R2是一個希望得到的旋轉變換函數.顯然,經過τ轉換過的圖像(x,y)已經不再是一個低秩矩陣.由于從現實世界中觀察得到的原始圖像除去空間轉換的干擾外,還會受到許多未知噪聲、遮擋與背景環境的影響,為了能去除它們的影響,將模型化的噪聲變量E引入算法.

此處的噪聲矩陣E通常是一個稀疏矩陣.在低秩表示模型中,該方法要解決的主要問題可以描述為:給定一個經過旋轉變化和噪聲干擾的圖像=(χ+E)?τ?1,從中恢復出低秩紋理圖像χ,確定其中的轉換變量τ并且最小化噪聲變量的干擾.這個過程可以導出如下形式的優化問題:

式中,rank(?)是秩函數,表示噪聲矩陣E的L0范數,用來表示噪聲矩陣的稀疏度.為了防止過擬合,引入常量γ>0作為平衡紋理矩陣的秩與噪聲矩陣稀疏度這兩者的權重因子.
從本質上說,TILT算法是一種無監督的學習算法.它能夠從相關聯的高維數據中,提取到數據間的內在同一性,從而恢復其低維結構,具有很高的應用潛力.所以,我們試圖將低秩模型表示問題與深度學習算法相結合,讓低秩模型為神經網絡的有效性提供可能的解釋,同時在實際應用中發揮出色的效能.
Goodfellow等[16]在2014年提出了GAN的模型與思想.其中,生成模型一般是指隨機生成觀測數據的模型,是所有變量的全概率模型,判別模型則是在給定觀測變量值的前提下,求目標變量的模型.該思想將生成器G和判別器D分別看做兩個參加極大–極小游戲的雙方玩家.雙方不斷相互對抗并且迭代優化的過程使得生成器和判別器的性能均不斷提升,當最終判別器的判別能力提升到一定程度,并且無法正確判別數據來源時,可以認為這個生成器已經學到了真實數據的分布[17].
由于生成對抗網絡能夠學習圖像、聲音和數據中的豐富分布,而這些分布通常因為其具有明確的相似性,所以很難去建模.與傳統模型相比,GAN模型生成數據的復雜度與維度線性相關.因此,生成對抗模型對于高維結構的表示與處理有很大意義.而低秩表示模型不僅具有嚴格的理論基石,還在數據恢復、特征提取、圖像處理和計算機視覺等方面表現出優良特性.近年來,基于深度學習和稀疏表示學習的方法相互結合,各自發揮其相應模塊的優勢,形成了各種策略或特性下的深度神經網絡模型,應用于各種視覺任務.本文將低秩轉換理論與深度生成對抗網絡模型相融合.從轉換思想過渡到生成思想,從轉換模型過渡到生成模型,意在找到一種由原始圖像直接生成得到低秩紋理圖像的機制.
圖2給出了低秩紋理生成對抗網絡的整體結構示意圖.LR-GAN網絡由兩個主要模塊組成:生成器網絡和加入TILT的判別器網絡.圖2(a)是LR-GAN網絡的整體算法流程;圖2(b)生成器網絡負責生成原始圖像的低秩紋理圖像;圖2(c)判別器網絡將生成器生成的圖像和TILT算法轉換之后的圖像進行對抗學習;圖2(d)為在訓練后期加入的低秩梯度過濾層.

圖2 LR-GAN的網絡結構示意圖((a)LR-GAN網絡的整體算法流程;(b)生成器網絡負責生成原始圖像的低秩紋理圖像;(c)判別器網絡將生成器生成的圖像和TILT算法轉換之后的圖像進行對抗學習;(d)為在訓練后期加入的低秩梯度過濾層)Fig.2 The structure chart of LR-GAN((a)The general framework of LR-GAN;(b)The Generator generates the low-rank texture image from the original image;(c)The Discriminator distinguishes between the generative image and the TILT image;(d)The layer of the low-rank gradient filter for training.)
假設X={χ1,χ2,···,χN},χ∈Rm×n×c是N個m×n,c個通道的原始圖像.在訓練階段,通過TILT方法轉換求得的樣本被用于生成低秩紋理圖像χTILT=TILT(χ)∈Rm×n×c.用G和D分別作為生成器函數和判別器函數.G的輸入為原始圖像數據χ,D的輸入為TILT處理后的圖像χTILT和生成器生成的圖像Y.G(χ)是由G生成的逼近原始數據分布χTILT的樣本.那么,LR-GAN的目標函數可以描述如下:

LR-GAN在TILT的幫助下將會很容易在最優點上收斂.經過迭代訓練之,輸入原始圖像χ∈Rm×n×c,將會生成低秩紋理圖像Y=G(χ).
LR-GAN 中使用χ∈Rm×n×c作為原始圖像m=n=64,c=3.生成網絡整體上可以被看作是一個由編碼到解碼的網絡,編碼器模塊由4個卷積層(G-conv1~G-conv4)組成,使用線性單元ReLU[19]作為每一個卷積層的非線性激活函數.為了防止采樣的波動與模型的不穩定,除G-conv4層之外,對其余層均使用了批量規范化(Batchnormalization,BN)[20].思想是歸一化當前層輸入,使它們的均值為0,方差為1,類似于歸一化網絡輸入的方法.好處在于可以加速收斂,并且加入BN的卷積神經網絡模型受權重初始化的影響非常小,具有非常好的穩定性.同時還有助于梯度傳向更深層的網絡,對于提升卷積性能有很好效果.解碼器使用3個反卷積層(G-deconv1~G-deconv3),與編碼器類似,ReLU被用作非線性激活函數.在訓練階段,使用Tanh[21]激活函數輸出生成的圖片,同時也作為關聯函數為生成網絡與判別網絡建立起一個聯系.
是訓練集X中的K個訓練樣本,TILT通過求解公式

得到的低秩圖像χTILT用來在起初的訓練過程中起到加速收斂的作用.
整體而言,本方法是一種非監督式的低秩紋理生成方法,訓練時不使用任何標簽數據.判別時將(χTILT,Y)作為一組低秩對抗對,同時加入到具有3個卷積層(D-conv1~D-conv3)的判別器中,并且在判別器網絡的每一個卷積層中使用修正線性單元ReLU的改進版LeakyReLU[22]作為非線性激活函數.為了保證判別器網絡的魯棒性與非飽和性,在判別器中使用更為光滑的非飽和梯度的最小二乘損失函數[23].

同樣,將此損失函數應用到生成器中

網絡的訓練整體可分為兩個階段:第一個階段是使用TILT的訓練階段;第二個階段是同時使用了TILT和低秩梯度過濾層的聯合微調階段.
第一個階段的學習目標是生成與χTILT具有高相似度圖像的同時,確保該圖像具有較低的低秩性.為了達到這個目標,生成器應具有低秩約束的損失函數為
由表4可以看出,古宇廟水庫在2011年之前的年均綜合營養狀態指數較高,處于30≤TLI(∑)≤50,水質狀況在中營養狀態內,之后的年均綜合營養狀態指數TLI(∑)<30,屬于貧營養狀態,富營養狀態呈好轉趨勢。

式(8)中,用核范數來逼近秩函數從而保證低秩約束;λ是用來平衡損失函數與規則項的超參數,它使整個網絡模型既可以充分學習原始圖像的分布,又具有低秩約束特性,從而得到更好的生成效果.
在第一個階段,由于圖像的低秩生成方向不明確,所以網絡訓練的前期階段較難收斂,而TILT的加入給前期訓練指明了一個低秩收斂方向.由于式(8)很難直接求解(NP難問題),并且經過TILT引導生成的低秩圖像也并不完美.為了進一步逼近其最優解,設計了加入低秩梯度濾波層的生成網絡來求解這一問題,在與原始圖像高度相似的同時保證了生成圖像的低秩性.由此,網絡的第二個階段是同時使用了TILT和低秩梯度過濾層的聯合微調階段.
可微的判別器網絡在做了判別并得到誤差梯度之后,會將它的梯度回傳給生成網絡和判別網絡.假設wt是網絡權重,gt是第t次迭代后反向傳播的梯度映射,這里使用一種過濾梯度的策略以確保低秩約束.

值得注意的是,為了平衡高相似度和低秩這兩個目標,在最初對G和D進行網絡的訓練時,并沒有加入低秩梯度濾波層.
經過多次迭代之后,生成的圖像與χTILT有極高相似度.為了達到更低的秩,低秩過濾層使用特殊的梯度過濾策略來過濾后向傳播的梯度.在隨機梯度下降(Stochastic gradient descent,SGD)[24]權值更新策略的基礎上,使用

來過濾梯度.式(10)中,α為學習率,β為用來懲罰gt的懲罰因子.在式(9)中,如果gt的更新具有較大的波動,δ可以確保其在可控的范圍內小幅波動.這種策略使生成圖像的秩在升高的方向上有明顯的衰減,而在圖像秩降低的方向上有更大的梯度秩,確保了低秩相對于高秩所獲得的收益更大,從而達到低秩約束的效果.
每個原始圖像在迭代過程中都具有兩個收斂方向.TILT過程為網絡前期的訓練選擇出了一個方向,并且使整個網絡處在一種非監督學習的狀態.圖3所示的手風琴圖像中,最低秩有兩種情況,分別是橫放與豎放.在經過更多次迭代之后,隨著低秩梯度濾波層的加入,使生成圖像的秩向著更低的方向進行收斂,從而能達到更為理想的低秩狀態.

圖3 網絡的訓練與微調Fig.3 Training and fine-tuning
實驗部分將通過定性與定量的結果來驗證該模型的性能.定性實驗的第一個目標是研究低秩梯度濾波層的有效性,第二個目標是評估LR-GAN網絡從原始圖像生成低秩圖像的質量.為了定量評價LR-GAN算法的生成質量,將其應用于有監督的數據集上,并將生成圖像用于分類識別任務,使用Alex-net網絡對算法生成的圖像進行分類評估.整個網絡框架在NVIDIA GeForce GTX 1080×2的Tensor flow上實現.本文使用MNIST,SVHN和FG-NET這三個公開數據集來測試低秩紋理生成對抗網絡模型.在參數設置方面,所有的實驗中均設置β=0.1,δ=4.為了避免單個樣本在訓練時導致較大波動,生成數據的采樣和優化都通過小批量隨機梯度下降法(Mini-batch stochastic gradient descent)進行.所有權重的初始化都服從均值為0,方差為0.02的正態分布.LeakyReLU中,模型的leak斜率設置為0.2.
為了評估算法的有效性,首先在較為簡單與規則的圖像上進行實驗.MINST數據集[25]是用于評估機器學習模型的基準數據集,共包含250個人的7萬多張手寫數字的圖像.這里使用文獻[26]中的方法,將MNIST數據集中的手寫數字圖像都進行一定程度的扭曲變形.用隨機的?90?~+90?之間的角度對數字圖像進行旋轉變換.圖4是MNIST數據集上的生成過程.圖4(a)是形變的手寫數字圖像;圖4(b)迭代過程中生成模型生成的手寫數字;圖4(c)最終生成的校正之后的手寫數字圖像.在迭代過程中觀察生成圖像的演變過程,從圖4(b)的生成過程可以看出,這時數字的角度發生初步變化,數字結構也已經慢慢形成,但是還有一些數字仍然存在欠缺.圖4(c)為完成所有訓練之后,生成模型在最后一輪生成的圖像.這時的生成的數字已經具有較好的質量與較強的辨識度,秩值更低,且與原始數字圖像保持著高度的相似.模型在訓練過程中的loss曲線如圖5所示,上方生成模型和下方判別模型的損失函數都在逐漸收斂.尤其是在加入低秩梯度過濾層之后,損失值的變化幅度很小.為了驗證低秩整合層的作用,并表現出秩的波動,將圖片調整為70×70的尺寸.從圖6可以看出,經過500次迭代,將低秩梯度過濾層加入到網絡中之后,圖像的平均秩有了明顯下降.表1統計了MNIST上的平均秩結果.表1中,在扭曲變形之后的手寫數字數據集上,相比于TILT方法,LR-GAN網絡可以達到更低的平均秩值.從模型的整個訓練過程可以看出,一開始生成數字的質量并不理想,但其扭轉方向的趨勢比較理想.隨著迭代次數的增加,生成的數字質量越來越好,模型的低秩特性也充分的體現出來,直觀地反映了兩個網絡之間的對抗學習關系.

圖4 MNIST數據集上的生成過程Fig.4 The generative process on MNIST dataset

圖5 MNIST數據集迭代過程中生成器與判別器的損失值變化Fig.5 The loss of both the generator and the discriminator on MNIST during the iterations

圖6 MNIST數據集上生成器迭代過程中圖像秩的變化Fig.6 The changes of the rank during the generator iterations on MNIST
實驗在街景門牌數據集(The street view house numbers dataset,SVHN)[27]上進行.SVHN數據集包含20多萬張由谷歌街景車拍攝的房屋門牌號的RGB圖像.每幅圖像中均包含有1~3位數字.由于門牌的形狀與風格各異,再加上門牌上的數字空間排列變化較大,因此,SVHN數據集中的圖像相比于MNIST數據集中的單個數字圖像多了一些具有近似低秩特性的區域.實驗中使用48×48大小的圖像,32尺寸的batch,共進行了5000次迭代訓練,每10次生成一張圖片并測試其秩的大小.圖7是SVHN數據集上的生成過程.圖7(a)原始的門牌號圖像;圖7(b)迭代過程中生成的初具辨識度的數字標牌圖像;圖7(c)最終迭代生成的數字標牌圖像.從圖7(b)所示的生成過程中可以看出,標牌上數字的大體結構已經形成,但是能夠表征數字標牌細節的特征還沒有大量出現.隨著迭代次數增長,圖7(c)中數字標牌的辨識度越來越高,與原始圖像的細節相似度越來越好.SVHN數據集迭代過程中生成器與判別器的損失值如圖8所示.判別器和生成器的損失函數都呈現收斂的趨勢,并且可以看出兩個模型的損失函數曲線存在強相關的關系,在對抗過程中此消彼長.在網絡的第3500次迭代中加入了低秩梯度過濾層,圖9展示出圖像秩的變化,能夠很好地反映低秩梯度過濾層對于低秩的約束效果.同時,從表1中SVHN上的平均秩結果可以看出,在SVHN數據集上,本方法得到的圖像更具低秩性.本實驗說明LR-GAN在具有近似低秩特性的圖像背景下也可以獲得較好的生成效果.

表1 MNIST與SVHN上的平均秩結果Table 1 The average rank on MNIST and SVHN datasets

圖7 圖為SVHN數據集上的生成過程Fig.7 The generative process on SVHN dataset

圖8 SVHN數據集迭代過程中生成器與判別器的損失值變化Fig.8 The loss of both the generator and the discriminator on SVHN during the iterations

圖9 SVHN數據集上生成器迭代過程中圖像秩的變化Fig.9 The changes of the rank during the generator iterations on SVHN

圖10 FG-NET數據集上的生成過程Fig.10 The generative process on FG-NET dataset
人臉校正在人臉檢測與識別任務中起到至關重要的作用.為了驗證文中的方法在人臉校正問題上的效果,本部分使用FG-NET數據集[28].該數據集由82個人的1000多幅正面人臉圖像組成.其中的人臉圖像具有較多不規則細節,紋理相對復雜,且主體人臉的紋理結構特性與幾何對稱特性均不明顯.實驗結果如圖10所示,圖10(a)原始人臉圖像;圖10(b)迭代過程中生成的人臉圖像,其視覺質量還有待提高;圖10(c)最終生成的校正后的人臉圖像.雖然人臉圖像的低秩特性不太明顯,但其整體紋理結構的方向特征比較明確,因此LR-GAN對于傾斜人臉的校正結果比較成功.生成的人臉圖像可以慢慢從歪斜到擺正,并且校正后人臉圖像也高度相似于原始人臉圖像.然而由于生成對抗網絡的訓練較不穩定,LR-GAN在人臉圖像的生成質量上還有較大的提升空間.本部分實驗將該數據集里的人臉圖像大小調整為64像素×64像素,并且使用512尺寸的batch.LR-GAN在該數據集上表現出了快速的收斂,經過200次迭代后,網絡整體已經達到收斂狀態.如圖11所示,在相對復雜的人臉圖像上,整個網絡在TILT的引導下快速的收斂.由于使用了較大的batch塊,并且每次迭代都會生成一張圖像然后測量其秩的大小,在100次迭代之后加入低秩梯度過濾層,從圖12中可以看出,在前100次迭代中人臉圖像的生成過程,TILT在該數據集上的引導作用已經微乎其微,圖像的秩基本沒有較大的變化,而在加入低秩過濾層之后,經過約200次迭代,人臉圖像的秩整體下降了約0~3的范圍.

圖11 FG-NET數據集迭代過程中生成器與判別器的損失值變化Fig.11 The loss of both the generator and the discriminator on FG-NET during the iterations
為了定量評估生成圖片的質量與生成網絡的性能,使用圖像分類模型AlexNet網絡分別對形變的MNIST數據集和SVHN數據集上生成得到的圖像進行分類識別.用不做任何處理的數據集(no)和使用TILT進行低秩轉換的圖像(TILT)同時和文中所提的方法進行對比實驗.識別效果如表2和表3所示.從表2可以看出,對于做了形變處理的MNIST數據集,經過低秩整合后的圖像在分類任務上的性能得到大幅的提升,其中TILT提升了6.02%,本文的方法提升了7.96%.在SVHN數據集上,雖然背景區域的干擾較強,但是相對于TILT,文中所提的方法依然得到了97.56%的效果.

圖12 FG-NET數據集上生成器迭代過程中圖像秩的變化Fig.12 The changes of the rank during the generator iterations on FG-NET

表2 在形變的MNIST上的分類識別效果Table 2 The classi fication performance on distorted MNIST
從以上實驗可以看出,將深度生成式神經網絡與稀疏表示相結合得到的LR-GAN算法,可以使學習到的特征有利于提升網絡模型的整體泛化能力,同時豐富了網絡訓練的各種技巧與策略.使其能夠直接遷移應用于許多其他圖像校正的實例中,并且可以結合問題特性適當地引入低秩約束來增強其低秩性,從而達到預期的生成效果.
本文提出了一種非監督式的由圖像生成圖像的低秩紋理圖像生成對抗網絡(LR-GAN).該算法將低秩表示問題與深度生成式對抗網絡相結合,建立起一種由原始圖像直接生成得到低秩紋理圖像的機制.在訓練早期,TILT的加入使整個模型成為非監督模型,并且達到加速訓練與引導低秩生成方向的效果.經過一定次數的迭代之后,低秩梯度過濾層的加入提高了生成器的低秩生成能力,而且在保證生成質量的同時,增強了低秩約束.實驗結果表明,LR-GAN網絡在使用公共數據集下的平均秩變化優于現有的TILT方法.該算法能夠有效處理不具明顯低秩紋理特性圖像的校正問題,校正之后的圖像具有較好的識別效果.在未來研究中,可以結合不同圖像問題的特性,適當地引入低秩約束來增強其低秩性,從而達到更理想的生成效果.另外,對于該生成式網絡自身的不穩定性以及泛化能力等將做相關的探討與研究,進一步完善算法.
同時,LR-GAN作為GAN的衍生模型,除了是一種有效的生成式模型,也是一個比較簡單的平行系統[29].并且,其作為一種基于深度學習的底層視覺問題,我們有理由認為它將能夠充分融入到平行視覺[30]的研究體系中,助力于提升視覺模型的泛化能力.希望本文的工作有助于啟發對深度學習與壓縮感知螺旋式發展的持續探索.
1 Li Shu-Tao,Wei Dan.A survey on compressive sensing.Acta Automatica Sinica,2009,35(11):1369?1377(李樹濤,魏丹.壓縮傳感綜述.自動化學報,2009,35(11):1369?1377)
2 Peng Yi-Gang,Suo Jin-Li,Dai Qiong-Hai,Xu Wen-Li.From compressed sensing to low-rank matrix recovery:theory and applications.Acta Automatica Sinica,2013,39(7):981?994(彭義剛,索津莉,戴瓊海,徐文立.從壓縮傳感到低秩矩陣恢復:理論與應用.自動化學報,2013,39(7):981?994)
3 Yang S,Wei E L,Guan R M,Zhang X F,Qin J,Wang Y Y.Triangle chain codes for image matching.Neurocomputing,2013,120:268?276
4 Brown M,Lowe D G.Automatic panoramic image stitching using invariant features.International Journal of Computer Vision,2007,74(1):59?73
5 Han J G,Farin D,de With P.A mixed-reality system for broadcasting sports video to mobile devices.IEEE Multi-Media,2011,18(2):72?84
6 Cheng L,Gong J Y,Li M C,Liu Y X.3D building model reconstruction from multi-view aerial imagery and lidar data.Photogrammetric Engineering and Remote Sensing,2011,77(2):125?139
7 Zhang Z D,Liang X,Ganesh A,Ma Y.Tilt:transform invariant low-rank textures.In:Proceedings of the 10th Asian Conference on Computer Vision-ACCV 2010.Berlin Heidelberg,Germany:Springer,2011.314?328
8 Zhang Z D,Ganesh A,Liang X,Ma Y.Tilt:transform invariant low-rank textures.International Journal of Computer Vision,2012,99(1):1?24
9 Zhang Y,Jiang Z L,Davis L S.Learning structured lowrank representations for image classi fication.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,OR,USA:IEEE,2013.676?683
10 Zhang Z D,Liang X,Ma Y.Unwrapping low-rank textures on generalized cylindrical surfaces.In:Proceedings of the 2001 International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.1347?1354
11 Mobahi H,Zhou Z H,Yang A Y,Ma Y.Holistic 3D reconstruction of urban structures from low-rank textures.In:Proceedings of the 2011 International Conference on Computer Vision Workshops(ICCV Workshops).Barcelona,Spain:IEEE,2011.593?600
12 Zhang Z D,Matsushita Y,Ma Y.Camera calibration with lens distortion from low-rank textures.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Colorado Springs,CO,USA:IEEE,2011.2321?2328
13 Zhang X,Lin Z C,Sun F C,Ma Y.Recti fication of optical characters as transform invariant low-rank textures.In:Proceedings of the 12th International Conference on Document Analysis and Recognition(ICDAR).Washington,DC,USA:IEEE,2013.393?397
14 Lin Z C,Liu R S,Su Z X.Linearized alternating direction method with adaptive penalty for low-rank representation.In:Proceedings of the 24th International Conference on Neural Information Processing Systems.Granada,Spain:ACM,2011.612?620
15 Zhang Q,Li Y J,Blum R S,Xiang P.Matching of images with projective distortion using transform invariant low-rank textures.Journal of Visual Communication and Image Representation,2016,38:602?613
16 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,Courville A,Bengio Y.Generative adversarial nets.In:Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal,Canada:ACM,2014.2672?2680
17 Wang Kun-Feng,Gou Chao,Duan Yan-Jie,Lin Yi-Lun,Zheng Xin-Hu,Wang Fei-Yue.Generative adversarial networks:the state of the art and beyond.Acta Automatica Sinica,2017,43(3):321?332(王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍.生成式對抗網絡GAN的研究進展與展望.自動化學報,2017,43(3):321?332)
18 Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks.In:Proceedings of the 2016 International Conference on Learning Representation(ICLR).San Juan,Puerto Rico:2016.3,5,6
19 Nair V,Hinton G E.Recti fied linear units improve restricted Boltzmann machines.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel:ACM,2010.807?814
20 Ioffe S,Szegedy C.Batch normalization:accelerating deep network training by reducing internal covariate shift.In:Proceedings of the 32nd International Conference on Machine Learning.Lille,France:PMLR,2015.448?456
21 Fan E G.Extended tanh-function method and its applications to nonlinear equations.Physics Letters A,2000,277(4?5):212?218
22 Maas A L,Hannun A Y,Ng A Y.Recti fier nonlinearities improve neural network acoustic models.In:Proceedings of the 30th International Conference on Machine Learning.Atlanta,Georgia,USA:PMLR,2013.
23 Mao X D,Li Q,Xie H R,Lau R Y K,Wang Z,Smolley S P.Least squares generative adversarial networks.In:Proceedings of the 2017 International Conference on Computer Vision(ICCV).Venice,Italy:IEEE,2017.2813?2821
24 Zhao S Y,Li W J.Fast asynchronous parallel stochastic gradient descent:a lock-free approach with convergence guarantee.In:Proceedings of the 30th AAAI Conference on Arti ficial Intelligence.Phoenix,Arizona:AAAI,2016.2379?2385
25 LeCun Y,Cortes C,Burges C J C.The MNIST database of handwritten digits[Online],available:http://yann.lecun.com/exdb/mnist/,July 12,2016
26 Jaderberg M,Simonyan K,Zisserman A,Kavukcuoglu K.Spatial transformer networks.In:Proceedings of the 29th Annual Conference on Neural Information Processing Systems.Montreal,Canada:NIPS,2015.2017?2025
27 Netzer Y,Wang T,Coates A,Bissacco A,Wu B,Ng A Y.Reading digits in natural images with unsupervised feature learning.In:Proceedings of the 2011 NIPS Workshop on Deep Learning and Unsupervised Feature Learning.Granada,Spain:NIPS,2011.2:5?13
28 Panis G,Lanitis A,Tsapatsoulis N,Cootes T F.Overview of research on facial ageing using the FG-NET ageing database.IET Biometrics,2016,5(2):37?46
29 Li Li,Lin Yi-Lun,Cao Dong-Pu,Zheng Nan-Ning,Wang Fei-Yue.Parallel learning—a new framework for machine learning.Acta Automatica Sinica,2017,43(1):1?8(李力,林懿倫,曹東璞,鄭南寧,王飛躍.平行學習—機器學習的一個新型理論框架.自動化學報,2017,43(1):1?8)
30 Wang Kun-Feng,Gou Chao,Wang Fei-Yue.Parallel vision:an ACP-based approach to intelligent vision computing.Acta Automatica Sinica,2016,42(10):1490?1500(王坤峰,茍超,王飛躍.平行視覺:基于ACP的智能視覺計算方法.自動化學報,2016,42(10):1490?1500)