冉建國,劉 珩,楊 鑫
(陸軍工程大學,江蘇 南京 210007)
夜間實施迷彩作業主要受限于光照條件,難以獲取有效背景信息,成為偽裝技術中的一大難題。考慮到紅外數據不受白天黑夜的限制,本文提出將紅外圖像轉換成彩色圖像的構想。傳統的場景重建技術,大多利用數學計算的方式從二維圖像中恢復三維立體結構信息。尤其近年來消費級深度相機的出現,通過儀器設備,比如深度掃描儀,Kinect等儀器,將 RGB 彩色圖信息與深度圖信息進行融合計算,進而完成三維場景重建。這類傳統的三維場景重建方法經過不斷的研究改進,目前已經趨于成熟,如基于2D匹配圖像的SFM(Structure from Motion)算法[1]、用RGBD相機實時三維重建的Kinect Fusion 算法[2-3]、基于RGB圖像和模型的亮度變化連續性的Bundle Fusion 算法[4]。以 Kinect Fusion算法為例,其采用了Frame-to-Model 的方式注冊(通過當前幀深度圖像轉換得到的點云,和根據上一幀相機位姿從模型投影獲取的深度圖像轉換得到的點云進行配準),通過深度傳感器拍攝的深度信息來對相機軌跡進行跟蹤并實時重建場景的三維建模算法。迷彩的本質是無限接近于使用環境以方便隱藏目標。在目標上實施迷彩的偽裝成效,主要取決于背景顏色的復制水平[5]。以上三種方法的共同特點是,在白天取景,且均是利用重構算法將2D圖像轉換為3D圖像。迷彩偽裝方案設計的關注點主要在背景顏色的采集上,夜晚無法有效獲取光學數據,這對設計方法的結果有顯著影響,紅外熱圖的獲取卻不受影響。為此,我們提出了一種基于pix2pix的紅外圖像與可見光圖像轉換的設計方法,將可見光數據集和對應的熱紅外數據集訓練后,進行了紅外熱圖場景重建,獲得了與地面背景真實情況基本一致的視覺特性。結果表明,使用pix2pix能夠進行場景重建,得到了重要的背景顏色信息[6]。因此可以說pix2pix是一種有效的場景重建方法,解決了夜間可見光信息采集的難題。
生成對抗網絡(generative adversarial networks,GAN)是一種無監督機器學習算法生成數據的深度神經網絡架構,理論上可用于場景重建模型,因為它可以學習圖像數據的分布方式,但GAN采用無監督學習的方式在提取特征的過程中沒有針對性,導致生成的圖像顏色布局比較隨意,主要顏色失真度較高,圖像結構難以保持穩定[7]。生成器負責學習從一個噪聲向量映射在潛在的輸出圖像的空間目標域,判別器負責將圖像從訓練圖像或生成器產生的圖像進行分類。生成器和判別器都是用反向傳播訓練的,它們都有各自的損耗函數。GAN的體系結構如圖1所示。為了使生成網絡生成的圖像能以假亂真,達到逼真的目的,應盡量提高生成網絡生成數據和真實數據之間的相似度。可使用目標函數測量這種相似度。生成網絡和判別網絡均有目標函數,訓練過程中也分別試圖最小化各自的目標函數。GAN最初的目標函數如下所示:

圖1 GAN的架構Fig.1 The structure of the GAN
[log(1-D(G(z)))]
(1)
其中,D(x)是判別網絡模型;G(z)是生成網絡模型;p(x)是真實數據分布;p(z)是生成網絡生成的數據分布;E是期望輸出。在訓練過程中;D(判別網絡,discriminator)試圖最大化公式的最終取值;而G(生成網絡,generator)試圖最小化該值。如此訓練出來的GAN中,生成網絡和判別網絡之間會達到一種平衡,此時模型即“收斂”了。
本文首次嘗試紅外圖像與可見光圖像轉換達到場景重建的目的。在GAN中,生成器僅從潛在變量z產生圖像。然而,在圖像到圖像的平移任務中,生成的圖像必須與源圖像相關。為了解決這個問題,可以使用條件GANs(cGAN),將附加信息y作為輸入[8]。例如,接收源圖像作為生成器和鑒別器的附加信息。cGANs的損失函數如下:
LG=-Ex~pdata(x)[log(1-D(x,z)]-
Ez~p(z)[log(D(z,x))]
(2)
LD=-Ex~pdata(x)[log(D(x,z))]
-Ez~p(z)[log(1-D(z,x)]
(3)
觀察上式,能發現的一個明顯特點是,兩個公式把D部分中的x和z部分交換了一下,符合GAN的基本思想:鑒別器負責鑒定真實圖像,生成器負責生成虛假圖像。本文的框架是使用Isola等[9]人的工作,pix2pix是一個擴展的cGAN,用真實圖像代替隨機噪聲,學習從輸入圖像到輸出圖像的映射,并使用一個損失函數來訓練這種映射,生成器和判別器分別由 U-Net 和 PatchGAN 組成。在pix2pix中,損耗鼓勵生成器生成一個類似于條件變量x的樣本。它是訓練圖像x和生成圖像G(x,y)之間每個像素差的絕對值的平均值。本文引入了一個多尺度融合網絡,使用空洞卷積在同等參數數量情況下額外擴大了感受野。多尺度融合網絡模塊如圖2所示。
卷積神經網絡通過逐層學習的方式提取目標的特征,高層網絡語義信息表征能力強,但是特征圖的分辨率低,空間幾何特征細節缺乏;低層網絡幾何細節信息表征能力強,但是語義信息表征能力弱。本文采用高層與低層跳躍互聯的方法。從圖2中可以看到,該結構的優勢在于層與層之間并不孤立,每一層與其他層之間均有關聯,優化了網絡結構,縮短了傳輸路徑,節省了運算時間。

圖2 多尺度融合網絡模塊Fig.2 Multi-scale fusion network module
Pix2pix方法需要訓練圖像對,該圖像對由紅外圖像和相應的彩色圖像組成。在U-net架構中,編碼器層和解碼器層通過“跳躍連接”直接連接[9]。因為跳越連接可以跨越編碼器-解碼器網絡的瓶頸傳輸低級信息(這些信息通常在輸入和輸出圖像之間共享)。它有效地提高了圖像轉換的性能。在卷積PatchGAN中,不是對整個圖像進行分類而是將每張圖像分成N×N段,然后預測每一部分是真還是假。最后取所有答案的平均值,進行最終的分類。換句話說,只有特定規模的補丁結構才會受到懲罰。我們工作中的pix2pix框架如圖3所示。通過判別器輸出的對抗損耗和生成圖像輸出的損耗更新生成器的權值[10]。同時訓練一個條件生成器和判別器,訓練生成器根據輸入圖像(在本文中,是相應的紅外熱圖)生成圖像(在本文中是彩色背景圖像)。該判別器的目的是對生成的彩色圖像進行真假分類。

圖3 Pix2pix網絡結構圖Fig.3 Pix2pix network structure diagram
本文優化模型改善了生成圖像的清晰度,以真實背景數據為基礎,盡可能地預測真實背景的主要顏色;其次,通過交換D部分的x和z,極大的減小了生成數據與真實數據間的差異[11]。最后,通過結構相似性分析和心理物理學實驗進行效果評估檢驗模型在場景重建中的客觀性與可靠性,對夜間偽裝作業具有重要意義。
本文數據集借助大疆M300 RTK在南京湯山拍攝的成對數據集,由80張紅外熱圖與彩色圖像組成,每張圖像大小為1024×1024像素,擴充后最終得到了260張非重疊的數據集。對于訓練集,我們從這些圖像中提取220對隨機圖像。另外,為了定量評估,我們將剩余的40張圖像作為測試集(在訓練集中看不到)。為了驗證所提出算法的有效性,本文編寫了Python程序并完成了相關實驗。在使用64位Windows 10操作系統上選用Python搭建生成對抗網絡。訓練過程使用GPU芯片,顯卡型號為TITAN V,顯存大小為120G,虛擬環境采用Anaconda,PyTorch1.4.0,CUDA 10.0。
該方法不需要參考圖像,但對于目前最先進的方法,以經驗證明對參考圖像的選擇的敏感性。pix2pix網絡不僅學習紅外熱圖到彩色圖像的映射,還學習一個損失函數來訓練這種映射。由于判別器的訓練相對于生成器來說是高速的,因此判別器損耗分為兩部分來減緩訓練過程。生成器和判別器模型都使用Liyuan Liu等[12]的RAdam版本進行訓練,它既具有Adam快速收斂的優點,又具備隨機梯度下降不易震蕩的優勢,令模型收斂至質量更高的結果,如圖4所示。

圖4 采用不同優化器后的訓練損失對比Fig.4 Comparison of training losses with different optimizers
傳統的質量指標在評估相似性時,這個值的下降部分是由于兩類數據集之間的微小差異造成的。為了展示pix2pix網絡將紅外熱圖轉換成彩色圖像的良好結果,我們利用了不同的評價指標來度量,分別是結構相似指數(SSIM)、峰值信噪比(PSNR)、均方誤差(MSE),如表1所示。

表1 使用不同方法生成的數碼迷彩方案評價指標(平均值±std)Tab.1Digital camouflage scheme evaluation index generated by different methods(mean ±std)
圖5(a)代表夜間用紅外相機采集到的原背景圖,圖5(b)代表使用本文方法生成的彩色圖像,圖5(c)代表用光學鏡頭在白天采集到的彩色圖像,由圖5可以發現山體、道路、植被、天空等背景特征均能取得較好的還原,結合表1中的數據分析生成彩色圖像的質量,SSIM值大于0.5,說明本文方法生成的彩色圖像在場景重建方面有不錯的效果。另外從心理物理學角度檢驗生成情況,類別判定法是一種對刺激的感知進行分類的心理物理學實驗方法。該方法要求觀察者在觀察樣本剌激之后,將刺激的視覺感知按照類別判定量表進行分類。采用該方法時,首先應正確劃分類別判定量表,取有特殊意義的點,如判斷色差時,可將無色差、恰可察覺色差、恰可接受色差等作為分類點。一般,類別判定法的分類可以根據需要分為5類、7類、9類等,也有一些研究為了避免觀察者取中間值,而將類別劃分為偶數,如6類、8類等。在實驗過程中,觀察者按照給出的類別判定量表對觀察到的刺激進行分類,然后根據Torgerson的類別判定法和統計假設理論,轉化為等距量表,如表2所示。

表2 類別判定量表Tab.2 Category determination scale


圖5 生成的彩色圖像與真實背景圖像之間的對比Fig.5 The contrast between the generated color image and the real background image
在實驗設計中,共安排了10名色覺正常的觀察者參加,均為在校大學本科生,包括5名男性和5名女性,年齡介于20和25之間。每名觀察者進行了兩次,用來分析觀察者間的精度。因此,本實驗所獲得的視覺評價數據共有100個,10名學生均選擇類別1,無感知色差;可見經過生成的彩色圖像能夠實現場景重建人眼視覺要求。
本文使用了pix2pix架構來進行紅外圖像到彩色圖像的轉換,為夜間偽裝方案設計提供了可行的技術途徑。以圖像到圖像的生成對抗網絡為支撐的網絡架構可以進行場景重建,能有效應對夜間能見度不足無法采集背景信息的限制。針對模型效果評估的問題,根據機器視覺的特點提出利用結構相似性等一系列算法和心理物理學實驗進行生成圖像效果評估。實驗結果表明,該方法能夠將紅外圖像轉換成逼真的彩色圖像,并且在評價指標上取得了不錯的效果,驗證了所提出方法在場景重建中的有效性。