王大方,杜京東,曹 江,張 梅,趙 剛
(1. 哈爾濱工業大學(威海)汽車工程學院,威海 264209;2. 32184部隊,北京 100072)
深度學習算法在自動駕駛感知算法中應用廣泛,如立體視覺、目標檢測、目標跟蹤、語義分割等。這些算法需要在大量可靠的數據上進行有效的訓練和測試。因此,自動駕駛數據集應運而生。當前較為典型的數據集有KITTI、BDD100K、City Scapes等。以BDD100K 為例,該數據集包含了10萬段高清視頻,約10 萬張圖片,覆蓋了晴天、多云等6 種天氣以及黎明/黃昏、白天、夜晚3 個時段。雖然當前有的數據集已經開始在不同天氣和光照條件下去采集數據,但由于采集時間和條件的限制,現有的數據集絕大部分仍然是在白天相對晴朗的狀態下拍攝的。夜晚時段以及各種氣候、天氣狀態下的數據集的豐富性仍然十分有限。為了充分驗證算法的魯棒性,往往想得到各種環境下的數據去測試,但是統一路段往往很難得到各種環境下的數據,所以有研究提出想通過增強圖像的方式去擴展數據。Tian等就采用了根據駕駛條件(如雨、霧、光照條件等)的變化自動生成測試用例,但是采用的僅僅是在圖像上加了一層貼圖,嚴重缺乏真實性。
據此,本文中采用圖像風格遷移網絡增強現有的自動駕駛數據集,這不僅可以從天氣、時段等方面豐富數據集,還可以保持圖像的真實感。與此同時,經過增強轉換后的數據集,其內容特征保持不變,可以直接使用原有的標注數據,從而節省標注數據時消耗的大量時間和勞動成本。
圖像風格遷移即提取某張圖像的風格并將其融入到另一張圖像中,并且不改變圖像的內容特征。傳統非參數的圖像風格遷移方法主要基于物理模型的繪制和紋理的合成,但這類方法只能提取圖像的底層特征,在處理顏色和紋理較復雜的圖像時,生成效果差,且運算速度緩慢,不能適應實際需求。隨著深度學習的興起,Gatys 等創造性地提出了一種基于卷積神經網絡的圖像風格遷移,并采用了Gram 矩陣表征風格損失。使用預訓練后的VGG 模型作為特征提取器提取圖像的內容特征表示和風格特征表示,并以此建立損失函數優化迭代白噪聲圖像,使其風格特征和內容特征不斷向既定的風格圖片和內容圖片靠攏,實現風格遷移。Justin 等在Gatys 研究的基礎上提出了基于模型迭代的方法,亦稱作快速風格遷移。批量歸一化(batch normalization,BN)和實例歸一化層(instance normalization,IN)給風格遷移研究拓展了新的思路,Li 等采用BN 得到的統計量代替Gram 矩陣去表征風格損失。文獻[10]中認為IN 本身就具有描述特征圖不同通道之間相關性的能力,因此用IN 代替了BN。受IN 的啟發,文獻[11]中提出了自適應實例歸一化層(adaptive instance normalization,AdaIN),自適應地計算歸一化層的仿射參數,實現了實時的任意風格轉換。
2013 年變分自動編碼器和2014 年生成對抗網絡兩種模型的提出,給圖像風格遷移提供了新的思路。Isola 等提出了采用條件生成對抗網絡來解決圖像風格遷移任務,但要求大量的成對帶標簽的訓練數據。與此同時,應用于自然語言處理領域的對偶學習的思想被應用到了GAN 網絡中,從而可以用無監督的方式訓練GAN 網絡,如CycleGAN、DiscoGAN和 DualGAN等。CycleGAN 中首次提出了循環一致性損失函數,其基本思想是對偶學習生成重構圖像,而輸入圖像自然成為該重構圖像的標簽,從而可以計算出一個損失替代Gatys 等提出的內容損失。循環一致性約束已經在許多研究中證明了它在風格遷移任務中的高效性。Liu等提出的UNIT 風格遷移框架引入了潛在共享空間概念,并結合了變自分編碼器和生成式對抗網絡,進一步提高了無監督風格遷移的效果。AugGAN在CycleGAN 的基礎上加入了語義分割網絡,該網絡在解碼器的首端和尾端采用了不同的權重共享策略,提升了生成圖片在目標檢測算法上的訓練效果。
基于卷積神經網絡的風格遷移方法受到了預訓練模型好壞的限制,對于風格特別明顯的轉換任務,如真實圖片到藝術畫的轉換具有出色的表現但對于許多其他的轉換任務(如白天到黑夜),應用效果較差。而基于生成式對抗網絡的方法不僅可以無監督的生成圖像,還可以同時適用于多種遷移形式,泛化性能好,因此本文中基于編碼-解碼結構的生成式對抗網絡對風格遷移網絡進行了優化和改善,提高其在自動駕駛數據集上的應用效果。
本文中基于對偶學習的思想,引入基于編碼-解碼架構的生成式對抗網絡結構。網絡主要包含3 部分:生成器網絡、鑒別器網絡和語義分割網絡。生成網絡用于生成風格化后的假圖像。鑒別器網絡用于區分真實圖像和生成的虛假圖像。語義分割網絡用于約束生成器的行為,使得高維隱層特征具備表征圖像語義信息的能力。總體網絡結構如圖1所示。

圖1 總體結構
如圖2 所示,生成器網絡由基于自編碼器結構的編碼器和解碼器組成。

圖2 生成器結構
2.1.1 編碼-解碼結構優化
風格遷移任務的實質是保留原圖像的內容特征,并添加新的風格。本文中假設在自編碼器中,編碼器用于提取圖像的內容特征,解碼器基于內容特征對圖像進行風格化生成。不同天氣和光照條件下的自動駕駛數據集具備類似的內容特征,因此與CycleGAN、UNIT以及AugGAN等采用循環一致性約束來實現風格遷移的網絡相比,減少了一個編碼器,采用了單一編碼器和雙解碼器結構,顯然這可大幅降低網絡的參數量和計算量。
如圖1 所示,首先,來自兩個圖像域的圖像和經過同一個編碼器得到隱層特征,該隱層特征經過解碼器和分別生成域1和域2中的圖像,從而實現圖像風格的遷移。圖2 展示了生成器模型的詳細網絡結構,主要由降采樣模塊、殘差模塊和上采樣模塊組成。在降采樣模塊中,采用了步幅等于2 的卷積層代替池化層,使得降采樣參數可學,從而減少信息的丟失問題。在殘差模塊中,為殘差模塊的堆疊數量,可作為超參數進行調節。在上采樣模塊中,采用了雙線性插值加卷積代替了轉置卷積,從而減少了棋盤格效應。對兩種上采樣方式進行實驗,得到了不同的效果,如圖3所示。

圖3 上采樣方式對比
2.1.2 語義分割子模塊
為了進一步保持風格化后的圖像內容特征(如車輛、行人等)不會模糊和失真,本文中借鑒AugGAN,加入了圖像語義分割網絡用于約束生成器的行為,保持輸入圖片的語義特征。與AugGAN 不同的是,本文中僅加入了一個語義分割解碼模塊。兩個風格解碼模塊共享該模塊。該網絡如圖2 所示,其與風格解碼模塊的區別在于最后的輸出層的深度由語義分割的類別數決定。
2.1.3 跳躍連接與殘差結構
該網絡借鑒了U-Net網絡中的跳躍連接結構。將降采樣過程中得到的3 個特征圖與上采樣時得到的3 個特征圖分別在通道維度上進行拼接然后再進行卷積,從而避免因降采樣導致的信息不可逆丟失的問題,幫助生成細節信息更豐富的圖像。
隨著網絡的加深,訓練集損失逐漸下降,然后趨于飽和,這時繼續增加深度會導致損失的反向增大,稱之為退化問題。這一問題的原因是卷積層的簡單堆疊難以擬合恒等映射。本文中在降采樣后采用了殘差塊堆疊的方式加深網絡結構,從而提高網絡的擬合性能。單個殘差塊的結構如圖4 所示。表示輸入,()表示經過兩次卷積后的特征輸出。()表示()和輸入相加得到的最終輸出。由此而來,當需要學習恒等映射時,僅需要使得() = 0,這比直接學習恒等映射要更容易,可以任意地加深網絡的深度而不必擔心退化問題導致的網絡性能的下降。

圖4 殘差結構
本文中鑒別器網絡結構借鑒了PatchGAN 的思路,取消了全連接層,可以大幅減少網絡參數,提升訓練效率。
對于PatchGAN 而言,一個較為重要的參數即Patch Size。Patch Size 越小,每一塊Patch 所對應的像素區域就越小。前人的研究中,Patch Size 越小,生成的圖像的顏色信息越豐富。Patch Size 越大,生成的圖像越銳利,細節信息越豐富。在Patch Size達到70時,其生成質量最好。
本文中為了兼顧色彩信息和局部細節信息的豐富,如圖5 所示,引入了多尺度鑒別器。其主要思想是將輸入圖像通過降采樣分別縮小2倍和4倍,然后3 種不同尺度的圖像分別送入鑒別器得到3 個輸出矩陣,再對經過3 個矩陣運算得到的損失求均值從而計算出最終的損失。經計算,本文中3 種尺度鑒別 器 的Patch Size 分 別 為46×46、92×92 以 及194×194。通過均衡不同的Patch Size,從而幫助生成器生成真實程度更高、更逼真的圖像。

圖5 PatchGAN與多尺度鑒別器
2.3.1 對抗損失
本網絡模型的目標是學習兩個圖像域之間相互的映射函數。如圖1 所示,該網絡含有兩組生成式對抗網絡:GAN={,}和GAN={,}。在GAN中,的目標是盡可能地區分來自于圖像域1中的真實樣本和生成的虛假樣本,即()。而的目標在于使得生成的圖像盡可能地接近圖像域1 中的圖像。生成的圖像即在遷移階段,由圖像域2 中的樣本經過生成器網絡后遷移得到的,即


同理可得,GAN的目標函數為

2.3.2 循環一致性約束和自重建損失

2.3.3 語義損失
由于自動駕駛數據集的語義特征十分重要,因此如何保證遷移后的圖像不會丟失語義信息是尤為重要的。本文中引入了語義特征損失作為正則化項進一步約束生成器的行為。由圖1 所示,有語義分割子網絡。生成的圖像即在遷移階段,由域1 和域2 中的圖像生成的語義圖。本文中采用交叉熵來衡量預測語義圖與標簽圖^的差異。該目標函數如式(5)所示,其中表示交叉熵。

由于當前各類真實的圖像數據集很少將各類天氣以及光照條件下的圖像進行分類,因此本文中選用了SYNTHIA這一虛擬數據集。SYNTHIA 由一組從虛擬仿真環境中采集的視頻幀組成,并帶有13個類別的精確像素級語義注釋。采集場景有歐式小鎮、現代城市、高速公路和綠地等。該數據集覆蓋了所有季節,涵括多種天氣和光照條件。本實驗進行白天到夜晚、春季到冬季的風格遷移。各類圖片采集自5 個駕駛場景序列,其中春季白天圖像共約26 232 張,夜晚圖像共約23 077 張,冬季圖像共約19 039張。
3.2.1 實驗環境
讓她如此糾結的情事,她希望那些糾結能像發絲一樣被剪去。半個小時后,她就變身成一個美貌的小男孩。看著鏡中的自己,她驚奇地發現,難過好像真的就那么少了一些。
由于該網絡包含一對生成式對抗網絡,需要完成語義分割和風格遷移兩個任務,因此對于實驗條件有很高的要求。本文中訓練網絡模型使用的實驗平臺的硬件配置如表1 所示。采用主流深度學習框架Pytorch 構建網絡模型,使用并行計算架構CUDA和GPU加速庫cudnn進行高性能并行計算。

表1 實驗平臺配置
3.2.2 超參設置
本文的超參數設置主要有Batch Size、學習率、優化器、損失函數權重和殘差模塊數量等。
以訓練集中所有數據參與訓練記為1 個全周期(epoch),設置學習率為0.000 2。采用當前主流的優化算法Adam 算法進行梯度更新,beta1 取0.5,beta2取0.999。
采用mini-Batch 的訓練方式可以在一個epoch中多次更新參數,加速收斂,提高計算效率。但在生成任務中,Batch Size 的選取并非越大越好,過大可能會陷入局部最優,導致生成的圖像丟失特有的細節特征。實驗發現對于本文的風格遷移網絡,輸入圖像尺寸的優先級要大于Batch Size。基于上述考慮和內存的限制,本文中輸入圖像尺寸設置為513×304,而Batch Size設置為1。
在殘差模塊數量上,編碼器的殘差模塊和解碼器的殘差模塊的比例設置為10∶1。這也代表著訓練時,3 個解碼器所共享的編碼模塊占的比重更大,網絡的參數量將明顯降低。
表2~表4 分別展示了編碼器、解碼器和鑒別器詳細的結構參數。其中Conv代表卷積層,IN 代表實例歸一化層,Resblock 為殘差模塊。插值算法為雙線性插值。拼接代表在通道維度上對特征圖進行拼接。語義解碼和風格解碼僅最后一層有所不同,不同之處由表3加粗字體表示。

表2 編碼器

表3 解碼器

表4 鑒別器
在損失函數權重方面,由于循環一致性約束已經在諸多研究中證明了其在圖像風格遷移任務中的高效性,因此本文中設置該損失的權重為10,自編碼器的重建損失權重為5,生成式對抗網絡的損失權重為1,語義特征損失可設置的稍低,避免對生成器造成過多的影響,本實驗設置為1。總的損失函數為

歸一化能夠有效加快模型收斂。為了避免批量歸一化(batch normalization)弱化單一樣本本身特有的細節信息,且實例歸一化(instance normalization)在風格遷移任務中相比于批量歸一化更具有表征圖像風格特征的能力,因此均采用了實例歸一化層。
3.2.3 網絡訓練及預測
本實驗對晴天轉黑夜、晴天轉雪天兩個風格遷移任務進行訓練,迭代訓練了10 萬次。其中,晴天轉黑夜任務采用了SYNTHIA 數據集中序列2、4 和6中共9 532 張圖像,晴天轉雪天任務采用了序列4、5和6中共10 540張圖像進行訓練。
使用訓練好的模型對數據進行風格化生成,得到的夜晚效果圖如圖6 所示,雪天效果圖如圖7 所示。其中,前3 行為未經訓練的序列1 中的圖像,后2 行為序列2-6 中的圖像。可見,經由單編碼器-雙解碼器模型生成的圖像保留了車輛、行人、建筑等多種語義特征,并對各種風格特征進行了良好的轉換與生成。

圖6 白天轉夜晚效果圖

圖7 晴天轉雪天效果圖
目前,如何評價生成式對抗網絡生成的圖像質量仍是一個具有挑戰的事情。特別是對于無監督的風格遷移網絡來說,尚未有一個統一的標準去評價生成的好壞。Isola 等認為,如果生成的圖片質量越好,則在真實圖片上訓練好的分類器用于分類虛假圖片時,其表現也應當越好。因此其采用了FCN-8s語義分割網絡計算像素準確率作為評價指標。本文中采用了性能表現更優的Deeplabv3+這一語義分割網絡用于評價圖像質量,并采用像素準確率、交并比等作為評價指標。
基于Deeplabv3+網絡進行語義分割任務的訓練,網絡骨架設為Xception。訓練集為SYNTHIA 數據集中的序列2、序列4 和序列6 中的夜晚數據共9 532 張。測試集為序列1 中前視攝像頭的夜晚數據。共訓練100 個epoch。將測試集注入訓練好的模型,計算得到評價基準指標,即表5 中Ground Truth所示。
為了說明本文中提出的風格遷移網絡的優越性,復現了AugGAN 和UNIT 與本網絡做對比。首先,采用相同的訓練集同樣訓練10 萬次。之后,采用SYNTHIA 序列1 中晴天數據作為測試集得到1 189 張虛擬夜晚數據注入Deeplabv3+評價網絡,得到的結果如表5 所示。可見,本文中提出的網絡在所有評價指標中均得到了最高的表現。3 種網絡的效果對比圖如圖8 所示,主觀上本文網絡生成的圖像更接近真實圖像,這與客觀指標所體現的相一致。

圖8 不同網絡效果對比

表5 不同風格遷移網絡對比
為驗證加入語義損失后的作用,將語義損失權重設置為0,訓練集以及其余超參數設置不變,并訓練到相同的次數,同樣采用序列1 中的數據作為測試集。實驗結果如表6所示。可見,這4類指標除了平均交并比略有下降以外均有所上升。這證明加入語義損失后將會對生成結果產生積極的作用。

表6 實驗結果
根據自動駕駛場景數據的特點,本文中優化了風格遷移網絡的網絡結構。
(1)采用單一編碼器和雙解碼器結構,并輔助以多尺度鑒別器、跳躍連接、實例歸一化等手段。在減少參數量的同時,提高了圖像的生成質量。其中平均交并比提升最顯著,相比AugGAN 和UNIT 分別提升了2.50%和4.41%。
(2)將語義解碼模塊和風格解碼模塊并聯耦合,提供語義損失正則化項約束圖像生成網絡,使頻權交并比提升了1.16%。
實驗結果表明,本文中提出的風格遷移網絡可有效增強自動駕駛圖像數據,為當前自動駕駛數據在異常天氣、夜晚時段豐富性不足這一問題提供了新的解決思路。不過,并聯語義分割模塊僅起到了較小的積極作用,今后將繼續研究風格遷移網絡和語義分割網絡的耦合方式,進一步提高生成圖像的質量。