李 威 王 蒙
目標檢測作為一類計算機視覺的基礎任務,能對圖像前景對象進行定位及分類,在智能駕駛、安防監控等領域有著廣泛的應用[1-2].近年來,伴隨著深度卷積神經網絡[3]的發展,目標檢測在檢測精度和時效性上均取得了一系列重大突破.基于深度學習的目標檢測方法,目前主要分為2 類: 1)兩階段檢測器,如區域卷積網絡(Region convolution neural network,R-CNN)[4]、快速區域卷積網絡(Fast R-CNN)[5]、超快速區域卷積網絡(Faster RCNN)[6]等,這類檢測器首先通過區域提取網絡得到感興趣的區域,再進一步對這些區域進行分類和回歸;2)單階段檢測器,如一見即得檢測器[7]、單發多框檢測器(Single shot multi-box detector,SSD)[8]等.這類檢測器中,直接對不同特征層上的預設邊框進行分類和回歸,從而提升了檢測速度.雖然這些檢測方法均取得了不錯的效果,但在許多實際場景中卻不能得到有效應用.一方面,訓練基于深層網絡的檢測器需要海量的標注數據,而從數據的收集到標注,都是一件耗時費力的事.此外,大部分人工數據標注缺乏統一的標準,會不可避免地引入人為偏差.另一方面,現有的目標檢測方法一般假設訓練數據與測試數據服從獨立同分布,而在實際應用中卻難以滿足,從而導致在某數據集上訓練好的檢測模型難以泛化到其他場景.例如,用天氣良好時采集的圖片訓練得到的檢測模型,在有霧的情況下檢測性能會急劇下降.如圖1 所示,上邊為天氣良好情況下收集的圖片,下邊為有霧天氣下的數據,這2 個數據集在風格、光照以及顏色等方面存在差異.針對上述問題,本文主要研究無監督跨域目標檢測算法.其中,源域數據集(如圖1 中上行圖片)有分類標注與邊界框標注,而目標域沒有標注信息(如圖1 中下行圖片).將大量易得的標注數據的知識遷移到其他不易得且缺乏標注的數據域中,以提升檢測器在不同場景下的適應能力,是本文的主要研究目的.

圖1 Cityscapes[9] (上)與Foggy Cityscapes[10] (下)示例圖Fig.1 Examples from Cityscapes[9] (up) and Foggy Cityscapes[10] (bottom)

圖2 無監督跨域目標檢測方法結構圖Fig.2 Diagram for unsupervised cross-domain object detection
針對目標域標注數據稀缺、領域分布異構等問題,目前主要有兩類方法.一類是弱監督的目標檢測方法[11-12].給定只有分類標注的數據集,通過區域提取網絡得到感興趣的區域,然后再設計分類器并用分類標注進行訓練.相對于強監督的目標檢測方法,這種方法的檢測效果較差.另外一類,可概括為無監督域自適應方法[13],通過源域到目標域的域自適應,將源域中的標注信息遷移到目標域,從而提升目標域數據集上的檢測精度.為實現源域與目標域的語義對齊,采用了最小化源域與目標域之間度量距離的方法,如相關對齊[14]和最大均值差異[15]等.這種基于度量的方法取得了一定的效果,但在深度卷積網絡中,由于數據被映射到高維空間,效果有時反而更差[16].盡管無監督域自適應方法在圖像分類和分割等任務中均取得了不錯的效果,但在目標檢測方面的研究仍然不足.已有為數不多的研究[17-27],主要采用像素級對齊[17-18]或特征級對齊[18-25]來實現源域知識到目標域的遷移.其中,像素級對齊主要采用圖像翻譯的方法來實現,如采用循環對抗生成網絡(Cycle generative adversarial network,CycleGAN)[28]等,通過生成含有源域數據的內容信息與目標域數據的風格信息的圖片,從而將源域中的標注信息遷移到生成圖像.特征級對齊在特征層加入判別器,通過構造對抗生成網絡(Generative adversarial networks,GAN)[29]使判別器無法將源域特征從目標域特征中分辨出來,進而拉近兩個領域之間的特征分布.例如,Inoue 等[17]提出一種漸進弱監督跨域目標檢測方法,先采用CycleGAN[28]生成含有源域數據空間語義信息和目標域風格特征的圖片,并將源域中的標注信息遷移到生成圖像上;然后使用在源域數據上訓練好的檢測模型在這些生成圖片上進行微調;最后,使用在目標域上預測生成的偽標簽進一步訓練,并得到在目標域上的檢測模型.類似的,加噪標簽[26]直接使用在源域數據上訓練的檢測器在目標域上預測生成偽標注,然后使用一個分類模塊對偽標簽進行修正并與源域數據聯合訓練,以得到一個更具魯棒性的檢測器.Chen等[19]在Faster R-CNN[6]的基礎上,通過實例級與圖像級的域自適應,實現了檢測模型的泛化.在此基礎上,文獻[20-25]通過不同特征層的對齊,實現了不同領域之間深層特征與淺層特征的適配.以上工作主要面向單源域到單目標域的檢測遷移問題,為了進一步有效利用眾多不同領域之間的相關知識,一些研究者將目光轉向了更具挑戰性的多源域到單目標域的遷移問題.Wang 等[27]提出了一個基于注意力機制的域自適應檢測框架,實現了從多個源域到單目標域的檢測任務.其困難在于需要收集大量不同的源域數據集.此外,Kim 等[18]探索了如何生成多樣性的翻譯圖片來實現多源域適配,但其圖像轉換過程尚未利用目標域特有的屬性特征,以使得生成圖像與目標域特征分布更加相似.
上述無監督域自適應方法的提出,證明了基于遷移的目標檢測模型的有效性,但仍存在以下3 方面問題: 1)在像素級對齊時,采用CycleGAN[28]等圖像翻譯方法生成的樣本,多樣性不夠,不能保持語義結構的連續性;或是人為設置源域樣本的多樣性,而沒有充分利用目標域的屬性特征;2)特征級對齊方面,大多只考慮單源域到單目標域的遷移,沒有考慮多源域到單目標域遷移的情景.特征對齊網絡在訓練過程中,其判別性主要取決于有標注信息的源域數據,遷移性則取決于源域特征與目標域特征之間的相似性.在單源域自適應方法中,由于單一風格的源域圖像通常只包含部分信息,因此檢測模型的判別性容易偏向于僅有的單一源域表示,從而影響目標域上的性能;3)部分方法僅針對某一特定檢測模型,例如Chen 等[19]提出的實例級域自適應方法在單階段的檢測模型中難以實現.為嘗試解決這些困難,本文提出了一個漸進對齊的無監督跨域目標檢測框架,主要工作如下: 1)對圖片特征進行分解,分別得到域不變的結構內容特征與域特有的風格屬性特征,以使得生成樣本更好地保持原數據的空間結構信息.并且,通過源域與目標域之間兩類特征的結合,能夠生成多樣性的數據樣本,這些不同風格屬性的生成圖片豐富了源域樣本的多樣性;2)設計了一個基于對抗網絡的多域分類器,并將生成的具有不同屬性特征的樣本加入到源域數據集中,使檢測器能在多個源域數據集上訓練,并且目標域特征分布可以由多個與其風格近似的源域數據來擬合,從而獲取多領域不變的特征表示;3)采用自訓練框架進一步提升目標域上的檢測性能.源域和目標域通過像素級對齊和多源域特征對齊后,檢測模型在目標域上可以預測生成質量較高的偽標簽,從而避免了直接使用源域數據訓練的模型預測生成偽標注質量差的問題.實驗表明,采用這種漸進域自適應的訓練方式,顯著地提升了檢測模型的遷移性能.
在本文研究的無監督跨域目標檢測任務中,源域數據集有分類標注與邊界框標注,而目標域沒有標注信息.定義源域數據集為標注集為目標域數據為其中nS和nT分別表示源域與目標域的數據大小,分別為第i張圖片的類別標注集合與邊框標注集合,C為源域數據的類別集合.并且,目標域數據的類別集合是源域類別集合的子集.本文研究的目的是利用源域中豐富的數據與標注信息,通過遷移學習的方法,將源域中的知識遷移到目標域中,以提升目標域測試集上的檢測性能.
考慮到實際應用中檢測的時效性要求,本文采用單階段檢測器SSD[8]作為基本檢測模型.在SSD模型中,首先通過基礎網絡VGG16[30]提取特征,然后加入尺寸不同的特征層,并分別在6 個不同尺度的特征層上獲得檢測邊框集合與對應的分類置信度,再對所得邊框進行非極大值抑制,從而得到最終檢測結果.訓練過程中,SSD 的目標損失函數為:


1.3.1 特征表示分解

在特征分解過程中,za ∈R8.在測試過程中對領域特有的屬性特征表示za進行隨機采樣,令za近似于高斯分布,如圖3 所示.主要通過Kullback-Leibler (KL)散度來實現:


圖3 損失函數Fig.3 Loss function
特征分解網絡結構及其參數設置如圖4 所示.內容編碼器Ec由3 個卷積層和4 殘差層組成,并使用了實例歸一化[32].為了將源域與目標域映射到一個共享的空間,最后一個卷積層將共享參數.屬性編碼器Ea由6 個卷積層組成,內容判別器網絡由4 個卷積網絡組成.

圖4 分解表示所采用模塊網絡結構Fig.4 Modular network structures used in the disentangled representation framework
1.3.2 多樣性圖像翻譯


在多樣性圖片翻譯過程中,生成器{GS,GT}與判別器{DS,DT}的網絡結構如圖5 所示,其使用了實例歸一化以增強圖像風格遷移效果.整個圖像翻譯網絡框架如圖2(a)所示,其訓練過程為:

圖5 圖像翻譯中采用的生成器與判別器網絡結構Fig.5 Network structures of the generator and the discriminator used in image-to-image translation


特征級域自適應的主要目的是使得源域與目標域在特征表示分布上盡可能相似,典型的方法是通過對抗生成網絡來實現.文獻[33]將源域特征與目標域特征作為判別器D的輸入,通過在判別器前面加入梯度反向層,使得判別器無法分辨出特征層來自哪一個樣本域,進而得到域不變的特征表示.文獻[18,34]指出,在單源域到單目標域的遷移任務中,容易得到次優解.由于風格單一的源域圖像只包含部分信息,因此得到的特征表示具有偏向性.而使用多個風格不同的源域數據,可以得到不同方面的特征信息,從而使得多域不變的特征表示具有更強的泛化性能.



將目標域特征作為生成特征,則對抗損失函數為:

此時,多源域的檢測模型目標損失函數為:

聯合訓練多源域分類器與檢測模型,訓練過程如下:

式中,超參數λ用于控制對抗損失的重要性.
在訓練過程中,判別器{Dm|m=0,1,2,3}的網絡結構均由三個卷積層與三個全連接層組成,并使用了批歸一化[35].三個卷積層通道數分別為512、256 和128,步長均為2.三個全連接層維度分別為512、256 和1,均使用LeakyRelu 激活函數.在訓練過程中,將SSD 的 Conv4_3_relu 特征層作為域分類器D的輸入,此時卷積特征層為512×38×38,經過3 個卷積層后大小變為128×10×10,之后再將特征層轉變為一維向量作為全連接層的輸入.
自訓練是半監督學習的一種常用方法,旨在使用預訓練模型在沒有標注的圖片上自動生成偽標注,并使用偽標注進行全監督訓練.在無監督跨域檢測任務中,源域數據與目標源數據分布不一致,在源域數據上訓練好的模型很難泛化到目標域,使得在目標域訓練集上的預測結果存在大量漏檢與誤檢.而使用這些帶有 “噪音”的偽標簽進行迭代自訓練時,會進一步強化這些錯誤的信息,并導致更多錯誤標簽的生成.為了有效地解決這個問題,本文采取漸進自訓練方法,使用像素級對齊和多源域特征對齊后的檢測模型在目標域訓練集上進行預測,從而提升偽標簽的質量.具體而言,設數據集的類別集合為C,則在目標域上生成的偽標簽為∈C,j=1,2,···,nT}.其中分別為第j張圖片的分類標注集合與邊框標注集合,nT為目標域數據大小.使用訓練好的檢測模型對目標域數據進行預測,設定閥值θ,當預測邊框的分類置信得分大于閥值θ時,則將對應的邊框與類別加入到偽標簽中,并在目標域訓練集上的得到最終的偽標簽使用目標域訓練集及其生成的偽標簽進行訓練,過程如下:

圖6 多域不變特征表示Fig.6 Multi-domain-invariant representation

式中,w為檢測模型訓練參數.以上自訓練過程可以多次迭代進行,以漸進提升偽標簽的質量.
根據上述各模塊描述,提出方法整體框架如圖2所示.圖2(a)為像素級域自適應網絡框架,其通過基于特征分解的圖像翻譯,將源域圖像XS轉換為XS2T,并將源域的標注信息遷移到生成的圖片中.圖2(b)為多域特征自適應網絡框架.將圖2(a)中生成的翻譯圖像XS2T加入到源域中,實現多源域特征對齊的對抗訓練.圖2(c)為自訓練操作,用圖2(b)中訓練好的模型對目標域數據進行預測生成偽標簽,并進一步做微調訓練,得到最終的檢測模型.
為了證明提出檢測模型的有效性,分別在2 組遷移集上進行實驗,包括Cityscapes[9]→Foggy Cityscapes[10]和VOC07[36]→Clipart1k[17],并使用檢測平均精度(mAP)作為評價指標.兩組遷移集具體情況如下:
1)移集1: Cityscapes→Foggy Cityscapes.Cityscapes 作為源域數據集,Foggy Cityscapes 作為目標域數據集.其中,Cityscapes 共有2 975 張訓練圖片,Foggy Cityscapes 是在Cityscapes 數據集中加入合成霧制作而成,其訓練數據大小為2 975,有500 張測試圖片.源域與目標域數據均有8 個檢測類別,圖片分辨率均為1 024×2 048,在訓練過程中,將圖像尺寸設置為300×300.
2)遷移集2: VOC07→Clipart1k.VOC07 作為源域數據集,Clipart1k 作為目標域數據集.其中,VOC07 中的訓練集和驗證集均作為源域訓練數據集,共有5 011 張圖片;Clipart1k 共1 000 張圖片,訓練集與測試集分別為500 張.源域與目標域數據均有20 個檢測類別,在訓練過程中,將圖像尺寸設置為300×300.
本文提出了一種漸進對齊的無監督跨域目標檢測方法.其訓練主要分為基本檢測模型、像素級特征對齊、多源域特征對齊和自訓練4 個步驟:
1)基本檢測模型: 使用源域數據,參照SSD[8]的參數設置,得到一個基本的檢測模型.
2)在像素級對齊網絡中,實現多樣性的圖像翻譯.輸入圖像大小為256×256,訓練批次大小為1,所有網絡模型的權重使用均值為0、方差為0.02 的高斯分布進行隨機初始化.分別設置參數=1,=1,λcycle=10,λself=10,λKL=0.01.采用Adam[37]優化算法,一階矩估計的指數衰減率β1設定為0.5,二階矩估計的指數衰減率β2設定為0.999.共訓練180 個周期,內容判別器初始學習率為 4×10-5,其他網絡結構的初始學習率為1.0×10-4,在訓練90 個周期后,學習率均減小為原來的0.1 倍.然后,將基本檢測模型作為預訓練模型,并將生成的多樣性圖像作為輸入,參照SSD的訓練參數,得到一個檢測模型.
3)在多源域特征對齊網絡中,使用SSD 作為基本的檢測器,由于顯存的限制訓練批次大小設置為6.在訓練過程中,檢測網絡使用像素級對齊網絡中訓練好的模型作為預訓練模型,初始學習率為0.001,訓練周期為30 000,每到10 000 次迭代周期時學習率變為原來的0.1 倍,其他參數設置均與SSD中相同.領域分類器加在VGG16 網絡中Conv4_3_relu層,平衡參數λ=1,其網絡權重使用均值為0、方差為0.02 的高斯分布進行隨機初始化.領域分類器的學習率為 1.0×10-4,采用Adam[37]優化算法,一階矩估計的指數衰減率β1設定為0.9,二階矩估計的指數衰減率β2設定為0.99.
4)在自訓練過程中,使用多源特征對齊網絡訓練好的模型作為初始模型,學習率為 1.0×10-5,訓練批次樣本數為16,共訓練10 000 批次,其他設置與SSD 相同.自訓練過程共迭代3 次,每一輪迭代過程都以上一輪的最終模型預測生成偽標注,并作為預訓練模型進行微調訓練.以上所有實驗均在Ubuntu18.04 操作系統上完成,并使用pytorch1.0、python3.6 和顯卡GeForce RTX 2070 進行模型訓練.
通過上述的實驗方案,分別得到了遷移集1 和遷移集2 中對目標域的檢測結果,如表1 所示.其中,基線方法為只使用源域數據訓練得到的檢測模型.在全監督方法中,將基線方法得到的模型作為預訓練模型,再使用帶有標注信息的目標域訓練數據進行訓練,該方法在目標域測試集上得到的結果可作為最終檢測性能的上限.由表1 可以看出,本文方法的每一步操作均提升了性能.具體而言,在Cityscapes→Foggy Cityscapes 的遷移實驗中,通過生成多樣性(M=3)翻譯圖像,實現了像素級對齊,將檢測結果提升12.1%.進一步地實施多源域特征對齊,檢測結果由初始的17.4%提升到32.7%;單獨采用自訓練方法,檢測結果提升了2.7%.最后,通過綜合多源特征對齊與自訓練方法,檢測結果提升到了32.9%,只比全監督檢測結果低0.1%.在VOC07→Clipart1k 實驗中,通過結構化多樣性圖像翻譯,生成M=3 種不同風格的圖片.在像素級對齊實驗中,相比基線模型檢測平均精度提升了8.6%;在多源特征對齊試驗中,檢測結果由23.2%提升到36.2%;通過自訓練,檢測結果提升了0.7%;綜合本文所提出的所有模塊,最終檢測結果提升了15.4%.同時,本文也與其他方法進行了對比,主要包括域自適應對抗網絡(Domain-adaption adversarial network,DAAN)[33]、CycleGAN 以及域遷移(Domain transform,DT)[17].其中DAAN 主要通過對抗生成網絡實現了源域與目標域特征級對齊,在訓練時,將領域分類器加在SSD 網絡中的Conv4_3_relu 層.CycleGAN得到從源域到目標域上的翻譯圖片,將源域中的標注信息遷移到翻譯圖片,并使用在源域數據上訓練的檢測模型在翻譯圖片上做微調訓練.DT 中的方法與本文的更為接近,其在CycleGAN 的基礎上,進一步的使用訓練好的模型在目標域數據上生成偽標簽并進行微調,以得到最終的檢測模型.不同于本文設定閾值得到偽標注,DT 將在目標域訓練集上分類得分最高的預測邊框作為偽標簽.由表1 可知,本文方法優于以上各種方法.以Cityscapes→Foggy Cityscapes 的遷移實驗為例,相比DAAN,本文最終結果提升了7%.CycleGAN 與本文中的像素級自適應的思想類似.不同的是,本文基于特征分解的圖像翻譯,其生成的樣本具有多樣性,從而使得翻譯圖片包含了目標域中更多不同方面的信息.由表1 可以看出,相較于CycleGAN[17]方法,本文提出的像素級自適應網絡的檢測性能提升了1.6%(27.9%比29.5%).DT 在進一步使用自訓練方法后,性能反而降低了4.6% (27.9%比23.3%),其原因在于DT 通過取首位排名分類得分對應的預測邊框作為圖像的偽標注,存在大量分類得分較低的錯誤標注,并遺漏了許多可能為正樣本的標注.而本文中采用的基于閾值選取偽標注的方法,則可以避免大量的錯誤標注與遺漏標注,從而更好地提升檢測性能.

表1 不同目標檢測方法mAP 性能對比 (%)Table 1 Comparison of different detection methods on performance of mAP (%)
此外,由圖7 和圖8 可以看出,本文方法在大多數類別上取得了最好的檢測效果,實現了類別級的檢測遷移性能提升.圖9 和圖10 則分別給出了分類置信度閾值為0.5 時遷移集1 和遷移集2 中目標域上不同方法的檢測結果.可以看出,其他方法中均存在不同程度的錯檢和漏檢情況,而本文方法得到的檢測結果明顯更好.

圖7 在Cityscapes → Foggy Cityscapes 實驗中不同方法在所有8 個類別上的mAP 表現Fig.7 Percategory mAP performance of different approaches over all the 8 categories on the experiment Cityscapes → Foggy Cityscapes

圖8 在VOC07 → Clipart1k 實驗中不同方法在所有20 個類別上的mAP 表現Fig.8 Percategory mAP performance of different approaches over all the 20 categories on the experiment VOC07 → Clipart1k

圖9 多種方法在Cityscapes → Foggy Cityscapes 實驗中檢測結果對比Fig.9 Comparison of different detection methods in the Cityscapes → Foggy Cityscapes experiment

圖10 不同方法在VOC07 → Clipart1k 實驗中檢測結果對比Fig.10 Comparison of different detection methods in the VOC07 → Clipart1k experiment
2.3.1 基于Faster R-CNN 檢測框架的實現與比較
本文的實驗主要基于SSD 檢測框架完成,為了證明本文方法具有更廣的適用性,以Faster R-CNN為基本檢測模型,并在Cityscapes→Foggy Cityscapes 遷移集上進行驗證.具體而言,在Faster RCNN 檢測器中,以VGG16 作為基本的特征提取網絡,輸入圖像較短邊大小設置為600.在訓練基本檢測模型性過程中,依照Faster R-CNN[6]中的參數設置.在像素級域自適應網絡中,使用基本檢測模型為預訓練模型,學習率設置為0.001,迭代訓練10 個周期.在特征級域適應方法中,學習率設置為0.001,迭代訓練10 個周期.其他參數設置均與Faster R-CNN[6]中相同.平衡參數λ=1,領域分類器加在VGG16 網路中Conv5_3_relu層,學習率為0.0001,采用Adam 優化算法,一階矩估計的指數衰減率β1設定為0.9,二階矩估計的指數衰減率β2設定為0.99.在自訓練過程中,只進行一次迭代訓練.取閾值θ=0.5,使用多源特征對齊網絡訓練好的模型作為預訓練模型,學習率為0.0001,單批次樣本數為1,共迭代訓練20 000 次,其他設置與Faster R-CNN[6]相同.此外,不同于以上采用分步漸進訓練的方法,同時設計以VGG16 作為預訓練模型,將像素級與特征級域自適應網絡進行聯合訓練.其中,初始學習率為0.01,訓練次數為60 000,在迭代次數為40 000 時,學習率變為原來的0.1 倍.其他其他設置與Faster R-CNN[6]相同.整個訓練過程中訓練批次大小設置為1.實驗結果如表2 所示,本文在對像素級對齊與特征級對齊網絡逐步訓練時,在目標域上的檢測性能為38.7%.然后再進一步自訓練,平均準確率達到了39.9%,這比原始的Faster R-CNN 模型提升了17.4%,而相較于全監督方法,只差0.8%.同時,相比對像素級對齊與特征級對齊網絡進行聯合訓練,分步漸進訓練的方法取得了更好的效果,檢測平均精度要高出1.8%(38.7%比36.9%).

表2 在 Cityscapes → Foggy Cityscapes 實驗中基于Faster R-CNN 的不同跨域檢測方法性能對比 (%)Table 2 Comparison of different cross-domain detection methods based on Faster R-CNN detector in Cityscapes → Foggy Cityscapes (%)
為了驗證本文方法的有效性,本文與當前最新進的9 種無監督跨域目標檢測方法進行了對比.其中,域自適應Faster R-CNN[19]采用圖像級與實例級特征對齊的方法,實現源域與目標域的對齊;DT[17]先使用CycleGAN 得到從源域到目標域的翻譯圖像,以實現像素級的域自適應.然后再使用自訓練方式,以進一步減小源域與目標域之間在高層語義特征的域差異;選擇性跨域對齊[21]為了緩解全局特征對齊的局限性,通過聚類的方式得到不同的提取區域,以實現更細節的局部對齊;多對抗超快速區域卷積網絡[23]、強弱分布對齊[20]和多層域自適應[24]通過對不同特征層的對齊,以實現源域與目標域淺層特征與深層特征的適配.域自適應表示學習[18]使用CycelGAN 生成多樣性的圖像,然后再實現了多領域不變的特征表示;一致性教師客體關系[22]則使用了一致性教師訓練的方法實現的方法實現高效的跨域檢測;加噪標簽[26]則采用在目標域上生成偽標注并進一步對偽標注進行修正的方式來提升在目標域上的檢測性能.由表2 可以看出,本文方法取得了更好的跨域檢測性能,即便在不使用自訓練方法的情況下,在特征級對齊網絡中得到的檢測結果也比當前最好的方法加噪標簽高出2.2%.具體來說,域自適應Faster R-CNN、選擇性跨域對齊、多對抗超快速區域卷積網絡、強弱分布對齊、多層域自適應和MTOR 主要使用了不同策略的特征級對齊方法,相比于本文采用的多域對抗的方法,本文得到了更好的檢測性能.DT 和DMRL 均使用CycleGAN 生成從源域到目標域的翻譯圖像,即便在只使用像素級對齊網絡的情況下,本文的檢測結果也更優.加噪標簽則主要是使用自訓練的策略,與本文得到的結果最為接近.加噪標簽通過在源域上訓練好的模型在目標域上預測生成帶有噪聲的偽標注,然后使用分類網絡對這些偽標注進行修正,并進一步用于自訓練.這種自訓練策略,值得本文借鑒.最后,通過對每一個類別檢測結果的對比,可以看到本文提出的方法不僅實現了平均檢測精度的最優,而且也實現了類級別的跨域檢測性能提升,域檢測性能提升和性能提升.
2.3.2 不同數據集上的性能比較
在Cityscapes→Foggy Cityscapes 實驗中,源域與目標域訓練數據數量相同,且Foggy Cityscapes 主要由Cityscapes 加入霧生成,二者之間有著完全相同的空間結構信息.此時,源域與目標域數據差異相對較小.在VOC07→Clipart1k 實驗中,源域有5 011 張圖片,目標域只有500 張訓練圖片,而且源域與目標域空間信息不盡相同.因此,這組數據中源域與目標域差異相對較大.圖11 分析了本文提出方法的每一成分對結果的影響.可以看出,在遷移集1 上的遷移效果較好,這也與遷移集1 中源域與目標域差異更小的看法相符.其中,像素級對齊在遷移集1 上效果提升更明顯,而加入多源域特征對齊后,在遷移集2 上有更大的提升(3.2%比4.4%).在單獨使用自訓練的情況下,在遷移集1上的檢測提升性能更好(2.7%比 0.7%),而在進一步采取像素級對齊與特征級對齊后,自訓練方法在遷移集2 上效果更明顯(0.2%比2.4%).這是因為,相對而言,遷移集1 中的域差異比遷移集2 中的更小,則在只使用源域數據訓練得到的檢測模型在遷移集1 中可以生成更好的偽標注.在采取像素級對齊與特征級對齊后,檢測模型在遷移集1 中的結果已經相當接近全監督下的檢測結果,再使用自訓練則容易發生過擬合.而在遷移集2 則可以得到質量更好的初始偽標注,從而更有利于檢測性能的提升.由上可見,不同的方法在不同的數據集上有不同的效果,但綜合不同的方法可以彌補各自方法的不足,進而實現更好的遷移檢測性能.

圖11 每一成分對mAP 的提升Fig.11 The mAP gain of each component
2.3.3 源域數量的影響
通過基于結構分解的多樣性圖像翻譯,可以得到不同風格屬性的翻譯圖片,并將其作為源域數據集.在得到多樣性翻譯圖像時,有兩種策略: 1)將源域圖像與隨機的屬性特征相結合,如隨機噪聲;2)將源域圖像與指定的屬性圖片相結合,這里主要指目標域中的圖片屬性.圖12 展示了由Cityscapes→Foggy Cityscapes 生成的3 種不同風格的圖片.其中,第一列為輸入的不同內容屬性圖片,最上面一行為3 種不同的目標域風格屬性,其在顏色、色調、紋理、風格等方面存在差異.通過將每一張源域內容圖片與目標域的風格屬性相結合,從而可以為每一張內容圖片生成多種帶有目標域不同風格的翻譯圖像.他們分別保留了源域圖片的空間內容特征,卻帶有不同的風格屬性.這樣生成的多樣性圖片包含了目標域不同方面的信息,通過特征提取可以得到多樣性的特征表達,然后再使用多域特征對齊網絡,得到多個領域不變的特征表示,從而具有更好的魯棒性與泛化性能.此外,通過將源域圖片與隨機屬性如高斯噪聲相結合,也能生成隨機的多樣性翻譯圖像.由圖12 可以看出,使用目標域屬特征生成的翻譯圖像在表觀特征上與目標域更為相似.不同的是,使用CycleGAN 只能得到單一屬性的翻譯圖像.

圖12 圖像翻譯結果示例圖Fig.12 Sample results of translated images
源域數據的多樣性直接影響到最終的檢測結果,表3 給出了源域數量M對實驗結果的影響.當M=0時,為基本的檢測模型.可以直觀地看出,在像素級對齊和多源域特征對齊實驗中,隨著源域數據多樣性M的增加,在目標域上的檢測結果不斷提升.在多樣性圖像翻譯過程中,可以將源域圖片的內容特征與任意的目標域風格屬性特征相結合,因此可以得到多種不同風格的翻譯圖片.受限于顯卡內存,本文只取了M=3,在實際應用中可以取更大的M值,并在理論上得到比本文報告中更好的檢測遷移效果.同時,不同的屬性特征也會影響到最終的檢測性能.表4 給出了不同屬性特征對目標域最終檢測結果的影響.由表4 可以看出,在基于SSD 或Faster R-CNN 的跨域檢測框架下,通過使用目標域指定屬性得到的檢測結果都明顯優于隨機屬性得到的檢測結果.

表3 在Cityscapes → Foggy Cityscapes 實驗中源域數量 M 對檢測性能的影響 (%)Table 3 Impact of the number of source domainsM on the detection performance in Cityscapes→Foggy Cityscapes (%)

表4 Cityscapes → Foggy Cityscapes 實驗中屬性特征對檢測性能的影響 (%)Table 4 Impact of attribute features on the detection performance in Cityscapes → Foggy Cityscapes (%)
2.3.4 參數 λ 敏感性分析
在多源域特征對齊的訓練過程中,式(11)中參數λ的設置對檢測損失與對抗損失的平衡起到關鍵作用.表5 給出了VOC07→Clipart1k 實驗中,不同λ取值得到的檢測結果.從表中可以看出,在多源域特征對齊網絡中,參數λ的取值過大或過小都不利于最終的檢測結果.當參數λ過小時,多源域判別器的梯度反向傳播值相對較小,因此不能很好地訓練判別器以得到多個領域不變的特征表示;當參數λ過大時,多源域判別器會反向傳播不正確的梯度值,將不利于檢測性能的提升.

表5 在VOC07 → Clipart1k 實驗中參數 λ 的敏感性分析 (%)Table 5 Sensitivity analysis of λ in VOC07 → Clipart1k (%)
2.3.5 閾值 θ 的敏感性分析
在自訓練過程中,根據在目標域訓練集上的預測邊框分類得分來選取偽標注.當閾值θ取值較高時,盡管得到的偽標注更為可信,但會遺漏大量的有用標注.當閾值θ值較小時,預測分類得分較低的邊框包含其中,從而造成大量的錯誤標注.因此,閾值θ設定直接影響到生成的偽標注的質量.表6給出了VOC07→Clipart1k 試驗中,不同θ取值得到的檢測結果.可以看到,在第一輪自訓練過程中,當θ=0.2 時取得了最好的檢測效果.由于目標域訓練數據比較少(只有500 張圖片),當閾值θ較大時,大量的圖片上無法生成偽標注.此外,本文分析了多輪自訓練的策略.通過設置不同的閾值θ,在每輪自訓練后,選取效果最好的θ.由于第1 輪自訓練后模型的性能漸進提升,在下一輪自訓練時,將只選取更大的θ,以生成更為可靠的偽標注.如表6 所示,總共進行了3 輪自訓練.在第2 輪自訓練時,在閾值θ=0.6 或θ=0.7 時取得了最好的效果.而在第3 輪自訓練時,已無法再提升模型的檢測性能.通過這種多輪次與漸進提升閾值θ的自訓練策略,可以有效提升在目標域上的檢測性能.

表6 在VOC07 → Clipart1k 實驗中閾值 θ 的敏感性分析 (%)Table 6 Sensitivity analysis of θ in VOC07 → Clipart1k (%)
本文提出了一種基于漸進對齊的無監督跨域目標檢測算法.首先,針對現有圖像翻譯中生成圖像風格單一、語義結構信息不一致的問題,通過圖像特征分解實現圖像的結構化翻譯,將源域的內容特征與目標域的任意屬性特征結合,生成了從源域到目標域映射的多樣性圖片,并將源域的標注信息遷移到生成數據,實現了像素級域自適應;其次,為了避免單源域遷移中特征對齊時出現的源域偏向性問題,設計多領域自適應網絡,得到多領域不變的特征表示,實現了多樣性特征級域自適應;最后,通過自訓練在目標域上生成偽標簽,進一步提升了模型在目標域上的檢測性能.多個數據集上的實驗結果表明,本文提出的算法取得了令人滿意的效果.與此同時,由于本文在實現遷移的過程中給予了每個源域樣本同等的權重考慮,而沒有考慮不同樣本對目標域的遷移效果,這個問題可作為開展下一步研究工作的方向.