999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

跨域圖像檢索綜述

2022-08-09 05:43:38李浩然周小平
計算機工程與應用 2022年15期
關鍵詞:特征方法模型

李浩然,周小平,王 佳

北京建筑大學 電氣與信息工程學院,北京 100044

由于文本所承載的信息已經遠不能滿足人類的需求,圖像成為當今時代最常用的信息載體。互聯網上每天都在生成海量的各式圖像,可見光、紅外、光學、夜晚、素描等在不同條件下產生的圖像在日常生活中隨處可見。圖像,已經成為當今時代人們交流信息的主要途徑。

隨著大量圖像的產生,許多群體對于從數據庫中檢索圖像有著現實需求。關于圖像檢索的研究已經持續了幾十年[1],但是人們之前只有同域圖像檢索的需求,即查詢圖像和檢索結果屬于同一視覺域。隨著多視覺域圖像在網絡隨處可見,用戶對于跨域檢索圖像的需求也日益迫切。它比同域圖像檢索更具有價值和應用前景,因為用戶可以使用任意的圖像去檢索跨視覺域的同類物體圖像。因此,利用某一視覺域圖像查找另一視覺域中相同物體的跨域圖像檢索就成為當今的研究熱點。

跨域圖像檢索的關鍵挑戰是視覺域鴻溝問題,即不同視覺域圖像有不同的成像表達方式且它們的特征存在于不同的空間中。具體來說,來自不同成像載體、光譜、機理以及不同光照條件,圖像的顏色、紋理、亮度、梯度、灰度特征都存在很大的區別。同樣由于拍攝角度不同,在拍攝物體時也會存在遮擋的問題。另一方面,即使是同類物體它們的圖像也會有巨大差異,導致類內距離大于類間距離。所以跨域圖像檢索的難點就可以總結為如何將兩個不同視覺域的圖像聯系起來以檢索最相近的圖像。

綜合以上分析,跨域圖像檢索在各個領域的需求會越來越高,深入研究現有的跨域圖像檢索方法具有重要的學術研究意義。

1 跨域圖像檢索概述

在過去的幾十年中,人們對基于內容的圖像檢索(content-based image retrieval,CBIR)進行了廣泛的研究。從一開始的圖像低級特征提取,例如顏色、形狀、紋理、空間特征。之后因為深度學習的出色性能,使用深度學習進行圖像檢索的技術[2]也逐漸出現在人們的視野中。然而,上述所有研究都是基于相同視覺域的圖像檢索。

與同域圖像不同的是,跨域圖像是指同一類物體在不同視覺域下的圖像。例如紅外圖像[3]、草圖[4]、漫畫[5]等,這些圖像分別屬于不同的視覺域。由于跨域圖像在不同條件下形成,不同視覺域的圖像在顏色、形狀、紋理等方面差異大。基于跨域的圖像檢索技術是通過X域(源域)圖像檢索Y域(目標域)的圖像,以將兩種不同域的圖像進行準確匹配。因此,上面所述的基于內容的圖像檢索技術在跨域這種特殊情況下就受到影響。這在很大程度上激發了對跨域圖像檢索研究的熱情,針對不同的建模方法本文將現有跨域圖像檢索方法大致分為兩類:基于特征空間遷移的跨域圖像檢索方法和基于圖像域遷移的跨域圖像檢索方法。跨域圖像檢索方法分類如圖1所示。

基于特征空間遷移的跨域圖像檢索方法把研究的重點放在了提取特征的能力和如何更準確地比較特征向量相似度上。具體地,首先對不同視覺域圖像分別提取特征,通過特征提取器將原本不屬于同一空間的圖像特征向量映射到同一空間中,實現特征空間的遷移。隨后在損失函數的幫助下把相同類的特征距離拉近,不同類的特征距離拉遠。最后,不同視覺域的圖像就可以計算兩者之間的特征距離達到跨域圖像檢索的目的。而基于圖像域遷移的跨域圖像檢索方法把研究聚焦在了圖像本身,其核心思想是把源域圖像的視覺效果通過生成模型轉換為目標域圖像的視覺效果,這樣跨域檢索任務就變為了同域圖像檢索任務。這種方法在特征提取之前就把兩個圖像的視覺域鴻溝消除,有效地解決不同圖像視覺效果差異大的問題。兩類方法如圖2、圖3所示。

圖2 特征空間遷移方法Fig.2 Feature space migration method

圖3 圖像域遷移方法Fig.3 Image domain adaptation method

2 基于特征空間遷移的跨域圖像檢索

基于特征空間遷移的方法是目前跨域圖像檢索的主流方法。研究人員認為即使圖像在不同視覺域,但是如果兩者具有相同的高級語義信息那它們之間也存在潛在的相關性。其主要思想是通過特征提取器將兩個視覺域的圖像特征通過映射函數映射到公共子空間中,這樣就能為兩個不同視覺域的圖像生成相同的特征向量形式進行特征的直接比較。方法如圖4所示。

圖4 基于特征空間遷移的跨域圖像檢索方法Fig.4 Cross-domain image retrieval method based on feature space migration

現有的特征提取方法可以根據特征類型分為三種:低級、中級和高級。低級特征提取方法依賴于手工特征,流行的手工特征包括顏色、紋理、形狀。這些低級特征不能有效地表示背景不同的各類視覺域圖像,導致限制了檢索性能[6]。中級特征提取方法通過聚合局部特征,如向量局部聚合描述符[7]。然而對于同類圖像也包含具有不同方位、尺度和照度的情況,中層特征不能準確描述圖像的豐富信息。隨后許多工作[8]嘗試使用深度神經網絡(DNN)來提取高級的語義特征,這些特征在解決這一問題上已被證明比傳統的手工特征具有更優越的性能。因此,大多學者針對兩域圖像之間差異性的問題對DNN進行了改進并應用到跨域圖像檢索中。針對特征空間遷移方法不同的改進位置,本章將從四個方面對其分類總結。

2.1 針對圖像特征區域建模

在一定情況下,影響跨域圖像檢索性能的不是圖像主體部分的差異而是圖像成像時面臨的復雜背景問題,甚至有時可能存在遮擋物體主體部分的情況。針對以上問題,不同學者從圖像特征區域入手在提取特征時檢測物體目標和其語義部分,幫助模型將注意力放在圖像特征最優的區域以獲得更有判別性的特征。

Liu等人[9]首先構建了一個包含特征點的跨域服裝數據集,隨后提出一個依賴于標注服裝屬性和特征點的FashionNet網絡用于跨域服裝檢索,跨域服裝數據集如圖5所示。該方法幫助模型將重點放在數據的特征點上,抑制了背景差異造成的影響。但是該方法需要提前注釋好的數據,因此對于前期工作要求較高。而王志偉等人[10]不僅考慮到關鍵位置特征,還利用目標檢測算法YOLOv3分別提取了圖像的全局、主體和局部區域,經過神經網絡提取特征后融合并添加顏色、紋理等低級特征進行補充,提升了檢索精度。

圖5 注釋的特征點Fig.5 Feature points of annotations

另一種方法是從原始圖像中通過注意力機制幫助神經網絡模型關注特定區域的主體特征,忽略非主體的干擾因素。Ji等人[11]利用數據庫圖像的屬性信息定位圖像的注意力區域,提出了利用標簽信息幫助定位數據庫圖像的注意力TagYNet和利用候選數據庫圖像來定位查詢圖像的注意力CtxYNet,在實驗數據集上較FashionNet的準確率有了明顯提高。但是該方法依賴于注意力機制的性能,一旦注意力的性能無法準確描述圖像的關鍵性將會丟失某些重要信息。劉玉杰等人[12]對此作出改進,首先在VGG[13]網絡中添加注意力模塊獲取圖像的注意力特征圖,同時為了防止注意力丟失部分關鍵信息通過引入短連接的方式將重要特征與全局的特征信息結合,獲得了不錯的效果。但是該方法需要手動調整參數,且在圖像光線不足和受到遮擋時結果不好,也證明了需要進一步的優化。Fan等人[14]則設計了新的注意力DBA-Net,該網絡在考慮圖像關鍵特征的同時對局部細節也有很好的涉及,因此即使圖像受到遮擋和外觀相似的影響時也能具有較高的準確度。Yu等人[15]則在添加注意力模塊外又引入了shortcut connection[16]解決跨域圖像錯位的問題,同時保留了粗粒度和細粒度兩種信息,在實驗中也證明了其效果。

在研究中發現現有的解決方案大多關注細節信息和空間層面信息,而忽略了通道信息。因此,Chen等人[17]關注通道和空間兩個層面的信息,引入了通道注意力、自注意力和空間注意力以挖掘各個維度上的細粒度細節,不僅在細粒度檢索同時在粗粒度檢索中也獲得了優異的性能。葛蕓等人[18]分別為通道層面和空間層面提出了多尺度池化通道注意力和范數空間注意力,在兩個層面上自適應地給關鍵特征加權,對不同尺度的特征都有關注,mAP值可以達到92.4%。

目前針對圖像特征區域建模的方法重點關注了跨域圖像檢索中源域和目標域圖像受到背景干擾、物體被遮擋、跨域圖像錯位等造成的視覺域影響,因此利用人類的視覺系統機制,通過注釋特征點和注意力機制幫助神經網絡模型把注意力放到圖像的關鍵區域,增強對主體細節特征的學習。但是這種方法還存在一些問題,首先標記特征點的方法依賴大量的人工對圖像進行注釋,需要在前期耗費人力和時間用于標注數據集的工作。另外,對數據進行關鍵點的標注也會面臨不同物體關鍵位置變化的問題,所以對專業能力也有一定的要求。因此有研究人員選擇了添加注意力的方法,然而該方法為了獲得更好的效果犧牲了網絡結構,在神經網絡結構以外添加多個不同的注意力分支,增加了模型訓練的時間和計算量。同時圖像特征區域建模的方法對于成像設備造成的視覺差異不能很好的解決,具有一定的局限性。

2.2 針對神經網絡結構建模

不同于針對圖像特征區域的方法是幫助神經網絡關注圖像關鍵區域,針對特征空間遷移改進的另一個角度是從特征提取器入手,通過多個神經網絡模型結構提高對不同特征的提取能力來完成跨域圖像的檢索。隨著深度學習技術的飛速發展,DNN在不同的應用領域展現了巨大的潛力[19]。DNN作為特征提取器可以在數據集上進行調整用來提取豐富的語義特征,特別是對于圖像域變化豐富的多視覺域圖像來說,同類物體的圖像會因為相機的變化和光照的影響導致圖像顏色、紋理發生改變,因此需要確保特征提取器不會受到圖像低級特征過多的影響,之后進行特征對比時才會比較精確,為跨域圖像檢索提供基礎。

Lei等人[20]使用ImageNet預訓練的VGG網絡作為初始化網絡,從草圖和圖像的輪廓中提取深層特征以進行跨域圖像檢索。隨后使用草圖數據微調預訓練的神經網絡模型,最后使用微調模型提取草圖特征并檢索對應的圖像輪廓。同樣的,Ha等人[21]利用預訓練的VGG網絡跨域檢索建筑信息模型(building information modeling,BIM)和自然圖像完成室內定位的任務,在特征清晰的地點達到了滿意的效果。Kim等人[22]特意針對跨域問題提出了兩階段的預訓練方法,在通過ImageNet訓練后,增加一個使用多域未標記數據的自監督預訓練步驟,以讓模型在新域上獲得區分能力和對域轉移的不變性,與只預訓練一次的模型比較得到了更好的性能。

上述方法最大的優勢是解決了DNN模型對訓練樣本的依賴問題,同時使用預訓練的神經網絡不需重新訓練就已經具備一定的提取特征能力,節省了時間和計算成本。但是不同域的圖像存在巨大的視覺差異,單純使用預訓練的神經網絡不能很好地應用到跨域的檢索任務。針對這個問題,大部分的研究工作開始通過結合多個神經網絡來解決視覺域鴻溝,其中包括孿生神經網絡[23]、三重神經網絡[24]、四重神經網絡[25]。

基于孿生神經網絡的跨域圖像檢索主要衡量兩個輸入的相似程度。Shi等人[26]對航拍圖像首先應用極坐標變換使得圖像的視圖方向大致與街景圖像相似,而后引入孿生神經網絡學習街景和航拍圖像的深度特征,實驗數據顯示提出的方法提高了現有方法的性能,在top-1的召回率上提高了1.5倍。Park等人[27]發現現有跨域檢索方法側重于學習圖像的全局表示而忽略了局部的重要特征,因此提出在孿生網絡中加入一個CMAlign模塊強制網絡提取像素級局部特征,最終融合所有特征形成最終的特征,提高了在孿生網絡結構中檢索的精度。Ma等人[28]則認為現有方法只是將特征映射到公共空間而忽視了域的特定信息,因此他們關注了視覺域的獨有信息,在孿生網絡中首先提取域的獨有特征,并引入域變換方案和雙空間特征融合模塊,將獨有特征補充到共有特征中,準確率可以提高到99.32%。Miao等人[29]在孿生網絡中加入了Refinement模塊[30]提取圖像關鍵點特征,隨后采用知識蒸餾策略融合全局和局部特征,以確保判別的一致性。但是該方法容易受到遮擋的影響,應用在現實數據中容易出現錯誤。Li等人[31]在孿生網絡基礎上采用了多尺度注意力機制抑制衛星圖像轉為街景圖像后的變形區域,而為了進一步提高跨域檢索的能力,其通過困難樣本挖掘方法讓網絡關注困難樣本以突破性能的瓶頸。

此外,研究者們也開始利用三重神經網絡將數據形成三元組的形式,讓同樣本間的距離盡可能縮小,不同樣本之間的距離盡可能增大。Yu等人[32]使用三重神經網絡提取ImageNet數據集的邊緣圖預訓練模型,彌合了兩域圖像的視覺域差距,其中設置的訓練三元組由兩個正樣本和一個負樣本組成,如圖6所示。然而為了得到好的檢索效果,該方法經歷了非常復雜的訓練過程,同時依賴邊緣圖提取算法可能會導致邊緣的映射質量對其結果有較大的影響。因此Lin等人提出了TC-Net[33],TC-Net不需要將照片轉換為邊緣圖,而是直接輸入RGB圖像避免復雜的預訓練同時防止紋理信息丟失。在不同數據集測試的檢索準確率較以往方法[32]可以提高26.81%。而李奇真等人[34]選擇更先進的邊緣檢測算法[35]移除弱邊緣像素保留強邊緣像素獲得了更清晰的輪廓圖,隨后將輪廓圖與彩色圖像融合彌補跨域圖像的差距,在三重網絡中得到了更有區別性的特征表示。

圖6 三元組結構Fig.6 Triple structure

進一步的,研究者們認為在訓練時增加更多的限制,可以更好地增加類間距離和減小類內距離,因此提出利用四重神經網絡來對跨域圖像進行檢索。對于某些視覺特征可能難以描述,但在文本中可以描述的情況,Song等人[36]通過四重神經網絡來聯合圖像輸入和文本輸入。四元組分別為圖像、文本、正樣本圖像和負樣本圖像,通過在三重神經網絡上增加一個文本分支網絡,提高檢索的準確性,結果表明當圖像和文本聯合建模時每種模式都可以彼此受益。但是該方法缺乏視覺感知方面的相關屬性,會因紋理缺失造成無法準確檢索的問題。Fuentes等人[37]提出了一個名為Sketch-QNet的四重神經網絡架構,以此希望特征空間能夠將共享形狀和顏色的圖像與僅共享形狀的圖像區分開來。同時,該方法通過邊緣保留平滑濾波器[38]、k均值聚類、Canny邊緣檢測器[39]將訓練集的每個樣本合成為彩色草圖,Sketch-QNet在基于彩色草圖的檢索問題上取得了最新的成果,同時解決了三重神經網絡對于弱相關樣本不能很好區分的問題。Dos等人[40]通過四重神經網絡對來自聲納的聲學圖像和衛星航拍圖像進行匹配,利用自適應粒子濾波器進行狀態估計,解決了灰度水聲圖像和航空光學圖像間的跨域檢索。

上述方法通過結合多個神經網絡的方法解決了跨域圖像檢索的問題,其重點在于如何訓練模型。單結構神經網絡通過預訓練的方式避開了DNN需要大量樣本訓練的問題,同時節省了訓練時間,但是僅使用通用數據集預訓練的方式不能彌補兩個視覺域之間的鴻溝,尤其是當面臨類間距離小于類內距離時,預訓練的模型沒有對跨域圖像深入的學習因此無法對其進行區分。多分支神經網絡改進了網絡結構,使用多個神經網絡并行接受多個輸入。對于學習跨域圖像的類間距離和類內距離具有更好的效果,改善了跨域圖像檢索的檢索能力。但是隨著多分支神經網絡的研究,研究人員發現為了提高在不同視覺域下圖像的檢索性能,需要進一步在神經網絡上增加注意力機制幫助模型在更復雜的環境下完成跨域檢索,以至于模型結構愈發復雜,參數量過大的問題也因此需要消耗大量的計算成本。另外,隨著跨域圖像檢索需求越來越大,僅通過多分支網絡來區分不同域圖像已經無法滿足需求,需要更有針對性的方法才能應對更復雜的圖像域。

2.3 針對損失函數建模

除了改變神經網絡結構以外,另一個解決方法是使用有效的度量方式來衡量跨域圖像的相似性。度量學習[41],也稱為距離度量學習(distance metric learning,DML)。它的關鍵思想是在訓練過程中從不同角度減少同類樣本之間的特征距離,同時盡可能地擴大不同類別樣本之間的特征距離。度量學習算法的提高主要在改進損失函數上,損失函數對于跨域圖像檢索的優化有重要的作用。幾個常用的損失函數分別是對比損失[42]、三重損失[43]和softmax損失。

對比損失的核心思想是縮小正樣本對的距離,增大負樣本對的距離,如圖7所示。Reale等人[44]用小卷積濾波器訓練了兩個網絡VisNet和NIRNet,并通過創建具有對比損失的孿生網絡來耦合兩個網絡的輸出特征。但是在現實中通常存在視覺相似性很小的正對,這些樣本對如果使用原始的對比損失可能會導致模型的過度擬合和較差的泛化能力。因此Wang等人[45]提出了穩健對比損失,它通過減輕對正對的懲罰以防止模型過度擬合,同時還結合了softmax損失函數,實驗證明通過將穩健對比損失與softmax損失相結合可以增強神經網絡在跨域圖像檢索時的泛化能力。Cheng等人[46]則基于對比損失提出了MCL(modified contrastive loss),MCL為正樣本添加了區間約束,同時MCL使用新的在線采樣策略使每個類別被抽樣的可能性相等,解決了不平衡分類的問題。

圖7 對比損失示意圖Fig.7 Contrast loss diagram

三重損失最早由Schroff等人提出,三重損失相比對比損失增加了一個樣本,更多的考慮正樣本對與負樣本對之間的相對距離,如圖8所示。它解決了對比損失的一個限制,如果兩個樣本是不同的,對比損失將拉大兩個樣本的距離,如果其中一個樣本已經位于集群的中心,對比損失的效果將會減弱。Bui等人[47]使用三重損失來學習從自然圖像中獲得的草圖和邊緣圖之間的跨域映射,但是當面對一些復雜度高的圖像時,三重損失訓練的收斂速度會明顯變慢。Xiong等人[48]在三重損失的基礎上結合softmax損失和中心損失[49],從而使訓練過程能夠學習到更多的判別特征并且更容易收斂。Arandjelovic[50]設計了一種新的三重損失以處理街景圖像的不完整和嘈雜的位置注釋以及因拍攝時間不同造成的光照影響。Ibrahimi等人[51]在跨域圖像檢索任務中評估了度量學習中四種三重損失的變體:N-pair loss[52]、lifted loss[53]、angular loss[54]和hard-triplet loss[55],實驗顯示將多種損失函數結合比使用單獨的損失函數表現更好。Faraki等人[56]通過提出的跨域三元組損失CDT,以將從一個域獲得的顯式度量與來自另一個域的三重樣本在一個統一的損失函數中關聯起來,從而更好地對齊跨域圖像。

圖8 三重損失示意圖Fig.8 Triple loss diagram

Deng等人[57]則基于softmax損失提出了新的算法ArcFace,該方法通過在深度特征與其相應權重之間的角度上部署角懲罰余量,提高模型的判別力并穩定訓練過程。然而,ArcFace中固定的附加角余量經常會導致訓練數據集的過擬合。為了解決這個問題Jiao等人[58]提出了Dyn-arcface,其將ArcFace的固定角余量替換為自適應角余量。它可以根據每個類中心與其他類中心的距離來調整,減少固定附加角余量引起的過擬合程度。實驗結果表明,所提出的算法可以實現比ArcFace更好的性能,特征中心之間的距離也比ArcFace更加分散,緩解了過擬合的問題。

此外,研究者們也對不同跨域環境提出了有針對性的損失函數,使跨域檢索模型進一步擬合視覺域鴻溝。Wu等人[59]為跨域行人重識別提供了一個中心聚類損失,減少跨域圖像之間相同身份的特征距離,同時增加不同身份的特征距離,在跨域行人重識別上具有較好的性能。Cheema等人[60]提出Unit-Class Loss以考慮單個樣本以及整個類分布來增強網絡的特征學習,同時可以從未對齊的面部圖像中學習域不變的身份特征,最終可以得到99.5%的精確度。Paul等人[61]結合了新的語義鄰域損失和混合預測損失,來彌合已見類和未見類的知識鴻溝并有助于在未知域的檢索能力。Gao等人[62]為了在特征提取階段就能夠縮小不同域的特征距離,為此設計了一個跨模態知識蒸餾損失,該損失能夠在模型提取不同圖像域的獨有特征時縮小不同域特征之間的距離,最終提高了模型跨域檢索的能力。

在跨域圖像檢索中,損失函數作為神經網絡的最終目標,引導模型朝著最優方向發展,同時影響著訓練模型的效率和容量。在小規模數據集上,研究人員提出了不同的損失函數來訓練神經網絡,包括對比損失、三重損失,它們旨在加強類內緊湊性和類間可分離性,然而對比損失只有兩個樣本互相比較,跨域圖像經常存在類間相似而類內不相似的情況,所以在沒有上下文關系時只比較兩個樣本容易出現錯誤,同時對比損失也存在容易過擬合的問題。而隨著數據集規模越來越大時,三重損失在N個圖像上可以產生O(N3)個樣本,因此三元組數量也會激增導致訓練時間過長不易收斂。另一方面,不同跨域圖像面臨著不同環境,因此針對不同的研究環境,研究人員提出了不同的損失函數,為跨域圖像檢索實現了更好的效果。但是新提出的損失函數只能解決本身的任務,不能很好地的泛化到其他跨域圖像檢索任務。同時上述文獻結構復雜、參數量大,導致運行時間長,離實際應用還存在一定距離。

2.4 針對編碼空間建模

目前基于特征空間遷移的跨域圖像檢索方法都關注于如何提高檢索精度,利用不同優化方法增強模型檢索能力。但是當圖像數量越來越多時,為提高跨域檢索性能而增加的模型結構會給硬件設備帶來極大的挑戰。因此檢索時會付出高昂的時間成本,難以部署在移動設備進行實時檢索。考慮到實際需求,在檢索精度提高的同時追求更高的效率是現實且必要的。哈希學習可以在保持原有空間關系的基礎上,將復雜的高維特征向量轉換為簡潔的二進制編碼的形式,減輕計算難度的同時提高檢索效率。顯而易見,將跨域圖像檢索方法與哈希學習相結合具有更大的優勢,是未來研究的熱點之一。

跨域圖像檢索與傳統的哈希算法已經有大量的研究,Kalantidis等人[63]使用局部敏感哈希[64]將圖像片段表示為二進制向量,然后測量查詢和排名靠前列表中的結果之間的相似性,這種方法在節省查詢時間上非常有效。但是由于傳統的哈希算法對圖像的顏色、紋理和形狀等特征描述不清晰,導致傳統哈希算法的檢索精度并不高。Liu等人[65]為基于草圖的圖像檢索(sketch-based image retrieval,SBIR)提出了第一個深度哈希模型(deep sketch Hashing,DSH)來加速SBIR。該方法考慮了具有深度哈希技術的快速跨域檢索,提出了一種半異構深度框架并將其合并到端到端二進制編碼框架中,其中的哈希編碼顯著減少了檢索時間和內存占用,加快了檢索速度。但是其也存在較明顯的缺陷,該方法訓練和測試樣本都是固定的,在現實應用中不能保證沒有新的樣本類型,所以在零樣本的情況下該方法通常會失敗。針對這個問題,Shen等人[66]隨后提出了一個端到端的三重網絡架構ZSIH來學習共享的二進制表示并對跨域數據進行編碼,隨后利用Kronecker融合層[67]和圖卷積來減輕跨域圖像的異質性并增強數據之間的語義關系,成功解決了大規模跨域零樣本哈希任務。Xiong等人[68]則引入了一種圖像變換策略解決跨域檢索問題,通過提出的深度跨域哈希網絡DCMHN將RGB三個通道的圖像轉換為四種類型的單通道圖像,之后通過三重損失結合哈希編碼進行特征降維,最后生成高效的二進制碼后進一步提高了檢索的準確率和效率。Du等人[69]為跨域掌紋檢索提出了基于深度哈希的方法,該方法將對抗訓練、最大均值差異和深度哈希統一起來,幫助網絡掌握跨域檢索的域不變特征,而哈希值使得模型更容易運算比較出跨域掌紋圖像的相似性。Wu等人[70]認為深度哈希網絡繼承了深度學習和基于編碼方法的優點,其對干擾的強魯棒性、低存儲成本和快速匹配速度的優點適合進行跨域圖像檢索,隨后又結合了空間變換網絡[71]克服圖像錯位和旋轉的問題,提高了跨域檢索精度。

綜上所述,應用哈希學習處理跨域圖像檢索任務減輕了計算機處理大規模數據的壓力,提高了檢索速度。對于傳統的哈希學習方法,檢索效率比之前的方法有很大的提高,但是其對圖像顏色等特征描述不清晰導致在跨域檢索時精度不高。在深度哈希學習方面,由于深度學習擁有較強的特征提取能力,哈希學習開始更多地與深度學習結合完成跨域圖像檢索的任務。但是應用哈希學習輕量化模型會對檢索精度造成一定的影響,從結果上來看精度沒有之前的高。因此如何彌補精度的損失是未來需要研究的重點,因為這是跨域圖像檢索能否廣泛實際應用的關鍵。

2.5 基于特征空間遷移的方法總結

總體看來,基于特征空間遷移的方法在跨域圖像檢索已經有了實質性的進展,但在真實場景下仍然面臨許多挑戰。首先針對圖像特征區域建模的方式依賴人工在圖像上標注特征點和添加注意立機制,因此需要耗費大量的人力和訓練時間,同時標注數據要具有專業領域的知識,對于成像光譜之間的差異也不能很好地彌補,因此如何優化模型能更有效地獲取圖像最優特征區域并減少對標注信息的依賴是未來的一個研究方向。其次針對神經網絡結構建模的方式對正確配對的樣本需求很大,需要人工對樣本決定是否為正樣本或者負樣本,同時模型結構也在不斷復雜,給未來實際應用帶來了難題。未來研究可以考慮模型結構復雜對于檢索造成的負面影響,在不降低檢索能力的情況下優化模型結構。針對損失函數建模的方式,研究人員充分考慮了不同的應用場景,因此也提出了不同的損失函數以擬合不同視覺域之間的鴻溝。但是研究中發現如何使用損失函數并沒有明確的標準,在很多情況下都是試用不同的損失函數或者以組合的方式探索最佳的方法,同時新提出的方法泛化性不高只能針對特定問題,所以該領域還需要進一步研究提高損失函數的泛化性。最后針對編碼空間建模的方式從思考如何提高模型檢索效率的角度入手,將跨域圖像檢索與哈希學習結合,實現了在減輕計算難度和減少計算時間方面的突破,但是這勢必會帶來檢索精度的下降,如何平衡兩者關系是研究人員未來需要進一步思考的問題。

3 基于圖像域遷移的跨域圖像檢索方法

為了解決視覺域鴻溝的問題,基于特征空間遷移使用標記的數據、配對的數據訓練模型,學習不同視覺域圖像之間的映射關系,但是在樣本不夠充足時存在局限性。而基于圖像域遷移的跨域圖像檢索方法把研究聚焦在了圖像本身,其核心思想是把源域圖像的視覺效果通過生成模型轉換為目標域圖像的視覺效果,實現跨域圖像間的風格統一,解決不同視覺域之間的風格差異,這樣跨域檢索任務就變為了同域圖像檢索任務。此外也可通過圖像域遷移的方式合成新的圖像用來擴展數據規模,提高模型的泛化性,緩解圖像的域差。因此該類方法是目前的研究熱點,也是未來跨域圖像檢索的研究趨勢。基于圖像域遷移的跨域圖像檢索方法如圖9所示。

圖9 基于圖像域遷移的跨域圖像檢索方法Fig.9 Cross-domain image retrieval method based on image domain adaptation

基于圖像域遷移的方法是通過生成模型實現的。研究者將常見的生成模型分為兩種:基于編碼器-解碼器和基于生成對抗網絡(generative adversarial network,GAN)[72]。

3.1 基于編碼器-解碼器的生成模型

編碼器-解碼器是機器學習中較為常見的模型框架,它主要由兩部分構成:編碼器(encoder)和解碼器(decoder)。編碼器是一個可以接受多種形式的輸入并輸出特征向量的網絡,而解碼器是一個從編碼器獲取特征向量并輸出與實際輸入或預期輸出最近似結果的網絡。這樣的模型將圖像作為輸入,并通過編碼器生成潛在代碼,然后解碼器將其用作輸入以生成共享相同語義信息的圖像。

Pang等人[73]通過編碼器-解碼器的生成圖像,將原本具有豐富紋理和復雜背景信息的自然圖像轉換為簡單的草圖,消除了兩者的域差,實現了跨域之間的圖像檢索。通過此模型在數據集上的大量實驗表明,所提出的方法在未見過的測試數據上也有良好的效果。同樣的,Kampelmühler等人[74]提出了第一種通過完全卷積的編碼器-解碼器結構來完成復雜圖像到抽象的線條轉換,通過自適應實例歸一化(AdaIN)代替批量歸一化使得可以根據物體類別不同調節解碼器,同時利用感知相似性損失幫助實現具有域鴻溝的圖像轉換。Sajid等人[75]首先通過k-means聚類算法用于提取的特征,以獲得人臉圖像分區縮小檢索空間,隨后利用編碼器生成老化人臉圖像參考集補償人臉的變化,mAP較原先提高16.96%。Liu等人[76]利用編碼器結構提取跨域圖像的共有特征和獨有特征,又采用最大均值差異約束兩個模態之間的共享特征,使它們具有相同的分布,并減少像素錯位和相似紅外圖像的干擾。上述方法都是在兩域之間通過一次相似度比較檢索圖像相似度,而Lei等人[77]認為這樣產生的檢索結果易受到輸入圖像質量的影響,所以提出了通過融合兩個檢索流的方式提高檢索精度。通過兩個檢索流的融合,避免了計算一次相似度容易受到輸入圖像質量影響的弊端,同時提高了單一檢索流的檢索效果。大量轉換圖像會導致同類別圖像之間風格差異較大,Sain等人[78]針對此類問題提出了一個基于跨域變分自編碼器(variational auto-encoder,VAE)[79]的模型,該模型將每個圖像分解為共享部分和獨有部分。同時為了將模型可以應用到未來不同的圖像風格,該模型添加了兩個風格自適應組件來訓練跨域VAE模型,改善了由于類內差異大造成的檢索誤差同時可以將其推廣到風格不可知的情況。Zhao等人[80]引入編碼器解碼器來在語義上對齊兩種視覺域圖像之間的數據分布,不僅可以生成具有相同噪聲的跨域圖像,而且還能糾正未對齊的原始數據集,準確率可以達到99.9%。

編碼器-解碼器能夠生成圖像的功能解決了跨域圖像檢索中域鴻溝的問題,它將源視覺域圖像轉換為目標域圖像,從源頭解決了不同視覺域之間的差異。但是由于它們是對真實圖片和生成圖片進行像素級別的監督,所以對于全局信息沒有辦法很好的關注,會存在導致生成的圖片比較模糊的問題而影響檢索精度,因此大部分都應用在了對紋理需求不高的領域,這是它存在的一個缺點,也阻礙了方法的廣泛使用。

3.2 基于生成對抗網絡的生成模型

Goodfellow在2014年提出的生成對抗網絡是生成式模型的另一個熱門方法,GAN網絡由生成器網絡和判別器網絡組成,通過兩者在訓練過程中相互競爭使得它們共同進步。生成器會不斷產生更真實的樣本,而判別器會不斷地識別假樣本提供判別能力。目前,基于生成對抗網絡的跨域圖像檢索方法是研究的熱門。根據生成對抗網絡在跨域圖像檢索任務中不同的目標,將方法歸納為以下兩種:轉換圖像風格和增加樣本多樣性。

Regmi等人[81]使用單應變換矩陣將航拍圖像轉換為街景并保留重疊視野中的像素,然后利用生成對抗網絡轉換地面圖像,實現了衛星圖像的跨域檢索。Lin等人[82]利用cGAN[83]的兩個判別器強制生成的服裝圖像具有豐富的紋理,而且在語義上與時裝圖像相關。與非生成方法相比,平均可以實現5.34%的性能提升。但是提出的方法由兩個階段組成,因此不是端到端的模型,想應用到現實場景下還需要進一步改進。受到CycleGAN[84]的啟發,Xiong等人[85]提出了cycle-identity-GAN(CI-GAN),CI-GAN在CycleGAN的生成器和判別器之外設計了一個預訓練的身份分類器模塊幫助模型提高判別能力。該模塊在訓練期間給生成圖像賦予身份和類別信息,因此身份分類模塊保證了生成圖像后圖像內容的不變性,在公共數據集上的實驗結果顯示了對提高跨域檢索性能的有效性。種衍文等人[86]提出姿態標準化網絡(IIPN)生成不同姿態的行人圖像,然后對行人進行全局對齊和局部對齊,最后使用多粒度特征融合防止小尺度重要特征丟失,提升了模型性能,但是生成預定義的多姿態圖像也極易產生額外的推理誤差。Chen等人[87]利用CycleGAN將沒有紋理的BIM渲染圖像轉換為具有生動紋理的逼真圖像,用于從BIM模型中提取空間信息和估計室內攝像頭位置來定位,定位和攝像頭方向誤差分別為1.38 m和10.1°。Zhang等人[88]受到了特征空間遷移中DSH的啟發,提出了一個基于哈希的生成模型生成域遷移哈希(generative domain-migration Hashing,GDH)。GDH加入了一個注意力層,引導模型在學習過程中關注更具代表性的區域。實驗表明,GDH方法相比DSH方法能大幅提升準確率,檢索時間和內存使用度也有了下降。更進一步的,Bai等人[89]提出DMGAN在轉換圖像風格后進行跨視覺域圖像檢索,同時提出一種孿生網絡SLN(similarity learning network),SLN包括用于學習類別信息的分類損失和用于減少自然圖像與生成圖像之間距離的相似度損失,該方法相比于單獨使用孿生網絡檢索精確度有了較大的提高。

Toker等人[90]利用圖像域遷移的思想解決包含巨大域鴻溝的街景圖像與衛星圖像之間的跨域圖像檢索問題,提出的方法在農村等沒有大型數據集的地方也能正常估計圖像的地理位置信息,檢索效果如圖10所示。結果顯示,提出的方法在top-10的召回率可以達到89.14%。Zhang等人[91]提出了新的TripleGAN模型用于處理從人體到平鋪圖像的跨域服裝圖像轉換,它考慮了在生成器中使用類別條件和用于生成具有更多細節服裝圖像的三元組損失結構,結果也表明了提出模型的有效性。

圖10 合成圖像后檢索Fig.10 Image retrieval after generation

跨域圖像檢索任務經常面臨數據集的缺乏導致模型在訓練時產生過擬合的問題,為了解決類似問題通過生成模型生成多樣的數據添加到訓練數據中提高模型的泛化能力。Zhong等人[92]提出了CamStyle,其中使用CycleGAN和標簽平滑正則化(label smooth regularization,LSR)[93]來補充訓練圖像。但是CycleGAN生成的圖像包含大量噪聲,因此需要LSR幫助其減小噪聲造成的影響,同時隨著成像設備數量的增長,CamStyle的訓練次數也會越來越多,造成了計算資源的浪費。為此Liu等人[94]提出了UnityGAN,依靠UnityGAN學習每個相機的風格數據來獲得適合所有相機風格的UnityStyle圖像,避免了多次訓練的弊端,使得生成圖像更加高效。同時UnityGAN生成的圖像效果更加清晰,不需要額外的結構減少噪聲的影響,克服了CycleGAN容易變形的問題。Zhou等人[95]應用starGAN[96]在目標數據集上學習圖像風格轉移模型,以增強樣本多樣性。又提出增量優化學習,挖掘所有訓練樣本的潛在相似性,改進后對檢索準確度有所改善。

基于生成對抗網絡的方法相比于編碼器-解碼器的方法最大的不同就是引入了對抗的思想。通過對抗模型可以幫助生成模型更好地學習觀測數據的條件分布,另一方面,利用生成對抗網絡生成更多樣性的圖片緩解了跨域圖像檢索數據不夠的問題幫助模型學習到更好的判別特征。但是生成對抗網絡訓練難度大,需要大量的計算,而受限于現有生成模型的生成質量并沒有達到理想狀態,新生成的圖像有可能存在噪聲干擾、物體扭曲等現象,對檢索性能造成負面影響。此外,若是將含有噪聲的樣本作為訓練數據也會對特征學習增加困難,因此在某些領域的跨域圖像檢索還沒有很好的普及。相信隨著生成模型的不斷進步,這種方法將逐漸被更多領域的學者使用。

3.3 基于圖像域遷移的方法總結

綜上所述,基于圖像域遷移的方法是繼特征空間遷移后新的熱門方法,相比特征空間遷移,它不需要人工標注數據就可以生成新的圖像用于改善檢索環境。基于編碼器解碼器的生成模型優點在于它建立在神經網絡之上可以使用隨機梯度下降進行訓練,在生成多種復雜數據方面顯示出廣闊的前景。但是由于該方法計算生成圖片和原始圖片的均方誤差,會更傾向于產生模糊的圖片而影響圖像檢索的精度,因此只能在對紋理要求不高的特定領域使用,具有一定的局限性。基于生成對抗網絡的圖像域遷移跨域圖像檢索方法是無監督的另一種生成模型,GAN網絡生成的圖片清晰度要好于編碼器-解碼器,正因如此也在更多的跨域任務中被選擇。但是生成對抗網絡訓練難度比編碼器解碼器模型大,需要大量的計算成本,容易影響模型的泛化能力,因此未來探索更優的訓練策略和設計更好的生成對抗網絡是解決此類問題的關鍵。另外,此類方法的生成模型和檢索模型大多是分開進行的,在實際應用中也存在困難,因此也需要進一步研究端到端的生成模型。

4 相關數據集

在跨域圖像檢索中訓練數據一直是令研究人員想要解決的問題,豐富的數據也是算法進步和評估模型能力的基礎。因此本文在查閱跨域圖像檢索各領域的文獻后,梳理總結了11類25個不同領域的跨域圖像數據集,供未來的學者使用,數據集詳細介紹如表1所示,部分數據集和檢索結果如圖11所示。

圖11 部分數據集和檢索結果Fig.11 Part of dataset and retrieval result

表1 常用跨域圖像檢索數據集Table 1 Common datasets of cross-domain image retrieval

5 方法性能對比

為更加清晰地展現各類方法在實際實驗中取得的成果,對上文綜述過的文獻從關鍵結構、數據集和性能進行對比總結。其中常用的評價指標包括:準確率(accuracy)、查準率(precision)、查全率(recall)、平均精度均值(mean average precision)。為了更好地說明性能評價標準,對檢索結果定義如表2所示。性能對比結果如表3、表4所示,兩種方法的綜合比較結果如表5所示。

表2 結果定義Table 2 Definition of search results

表3 (續)

表3 基于特征空間遷移的跨域圖像檢索方法性能對比Table 3 Performance comparison of cross-domain image retrieval method based on feature space migration

表4 (續)

表4 基于圖像域遷移的跨域圖像檢索方法性能對比Table 4 Performance comparison of cross-domain image retrieval method based on image domain adaptation

表5 跨域圖像檢索方法對比Table 5 Comparison of cross-domain image retrieval method

準確率是正確預測的樣本占總樣本的比例,準確率定義為:

查準率是預測的正樣本中實際為正樣本的比例,查準率定義為:

查全率是預測為真的正樣本占所有正樣本的比例,查全率定義為:

平均精度均值是多個檢索的平均精度(AP)的均值,AP是求出多個檢索查準率的平均值,因此平均精度和平均精度均值定義為:

N表示正樣本數,position(i)表示第i個正樣本在檢索結果中的位置,n代表檢索的次數。

從文獻[20]和文獻[34]的實驗數據可以看出,文獻[20]通過預訓練的單結構神經網絡模型在Flickr15k數據集上mAP為47.38%,而文獻[34]通過三重網絡在Flickr15k數據集上提高了檢索性能,達到了54.48%,證明了通過增加神經網絡結構可以提高檢索效果。而文獻[27]和文獻[59]的實驗數據相比,兩者都是通過孿生神經網絡添加注意力機制在SYSU-MM01數據集上進行實驗,但是文獻[59]針對紅外圖像提出了新的損失函數幫助檢索性能提高了14.1個百分點。文獻[32]和文獻[66]則證明了通過對特征進行二進制編碼可以有效提高檢索效率,兩者的檢索時間分別為3×10-2s和6.5×10-5s。文獻[44]通過孿生神經網絡解決數據過少的問題,文獻[80]則利用編碼器解碼器生成樣本來解決圖像域之間的鴻溝,實驗結果從原有的87.1%提高到了99.9%,證明了圖像域遷移的方法可以解決跨域圖像檢索問題。文獻[90]利用生成對抗網絡生成新樣本并獲得了89.14%的檢索結果,但是其性能沒有特征空間遷移方法中文獻[31]的高,表明圖像域遷移方法想進一步提高需要完善生成模型的性能。

綜上所述,隨著針對圖像特征、網絡結構和各類損失函數的改進,基于特征空間遷移的跨域圖像檢索方法性能逐漸增強,檢索精度較高,但是關于檢索速度以及內存占用方面沒有提及。而針對編碼空間建模的方法加入了哈希學習后,精度上有所下降,但是在輕量化模型方面取得了不錯的效果,因此如何保證精度的情況下減少檢索時間和內存占用是未來需要研究的內容。基于圖像域遷移的跨域圖像檢索方法是未來最值得關注的方向,隨著生成模型的性能提高,越來越多的跨域圖像檢索領域開始使用生成模型減少圖像域之間的鴻溝,此外在訓練樣本不足時也能通過生成模型增加樣本數量,幫助模型學習特征。雖然在精度上沒有基于特征空間遷移方法突出,但是由于對訓練樣本沒有過高的要求,也讓它成為近年來最熱門的研究方向。

6 總結與展望

跨域圖像檢索是一個重要的研究課題,旨在解決跨視覺域圖像檢索時的域間差異。本文深入分析了跨域圖像檢索問題,對跨域圖像檢索進行了綜述,以促進相關研究。實現跨域圖像檢索對于社會多個領域研究有著重要意義,隨著上述方法取得了一定成果,跨域圖像檢索的方法也在不斷改善和發展,但是目前也有一些問題需要未來進一步解決。

(1)模型的自適應。現有跨域圖像檢索方法都是針對固定兩個域之間的,所提出的方法確實能夠在兩個特定視覺域之間獲得理想的檢索結果。然而,它們無法泛化到其他兩個域之間進行檢索,而是需要重新訓練模型。隨著圖像域種類越來越多,為不同視覺域都訓練一個模型不現實。因此未來可以利用遷移學習的優勢,將在一個視覺域訓練的模型自適應地遷移到另外一個視覺域,以此提高模型的泛化能力。

(2)基于特征空間遷移的弱監督方法。在基于特征空間遷移的訓練過程中,需要大量的樣本作為訓練集。而如今多領域的跨域樣本數量并不能滿足需求,因此基于特征空間遷移的模型可能會面臨過擬合的問題。在未來,設計在弱監督環境下使用的特征空間遷移方法是研究者需要研究的方向。

(3)模型實際部署。現有方法通過添加不同功能的分支結構達到了提高跨域檢索準確度的目的,但是受到實際應用時設備的限制,這種方法無法在現實的移動設備中部署。因此,探索更輕量化的跨域圖像檢索模型也是未來研究的趨勢。

(4)模型不可跨多域檢索。兩個域之間的圖像檢索是研究人員主要的研究方向,但是在大數據的背景下對于模型可以跨多個域的檢索能力賦予了更大的期待。在未來,一定會有多視覺域的大型數據集,所以跨多域圖像檢索是該領域的一個研究難點也是未來需要突破的方向。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 青青青国产精品国产精品美女| 91精品在线视频观看| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲国语自产一区第二页| 欧美色视频在线| 久久美女精品| 国产又粗又猛又爽视频| 无码免费的亚洲视频| 国产精品999在线| 91精品福利自产拍在线观看| 九九线精品视频在线观看| 国产精品成人观看视频国产| 2022国产无码在线| 免费看美女自慰的网站| 国产成人1024精品下载| 精品91视频| 高清不卡一区二区三区香蕉| 波多野结衣在线一区二区| 毛片视频网址| 亚洲第一天堂无码专区| 欧美第九页| 亚洲欧美不卡视频| 国产免费a级片| 在线观看国产黄色| 中文字幕永久视频| 综合人妻久久一区二区精品| 日本免费福利视频| 国产精品福利导航| 国内精品视频在线| 五月天综合婷婷| 97国产在线观看| 久久人体视频| 91小视频在线| 亚洲欧美日韩视频一区| 欧美日韩国产在线观看一区二区三区| 亚洲欧美另类视频| 午夜视频日本| 97国内精品久久久久不卡| 日韩在线欧美在线| 亚洲色图欧美在线| 性色在线视频精品| 欧美在线国产| 91青青视频| 亚洲第一黄色网址| 茄子视频毛片免费观看| 国产麻豆另类AV| 国产一区三区二区中文在线| 精品午夜国产福利观看| 黄色福利在线| 久久婷婷六月| 亚洲91在线精品| 秘书高跟黑色丝袜国产91在线 | 久久婷婷国产综合尤物精品| 欧美日韩精品一区二区视频| 亚洲乱强伦| 日韩在线1| 亚洲人网站| 成人午夜视频网站| 国产91无码福利在线| 美臀人妻中出中文字幕在线| 啪啪永久免费av| 色成人亚洲| 91欧美在线| 国产成人免费高清AⅤ| 亚洲人成网站在线播放2019| 久久6免费视频| 国产成人区在线观看视频| 91久久精品日日躁夜夜躁欧美| 免费在线一区| 亚洲浓毛av| 国产玖玖视频| 欧美午夜理伦三级在线观看| 伊人成人在线| 国产福利微拍精品一区二区| 91麻豆精品国产91久久久久| 91系列在线观看| 人妻一区二区三区无码精品一区| 久久亚洲美女精品国产精品| 久久青青草原亚洲av无码| 免费在线成人网| 亚洲国产精品久久久久秋霞影院| 日本不卡视频在线|