999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上下文感知的深度弱監督圖像哈希表示學習方法

2022-06-08 09:10:56田傳發齊孟津聶秀山
國防科技大學學報 2022年3期
關鍵詞:語義深度監督

劉 萌,周 迪,田傳發,齊孟津,聶秀山

(山東建筑大學 計算機科學與技術學院, 山東 濟南 250101)

隨著社交網絡和移動智能手機的快速發展,大量的圖片被網民記錄和分享。為了規避海量圖像所帶來的巨大存儲成本,同時滿足高效的圖像檢索需求,圖像哈希表示學習方法引起了越來越多的研究興趣[1]。早期的圖像哈希表示學習方法大多采用手工設計的局部特征,因此這些方法的性能很大程度上取決于它們使用的特征或它們設計的特征提取方法。近年來,隨著深度神經網絡在圖像表示中的發展[2],深度圖像哈希表示學習方法得到了廣泛的研究,其有效地將深度卷積神經網絡的優勢與哈希技術的低計算成本和存儲能力相結合,例如非對稱深度監督哈希方法[3]、深度錨圖哈希方法[4]、深度增量哈希網絡[5]、半監督自步對抗哈希方法[6]、基于局部歸一化指數函數損失的深度哈希方法[7]以及自適應局部多視圖哈希方法[8]。關于深度圖像哈希表示學習方法的詳細介紹,可參見文獻[9]。

盡管現有深度圖像哈希表示學習方法取得了令人矚目的進步,但它們中的大多數都是有監督的學習方法,十分依賴大量類別標注信息,而這對于現實世界的應用而言是一件成本很高的事情。社交網絡中的圖像通常具有用戶提供的標簽信息,而這些標簽信息在一定程度上可以描述圖像的語義信息。 例如,圖 1 中的第一個圖像,它的標簽信息“trees”“sky”“clouds”和“blue”都描繪了圖像的內容。與此同時,它的標簽信息“sky”和“clouds”也是該圖像的類別信息。更重要的是,與圖像類別相比,圖像的標簽信息更容易獲得。鑒于此,研究弱監督圖像哈希表示學習方法——利用圖像的標簽作為監督信息,而不是圖像類別信息來學習哈希函數,是十分必要的。

圖1 NUS-WIDE 數據集中部分圖像展示Fig.1 Illustrating some image samples from the NUS-WIDE dataset

然而,通過圖像的標簽信息學習圖像哈希表示并非易事,具體原因如下:①在社交媒體平臺上,用戶提供的標簽信息可能與圖像類別不直接相關。例如,圖1中第三個圖像的標簽是“church”“architecture”“steeple”和“spire”,但是它的類別是“sky”。 因此,如何從標簽中挖掘有效的監督信息成為一個關鍵問題。②為增強圖像與相應的語義標簽之間的匹配,圖像細粒度語義信息起著至關重要的作用。如何全面理解圖像內容并捕獲有益語義信息為一個亟待解決的問題。

雖然在監督圖像哈希表示學習方法方面取得了一些成功,但弱監督圖像哈希表示學習任務仍是一個尚未解決的問題。據知,文獻[10]首次研究了基于深度學習的弱監督哈希表示學習方法,它提出了利用標簽嵌入或二進制標簽向量的深度弱監督哈希表示學習模型。盡管取得了良好的性能,但是該模型有幾個關鍵的缺點:①其假設若兩幅圖像具有至少一個相同的文本標簽,則它們是相似的,并基于此假設設計了二元標簽向量模型。 但是,這個假設是不恰當的。如圖1所示,第一張圖像和第二張圖像共享紅色的標簽信息“white”,但它們的類別完全不同。②其將圖像進行整體編碼,而這樣一個緊湊的全局表示很難捕獲圖像中的細粒度語義細節。例如,若想充分理解圖1中第一張圖像的內容,需對其涉及的屬性信息(如“blue”)和實體信息(如“trees”)進行理解。為了解決上述問題,本文提出了一種上下文感知的深度弱監督圖像哈希表示(context-aware deep weakly supervised image hashing,IDEA)學習方法。具體來說,本文設計了一種新的圖像編碼器,它可以自適應地捕捉有意義的圖像區域上下文信息來增強圖像表示。此外,本文引入判別損失來加強圖像與標簽之間的對齊,繼而提升哈希碼的表示能力。

1 相關工作

1.1 有監督的圖像哈希表示學習

目前,在有監督的圖像哈希表示學習方面,有許多研究成果。例如:文獻[11]將哈希表示學習表述為一個多分類任務,并通過最大化原始空間和漢明空間分類順序一致性來學習哈希函數;文獻[12]提出了一種兩階段的監督哈希表示學習方法用于圖像檢索;文獻[13]提出了一種深度監督哈希表示學習方法;由于現有的松弛方法對松弛的誤差界沒有理論保證,文獻[14]證明了當損失函數為Lipschitz連續時,二進制優化問題可以松弛為有界約束的連續優化問題,并提出了一種二進制優化哈希學習方法;此外,為了提升哈希碼的判別性,文獻[15]提出了一種判別式深度哈希學習框架,該框架集成了特征提取、哈希學習和類別預測;針對人臉圖像檢索任務,文獻[16]提出了一種基于分類和量化誤差的深度哈希算法。

由于現有的深度監督哈希方法大多采用對稱策略來學習深度哈希函數,其訓練通常耗時較長,難以適應于大規模數據場景。鑒于此,文獻[3]提出了一種非對稱深度監督哈希方法用于大規模最近鄰搜索,即它以非對稱的方式處理查詢點和數據庫點。為充分利用可用的有標記信息,文獻[4]提出了一種深度錨圖哈希框架。文獻[5]提出了一種深度增量哈希網絡,其以增量方式學習哈希碼。為了學習能有效地保持圖像標簽信息的鑒別哈希碼,文獻[7]提出了基于局部歸一化指數函數損失的深度哈希方法。

1.2 無監督圖像哈希表示學習

現有的無監督圖像哈希表示學習方法大致可以分為兩類:基于淺層學習的方法和基于深度學習的方法。作為淺層學習的代表,文獻[17]中提出了一種譜哈希方法。但是,此方法是基于主投影來構造哈希函數,因此生成的哈希碼不是非常準確且效率不高。為了解決這個問題,文獻[18]提出一種半監督哈希表示學習框架;文獻[19]提出了一種簡單而有效的交替最小化算法,通過尋找零中心數據的旋轉來學習哈希碼。隨著深度學習技術的發展,一些基于深度學習的無監督圖像哈希表示學習算法被提出。其中,文獻[20]提出一種深度哈希表示學習方法,該方法利用 GIST 特征作為神經網絡的輸入;文獻[21]旨在學習旋轉不變的哈希碼。文獻[8]提出了一種無監督自適應局部多視圖哈希方法,用來處理部分視圖哈希問題,以實現高效的社交圖像檢索。

1.3 弱監督圖像哈希表示學習

近年來,有監督和無監督的圖像哈希表示學習已經取得了很大的進展,而在弱監督圖像哈希表示學習方面卻鮮有嘗試。弱監督圖像哈希表示學習的目的是在訓練時僅僅利用圖像的標簽信息,而不使用圖像的類別信息。文獻[22]中提出一種弱監督多模態哈希學習方法,但它依賴于手工設計的特征,如GIST特征、顏色直方圖和尺度不變特征變換(scale-invariant feature transform, SIFT),限制了其性能。與此不同的是,文獻[23]設計了一個兩階段弱監督深度哈希框架,包括弱監督預訓練和監督微調。雖然在跨模態哈希領域中一些工作試圖利用標簽信息和圖像來學習哈希空間[24-25],但它們的目標是為不同模態的輸入(圖像和標簽)學習一個通用的哈希空間。這與弱監督圖像哈希表示學習的目標(即為圖像學習一個哈希空間)完全不同。關于跨模態哈希和單模態哈希學習區別的詳細討論可以參考文獻[26]。

2 符號與問題定義

2.1 符號定義

本文分別使用大寫的黑斜體字母(如X)和小寫的黑斜體字母(如b)表示矩陣和向量,分別使用白斜體字母(如N)、花體(如T )和希臘字母(如λ)表示標量、集合、參數或函數,Wi,j表示矩陣W第i行第j列的元素。sgn(·)為基于元素的符號函數,其對于正數輸出“+1”,對于負數輸出“-1”。如果沒有明確說明,所有向量都是列向量。

2.2 問題定義

3 學習方法

如圖2所示,本文提出的學習方法主要包含三個部分:①圖像編碼器生成上下文強化的視覺表示;②標簽編碼器輸出標簽嵌入;③損失函數。

3.1 圖像編碼器

圖像編碼器包括區域特征表示和上下文強化的視覺表示兩部分。

1)區域特征表示:采用預訓練的ResNet-50網絡作為主干網絡(如圖2所示),該網絡以224×224×3大小的圖像作為輸入,通過Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x五個模塊后,輸出大小為7×7×2 048的特征映射,上述過程可總結為如下公式:

Xi=θ(Ii)

(1)

其中,θ表示去除最后全連接層的ResNet-50網絡,Xi∈7×7×2 048表示第i張圖像的區域特征表示。

為得到圖像表示,一種直接的方式是使用平均池化方法,但這可能會引入噪聲信息,即無意義的區域表示信息。為了解決這個問題,可以采用注意機制為特征映射中不同區域學習注意力分數,然后通過自適應地聚合區域表示,得到圖像表示。然而,上述注意機制完全忽略了視覺區域上下文信息在判斷區域起著至關重要的作用。

圖2 本文提出的 IDEA 方法流程Fig.2 Framework of the proposed model IDEA

2)上下文強化的視覺表示:為了更好地利用上下文區域,首先采用自注意力機制來捕獲每個區域的上下文信息,具體過程如下:

(2)

由于上下文信息強化后的區域特征表示與原始區域特征表示之間是互補關系,為充分表示圖像的視覺區域,本文將上下文感知的區域特征與原始區域特征矩陣相加。由于每一個圖像區域均可能蘊含有效的語義信息,故本文采用平均池化操作聚合局部的區域特征表示,使得到的全局圖像表示盡可能保留全部有效語義信息。上述過程表示為:

(3)

其中,xi∈2 048表示強化后的視覺表示向量。為了得到圖像的哈希表示,本文將上下文增強的圖像表示輸入一個多層感知器中,具體如下:

(4)

3.2 標簽編碼器

(5)

其中,ti∈d為最終文本標簽表示向量。

3.3 損失函數

本文IDEA方法的優化目標函數為:

L=λ1L1+L2+λ3L3+λ4L4

(6)

其中,λ1、λ3和λ4為平衡參數。

(7)

其中,I表示元素值全為1且長度為l的向量。

L2為成對損失函數,用于約束具有相似標簽表示的圖像擁有相似的哈希碼表示,其具體表示如下:

(8)

L3為鉸鏈損失,旨在消除模態語義鴻溝,其具體形式如下:

(9)

(10)

L4為判別損失,通過促進圖像表示準確地生成相應的標簽信息,來增強圖像表示的判別性,公式形式如下:

(11)

pic=θ4(W4xi+b4)

(12)

其中:Lc為文本標簽類別數目;pic為預測得到的第i張圖像包含第c個文本標簽的概率;W4和b4為參數矩陣和向量;θ4為Softmax函數,用來歸一化預測結果;如果圖像Ii包含第c個文本標簽,則yic值為1,否則為0。

在測試階段,本文首先利用式(4)對測試圖像提取哈希表示向量h1;然后,對其進行如下量化得到哈希碼表示:

(13)

4 實驗與結果

4.1 數據集

在兩個廣泛使用的公開圖像數據集,即MIR-FLICKR25K[27]和NUS-WIDE[28]上進行大量的實驗。其中,NUS-WIDE 數據集是從Flickr上收集的大規模社交圖像數據集,它包含了269 648張圖像和5 018個文本標簽信息,這些圖像被手工標記為81個類別[29]。與文獻[1]類似,本文只考慮了最高頻的21個圖像類別,得到194 541張圖像。本文從中隨機選擇120 000張圖像,其中100 000張圖像作為訓練集,其余的為測試集。MIR-FLICKR25K是一個相對較小的數據集,共有25 000張圖像和1 386個用戶提供的標簽。類似地,這些圖像被手工標記為 38個類別。本文僅保留至少包含一個文本標簽的圖像,過濾后共獲得了20 015張圖像,從中隨機選取16 000張圖片用于訓練,2 000張圖片用于測試。

訓練階段:將訓練數據集中的圖像信息以及相應的文本標簽信息輸入IDEA網絡中,進行參數學習。

測試階段:僅需將測試圖像輸入訓練好的IDEA網絡中,得到的哈希向量表示h1經過式(13)的量化操作,即可得到二值的圖像哈希表示,用于下游的檢索任務。

4.2 實驗設置

1)評價指標:為了衡量本文方法和基線方法的性能,本文采用全類平均精度(mean average precision, mAP)作為評價指標。

2)實驗細節設置:在開源深度學習庫Keras上使用Tensorflow作為后端實現本文的方法,并采用動量設置為0.9的隨機梯度下降算法作為優化器。Conv1~Conv5_x的學習率設置為 0.001,其他層設置為0.01。批處理大小被設置為50,兩個全連接層的大小分別為256和300。目標函數中有3個平衡參數,即λ1、λ3和λ4,本文采用網格搜索策略仔細調節并選擇最優參數。具體地,首先使用自適應步長在[0,1 000]范圍內執行粗粒度的網格搜索。之后,在每個參數的近似范圍內,使用較小的步長在較小的范圍內進行微調。最終,本文的3個平衡參數分別設置為1.0、1.0和0.01。word2vec模型是在Wikipedia documents上預先訓練,輸出維度為300的向量。

3)基線方法:與幾種最先進的無監督和弱監督圖像哈希方法進行比較,包括SH[17]、PCAH[18]、ITQ[19]、DH[20]、DeepBit[21]、LSH[30]、SpH[31]、DSH[32]、AGH[33]、UH-BDNN[34]、WDHT-BTV[10]和WDHT[10]。

4.3 結果對比分析

表1和表2顯示了本文方法IDEA與基線方法在兩個數據集上的性能比較。通過分析兩個表格中的結果,可以得到以下發現:①在非深度學習方法中,隨著哈希碼的長度增加,雖然LSH的表現越來越好,但它的性能是最差的,這主要是因為它忽略了數據的分布信息;除了AGH之外,ITQ比其他基線方法表現得都好,這充分表明了數據分布的重要性;而AGH的表現優于ITQ且超過了其他非深度學習方法,這是因為ITQ忽略了局部鄰域關系的重要性。②基于深度學習方法,如DH、UH-BDNN和DeepBit的性能不如非深度學習方法,這是因為DH和UH-BDNN過度依賴手工設計的特征,而DeepBit不能充分利用視覺語義信息。③WDHT-BTV和WDHT的性能優于其他基于深度學習的哈希表示學習方法,其中 WDHT的mAP超過了WDHT-BTV,這是因為WDHT-BTV的假設不完全正確,導致引入的監督信息不準確,繼而影響性能。④本文的IDEA 方法達到了最佳的性能,特別地,與WDHT相比,IDEA在兩個數據集上均取得了性能提升,這充分反映了捕獲細粒度視覺語義信息和判別損失的重要性。

表1 在5 000返回結果上的mAP 性能比較

表2 在50 000 返回結果上的mAP 性能比較

除此之外,本文設計了幾種變體方法,以進一步驗證IDEA方法的有效性,具體如下:

1)IDEA-L:去除了方法中的判別損失,即設置λ4=0。

在NUS-WIDE和MIR-FLICKR25K數據集上對這些變體方法進行實驗,實驗結果總結在表3和表4中。綜合分析這些實驗結果,可以發現:①IDEA-L在兩個數據集上的檢索結果均降低,這表明去除判別損失會對結果造成影響,揭示了判別損失的優勢。②IDEA在兩個數據集上的性能遠高于IDEA-A,這表明平均池化操作不足以充分捕獲圖像中的細粒度語義信息,驗證了圖像編碼器模塊的有效性。③在兩個數據集上,IDEA方法檢索方面無論是在5 000返回結果還是50 000返回結果上均取得最優結果,這充分驗證了增強上下文視覺信息和考慮判別損失的重要性。

4.4 總結與分析

本文提出方法IDEA與現有主流基線方法的對比實驗充分驗證了IDEA方法的有效性。與此同時,IDEA與其相應變體方法間的對比實驗也充分反映了判別損失以及利用上下文信息增強視覺表示的必要性。但是,本文所提出的IDEA為一個弱監督的圖像哈希表示學習方法,即訓練數據為圖像以及圖像的文本標簽信息,并不依賴圖像類別信息。所以,圖像文本標簽的質量對其學習性能起著至關重要的作用。具體地,如果文本標簽與圖像內容的語義信息較為匹配,則IDEA可學習到非常魯棒的圖像哈希表示;反之,如果訓練圖像的文本標簽過于嘈雜甚至全部與圖像語義信息無關,那么IDEA可能無法學習到具有判別性的圖像哈希表示(即語義不同的兩張圖像學習到相似的哈希表示)。未來,將通過引入外部知識或設計文本標簽過濾機制等方式,來解決標簽噪聲問題,以進一步提升IDEA性能和使用范圍。

表3 變體方法在兩個數據集上 5 000 返回結果的性能比較

表4 變體方法在兩個數據集上50 000 返回結果的性能比較

5 結論

本文提出了一個上下文感知的深度弱監督哈希表示學習方法,用于大規模圖像檢索。特別地,為了更好地利用每個視覺區域的上下文信息并增強它們的表示,本文設計了一個上下文感知的視覺表示提取模塊,來動態計算每個視覺區域的視覺注意及其上下文信息。同時,本文引入了一個判別損失來強制圖像表示重新生成相應的標簽,從而提高圖像表示和哈希表示的判別性。為了評估本文提出的方法,本文在兩個公共數據集上進行了大量的實驗。結果表明,與最先進的基線相比,本文方法可以獲得更好的性能。

猜你喜歡
語義深度監督
深度理解一元一次方程
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言與語義
深度觀察
深度觀察
深度觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 在线无码私拍| 午夜人性色福利无码视频在线观看| 精品自窥自偷在线看| 国产三级毛片| 久久特级毛片| 国产青榴视频| 无码在线激情片| 亚洲人成人无码www| 国产Av无码精品色午夜| 美女无遮挡被啪啪到高潮免费| 亚洲最黄视频| 久久综合九色综合97网| 亚洲第一区精品日韩在线播放| 亚洲无线一二三四区男男| 91外围女在线观看| 天天色天天综合网| 大香伊人久久| 国产精品极品美女自在线网站| 精品无码一区二区三区在线视频| 免费毛片网站在线观看| 99er精品视频| 国产一区二区色淫影院| 精品久久综合1区2区3区激情| 国产精品成人第一区| 婷婷六月综合| 欧美激情成人网| 国产精品2| 亚洲天堂在线免费| 精品黑人一区二区三区| 一区二区三区高清视频国产女人| 亚洲性日韩精品一区二区| 99尹人香蕉国产免费天天拍| 在线国产毛片| 在线中文字幕网| 五月婷婷欧美| 夜夜操国产| 女人18毛片久久| 九色视频一区| 国产成人免费手机在线观看视频| 国产视频欧美| 高清不卡毛片| 欧美一级片在线| 亚洲欧美另类专区| 极品国产在线| 亚洲精品中文字幕午夜| 国产高清免费午夜在线视频| 久久大香香蕉国产免费网站| 欧美日韩国产精品综合| 热99精品视频| 亚洲VA中文字幕| 极品尤物av美乳在线观看| 2020极品精品国产 | 日日噜噜夜夜狠狠视频| 人妻中文久热无码丝袜| 在线欧美a| 高清视频一区| 欧美日韩国产综合视频在线观看 | 亚洲精品天堂自在久久77| 97成人在线视频| 午夜少妇精品视频小电影| 五月激激激综合网色播免费| 亚洲成人网在线播放| 国产免费好大好硬视频| 美女一区二区在线观看| 99精品福利视频| 亚洲最大在线观看| 免费无码AV片在线观看国产| 少妇极品熟妇人妻专区视频| 国产免费精彩视频| 1024国产在线| 色偷偷av男人的天堂不卡| 制服丝袜一区二区三区在线| 囯产av无码片毛片一级| 亚洲三级a| 99视频在线看| 51国产偷自视频区视频手机观看| 日本成人不卡视频| 久久a毛片| 伊人色天堂| 乱人伦99久久| 69综合网| 综合成人国产|