999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度神經網絡的多模態信息檢索

2022-01-28 04:29:26
計算機應用與軟件 2022年1期
關鍵詞:模態模型

李 光 宇

(天津美術學院信息化工作辦公室 天津 300141)

0 引 言

隨著計算機技術在各行各業蓬勃發展,越來越多的高等院校和企事業單位聚集了大量的數據信息。以上數據包含了不同類型的數據形式,如圖像、中文文檔、英文文檔、音頻數據和視頻數據等[1-2],雖然數據管理人員能夠對這些數據進行歸納和分類,但是其效率較低。信息查詢和檢索是使用最為頻繁的一項數據庫功能,而多模態數據檢索因其特征提取難度大,成為目前信息檢索領域的一個難題[3]。

多模態數據的泛化是跨模態信息檢索技術的重中之重,直接決定了跨模態檢索的準確率和效率。已有許多科研人員對多模態數據泛化問題進行了卓有成效的研究。黃名選等[4]針對信息檢索中查詢主題漂移和詞不匹配問題,提出一種融合加權關聯模態挖掘與規則混合擴展模型的跨語言信息檢索算法。該算法通過項集權值比較從跨語言初檢相關文檔集挖掘含有原查詢詞項的頻繁項集,對多語言文檔檢索有極好的效果。此類針對特定模態不同子模態的檢索算法大多實現了較好的準確率,但其泛化學習能力也僅適用于特定的模態[5]。近期,深度學習檢索框架在數據表征、數據索引及檢索算法等方向上取得了一系列的成果[6],深度學習技術因其強大的學習能力和泛化能力成為了多模態信息檢索領域的研究熱點。文獻[7]設計了基于對稱深度神經網絡的雙向聯合表示學習算法,該算法對多模態信息表現出較好的泛化能力,并且通過雙向聯合表示機制在不同模態之間建立了良好的相關性。文獻[8]提出一種基于圖正則的深度神經網絡模型,在多模態圖像數據上進行的實驗驗證了該模型具有較強的圖像表示學習能力。

在利用深度學習對多模態數據表示學習的技術中,不同模態表示之間的相關性是決定性能的一個關鍵因素。卷積自編碼器在多模態學習中具有忽略圖像結構和權重貢獻的特點,因此卷積自編碼器保持了空間域局部化的特點,該特點有助于強化不同模態之間的相關性。本文采用深度自編碼器實現多模態學習,在不同模態自編碼器的隱藏層強化了特征相關性的計算。為了降低公共特征向量的維度,設計了稀疏編碼技術對公共特征向量進行維度壓縮,同時過濾冗余元素和噪聲元素。最終將本文模型應用于多模態的圖像檢索問題中,獲得了較好的檢索性能,優于其他基于深度學習的同類技術。

1 神經網絡結構設計

1.1 問題模型

1.2 卷積自編碼器

卷積自編碼器(Convolution Auto Encoder,CVAE)[9]是一種無監督特征學習模型,利用神經網絡對數據進行無監督的預訓練處理,然后使用反向傳播微調網絡的權重。假設輸入數據為Z=(Z1,Z2,…,Zn),每個深度D的濾波map設為F=(F1,F2,…,Fm)。卷積運算產生m個激活map,m為網絡深度,激活map定義為:

(1)

式中:α為非線性變量;p∈{1,2,…,m}。

圖1為所設計的CVAE結構圖。編碼流程如下:激活map產生輸入數據Z的低維編碼表示,然后通過最大池化層對輸入進行下采樣。通過兩個隱藏層分析激活map,再將特征投影到d維公共特征子空間。解碼流程如下:采用去卷積對特征進行解碼,將特征投影回輸入空間。重建數據的表達式為:

(2)

最終,CVAE通過最小化輸入數據和重建數據之間的損失完成對輸入數據的重建工作。重建損失的計算式為:

(3)

式中:L(Z,Z′)為度量損失的均方誤差。

(a)編碼流程

圖1中三個模態的輸入數據傳遞到三個通道,經過卷積層和最大池化層獲得低維的數據表示。在隱藏層最大化表示之間的相關性,隱藏層中采用Dropout機制防止過擬合。圖中雙向箭頭表示相關性計算和跨模態重建。隱藏層的輸出為一個公共表示,之后通過去卷積運算和上采樣處理將公共表示投影回輸入空間。

1.3 增強相關性的自編碼器

傳統自編碼器在數據重建之前無法難以預測其他模態的相關性,因此本文設計了多通道自編碼器在隱藏層強化相關性,本文設計的自編碼器簡記為(Correlation enhanced Auto-Encoder,CAE)。訓練多通道自編碼器的目標函數包括三個目標:(1)最小化自重建的誤差;(2)最小化跨模態的重建誤差;(3)最大化不同模態隱藏層表示間的相關性。

以兩個模態的輸入數據為例,輸入數據設為zi={xi;yi},zi為模態xi和模態yi間的相關性。自重建損失的計算方法為:

(4)

輸入xi和yi損失的計算方法分別為:

(5)

(6)

兩個模態隱藏層表示間的相關性計算為:

(7)

(8)

式中:g和h為非線性激活函數,如sigmoid或ReLU;L為均方誤差運算。

最大化兩個模態間相關性損失的計算式為:

L6=λ·corr(h(X),h(Y))

(9)

(10)

式中:h(X)和h(Y)為公共表示的投影,其中X和Y分別為輸入數據經過卷積層和池化層后的表示;λk為第k個編碼的正則參數。模態h(X)和模態h(Y)間的相關性計算為:

corr(h(X),h(Y))=

(11)

采用如下的目標函數對CAE進行優化:

(12)

式中:θ為CAE的參數。

通過以上方法,最小化自重建損失和交叉重建損失,同時最大化兩個模態間的相關性。

1.4 CAE的訓練方法

神經網絡的參數數量和輸入數據的維度成正比例關系,而多模態自編碼器需要重建輸入數據,對高維數據的訓練難度極大。因此設計了逐步重建和微調的預訓練模型。使用預訓練模型ResNet-50[10]提取數據集的2 048維表示特征。固定預訓練的ResNet-50結構,根據式(7)和式(12)獨立完成逐步的數據重建,在訓練過程中不更新網絡的參數。因此CAE不采用原始數據,而是通過ResNet-50獲得原始數據的2 048維表示特征。式(3)的損失函數修改為:

(13)

1.5 Dropout技術

CAE使用Dropout技術來防止過擬合。訓練模型時在卷積層和去卷積層隨機選擇k個神經元做失活處理。

1.6 聯合表示的維度

公共表示的維度d是CAE的一個超參數。d值決定了模態相關性和重建準確性:d值越大,模態間的相關性越大,模型參數也增多,因此需要對d值進行優化處理。本文通過稀疏編碼壓縮公共表示的維度,并且最大化重建的準確性。

2 稀疏編碼和分類器設計

2.1 稀疏編碼模型

在稀疏編碼的數學模型中,假設字典D為m×n的矩陣,通過稀疏模型將信號y∈Rm×1表示為一個字典元素的稀疏線性組合D=[d1,d2,…,dn]∈Rm×n。設L表示稀疏約束,稀疏編碼的目標為如下的優化問題:

(14)

(15)

(16)

式中:n為x的維度;ω為正則系數。

2.2 稀疏編碼分類器

稀疏編碼的時間復雜度和字典大小成比例關系[11],因此通過減小字典大小來減少時間成本。本文設計了字典壓縮方法,在保留關鍵特征的前提下,縮小字典大小,該過程可自動地過濾孤立點和噪聲特征。

算法1SCC算法

輸入:每個類的字典D1,D2,…,Dc;k值支持度大小L;測試樣本y。

輸出:y的類標簽。

1.初始化w1=d1和字典W=[w1];

2.m=1,w1→count=1;

3.fori=2tonido

4.k=argmaxj{sim(di,wj)};

if(sim(di,wk)

m++;

wm=di;

wm→count=1;

else

wk=((wk×wk→count)+di)/(wk→count+1);

wk→count++;

endif

endfor

fori=1toc

endfor

3 實 驗

3.1 實驗方法和實驗數據集

在以下兩個公開的模態識別數據集上驗證本文跨模態信息檢索和挖掘的效果。(1)MNIST手寫數字數據集[12],它是一個常用的模態識別數據集。許多跨模態的研究人員均基于該數據集給出了跨模態的實驗結果,因此采用該數據集驗證本文算法的基本性能。(2)BioID數據集[13],它是一個跨模態人臉檢索的數據集,該數據集共有1 521幅大小為384×286像素的灰度人臉圖像,包含23個被拍攝人員。將其中1 064幅圖像作為訓練集,剩下的457幅圖像作為測試集。該數據集的每幅圖像包含一幅原圖像和一幅失真圖像,將原圖像和失真圖像輸入本文的神經網絡進行跨模態學習,采用學習的模型對測試圖像進行檢索。圖2是BioID數據集的兩個實例。

圖2 BioID數據集的實例

3.2 參數設置和對比方法

MNIST數據集深度神經網絡的編碼部分包含1個卷積層、1個最大池化層和2個隱藏層,卷積層節點數量為40;其解碼部分包含1個隱藏層和1個Dropout為50%的去卷積層。

BioID數據集的深度神經網絡編碼部分包含1個卷積層、1個最大池化層和5個隱藏層,BioID數據集的卷積層節點數量為120;其解碼部分包含2個隱藏層和1個Dropout為50%的去卷積層。

本文算法將多個自編碼器組合實現了跨模態的特征學習能力,并且利用稀疏編碼減少公共表示的維度,因此選擇了基于自編碼器的算法做比較,包括基于對稱自編碼器的多模態深度學習技術BJRL[7]、基于圖正則自編碼器的多模態深度圖像表示技術CVPR[8]、基于卷積自編碼器的多模態深度學習技術MLSA[14];另外還選擇了基于其他技術的先進算法做比較,包括基于多重詞嵌入學習技術MCSSC[15]、基于跨權重的多模態深度學習技術MDL-CW[16]、基于注意機制神經網絡的深度學習技術VAGNM[17]。

3.3 跨模態學習的性能實驗

跨模態學習的首要目標是學習不同模態數據之間高度相關的共同表示。通常采用總相關性Corr評估跨模態學習的質量,Corr的計算方法:

Corr(h(X),h(Y))=

(17)

首先驗證了本文算法中稀疏編碼的有效性,分別評估了不同維度的公共表示向量間的總相似性,結果如圖3所示。其中CAESE和CAE分別表示包含稀疏編碼和包含稀疏編碼的兩個模型。可看出CAE的總相似性隨著向量維度的升高而持續提高,CAESE則在35維時達到了50%的總體相似性,隨著向量維度的進一步增加,其總體相似性保持穩定。CAESE算法能夠在較低的維度達到較高的總體相似性,在計算復雜度和相關性之間實現了較好的平衡。

圖3 表示向量間的總相似性

圖4比較了不同多模態表示學習模型時間的最大總相關性,圖中CAE為向量維度為50的模型,CAESE為向量維度為30的模型。可以看出基于自編碼器的多模態學習技術能夠獲得較好的相關性結果,但自編碼器之間的連接權重相對獨立,因此相關性結果低于本文的CAESE和CAE兩個模型。VAGNM為深度神經網絡加入了注意機制,允許解碼器在序列中的多個向量中關注所需要的信息,該過程使用了編碼器的多步輸出,而非單一定長的向量,因此保留了更多的信息。VAGNM也因此實現了較為理想的多模態表示學習能力。

圖4 多模態表示學習的最大總相關性

3.4 跨模態圖像檢索實驗

將本文的CAE模型運用于BioID數據集的多模態圖像檢索實驗,通過人臉的一個模態檢索同一個人臉的其他模態。檢索結果獲得一個排列的候選集,采用平均精度均值(MAP)和平均排序倒數(MRR)評價檢索結果的優劣,MAP的計算式為:

(18)

式中:N為測試集的圖像總數量;Ir為檢索的圖像;AP為平均精度。

MRR的計算式為:

(19)

式中:N為測試集的圖像總數量;Ir為檢索的圖像,r為列表中第一個相關圖像的排名。排序倒數RR的計算式為:

(20)

圖5為不同多模態表示學習算法的圖像識別結果,圖5(a)和圖5(b)中CAESE的MRR值和MAP值均高于CAE算法,佐證了稀疏編碼的有效性。VAGNM的MRR結果高于CAE算法,但MAP結果低于CAE算法,說明本文CAE算法所檢索的候選圖像集具有較高的命中率,但是排名順序有所偏差。圖6為檢索實驗的圖像實例,本文算法成功檢索出和輸入圖像同一個人的三個失真右側人臉圖像。

(a)MRR結果

(a)查詢圖像

4 結 語

本文采用深度自編碼器實現多模態學習,在不同模態自編碼器的隱藏層強化了特征相關性的計算。為了降低公共特征向量的維度,設計了稀疏編碼技術對公共特征向量進行維度壓縮,同時過濾冗余元素和噪聲元素。基于公開模態識別數據集的實驗結果表明,本文算法能夠有效地學習和泛化多模態數據,最終將本模型應用于多模態的圖像檢索問題中,獲得了較好的檢索性能,且優于其他基于深度學習的同類技術。

本文實驗的硬件環境為Intel i5 9600KF處理器,主頻為3.7 GHz,對BioID數據集的訓練時間約為2.3小時,可見本文模型的訓練時間較長。未來將研究應用分布式計算實現本文的多模態學習模型,從而提高神經網絡的訓練速度。

猜你喜歡
模態模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
車輛CAE分析中自由模態和約束模態的應用與對比
國內多模態教學研究回顧與展望
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
高速顫振模型設計中顫振主要模態的判斷
航空學報(2015年4期)2015-05-07 06:43:35
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 中文字幕在线视频免费| 亚洲无码熟妇人妻AV在线| 国产精品嫩草影院av | 台湾AV国片精品女同性| 红杏AV在线无码| 欧美精品不卡| 亚洲精品天堂自在久久77| 99热这里只有精品5| 亚洲美女久久| 在线精品视频成人网| 99视频有精品视频免费观看| 亚洲综合18p| 白浆视频在线观看| AV在线麻免费观看网站| 久久青草精品一区二区三区 | 亚洲男人的天堂视频| 精品视频第一页| 五月婷婷欧美| 国产乱人伦精品一区二区| 国产成人av一区二区三区| 99热这里只有精品2| 欧美性色综合网| 园内精品自拍视频在线播放| 国产免费人成视频网| 久久精品91麻豆| 波多野结衣中文字幕一区二区| 一级毛片免费观看不卡视频| 国产成人综合久久精品尤物| 国产欧美亚洲精品第3页在线| 国产女同自拍视频| 无码视频国产精品一区二区| 国产成人a在线观看视频| 欧美日韩国产在线播放| 亚洲国产欧洲精品路线久久| 欧美va亚洲va香蕉在线| 成人在线视频一区| 精品一区二区三区自慰喷水| 久视频免费精品6| 日韩乱码免费一区二区三区| 国产拍揄自揄精品视频网站| 黄色在线不卡| 国产高清在线观看| 鲁鲁鲁爽爽爽在线视频观看| 免费看的一级毛片| 都市激情亚洲综合久久| 亚洲男人天堂网址| 狠狠v日韩v欧美v| 欧美精品1区| 亚洲Av综合日韩精品久久久| 国产亚洲精品91| 91成人在线免费视频| 久热中文字幕在线| 日本三级黄在线观看| 国产黄在线观看| 亚洲精品午夜天堂网页| 久久a毛片| 国产精品精品视频| 亚洲日韩精品无码专区97| 又爽又大又黄a级毛片在线视频| 一本久道久综合久久鬼色| 国产精品污视频| 亚洲男人天堂2020| a在线亚洲男人的天堂试看| 欧美日本一区二区三区免费| 亚洲国产看片基地久久1024| 国产成人综合日韩精品无码不卡 | 67194在线午夜亚洲| 日韩高清成人| 亚洲无码91视频| 国产在线观看91精品| 91视频国产高清| 亚洲av色吊丝无码| 一本大道视频精品人妻| 综合色88| 动漫精品啪啪一区二区三区| 久久福利网| 综合色88| 天堂av综合网| 欧美一道本| 乱人伦视频中文字幕在线| 老色鬼欧美精品| 99re经典视频在线|