基于Resnet-Bert 網絡模型的跨媒體檢索方法*

2023-06-04 06:24:10閆盈盈灑科進

計算機與數字工程 2023年2期

閆盈盈曹揚灑科進支婷

（1.中電科大數據研究院有限公司貴陽 550022）（2.提升政府治理能力大數據應用技術國家工程研究中心貴陽 550022）

1 引言

檢索是用戶獲取知識的常用方式之一，傳統的跨媒體檢索研究主要集中在以文搜圖和以圖搜文兩種媒體數據之間。事實上，隨著大數據時代的來臨，人們通過互聯網會產生大量的文本數據如新聞報道、微信聊天記錄、彈幕等，圖片數據如文章配圖、醫療影像等，視頻數據如抖音、快手等視頻媒體軟件數據、城市攝像頭數據等，同時伴隨著如微信語音、視頻配音等音頻信息。通常四種媒體常常會同時出現且語義具有相關性，但大多數跨媒體檢索技術研究僅僅限于兩種媒體數據之間，顯然，這種搜索已經不能夠滿足人們日益增加的數據檢索需求。提供高效的跨媒體檢索方法滿足人們精準且豐富的數據檢索需求，提升用戶的知識獲取效率和檢索體驗是目前跨媒體檢索技術的研究熱點。

近年來，跨媒體檢索受到了廣泛的關注和研究，主要分為基于子空間學習的方法、基于哈希學習的方法以及基于深度學習的方法。基于子空間學習的方法中最常用的方法是典型相關分析（CCA）。Rasiwasia 等［1］將語義類別信息與CCA 進行結合，Hardoon 等［2］提出了一種基于高斯分布核函數的KCCA方法，Andrew等［3］提出了DCCA方法，該方法是一種參數化方法，可以通過深度網絡靈活學習兩種相關類型媒體之間的非線性變換。Gong等［4］提出了Multi-view CCA 將高層語義作為第3 個視角來擴展傳統CCA 方法，李廣麗等［5］利用Tag-rank 和典型性相關分析法（CCA）進行在線商品的跨媒體檢索研究?；诠W習的跨媒體檢索方法主要思想為通過學習哈希函數，將高維數據映射到二進制編碼的海明空間，同時盡可能保留原始空間的相似結構［6］，包括模態間檢索方法IME［7］、潛在語義稀疏哈希方法LSSH［8］、多視角檢索語義保持哈希方法SePH［9］、判別的跨模態哈希方法DHC［10］、線性跨模態哈希LCMH［11］、協同矩陣分解哈希CMFH［12］、語義相關最大化SCM［13］。在基于深度學習的跨媒體檢索方法方面，Peng等［14］構建跨媒體層次化網絡，通過兩階段的學習策略發現媒體內及媒體間關聯關系，從而獲得跨媒體信息的共享表征；Wei 等［15］提出了利用卷積神經網絡視覺特征的跨媒體檢索方法；Wang 等［16］提出基于生成對抗網絡的了跨媒體檢索方法（ACMR）。Huang等［17］提出了基于混合遷移網絡的跨媒體統一表征方法，實現了不同媒體間的知識遷移。綦金瑋等［18］利用兩級循環神經網絡建模不同媒體內及媒體間的細粒度上下文信息，然后引入注意力機制實現了精確的跨媒體關聯關系挖掘。He 等［19］提出了一種基于Resnet 的細?？缑襟w統一表征模型FGCrossNet，實現了基于四種媒體類型數據的跨媒體檢索。

本文致力于四種模態的跨媒體檢索方法的研究，提出了基于Resnet-Bert 網絡模型的跨媒體檢索方法，旨在解決目前僅使用兩種模態進行檢索導致的用戶檢索體驗不佳以及四種模態檢索精度不高，效果不好的問題。

2 本文方法

2.1 基于類別標簽的跨媒體統一表征模型

跨媒體統一表征是跨媒體檢索的重要研究基礎，將不同媒體類型數據的特征表示映射到同一個共享子空間，從而跨越異構鴻溝，實現語義關聯。本文提出的跨媒體檢索基于圖1 所示的跨媒體統一表征思想。

圖1 基于類別標簽的跨媒體統一表征模型（以5種類別為例）

如圖1 所示，展示了基于類別標簽的跨媒體統一表征模型。該模型包括兩個步驟。首先，將圖像、視頻、音頻以及文本媒體類型數據分別通過深度學習、機器學習等方法進行特征提取，分別形成各自的類別空間，圖中各媒體類型的坐標軸數目分別表示不同的類別標簽，空間點代表數據的類別特征向量。其次，將各媒體類型數據的類別特征向量表示映射到同一個類別子空間中，從而實現跨媒體數據的統一表征。基于該表征思想，能夠簡潔高效地實現不同類型的媒體數據語義關聯和檢索計算。

2.2 Resnet-Bert網絡模型

針對當前跨模態檢索存在的媒體類型較少以及跨媒體檢索效果不佳的問題，提出了一種基于Resnet-Bert網絡模型的跨媒體檢索方法，利用卷積神經網絡模型Resnet［20］良好的圖像編碼能力與自然語言處理模型Bert［21］良好的文本編碼能力，在圖像、視頻、音頻以及文本四種媒體類型數據之間建立了基于類別標簽的跨媒體統一表征共享空間，通過不同模態間信息互補與增強，實現跨媒體信息語義的遷移輔助與關聯理解，使得模型具有較好的表達能力。本文方法的網絡結構如圖2所示。

圖2 Resnet-Bert網絡模型圖

如圖2 所示，對于圖像、視頻以及音頻三種媒體的數據，統一構建基于Resnet50 的卷積神經網絡。對于文本數據，構建基于Bert 的網絡模型，在輸出層，形成基于圖像、視頻、文本及音頻的跨媒體統一表征類別標簽空間。

2.3 損失函數

本文利用兩種損失函數驅動Resnet-Bert 模型的學習，分別為交叉熵損失函數與中心損失函數。交叉熵損失函數是利用交叉熵計算各媒體類型的類別特征表示與正確的標簽向量之間的差異，并將各媒體的損失函數求和。其定義如下所示：

其中，l（xk，yk）是交叉熵損失函數。I、V、A 以及T 分別表示圖像、視頻、音頻以及文本媒體類型。以圖像為例，NI 表示訓練集中圖像的總數量，表示模型學習的第k 個圖像數據的類別特征，表示第k 個圖像數據的真實標簽。NV 表示視頻分幀后的所有的幀的總數量。

中心損失函數希望每個樣本的特征離特征中心的距離的平方和越小越好，即中心損失函數用于減少類內差異，能夠把同一類的樣本之間的距離拉近一些，使其相似性變大。中心損失含函數的定義如下：

其中，xk表示屬于第yk個類的第k 個訓練樣本的特征表示，該處的訓練樣本是可以是任何媒體數據類型。N 表示所有媒體訓練數據的總個數。cyk表示第yk個類別的特征中心。

3 實驗

3.1 跨媒體數據及預處理

按照文獻［19］介紹的四種類型媒體數據采集與預處理情況，本文通過爬蟲、下載等多種方式，獲得了主題相關、語義一致且標簽相同的四種跨媒體數據。該數據包括圖像、視頻、音頻、文本四種媒體類型，每種媒體類型均包括200 種鳥類。其中圖像數據為CUB-200-2011數據集［22］，共11788幅圖片，5994 張訓練集和5794 張測試集。視頻數據采用YouTube Birds 數據集［23］，訓練集為12666 個視頻，測試集為5864個視頻。文本數據集［19］為4000篇訓練集和4000個測試集。音頻數據［19］包括6000個訓練頻譜圖和6000 個測試頻譜圖。其中，圖像CUB-200-2011 數據是通過相關網站下載獲得，視頻YouTube Birds 數據是通過爬蟲方式獲得。文本和音頻數據由北京大學多媒體信息處理研究室（MIPL）實驗室提供。圖像、音頻及文本的數據標簽與數據呈現一一對應關系。視頻數據的標簽與視頻數目呈現一一對應關系。對采集的跨媒體數據進行數據清洗和轉換，形成可用干凈的數據。由于YouTube Birds 視頻具有時間序列信息，因此需要進一步進行處理。根據文獻［19］對于鳥類數據集的預處理情況，將爬取的視頻分別利用python腳本進行分幀實驗，每個視頻獲取50 幀，剔除無用幀和質量較低的幀，最終保留每個視頻為25 個幀，即25 幅圖像。每個音頻數據為通過傅里葉變換技術轉化得到的頻譜圖，將頻譜圖作為該模型的音頻輸入數據。

3.2 評價指標

為了充分評估本文方法的有效性，在上述數據集上使用精確率（Precious，P）指標和平均精度均值（Mean Average Precision，MAP）指標。其中，前者用于衡量訓練、驗證與測試效果，后者用于衡量跨媒體檢索效果。

1）精確率指標P。P 指標用于衡量模型在給定數據集上的訓練和驗證效果，將實際的數據標簽與模型的輸出標簽進行比較，能夠直觀地展示模型效果。其計算公式如下所示：

其中，TP 為預測標簽與實際標簽相同的數據數目，FP為預測標簽與實際類別標簽不同的數據，P值越高越好。

2）平均精度均值指標MAP。MAP為跨媒體檢索的常用評價指標，利用測試集中的一種媒體的數據作為查詢集合來檢索另一種媒體類型的數據，如果返回結果中的數據和查詢數據屬于同一個類別標簽則為相關，否則為不相關。給定一個查詢（圖片或文本或視頻或音頻）和返回的R 個檢索結果，則精度均值為

其中，T 為檢索結果中與查詢相關數據的個數，P（r）為返回的前r個數據的準確率，即相關的數據所占的被分數，如果第r 個數據與查詢數據相關則δ（r）為1，否則δ（r）為0。然后通過對查詢集中的所有查詢的AP 值求平均值來計算MAP 的值。該指標能夠同時兼顧返回結果的排序以及準確率，在信息檢索領域被廣泛使用。MAP 值越大，算法準確性越好。

3.3 系統框架搭建

本文選用深度學習框架Pytorch 搭建本文提出的Resnet-Bert網絡模型，Python 的版本為3.6，實驗均在64 位的Ubuntu16.04 操作系統下完成。本文提出的Resnet-Bert 網絡模型，使用的Resnet 網絡模型為Resnet50，學習率learning-rate 設置為0.001，輪數epoch 的設置為50，最小批次batchsize設置為4，動量momentum設置為0.9。加載Reset在ImageNet 數據集上的預訓練模型，將圖像數據、視頻數據與音頻數據輸入到Resnet中進行模型微調，得到符合樣本數據的網絡模型參數。加載谷歌提供的Bert 預訓練模型“uncased_L-12_H-768_A-12”，將文本數據輸入到Bert 中進行訓練，得到符合訓練數據的Bert 的網絡模型參數。本文在網絡模型訓練之前，對圖像數據、處理后的視頻數據以及音頻數據采用了數據增強的策略，包括數據的中心化、隨機縮放、中心裁剪等，輸入Resnet50的數據尺寸為448*448。對于輸入Bert 模型的文本數據，固定了文本的長度為80，采用“短補長切”的方法進行處理。

3.4 實驗對比及結果分析

實驗對比了文獻［19］提出的FGCrossNet 模型。該模型使用4 種跨媒體類型數據，基于Resnet50 模型實現了跨媒體數據的統一表征和檢索。

基于Resnet-Bert 的跨媒體檢索實驗，包括兩個步驟。第一個步驟為訓練與驗證。在處理后的跨媒體訓練數據集上進行模型的訓練，并在測試集上進行測試，利用精確率指標P 衡量模型學習效果。第二個步驟為檢索。將測試集輸入模型中，得到圖像、視頻、音頻以及文本數據的類別標簽特征表示，利用MAP 指標衡量各媒體之間的檢索效果。表1 展示了在Resnet-Bert 模型上訓練和測試的效果。

表1 在Resnet和Resnet-Bert模型上的訓練與測試效果

由上表，我們可以得到如下結論。

1）基于Resnet 網絡模型的跨媒體數據的訓練與測試，圖像、視頻以及音頻數據的驗證效果較高，但是文本驗證效果較差，主要原因為文本媒體類型在使用卷積神經網絡時，特征提取效果不佳。

2）使用自然語言處理模型Bert 進行文本類別標簽特征的提取，使用在視覺方面處理較好的卷積神經網絡Resnet進行圖像、視頻以及音頻特征的提取，極大地提高了各模態的分類準確率，尤其是文本模態的準確率，為進一步的跨模態檢索奠定了堅實的基礎。

3）對比使用單一交叉熵損失函數LCRO，同時使用LCRO和LCEN的驗證效果更好，說明中心損失函數LCEN能夠有效提高測試效果。

利用訓練步驟學習到的Resnet 模型和Bert 模型，在測試集上實現跨媒體數據的統一表征，得到類別空間的特征向量和預測類別標簽，并與正確的標簽進行對比分析。表2 展示了利用MAP 指標衡量的各檢索任務效果。

表2 基于Resnet-Bert網咯模型的跨媒體檢索效果

如表2所示，我們可以發現：

1）利用交叉熵損失函數LCRO的Resnet-Bert 模型的檢索效果高于單一使用Resnet 模型的檢索效果，尤其是與文本相關的Image2Text、Audio2Text、Video2Text、Text2Image、Text2Video、Text2Audio 以及Text2all，MAP 值平均提升了0.1 以上，提升效果顯著，主要原因為利用Bert 模型之后，文本的特征表示能力得到較大的提升；除文本相關的其余檢索效果也有不同程度的上浮，主要原因為文本、圖像、視頻以及音頻等特征表示信息通過交叉損失函數的不斷降低，實現了信息的媒體間輔助遷移和關聯學習。

2）在交叉損失函數LCRO的基礎上，引入中心損失函數LCEN后，Resnet-Bert 網絡模型的檢索效果均好于單一使用LCRO的檢索效果，主要原因是LCRO考慮的為類間差異，LCEN考慮的為類內差距，文獻［19，24］研究顯示兩者的搭配對于單一損失函數使用具有較大的提升作用。

3）基于交叉損失函數LCRO和中心損失函數LCEN的Resnet-Bert 網絡模型在文本相關檢索效果方面明顯好于Resnet網絡模型，但是圖像、音頻、視頻的相互檢索方面卻小于Resnet模型的效果，一個可能的原因Bert 模型的引入，LCEN的類中心向量的不斷向文本特征擬合更新，類別區分度較低的特征向量進行了錯誤的類別選擇。

利用Resnet-Bert 網絡模型獲得四種媒體類別標簽的特征表示之后，通過余弦相似度計算等度量方法，進而實現不同媒體類型的相互檢索與應用。

4 結語

本文針對跨模態檢索研究中媒體數目較少以及檢索效果不佳的問題，提出了一種基于Resnet-Bert 網絡模型的跨媒體檢索方法。該方法利用卷積神經網絡模型Resnet獲取視頻、音頻和圖像的特征表達，利用Bert 模型獲取文本的特征表達，通過類別標簽空間實現了跨媒體數據的統一表征。在公開數據集上進行實驗，采用精確率P 和平均精度均值MAP 作為評價指標，證明本文提出的Resnet-Bert網絡模型在跨媒體檢索效果方面，尤其是文本檢索效果方面具有較好的提升作用。未來我們將嘗試構建基于特定場景且與工程實踐相結合的四種跨媒體類型數據集，并繼續研究基于深度學習的統一表征模型提高跨媒體檢索效果。