999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Resnet-Bert 網絡模型的跨媒體檢索方法*

2023-06-04 06:24:10閆盈盈灑科進
計算機與數字工程 2023年2期
關鍵詞:文本模型

閆盈盈 曹 揚 灑科進 支 婷

(1.中電科大數據研究院有限公司 貴陽 550022)(2.提升政府治理能力大數據應用技術國家工程研究中心 貴陽 550022)

1 引言

檢索是用戶獲取知識的常用方式之一,傳統的跨媒體檢索研究主要集中在以文搜圖和以圖搜文兩種媒體數據之間。事實上,隨著大數據時代的來臨,人們通過互聯網會產生大量的文本數據如新聞報道、微信聊天記錄、彈幕等,圖片數據如文章配圖、醫療影像等,視頻數據如抖音、快手等視頻媒體軟件數據、城市攝像頭數據等,同時伴隨著如微信語音、視頻配音等音頻信息。通常四種媒體常常會同時出現且語義具有相關性,但大多數跨媒體檢索技術研究僅僅限于兩種媒體數據之間,顯然,這種搜索已經不能夠滿足人們日益增加的數據檢索需求。提供高效的跨媒體檢索方法滿足人們精準且豐富的數據檢索需求,提升用戶的知識獲取效率和檢索體驗是目前跨媒體檢索技術的研究熱點。

近年來,跨媒體檢索受到了廣泛的關注和研究,主要分為基于子空間學習的方法、基于哈希學習的方法以及基于深度學習的方法。基于子空間學習的方法中最常用的方法是典型相關分析(CCA)。Rasiwasia 等[1]將語義類別信息與CCA 進行結合,Hardoon 等[2]提出了一種基于高斯分布核函數的KCCA方法,Andrew等[3]提出了DCCA方法,該方法是一種參數化方法,可以通過深度網絡靈活學習兩種相關類型媒體之間的非線性變換。Gong等[4]提出了Multi-view CCA 將高層語義作為第3 個視角來擴展傳統CCA 方法,李廣麗等[5]利用Tag-rank 和典型性相關分析法(CCA)進行在線商品的跨媒體檢索研究?;诠W習的跨媒體檢索方法主要思想為通過學習哈希函數,將高維數據映射到二進制編碼的海明空間,同時盡可能保留原始空間的相似結構[6],包括模態間檢索方法IME[7]、潛在語義稀疏哈希方法LSSH[8]、多視角檢索語義保持哈希方法SePH[9]、判別的跨模態哈希方法DHC[10]、線性跨模態哈希LCMH[11]、協同矩陣分解哈希CMFH[12]、語義相關最大化SCM[13]。在基于深度學習的跨媒體檢索方法方面,Peng等[14]構建跨媒體層次化網絡,通過兩階段的學習策略發現媒體內及媒體間關聯關系,從而獲得跨媒體信息的共享表征;Wei 等[15]提出了利用卷積神經網絡視覺特征的跨媒體檢索方法;Wang 等[16]提出基于生成對抗網絡的了跨媒體檢索方法(ACMR)。Huang等[17]提出了基于混合遷移網絡的跨媒體統一表征方法,實現了不同媒體間的知識遷移。綦金瑋等[18]利用兩級循環神經網絡建模不同媒體內及媒體間的細粒度上下文信息,然后引入注意力機制實現了精確的跨媒體關聯關系挖掘。He 等[19]提出了一種基于Resnet 的細??缑襟w統一表征模型FGCrossNet,實現了基于四種媒體類型數據的跨媒體檢索。

本文致力于四種模態的跨媒體檢索方法的研究,提出了基于Resnet-Bert 網絡模型的跨媒體檢索方法,旨在解決目前僅使用兩種模態進行檢索導致的用戶檢索體驗不佳以及四種模態檢索精度不高,效果不好的問題。

2 本文方法

2.1 基于類別標簽的跨媒體統一表征模型

跨媒體統一表征是跨媒體檢索的重要研究基礎,將不同媒體類型數據的特征表示映射到同一個共享子空間,從而跨越異構鴻溝,實現語義關聯。本文提出的跨媒體檢索基于圖1 所示的跨媒體統一表征思想。

圖1 基于類別標簽的跨媒體統一表征模型(以5種類別為例)

如圖1 所示,展示了基于類別標簽的跨媒體統一表征模型。該模型包括兩個步驟。首先,將圖像、視頻、音頻以及文本媒體類型數據分別通過深度學習、機器學習等方法進行特征提取,分別形成各自的類別空間,圖中各媒體類型的坐標軸數目分別表示不同的類別標簽,空間點代表數據的類別特征向量。其次,將各媒體類型數據的類別特征向量表示映射到同一個類別子空間中,從而實現跨媒體數據的統一表征。基于該表征思想,能夠簡潔高效地實現不同類型的媒體數據語義關聯和檢索計算。

2.2 Resnet-Bert網絡模型

針對當前跨模態檢索存在的媒體類型較少以及跨媒體檢索效果不佳的問題,提出了一種基于Resnet-Bert網絡模型的跨媒體檢索方法,利用卷積神經網絡模型Resnet[20]良好的圖像編碼能力與自然語言處理模型Bert[21]良好的文本編碼能力,在圖像、視頻、音頻以及文本四種媒體類型數據之間建立了基于類別標簽的跨媒體統一表征共享空間,通過不同模態間信息互補與增強,實現跨媒體信息語義的遷移輔助與關聯理解,使得模型具有較好的表達能力。本文方法的網絡結構如圖2所示。

圖2 Resnet-Bert網絡模型圖

如圖2 所示,對于圖像、視頻以及音頻三種媒體的數據,統一構建基于Resnet50 的卷積神經網絡。對于文本數據,構建基于Bert 的網絡模型,在輸出層,形成基于圖像、視頻、文本及音頻的跨媒體統一表征類別標簽空間。

2.3 損失函數

本文利用兩種損失函數驅動Resnet-Bert 模型的學習,分別為交叉熵損失函數與中心損失函數。交叉熵損失函數是利用交叉熵計算各媒體類型的類別特征表示與正確的標簽向量之間的差異,并將各媒體的損失函數求和。其定義如下所示:

其中,l(xk,yk)是交叉熵損失函數。I、V、A 以及T 分別表示圖像、視頻、音頻以及文本媒體類型。以圖像為例,NI 表示訓練集中圖像的總數量,表示模型學習的第k 個圖像數據的類別特征,表示第k 個圖像數據的真實標簽。NV 表示視頻分幀后的所有的幀的總數量。

中心損失函數希望每個樣本的特征離特征中心的距離的平方和越小越好,即中心損失函數用于減少類內差異,能夠把同一類的樣本之間的距離拉近一些,使其相似性變大。中心損失含函數的定義如下:

其中,xk表示屬于第yk個類的第k 個訓練樣本的特征表示,該處的訓練樣本是可以是任何媒體數據類型。N 表示所有媒體訓練數據的總個數。cyk表示第yk個類別的特征中心。

3 實驗

3.1 跨媒體數據及預處理

按照文獻[19]介紹的四種類型媒體數據采集與預處理情況,本文通過爬蟲、下載等多種方式,獲得了主題相關、語義一致且標簽相同的四種跨媒體數據。該數據包括圖像、視頻、音頻、文本四種媒體類型,每種媒體類型均包括200 種鳥類。其中圖像數據為CUB-200-2011數據集[22],共11788幅圖片,5994 張訓練集和5794 張測試集。視頻數據采用YouTube Birds 數據集[23],訓練集為12666 個視頻,測試集為5864個視頻。文本數據集[19]為4000篇訓練集和4000個測試集。音頻數據[19]包括6000個訓練頻譜圖和6000 個測試頻譜圖。其中,圖像CUB-200-2011 數據是通過相關網站下載獲得,視頻YouTube Birds 數據是通過爬蟲方式獲得。文本和音頻數據由北京大學多媒體信息處理研究室(MIPL)實驗室提供。圖像、音頻及文本的數據標簽與數據呈現一一對應關系。視頻數據的標簽與視頻數目呈現一一對應關系。對采集的跨媒體數據進行數據清洗和轉換,形成可用干凈的數據。由于YouTube Birds 視頻具有時間序列信息,因此需要進一步進行處理。根據文獻[19]對于鳥類數據集的預處理情況,將爬取的視頻分別利用python腳本進行分幀實驗,每個視頻獲取50 幀,剔除無用幀和質量較低的幀,最終保留每個視頻為25 個幀,即25 幅圖像。每個音頻數據為通過傅里葉變換技術轉化得到的頻譜圖,將頻譜圖作為該模型的音頻輸入數據。

3.2 評價指標

為了充分評估本文方法的有效性,在上述數據集上使用精確率(Precious,P)指標和平均精度均值(Mean Average Precision,MAP)指標。其中,前者用于衡量訓練、驗證與測試效果,后者用于衡量跨媒體檢索效果。

1)精確率指標P。P 指標用于衡量模型在給定數據集上的訓練和驗證效果,將實際的數據標簽與模型的輸出標簽進行比較,能夠直觀地展示模型效果。其計算公式如下所示:

其中,TP 為預測標簽與實際標簽相同的數據數目,FP為預測標簽與實際類別標簽不同的數據,P值越高越好。

2)平均精度均值指標MAP。MAP為跨媒體檢索的常用評價指標,利用測試集中的一種媒體的數據作為查詢集合來檢索另一種媒體類型的數據,如果返回結果中的數據和查詢數據屬于同一個類別標簽則為相關,否則為不相關。給定一個查詢(圖片或文本或視頻或音頻)和返回的R 個檢索結果,則精度均值為

其中,T 為檢索結果中與查詢相關數據的個數,P(r)為返回的前r個數據的準確率,即相關的數據所占的被分數,如果第r 個數據與查詢數據相關則δ(r)為1,否則δ(r)為0。然后通過對查詢集中的所有查詢的AP 值求平均值來計算MAP 的值。該指標能夠同時兼顧返回結果的排序以及準確率,在信息檢索領域被廣泛使用。MAP 值越大,算法準確性越好。

3.3 系統框架搭建

本文選用深度學習框架Pytorch 搭建本文提出的Resnet-Bert網絡模型,Python 的版本為3.6,實驗均在64 位的Ubuntu16.04 操作系統下完成。本文提出的Resnet-Bert 網絡模型,使用的Resnet 網絡模型為Resnet50,學習率learning-rate 設置為0.001,輪數epoch 的設置為50,最小批次batchsize設置為4,動量momentum設置為0.9。加載Reset在ImageNet 數據集上的預訓練模型,將圖像數據、視頻數據與音頻數據輸入到Resnet中進行模型微調,得到符合樣本數據的網絡模型參數。加載谷歌提供的Bert 預訓練模型“uncased_L-12_H-768_A-12”,將文本數據輸入到Bert 中進行訓練,得到符合訓練數據的Bert 的網絡模型參數。本文在網絡模型訓練之前,對圖像數據、處理后的視頻數據以及音頻數據采用了數據增強的策略,包括數據的中心化、隨機縮放、中心裁剪等,輸入Resnet50的數據尺寸為448*448。對于輸入Bert 模型的文本數據,固定了文本的長度為80,采用“短補長切”的方法進行處理。

3.4 實驗對比及結果分析

實驗對比了文獻[19]提出的FGCrossNet 模型。該模型使用4 種跨媒體類型數據,基于Resnet50 模型實現了跨媒體數據的統一表征和檢索。

基于Resnet-Bert 的跨媒體檢索實驗,包括兩個步驟。第一個步驟為訓練與驗證。在處理后的跨媒體訓練數據集上進行模型的訓練,并在測試集上進行測試,利用精確率指標P 衡量模型學習效果。第二個步驟為檢索。將測試集輸入模型中,得到圖像、視頻、音頻以及文本數據的類別標簽特征表示,利用MAP 指標衡量各媒體之間的檢索效果。表1 展示了在Resnet-Bert 模型上訓練和測試的效果。

表1 在Resnet和Resnet-Bert模型上的訓練與測試效果

由上表,我們可以得到如下結論。

1)基于Resnet 網絡模型的跨媒體數據的訓練與測試,圖像、視頻以及音頻數據的驗證效果較高,但是文本驗證效果較差,主要原因為文本媒體類型在使用卷積神經網絡時,特征提取效果不佳。

2)使用自然語言處理模型Bert 進行文本類別標簽特征的提取,使用在視覺方面處理較好的卷積神經網絡Resnet進行圖像、視頻以及音頻特征的提取,極大地提高了各模態的分類準確率,尤其是文本模態的準確率,為進一步的跨模態檢索奠定了堅實的基礎。

3)對比使用單一交叉熵損失函數LCRO,同時使用LCRO和LCEN的驗證效果更好,說明中心損失函數LCEN能夠有效提高測試效果。

利用訓練步驟學習到的Resnet 模型和Bert 模型,在測試集上實現跨媒體數據的統一表征,得到類別空間的特征向量和預測類別標簽,并與正確的標簽進行對比分析。表2 展示了利用MAP 指標衡量的各檢索任務效果。

表2 基于Resnet-Bert網咯模型的跨媒體檢索效果

如表2所示,我們可以發現:

1)利用交叉熵損失函數LCRO的Resnet-Bert 模型的檢索效果高于單一使用Resnet 模型的檢索效果,尤其是與文本相關的Image2Text、Audio2Text、Video2Text、Text2Image、Text2Video、Text2Audio 以及Text2all,MAP 值平均提升了0.1 以上,提升效果顯著,主要原因為利用Bert 模型之后,文本的特征表示能力得到較大的提升;除文本相關的其余檢索效果也有不同程度的上浮,主要原因為文本、圖像、視頻以及音頻等特征表示信息通過交叉損失函數的不斷降低,實現了信息的媒體間輔助遷移和關聯學習。

2)在交叉損失函數LCRO的基礎上,引入中心損失函數LCEN后,Resnet-Bert 網絡模型的檢索效果均好于單一使用LCRO的檢索效果,主要原因是LCRO考慮的為類間差異,LCEN考慮的為類內差距,文獻[19,24]研究顯示兩者的搭配對于單一損失函數使用具有較大的提升作用。

3)基于交叉損失函數LCRO和中心損失函數LCEN的Resnet-Bert 網絡模型在文本相關檢索效果方面明顯好于Resnet網絡模型,但是圖像、音頻、視頻的相互檢索方面卻小于Resnet模型的效果,一個可能的原因Bert 模型的引入,LCEN的類中心向量的不斷向文本特征擬合更新,類別區分度較低的特征向量進行了錯誤的類別選擇。

利用Resnet-Bert 網絡模型獲得四種媒體類別標簽的特征表示之后,通過余弦相似度計算等度量方法,進而實現不同媒體類型的相互檢索與應用。

4 結語

本文針對跨模態檢索研究中媒體數目較少以及檢索效果不佳的問題,提出了一種基于Resnet-Bert 網絡模型的跨媒體檢索方法。該方法利用卷積神經網絡模型Resnet獲取視頻、音頻和圖像的特征表達,利用Bert 模型獲取文本的特征表達,通過類別標簽空間實現了跨媒體數據的統一表征。在公開數據集上進行實驗,采用精確率P 和平均精度均值MAP 作為評價指標,證明本文提出的Resnet-Bert網絡模型在跨媒體檢索效果方面,尤其是文本檢索效果方面具有較好的提升作用。未來我們將嘗試構建基于特定場景且與工程實踐相結合的四種跨媒體類型數據集,并繼續研究基于深度學習的統一表征模型提高跨媒體檢索效果。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产亚洲精品va在线| 国产成人无码久久久久毛片| 国产毛片不卡| 在线另类稀缺国产呦| 欧美人在线一区二区三区| 激情無極限的亚洲一区免费| 无码精品国产dvd在线观看9久| 久久香蕉国产线| 四虎影视无码永久免费观看| 亚洲伦理一区二区| 四虎精品国产永久在线观看| 国产另类视频| 国产精品视频白浆免费视频| 内射人妻无码色AV天堂| 黄色网页在线观看| 欧美人人干| 亚洲三级视频在线观看| 欧美国产日韩在线观看| 九九热精品视频在线| 国产精品护士| 波多野结衣久久精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧美a在线看| 色综合成人| 亚洲av无码人妻| 四虎国产永久在线观看| 色妞www精品视频一级下载| 精品偷拍一区二区| 又粗又硬又大又爽免费视频播放| 国产精品国产三级国产专业不| 亚洲成人一区二区| 亚洲动漫h| 欧美亚洲国产精品久久蜜芽| 亚洲AⅤ波多系列中文字幕| 少妇人妻无码首页| 欧美一级高清免费a| 91麻豆精品国产高清在线| 欧美日韩在线亚洲国产人| 亚洲天堂成人在线观看| 国产色偷丝袜婷婷无码麻豆制服| 亚洲无码高清视频在线观看| 国产国产人在线成免费视频狼人色| 国产高清国内精品福利| 亚洲水蜜桃久久综合网站| 婷婷综合在线观看丁香| 亚洲人成网址| 国产99视频免费精品是看6| 日本精品视频一区二区| 91极品美女高潮叫床在线观看| 亚洲国产中文精品va在线播放 | 国产成人精品在线| 日本午夜影院| 99久久国产自偷自偷免费一区| 亚洲高清国产拍精品26u| 操国产美女| 亚洲第一香蕉视频| 日本一区二区不卡视频| 无码av免费不卡在线观看| 久久综合伊人 六十路| 亚洲av无码成人专区| AV熟女乱| 国模粉嫩小泬视频在线观看| 国产一级小视频| 久久婷婷色综合老司机| 国产精品va免费视频| 热热久久狠狠偷偷色男同| 亚洲国产成人综合精品2020 | 国产欧美日韩在线在线不卡视频| 亚洲中文字幕23页在线| 91网红精品在线观看| 亚洲高清在线播放| 99在线视频免费| 免费xxxxx在线观看网站| 日本国产在线| 国产自无码视频在线观看| 亚洲毛片一级带毛片基地| 澳门av无码| 国产毛片片精品天天看视频| 激情無極限的亚洲一区免费| 国产精品免费p区| 在线视频精品一区| 国产成人精品三级|