999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于概率圖模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法

2017-04-01 23:24:51甘勝江孫連海何俊林盧穎
現(xiàn)代電子技術(shù) 2017年5期

甘勝江 孫連海 何俊林 盧穎

摘 要: 為了提高多模態(tài)檢索的性能,提出一種多模態(tài)文檔語義生成模型以及基于該模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法。多模態(tài)文檔語義生成模型認(rèn)為文檔中每個模態(tài)數(shù)據(jù)都是由相同的語義概念生成的,并且文檔是多個模態(tài)數(shù)據(jù)的聯(lián)合分布。為了簡化模型的求解過程,假設(shè)各個模態(tài)數(shù)據(jù)之間的生成過程是相互獨立的,于是可以對每個模態(tài)的條件概率進(jìn)行單獨計算。在多模態(tài)聯(lián)合檢索中,通過計算查詢數(shù)據(jù)和待檢索文檔的聯(lián)合概率來計算它們之間的相似度。實驗結(jié)果表明,提出的方法與兩步檢索、語義索引和排序?qū)W習(xí)三種多模態(tài)檢索方法相比具有更好的檢索性能。此外,該方法可以擴(kuò)展應(yīng)用到具有三個及以上模態(tài)數(shù)據(jù)的文檔聯(lián)合檢索中。

關(guān)鍵詞: 多模態(tài)檢索; 概率圖模型; 極大似然估計; 產(chǎn)生式模型

中圖分類號: TN919?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)05?0033?05

Abstract: In order to improve the performance of the multi?modal retrieval, a semantic generation model of the multi?modal document and a joint retrieval algorithm for multi?modal data based on this model are proposed. The semantic generation model of the multi?modal document deems that the data of each modal in the document is generated by the same semantic concept, and the documents complies with the joint distribution of data of multiple modals. In order to simplify the solving process of model, the conditional probability of each modal can be calculated independently if assuming that the generation processes among all the modals′ data are mutual independent. During the multi?modal joint retrieval, the joint probability of the query data and the document under retrieval are calculated to obtain the similarity between them. The experimental results show that this algorithm has better retrieval performance than the two?step retrieval algorithm, semantic indexing algorithm and ranking learning algorithm. In addition, the algorithm can be applied to the document joint retrieval of data with three and more modals.

Keywords: multi?modal retrieval; probabilistic graph model; maximum likelihood estimation; generative model

0 引 言

隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長,網(wǎng)絡(luò)上聚集了海量的文本、圖片、音頻和視頻數(shù)據(jù),數(shù)據(jù)的多模態(tài)性和海量性給信息檢索提出了巨大的挑戰(zhàn)[1]。傳統(tǒng)的信息檢索方法,如文本檢索和圖片檢索,往往在某一模態(tài)數(shù)據(jù)上進(jìn)行相似性匹配并返回相似度高的相同模態(tài)的數(shù)據(jù)。針對本文數(shù)據(jù),經(jīng)典的檢索方法是基于關(guān)鍵字查詢的倒排索引[2?3]。針對圖片數(shù)據(jù),單模態(tài)圖片檢索往往將圖片表示為SIFT[4],SURF[5]或者BRISK[6]等特征,然后進(jìn)行圖片的特征匹配。

在網(wǎng)絡(luò)中,每一篇文檔往往包含多種模態(tài)的數(shù)據(jù),如文本和圖片,有時也有音頻和視頻,傳統(tǒng)的單模態(tài)信息檢索方法往往針對某一模態(tài)的數(shù)據(jù)進(jìn)行檢索,其檢索結(jié)果很難達(dá)到用戶的預(yù)期期望。在應(yīng)用多種模態(tài)數(shù)據(jù)進(jìn)行信息檢索時,存在著跨模態(tài)檢索和多模態(tài)檢索兩種方法[7]。跨模態(tài)檢索要求檢索的輸入和檢索結(jié)果分別為兩種不同模態(tài)的數(shù)據(jù),如根據(jù)文本查詢檢索圖片,或者根據(jù)圖片內(nèi)容檢索文本。跨模態(tài)檢索方法主要分為以下兩類[8]:第一類方法在不同模態(tài)的數(shù)據(jù)之間建立映射,使得在一種模態(tài)下相似的數(shù)據(jù)在另一種模態(tài)下也保持相似性,屬于這類方法的主要工作有[9?13]:當(dāng)文檔中包含多種模態(tài)的數(shù)據(jù)時,這種方法需要在任意兩個模態(tài)之間建立一種映射,因而計算量非常大,并且很難移植到其他場景。第二類方法在所有的模態(tài)之上尋找一種共同的潛在語義空間,屬于這類方法的工作有[14?18]:通過將所有模態(tài)的數(shù)據(jù)映射到同一個語義空間,可以實現(xiàn)任意兩個模態(tài)數(shù)據(jù)的跨模態(tài)檢索。

區(qū)別于跨模態(tài)信息檢索,在多模態(tài)檢索中,用戶可以輸入文本、圖片等多種模態(tài)的數(shù)據(jù),其檢索結(jié)果為包含多種模態(tài)數(shù)據(jù)的文檔。這些不同模態(tài)的數(shù)據(jù)之間相互補充可以更準(zhǔn)確地反應(yīng)用戶的檢索需求。此外,這些不同模態(tài)的數(shù)據(jù)相互關(guān)聯(lián),從而與單模態(tài)信息檢索相比可以提高檢索結(jié)果的準(zhǔn)確性。在進(jìn)行多模態(tài)檢索過程中,最簡單的方法是分別對多個模態(tài)進(jìn)行單模態(tài)檢索,然后對檢索結(jié)果進(jìn)行過濾,如兩步檢索方法[19]。此外,還可以通過多個模態(tài)之間的聯(lián)合分布來描述不同模態(tài)之間的關(guān)系,從而進(jìn)行多模態(tài)數(shù)據(jù)的聯(lián)合檢索,如語義索引方法[20]和排序?qū)W習(xí)方法[21]。

本文研究了文本和圖片兩個模態(tài)下的聯(lián)合信息檢索。每一個文檔數(shù)據(jù)項包含一張圖片及相應(yīng)的文本描述或者語義標(biāo)簽,本文的目的是根據(jù)用戶輸入的圖片以及對圖片的描述檢索出相似的圖片。本文假設(shè)每一個文檔為一個“圖片—文本”對,并且圖片和文本都是由相同的語義空間生成的。在上述假設(shè)的前提下,提出一種包含多模態(tài)數(shù)據(jù)的文檔語義生成模型,并用圖模型的聯(lián)合概率來表示多模態(tài)文檔的生成概率。在給定的訓(xùn)練數(shù)據(jù)中,通過最大化訓(xùn)練數(shù)據(jù)集的生成概率進(jìn)行模型的求解。

1 文檔的語義生成模型

在文檔集合[D]中,每個文檔[d∈D]包含圖片和文本兩種模態(tài)的數(shù)據(jù),分別為[I]和[T。]令[S]表示模態(tài)無關(guān)的語義概念,并應(yīng)用[K]維向量進(jìn)行表示,即[S=[S1,S2,…,SK]],其中[Sk∈{0,1}]表示第[k]([1≤k≤K])個語義概念。[S1,S2,…,SK]中有一個或者多個值為1,其余所有的值為0,[S]所表達(dá)的語義空間的總語義概念個數(shù)為[2K]個。在可分類處理的文檔集合中,[S1,S2,…,SK]中只有一個值為1,而其余所有值都為0。依據(jù)語義概念[S,]本文提出如圖1所示的文檔語義生成模型。

在圖1所示的文檔語義生成圖模型中,[S]服從先驗參數(shù)為[μ]的多項式分布,其中先驗參數(shù)[μ=[μ1,μ2,…,μK]]是一個[K]維向量。[I]為文檔中圖片的特征向量,服從概率條件分布[pIS,θI,]其中[θI]為先驗參數(shù)。[T]為文檔中文本的特征向量,服從條件概率分布[pTS,θT,]其中[θT]為先驗參數(shù)。包含圖片和文本兩個模態(tài)的文檔[d=(I,T)]的生成過程如下:

(1) 依據(jù)多項式分布[Multi(μ)]生成語義概念[S;]

(2) 依據(jù)條件概率分布[pIS,θI]生成圖片[I;]

(3) 依據(jù)條件概率分布[pTS,θT]生成文本[T。]

本文只考慮包含圖片和文本兩種模態(tài)數(shù)據(jù)的文檔,但是該模型可以擴(kuò)展到包含多種模態(tài)數(shù)據(jù)的文檔。

2 模型估計

為了得到模型的聯(lián)合概率分布,需要對模型中的先驗參數(shù)進(jìn)行估計。本文只考慮圖片和文本兩種模態(tài)的數(shù)據(jù),因此需要估計模型的先驗參數(shù)[μ,][θI]和[θT]。

在給定的文檔集合[D]中,每一篇文檔[dn∈D]都是一個圖片—文檔對,即[dn=(In,Tn)],其中[1≤n≤N,][N]為[D]中文檔的總數(shù)。依據(jù)極大似然估計原則,可以得到如下的對數(shù)似然函數(shù):

在式(13)和式(14)中,[pSkμ]的計算見式(7)和式(8),[pXnSk,θX]和[pXqSk,θX]([X]為[I]或者[T])的計算見式(9)~式(11)。在得到每一個待檢索文檔[dn]與查詢數(shù)據(jù)[dq]之間的相似度以后,將相似度按照從大到小的順序進(jìn)行排序,并將排序靠前的若干項作為返回結(jié)果。

4 實驗結(jié)果與分析

4.1 實驗設(shè)置

實驗采用公開的Wikipedia數(shù)據(jù)集[22]和SUN數(shù)據(jù)集[23]。Wikipedia數(shù)據(jù)集包含2 866個文檔,每個文檔包含一張圖片,以及對圖片的相關(guān)說明文本,每個圖片—文檔對屬于一個特定的類別目錄,整個數(shù)據(jù)集一共可以分為10個類別。SUN數(shù)據(jù)集是一個帶文本標(biāo)簽的場景圖片數(shù)據(jù)集,共包含14 340張圖片,整個數(shù)據(jù)集一共可以分為717個類別,每個類別包含20張圖片。

對于這兩個數(shù)據(jù)集中的圖片,采用SIFT[4]特征描述符將圖片描述為128位的特征向量。對于Wikipedia數(shù)據(jù)集中的文本,采用LDA[24]模型將文本表示為10個主題的分布。對于SUN數(shù)據(jù)集中的標(biāo)簽,采用LDA模型將標(biāo)簽表示為717個主題的分布。在模型的學(xué)習(xí)過程中,將兩個數(shù)據(jù)集劃分為[23]的訓(xùn)練數(shù)據(jù)和[13]的測試數(shù)據(jù)。

在檢索算法的性能評估過程中,采用[F]值和MAP(Mean Average Precision)兩種評價指標(biāo)。在算法的對比中,將本文提出的算法與兩步檢索[19],語義索引[20]和排序?qū)W習(xí)[21]三種算法進(jìn)行對比。

4.2 實驗結(jié)果分析

首先,通過實驗對比了四種算法在Wikipedia和SUN兩個數(shù)據(jù)集下的MAP,對比結(jié)果如圖2所示。從圖2中可以看出,兩步檢索方法雖然簡單,但是檢索結(jié)果在兩個數(shù)據(jù)集下的MAP都是最低的。對于語義索引和排序?qū)W習(xí)兩種檢索算法,語義索引方法在Wikipedia數(shù)據(jù)集上的MAP低于排序?qū)W習(xí)方法,而在SUN數(shù)據(jù)集上的MAP卻高于排序?qū)W習(xí)方法,說明這兩種方法對于不同的數(shù)據(jù)集各有優(yōu)劣。本文提出的基于概率圖模型的聯(lián)合檢索方法在兩個數(shù)據(jù)集上的MAP要高于其他三種方法,這表明該方法能更好地反應(yīng)查詢數(shù)據(jù)和待檢索數(shù)據(jù)之間的相似度。

接下來,通過實驗對比了四種方法在Wikipedia和SUN兩個數(shù)據(jù)集下的F值,對比結(jié)果如圖3所示。依據(jù)F值的定義,F(xiàn)值是信息檢索中查準(zhǔn)率和召回率的調(diào)和平均值,因此可以反應(yīng)查詢結(jié)果的性能。在Wikipedia數(shù)據(jù)集中,兩步檢索、語義索引和排序?qū)W習(xí)三種方法的F值都處于0.29~0.32之間,并且它們之間的差距并不大,而本文提出的方法的F值卻超過了0.4,明顯提高了檢索的性能。在SUN數(shù)據(jù)集中,兩步檢索、語義索引和排序?qū)W習(xí)三種方法的F值都處于0.34~0.39之間,而本文方法的F值約為0.47,也明顯提高了檢索結(jié)果的性能。

最后,通過一組實驗對本文提出的方法的檢索結(jié)果進(jìn)行展示。在Wikipedia數(shù)據(jù)集中,隨機(jī)選取了一張圖片(見圖4(a))作為查詢圖片,圖片中一名男歌手在演唱,故同時將“Man singing”作為查詢文本與查詢圖片一起作為查詢數(shù)據(jù),檢索結(jié)果的前三張圖片見圖4(b)~(d)。在Wikipedia數(shù)據(jù)集中,查詢圖片所屬的類別為“music”,檢索結(jié)果的三張圖片的類別也為“music”。與此同時,雖然這四張圖片中人的姿勢不同,背景也不同,但是可以看出它們的內(nèi)容都是一名男歌手在演唱。因此,可以認(rèn)為該方法能更好地進(jìn)行多模態(tài)信息的聯(lián)合檢索。

5 結(jié) 語

本文研究了文本和圖片兩個模態(tài)下的聯(lián)合信息檢索,提出了一種多模態(tài)文檔語義生成模型以及基于該模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法。網(wǎng)絡(luò)中的文檔往往包含多種模態(tài)的數(shù)據(jù),本文假設(shè)同一文檔中多個模態(tài)的數(shù)據(jù)都是由相同的語義空間生成的。在上述假設(shè)的前提下,提出一種包含多模態(tài)數(shù)據(jù)的文檔語義生成模型,并用圖模型的聯(lián)合概率來表示多模態(tài)文檔的生成概率。實驗結(jié)果表明,提出的方法與兩步檢索、語義索引和排序?qū)W習(xí)三種多模態(tài)檢索方法相比具有更好的檢索性能。此外,該方法可以擴(kuò)展應(yīng)用到具有三個及以上模態(tài)數(shù)據(jù)的文檔聯(lián)合檢索中。

注:本文通訊作者為孫連海。

參考文獻(xiàn)

[1] 王大玲,馮時,張一飛,等.社會媒體多模態(tài)、多層次資源推薦技術(shù)研究[J].智能系統(tǒng)學(xué)報,2014,9(3):265?275.

[2] ILIC M, SPALEVIC P, VEINOVIC M. Inverted index search in data mining [C]// Proceedings of 2014 the 22nd IEEE Telecommunications Forum. Serbia: IEEE, 2014: 943?946.

[3] RAMOS J. Using TF?IDF to determine word relevance in document queries [C]// Proceedings of the First International Confe?rence on Machine Learning. [S.l.]: IEEE, 2003: 1?4.

[4] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.

[5] BAY H, ESS A, TUYTELAARS T, et al. Speeded?up robust features (SURF) [J]. Computer vision and image understan?ding, 2008, 110(3): 346?359.

[6] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable keypoints [C]// Proceedings of 2011 IEEE International Conference on Computer Vision. Switzerland: IEEE, 2011: 2548?2555.

[7] 何寧.圖像檢索中跨模語義信息獲取方法研究[D].武漢:武漢大學(xué),2013.

[8] SPENCE C. Crossmodal correspondences: a tutorial review [J]. Attention, perception & psychophysics, 2011, 73(4): 971?995.

[9] 劉亞楠,吳飛,莊越挺.基于多模態(tài)子空間相關(guān)性傳遞的視頻語義挖掘[J].計算機(jī)研究與發(fā)展,2009,46(1):1?8.

[10] WANG Y, GUAN L, VENETSANOPOULOS A N. Kernel cross?modal factor analysis for information fusion with application to bimodal emotion recognition [J]. IEEE transactions on multimedia, 2012, 14(3): 597?607.

[11] COSTA P J, COVIELLO E, DOYLE G, et al. On the role of correlation and abstraction in cross?modal multimedia retrieval [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(3): 521?535.

[12] 張鴻,吳飛,莊越挺.跨媒體相關(guān)性推理與檢索研究[J].計算機(jī)研究與發(fā)展,2008,45(5):869?876.

[13] WANG K Y, HE R, WANG W, et al. Learning coupled feature spaces for cross?modal matching [C]// Proceedings of 2013 IEEE International Conference on IEEE Computer Vision. Beijing, China: IEEE, 2013: 2088?2095.

[14] WANG W, OOI B C, YANG X, et al. Effective multi?modal retrieval based on stacked auto?encoders [J]. Proceedings of the VLDB endowment, 2014, 7(8): 649?660.

[15] WANG W, YANG X Y, OOI B C, et al. Effective deep lear?ning?based multi?modal retrieval [J]. The VLDB journal, 2016, 25(1): 79?101.

[16] SONG J, WANG Y, WU F, et al. Multi?modal retrieval via deep textual?visual correlation learning [C]// Proceedings of 2015 the 5th International Conference on Intelligence Science and Big Data Engineering. Suzhou, China: Springer International Publishing, 2015: 176?185.

[17] WANG Y F, WU F, SONG J, et al. Multi?modal mutual to?pic reinforce modeling for cross?media retrieval [C]// Procee?dings of the 22nd ACM International Conference on Multimedia. Florida: ACM, 2014: 307?316.

[18] TOEWS M, Z?LLEI L, WELLS W M. Feature?based alignment of volumetric multi?modal images [C]// Proceedings of 2013 International Conference on Information Processing in Medical Imaging. US: Springer Berlin Heidelberg, 2013: 25?36.

[19] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. Firenze: ACM, 2010: 251?260.

[20] CHANDRIKA P, JAWAHAR C V. Multi modal semantic indexing for image retrieval [C]// Proceedings of the ACM International Conference on Image and Video Retrieval. Xian, China: ACM, 2010: 342?349.

[21] WU F, JIANG X, LI X, et al. Cross?modal learning to rank via latent joint representation [J]. IEEE transactions on image processing, 2015, 24(5): 1497?1509.

[22] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010: 251?260.

[23] PATTERSON G, HAYS J. Sun attribute database: discove?ring, annotating, and recognizing scene attributes [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2751?2758.

[24] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of machine Learning research, 2003, 3: 993?1022.

主站蜘蛛池模板: 专干老肥熟女视频网站| 国产日本欧美亚洲精品视| 又猛又黄又爽无遮挡的视频网站| 久久久国产精品无码专区| 免费又爽又刺激高潮网址 | 亚洲成综合人影院在院播放| 激情爆乳一区二区| 国产成人高清精品免费| 亚洲综合天堂网| 国产一级无码不卡视频| 婷婷综合色| 一本色道久久88亚洲综合| 99re精彩视频| av无码久久精品| 国产精品视频观看裸模 | 性欧美精品xxxx| 国产97公开成人免费视频| 又粗又硬又大又爽免费视频播放| 99久久人妻精品免费二区| av一区二区无码在线| 亚洲欧美日韩中文字幕一区二区三区 | 美美女高清毛片视频免费观看| 久久久久久尹人网香蕉| 无码福利视频| 一级不卡毛片| 国产亚洲成AⅤ人片在线观看| 久久香蕉国产线| 国产极品粉嫩小泬免费看| 在线观看亚洲成人| 亚洲无码视频喷水| 欧美色亚洲| 青青青视频91在线 | 内射人妻无码色AV天堂| 2021天堂在线亚洲精品专区| 97在线碰| 免费看av在线网站网址| 欧美日本在线播放| 亚洲欧洲日韩综合色天使| 国产三级精品三级在线观看| 欧美中文字幕第一页线路一| 91精品综合| 久久婷婷色综合老司机| 小说区 亚洲 自拍 另类| 亚洲欧美日韩中文字幕一区二区三区| 久久精品亚洲中文字幕乱码| 精品一区二区三区中文字幕| 国产婬乱a一级毛片多女| 99视频国产精品| 国产亚洲精品91| 在线观看免费人成视频色快速| 成人国产精品视频频| 国产69精品久久久久孕妇大杂乱 | 91视频99| 国产成人免费观看在线视频| 日本精品中文字幕在线不卡| 国产中文在线亚洲精品官网| 中文字幕久久精品波多野结| 香蕉网久久| 欧美在线伊人| 99精品这里只有精品高清视频| 青青草久久伊人| 亚洲人成人伊人成综合网无码| 国产国语一级毛片在线视频| 国产激爽大片高清在线观看| 国产精品自拍露脸视频| 中文成人在线| 91人妻在线视频| 免费在线看黄网址| 国产高清在线观看91精品| 性激烈欧美三级在线播放| 91无码网站| 国产综合在线观看视频| 日韩无码黄色网站| 亚洲欧美另类日本| 无码专区国产精品第一页| 国产在线视频导航| 91青青视频| 久996视频精品免费观看| 又黄又爽视频好爽视频| 国产成人三级| 色综合五月婷婷| 国产中文在线亚洲精品官网|