甘勝江 孫連海 何俊林 盧穎



摘 要: 為了提高多模態(tài)檢索的性能,提出一種多模態(tài)文檔語義生成模型以及基于該模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法。多模態(tài)文檔語義生成模型認(rèn)為文檔中每個模態(tài)數(shù)據(jù)都是由相同的語義概念生成的,并且文檔是多個模態(tài)數(shù)據(jù)的聯(lián)合分布。為了簡化模型的求解過程,假設(shè)各個模態(tài)數(shù)據(jù)之間的生成過程是相互獨立的,于是可以對每個模態(tài)的條件概率進(jìn)行單獨計算。在多模態(tài)聯(lián)合檢索中,通過計算查詢數(shù)據(jù)和待檢索文檔的聯(lián)合概率來計算它們之間的相似度。實驗結(jié)果表明,提出的方法與兩步檢索、語義索引和排序?qū)W習(xí)三種多模態(tài)檢索方法相比具有更好的檢索性能。此外,該方法可以擴(kuò)展應(yīng)用到具有三個及以上模態(tài)數(shù)據(jù)的文檔聯(lián)合檢索中。
關(guān)鍵詞: 多模態(tài)檢索; 概率圖模型; 極大似然估計; 產(chǎn)生式模型
中圖分類號: TN919?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)05?0033?05
Abstract: In order to improve the performance of the multi?modal retrieval, a semantic generation model of the multi?modal document and a joint retrieval algorithm for multi?modal data based on this model are proposed. The semantic generation model of the multi?modal document deems that the data of each modal in the document is generated by the same semantic concept, and the documents complies with the joint distribution of data of multiple modals. In order to simplify the solving process of model, the conditional probability of each modal can be calculated independently if assuming that the generation processes among all the modals′ data are mutual independent. During the multi?modal joint retrieval, the joint probability of the query data and the document under retrieval are calculated to obtain the similarity between them. The experimental results show that this algorithm has better retrieval performance than the two?step retrieval algorithm, semantic indexing algorithm and ranking learning algorithm. In addition, the algorithm can be applied to the document joint retrieval of data with three and more modals.
Keywords: multi?modal retrieval; probabilistic graph model; maximum likelihood estimation; generative model
0 引 言
隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長,網(wǎng)絡(luò)上聚集了海量的文本、圖片、音頻和視頻數(shù)據(jù),數(shù)據(jù)的多模態(tài)性和海量性給信息檢索提出了巨大的挑戰(zhàn)[1]。傳統(tǒng)的信息檢索方法,如文本檢索和圖片檢索,往往在某一模態(tài)數(shù)據(jù)上進(jìn)行相似性匹配并返回相似度高的相同模態(tài)的數(shù)據(jù)。針對本文數(shù)據(jù),經(jīng)典的檢索方法是基于關(guān)鍵字查詢的倒排索引[2?3]。針對圖片數(shù)據(jù),單模態(tài)圖片檢索往往將圖片表示為SIFT[4],SURF[5]或者BRISK[6]等特征,然后進(jìn)行圖片的特征匹配。
在網(wǎng)絡(luò)中,每一篇文檔往往包含多種模態(tài)的數(shù)據(jù),如文本和圖片,有時也有音頻和視頻,傳統(tǒng)的單模態(tài)信息檢索方法往往針對某一模態(tài)的數(shù)據(jù)進(jìn)行檢索,其檢索結(jié)果很難達(dá)到用戶的預(yù)期期望。在應(yīng)用多種模態(tài)數(shù)據(jù)進(jìn)行信息檢索時,存在著跨模態(tài)檢索和多模態(tài)檢索兩種方法[7]。跨模態(tài)檢索要求檢索的輸入和檢索結(jié)果分別為兩種不同模態(tài)的數(shù)據(jù),如根據(jù)文本查詢檢索圖片,或者根據(jù)圖片內(nèi)容檢索文本。跨模態(tài)檢索方法主要分為以下兩類[8]:第一類方法在不同模態(tài)的數(shù)據(jù)之間建立映射,使得在一種模態(tài)下相似的數(shù)據(jù)在另一種模態(tài)下也保持相似性,屬于這類方法的主要工作有[9?13]:當(dāng)文檔中包含多種模態(tài)的數(shù)據(jù)時,這種方法需要在任意兩個模態(tài)之間建立一種映射,因而計算量非常大,并且很難移植到其他場景。第二類方法在所有的模態(tài)之上尋找一種共同的潛在語義空間,屬于這類方法的工作有[14?18]:通過將所有模態(tài)的數(shù)據(jù)映射到同一個語義空間,可以實現(xiàn)任意兩個模態(tài)數(shù)據(jù)的跨模態(tài)檢索。
區(qū)別于跨模態(tài)信息檢索,在多模態(tài)檢索中,用戶可以輸入文本、圖片等多種模態(tài)的數(shù)據(jù),其檢索結(jié)果為包含多種模態(tài)數(shù)據(jù)的文檔。這些不同模態(tài)的數(shù)據(jù)之間相互補充可以更準(zhǔn)確地反應(yīng)用戶的檢索需求。此外,這些不同模態(tài)的數(shù)據(jù)相互關(guān)聯(lián),從而與單模態(tài)信息檢索相比可以提高檢索結(jié)果的準(zhǔn)確性。在進(jìn)行多模態(tài)檢索過程中,最簡單的方法是分別對多個模態(tài)進(jìn)行單模態(tài)檢索,然后對檢索結(jié)果進(jìn)行過濾,如兩步檢索方法[19]。此外,還可以通過多個模態(tài)之間的聯(lián)合分布來描述不同模態(tài)之間的關(guān)系,從而進(jìn)行多模態(tài)數(shù)據(jù)的聯(lián)合檢索,如語義索引方法[20]和排序?qū)W習(xí)方法[21]。
本文研究了文本和圖片兩個模態(tài)下的聯(lián)合信息檢索。每一個文檔數(shù)據(jù)項包含一張圖片及相應(yīng)的文本描述或者語義標(biāo)簽,本文的目的是根據(jù)用戶輸入的圖片以及對圖片的描述檢索出相似的圖片。本文假設(shè)每一個文檔為一個“圖片—文本”對,并且圖片和文本都是由相同的語義空間生成的。在上述假設(shè)的前提下,提出一種包含多模態(tài)數(shù)據(jù)的文檔語義生成模型,并用圖模型的聯(lián)合概率來表示多模態(tài)文檔的生成概率。在給定的訓(xùn)練數(shù)據(jù)中,通過最大化訓(xùn)練數(shù)據(jù)集的生成概率進(jìn)行模型的求解。
1 文檔的語義生成模型
在文檔集合[D]中,每個文檔[d∈D]包含圖片和文本兩種模態(tài)的數(shù)據(jù),分別為[I]和[T。]令[S]表示模態(tài)無關(guān)的語義概念,并應(yīng)用[K]維向量進(jìn)行表示,即[S=[S1,S2,…,SK]],其中[Sk∈{0,1}]表示第[k]([1≤k≤K])個語義概念。[S1,S2,…,SK]中有一個或者多個值為1,其余所有的值為0,[S]所表達(dá)的語義空間的總語義概念個數(shù)為[2K]個。在可分類處理的文檔集合中,[S1,S2,…,SK]中只有一個值為1,而其余所有值都為0。依據(jù)語義概念[S,]本文提出如圖1所示的文檔語義生成模型。
在圖1所示的文檔語義生成圖模型中,[S]服從先驗參數(shù)為[μ]的多項式分布,其中先驗參數(shù)[μ=[μ1,μ2,…,μK]]是一個[K]維向量。[I]為文檔中圖片的特征向量,服從概率條件分布[pIS,θI,]其中[θI]為先驗參數(shù)。[T]為文檔中文本的特征向量,服從條件概率分布[pTS,θT,]其中[θT]為先驗參數(shù)。包含圖片和文本兩個模態(tài)的文檔[d=(I,T)]的生成過程如下:
(1) 依據(jù)多項式分布[Multi(μ)]生成語義概念[S;]
(2) 依據(jù)條件概率分布[pIS,θI]生成圖片[I;]
(3) 依據(jù)條件概率分布[pTS,θT]生成文本[T。]
本文只考慮包含圖片和文本兩種模態(tài)數(shù)據(jù)的文檔,但是該模型可以擴(kuò)展到包含多種模態(tài)數(shù)據(jù)的文檔。
2 模型估計
為了得到模型的聯(lián)合概率分布,需要對模型中的先驗參數(shù)進(jìn)行估計。本文只考慮圖片和文本兩種模態(tài)的數(shù)據(jù),因此需要估計模型的先驗參數(shù)[μ,][θI]和[θT]。
在給定的文檔集合[D]中,每一篇文檔[dn∈D]都是一個圖片—文檔對,即[dn=(In,Tn)],其中[1≤n≤N,][N]為[D]中文檔的總數(shù)。依據(jù)極大似然估計原則,可以得到如下的對數(shù)似然函數(shù):
在式(13)和式(14)中,[pSkμ]的計算見式(7)和式(8),[pXnSk,θX]和[pXqSk,θX]([X]為[I]或者[T])的計算見式(9)~式(11)。在得到每一個待檢索文檔[dn]與查詢數(shù)據(jù)[dq]之間的相似度以后,將相似度按照從大到小的順序進(jìn)行排序,并將排序靠前的若干項作為返回結(jié)果。
4 實驗結(jié)果與分析
4.1 實驗設(shè)置
實驗采用公開的Wikipedia數(shù)據(jù)集[22]和SUN數(shù)據(jù)集[23]。Wikipedia數(shù)據(jù)集包含2 866個文檔,每個文檔包含一張圖片,以及對圖片的相關(guān)說明文本,每個圖片—文檔對屬于一個特定的類別目錄,整個數(shù)據(jù)集一共可以分為10個類別。SUN數(shù)據(jù)集是一個帶文本標(biāo)簽的場景圖片數(shù)據(jù)集,共包含14 340張圖片,整個數(shù)據(jù)集一共可以分為717個類別,每個類別包含20張圖片。
對于這兩個數(shù)據(jù)集中的圖片,采用SIFT[4]特征描述符將圖片描述為128位的特征向量。對于Wikipedia數(shù)據(jù)集中的文本,采用LDA[24]模型將文本表示為10個主題的分布。對于SUN數(shù)據(jù)集中的標(biāo)簽,采用LDA模型將標(biāo)簽表示為717個主題的分布。在模型的學(xué)習(xí)過程中,將兩個數(shù)據(jù)集劃分為[23]的訓(xùn)練數(shù)據(jù)和[13]的測試數(shù)據(jù)。
在檢索算法的性能評估過程中,采用[F]值和MAP(Mean Average Precision)兩種評價指標(biāo)。在算法的對比中,將本文提出的算法與兩步檢索[19],語義索引[20]和排序?qū)W習(xí)[21]三種算法進(jìn)行對比。
4.2 實驗結(jié)果分析
首先,通過實驗對比了四種算法在Wikipedia和SUN兩個數(shù)據(jù)集下的MAP,對比結(jié)果如圖2所示。從圖2中可以看出,兩步檢索方法雖然簡單,但是檢索結(jié)果在兩個數(shù)據(jù)集下的MAP都是最低的。對于語義索引和排序?qū)W習(xí)兩種檢索算法,語義索引方法在Wikipedia數(shù)據(jù)集上的MAP低于排序?qū)W習(xí)方法,而在SUN數(shù)據(jù)集上的MAP卻高于排序?qū)W習(xí)方法,說明這兩種方法對于不同的數(shù)據(jù)集各有優(yōu)劣。本文提出的基于概率圖模型的聯(lián)合檢索方法在兩個數(shù)據(jù)集上的MAP要高于其他三種方法,這表明該方法能更好地反應(yīng)查詢數(shù)據(jù)和待檢索數(shù)據(jù)之間的相似度。
接下來,通過實驗對比了四種方法在Wikipedia和SUN兩個數(shù)據(jù)集下的F值,對比結(jié)果如圖3所示。依據(jù)F值的定義,F(xiàn)值是信息檢索中查準(zhǔn)率和召回率的調(diào)和平均值,因此可以反應(yīng)查詢結(jié)果的性能。在Wikipedia數(shù)據(jù)集中,兩步檢索、語義索引和排序?qū)W習(xí)三種方法的F值都處于0.29~0.32之間,并且它們之間的差距并不大,而本文提出的方法的F值卻超過了0.4,明顯提高了檢索的性能。在SUN數(shù)據(jù)集中,兩步檢索、語義索引和排序?qū)W習(xí)三種方法的F值都處于0.34~0.39之間,而本文方法的F值約為0.47,也明顯提高了檢索結(jié)果的性能。
最后,通過一組實驗對本文提出的方法的檢索結(jié)果進(jìn)行展示。在Wikipedia數(shù)據(jù)集中,隨機(jī)選取了一張圖片(見圖4(a))作為查詢圖片,圖片中一名男歌手在演唱,故同時將“Man singing”作為查詢文本與查詢圖片一起作為查詢數(shù)據(jù),檢索結(jié)果的前三張圖片見圖4(b)~(d)。在Wikipedia數(shù)據(jù)集中,查詢圖片所屬的類別為“music”,檢索結(jié)果的三張圖片的類別也為“music”。與此同時,雖然這四張圖片中人的姿勢不同,背景也不同,但是可以看出它們的內(nèi)容都是一名男歌手在演唱。因此,可以認(rèn)為該方法能更好地進(jìn)行多模態(tài)信息的聯(lián)合檢索。
5 結(jié) 語
本文研究了文本和圖片兩個模態(tài)下的聯(lián)合信息檢索,提出了一種多模態(tài)文檔語義生成模型以及基于該模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法。網(wǎng)絡(luò)中的文檔往往包含多種模態(tài)的數(shù)據(jù),本文假設(shè)同一文檔中多個模態(tài)的數(shù)據(jù)都是由相同的語義空間生成的。在上述假設(shè)的前提下,提出一種包含多模態(tài)數(shù)據(jù)的文檔語義生成模型,并用圖模型的聯(lián)合概率來表示多模態(tài)文檔的生成概率。實驗結(jié)果表明,提出的方法與兩步檢索、語義索引和排序?qū)W習(xí)三種多模態(tài)檢索方法相比具有更好的檢索性能。此外,該方法可以擴(kuò)展應(yīng)用到具有三個及以上模態(tài)數(shù)據(jù)的文檔聯(lián)合檢索中。
注:本文通訊作者為孫連海。
參考文獻(xiàn)
[1] 王大玲,馮時,張一飛,等.社會媒體多模態(tài)、多層次資源推薦技術(shù)研究[J].智能系統(tǒng)學(xué)報,2014,9(3):265?275.
[2] ILIC M, SPALEVIC P, VEINOVIC M. Inverted index search in data mining [C]// Proceedings of 2014 the 22nd IEEE Telecommunications Forum. Serbia: IEEE, 2014: 943?946.
[3] RAMOS J. Using TF?IDF to determine word relevance in document queries [C]// Proceedings of the First International Confe?rence on Machine Learning. [S.l.]: IEEE, 2003: 1?4.
[4] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.
[5] BAY H, ESS A, TUYTELAARS T, et al. Speeded?up robust features (SURF) [J]. Computer vision and image understan?ding, 2008, 110(3): 346?359.
[6] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable keypoints [C]// Proceedings of 2011 IEEE International Conference on Computer Vision. Switzerland: IEEE, 2011: 2548?2555.
[7] 何寧.圖像檢索中跨模語義信息獲取方法研究[D].武漢:武漢大學(xué),2013.
[8] SPENCE C. Crossmodal correspondences: a tutorial review [J]. Attention, perception & psychophysics, 2011, 73(4): 971?995.
[9] 劉亞楠,吳飛,莊越挺.基于多模態(tài)子空間相關(guān)性傳遞的視頻語義挖掘[J].計算機(jī)研究與發(fā)展,2009,46(1):1?8.
[10] WANG Y, GUAN L, VENETSANOPOULOS A N. Kernel cross?modal factor analysis for information fusion with application to bimodal emotion recognition [J]. IEEE transactions on multimedia, 2012, 14(3): 597?607.
[11] COSTA P J, COVIELLO E, DOYLE G, et al. On the role of correlation and abstraction in cross?modal multimedia retrieval [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(3): 521?535.
[12] 張鴻,吳飛,莊越挺.跨媒體相關(guān)性推理與檢索研究[J].計算機(jī)研究與發(fā)展,2008,45(5):869?876.
[13] WANG K Y, HE R, WANG W, et al. Learning coupled feature spaces for cross?modal matching [C]// Proceedings of 2013 IEEE International Conference on IEEE Computer Vision. Beijing, China: IEEE, 2013: 2088?2095.
[14] WANG W, OOI B C, YANG X, et al. Effective multi?modal retrieval based on stacked auto?encoders [J]. Proceedings of the VLDB endowment, 2014, 7(8): 649?660.
[15] WANG W, YANG X Y, OOI B C, et al. Effective deep lear?ning?based multi?modal retrieval [J]. The VLDB journal, 2016, 25(1): 79?101.
[16] SONG J, WANG Y, WU F, et al. Multi?modal retrieval via deep textual?visual correlation learning [C]// Proceedings of 2015 the 5th International Conference on Intelligence Science and Big Data Engineering. Suzhou, China: Springer International Publishing, 2015: 176?185.
[17] WANG Y F, WU F, SONG J, et al. Multi?modal mutual to?pic reinforce modeling for cross?media retrieval [C]// Procee?dings of the 22nd ACM International Conference on Multimedia. Florida: ACM, 2014: 307?316.
[18] TOEWS M, Z?LLEI L, WELLS W M. Feature?based alignment of volumetric multi?modal images [C]// Proceedings of 2013 International Conference on Information Processing in Medical Imaging. US: Springer Berlin Heidelberg, 2013: 25?36.
[19] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. Firenze: ACM, 2010: 251?260.
[20] CHANDRIKA P, JAWAHAR C V. Multi modal semantic indexing for image retrieval [C]// Proceedings of the ACM International Conference on Image and Video Retrieval. Xian, China: ACM, 2010: 342?349.
[21] WU F, JIANG X, LI X, et al. Cross?modal learning to rank via latent joint representation [J]. IEEE transactions on image processing, 2015, 24(5): 1497?1509.
[22] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010: 251?260.
[23] PATTERSON G, HAYS J. Sun attribute database: discove?ring, annotating, and recognizing scene attributes [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2751?2758.
[24] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of machine Learning research, 2003, 3: 993?1022.