康 娟,汪傳建
(石河子大學 信息科學與技術學院,新疆 石河子 832000)
隨著多媒體數(shù)據(jù)的爆炸式增長,其檢索已經成為諸如視頻、圖像、文章等信息檢索中的重要問題??缒B(tài)學習作為一種方法,盡管來自于認知科學和神經科學[1,2],但已經廣泛應用于多模態(tài)數(shù)據(jù)檢索。
文獻[3]提出了一種基于概念的視頻檢索方法;為了提高多模態(tài)檢索中相似性匹配的準確度,同時保持檢索結果的可解釋性,文獻[4]構建了一種雙層的多模態(tài)語義網(wǎng)絡;文獻[5]研究了一種用于包括廣播新視頻的文本和圖像的多模態(tài)檢索方法;文獻[6]從信息抽取與表示、跨模態(tài)系統(tǒng)建模兩個維度評述了基于表示學習的跨模態(tài)檢索與特征抽取方面的研究。然后從基于共享層建立各模態(tài)間的關聯(lián)、表示空間中各模態(tài)間的關聯(lián)、以深度學習為基礎的跨模態(tài)建模算法等3方面歸納了跨模態(tài)系統(tǒng)建模研究的現(xiàn)狀,總結了跨模態(tài)檢索的評價指標,并指出已有檢索研究對于單模態(tài)信息檢索較為豐富、查詢和候選集的內容均屬于同一模態(tài);文獻[7]從跨模態(tài)關聯(lián)學習出發(fā),提出了一種基于深度雙向特征學習的圖像-文本跨模態(tài)檢索方法;文獻[8,9]提出了一種基于跨模態(tài)關聯(lián)因子分析方法作為潛在語義索引(latent semantic indexing,LSI)和典型相關分析(canonical correlation analysis,CCA)的替代方法;文獻[10]表明,將視覺特征和基于概念的特征與關聯(lián)性反饋相結合,可以提高跨模態(tài)圖像檢索的質量;文獻[11]通過利用分層的潛在Dirichlet分配模型對圖像中的未標記圖像和對象進行自動注釋;另外,人機交互(human-computer interaction,HCI)也是一種以跨模態(tài)學習為基本要素的研究,包括演講和手勢等多種模式的研究。文獻[12]從手勢和演講的角度研究了多模態(tài)人類的演說;文獻[13]提出了多模態(tài)數(shù)據(jù)的協(xié)同訓練方法,以構建多模態(tài)接口。
以上這些傳統(tǒng)的多模態(tài)數(shù)據(jù)檢索方法通常是基于模式的低階共現(xiàn)而不是高階關系,如標記-圖像共現(xiàn)和典型相關分析。然而,由于文本特征和圖像特征的粒度不同,所以基于模式之間低階關系的方法可能存在局限性。因此本文提出了一種基于高階模式間關系的跨模態(tài)學習模型。
作為高階跨模態(tài)關聯(lián)的學習,本文提出了一種超網(wǎng)絡(super-networks,SNs)模型-分層超網(wǎng)絡(layered super-networks,LSNs),它執(zhí)行跨模態(tài)關聯(lián)學習和推理,包括圖像到文本和文本到圖像來進行多模態(tài)信息檢索;SNs是一種高階概率圖形模型[14],它具有包括地理位置性、組分性、自組裝性和回憶-記憶性等特性[15];一個LSN是一個具有兩層超網(wǎng)絡層次結構的超網(wǎng)絡模型。第一層由模式相關超網(wǎng)絡構成,有兩個以上的模式相關超網(wǎng)絡,而第二層中只有一個超網(wǎng)絡,它代表文本模式與圖像模式之間的關系,即一個模式集成超網(wǎng)絡。與傳統(tǒng)的超網(wǎng)絡相比,這種層次結構使得LSNs具有更高的分析效率。經過訓練的LSNs可以通過跨模態(tài)關聯(lián)推理和多模態(tài)查詢同時生成文本和圖像關鍵字。此外,還將它們與文檔中的文本術語和文章圖像中的視覺詞(借助于視覺技術從中尋找信息或意義的詞匯)進行比較,采用生成的視覺和文本關鍵字來進行查詢;采用關于女性時尚和生活風格帶有867幅圖像的198篇文章的數(shù)據(jù)集進行實驗,實驗結果表明,本文提出的高階跨模態(tài)關聯(lián)學習模型不僅可以提高生成關鍵字的相似性,而且還能夠生成文本術語,并成功檢索出具有小部分信息的文章。
超網(wǎng)絡是一種基于超圖模型的生物啟發(fā)式概率圖形模型。超網(wǎng)絡模型的特性可以概括為3個方面:基于隨機性和回憶性的地理位置性、組分性和自關聯(lián)性。
(1)地理位置性:一個超網(wǎng)絡由具有不同階的超邊構成,低階超邊可以表示一般信息,高階超邊包括更具體的和局部的信息;
(2)組分性:一個超網(wǎng)絡代表一個巨大的結構化組合空間。通過基于學習的進化策略,超網(wǎng)絡對組合問題空間進行探索;
(3)自關聯(lián)性:超網(wǎng)絡的結構是通過基于隨機選擇的進化計算自組織的。自關聯(lián)性使超網(wǎng)絡就像回憶記憶一樣。
在形式上,一個超網(wǎng)絡H定義為H=(V,E,W),其中V、E和W分別為一組頂點、一組超邊和一組權值;在超網(wǎng)絡中,一個頂點表示屬性的一個值,一個超邊表示兩個以上具有各自權值的頂點的組合。一個超邊中的頂點數(shù)目稱為一個超邊的基數(shù)或階數(shù),k-超邊表示具有k個頂點的一個超邊。當全部超邊的階數(shù)都是k時,我們就稱之為k-超網(wǎng)絡。因此,超網(wǎng)絡可以代表大量屬性之間的高階關系。

(1)

(2)

(3)

(4)
式中:Z(W) 是一個配分函數(shù),計算如下
(5)
也就是說,當將數(shù)據(jù)中的屬性視為隨機變量時,一個超網(wǎng)絡就可以用以權值作為參數(shù)的變量組合的概率分布來表示??紤]到超網(wǎng)絡的學習是選擇具有高權值的超邊,故學習可以看作是最大化對數(shù)似然的過程。從數(shù)據(jù)中學習被視為是對給定數(shù)據(jù)的一個超網(wǎng)絡的權值參數(shù)的概率最大化。在給定數(shù)據(jù)下,一個超邊權值集合的概率P(W|D) 定義如下
(6)
根據(jù)式(4)和式(6),則似然定義為

(7)
忽略P(W),使指數(shù)函數(shù)的幅角最大化就獲得最大似然,于是對式(7)兩邊取對數(shù),并代入式(1)、式(4)和式(5)得到

(8)
因此,通過減小給定數(shù)據(jù)集的超邊差,就可以使得超網(wǎng)絡的對數(shù)似然最大化。


(9)
式中:m1和m2是構成第n個數(shù)據(jù)樣本x(n)的每個模式變量的向量,與式(4)一樣,采用兩個模式生成第n個數(shù)據(jù)的概率P(x(n)|W) 定義為

(10)
假設m1和m2分別為文本和圖像模式,則由分層超網(wǎng)絡生成的數(shù)據(jù)的概率定義為
P(D|W)=P(T,I|W)=P(T|I,W)P(I|W)=
P(I|T,W)P(T|W)
(11)
式(11)表示文本和圖像之間的跨模態(tài)推理是通過學習超網(wǎng)絡的參數(shù)來進行的。圖1所示為本文提出的分層超網(wǎng)絡模型的體系結構。

圖1 分層超網(wǎng)絡模型的體系結構
第一層超網(wǎng)絡的學習與傳統(tǒng)超網(wǎng)絡的學習類似,但每種模式都要構建一個超網(wǎng)絡。首先,把多模態(tài)數(shù)據(jù)按模式進行分離。在本文中,把一篇具有唯一id的文章數(shù)據(jù)劃分為文檔中的TF-IDF值向量和所包含圖像的直方圖值向量;在第二層超網(wǎng)絡的學習中,使用唯一的id來組合每種模式的超邊,通過從每種模式生成超邊來構建一個超網(wǎng)絡;對于每種模式來說,超邊是通過選擇和組合具有非負值和隨機性的屬性來生成的。選擇具有非負值屬性的理由是,由于數(shù)據(jù)的稀疏性,全部頂點的值為零的超邊可能會以很高的概率生成,因為大多數(shù)屬性的值為零。正如在前文中所闡述,超網(wǎng)絡的學習是對數(shù)據(jù)集差異較小的超邊進行采樣。隨著學習的繼續(xù),超網(wǎng)絡的結構就更適合給定數(shù)據(jù)的分布。超邊的構建即超網(wǎng)絡的結構是由超邊的權值決定的,這些權值通過訓練數(shù)據(jù)集揭示了超邊的適應度。在本文中,我們定義一個超邊的權值w為
(12)
式中:k表示超邊的階數(shù),D是任意常數(shù),由超邊屬性決定。根據(jù)式(12),具有唯一信息的超邊通過定義得到更高的權值,同時刪除權值較低的超邊,并從訓練集中重新生成刪除的超邊數(shù)量。
第二層超網(wǎng)絡的學習是從第一層超網(wǎng)絡生成表示模式之間高階關系的超邊。第二層超網(wǎng)絡的超邊是通過將第一層超網(wǎng)絡中的超邊進行組合而生成的。在組合中,具有相同id的不同模式的超邊合并成一個新的超邊,通過與訓練集的比較,得到生成的超邊的權值,與第一層學習一樣,也從超網(wǎng)絡中刪除低權值的超邊,然后用訓練數(shù)據(jù)集對生成的超網(wǎng)絡進行評估。圖2所示為構建和學習一個分層超網(wǎng)的過程,算法1為構建和學習第二層超網(wǎng)絡的算法偽代碼。

圖2 構建和學習一個分層超網(wǎng)絡過程
算法1: 構建和學習一個分層超網(wǎng)絡的算法偽代碼
HT: 來自于文本數(shù)據(jù)的超網(wǎng)絡
HI: 來自于圖像數(shù)據(jù)的超網(wǎng)絡
HL: 分層超網(wǎng)絡
R: 替換具有低權值的超邊率
CR: 將HI的超邊率和HT的超邊率進行合并
HT←生成超網(wǎng)絡(T);HI←生成超網(wǎng)絡(I)
在事業(yè)單位的運營和發(fā)展實踐中,人事檔案管理具有非常關鍵的作用??茖W的人事檔案管理,能夠優(yōu)化事業(yè)單位人力資源配置,提升事業(yè)單位的發(fā)展水平。事業(yè)單位在人事檔案管理過程中,應該加強認識、完善制度、優(yōu)化素質,綜合性提升人事檔案管理的整體水平。
fori←1until
HT←學習超網(wǎng)絡(T);HI←學習超網(wǎng)絡(I);
HT←消除低權值超邊(R);HI←消除低權值超邊(R);HL←{};
forj←1 to |HT|
ET←HT的第j個超邊
fork←1 toCR
EI←從HI中隨機選擇具有相同id的超邊ET;
EL←ET∪EI;HL←HL∪EL
endfor
endfor
HL←消除低權值超邊(R);HL←學習超網(wǎng)絡(T,I);
評估(HL,I,T)
HT=重新采樣(T,R);HI=重新采樣(I,R);
endfor
經過訓練的LSNs可以通過跨模態(tài)關聯(lián)推理生成具有給定多模態(tài)查詢的文本術語和視覺詞??缒B(tài)關聯(lián)生成分為兩種類型:從文本到圖像即生成給定文本術語的一組視覺詞,以及從圖像到文本即用視覺詞構建一組文本術語的生成。在圖像到文本中,生成的文本術語集是由第二層超網(wǎng)絡的超邊中的文本術語構成的,其頂點包括給定的視覺詞集中的至少一個視覺詞。為了選擇文本術語,我們定義一個基于文本術語和視覺詞共現(xiàn)的得分。對于一個視覺詞集Q,第二層超網(wǎng)絡的第n個超邊En中的第i個文本術語的得分SIdx(i),En定義為

(13)
式中:xIdx(i)為指標為Idx(i) 的文本術語屬性的值,Idx(i) 表示超邊En的第i個文本術語的向量表示中的指標,wn表示En的權值,|Q-En| 為相對補集的大小,C為懲罰常數(shù),根據(jù)文本術語屬性選取,一般在0.5~1之間。因此,SIdx(i)是通過對全部超邊求和得到的,即
(14)
式中: |E| 表示第二層超網(wǎng)絡中的超邊數(shù)目。根據(jù)式(13),如果一個超邊包括一個給定視覺詞集中的視覺詞越多,則在該超邊中的文本術語的得分就越高,這樣,具有較高得分的文本術語包含在生成的文本關鍵字的候選項中。
與圖像到文本一樣,用經過訓練的分層超網(wǎng)絡和給定的文本術語就可生成一組視覺詞。
我們采用從《麗人坊》、《女人坊》和《時尚健康·女士》3本雜志關于女性時尚和生活風格帶有867幅圖像的198篇文章作為訓練數(shù)據(jù)集。作為建模預處理,將文章中的文檔轉換為500個文本術語的TF-IDF值向量,這些文本術語是根據(jù)在提取詞干后的文檔中出現(xiàn)的頻率選擇的,將提取的402個視覺詞的直方圖向量來表示圖像。然后,由于超網(wǎng)絡模型可以處理離散數(shù)據(jù),因此將每個模式的值轉換為從0到2的3級值。把數(shù)據(jù)分為包含88個文檔和755幅圖像的訓練集以及由10個文檔和84幅圖像構成的測試集,用于文章檢索。表1所示為用于訓練分層超網(wǎng)的參數(shù)設置。

表1 用于實驗的參數(shù)設置
我們通過將生成的文本術語和視覺詞與給定查詢中的文本和圖像關鍵字進行比較來評價高階跨模態(tài)關聯(lián)學習生成的相似性。為了評價這種相似性,定義兩個度量指標。第一個度量指標為正確率(ratio of correctness,RC)。將構成文章中的文檔和圖像的文本術語和視覺詞作為其元素的集合引用到原始集合中,生成與原始集合大小相同數(shù)量的文本術語和視覺詞。然后,當給定部分文本術語和視覺詞時,將生成的文本或視覺集與原始集進行比較,于是RC定義為
(15)
根據(jù)式(15),RC的值在0到1之間;第二個度量指標是背景評分(context score,CS),它基于在文章數(shù)據(jù)的文檔和圖像中具有非負值的全部文本術語和視覺詞的成對共現(xiàn)結果。為了得到CS,我們定義第i個和第j個關鍵字的成對共現(xiàn)度量如下

(16)
式中:xi和xj是第n個數(shù)據(jù)樣本x(n)中指標為i和j的樣本值,N是數(shù)據(jù)集的大小,于是,CS定義為
(17)
式中: |G| 為生成的文本術語或視覺詞集的大小。CS與RC的不同之處在于CS反映的是生成關鍵字之間關系的背景。即使兩個生成集的RC是相同的,但兩個生成集的CS可能是彼此不同的,這取決于因錯誤生成的關鍵字的共現(xiàn)頻率。
圖3和圖4所示為當給定一些文本術語和視覺詞作為查詢時,對于全部訓練集的文本到圖像生成的視覺詞和圖像到文本生成的文本術語的RC和CS結果。圖3給出了通過圖像到文本生成的88個文檔的文本術語的平均RC和CS。從圖3可以看到,與僅采用文本查詢相比,本文提出的跨模態(tài)學習查詢可以提高與給定查詢相關的文本術語生成正確率40%以上;從圖3還可看到,當給定相同數(shù)量的文本術語時,生成的文本術語的相似性隨著給定圖像信息的增加而增加;圖4給出了由文本到圖像生成的755幅圖像的視覺詞的平均RC和CS。與圖3一樣,與僅采用輸入圖像查詢相比,本文提出的跨模態(tài)學習提高了視覺詞的RC和CS。從圖4(a)還可看到,不同于圖像到文本的生成,當給定兩個以上的文本術語時,RC會達到飽和。此外,從圖4(b)也可看到,CS也顯示出與圖像到文本生成不同的趨勢。這是由于一篇文章是由1個文檔和多個圖像構成的,以至于圖像信息比文本信息更重要。

圖3 通過圖像到文本生成的文本術語的平均RC和CS
由于圖像數(shù)據(jù)的大小約為文檔的10倍,圖像的直方圖向量中的非零變量數(shù)遠大于文檔的TF-IDF向量中的非零變量數(shù),因此文本到圖像生成的背景得分比圖像到文本生成的背景得分要高得多,這從圖3(b)和圖4(b)可以明顯看出。

圖4 通過文本到圖像生成的視覺詞的平均RC和CS
圖5所示為當給定文章中的1個文本術語和20%的視覺詞作為查詢時,RC為1的文章的4組文本術語和1個圖像。可見,通過本文的高階跨模態(tài)關聯(lián)學習,可以生成與圖像相似度極高的文本術語,并且能夠檢索出具有小部分信息的文章,文章包含了給定文本術語和視覺詞時所得到的正確信息。

圖5 采用給定文本術語和20%的視覺詞生成的文章
圖6所示為對于測試數(shù)據(jù)集采用經過訓練的分層超網(wǎng)絡,當給定部分文本術語時,文章成功檢索的比例。在本文中,當候選對象包括測試文章(其文本術語和視覺詞被作為查詢給定)時,我們就認為文章檢索是成功的。從圖6可見,給定兩個以上的文本術語和一半的圖像,當候選對象的大小為20時,用戶想要的文章可以包含90%以上。

圖6 測試數(shù)據(jù)集成功檢索比例與給定文本術語數(shù)量的關系
本文針對給定的多模態(tài)查詢,提出了一種用于跨模態(tài)關聯(lián)學習的LSNs,以及一種采用LSNs的基于文本到圖像和圖像到文本的高階跨模態(tài)推理的視覺和文本關鍵字生成方法;實驗結果表明,基于模式間的高階跨模態(tài)關聯(lián)生成關鍵字是可行的,而且與單模態(tài)查詢相比,多模態(tài)查詢提高了生成的關鍵字的相似性;另外,本文提出的模型和方法也可以應用于單一的文章檢索系統(tǒng)中;在未來的研究工作中,我們將把跨模態(tài)高階關聯(lián)關鍵字生成方法應用于諸如未標注圖像的自動標注以及多模態(tài)信息的檢索中。