999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態(tài)信息融合的新聞圖像人臉標(biāo)注

2017-12-14 05:22:24吉立新李邵梅
計(jì)算機(jī)應(yīng)用 2017年10期
關(guān)鍵詞:文本信息

征 察,吉立新,李邵梅,高 超

(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 鄭州 450000) (*通信作者電子郵箱zcpi31415926@163.com)

基于多模態(tài)信息融合的新聞圖像人臉標(biāo)注

征 察*,吉立新,李邵梅,高 超

(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 鄭州 450000) (*通信作者電子郵箱zcpi31415926@163.com)

針對(duì)傳統(tǒng)新聞圖像中人臉標(biāo)注方法主要依賴人臉相似度信息,分辨噪聲和非噪聲人臉能力以及非噪聲人臉標(biāo)注能力較差的問題,提出一種基于多模態(tài)信息融合的新聞圖像人臉標(biāo)注方法。首先根據(jù)人臉和姓名的共現(xiàn)關(guān)系,利用改進(jìn)的K近鄰算法,獲得基于人臉相似度信息的人臉姓名匹配度;然后,分別從圖像中提取人臉大小和位置的信息對(duì)人臉重要程度進(jìn)行表征,從文本中提取姓名位置信息對(duì)姓名重要程度進(jìn)行表征;最后,使用反向傳播神經(jīng)網(wǎng)絡(luò)來融合上述信息完成人臉標(biāo)簽的推理,并提出一個(gè)標(biāo)簽修正策略來進(jìn)一步改善標(biāo)注結(jié)果。在Label Yahoo! News數(shù)據(jù)集上的測(cè)試效果表明,所提方法的標(biāo)注準(zhǔn)確率、精度和召回率分別達(dá)到了77.11%、73.58%和78.75%,與僅基于人臉相似度的算法相比,具有較好的分辨噪聲和非噪聲人臉能力以及非噪聲人臉標(biāo)注能力。

新聞圖像;人臉標(biāo)注;K近鄰算法;多模態(tài)信息;反向傳播神經(jīng)網(wǎng)絡(luò)

0 引言

作為公開情報(bào)挖掘、大規(guī)模人臉數(shù)據(jù)庫(kù)建立和跨媒體信息檢索等多個(gè)領(lǐng)域的支撐技術(shù),新聞圖像中的人臉標(biāo)注一直是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)研究熱點(diǎn)。其目的是針對(duì)有文本描述的新聞圖像,將圖像中的人臉用其在文本中的真實(shí)姓名作為標(biāo)簽進(jìn)行標(biāo)注。

當(dāng)前,研究者已提出了一系列人臉標(biāo)注的方法。FaceBook、Google等互聯(lián)網(wǎng)公司提出的多種基于深度學(xué)習(xí)的人臉標(biāo)注模型[1-3]取得了很好的效果。但是這些模型的訓(xùn)練需要海量的訓(xùn)練數(shù)據(jù),這通常難以獲得。為了減少對(duì)訓(xùn)練數(shù)據(jù)的依賴,主流方法主要通過無監(jiān)督和弱監(jiān)督學(xué)習(xí)的方式進(jìn)行人臉標(biāo)注。劉勝宇[4]使用近鄰傳播(Affinity Propagation, AP)聚類算法[5]對(duì)大量待標(biāo)注人臉進(jìn)行聚類,并認(rèn)為聚類結(jié)果中每個(gè)類簇中的人臉具有相同的標(biāo)簽,之后通過分析每個(gè)類簇中人臉的候選姓名來確定人臉標(biāo)簽。Luo等[6]2-6將新聞圖像中的人臉視為是被多個(gè)候選姓名同時(shí)標(biāo)記的數(shù)據(jù),并根據(jù)最大邊緣準(zhǔn)則,提出了MMS(Maximum Margin Set)算法,通過最大化人臉被候選姓名標(biāo)注和被非候選姓名標(biāo)注時(shí)的置信度差異,來獲得人臉標(biāo)注模型。Zhang等[7]提出基于示例的偏標(biāo)記學(xué)習(xí)(Instance-based PArtial Label learning, IPAL)算法,通過基于人臉間親密度的標(biāo)簽傳播來獲得每個(gè)人臉的標(biāo)簽。Wang等[8-10]提出了一系列基于檢索的人臉標(biāo)注方法。這些方法將待標(biāo)注人臉在大規(guī)模人臉數(shù)據(jù)庫(kù)中進(jìn)行檢索,并根據(jù)返回的最相似的若干張人臉圖像的姓名推理出待標(biāo)注人臉的標(biāo)簽。Chen等[11]1-3采用多信息融合的方式進(jìn)行人臉標(biāo)簽推理。其首先使用基于檢索的方法IM(Image Match)和基于圖模型的方法GM(Graph Match)分別得到兩種人臉標(biāo)注結(jié)果,并根據(jù)兩種結(jié)果融合方式的不同,提出了兩種基于信息融合的人臉標(biāo)注方法:EF-IMGA (Early Fusion of IM and GA method)和LF-IMGA (Later Fusion of IM and GA method)。

圖1 基于多模態(tài)信息融合的新聞圖像人臉標(biāo)注方法框架

可以看出,現(xiàn)有的方法主要依賴于人臉相似度信息來完成人臉標(biāo)注。這帶來以下兩個(gè)問題:首先,在待標(biāo)注人臉集中常含有大量在文本中不存在真實(shí)姓名的噪聲人臉[12]7,這些噪聲人臉主要由新聞圖像中的背景人物的人臉,以及被人臉檢測(cè)器誤檢為人臉的非人臉物體組成。僅依靠人臉相似度信息很難將噪聲人臉和非噪聲人臉區(qū)分開,并對(duì)噪聲人臉和非噪聲人臉準(zhǔn)確標(biāo)注。其次,由于新聞圖像中人物的不同表情、光照和姿勢(shì)等因素帶來的視覺空間差異,人臉相似度可靠性較低[13-14],即使可以將噪聲人臉和非噪聲人臉區(qū)分開,僅靠人臉相似度也很難將非噪聲人臉標(biāo)注正確。

然而,在新聞圖像-文本數(shù)據(jù)集中,除人臉相似度信息外,還存在其他一些有助于確定人臉標(biāo)簽的信息。根據(jù)Mathialaga等[15]1的研究可知,在圖像中并非所有的人臉都是同等重要的,通常圖像中面積越大的人臉越重要。同樣Berg等[16]2-3的研究顯示,當(dāng)文本中存在多個(gè)候選姓名時(shí),往往越早出現(xiàn)的姓名越重要。受此啟發(fā),本文提出噪聲人臉相對(duì)于非噪聲人臉重要程度較低,且非噪聲人臉和其真實(shí)姓名應(yīng)具有同等重要程度的假設(shè),并基于該假設(shè)提出一種基于多模態(tài)信息融合的新聞圖像人臉標(biāo)注(Face Annotation in news images based on Multi-modal Information Fusion, FAMIF)方法,通過融合多種有助于確定人臉標(biāo)簽的信息來進(jìn)行人臉標(biāo)注。FAMIF首先提取出基于人臉相似度的人臉姓名匹配度、人臉重要程度和候選姓名重要程度等多模態(tài)信息;然后訓(xùn)練一個(gè)融合上述三種信息的信息融合模型來進(jìn)行人臉姓名的推理;最后,根據(jù)同張圖像中人臉姓名關(guān)系的約束,提出一種標(biāo)簽修正策略來進(jìn)一步提高人臉標(biāo)注效果。實(shí)驗(yàn)結(jié)果表明,FAMIF相對(duì)于僅基于人臉相似度的方法有較好的噪聲、非噪聲人臉分辨能力,以及非噪聲人臉的標(biāo)注能力。

1 基于多模態(tài)信息融合的人臉標(biāo)注方法

1.1 方法框架

FAMIF的總體框架如圖1所示。首先在新聞圖像中對(duì)待標(biāo)注人臉進(jìn)行檢測(cè)和表征,結(jié)果表示為F={f1,f2,…,fi,…,fp},其中p為圖像中待標(biāo)注人臉總數(shù)。同時(shí)將從文本中檢測(cè)出的所有姓名作為F中的每個(gè)待標(biāo)注人臉的候選姓名集,表示為C={c1,c2,…,cj,…,cq,null},其中c1,c2,…,cj,…,cq組成了真實(shí)候選姓名集Cr,而null是人為添加的一個(gè)標(biāo)簽,用于標(biāo)注噪聲人臉。其次,從圖像中提取出人臉大小Fs(fi)和人臉位置Fp(fi)用于表征人臉fi的重要程度DF(fi),并從文本中提取出兩種姓名位置信息Np1(cj)和Np2(cj)用于表征候選姓名cj的重要程度DN(cj),以及基于人臉相似度信息得到fi和cj間的人臉姓名匹配度Fr(fi,cj)。這樣待標(biāo)注人臉-候選姓名對(duì){fi,cj},便可以被表征為一個(gè)含有多種信息的特征向量X(fi,cj)。之后,訓(xùn)練一個(gè)滿足如式(1)條件的信息融合模型Z:

Z(X(fi,ni))≥Z(X(fi,cj)); 1≤i≤p,cj∈C

(1)

(2)

最后,根據(jù)同張圖像上,除null標(biāo)簽外,多張人臉不能擁有相同標(biāo)簽這一約束,提出一個(gè)標(biāo)簽修正策略對(duì)人臉的初始標(biāo)簽進(jìn)行修正,得到最終的人臉標(biāo)注結(jié)果Y={y1,y2,…,yi,…,yp}。

為了表示的方便,在下文的敘述中當(dāng)表示某類數(shù)據(jù)的一般個(gè)例時(shí)不標(biāo)注下標(biāo),當(dāng)有必要表達(dá)序號(hào)的概念時(shí)再標(biāo)注下標(biāo)。如“某個(gè)待標(biāo)注人臉”表示為f,“待標(biāo)注人臉集合中的第i個(gè)人臉”表示為fi。

1.2 多模態(tài)信息提取

1.2.1 基于人臉相似度的人臉姓名匹配度

盡管由于多種因素的影響,新聞圖像中的人臉相似度信息的可靠性較低,但其仍能為確定人臉標(biāo)簽提供重要的線索。本文利用人臉相似度信息的方式是建立一個(gè)基于改進(jìn)的K近鄰(K-Nearest Neighbor,KNN)算法的分類模型來獲得人臉姓名匹配度,并將其作為用于人臉姓名推理的一維信息。

基于KNN的分類方法的傳統(tǒng)思路是:假設(shè)已知圖像中的待標(biāo)注人臉f和其真實(shí)候選姓名集{c1,c2,…,cq},以及由其中每個(gè)候選姓名的真實(shí)人臉樣本所組成的訓(xùn)練集T={(f1T,n1T),(f2T,n2T),…,(ftT,ntT)}(其中,上標(biāo)T表示訓(xùn)練數(shù)據(jù)),根據(jù)設(shè)定的距離度量,計(jì)算訓(xùn)練集中每個(gè)樣本和f的距離,并將距離f最近的k個(gè)樣本點(diǎn)所組成的集合記為Nk(f)。在Nk(f)中根據(jù)分類決策規(guī)則(如多數(shù)表決),決定f的標(biāo)簽y:

(3)

其中:I為示性函數(shù),即當(dāng)niT=cj時(shí),I=1;否則I=0。

將基于KNN的分類方法用于新聞圖像中的人臉標(biāo)注,面臨的首要問題是如何獲得每個(gè)真實(shí)候選姓名足夠的真實(shí)人臉樣本以組成訓(xùn)練集。為了解決這個(gè)問題,本文基于文獻(xiàn)[17]中的一個(gè)假設(shè)來從輸入的數(shù)據(jù)集中獲得訓(xùn)練樣本,該假設(shè)的內(nèi)容為:對(duì)于一個(gè)由多個(gè)新聞圖像-文本數(shù)據(jù)組成的數(shù)據(jù)集,在候選姓名集含有c的所有人臉中,屬于c的真實(shí)人臉相對(duì)于其他候選姓名占有最大的比例。以候選姓名c為例,獲得訓(xùn)練樣本的具體過程為首先在數(shù)據(jù)集中找出候選姓名集中含有c的所有人臉,并記這些人臉組成的集合為c的相關(guān)人臉集。之后在c的相關(guān)人臉集中使用AP聚類算法對(duì)人臉進(jìn)行聚類,將最大的人臉類簇作為c的訓(xùn)練樣本。之所以使用AP聚類算法進(jìn)行人臉聚類,是因?yàn)槭孪炔恢烂總€(gè)候選姓名的相關(guān)人臉集中含有多少個(gè)候選姓名的人臉,無法確定應(yīng)該將相關(guān)人臉集聚為幾類,而AP聚類的特點(diǎn)就是不需要預(yù)先指定類別數(shù)量。

至此,可以為每個(gè)候選姓名獲得一定數(shù)量的訓(xùn)練樣本。但因?yàn)槊總€(gè)候選姓名在數(shù)據(jù)集中出現(xiàn)的次數(shù)不同,不同候選姓名的訓(xùn)練樣本數(shù)量相差較大,這會(huì)使得人臉被傾向于識(shí)別為訓(xùn)練樣本較多的候選姓名的人臉。為了克服該困難,首先對(duì)不同候選姓名的訓(xùn)練樣本數(shù)量進(jìn)行均衡處理:對(duì)于訓(xùn)練樣本少于20個(gè)的候選姓名,通過SMOTE(Synthetic Minority Over-sampling TEchnique)算法[18]為每個(gè)候選姓名生成若干人工樣本數(shù)據(jù),將其訓(xùn)練樣本數(shù)量補(bǔ)充至20個(gè)。之后,在對(duì)人臉f進(jìn)行識(shí)別的過程中,若在f的真實(shí)候選姓名集Cr中cj的訓(xùn)練樣本數(shù)量最少且為s,則對(duì)Cr={c1,c2,…,cq}中每個(gè)候選姓名的樣本根據(jù)隨機(jī)采樣的方式,將其訓(xùn)練樣本數(shù)量降至s。

在對(duì)不同的人臉計(jì)算其和候選姓名的匹配度時(shí),用到的訓(xùn)練樣本數(shù)量也可能不一致。為了根據(jù)不同的訓(xùn)練樣本數(shù)量自適應(yīng)地調(diào)整KNN算法中的參數(shù)k的取值,本文將其定義如式(4)所示:

k=round(α·s);α∈[0.05,1]

(4)

其中:round為四舍五入取整函數(shù);s為識(shí)別時(shí)每個(gè)真實(shí)候選姓名用到的訓(xùn)練樣本數(shù);α為一個(gè)取值范圍為[0.05,1]的系數(shù)。

確定了訓(xùn)練樣本和k的取值后,在計(jì)算f和標(biāo)簽c∈C之間的匹配度Fr(f,c)時(shí),為了同時(shí)涵蓋Nk(f)中屬于c的樣本點(diǎn)的個(gè)數(shù)和這些樣本點(diǎn)距f的距離信息,本文將Fr(f,c)定義如式(5):

Fr(f,c)=

(5)

其中:ωi為該距離的權(quán)重,距離越小,權(quán)重越大,ωi=1/d(fiT,f);d(fiT,f)為訓(xùn)練集中的樣本點(diǎn)fiT到待標(biāo)注人臉f的距離,并被歸一化至[0,1]。為了使獲得的Fr(f,c)的值域?yàn)閇0,1],使用2π-1arctan(·)對(duì)括號(hào)內(nèi)的數(shù)值進(jìn)行非線性變換。而對(duì)于待標(biāo)注人臉f和標(biāo)簽null的匹配度,本文采用類似于文獻(xiàn)[19]方法,將其視為一種信息不確定問題。當(dāng)f和每個(gè)真實(shí)候選姓名的匹配度之間具有明顯差異時(shí),f的標(biāo)簽最有可能是匹配度最高的候選姓名。而當(dāng)f和每個(gè)真實(shí)候選姓名的匹配度之間越接近,f的標(biāo)簽也越不確定,而此時(shí)f的標(biāo)簽為null的可能性也在增加,因此可使用標(biāo)準(zhǔn)化的信息熵的相反數(shù)來描述f的標(biāo)簽是null的匹配度:

(6)

其中:q為f真實(shí)候選姓名的個(gè)數(shù),而將Fr(f,null)定義為負(fù)數(shù)的目的是令其和f標(biāo)簽為真實(shí)候選姓名的匹配度加以區(qū)分。在實(shí)驗(yàn)部分,本文采用歐氏距離作為距離度量,同時(shí)將k取值公式中的系數(shù)α根據(jù)經(jīng)驗(yàn)設(shè)為0.2。

1.2.2 人臉重要程度

在拍攝圖像時(shí),攝影師一般會(huì)更加靠近重點(diǎn)人物進(jìn)行拍攝,所以在新聞圖像中,面積較大的人臉通常更加重要,其姓名出現(xiàn)在文本中的可能性也更大。在文獻(xiàn)[15]中,人臉大小信息的表征形式是能框住人臉的最小矩形(Bounding box)面積占圖像面積的比例。然而這種表征方式只涵蓋了每個(gè)人臉相對(duì)于所在圖像的大小,卻不能涵蓋該人臉相對(duì)于同一圖像中其他人臉在面積上的“突出”程度。為能同時(shí)涵蓋上述的兩方面的信息,本文將人臉f的人臉大小Fs(f)定義如式(7)所示:

(7)

其中:Fa(fi)和Fa(f)分別為第i張人臉和人臉f的實(shí)際面積比上圖像中所有人臉面積總和后得到的歸一化人臉面積值。

此外,當(dāng)攝影師拍攝照片時(shí),也通常會(huì)將重要人物的人臉置于靠近圖像中央的位置。因此本文也將人臉在圖像中的位置作為度量人臉重要程度的因素之一。為了提取出人臉f的位置信息,本文首先計(jì)算f的Bounding box的中心到圖像中心的歐氏距離Frp(f),之后通過除所有人臉距離之和,將其歸一化為Fnp(f)。類似于人臉大小信息,為了涵蓋f相對(duì)于同一圖像中其他人臉在位置上的“突出”程度,將f的人臉位置Fp(f)定義如式(8)所示:

(8)

在獲得人臉大小信息和人臉位置信息后,人臉f的重要程度DF(f)便可表示為二者的組合,即DF(f)=(Fs(f),Fp(f))。

1.2.3 姓名重要程度

文本中不同的候選姓名通常具有不同的重要程度。Berg等[16]5的研究表明,姓名出現(xiàn)在文本中的位置對(duì)姓名重要性的影響占主要地位。在文獻(xiàn)[16]中,候選姓名c的位置信息Np(c)定義如式(9):

Np(c)=L(c)/L(caption)

(9)

其中:L(c)為從文本開端至c第一次出現(xiàn)位置的文本長(zhǎng)度;L(caption)為文本的總長(zhǎng)度。雖然這種定義能準(zhǔn)確地反映候選姓名在文本中出現(xiàn)的位置,但卻無法反映不同候選姓名出現(xiàn)的先后次序。因此,本文同時(shí)采用兩種姓名位置的定義方式。第一種定義方式和式(9)一致(Np1(c)),第二種方式為不同候選姓名第一次出現(xiàn)在文本中的次序(Np2(c))。

對(duì)于null,因?yàn)槠洳⒉怀霈F(xiàn)在文本之中,Np1(null)和Np2(null)是沒有意義的。但是為了能夠在同一模型下完成對(duì)所有人臉的標(biāo)注,同時(shí)能夠和真實(shí)候選姓名的位置值區(qū)分開,本文將Np1(null)定義為2,將Np2(null)定義為20,均遠(yuǎn)大于數(shù)據(jù)集中任一個(gè)真實(shí)候選姓名的姓名位置值。在獲得兩種姓名位置信息后,候選姓名c的重要程度DN(c)便可表示為二者的組合,即DN(c)=(Np1(c),Np2(c))。

1.3 人臉標(biāo)簽推理及修正

1.3.1 基于多模態(tài)信息融合的人臉標(biāo)簽推理

在獲得人臉姓名匹配度、人臉重要程度和姓名重要程度三種信息之后,待標(biāo)注人臉-候選姓名對(duì){f,c}便可表示為X(f,c)=(Fr(f),Fs(f),Fp(f),Np1(c),Np2(c))。接下來,如何獲得信息融合模型Z來融合這些信息以完成人臉標(biāo)簽推理成為關(guān)鍵。鑒于本文所利用的信息種類較多,很難憑借先驗(yàn)知識(shí)和人的主觀經(jīng)驗(yàn)來設(shè)計(jì)融合方法,故采用學(xué)習(xí)的方式來獲得模型Z。本文將1.2.1節(jié)中獲得的候選姓名的訓(xùn)練樣本視為已標(biāo)記數(shù)據(jù),并利用其產(chǎn)生Z的訓(xùn)練數(shù)據(jù),具體過程為:對(duì)于姓名n的某個(gè)人臉樣本fT,令其和其候選姓名集C中的每個(gè)候選姓名組成一個(gè)待標(biāo)注人臉-姓名數(shù)據(jù),進(jìn)而可得到{X{fT,c}|c∈C}。對(duì)于其中的每個(gè)數(shù)據(jù),當(dāng)n=c時(shí)將其標(biāo)記為1,否則標(biāo)記為0。這樣,便可以獲得一部分有標(biāo)記數(shù)據(jù)用于訓(xùn)練模型Z。

在現(xiàn)有的各種學(xué)習(xí)算法中,神經(jīng)網(wǎng)絡(luò)具有泛化能力強(qiáng)、穩(wěn)定性高、容錯(cuò)性好、快速高效等優(yōu)勢(shì)。因此,為保證多種信息的合理融合,本文將多模態(tài)信息融合問題轉(zhuǎn)化為回歸問題,通過訓(xùn)練一個(gè)5×h×1結(jié)構(gòu)的反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)來得到模型Z,其中h為隱藏層節(jié)點(diǎn)數(shù)。在獲得模型Z之后,待標(biāo)注人臉的初始標(biāo)簽便可根據(jù)式(2)獲得。BP模型的具體訓(xùn)練和測(cè)試過程見2.3節(jié)。

1.3.2 標(biāo)注結(jié)果修正

在由1.3.1節(jié)得到的結(jié)果中,會(huì)出現(xiàn)這樣的情況:部分在同一張圖像上出現(xiàn)的不同人臉被相同的標(biāo)簽標(biāo)注。而現(xiàn)實(shí)中,同一圖像上多張人臉屬于同一人物的情況在新聞圖像中幾乎不存在[17]3。因此,有必要對(duì)由1.3.1節(jié)得到的結(jié)果進(jìn)行修正,消除同一張圖像上不同人臉被標(biāo)注相同姓名的情況。本文采用的修正策略如算法1所示。

算法1 標(biāo)簽修正算法。

輸出 最終標(biāo)注結(jié)果Y={y1,y2,…,yp}。

fori=1 topdo

Ci={j|1≤j≤q+1}

end for

fori=1 topdo

form=1 topdo

Cm=Cmy′

else

Ci=Ciy′

end if

end if

end for

end for

Y=Yr

其中:p為圖像中待標(biāo)注人臉數(shù)量;q為文本中真實(shí)候選姓名數(shù)量;第q+1個(gè)候選姓名為null;C*為f*的候選標(biāo)簽集合。

2 實(shí)驗(yàn)和結(jié)果分析

2.1 實(shí)驗(yàn)環(huán)境、數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)在CPU為intel i7- 6700,3.4 GHz,內(nèi)存為8 GB的計(jì)算機(jī)上,使用Matlab2016a完成。實(shí)驗(yàn)所使用的數(shù)據(jù)集為L(zhǎng)abel Yahoo! News。其最初是由Berg等[16]6從50萬張Yahoo新聞圖像中收集得到,后又被Guillaumin等[12]7進(jìn)行了進(jìn)一步的處理。數(shù)據(jù)集中的人臉含有豐富的光照、表情、姿勢(shì)等因素的變化。數(shù)據(jù)集中含有20 071個(gè)新聞圖像-文本數(shù)據(jù),以及從這些數(shù)據(jù)中提取出的5 876個(gè)候選姓名,31 147個(gè)待標(biāo)注人臉;同時(shí)數(shù)據(jù)集中還包含了待標(biāo)注人臉的Bounding box在圖像的位置,以及人臉的4 992維尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征向量。在實(shí)驗(yàn)過程中,為了在盡可能在人臉特征信息不過分丟失的情況下降低計(jì)算開銷,本文通過使用主成分分析(Principal Component Analysis,PCA)算法,將人臉特征維度降至300維。

與文獻(xiàn)[6]中的預(yù)處理方法一致,本文從候選姓名中選擇出那些重復(fù)超過20次的姓名,共計(jì)214個(gè),并將其余的候選姓名視為null標(biāo)簽,同時(shí)刪除了候選姓名中不包含這214個(gè)姓名的圖像。處理后的數(shù)據(jù)集的具體信息如表1所示。其中,非噪聲人臉比例是數(shù)據(jù)集中歸屬于這214個(gè)姓名的人臉占所有人臉的比例。可以看出,數(shù)據(jù)集中非噪聲人臉比例僅為56%,剩下的44%的人臉均為噪聲人臉。

表1 處理后的Label Yahoo!News數(shù)據(jù)集的詳細(xì)信息

測(cè)試時(shí),FAMIF對(duì)數(shù)據(jù)集中的所有人臉進(jìn)行標(biāo)注。為了對(duì)標(biāo)注性能進(jìn)行評(píng)價(jià),與文獻(xiàn)[11]3一致,本文采用三種評(píng)價(jià)指標(biāo)來衡量人臉標(biāo)注的性能,即準(zhǔn)確率(Accuracy)、精度(Precision),以及召回率(Recall)。其中,準(zhǔn)確率為數(shù)據(jù)集中被正確標(biāo)注的人臉占所有人臉的比例,反映標(biāo)注方法的整體性能;精度為被非null標(biāo)簽標(biāo)記的人臉中,被正確標(biāo)記的人臉?biāo)嫉谋壤?較高的精度說明標(biāo)注方法對(duì)噪聲人臉的標(biāo)注效果較好;召回率為非噪聲人臉中,被正確標(biāo)記的人臉?biāo)急壤?反映了標(biāo)注方法對(duì)非噪聲人臉的標(biāo)注效果。當(dāng)精度和召回率都較高時(shí),能夠說明標(biāo)注方法區(qū)分噪聲和非噪聲的能力較強(qiáng)。

2.2 多模態(tài)信息提取結(jié)果分析

在根據(jù)1.2.1節(jié)中所提方法獲得的訓(xùn)練集中,每個(gè)候選姓名的訓(xùn)練樣本數(shù)量的分布如圖2所示。可以看出,在進(jìn)行樣本數(shù)量均衡之前,不同候選姓名的訓(xùn)練樣本數(shù)量之間差異較大。但在經(jīng)過均衡處理后,大部分的候選姓名的訓(xùn)練樣本數(shù)量都較為平衡。

圖2 候選姓名的訓(xùn)練樣本數(shù)量分布

1.2.2節(jié)中提取的人臉大小和人臉位置的分布如圖3所示。為了方便繪圖和分析,在圖3中Fs和Fp均被線性縮放至[0,1]。由圖3可以發(fā)現(xiàn)數(shù)據(jù)集圖像中的人臉有很大一部分相對(duì)偏小,而這一點(diǎn)與數(shù)據(jù)集中含有高達(dá)44%的噪聲人臉,即“不重要的”人臉的情況相符,這間接地反映了用人臉大小來衡量人臉重要性是合理的。然而Fp的分布卻沒有呈現(xiàn)出大量人臉遠(yuǎn)離圖像中心的情況,這反映了Fp衡量人臉重要程度的能力較Fs弱。

圖3 人臉大小和位置分布情況

圖4 姓名位置分布情況

圖4顯示了兩種候選姓名位置的分布情況。和圖3類似,Np1和Np2均被線性縮放至[0,1]。可以看出,盡管Np1和Np2大致分布相同,但仍具有一定差異,說明兩者的同時(shí)使用可以更加詳細(xì)地描述候選姓名在文本中的位置。此外,數(shù)據(jù)集中大部分文本中檢測(cè)出的候選姓名的數(shù)目都在3個(gè)以內(nèi)。而文本中最多出現(xiàn)7個(gè)候選姓名,因此選擇將Np2(null)定義為20能夠和真實(shí)候選姓名的位置區(qū)分開。

2.3 人臉標(biāo)注結(jié)果分析

為了對(duì)模型Z進(jìn)行訓(xùn)練,需根據(jù)1.3.1節(jié)中的方法,利用1.2.1節(jié)中獲得的候選姓名的訓(xùn)練樣本來得到模型Z的訓(xùn)練數(shù)據(jù)。而1.2.1節(jié)中,根據(jù)聚類方法獲得的每個(gè)候選姓名的訓(xùn)練樣本里可能含有少量的錯(cuò)誤樣本。通常情況下,在數(shù)據(jù)集中出現(xiàn)次數(shù)較多的候選姓名,其真實(shí)人臉數(shù)量也通常較多,因而通過聚類能獲得較多的訓(xùn)練樣本,且錯(cuò)誤樣本所占比例也較低。因此,為了在能夠得到足夠的訓(xùn)練數(shù)據(jù)的同時(shí)防止訓(xùn)練數(shù)據(jù)中含有過多的錯(cuò)誤,本文選擇樣本數(shù)超過30的候選姓名的訓(xùn)練樣本共計(jì)207個(gè),將其視為已標(biāo)記的非噪聲人臉樣本。此外,待標(biāo)注人臉集中含有大量的噪聲人臉,為了使訓(xùn)練數(shù)據(jù)的分布盡可能接近真實(shí)情況,根據(jù)噪聲人臉通常具有較小面積的假設(shè),將數(shù)據(jù)集中面積最小的207個(gè)人臉視為噪聲人臉。利用這共計(jì)414個(gè)人臉樣本來生成Z的訓(xùn)練數(shù)據(jù),最終共得到910個(gè)訓(xùn)練數(shù)據(jù),其中標(biāo)記為1的訓(xùn)練數(shù)據(jù)和標(biāo)記為0的訓(xùn)練數(shù)據(jù)各430、480個(gè)。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),選擇Sigmoid函數(shù)作為隱藏層和輸出層的激活函數(shù),選擇Levenberg-Marquardt算法[20]作為訓(xùn)練算法。為確定隱藏層神經(jīng)元節(jié)點(diǎn)的個(gè)數(shù),在隱藏層設(shè)置不同的神經(jīng)元數(shù)量進(jìn)行訓(xùn)練和測(cè)試,人臉標(biāo)注的性能隨隱藏層神經(jīng)元個(gè)數(shù)變化的趨勢(shì)如圖5所示。可以看出,當(dāng)隱藏層神經(jīng)元的個(gè)數(shù)為5時(shí)達(dá)到了最好的效果,這說明當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí),節(jié)點(diǎn)數(shù)的增加會(huì)導(dǎo)致模型容易出現(xiàn)過擬合,進(jìn)而降低其泛化能力。因此將隱藏層節(jié)點(diǎn)數(shù)設(shè)為5,即h=5。

圖5 人臉標(biāo)注性能隨隱藏層神經(jīng)元個(gè)數(shù)變化趨勢(shì)

為了分析不同的信息對(duì)標(biāo)注結(jié)果的影響,定義了一個(gè)新的評(píng)價(jià)指標(biāo)貢獻(xiàn)率(Ct):

(10)

其中:xi為X(f,c)中第i個(gè)信息;X~exp(xi)表示X(f,c)中xi缺省后剩下的數(shù)據(jù);M表示準(zhǔn)確率、精度或召回率中的某一評(píng)價(jià)指標(biāo),M(X)和M(X~exp(xi))分別表示當(dāng)輸入信息為X(f,c)和X~exp(xi)時(shí)在該評(píng)價(jià)指標(biāo)上的性能。具體結(jié)果如圖6所示。

可以發(fā)現(xiàn),Fr、Fs和Fp對(duì)三個(gè)指標(biāo)都有提升作用,說明這三種信息既有助于噪聲人臉和非噪聲人臉的區(qū)分,也有助于確定非噪聲人臉的標(biāo)簽,而且Fs的效果尤其明顯。而Np1和Np2在提升了人臉標(biāo)注的準(zhǔn)確率和精度的同時(shí)降低了召回率,這反映了這兩種信息的引入使得部分非噪聲人臉被傾向于判定為噪聲人臉,從而導(dǎo)致召回率下降。但精度和準(zhǔn)確率的提升說明這兩種信息有助于噪聲人臉的標(biāo)注,彌補(bǔ)了其對(duì)非噪聲人臉標(biāo)注的不良影響,進(jìn)而在整體上提高了標(biāo)注的效果。綜上,可以得出結(jié)論,在采用的多信息融合方法下,提取的多種信息均有助于人臉標(biāo)注。

圖6 不同信息的貢獻(xiàn)率

為了進(jìn)一步分析FAMIF的性能,將其和近年來提出的幾種基于人臉相似度信息的基準(zhǔn)算法進(jìn)行比較,結(jié)果如表2所示。所有算法的性能均在處理后的Label Yahoo!News 數(shù)據(jù)集上取得。表2中每個(gè)指標(biāo)的第一名使用粗體進(jìn)行標(biāo)識(shí),可以看出,相對(duì)于基準(zhǔn)算法,FAMIF在準(zhǔn)確率和召回率上取得了最好的效果。這說明當(dāng)新聞圖像中存在大量噪聲人臉時(shí),FAMIF通過利用多種模態(tài)信息的融合推理,綜合了各信息對(duì)確定人臉標(biāo)簽的有效作用,可以較好地完成對(duì)非噪聲人臉的標(biāo)注,且整體標(biāo)注效果優(yōu)于基準(zhǔn)算法。盡管相對(duì)于EF-IMGA、LF-IMGA和IPAL,FAMIF的精度指標(biāo)不夠理想,但從這三種方法的精度和召回率的巨大差異可知,這三種方法將大量的非噪聲人臉標(biāo)記為null,區(qū)分噪聲和非噪聲人臉的能力較差。而FAMIF在并未過分犧牲精度的情況下,準(zhǔn)確率和召回率較大幅度地優(yōu)于基準(zhǔn)算法,說明FAMIF區(qū)分噪聲和非噪聲人臉的能力高于基準(zhǔn)算法。

表2 FAMIF和基準(zhǔn)方法標(biāo)注效果比較 %

3 結(jié)語(yǔ)

本文提出了一種基于多模態(tài)信息的新聞圖像中人臉標(biāo)注方法。通過充分挖掘圖像中的人臉大小和位置信息、文本中的姓名位置信息,建立了人臉和姓名重要程度之間的對(duì)應(yīng)關(guān)系,克服了現(xiàn)有方法過度依賴人臉相似度信息的不足。實(shí)驗(yàn)結(jié)果表明多模態(tài)信息對(duì)確定新聞圖像中人臉的標(biāo)簽有著極其重要的作用。后續(xù)研究中將繼續(xù)挖掘圖像和文本中可能有助于確定人臉標(biāo)簽的信息,如人臉、圖像的聚焦點(diǎn)等,進(jìn)一步提高人臉標(biāo)注準(zhǔn)確率。

References)

[1] TAIGMAN Y, YANG M, RANZATO M, et al. DeepFace: closing the gap to human-level performance in face verification [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 1701-1708.

[2] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 815-823.

[3] OUYANG W, LOY C C, TANG X, et al. DeepID-Net: deformable deep convolutional neural networks for object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 46(5): 2403-2412.

[4] 劉勝宇. 網(wǎng)絡(luò)新聞圖像中人臉標(biāo)注技術(shù)研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2011: 33-40. (LIU S Y. Research on annotation technology of face images in network news [D]. Harbin: Harbin Institute of Technology, 2011: 33-40.)

[5] FREY B J, DUECK D. Clustering by passing messages between data points [J]. Science, 2007, 315(5814): 972.

[6] LUO J, ORABONA F. Learning from candidate labeling sets [C]// NIPS 2010: Proceedings of the 23rd International Conference on Neural Information Processing Systems. New York: Curran Associates, 2010: 1504-1512.

[7] ZHANG M L, YU F. Solving the partial label learning problem: an instance-based approach [C]// Proceedings of the 2015 International Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2015: 4048-4054.

[8] WANG D, HOI S C H, HE Y. A unified learning framework for auto face annotation by mining Web facial images [C]// Proceedings of the 2012 ACM International Conference on Information and Knowledge Management. New York: ACM, 2012: 1392-1401.

[9] WANG D, HOI S C H, HE Y, et al. Retrieval-based face annotation by weak label regularized local coordinate coding [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 550-63.

[10] WANG D, HOI S C H, HE Y, et al. Mining weakly labeled Web facial images for search-based face annotation [J]. IEEE Transactions on Knowledge amp; Data Engineering, 2012, 26(1): 166-179.

[11] CHEN Z, FENG B, NGO C W, et al. Improving automatic name-face association using celebrity images on the Web [C]// Proceedings of the 2015 International Conference on Multimedia Retrieval. New York: ACM, 2015: 623-626.

[12] GUILLAUMIN M, VERBEEK J, SCHMID C. Multiple instance metric learning from automatically labeled bags of faces [C]// Proceedings of the 2010 European Conference on Computer Vision. Berlin: Springer, 2010: 634-647.

[13] XIAO S, TAN M, XU D. Weighted block-sparse low rank representation for face clustering in videos[C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 123-138.

[14] XIAO S, XU D, WU J. Automatic face naming by learning discriminative affinity matrices from weakly labeled images [J]. IEEE Transactions on Neural Networks amp; Learning Systems, 2015, 26(10): 2440-2452.

[15] MATHIALAGAN C S, GALLAGHER A C, BATRA D. VIP: finding important people in images [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4858-4866.

[16] BERG T L, BERG A C, EDWARDS J, et al. Names and faces in the news [C]// CVPR 2004: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 848-854.

[17] GUILLAUMIN M, MENSINK T, VERBEEK J, et al. Face recognition from caption-based supervision[J]. International Journal of Computer Vision, 2012, 96(1): 64.

[18] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.

[19] PANG L, NGO C W. Unsupervised celebrity face naming in Web videos [J]. IEEE Transactions on Multimedia, 2015, 17(6): 854-866.

[20] MARQUARDT D W. An algorithm for least-squares estimation of nonlinear parameters [J]. Journal of the Society for Industrial amp; Applied Mathematics, 2006, 11(2): 431-441.

Faceannotationinnewsimagesbasedonmulti-modalinformationfusion

ZHENG Cha*, JI Lixin, LI Shaomei, GAO Chao

(NationalDigitalSwitchingSystemEngineeringamp;TechnologicalResearchCenter,ZhengzhouHenan450000,China)

The traditional face annotation methods for news images mainly rely on similarity information of the faces, and have poor ability to distinguish non-noise faces from noise faces and to annotate non-noise faces. Aiming at this issue, a face annotation method based on multi-modal information fusion was proposed. Firstly, according to the co-occurrence relations between faces and names, face-name match degrees based on face similarity were obtained by using a modifiedK-Nearest Neighbor (KNN) algorithm. After that, face importance degrees were characterized by the size and position information of faces extracted from images, and name importance degrees were characterized by the name position information extracted from images. Finally, Back Propagation (BP) neural network was applied to fuse the above information to infer labels of faces, and an annotation result correcting strategy was proposed to further improve the annotation results. Experimental results on Label Yahoo!News dataset demonstrate that the accuracy, precision and recall of the proposed method reach 77.11%, 73.58% and 78.75% respectively; compared with the methods only based on face similarity, the proposed method has outstanding ability to distinguish non-noise faces from noise faces and to annotate non-noise faces.

news image; faces annotation;K-Nearest Neighbor (KNN) algorithm; multi-modal information; Back Propagation (BP) neural network

2017- 04- 26;

2017- 06- 16。

國(guó)家自然科學(xué)基金資助項(xiàng)目(61601513)。

征察(1994—),男,安徽宿州人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、跨媒體信息處理; 吉立新(1969—),男,河南鄭州人,研究員,博士,主要研究方向:通信與信息系統(tǒng); 李邵梅(1982—),女,湖北鐘祥人,副研究員,博士,主要研究方向:數(shù)字圖像處理、模式識(shí)別; 高超(1982—),男,河南新鄭人,講師,博士,主要研究方向:計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)。

1001- 9081(2017)10- 3006- 06

10.11772/j.issn.1001- 9081.2017.10.3006

TP391.4

A

This work is partially supported by the National Natural Science Foundation of China (61601513).

ZHENGCha, born in 1994, M. S. candidate. His research interests include computer vision, cross-media information processing.

JILixin, born in 1969, Ph. D., research fellow. His research interests include communication and information systems.

LIShaomei, born in 1982, Ph. D., associate research fellow. Her research interests include digital image processing, pattern recognition.

GAOChao, born in 1982, Ph. D., lecturer. His research interests include computer vision, machine learning.

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
展會(huì)信息
如何快速走進(jìn)文本
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美成人综合在线| 国产午夜无码片在线观看网站| 四虎在线高清无码| 久久99热66这里只有精品一| 国产后式a一视频| 午夜日b视频| 亚洲欧洲一区二区三区| 久久久久久久久18禁秘| 亚洲青涩在线| 久久五月视频| 日韩无码视频专区| 国产玖玖视频| 日日噜噜夜夜狠狠视频| 亚洲综合二区| 国产幂在线无码精品| 精品视频一区在线观看| 国产性爱网站| 欧洲高清无码在线| 日本在线欧美在线| 国产真实自在自线免费精品| 熟妇丰满人妻| 国产69精品久久久久孕妇大杂乱| 国产在线专区| 99国产精品免费观看视频| 无码精品国产dvd在线观看9久| 国产精品漂亮美女在线观看| 国产激情第一页| 高潮爽到爆的喷水女主播视频| 免费国产黄线在线观看| 国产chinese男男gay视频网| 日韩高清成人| 欧美国产在线看| 毛片在线看网站| 亚洲精品第五页| 亚洲激情99| 91亚洲国产视频| 一级看片免费视频| 亚洲精品视频免费| 日本欧美精品| 爱做久久久久久| 久久精品最新免费国产成人| 婷婷六月在线| 日韩国产 在线| 欧美h在线观看| 成人午夜亚洲影视在线观看| 在线免费a视频| 无码专区在线观看| 好久久免费视频高清| 韩日无码在线不卡| 一区二区午夜| 亚洲国产日韩欧美在线| 色综合狠狠操| 亚洲午夜福利在线| 欧美午夜网| 91视频99| 国产色婷婷视频在线观看| 精品久久国产综合精麻豆| 欧美激情综合| 东京热一区二区三区无码视频| 亚洲最黄视频| 欧洲日本亚洲中文字幕| 婷婷亚洲天堂| 亚洲成A人V欧美综合| 亚洲欧美在线看片AI| 狠狠色综合网| 久久中文电影| 毛片免费在线视频| 亚洲成人高清在线观看| 制服丝袜无码每日更新| 欧美成在线视频| 欧美精品成人| 香蕉伊思人视频| 色综合久久综合网| 91美女视频在线观看| 欧美精品色视频| 老色鬼欧美精品| 亚洲欧美人成人让影院| 色老二精品视频在线观看| 国产成+人+综合+亚洲欧美| 97综合久久| 在线看片中文字幕| 日韩123欧美字幕|