周 曄 張軍平
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433) (上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室 上海 200433) (yezhou14@fudan.edu.cn)
基于多尺度深度學(xué)習(xí)的商品圖像檢索
周 曄 張軍平
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433) (上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室 上海 200433) (yezhou14@fudan.edu.cn)
商品圖像檢索的目標(biāo)是檢索與圖像內(nèi)容相符的商品,它是移動視覺搜索在電子商務(wù)中的重要應(yīng)用.商品圖像檢索的發(fā)展,既為用戶購物提供便利,又促進(jìn)了電子商務(wù)向移動端發(fā)展.圖像特征是影響商品圖片檢索性能的重要因素.復(fù)雜的圖片背景、同類商品之間的相似性和被拍攝商品尺度的變化,都使得商品圖像檢索對圖像特征提出了更高的要求.提出了一種多尺度深度神經(jīng)網(wǎng)絡(luò),以便于抽取對復(fù)雜圖片背景和目標(biāo)物體尺度變化更加魯棒的圖像特征.同時根據(jù)商品類別標(biāo)注信息學(xué)習(xí)圖片之間的相似度.針對在線服務(wù)對響應(yīng)速度的要求,通過壓縮模型的深度和寬度控制了計(jì)算開銷.在一個百萬級的商品圖片數(shù)據(jù)集上的對比實(shí)驗(yàn)證明:該方法在保持速度的同時提升了查詢的準(zhǔn)確率.
商品圖像檢索;深度學(xué)習(xí);多尺度;度量學(xué)習(xí);模型壓縮
移動視覺搜索是指將移動終端獲取的真實(shí)世界中的圖像或視頻作為查詢對象,通過移動互聯(lián)網(wǎng)去搜索視覺對象的關(guān)聯(lián)信息的檢索方式[1].電子商務(wù)是近年來發(fā)展最為迅速的行業(yè)之一.商品圖像檢索是移動視覺搜索在電子商務(wù)中的重要應(yīng)用.通過智能手機(jī)終端與移動視覺搜索技術(shù)的結(jié)合,用戶可以隨時在街上、商店中、家中拍攝自己看到的商品照片,并在電子商務(wù)網(wǎng)站中檢索對應(yīng)的商品.隨著越來越多的電子商務(wù)請求從桌面端轉(zhuǎn)移到移動端,商品圖像檢索的廣泛應(yīng)用可以為用戶提供精準(zhǔn)的個性化服務(wù),從而為電子商務(wù)網(wǎng)站產(chǎn)生巨大的經(jīng)濟(jì)價值,這使得商品圖像檢索成為了一個全新的熱門研究領(lǐng)域.如何通過移動設(shè)備拍攝的圖片精確查找對應(yīng)的商品,是一個非常困難的問題.首先,移動設(shè)備的感光元件與拍攝時的光照條件各不相同,同時,目標(biāo)商品的視點(diǎn)和尺度的變化、遮擋和模糊等,都使得精確匹配的難度顯著加大.不僅如此,同類商品之間的外觀可能非常接近,例如服裝類的商品,不同的款式之間可能只有顏色、圖案等的微小差別.如何區(qū)分這些細(xì)粒度的物體類別是一個具有挑戰(zhàn)性的問題.
商品圖像檢索可以看作一種限定的基于內(nèi)容的圖像檢索(content based image retrieval, CBIR)[2].在基于內(nèi)容的圖像檢索系統(tǒng)中,圖像特征是影響性能最重要的因素之一[3].由于商品圖像檢索問題的一些特殊難點(diǎn),使得商品圖像檢索對于圖像特征的敏感度和判別力提出了更高的要求.如何提取更加有效的圖像特征,成為商品圖像檢索問題研究的主要方向之一.在商品圖像檢索的研究工作中,尺度不變特征變換(scale invariant feature transform, SIFT)[4]等圖像局部特征和Fisher Vector[5-6]、局部聚合描述符(vector of locally aggregated descriptors, VLAD)[7-8]等傳統(tǒng)圖像全局特征等均被廣泛使用.近年來,使用深度學(xué)習(xí)方法[8-9]抽取的圖像特征在商品圖像檢索問題上取得了巨大的性能提升.在深度卷積神經(jīng)網(wǎng)絡(luò)中,層數(shù)越深、每層過濾器(filter)數(shù)量越多的網(wǎng)絡(luò),通常具有更強(qiáng)的特征表示能力,同時需要更多的運(yùn)算量.由于在線商品圖像檢索通常由服務(wù)器端進(jìn)行全部的計(jì)算操作,而圖像特征的抽取、相似度的計(jì)算等,通常耗時巨大.控制模型的復(fù)雜度、做到查詢準(zhǔn)確率與查詢速度之間的平衡是在線商品圖像檢索需要克服的另一個重要難點(diǎn).
在圖像檢索中,通常將整個查詢圖像視為一個整體處理.而商品圖像檢索問題中,查詢圖像中只包含一個特定的商品區(qū)域,其余部分均可視為背景.被拍攝商品的尺度和圖像的背景噪聲是影響商品圖像檢索性能的另外2個重要的因素.背景雜亂或被拍攝的商品在圖像中的比例過小,都會嚴(yán)重影響查詢性能.在商品圖像檢索中,一些研究工作使用人工標(biāo)記目標(biāo)區(qū)域[10],另一些使用了圖像分割[11]等自動方法,從查詢圖像中截取包含商品主體的區(qū)域后進(jìn)行處理.與這些方法不同,在我們的方法中,查詢圖像被視為一個整體進(jìn)行處理,通過多尺度方法解決商品區(qū)域的尺度問題.具體來說,我們提出了一種多尺度的神經(jīng)網(wǎng)絡(luò)模型.它可以使用同樣的模型參數(shù)來接受不同尺寸的輸入尺寸.通過對不同尺寸的輸入圖像進(jìn)行整合得到的多尺度特征,相對于單尺度特征更有利于提升特征的魯棒性,減少復(fù)雜的圖像背景對特征的影響.
除此以外,在互聯(lián)網(wǎng)圖像搜索引擎中,獲得有效的標(biāo)簽通常需要消耗巨大的人力,因而通常采用無監(jiān)督的方法.而在商品圖像檢索問題中,2幅圖像是否包含同一個商品比較容易確定.因而可以通過人工標(biāo)記部分?jǐn)?shù)據(jù)的標(biāo)簽,使用監(jiān)督方法學(xué)習(xí)圖像之間的相似度.圖像相似度學(xué)習(xí)在人臉驗(yàn)證等領(lǐng)域中有著廣泛的應(yīng)用.主成分(principal component analysis, PCA)、線性判別分析(linear discriminant analysis, LDA)等均為廣泛使用的傳統(tǒng)方法[12].近年來,使用深度神經(jīng)網(wǎng)絡(luò)的圖像相似度學(xué)習(xí)方法[13-14]被廣泛應(yīng)用.深度圖像相似度學(xué)習(xí)同樣應(yīng)用于商品圖像檢索中,Wang等人[15]使用了孿生網(wǎng)絡(luò)(siamese neural networks)學(xué)習(xí)商品圖片間的相似度.我們使用了LDA學(xué)習(xí)商品圖片間的相似度,進(jìn)一步增強(qiáng)特征的判別能力.
我們的貢獻(xiàn)主要有3方面.1)提出了一種多尺度深度神經(jīng)網(wǎng)絡(luò)模型,在不需要更改模型參數(shù)的情況下,我們的多尺度模型可以接受不同尺寸的輸入.通過整合圖像的全局和局部信息,可以提升對物體尺度的魯棒性.2)商品圖像檢索對模型運(yùn)算速度非常敏感.我們通過對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行壓縮,提出了一種更小尺寸的網(wǎng)絡(luò)模型,可以在壓縮模型運(yùn)算量接近一半的同時基本保持特征的判別力.3)我們通過圖像相似度學(xué)習(xí)的方法進(jìn)一步提升了特征的判別性能.在一個百萬級別的大規(guī)模商品圖像檢索數(shù)據(jù)集ALISC上,我們同時驗(yàn)證了我們提出的方法的準(zhǔn)確率和響應(yīng)速度.在單張圖片特征抽取不超過1 s的限制內(nèi),與現(xiàn)有的其他方法相比,我們的方法取得了最好的檢索性能.
在圖像檢索系統(tǒng)中,最關(guān)鍵的部分是圖像之間相似度的計(jì)算.在我們的方法中,圖像相似度的計(jì)算流程如圖1所示.首先,我們在圖片中心截取一些可能包含目標(biāo)商品的區(qū)域,然后使用神經(jīng)網(wǎng)絡(luò)抽取特征.之后,我們使用LDA對提取的圖像特征進(jìn)行變換.最后,我們使用余弦相似度對2張圖片的相似度進(jìn)行度量.

Fig. 1 The pipeline of our proposed method
我們首先介紹多尺度卷積神經(jīng)網(wǎng)絡(luò)模型.在我們提出的多尺度模型中,同一個網(wǎng)絡(luò)模型可以接受不同尺寸的輸入.之后,我們將介紹使用的模型壓縮方法.最后,我們將介紹圖片相似度學(xué)習(xí)與圖片相似度的度量方法.
1.1多尺度卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)近年來在圖像分類和識別中取得了巨大的成功.LeCun等人[16]將卷積神經(jīng)網(wǎng)絡(luò)成功應(yīng)用于手寫數(shù)字識別上.Krizhevsky等人提出了一個在ImageNet數(shù)據(jù)集上圖像分類性能超越傳統(tǒng)方法的卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet[17],該模型共有8層.Simonyan等人提出了一個16層的卷積神經(jīng)網(wǎng)絡(luò)模型[18].Szegedy等人提出了一個22層的卷積神經(jīng)網(wǎng)絡(luò)GoogleNet[19],其中借鑒了多尺度的思想.通常而言,隨著CNN模型深度和寬度的增加,模型分類性能和特征表示能力均有明顯的提升[3].針對GoogleNet多個損失函數(shù)較難學(xué)習(xí)的問題,Ioffe等人提出了與GoogleNet結(jié)構(gòu)非常相近,但使用單一損失函數(shù)Inception-6網(wǎng)絡(luò)[20].在GoogleNet和Inception-6網(wǎng)絡(luò)中,除了通常的卷積、池化等操作,還引入Inception模塊.在Inception-6網(wǎng)絡(luò)的一個Inception模塊中,上層特征經(jīng)過1×1、3×3、雙3×3、池化等一系列變換后,將特征進(jìn)行連接作為下一層的輸入.在Inception-6網(wǎng)絡(luò)中,使用雙3×3卷積代替了GoogleNet的Inception模塊中使用的5×5卷積,進(jìn)一步加大了模型的深度.我們使用Inception-6網(wǎng)絡(luò)作為基準(zhǔn)模型.Inception-6模型的輸入尺寸為224×224,完整結(jié)構(gòu)如表1中Output Size(Large)所示:

Table 1 Multi-Scale Inception-6 Model表1 多尺度Inception-6模型
在商品圖像檢索中,被拍攝的商品的尺度可能差別較大,而除了被拍攝的商品區(qū)域外,其他區(qū)域均為雜亂的背景噪聲.尺度的差別為特征提取帶來了難度.我們希望可以復(fù)用現(xiàn)有模型的權(quán)重信息,使得同一個卷積神經(jīng)網(wǎng)絡(luò)模型可以接受不同尺寸的輸入數(shù)據(jù),并通過后續(xù)的模型整合,整合不同輸入尺寸的特征,提升對于尺度的魯棒性.
在Inception-6網(wǎng)絡(luò)中,Inception(5b)兩層的輸出大小為7×7,而在Inception模塊中,雙3×3卷積需要輸入尺寸至少為5×5.我們將Inception(5b)的輸出尺寸縮減為5×5,計(jì)算可得圖片的初始輸入尺寸應(yīng)為160×160.輸入尺寸160×160的模型參數(shù)與輸出尺寸如表1中Output Size(Small)所示.縮減了輸入大小后的模型,與原始的模型具有完全一致的權(quán)重矩陣大小.即我們可以將同樣的模型參數(shù)應(yīng)用到224×224與160×160兩種不同的輸入尺寸中.
我們提出的多尺度方法本質(zhì)是只計(jì)算原始圖像對應(yīng)區(qū)域的特征.由神經(jīng)網(wǎng)絡(luò)卷積層的計(jì)算公式可以得出,如果不考慮池化的影響,160×160小尺寸的輸入相當(dāng)于使用原始的224×224輸入,但在每一個中間層中,都只保留與中心160×160區(qū)域?qū)?yīng)的輸出值,其余值置為0.即在特征計(jì)算的過程中不考慮中心160×160以外的圖片背景部分.因而這樣的計(jì)算方式不僅減少了運(yùn)算量,而且保留了大部分的特征表示能力,減少了背景噪聲對于圖像特征的影響.在實(shí)驗(yàn)中,我們將會驗(yàn)證224×224與160×160兩種不同的輸入尺寸的性能.
1.2模型壓縮
Inception-6網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,計(jì)算復(fù)雜度非常高,為了加速圖像特征的計(jì)算,我們希望在Inception-6網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行壓縮,構(gòu)造一個更小更快速的模型.神經(jīng)網(wǎng)絡(luò)模型的壓縮通常有2種可行的方法:壓縮模型的深度和壓縮模型的寬度.壓縮模型的深度,是指通過去掉一些隱含層,使神經(jīng)網(wǎng)絡(luò)的層數(shù)減少.壓縮模型的寬度,是指減少每一層的過濾器個數(shù),使得每一層抽取的特征數(shù)量減少.
我們同時使用壓縮模型的深度和壓縮模型的寬度這2種方法.對比壓縮后的模型和原始的Inception-6模型,我們分別去掉了Inception(4)和Inception(5)中的一個Inception模塊,同時每一層的過濾器個數(shù)也有所減少.經(jīng)過壓縮的模型記作Inception-6-Small網(wǎng)絡(luò),完整的結(jié)構(gòu)如表2所示:

Table 2 Multi-Scale Inception-6-Small Model表2 多尺度Inception-6-Small模型
我們進(jìn)一步對深度壓縮和寬度壓縮對模型參數(shù)規(guī)模的影響進(jìn)行了定量分析,對比了壓縮前和壓縮后卷積層參數(shù)的數(shù)量.結(jié)果表明:深度壓縮的過程減少了約27%的卷積層參數(shù),而寬度壓縮的過程減少了約6%的卷積層參數(shù).
模型參數(shù)規(guī)模的減少將會一定程度地影響模型的性能.在實(shí)驗(yàn)章節(jié)中,我們將會對比經(jīng)過模型壓縮的Inception-6-Small模型和原始的Inception-6模型的性能.我們的實(shí)驗(yàn)結(jié)果表明:經(jīng)過模型壓縮的Inception-6-Small模型只有很小的性能損失,但是大大節(jié)省了抽取特征所需的時間.
1.3圖像相似度學(xué)習(xí)與度量
卷積神經(jīng)網(wǎng)絡(luò)模型承擔(dān)了抽取圖像特征的功能.Inception-6網(wǎng)絡(luò)模型的平均池化層(average pooling)的輸出,可以直接作為圖像的一個1 024維的特征.但卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時,損失函數(shù)通常為圖像分類的誤差,2幅圖像特征之間的距離并沒有具體的物理意義,因而抽取得到的特征向量之間的相似度難以有效度量.我們使用了線性判別分析(LDA)對特征向量進(jìn)行進(jìn)一步的相似度學(xué)習(xí),同時,LDA還可以增強(qiáng)特征的判別性能.LDA的目標(biāo)是學(xué)習(xí)特征不同維度間的一個線性組合.LDA的目標(biāo)函數(shù)定義為[12]
其中,Sb與Sw分別為類間與類內(nèi)的散布矩陣,分別定義為
其中,n為總樣本數(shù),m為總類別數(shù),nk為對應(yīng)類別中的樣本數(shù),μ為所有樣本的均值,μk為對應(yīng)類別樣本的均值.即LDA的優(yōu)化目標(biāo)為類間與類內(nèi)散布比值的最大化.在商品圖像檢索中,不同商品之間可能極為相似,經(jīng)過LDA后,相似的商品類別被盡量區(qū)分開,同類的商品盡量接近,進(jìn)一步增強(qiáng)了特征的判別性能.

我們發(fā)現(xiàn),通過LDA相似度學(xué)習(xí),我們還擴(kuò)大了圖像特征分布的空間.如圖2所示,由于CNN的激活函數(shù)為ReLU,在CNN提取出的特征中沒有負(fù)值存在,所有的特征向量都集中在第1象限.經(jīng)過LDA之后,特征空間從第1象限擴(kuò)大到了整個空間,有利于提升特征的判別性能.

Fig. 2 Illustration of CNN and LDA feature spaces圖2 CNN特征空間與LDA特征空間示意
圖像相似度常用的計(jì)算方法為L2距離與余弦相似度(cosine similarity)等.余弦相似度的物理意義是2個特征向量間的夾角.對于2張圖片的特征向量a和b,余弦相似度定義為

我們的實(shí)驗(yàn)在ALISC(Alibaba Large-scale Image Search Challenge)*ALISC數(shù)據(jù)集來自阿里巴巴集團(tuán).數(shù)據(jù)集上進(jìn)行.ALISC數(shù)據(jù)集分為3部分.訓(xùn)練數(shù)據(jù)集包含約195萬張由賣家上傳的商品描述圖片.這些圖片可以分為10個商品大類和676個商品子類.驗(yàn)證數(shù)據(jù)集包含1 417張手機(jī)拍攝的查詢圖片和約320萬張備選商品描述圖片.測試數(shù)據(jù)集包含3 567張查詢圖片和驗(yàn)證數(shù)據(jù)集共用備選圖片.測試數(shù)據(jù)集的標(biāo)簽信息不公開.
我們使用MAP@n作為檢索性能的標(biāo)準(zhǔn).對于單條查詢,我們計(jì)算檢索結(jié)果的AP@n.AP@n的計(jì)算為

/min(m,n),
其中,如果第k條是一條正確的結(jié)果,P(k)表示查詢結(jié)果排序中到第k條為止的正確結(jié)果個數(shù),否則P(k)=0.m表示該查詢在數(shù)據(jù)庫中的所有正確結(jié)果總數(shù).MAP@n定義為所有查詢AP@n的平均值.在商品檢索的實(shí)際應(yīng)用中,最受用戶關(guān)注的首頁檢索結(jié)果通常包含20條左右的商品.根據(jù)商品檢索的應(yīng)用特點(diǎn),我們使用MAP@20作為檢索性能的標(biāo)準(zhǔn).
由于測試數(shù)據(jù)集的標(biāo)簽不對外公開,為了驗(yàn)證模型的性能,我們進(jìn)一步隨機(jī)地將驗(yàn)證數(shù)據(jù)集切分為1 000張訓(xùn)練圖片與417張測試圖片.在第3節(jié)中,我們的部分實(shí)驗(yàn)將會報告在驗(yàn)證數(shù)據(jù)集,即417張測試圖片上的MAP@20結(jié)果.
在我們的實(shí)驗(yàn)中,還使用了2個輔助數(shù)據(jù)集,分別為ImageNet與ImageNet-21K[21].ImageNet數(shù)據(jù)集是應(yīng)用最廣泛的圖像分類數(shù)據(jù)集之一,包含100多萬張圖片,分為1 000個類別.ImageNet-21K數(shù)據(jù)集為ImageNet數(shù)據(jù)集的擴(kuò)充,包含1 400多萬張圖片,涵蓋了21 000多個更加細(xì)致的類別.
3.1基準(zhǔn)模型
我們使用在ImageNet-21K數(shù)據(jù)集上訓(xùn)練的Inception-6模型[22]作為基準(zhǔn)模型,抽取Inception-6模型的平均池化層直接作為圖像特征.作為對比,我們還在AlexNet模型[17]上進(jìn)行實(shí)驗(yàn),在AlexNet模型上,使用最后一層全連接層的輸出作為特征.對于輸入圖片,我們將短邊壓縮到256像素,之后截取中央的224×224作為CNN的輸入.我們在ALISC驗(yàn)證數(shù)據(jù)集上測試了不同模型的準(zhǔn)確率和運(yùn)行時間.測試模型運(yùn)行時間的環(huán)境為Xeon E5 2650 v2 CPU,主頻為2.6 GHz.運(yùn)行時間為在單核CPU上進(jìn)行一次模型特征提取需要的時間.我們觀測到,使用余弦相似度計(jì)算CNN特征的相似度,普遍比使用L2距離的準(zhǔn)確度更高,因此我們在之后的實(shí)驗(yàn)中均使用余弦相似度.預(yù)訓(xùn)練的Inception-6模型的實(shí)驗(yàn)結(jié)果如表3所示.結(jié)果表明Inception-6模型的特征相比AlexNet模型的特征具有更強(qiáng)的表示能力,但是Inception-6模型消耗了更多的運(yùn)行時間.

Table 3 The Results of Our Baseline Model on Validation Set表3 基準(zhǔn)模型在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果
我們進(jìn)一步在ALISC數(shù)據(jù)集上對Inception-6模型進(jìn)行微調(diào)(fine-tune).我們根據(jù)ALISC數(shù)據(jù)集的676個商品子類,訓(xùn)練Inception-6模型在商品子類上的分類性能.我們將21K的softmax層替換為676類的softmax層,使用1e-4的學(xué)習(xí)率(原模型的初始學(xué)習(xí)率為1e-3)訓(xùn)練到損失函數(shù)收斂為止.之后,我們調(diào)整學(xué)習(xí)率至1e-5,繼續(xù)學(xué)習(xí)到模型收斂.預(yù)訓(xùn)練的Inception-6模型與經(jīng)過微調(diào)的Inception-6模型在驗(yàn)證數(shù)據(jù)集上的性能對比如表3所示.結(jié)果表明:微調(diào)的過程可以提升模型在商品圖像檢索問題上的判別性能.在之后的實(shí)驗(yàn)中,我們采用微調(diào)Inception-6模型(之后記作Inception-6)作為基準(zhǔn)模型.
3.2模型壓縮
本節(jié)中,我們對經(jīng)過模型壓縮的Inception-6-Small模型進(jìn)行實(shí)驗(yàn),對Inception-6-Small模型在ImageNet-21K數(shù)據(jù)集上進(jìn)行訓(xùn)練.與模型微調(diào)的過程類似,我們使用1e-3,1e-4,1e-5三種階梯學(xué)習(xí)率學(xué)習(xí)到模型收斂為止.在訓(xùn)練過程中,我們使用了Batch Normalization[20]對模型進(jìn)行歸一化,提升模型收斂速度.訓(xùn)練過程在一臺雙路GTX Titan X的服務(wù)器上進(jìn)行,耗時約2周.訓(xùn)練后的模型在ImageNet-21K訓(xùn)練集上的Top-1準(zhǔn)確率為37.8%.對比預(yù)訓(xùn)練的Inception-6模型在ImageNet-21K訓(xùn)練集上的Top-1準(zhǔn)確率為37.1%,證明我們提出的Inception-6-Small模型具有與Inception-6模型相近的特征表示能力.
我們在驗(yàn)證數(shù)據(jù)集上對比了Inception-6與Inception-6-Small模型的檢索性能與運(yùn)行時間.如表4所示,Inception-6-Small模型的性能接近Inception-6模型,但是模型消耗的運(yùn)算時間減少了近一半.我們推測性能損失是由于減少了每一層特征抽取的過濾器數(shù)量,導(dǎo)致Inception-6-Small模型雖然在圖像分類問題上的性能與Inception-6相似,但是在圖像檢索問題上的性能有一定的損失.

Table 4 The Results of Compressed Model on Validation Set表4 壓縮后的模型在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果
3.3多尺度模型測試
我們對提出的多尺度模型測試方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,使用Inception-6與Inception-6-Small兩個模型進(jìn)行多尺度測試.我們對比了224×224的原始輸入尺寸與160×160的輸入尺寸下,模型的準(zhǔn)確率與耗時.為了區(qū)別2種輸入尺寸,使用160×160的輸入尺寸的結(jié)果以“-160”結(jié)尾,實(shí)驗(yàn)結(jié)果如表5所示.實(shí)驗(yàn)結(jié)果表明:在160×160輸入尺寸下模型的計(jì)算時間大約減少了一半,但是也帶來了一些性能損失.觀察一些測試圖片之后我們發(fā)現(xiàn),截取圖像中心的160×160部分之后,雖然截取圖像的中心區(qū)域可以裁剪掉了一部分背景,從而減少輸入圖像的噪聲,但如果被拍攝的商品在圖片中的位置不在正中央,或被拍攝的商品過大超出了圖像中心區(qū)域,則商品也有一部分會被裁剪掉,我們猜測這是導(dǎo)致160×160的小尺寸輸入產(chǎn)生性能損失的主要原因.

Table 5 The Results of Multi-scale Model on Validation Set表5 多尺度模型在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果
3.4圖像相似度學(xué)習(xí)與模型整合
我們使用驗(yàn)證數(shù)據(jù)集的標(biāo)簽訓(xùn)練LDA模型.驗(yàn)證數(shù)據(jù)集的1 000張訓(xùn)練圖片,總共包含約6萬個正確查詢結(jié)果,平均每張查詢圖片有60個結(jié)果.我們將每一個查詢作為子類,使用CNN特征訓(xùn)練了一個1 000類的多類LDA模型.在驗(yàn)證數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6所示.我們發(fā)現(xiàn),LDA對于所有的CNN模型提取的特征均可帶來不同程度的性能提升,同時,LDA在模型測試時會帶來約0.03 s的額外時間消耗.

Table 6 The Results of LDA Features on Validation Set表6 LDA特征在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果
我們繼續(xù)實(shí)驗(yàn)了不同模型整合的效果.不同模型可以通過對多個余弦相似度取均值來實(shí)現(xiàn)整合.我們首先實(shí)驗(yàn)了Inception-6與Inception-6-Small模型進(jìn)行整合,2個模型的輸入尺寸均為224×224.同時,我們對比不同輸入尺寸的模型整合的效果.如表6所示,我們發(fā)現(xiàn),將224×224與160×160兩個不同的尺度的模型進(jìn)行整合,不同尺度的特征信息互相補(bǔ)充,可以比2個224×224大小的模型帶來更為明顯的性能提升,顯示了多尺度的重要性.若將我們提出的4種模型進(jìn)行整合,性能可以進(jìn)一步提升.但在線檢索服務(wù)對圖片特征提取消耗的時間非常敏感,在測試中,每張圖片特征提取的時間被限制在1 s以內(nèi),使用的模型過多則不能滿足時間限制的要求.Inception-6-Small與Inception-6-160兩個不同尺度模型的整合,同時滿足了性能和速度的要求.
最后,我們在封閉的測試數(shù)據(jù)集上測試了本文提出的方法.實(shí)驗(yàn)結(jié)果如表7所示.使用我們提出的多尺度測試方法,將Inception-6-Small與Inception-6-160兩個模型進(jìn)行整合,在與Inception-6單模型的計(jì)算速度相近的情況下,取得了較大的性能提升,證明了多尺度方法在商品圖像檢索問題上的有效性.使用4種模型進(jìn)行整合可以取得最好的效果,但超過了圖片特征抽取的時間限制.在時間限制內(nèi),Inception-6-Small與Inception-6-160模型的組合取得了最好的效果.
我們同時對比了所提方法與Qi等人[8]提出的方法.在實(shí)驗(yàn)結(jié)果中可以看到,在我們的方法與Qi等人的方法中,深度學(xué)習(xí)方法的性能均全面超過了SIFT與VLAD等傳統(tǒng)方法.同時,我們的圖像特征在測試集上取得了更好的效果.

Table 7 The Results of Different Methods on Testing Set表7 不同方法在測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
如圖3所示,我們選取了測試集中的一些代表的商品類型,展示了查詢圖片與結(jié)果圖片.結(jié)果圖片的標(biāo)記表示對應(yīng)的圖片在數(shù)據(jù)集標(biāo)注的正確結(jié)果中出現(xiàn)過.結(jié)果表明,我們的方法在食品、化妝品等大類中,均可以取得較好的檢索效果.但對于服裝類等商品,商品種類繁多,不同視角、環(huán)境拍攝的商品可能外觀差異極大,難以保證結(jié)果的絕對準(zhǔn)確.我們的方法仍然可以檢索到外觀非常相似的商品供用戶參考,但精確度還有待于進(jìn)一步的提升.

Fig. 3 Some query images and results圖3 部分查詢圖片與檢索結(jié)果
本文提出了一種多尺度方法解決在線商品圖像檢索問題.我們提出了一種多尺度網(wǎng)絡(luò),可以在不修改模型參數(shù)的條件下接受不同尺寸的圖像輸入.同時,我們在Inception-6模型的基礎(chǔ)上,將模型運(yùn)算時間壓縮了近一半,同時取得了與原始模型相似的性能.我們使用了LDA進(jìn)行圖像相似度學(xué)習(xí),進(jìn)一步提升了特征的判別力.在ALISC數(shù)據(jù)集上,我們的方法在相近的運(yùn)行時間下,相對其他方法性能提升明顯,同時保證了檢索準(zhǔn)確率和在線響應(yīng)速度.
[1] Duan Lingyu, Huang Tiejun, Alex C K, et al. Mobile visual search: Technical bottlenecks and challenges[J]. Communications of the CCF, 2012, 8(12): 8-15 (in Chinese)(段凌宇, 黃鐵軍, Alex C K, 等. 移動視覺搜索技術(shù)瓶頸與挑戰(zhàn)[J]. 中國計(jì)算機(jī)學(xué)會通訊, 2012, 8(12): 8-15)
[2] Datta R, Joshi D, Li Jia, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): 5
[3] Jiang Shuqiang, Min Weiqing, Wang Shuhui. Survey and prospect of intelligent interaction-oriented image recognition techniques[J]. Journal of Computer Research and Development, 2016, 53(1): 113-122 (in Chinese)(蔣樹強(qiáng), 閔巍慶, 王樹徽. 面向智能交互的圖像識別技術(shù)綜述與展望[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(1): 113-122)
[4] Lowe D G. Object recognition from local scale-invariant features[C] //Proc of the 7th IEEE Int Conf on Computer Vision (ICCV), Volume 2. Piscataway, NJ: IEEE, 1999: 1150-1157
[5] Perronnin F, Liu Y, Sánchez J, et al. Large-scale image retrieval with compressed fisher vectors[C] //Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2010: 3384-3391
[6] Perronnin F, Sánchez J, Mensink T. Improving the fisher kernel for large-scale image classification[C] //Proc of the 11th European Conf on Computer Vision (ECCV). Berlin: Springer, 2010: 143-156
[7] Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C] //Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2010: 3304-3311
[8] Qi Shuhan, Zawlin K, Zhang Hanwang, et al. Saliency meets spatial quantization: A practical framework for large scale product search[C/OL] //Proc of IEEE Int Conf on Multimedia & Expo (ICME) Workshops. Piscataway, NJ: IEEE, 2016 [2017-05-20]. http://ieeexplore.ieee.org/document/7574756
[9] Wan Ji, Wang Dayong, Hoi S C H, et al. Deep learning for content-based image retrieval: A comprehensive study[C] //Proc of the 22nd ACM Int Conf on Multimedia (MM). New York: ACM, 2014: 157-166
[10] Hadi Kiapour M, Han Xufeng, Lazebnik S, et al. Where to buy it: Matching street clothing photos in online shops[C] //Proc of the 15th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2015: 3343-3351
[11] Shen Xiaohui, Lin Zhe, Brandt J, et al. Mobile product image search by automatic query object extraction[C] //Proc of the 12th European Conf on Computer Vision (ECCV). Berlin: Springer, 2012: 114-127
[12] Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(7): 711-720
[13] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 815-823
[14] Wang Jiang, Song Yang, Leung T, et al. Learning fine-grained image similarity with deep ranking[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2014: 1386-1393
[15] Wang Xi, Sun Zhenfeng, Zhang Wenqiang, et al. Matching user photos to online products with robust deep features[C] //Proc of the 18th ACM on Int Conf on Multimedia Retrieval (ICMR). New York: ACM, 2016: 7-14
[16] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems (NIPS). Montreal: NIPS Foundation, 2012: 1097-1105
[18] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014
[19] Szegedy C, Liu Wei, Jia Yangqing, et al. Going Deeper With Convolutions[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 1-9
[20] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv: 1502.03167, 2015
[21] Deng Jia, Dong Wei, Socher R, et al. Imagenet: A large-scale hierarchical image database[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2009: 248-255
[22] Chen Tianqi, Li Mu, Li Yutian, et al. MXNet: A flexible and efficient machine learning library for heterogeneous distributed systems[J]. arXiv preprint arXiv: 1502.01274, 2015
Multi-ScaleDeepLearningforProductImageSearch
Zhou Ye and Zhang Junping
(SchoolofComputerScience,FudanUniversity,Shanghai200433) (ShanghaiKeyLaboratoryofIntelligentInformationProcessing,Shanghai200433)
Product image search is an important application of mobile visual search in e-commerce. The target of product image search is to retrieve the exact product in a query image. The development of product image search not only facilitates people’s shopping, but also results in that e-commerce moves forward to mobile users. As one of the most important performance factors in product image search, image representation suffers from complicated image background, small variance within each product category, and variant scale of the target object. To deal with complicated background and variant object scale, we present a multi-scale deep model for extracting image representation. Meanwhile, we learn image similarity from product category annotations. We also optimize the computation cost by reducing the width and depth of our model to meet the speed requirements of online search services. Experimental results on a million-scale product image dataset shows that our method improves retrieval accuracy while keeps good computation efficiency, comparing with existing methods.
product image search; deep learning; multi scale; metric learning; model compression

Zhou Ye, born in 1992. Master candidate at the School of Computer Science, Fudan University. Student member of CCF. His main research interests include deep learning and computer vision.

Zhang Junping, PhD, born in 1970. Professor at the School of Computer Science, Fudan University. Member of CCF. His main research interests include machine learning, image processing, biometric authentication, and intelligent transportation systems.
2017-03-20;
:2017-05-17
國家自然科學(xué)基金項(xiàng)目(61673118);上海市浦江人才計(jì)劃項(xiàng)目(16PJD009) This work was supported by the National Natural Science Foundation of China (61673118) and Shanghai Pujiang Program (16PJD009).
張軍平(jpzhang@fudan.edu.cn)
TP391.4