摘要:時(shí)尚產(chǎn)業(yè)是全球最具商業(yè)利益的產(chǎn)業(yè)之一,基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦技術(shù)利用互聯(lián)網(wǎng)時(shí)尚社區(qū)的海量穿搭數(shù)據(jù)學(xué)習(xí)穿衣搭配技巧,實(shí)現(xiàn)個(gè)性化的時(shí)尚穿搭推薦服務(wù)于時(shí)尚產(chǎn)業(yè),受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。結(jié)合時(shí)尚穿搭的特點(diǎn)提出了基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦基本框架,并在此基礎(chǔ)上對(duì)近幾年國(guó)內(nèi)外相容性預(yù)測(cè)與診斷、智能穿搭生成等關(guān)鍵技術(shù)的相關(guān)研究工作進(jìn)行總結(jié)分析,指出該研究領(lǐng)域所面臨的挑戰(zhàn)性問(wèn)題和未來(lái)的研究方向。
關(guān)鍵詞:時(shí)尚穿搭; 推薦; 相容性; 機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)04-003-0978-08
doi:10.19734/j.issn.1001-3695.2021.08.0393
Survey on fashion outfit recommendation research based on machine learning
Shi Yingjie1a, Yang Ke1b, Wang Jianxin1b, Du Fang2
(1.a.School of Business, b.School of Arts amp; Sciences, Beijing Institute of Fashion Technology, Beijing 100029, China; 2.School of Information Engineering, Ningxia University, Yinchuan 750021, China)
Abstract:The fashion industry is one of the most commercially profitable industries in the world, fashion outfit recommendation technology based on machine learning adopts massive outfit data of the Internet fashion community to learn the outfit matching skills, and realizes personalized outfit recommendation to serve the fashion industry, which has received extensive attentions from both industry and academia. Combining the characteristics of fashion outfit, this paper proposed the fashion outfit recommendation architecture based on machine learning, and on this basis, it summarized and analyzed the relevant research work of key technologies such as compatibility prediction and diagnosis, intelligent outfit generation, and so on. At last, it pointed out the challenging problems and future research directions in this field.
Key words:fashion outfit; recommendation; compatibility; machine learning
時(shí)尚在人類(lèi)社會(huì)中扮演著越來(lái)越重要的角色,時(shí)尚不僅是人們個(gè)性的表達(dá)途徑,也是社會(huì)文化潮流的彰顯方式。時(shí)尚產(chǎn)業(yè)蘊(yùn)涵著重大的市場(chǎng)價(jià)值,根據(jù)shopifyplus報(bào)告分析,2020年全球時(shí)尚電子商務(wù)的交易額為4 856.2億美元,預(yù)計(jì)在2023年將達(dá)到6 727.1億美元[1]。根據(jù)麥肯錫報(bào)告,中國(guó)在2019年已超越美國(guó)成為全球最大的時(shí)尚市場(chǎng)[2],具有巨大的發(fā)展?jié)摿ΑEc此同時(shí),消費(fèi)者對(duì)時(shí)尚品味以及個(gè)性化的需求也在不斷提升[3]。隨著互聯(lián)網(wǎng)時(shí)尚社區(qū)的出現(xiàn)與快速發(fā)展,大量高質(zhì)量的時(shí)尚穿搭被搭配師上傳至線上進(jìn)行分享傳播,為提高人們的時(shí)尚品味提供了參考。時(shí)尚穿搭是自主創(chuàng)造力和領(lǐng)域知識(shí)相結(jié)合的產(chǎn)物,并非所有人都具有搭配師的穿衣搭配技巧和經(jīng)驗(yàn),因此基于互聯(lián)網(wǎng)眾人智慧的智能時(shí)尚穿搭推薦暫露頭角,并逐漸成為計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域非常受關(guān)注的問(wèn)題。智能時(shí)尚穿搭推薦對(duì)推動(dòng)時(shí)尚工業(yè)的發(fā)展具有重要的意義。首先,智能時(shí)尚穿搭可以幫助用戶(hù)節(jié)省服裝搭配所用的時(shí)間與精力,提高穿衣搭配質(zhì)量與時(shí)尚品味;其次,高質(zhì)量的穿搭推薦可以有效增強(qiáng)用戶(hù)的線上購(gòu)物體驗(yàn),從而促進(jìn)時(shí)尚電子商務(wù)的成交量;對(duì)于服裝生產(chǎn)商和設(shè)計(jì)師來(lái)說(shuō),對(duì)時(shí)尚穿搭關(guān)鍵因素的分析可以幫助理解不同區(qū)域或文化背景下的穿搭風(fēng)格,為生產(chǎn)更受歡迎的服飾提供靈感和線索。
一套時(shí)尚穿搭由多個(gè)單品構(gòu)成,包括上裝、下裝、鞋品和配飾等,高質(zhì)量的穿搭應(yīng)當(dāng)同時(shí)滿足相容性和個(gè)性化兩個(gè)評(píng)判標(biāo)準(zhǔn)[4]。相容性是指一套穿搭中所有單品的協(xié)調(diào)性,涉及到顏色、紋理、款式和廓形等多種視覺(jué)元素的和諧搭配。不同于檢索中相對(duì)成熟的視覺(jué)相似性計(jì)算,對(duì)不同種類(lèi)時(shí)尚單品相容性的建模和評(píng)判更復(fù)雜,也更具挑戰(zhàn)性。個(gè)性化則要求所推薦的穿搭滿足用戶(hù)的個(gè)人需求和時(shí)尚品味,對(duì)用戶(hù)個(gè)性化的理解不僅依靠用戶(hù)主動(dòng)提供的信息,例如應(yīng)用場(chǎng)景、個(gè)人偏好等,還應(yīng)從社交網(wǎng)絡(luò)、線上購(gòu)物等多種渠道自動(dòng)挖掘用戶(hù)喜好,從而深入了解用戶(hù)。目前基于機(jī)器學(xué)習(xí)的時(shí)尚分析領(lǐng)域已經(jīng)出現(xiàn)了較多的研究工作,主要集中在服飾解析、服飾檢索以及流行趨勢(shì)預(yù)測(cè)等。時(shí)尚穿搭推薦技術(shù)的研究仍處于起步階段,本文結(jié)合時(shí)尚穿搭的特點(diǎn)提出了基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦基本框架,然后從相容性預(yù)測(cè)與診斷、個(gè)性化建模以及智能穿搭生成幾個(gè)方面對(duì)相關(guān)研究成果進(jìn)行總結(jié)分析,并指出該領(lǐng)域未來(lái)可能的研究方向。
1基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦基本框架
基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦利用互聯(lián)網(wǎng)上眾多時(shí)尚專(zhuān)家的搭配智慧和經(jīng)驗(yàn)來(lái)訓(xùn)練模型,在掌握流行趨勢(shì)的基礎(chǔ)上融合用戶(hù)的個(gè)性化信號(hào)進(jìn)行智能穿搭推薦。早期的時(shí)尚穿搭推薦研究工作基于文本數(shù)據(jù)進(jìn)行[5~8]。針對(duì)用戶(hù)已有服裝單品的屬性標(biāo)注及適合場(chǎng)景標(biāo)注,通過(guò)語(yǔ)義網(wǎng)[5]或協(xié)同過(guò)濾模型[6]完成針對(duì)場(chǎng)景的穿搭推薦;針對(duì)從時(shí)尚社交網(wǎng)絡(luò)上爬取的時(shí)尚搭配師發(fā)布的穿搭數(shù)據(jù),利用文檔主題模型[7]從品牌、類(lèi)型和顏色等屬性分別建模,根據(jù)用戶(hù)的穿搭歷史向其進(jìn)行個(gè)性化推薦[8]。然而服裝時(shí)尚具有強(qiáng)烈的視覺(jué)性,僅依靠文字信息無(wú)法充分描述服裝單品特征,需結(jié)合圖像特征進(jìn)行分析。與服飾解析、服飾檢索等時(shí)尚數(shù)據(jù)分析工作相比,時(shí)尚穿搭推薦有其自身的特點(diǎn)。一方面,時(shí)尚單品的圖像從不同的視覺(jué)維度體現(xiàn)了不同的屬性,包括顏色、種類(lèi)、款式、風(fēng)格和搭配準(zhǔn)則等,針對(duì)每一個(gè)單品如何建立有效模型充分刻畫(huà)其穿搭相關(guān)特征是必須要考慮的。另一方面,時(shí)尚穿搭可以反映用戶(hù)的個(gè)性和喜好,也反映了不同品牌或設(shè)計(jì)師的傳統(tǒng)與風(fēng)格,甚至不同地區(qū)的文化,因此在推薦過(guò)程中不僅要考慮圖像的視覺(jué)信息,還要將穿搭的背景信息考慮在內(nèi)。結(jié)合時(shí)尚穿搭的生成過(guò)程及數(shù)據(jù)訓(xùn)練的特點(diǎn),本文提出了基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦基本框架,如圖1所示,該框架包括三個(gè)部分:
a)數(shù)據(jù)層。該層主要負(fù)責(zé)四個(gè)方面的工作,包括穿搭相容性知識(shí)體系的構(gòu)建、用戶(hù)個(gè)性化知識(shí)體系的構(gòu)建、數(shù)據(jù)的收集與整理、數(shù)據(jù)的標(biāo)注與預(yù)處理。在穿搭相容性知識(shí)體系構(gòu)建的基礎(chǔ)上,將所收集的用戶(hù)穿搭圖像、相關(guān)評(píng)價(jià)評(píng)論和單品的文字描述等數(shù)據(jù)用于相容性預(yù)測(cè)模型的訓(xùn)練。用戶(hù)穿搭歷史及相關(guān)評(píng)論、用戶(hù)在電商應(yīng)用的瀏覽軌跡、購(gòu)物日志以及商品評(píng)論信息等數(shù)據(jù)則用來(lái)基于個(gè)性化知識(shí)體系對(duì)用戶(hù)的個(gè)性化信息進(jìn)行建模。
b)機(jī)器學(xué)習(xí)層。負(fù)責(zé)相容性預(yù)測(cè)與診斷模型、穿搭生成模型的訓(xùn)練與實(shí)現(xiàn),是系統(tǒng)框架中最為重要的一層。相容性預(yù)測(cè)是實(shí)現(xiàn)相容性診斷與穿搭生成的基礎(chǔ),從穿搭圖像中提取圖像直觀特征及隱藏層特征,與穿搭評(píng)論及單品文字描述的嵌入特征進(jìn)行融合后,用于訓(xùn)練相容性預(yù)測(cè)模型的參數(shù)并實(shí)現(xiàn)預(yù)測(cè)。相容性預(yù)測(cè)模型中各個(gè)單品對(duì)最終打分的權(quán)重參數(shù)可作為相容性診斷模型的輸入。穿搭生成模型使用從用戶(hù)穿搭歷史、互聯(lián)網(wǎng)瀏覽及購(gòu)物歷史等信息中提取的特征進(jìn)行編碼,并利用相容性預(yù)測(cè)模型訓(xùn)練好的參數(shù)作為解碼網(wǎng)絡(luò)的初始化信息,從而實(shí)現(xiàn)個(gè)性化穿搭推薦。
c)應(yīng)用層。負(fù)責(zé)與用戶(hù)之間的信息交互,接收用戶(hù)在客戶(hù)端的不同請(qǐng)求及輸入,實(shí)現(xiàn)相容性打分、診斷及個(gè)性化穿搭生成等應(yīng)用,對(duì)生成的結(jié)果進(jìn)行可視化處理,并以多種不同的形式向用戶(hù)進(jìn)行結(jié)果反饋。
2穿搭相容性預(yù)測(cè)與診斷
不同于傳統(tǒng)的推薦任務(wù),服裝穿搭是一個(gè)融合了時(shí)尚品味、審美準(zhǔn)則和領(lǐng)域經(jīng)驗(yàn)的輸出過(guò)程,因此高質(zhì)量的服裝時(shí)尚穿搭往往由專(zhuān)業(yè)的時(shí)尚搭配師來(lái)完成。近年來(lái)時(shí)尚網(wǎng)站和各類(lèi)移動(dòng)應(yīng)用飛速發(fā)展,使得時(shí)尚專(zhuān)家的穿搭在時(shí)尚社區(qū)得以廣泛傳播。Polyvore[9]、Lookbook[10]、Shoplook[11]和Chictopia[12]等時(shí)尚社區(qū)逐漸流行,開(kāi)創(chuàng)了通過(guò)互聯(lián)網(wǎng)分享個(gè)人時(shí)尚風(fēng)格的文化。這些時(shí)尚應(yīng)用積累了大量的用戶(hù),并且積累了大量高質(zhì)量的時(shí)尚穿搭及評(píng)論數(shù)據(jù),為相容性預(yù)測(cè)與診斷提供了數(shù)據(jù)基礎(chǔ)。
2.1相容性預(yù)測(cè)
相容性是指一套穿搭中單品之間的協(xié)調(diào)性,是時(shí)尚穿搭推薦中最基本的要求,因此相容性預(yù)測(cè)是穿搭推薦中最基本且直接影響推薦質(zhì)量的任務(wù)。根據(jù)相容性計(jì)算對(duì)象的范圍,已有研究工作可以分為兩類(lèi):一類(lèi)計(jì)算兩個(gè)單品之間的相容性;另一類(lèi)將整套穿搭中的所有單品作為一個(gè)集合,計(jì)算集合中所有單品的整體相容性。
2.1.1兩個(gè)單品之間的相容性預(yù)測(cè)
兩個(gè)單品的相容性預(yù)測(cè)主要用于單品推薦,例如用戶(hù)的輸入為一件上裝,則向該用戶(hù)推薦與之搭配合適的下裝。不同于檢索任務(wù)中普遍關(guān)注的圖像特征相似性,相容性預(yù)測(cè)更關(guān)注風(fēng)格的和諧,而不是視覺(jué)的相似性,因此處理過(guò)程更加復(fù)雜。一方面,穿搭相容的兩個(gè)單品屬于不同的種類(lèi),其外形并不相似;另一方面,服裝穿搭融合了個(gè)性化、服裝風(fēng)格等多種因素,因此需要建立一個(gè)特征轉(zhuǎn)換框架,將單品的多模態(tài)特征轉(zhuǎn)換到隱藏風(fēng)格空間。在此空間中,來(lái)自不同種類(lèi)且相容的時(shí)尚單品對(duì)距離更近,而不相容的單品對(duì)距離更遠(yuǎn)。根據(jù)采用的圖像特征,兩個(gè)單品之間的相容性預(yù)測(cè)工作可分為基于淺層特征[13]和基于深層特征[14~18]兩類(lèi),如表1所示。
文獻(xiàn)[13]主要關(guān)注上裝和下裝的搭配情況,訓(xùn)練的數(shù)據(jù)集主要來(lái)自電商網(wǎng)站和Flickr.com社交網(wǎng)站,基于圖像淺層特征和服裝特有的中間特征,結(jié)合上裝與下裝搭配組合里中間特征的共現(xiàn)次數(shù),使用隱SVM學(xué)習(xí)上下裝的搭配規(guī)則,進(jìn)而生成搭配打分。其中圖像淺層特征包括HOG、LBP、顏色矩等,而中間特征則根據(jù)上裝和下裝分別設(shè)置了材質(zhì)、款式、領(lǐng)型和褲長(zhǎng)等。采用圖像淺層特征的訓(xùn)練速度較快,對(duì)于穿搭評(píng)價(jià)的解釋性也較強(qiáng),然而淺層特征的表達(dá)能力相對(duì)有限,因此也限制了其學(xué)習(xí)能力。
后期的研究工作開(kāi)始關(guān)注表達(dá)能力更強(qiáng)的圖像深層特征,因此對(duì)訓(xùn)練數(shù)據(jù)集的數(shù)量和標(biāo)注有了更高的要求。一類(lèi)工作的訓(xùn)練數(shù)據(jù)集采用用戶(hù)在Amazon上的購(gòu)買(mǎi)行為數(shù)據(jù)[14~16],用戶(hù)同時(shí)購(gòu)買(mǎi)的兩個(gè)單品被認(rèn)為是相容的單品對(duì)。文獻(xiàn)[14]只關(guān)注圖像特征,采用Logistics回歸判斷兩個(gè)單品是否具有被用戶(hù)同時(shí)購(gòu)買(mǎi)的關(guān)系,并將具有同時(shí)購(gòu)買(mǎi)關(guān)系的概率值作為其相容性判斷值。該概率值由基于兩個(gè)單品特征距離值的轉(zhuǎn)移sigmoid函數(shù)生成,采用基于Mahalanobis 距離的方式進(jìn)行圖像特征到風(fēng)格空間的embedding,并在該空間中計(jì)算特征距離。此外,該工作還提出了將用戶(hù)喜好加入特征距離計(jì)算過(guò)程的方法,可進(jìn)一步提高預(yù)測(cè)準(zhǔn)確性。與文獻(xiàn)[14]采用單一的低階Mahalanobis嵌入矩陣完成特征embedding不同,文獻(xiàn)[15]在特征embedding的過(guò)程中采用了多個(gè)不同維度的低階Mahalanobis嵌入矩陣,并且學(xué)習(xí)不同embeddings的合成權(quán)重完成相容性預(yù)測(cè),因而進(jìn)一步提高了預(yù)測(cè)準(zhǔn)確性。文獻(xiàn)[16]繼續(xù)沿用了文獻(xiàn)[14]的Amazon數(shù)據(jù)集,但在圖像特征的基礎(chǔ)上又增加了單品的分類(lèi)文字特征,通過(guò)訓(xùn)練Siamese CNN來(lái)學(xué)習(xí)從圖像空間到風(fēng)格空間的特征轉(zhuǎn)換,在風(fēng)格空間計(jì)算單品之間的距離作為相容性判斷依據(jù),使用基于文字特征的最近鄰方法完成某一固定種類(lèi)單品的推薦,以減少單品種類(lèi)標(biāo)注錯(cuò)誤對(duì)推薦準(zhǔn)確性的影響。采用用戶(hù)在電商網(wǎng)站的購(gòu)物行為數(shù)據(jù)作為相容性預(yù)測(cè)的訓(xùn)練數(shù)據(jù)存在一定的弊端,用戶(hù)同時(shí)購(gòu)買(mǎi)的單品不一定搭配和諧,而且大量搭配和諧的單品對(duì)并未被用戶(hù)同時(shí)購(gòu)買(mǎi)。
另一類(lèi)基于深層特征的研究工作將用戶(hù)在Polyvore等時(shí)尚社區(qū)上傳的穿搭作為相容性判斷依據(jù)和訓(xùn)練數(shù)據(jù)[17,18]。文獻(xiàn)[17]采用了與文獻(xiàn)[16]相似的相容性計(jì)算方式,通過(guò)訓(xùn)練Siamese CNN將圖像特征轉(zhuǎn)換到可計(jì)算相容性距離的隱性空間。Song等人[18]分別使用CNN和TextCNN提取圖像特征和標(biāo)題種類(lèi)的文字特征,使用基于BPR[19]的教師—學(xué)生網(wǎng)絡(luò)[20]將時(shí)尚領(lǐng)域知識(shí)融入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,利用MLP將圖像特征和文本特征進(jìn)行融合,并轉(zhuǎn)移到隱性風(fēng)格空間以衡量上裝和下裝的相容性。時(shí)尚社區(qū)的穿搭數(shù)據(jù)范圍廣泛且數(shù)量龐大,結(jié)合用戶(hù)的評(píng)論及關(guān)注數(shù)據(jù)可以得到質(zhì)量較高的訓(xùn)練數(shù)據(jù)集,成為后期多數(shù)時(shí)尚穿搭推薦研究工作的選擇。
2.1.2整套穿搭的相容性預(yù)測(cè)
整套穿搭的相容性預(yù)測(cè)將上裝、下裝、鞋品和配飾等單品作為一個(gè)集合,對(duì)整個(gè)集合的相容性進(jìn)行判斷,比兩個(gè)單品的相容性預(yù)測(cè)更加復(fù)雜。一方面,整套穿搭涉及到的單品數(shù)量更多,而且每套穿搭的單品數(shù)量也不相同,這給神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)帶來(lái)了挑戰(zhàn);另外,在一整套穿搭中各個(gè)單品對(duì)于整體相容性的影響權(quán)重也不相同,如何學(xué)習(xí)不同單品的影響權(quán)重也是算法設(shè)計(jì)者必須考慮的問(wèn)題。根據(jù)判斷相容性所采用的穿搭單品特征,已有研究工作可以分為基于單品淺層特征[21,22]和深層特征兩類(lèi),而基于深層特征的相容性預(yù)測(cè)又可根據(jù)采用的神經(jīng)網(wǎng)絡(luò)模型分為基于CNN的相容性預(yù)測(cè)[23~29]、基于Bi-LSTM的相容性預(yù)測(cè)[30,31]和基于注意力機(jī)制的相容性預(yù)測(cè)[4,32,33]三類(lèi)。這些工作對(duì)比如表2所示。
a)基于單品淺層特征的相容性預(yù)測(cè)單品淺層特征包括顏色、紋理、方向梯度等,往往與豐富的文字特征結(jié)合進(jìn)行相容性預(yù)測(cè)。文獻(xiàn)[21]提取了單品的顏色信息,連同單品類(lèi)型、穿搭帖子的發(fā)布位置、用戶(hù)評(píng)論及模特人臉特征等文字描述輸入條件隨機(jī)場(chǎng)進(jìn)行用戶(hù)穿搭相容性的評(píng)價(jià)。文獻(xiàn)[22]則首先使用靜態(tài)區(qū)域檢測(cè)方法[34]找出單品的RoI區(qū)域,然后提取關(guān)鍵區(qū)域的顏色直方圖、SIFT和HoG等特征,通過(guò)梯度提升法[35]和單品分類(lèi)等文字特征相結(jié)合,利用成對(duì)交互張量分解法在隱藏層空間分別計(jì)算用戶(hù)—單品以及單品—單品的相容性,進(jìn)而預(yù)測(cè)整套穿搭和用戶(hù)的相容性。提取單品的淺層特征過(guò)程較為簡(jiǎn)單快速,然而淺層特征對(duì)單品特征的描述能力較弱,無(wú)法充分挖掘單品特征對(duì)相容性的影響。
b)基于CNN的相容性預(yù)測(cè)時(shí)尚社區(qū)的穿搭不僅包含用戶(hù)上傳的圖像數(shù)據(jù),還包括單品的種類(lèi)、標(biāo)題等文字描述數(shù)據(jù),以及用戶(hù)的評(píng)價(jià)數(shù)據(jù)等,相容性預(yù)測(cè)過(guò)程中可以充分利用多種不同類(lèi)型的數(shù)據(jù)進(jìn)行學(xué)習(xí)。基于各種深度學(xué)習(xí)網(wǎng)絡(luò)框架從不同種類(lèi)數(shù)據(jù)中提取的特征無(wú)法直接進(jìn)行相容性計(jì)算,需要將特征降維并轉(zhuǎn)移到相容性空間計(jì)算距離,已有研究工作的特征轉(zhuǎn)移方式包括單一空間轉(zhuǎn)移[23~27]和多空間轉(zhuǎn)移[28,29]兩類(lèi)。文獻(xiàn)[23,24]將判斷穿搭相容與否轉(zhuǎn)換為分類(lèi)問(wèn)題,將一套o(hù)utfit中的所有單品特征融合到一個(gè)向量中,最后利用融合后的特征向量訓(xùn)練分類(lèi)器,將穿搭相容的概率作為相容性的預(yù)測(cè)打分。兩者提取的特征及融合方式不同,文獻(xiàn)[23]只提取了每個(gè)單品的ResNet-50[36]圖像特征,通過(guò)特征連接生成一套穿搭的特征向量,而文獻(xiàn)[24]采用MLP融合每個(gè)單品的圖像特征和文字特征,然后通過(guò)基于setRNN的多實(shí)例池化實(shí)現(xiàn)整套穿搭多實(shí)例的特征融合。文獻(xiàn)[25]的實(shí)現(xiàn)思路和文獻(xiàn)[24]類(lèi)似,不同之處是提取圖像特征采用了VGG網(wǎng)絡(luò),另外相容性得分通過(guò)特征在嵌入空間的點(diǎn)積之和計(jì)算。為解決單層圖像特征可解釋性差的問(wèn)題,Wang等人從RestNet-50的低層和高層中的四個(gè)層次分別提取圖像特征,并采用視覺(jué)—語(yǔ)義嵌入[37]轉(zhuǎn)移融合圖像特征和文字特征,計(jì)算特征投影嵌入的余弦距離并形成比較矩陣,將該矩陣所有元素輸入兩層MLP得到相容性預(yù)測(cè)得分[26]。除了圖像和文字特征,Lu等人[27]還將用戶(hù)的個(gè)性化風(fēng)格加入訓(xùn)練模型,將多模態(tài)特征通過(guò)二值編碼轉(zhuǎn)換到風(fēng)格空間,在風(fēng)格空間計(jì)算單品—單品相容性和用戶(hù)—單品相容性,并進(jìn)一步通過(guò)加權(quán)求和得到整套穿搭的相容性。上述研究工作將所有不同類(lèi)型的單品壓縮映射到一個(gè)統(tǒng)一的空間,在單一空間中計(jì)算相容性,忽略了不同類(lèi)型單品對(duì)組合相容性計(jì)算的多樣性,文獻(xiàn)[28,29]探索建立多個(gè)嵌入子空間來(lái)獲取不同的相容性表達(dá)方式。文獻(xiàn)[28]首先基于SiameseNet[16]為每一張單品圖像建立一個(gè)通用的嵌入空間,以保證語(yǔ)義相似的單品在空間中更相近,然后在此空間基礎(chǔ)上采用CSN[38]針對(duì)不同種類(lèi)搭配的單品對(duì)學(xué)習(xí)不同的投影矩陣以獲得其相應(yīng)的子空間,在子空間中分別計(jì)算不同單品對(duì)的向量?jī)?nèi)積,將其輸入全連接層并獲得穿搭的相容性得分。文獻(xiàn)[28]一共訓(xùn)練了66個(gè)不同的單品對(duì)組合子空間,包括上裝—下裝、上裝—鞋品、下裝—鞋品等,所涉及的模型數(shù)量較大,時(shí)間代價(jià)較大。Reuben等人放棄了這種采用基于種類(lèi)搭配并且預(yù)先定義好相似條件的子空間設(shè)置方式,將子空間個(gè)數(shù)降低為5個(gè),而且對(duì)子空間的相似條件并不作固定的限制,通過(guò)可學(xué)習(xí)的相似性條件(learning similarity condition,LSC)將通用嵌入空間的特征投影到不同的子空間,并通過(guò)條件權(quán)重分支(condition weight branch,CWB)學(xué)習(xí)不同分支對(duì)最終相容性的貢獻(xiàn),進(jìn)一步提高了相容性預(yù)測(cè)的效率[29]。總的來(lái)說(shuō),基于CNN的相容性預(yù)測(cè)可以充分考慮一套穿搭中各個(gè)單品之間的相容性,預(yù)測(cè)準(zhǔn)確性較高。然而這類(lèi)研究工作的應(yīng)用場(chǎng)景多為相容性預(yù)測(cè)和單品填空(FITB),無(wú)法直接有效生成多個(gè)相容的穿搭單品或一整套穿搭。
c)基于Bi-LSTM的相容性預(yù)測(cè)Bi-LSTM是RNN的一種變體,通過(guò)記憶單元和門(mén)函數(shù)控制數(shù)據(jù)流,在語(yǔ)音識(shí)別、圖像視頻標(biāo)記等時(shí)間模型任務(wù)中得到了廣泛的應(yīng)用[39]。基于Bi-LSTM的相容性學(xué)習(xí)將時(shí)尚穿搭看成由多個(gè)有序單品構(gòu)成的序列,例如上裝—下裝—鞋品—配飾,其中每個(gè)單品被看做整個(gè)序列的一個(gè)時(shí)間步驟,在每一個(gè)時(shí)間步驟中,Bi-LSTM模型被訓(xùn)練用來(lái)基于現(xiàn)有單品集合預(yù)測(cè)下一個(gè)單品,進(jìn)而通過(guò)學(xué)習(xí)時(shí)間步驟之間的過(guò)渡來(lái)學(xué)習(xí)單品之間的相容性及整套穿搭的風(fēng)格[30,31]。首先通過(guò)Inception v3模型提取圖像特征,然后將特征向量輸入擁有512個(gè)隱藏單元的單層Bi-LSTM進(jìn)行學(xué)習(xí)。在Bi-LSTM的訓(xùn)練過(guò)程中,同時(shí)聯(lián)合訓(xùn)練了視覺(jué)—語(yǔ)義嵌入模塊,這樣一方面利用輸入單品的屬性種類(lèi)等文字信息對(duì)Bi-LSTM的訓(xùn)練進(jìn)行約束,另一方面可以實(shí)現(xiàn)基于多模態(tài)用戶(hù)輸入的穿搭生成。整套穿搭的相容性通過(guò)Bi-LSTM的前向和后向預(yù)測(cè)損失之和計(jì)算[30],Takuma等人[31]在此基礎(chǔ)上又增加了目標(biāo)穿搭風(fēng)格的約束,從而進(jìn)一步擴(kuò)展了用戶(hù)輸入信息的種類(lèi)。總的來(lái)說(shuō),基于Bi-LSTM的相容性預(yù)測(cè)可以實(shí)現(xiàn)多模態(tài)用戶(hù)輸入的整套服裝穿搭生成,然而在建模過(guò)程中將穿搭單品看成有序序列的假設(shè)并不完全符合實(shí)際情況,因?yàn)橐惶状┐畹南嗳菪猿潭扰c其中單品的順序并沒(méi)有關(guān)系。此外,不同單品對(duì)的相容性對(duì)整套穿搭相容性的貢獻(xiàn)并不相同,而LSTM并沒(méi)有對(duì)此進(jìn)行區(qū)別。
d)基于注意力機(jī)制的相容性預(yù)測(cè)相比于LSTM隨著時(shí)間推移以循環(huán)網(wǎng)絡(luò)的形式對(duì)有序序列進(jìn)行順序處理,注意力機(jī)制同時(shí)學(xué)習(xí)序列中任意元素之間的相關(guān)性及其與整體輸出的依賴(lài)關(guān)系,一次性處理整個(gè)序列。因此,采用注意力機(jī)制對(duì)穿搭相容性建模可以克服LSTM無(wú)法區(qū)別單品對(duì)的相容性對(duì)整套穿搭影響的缺陷。文獻(xiàn)[32]針對(duì)一張圖像和起始—目標(biāo)兩個(gè)種類(lèi)向量的輸入構(gòu)建了基于單品種類(lèi)子空間的注意力網(wǎng)絡(luò)CSA-NET,該網(wǎng)絡(luò)對(duì)于不同種類(lèi)的單品對(duì)搭配學(xué)習(xí)不同的注意力權(quán)重和掩碼,為最終的嵌入計(jì)算選擇合適的嵌入子空間,從而區(qū)分各個(gè)單品對(duì)的相容性對(duì)整體相容性的影響,所采用的特征包括單品圖像的CNN特征以及單品種類(lèi)的one-hot向量。POG[4]則進(jìn)一步擴(kuò)大了特征類(lèi)型,除了提取圖像特征及文字特征,還基于Graph Embedding[40]平臺(tái)提取單品的協(xié)同過(guò)濾信號(hào),具體方法是利用單品在電商網(wǎng)站上用戶(hù)點(diǎn)擊的共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)生成嵌入特征。這三種特征串聯(lián)后通過(guò)兩個(gè)全連接層完成特征轉(zhuǎn)換,然后輸入雙向Transformer編碼器網(wǎng)絡(luò)預(yù)測(cè)相容性。預(yù)測(cè)過(guò)程中將一套穿搭中的每個(gè)單品分別進(jìn)行掩蓋,并計(jì)算該單品被編碼器生成的概率,最終將所有單品概率的平均值作為該套穿搭的相容性分值。文獻(xiàn)[33]分別提取單品圖像及場(chǎng)景圖像的ResNet-50隱藏層特征,通過(guò)雙層前饋神經(jīng)網(wǎng)絡(luò)將特征轉(zhuǎn)移到統(tǒng)一空間,利用種類(lèi)監(jiān)督的注意力機(jī)制計(jì)算穿搭和場(chǎng)景的相容性。基于注意力機(jī)制構(gòu)建學(xué)習(xí)網(wǎng)絡(luò)可以充分挖掘不同單品對(duì)的搭配對(duì)整體相容性的影響,從而進(jìn)一步提高相容性預(yù)測(cè)的準(zhǔn)確性;此外,針對(duì)整個(gè)序列的學(xué)習(xí)過(guò)程可以并行實(shí)現(xiàn),從而提高模型學(xué)習(xí)效率。由于模型參數(shù)數(shù)量龐大,這類(lèi)方法對(duì)訓(xùn)練數(shù)據(jù)集的數(shù)量要求較高。
2.2相容性診斷
相容性診斷在相容性預(yù)測(cè)的基礎(chǔ)上,指出一套穿搭中導(dǎo)致不相容的因素并對(duì)其進(jìn)行解釋?zhuān)罱K給出替換方案。相容性診斷在實(shí)際應(yīng)用中具有重要的意義:對(duì)于時(shí)尚研究人員來(lái)說(shuō),相容性診斷幫助理解相容性的本質(zhì);對(duì)于消費(fèi)者來(lái)說(shuō),相容性診斷使得預(yù)測(cè)和穿搭生成結(jié)果更有說(shuō)服力;對(duì)于時(shí)尚設(shè)計(jì)師和企業(yè)來(lái)說(shuō),相容性診斷為設(shè)計(jì)和生產(chǎn)流行穿搭提供了重要參考。目前已有的研究工作主要集中在相容性預(yù)測(cè),診斷的相關(guān)研究工作還比較少。
FHN[27]基于相容性打分實(shí)現(xiàn)了一種較為簡(jiǎn)單直接的診斷方法:從整套穿搭中去掉一個(gè)單品,并隨機(jī)從候選庫(kù)中選擇其他單品進(jìn)行替換,計(jì)算兩次穿搭的相容性得分差,得分差越大說(shuō)明該單品在穿搭相容性中的正面影響越大,而得分差最小的單品則需要替換。MCN[26]使用ResNet-50從圖像中提取conv2_x、conv3_x、conv4_x及conv5_x四個(gè)不同層次的特征,使用全局平均池化[41]將不同層次的特征分別轉(zhuǎn)換為向量進(jìn)行分層比較。在各個(gè)層次的比較過(guò)程中,將任意兩個(gè)單品特征相似性的后向傳播梯度作為對(duì)不相容性的影響權(quán)重,并以此作為相容性的診斷依據(jù)。影響穿搭相容性的因素有多種,包括紋理、顏色、款式、風(fēng)格以及用戶(hù)的喜好等,涵蓋了單品圖像的低層特征及高層特征,以及地域、文化和用戶(hù)個(gè)性化等背景信息。因此實(shí)現(xiàn)穿搭相容性診斷首先要結(jié)合時(shí)尚領(lǐng)域知識(shí)建立一套相對(duì)完整的相容性知識(shí)體系,全面分析不同因素對(duì)相容性的影響;此外,從圖像提取的特征不僅要采用深層網(wǎng)絡(luò)的最后語(yǔ)義層,還要包括體現(xiàn)顏色、紋理等元素的多層特征,并保證特征分析模型的可解釋性。
3智能穿搭生成方法
高質(zhì)量穿搭生成一方面要求各個(gè)單品之間相容協(xié)調(diào),一方面要求穿搭符合用戶(hù)的不同需求和時(shí)尚品味,即要求生成的穿搭具有個(gè)性化。用戶(hù)的直接需求例如穿搭的適用場(chǎng)景、目標(biāo)風(fēng)格等個(gè)性化信息可以通過(guò)顯式輸入完成,而用戶(hù)自身的風(fēng)格特點(diǎn)和喜好則需要根據(jù)穿搭歷史或者瀏覽歷史來(lái)深度挖掘,因此個(gè)性化建模是智能穿搭生成中不可或缺的步驟。
3.1個(gè)性化建模方法
根據(jù)個(gè)性化信息的獲取方式,可以將個(gè)性化建模方法分為被動(dòng)輸入和主動(dòng)挖掘兩類(lèi)。被動(dòng)輸入通過(guò)用戶(hù)顯式輸入得到穿搭生成的用戶(hù)個(gè)性化信息,并將個(gè)性化信息融入到穿搭生成過(guò)程中,已有相關(guān)研究工作的個(gè)性化信息包括應(yīng)用場(chǎng)景和目標(biāo)穿搭風(fēng)格。如表3所示。文獻(xiàn)[13]允許用戶(hù)主動(dòng)提供婚禮、面試、宴會(huì)等應(yīng)用場(chǎng)景,分別建立場(chǎng)景與圖像淺層特征和中間屬性(種類(lèi)、顏色、款式等)的隱藏對(duì)應(yīng)關(guān)系模型,并將其應(yīng)用到隱SVM模型實(shí)現(xiàn)面向場(chǎng)景的穿搭推薦。另一類(lèi)工作允許用戶(hù)顯式輸入目標(biāo)穿搭風(fēng)格。文獻(xiàn)[31]假設(shè)存在基本風(fēng)格集合,并假設(shè)每一套穿搭的風(fēng)格可以由基本風(fēng)格集合中元素的線性組合生成,訓(xùn)練權(quán)重矩陣實(shí)現(xiàn)單品特征到風(fēng)格的映射,進(jìn)而通過(guò)風(fēng)格嵌入矩陣實(shí)現(xiàn)穿搭風(fēng)格的重構(gòu),最終通過(guò)計(jì)算所生成的穿搭風(fēng)格向量與目標(biāo)風(fēng)格向量的距離來(lái)完成基于風(fēng)格的推薦;文獻(xiàn)[30]則通過(guò)視覺(jué)語(yǔ)義嵌入建立文本描述和圖像特征的連接,根據(jù)用戶(hù)輸入的風(fēng)格或?qū)傩缘任淖置枋稣业阶钕嘟膱D像,進(jìn)而輸入Bi-LSTM生成穿搭。采用用戶(hù)顯式輸入的方式獲取個(gè)性化信息比較直接,用于推薦的實(shí)現(xiàn)方法也相對(duì)容易,然而可獲取的信息不夠豐富,而且增加了用戶(hù)使用推薦系統(tǒng)的負(fù)擔(dān),不利于在大規(guī)模的在線推薦系統(tǒng)實(shí)現(xiàn)。
一些研究者開(kāi)展了主動(dòng)挖掘用戶(hù)個(gè)性化信息的研究工作,所挖掘的數(shù)據(jù)對(duì)象包括用戶(hù)個(gè)人穿搭歷史[22,27,42]、用戶(hù)在電商的購(gòu)買(mǎi)日志[14]及瀏覽歷史[4]。用戶(hù)的個(gè)人穿搭歷史中隱含了其對(duì)不同風(fēng)格的喜好程度,文獻(xiàn)[27]通過(guò)獨(dú)立的哈希模型將圖像特征、文本特征及用戶(hù)品味喜好轉(zhuǎn)換為二值編碼,最后通過(guò)權(quán)重哈希匹配計(jì)算用戶(hù)對(duì)穿搭的喜好程度;文獻(xiàn)[22]采用功能張量分解的方法建立用戶(hù)與單品在不同隱性空間的聯(lián)系,進(jìn)而預(yù)測(cè)用戶(hù)和服裝穿搭的匹配度打分;Hsiao等人[42]通過(guò)相關(guān)主題模型CTM[43]建立不同的視覺(jué)特征和時(shí)尚風(fēng)格之間的分布關(guān)系,利用從用戶(hù)穿搭歷史圖像中抽取的中間特征來(lái)預(yù)測(cè)其對(duì)不同風(fēng)格的喜好程度,進(jìn)而實(shí)現(xiàn)個(gè)性化推薦。文獻(xiàn)[14]對(duì)用戶(hù)在電商網(wǎng)站的購(gòu)買(mǎi)歷史數(shù)據(jù)進(jìn)行分析,采用投影矩陣表示不同用戶(hù)對(duì)各單品對(duì)感興趣特征分量的權(quán)重,并將該投影矩陣應(yīng)用于相容性距離計(jì)算中,然而這種用戶(hù)個(gè)性化信息主要用于提高相容性預(yù)測(cè)的準(zhǔn)確率,并非直接用于個(gè)性化推薦。POG則關(guān)注了用戶(hù)在電商網(wǎng)站的瀏覽歷史,包括瀏覽的時(shí)尚穿搭和單品,使用Transformer的編碼器網(wǎng)絡(luò)將用戶(hù)瀏覽的歷史圖像轉(zhuǎn)換為個(gè)性化信號(hào),在解碼器中將其和相容性信號(hào)相結(jié)合實(shí)現(xiàn)個(gè)性化穿搭推薦[4]。主動(dòng)挖掘用戶(hù)的個(gè)性化信息面臨著個(gè)人用戶(hù)信息數(shù)據(jù)量較少和冷啟動(dòng)的問(wèn)題,如何實(shí)現(xiàn)多渠道的個(gè)人信息建模以充分表達(dá)用戶(hù)喜好,是未來(lái)研究人員必須考慮的問(wèn)題。
3.2穿搭生成方法
穿搭生成依據(jù)用戶(hù)的顯式輸入或者對(duì)用戶(hù)個(gè)性化信息的挖掘,生成既相容和諧又符合用戶(hù)個(gè)性化需求的服裝穿搭。根據(jù)具體的實(shí)現(xiàn)方式,已有的相關(guān)研究工作可以分為四類(lèi):
a)基于整套穿搭的相容性評(píng)測(cè)生成穿搭[14,24,27]。一種實(shí)現(xiàn)方式是每次從候選集中選出使得和已有單品組合后相容性最高的候選單品,并將其加入已有單品組合,多次重復(fù)上述操作實(shí)現(xiàn)穿搭生成[14,24];另外一種實(shí)現(xiàn)方法本質(zhì)上沒(méi)有生成新的穿搭,通過(guò)把候選集中的穿搭和用戶(hù)的喜好進(jìn)行相容性評(píng)測(cè)和排名實(shí)現(xiàn)推薦[27]。當(dāng)候選單品集合非常大時(shí),這種基于迭代匹配和排名的生成方式時(shí)間復(fù)雜度非常高,而當(dāng)候選單品集合比較小時(shí),又限制了所生成穿搭的覆蓋范圍,因此這種穿搭生成方式所受局限較大。
b)基于Bi-LSTM生成穿搭[30,31]。這類(lèi)方法將一套穿搭中的所有單品看成有序序列,每一個(gè)單品看做序列中的一個(gè)時(shí)間步驟。基于穿搭數(shù)據(jù)集訓(xùn)練Bi-LSTM模型,通過(guò)已有單品預(yù)測(cè)下一個(gè)時(shí)間步驟的單品來(lái)學(xué)習(xí)有序單品之間的相容性關(guān)系,最終實(shí)現(xiàn)基于給定的輸入單品從兩個(gè)方向有序生成相容的整套穿搭。因?yàn)锽i-LSTM是一種雙向的RNN,所以在預(yù)測(cè)下一個(gè)單品的過(guò)程中可以綜合考慮整個(gè)序列單品之間相容性的影響。這種穿搭生成方法允許用戶(hù)輸入一件或多件單品,輸入方式較為靈活,所生成穿搭的范圍比第一類(lèi)方法有所擴(kuò)大。
c)基于Transformer的解碼—編碼網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)穿搭生成[4]。解碼器接收用戶(hù)的瀏覽歷史圖像作為輸入,并將其轉(zhuǎn)換為用戶(hù)個(gè)性化信號(hào)輸入編碼網(wǎng)絡(luò),編碼網(wǎng)絡(luò)使用已經(jīng)訓(xùn)練好的相容性模塊的參數(shù)進(jìn)行初始化,因此編碼器同時(shí)使用了相容性信號(hào)和用戶(hù)個(gè)性化信號(hào)。當(dāng)獲取到START信號(hào),編碼器就開(kāi)始依次生成穿搭中的各個(gè)單品,每一步該模型都會(huì)以自回歸的方式將之前生成的單品作為新的輸入,直到END信號(hào)出現(xiàn),一套穿搭即生成。這種穿搭生成方法不要求穿搭中的單品有序排列,不要求用戶(hù)作顯式地輸入,而且能在編碼階段挖掘用戶(hù)的個(gè)性化信號(hào),因此系統(tǒng)實(shí)現(xiàn)更為友好。然而Transformer結(jié)構(gòu)的訓(xùn)練參數(shù)較多,要求訓(xùn)練集的數(shù)量較大。
d)基于生成對(duì)抗網(wǎng)絡(luò)(GAN)生成穿搭。在穿搭生成過(guò)程中,給定一個(gè)輸入的單品圖像,CRAFT[44]通過(guò)預(yù)訓(xùn)練好的編碼器網(wǎng)絡(luò)提取其特征,該特征和樣本噪聲向量一起輸入變換網(wǎng)絡(luò),從而生成相容性單品的特征向量。基于該生成特征向量采用最近鄰搜索方法在已經(jīng)索引好的候選單品特征集中選擇目標(biāo)單品。與CRAFT在特征空間進(jìn)行穿搭生成不同,MrCGAN[17]直接生成全新的穿搭圖像。MrCGAN利用在相容性空間學(xué)習(xí)的距離計(jì)算函數(shù)代替?zhèn)鹘y(tǒng)的相似性函數(shù)來(lái)規(guī)范CGAN,將已有單品在相容性空間的特征向量和噪聲一起輸入生成器,從而生成相容性的單品圖像。文獻(xiàn)[45]則使用GAN學(xué)習(xí)上下裝的搭配規(guī)律,從而實(shí)現(xiàn)了基于用戶(hù)輸入的上裝生成下裝的功能,然后通過(guò)圖像相似度計(jì)算從用戶(hù)的個(gè)人衣櫥中找到與之相似的下裝進(jìn)行推薦。由于采用了直接生成的方式,基于GAN的穿搭生成范圍十分廣泛。此外,在穿搭相容性訓(xùn)練過(guò)程中,往往需要通過(guò)隨機(jī)組合的方式來(lái)人工合成不相容的學(xué)習(xí)樣本,這種生成負(fù)樣本方式并不精確,從而影響模型的學(xué)習(xí)效果。而GAN是一種非監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò),不需要生成負(fù)樣本和數(shù)據(jù)標(biāo)注,大大減少了數(shù)據(jù)集預(yù)處理的工作量。目前這類(lèi)方法的相關(guān)研究工作還處于起步階段,已有的工作只關(guān)注了服裝單品的推薦生成,如何基于GAN實(shí)現(xiàn)整套穿搭的生成,是未來(lái)要解決的問(wèn)題。
4應(yīng)用場(chǎng)景
基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦學(xué)習(xí)時(shí)尚搭配師的穿搭技巧及經(jīng)驗(yàn),以此評(píng)測(cè)一套穿搭的相容性并推薦單品或整套穿搭。相關(guān)研究成果可應(yīng)用于電商平臺(tái)以增強(qiáng)消費(fèi)者購(gòu)物體驗(yàn),促進(jìn)時(shí)尚產(chǎn)品成交量;應(yīng)用于時(shí)尚分析平臺(tái)挖掘不同區(qū)域在不同階段的時(shí)尚穿搭關(guān)鍵因素,為設(shè)計(jì)生產(chǎn)提供強(qiáng)有力的參考信息。
1)穿搭單品推薦穿搭單品推薦允許用戶(hù)提交多個(gè)服飾單品,從候選集中選出與提交單品集搭配合適的單品向用戶(hù)進(jìn)行推薦,如圖2所示。單品推薦完全依賴(lài)于相容性預(yù)測(cè)的結(jié)果和提供的候選集,目前大多數(shù)基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦研究工作均支持這類(lèi)推薦。FITB(fill-in-the-blank)作為單品推薦的典型應(yīng)用場(chǎng)景,可以輔助用戶(hù)日常穿搭,同時(shí)也成為研究工作進(jìn)行相容性預(yù)測(cè)對(duì)比實(shí)驗(yàn)過(guò)程中常用的案例。
2)整套穿搭推薦整套穿搭推薦根據(jù)用戶(hù)提交的多模態(tài)輸入推薦多個(gè)單品,包括基于文字[13,30]或單品圖像[30]以及主動(dòng)挖掘用戶(hù)個(gè)性化信息[4,22,27,42]的推薦。文獻(xiàn)[13]根據(jù)用戶(hù)提供的場(chǎng)景文字描述,從用戶(hù)的個(gè)人服飾相冊(cè)中推薦出合適的穿搭,節(jié)省用戶(hù)日常服飾搭配的時(shí)間和精力,如圖3所示。文獻(xiàn)[30]則提供了根據(jù)用戶(hù)提供的單品圖像推薦整套穿搭的應(yīng)用,如圖4所示。這類(lèi)應(yīng)用不僅向用戶(hù)個(gè)人進(jìn)行穿搭推薦,還可以應(yīng)用在電商平臺(tái)根據(jù)用戶(hù)的關(guān)注或已購(gòu)買(mǎi)單品進(jìn)行精準(zhǔn)的時(shí)尚穿搭推薦。除了根據(jù)用戶(hù)的輸入進(jìn)行推薦,部分研究工作探索了根據(jù)用戶(hù)的互聯(lián)網(wǎng)瀏覽歷史或穿搭歷史等信息挖掘用戶(hù)個(gè)性化信息進(jìn)行推薦,這類(lèi)應(yīng)用則可以更有效地實(shí)現(xiàn)大規(guī)模推廣。文獻(xiàn)[4]根據(jù)用戶(hù)在淘寶iFashion的服飾單品瀏覽歷史推測(cè)用戶(hù)的個(gè)性化信息,從而進(jìn)行個(gè)性化穿搭推薦,如圖5所示。目前該應(yīng)用已經(jīng)在淘寶的Dida平臺(tái)部署,并被阿里巴巴數(shù)百萬(wàn)用戶(hù)使用。
3)相容性預(yù)測(cè)與診斷相容性預(yù)測(cè)對(duì)用戶(hù)輸入的穿搭相容性進(jìn)行評(píng)判打分,大部分時(shí)尚穿搭研究工作均支持該應(yīng)用。相容性診斷找出影響用戶(hù)所輸入穿搭相容性的關(guān)鍵單品及關(guān)鍵屬性,對(duì)相容性預(yù)測(cè)結(jié)果進(jìn)行解釋?zhuān)沟孟嗳菪灶A(yù)測(cè)結(jié)果更加可信,也提供了修正穿搭的功能。文獻(xiàn)[26]提供的相容性診斷功能如圖6所示,通過(guò)診斷發(fā)現(xiàn)鞋子的顏色與褲子不搭配,鞋子的紋理與上衣不搭配,而風(fēng)格與褲子和上衣均不搭配,因此診斷鞋子為導(dǎo)致不相容的原因,并對(duì)其進(jìn)行替換。
5未來(lái)工作展望
作為一項(xiàng)新興的時(shí)尚分析技術(shù),基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。本文依據(jù)基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦基本框架對(duì)相關(guān)工作進(jìn)行了總結(jié)分析。總的來(lái)說(shuō),目前該領(lǐng)域的相關(guān)研究工作仍然處于起步階段,還存在很多有價(jià)值的研究問(wèn)題。
a)多粒度的穿搭相容性診斷。相容性診斷探求服裝穿搭和諧的本質(zhì),使得相容性的預(yù)測(cè)結(jié)果更具說(shuō)服力,也可以體現(xiàn)未來(lái)的時(shí)尚流行趨勢(shì)。現(xiàn)有的研究工作或者直接根據(jù)去掉單品后的相容性得分差來(lái)選擇需要替換的單品,或者計(jì)算單品圖像在深層網(wǎng)絡(luò)架構(gòu)多個(gè)層次特征相似性的后向傳播梯度作為診斷依據(jù)。總的來(lái)說(shuō),已有工作相容性診斷的粒度較為粗獷。從時(shí)尚穿搭的專(zhuān)業(yè)領(lǐng)域來(lái)看,影響穿搭相容性的因素十分復(fù)雜,不僅包括紋理、顏色等圖像低層特征和風(fēng)格等高層特征,還包括領(lǐng)型、袖型等服裝特有的廓形特征,甚至涉及地域文化、時(shí)間變化和用戶(hù)的個(gè)性化因素。因此,未來(lái)的研究工作首先需要建立一套符合時(shí)尚領(lǐng)域?qū)I(yè)知識(shí)的相容性知識(shí)體系,全面分析不同因素對(duì)相容性的影響。此外,依據(jù)相容性知識(shí)體系提取涵蓋多模態(tài)因素的圖像特征及語(yǔ)義特征,并實(shí)現(xiàn)多粒度的診斷也是十分具有挑戰(zhàn)性的工作。
b)用戶(hù)個(gè)性化風(fēng)格的自動(dòng)挖掘。服裝時(shí)尚穿搭具有強(qiáng)烈的個(gè)人主觀特征,是個(gè)人時(shí)尚品味和風(fēng)格的體現(xiàn),因此服裝時(shí)尚穿搭推薦中加入用戶(hù)個(gè)性化信息非常有必要。目前已有的大多數(shù)研究工作并未考慮用戶(hù)個(gè)性化信息,在推薦過(guò)程中主要依據(jù)服裝單品之間的相容性。部分研究工作進(jìn)行了不同形式的個(gè)性化推薦探索,主要通過(guò)用戶(hù)顯式輸入場(chǎng)景、風(fēng)格等方法獲取用戶(hù)個(gè)性化信號(hào),少量工作探索了基于用戶(hù)的穿搭歷史和電商訪問(wèn)軌跡的個(gè)性化信息挖掘。然而,個(gè)人用戶(hù)的穿搭歷史和訪問(wèn)軌跡數(shù)據(jù)量較小,對(duì)個(gè)人用戶(hù)喜好的表達(dá)能力不強(qiáng)。一方面,盡管個(gè)人用戶(hù)的歷史數(shù)據(jù)較少,具有相似時(shí)尚品味用戶(hù)群體的歷史行為數(shù)據(jù)量卻十分龐大,如何借助其他同群體用戶(hù)的歷史數(shù)據(jù)探索用戶(hù)個(gè)性化信息,并解決冷啟動(dòng)問(wèn)題是未來(lái)工作的一個(gè)方向;另一方面,如何綜合多渠道的用戶(hù)歷史數(shù)據(jù)實(shí)現(xiàn)個(gè)性化信息建模,建立快速有效的網(wǎng)絡(luò)模型實(shí)現(xiàn)用戶(hù)個(gè)性化風(fēng)格的自動(dòng)挖掘,也還有很多研究工作要做。
c)基于生成式網(wǎng)絡(luò)的全新時(shí)尚穿搭推薦。目前的時(shí)尚穿搭生成研究工作大多基于候選的時(shí)尚單品集,從候選集中找出符合用戶(hù)喜好并且和諧的穿搭。候選集的質(zhì)量和范圍在很大程度上決定了穿搭生成的多樣性和實(shí)現(xiàn)效果,而且穿搭生成的速度也受到候選集大小的影響。生成式網(wǎng)絡(luò)結(jié)合用戶(hù)輸入創(chuàng)造性的生成全新的時(shí)尚穿搭,不再受限于候選單品集,生成推薦的多樣性和范圍大大增加。如何設(shè)計(jì)生成式網(wǎng)絡(luò)架構(gòu),在保證穿搭相容性的同時(shí),將用戶(hù)的個(gè)性化信號(hào)等外部限制進(jìn)行建模,并將其融入生成網(wǎng)絡(luò)的條件變量中,還有很多挑戰(zhàn)性的工作要做。
d)時(shí)尚穿搭推薦新應(yīng)用的探索。人們的時(shí)尚生活方式在不斷變化與改進(jìn),除了用戶(hù)已有穿搭相容性的預(yù)測(cè)與診斷、在線購(gòu)物或者服裝搭配時(shí)的穿搭推薦等傳統(tǒng)應(yīng)用外,人們對(duì)時(shí)尚穿搭推薦的需求也在不斷更新。例如,極簡(jiǎn)生活逐漸受到更多人的推崇,而膠囊衣櫥是極簡(jiǎn)生活在時(shí)尚穿搭領(lǐng)域的代表性應(yīng)用。膠囊衣櫥在有限的服裝單品數(shù)量限制下,最大程度地保證單品所生成穿搭的相容性、多樣性、時(shí)尚潮流長(zhǎng)久性等,這就涉及到如何智能推薦衣櫥需要增減的時(shí)尚單品。此外,根據(jù)時(shí)尚社區(qū)用戶(hù)穿搭風(fēng)格和相容性的變化情況預(yù)測(cè)未來(lái)的流行元素、根據(jù)不同地域人們穿搭相容性的權(quán)重分配分析不用地域的時(shí)尚風(fēng)格等新興應(yīng)用都將進(jìn)一步給時(shí)尚穿搭推薦領(lǐng)域注入新的活力,因而探索該領(lǐng)域的新應(yīng)用具有重要的意義。
6結(jié)束語(yǔ)
基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦服務(wù)于個(gè)人用戶(hù)、電子商務(wù)運(yùn)營(yíng)商以及時(shí)尚設(shè)計(jì)師,對(duì)推動(dòng)時(shí)尚產(chǎn)業(yè)的發(fā)展具有重要的作用。近年來(lái),時(shí)尚社區(qū)的快速發(fā)展和機(jī)器學(xué)習(xí)技術(shù)的變革分別為智能時(shí)尚穿搭推薦提供了數(shù)據(jù)基礎(chǔ)和技術(shù)支撐,使其成為學(xué)術(shù)界和工業(yè)界廣泛關(guān)注的研究領(lǐng)域。本文對(duì)近幾年國(guó)內(nèi)外在基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦領(lǐng)域的研究工作進(jìn)行了總結(jié),綜述了若干主要問(wèn)題的研究現(xiàn)狀,包括穿搭相容性預(yù)測(cè)方法、相容性診斷方法、個(gè)性化建模以及穿搭生成方法等,并對(duì)相關(guān)技術(shù)進(jìn)行了對(duì)比分析,最后提出了該領(lǐng)域未來(lái)可研究的問(wèn)題以及可能的解決方案。總的來(lái)說(shuō),基于機(jī)器學(xué)習(xí)的時(shí)尚穿搭推薦技術(shù)研究仍然處于起步階段,存在不少挑戰(zhàn)性的關(guān)鍵問(wèn)題需要進(jìn)行深入研究,為國(guó)內(nèi)外機(jī)器學(xué)習(xí)及時(shí)尚領(lǐng)域的研究人員提供了廣闊的研究空間。
參考文獻(xiàn):
[1]Orendorff A. The state of the ecommerce fashion industry:statistics,trends amp; strategy[EB/OL].(2021)[2021-08-01].https://www.shopify.com/enterprise/ecommerce-fashion-industry.
[2]Amed I, Berg A, Balchandani A, et al. The state of fashion 2019[EB/OL].(2019)[2021-08-01].https://www.mckinsey.com/industries/retail/our-insights/state-of-fashion.
[3]張秀芳,路晨,唐茂勇.我國(guó)服裝行業(yè)的現(xiàn)狀及發(fā)展趨勢(shì)[J].中國(guó)纖檢,2020(2):160-163.(Zhang Xiufang, Lu Chen, Tang Maoyong. The present situation and development trend of China’s garment industry[J].China Fiber Inspection,2020(2):160-163.)
[4]Chen Wen, Huang Pipei, Xu Jiaming, et al. POG: personalized outfit generation for fashion recommendation at Alibaba iFashion[C]//Proc of the 25th SIGKDD Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2019:2662-2670.
[5]Shen E, Lieberman H, Lam F. What am I gonna wear: scenario-oriented recommendation[C]//Proc of the 12th International Conference on Intelligent User Interfaces.New York:ACM Press,2007:365-368.
[6]Zhao Ying, Araki K. What to wear in different situations? a content-based recommendation system for fashion coordination[C]//Proc of Japanese Forum on Information Technology.Tokyo:Information Processing Society of Japan Press,2011:619-628.
[7]Blei D M,Ng A, Jordan M I. Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[8]Lin Y, Wang T. Dress up like a stylist? learning from a user-generated fashion network[C]//Proc of the 20th ACM SIGKDD Workshop on Machine Learning Meets Fashion.New York:ACM Press,2017.
[9]Polyvore[EB/OL].[2021-08-01].https://polyvore.ch/.
[10]Lookbook[EB/OL].[2021-08-01].https://lookbook.nu/.
[11]Shoplook[EB/OL].[2021-08-01].https://shoplook.io/.
[12]Chictopia[EB/OL].[2021-08-01].http://chictopia.com.
[13]Liu Si, Feng Jiashi, Song Tianzhu, et al. Hi, magic closet, tell me what to wear![C]//Proc of the 20th ACM International Conference on Multimedia.New York:ACM Press,2012:619-628.
[14]McAuley J, Targett C, Shi Qinfeng, et al. Image-based recommendations on styles and substitutes[C]//Proc of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2015:43-52.
[15]He Ruining, Packer C, McAuley J. Learning compatibility across categories for heterogeneous item recommendation[C]//Proc of the 16th IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2016:937-942.
[16]Veit A, Kovacs B, Bell S, et al. Learning visual clothing style with heterogeneous dyadic co-occurrences[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:4642-4650.
[17]Shih Y S, Chang K Y, Lin H T, et al. Compatibility family learning for item recommendation and generation[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:2403-2410.
[18]Song Xuemeng, Feng Fuli, Han Xianjing, et al. Neural compatibility modeling with attentive knowledge distillation[C]//Proc of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2018:5-14.
[19]Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proc of the 25th International Conference on Uncertainty in Artificial Intelligence.[S.l.]:AUAI Press,2009:452-461.
[20]Hu Zhiting, Ma Xuezhe, Liu Zhengzhong, et al. Harnessing deep neural networks with logic rules[C]//Proc of the 54th Annual Mee-ting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computer Linguistics,2016:2410-2420.
[21]Simo-Serra E, Fidler S, Moreno-Noguer F, et al. Neuroaesthetics in fashion: modeling the perception of fashionability[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:869-877.
[22]Hu Yang, Yi Xi,Davis L S. Collaborative fashion recommendation: a functional tensor factorization approach[C]//Proc of the 23rd Annual ACM Conference on Multimedia Conference.New York:ACM Press,2015:129-138.
[23]Pongsate T, Yamaguchi K, Okatani T. Recommending outfits from personal closet[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:269-277.
[24]Li Yuncheng, Cao Liangliang, Zhu Jiang, et al. Mining fashion outfit composition using an end-to-end deep learning approach on set data[J].IEEE Trans on Multimedia,2017,19(8):1946-1955.
[25]Bettaney E M, Hardwick S R, Zisimopoulos O, et al. Fashion outfit generation for e-commerce[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer,2020:339-354.
[26]Wang Xin, Wu Bo, Ye Yun, et al. Outfit compatibility prediction and diagnosis with multi-layered comparison network[C]//Proc of the 27th Annual ACM Conference on Multimedia Conference.New York:ACM Press,2019:329-337.
[27]Lu Zhi, Hu Yang, Jiang Yunchao, et al. Learning binary code for personalized fashion recommendation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10554-10562.
[28]Vasileva M I, Plummer B A, Dusad K, et al. Learning type-aware embeddings for fashion compatibility[C]//Proc of the 15th European Conference on Computer Vision.Berlin:Springer,2018:405-421.
[29]Tan R, Vasileva M, Saenko K, et al. Learning similarity conditions without explicit supervision[C]//Proc of IEEE International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2019:10372-10381.
[30]Han Xintong, Wu Zuxuan, Jiang Y G, et al. Learning fashion compatibility with bidirectional LSTMs[C]//Proc of the 25th Annual ACM Conference on Multimedia Conference.New York:ACM Press,2017:1078-1086.
[31]Takuma N, Goto R. Outfit generation and style extraction via bidirectional LSTM and autoencoder[C]//Proc of ACM SIGKDD Workshop on AI for fashion.New York:ACM Press,2018.
[32]Lin Y L, Tran S, Davis L S. Fashion outfit complementary item retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3308-3316.
[33]Kang W C, Kim E, Leskovec J, et al. Complete the look: scene-based complementary product recommendation[C]//Proc of IEEE /CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:10524-10533.
[34]Cheng M, Warrell J, Lin W, et al. Efficient salient region detection with soft image abstraction[C]//Proc of IEEE International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2013:1529-1536.
[35]Friedman J. Function approximation: a gradient boosting machine[J].Annals of Statistics,2001,29(5):1189-1232.
[36]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[37]Kiros R, Salakhutdinov R, Zemel R S. Unifying visual-semantic embeddings with multimodal neural language models[EB/OL].(2014-11-10).https://arxiv.org/abs/1411.2539.
[38]Veit A, Belongie S, Karaletsos T. Conditional similarity networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ:IEEE Press,2017:1781-1789.
[39]Graves A. Supervised sequence labelling with recurrent neural networks[M].Berlin:Springer,2012.
[40]Wang Jizhe, Huang Pipei, Zhao Huan, et al. Billion-scale commodity embedding for e-commerce recommendation in Alibaba[C]//Proc of the 24th SIGKDD Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2018:839-848.
[41]Lin Min, Chen Qiang, Yan Shuicheng. Network in network[EB/OL].(2013-12-06).https://arxiv.org/abs/1312.4400.
[42]Hsiao W L, Grauman K. Creating capsule wardrobes from fashion images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018:7161-7170.
[43]Blei D M, Lafferty J D. Correlated topic models[C]//Proc of the 18th International Conference on Neural Information Processing Systems.New York:ACM Press,2005:147-154.
[44]Huynh C P, Ciptadi A, Tyagi A, et al. CRAFT: complementary recommendation by adversarial feature transform[C]//Proc of the 15th Euro-pean Conference on Computer Vision.Berlin:Springer,2018:54-66.
[45]楊爭(zhēng)妍,薛文良,張傳雄,等.基于生成式對(duì)抗網(wǎng)絡(luò)的用戶(hù)下裝搭配推薦[J].紡織學(xué)報(bào), 2021,42(7):164-168.(Yang Zhengyan, Xue Wenliang, Zhang Chuanxiong, et al. Recommendations for user’s bottoms matching based on generative adversarial networks[J].Journal of Textile Research,2021,42(7):164-168.)
收稿日期:2021-08-31;
修回日期:2021-10-23
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61502279,62062058);北京服裝學(xué)院重點(diǎn)科研項(xiàng)目(2021A-02)
作者簡(jiǎn)介:史英杰(1983-),女,山東濱州人,副教授,碩導(dǎo),博士,主要研究方向?yàn)樵茢?shù)據(jù)管理、時(shí)尚大數(shù)據(jù)管理與分析(shiyingjie1983@163.com);楊珂(1992-),男,河南原陽(yáng)人,碩士研究生,主要研究方向?yàn)闀r(shí)尚大數(shù)據(jù)管理;王建欣(1989-),女,河北唐山人,碩士研究生,主要研究方向?yàn)闀r(shí)尚大數(shù)據(jù)分析、圖像生成;杜方(1974-),女,寧夏銀川人,教授,碩導(dǎo),博士,主要研究方向?yàn)橹悄苄畔z索、大數(shù)據(jù)管理.