摘 要:互補產品推薦是為用戶推薦可以一起搭配使用的產品。現有產品推薦方法考慮了產品的圖像與文本的所有特征,但沒有考慮到視覺和文本模態間的關系,此外并不是所有的特征對互補關系的貢獻都相同。基于此種情況,提出了一種融合注意力機制的互補產品推薦模型(complementary product recommendation fusing with attention mechanism,CPRFA)。該模型首先用產品的圖像和文本信息來豐富其特征表示;其次為了將異質產品與多模態信息統一起來,將其進一步轉換為圖像和文本向量表示;然后使用注意力機制自適應地為產品的不同特征分配權重;最后學習產品與候選產品之間的關系,進行互補產品的推薦。在基于Amazon數據集的實驗中,所提CPRFA模型在各項指標上均優于其他基線模型,表明CPRFA模型可以更準確地為用戶推薦互補產品。
關鍵詞:互補產品;注意力機制;推薦;多模態;神經網絡
中圖分類號:TP393 文獻標志碼:A 文章編號:1001-3695(2022)11-012-3281-06
doi: 10.19734/j.issn.1001-3695.2022.04.0169
Complementary product recommendation fusing with attention mechanism
Wang Mengru, Ji Shujuan, Liang Yongquan, Liu Guangming
(College of Computer Science amp; Engineering, Shandong University of Science amp; Technology, Qingdao Shandong 266590, China)
Abstract:Complementary product recommendation is to recommend products to users that can be used together. Existing product recommendation methods consider all features of product’s images and texts, but do not consider the relationship between visual and textual modalities, and not all features contribute equally to the complementary relationship. Based on this situation, this paper proposed a complementary product recommendation model fusing with attention mechanism (CPRFA). The model firstly enriched its feature representation with the product’s image and text information. Secondly, in order to unify heterogeneous products with multimodal information, it further converted them into image and text vector representations, and then used the attention mechanism to adaptively assign weights to different features of the product. Finally, it learned the relationship between the product and the candidate products for the recommendation of complementary products. In the experiments based on the Amazon dataset, the CPRFA model outperforms other baseline models in all indicators, which shows that it can recommend complementary products to users more accurately.
Key words:complementary product; attention mechanism; recommendation; multi-modal; neural network
基金項目:國家自然科學基金資助項目(71772107,62072288)
作者簡介:王夢茹(1997-),女,河南商丘人,碩士研究生,主要研究方向為推薦系統;紀淑娟(1977-),女,河北唐山人,教授,博導,主要研究方向為人工智能與智能商務信息處理;梁永全(1967-),男(通信作者),山東聊城人,教授,博導,主要研究方向為人工智能、數據挖掘(lyq@sdust.edu.cn);劉廣明(1997-),男,山東濟南人,碩士,主要研究方向為推薦系統.
0 引言
互補產品推薦(complementary product recommendation,CPR)對亞馬遜、淘寶等在線電子商務平臺越來越重要。CPR可以在用戶購物時為其推薦多種高質量的相關產品,比如用戶在購買手機時,CPR會推薦耳機和手機殼等商品,使其與手機搭配使用。CPR可以激發客戶更多的潛在需求,在提升用戶購物體驗的同時給電子商務平臺帶來更多的利潤。但隨著互聯網及大數據時代的發展,信息呈指數式增長,考慮到大規模以及各種類型的產品時,互補產品推薦這項工作便充滿了挑戰性。從Amazon數據集的電子產品中抽取的50萬件商品樣本中發現,只有20%明確提到與其他商品的互補性[1,2],在書籍、電影和服飾等其他類別中,提到這種情況的少之又少。因此互補產品推薦已經成為研究的熱點課題。
目前眾多學者圍繞電子商務平臺的互補產品推薦展開研究。McAuley等人[1]根據產品的評論信息學習替代產品與互補產品的語義關系;Wang等人[2]在產品的關系建模中引入了路徑約束。這兩種方法試圖區分替代品和互補品,但未能對產品之間的互補關系進行深入挖掘。Liu等人[3]利用產品的文本信息和圖像信息進行衣服搭配,但該方法未能應用到其他類別的互補產品推薦領域。Zhang等人[4]結合產品的文本和圖像信息以及產品的評分應用到神經網絡,然后進行互補產品推薦,但是該方法只是簡單地將產品的圖像和文本信息融合,未能考慮視覺和文本模態間的關系以及特征之間的匹配程度。
綜上,目前互補產品推薦存在三個關鍵性挑戰:
a)異質產品間的互補關系建模。多模態(即視覺模態和文本模態)可以從不同的角度描述同一產品。視覺模態(即圖像)能夠很好地反映風格特征,而文本模態(即標題和簡單的描述)往往表現功能特征。因此,如何利用產品的圖像和文本元數據對互補關系建模是一項艱巨的挑戰。
b)特征對產品間互補關系的影響。考慮到不同類別的產品,特征的匹配程度對產品間的互補關系貢獻不同。例如:如圖1(a)(b),破洞的T恤與破洞牛仔褲之間搭配的主要原因是 “破洞”這一特征而牛仔材質這一特征對互補關系影響不大;圖1(b)(c),破洞牛仔褲和牛仔外套之間的匹配主要是因為兼容的衣服材質即“牛仔”而破洞這一特征對互補關系影響相對較小。所以,衡量產品間的特征匹配程度是一個巨大的挑戰。
c)用戶對互補候選產品的偏好。給出一組候選互補產品,用戶會更偏向于哪個產品呢?例如:10個華為耳機可能被識別為華為手機的互補產品,這表明模型需要對產品的質量進行建模來滿足用戶的偏好。
為了克服以上問題,本文提出了一種新的互補產品推薦模型,主要思路如下:
a)在產品的圖像風格特征和文本功能特征下,通過特征的向量表示進一步學習產品之間的隱藏關系來平衡互補產品風格和功能之間的有效性;
b)通過注意力機制對產品間不同模態下的特征進行匹配程度學習,根據特征的匹配程度對互補關系的貢獻去自適應地分配各個特征的權重;
c)通過距離檢測互補項目,結合用戶評分對產品質量建模,然后基于神經網絡進行互補產品的推薦。
1 相關工作
基于產品信息的不同,互補產品的推薦方法可以分為基于單模態和基于多模態的方法。
1.1 基于單模態的互補產品推薦
單模態的互補產品推薦中有基于圖像和基于文本的方法,McAuley等人[5]根據物體的外觀來模擬人類對物體之間關系的感知,該模型依據產品的風格空間發現可替換或互補產品。Iwata等人[6]利用時尚雜志的照片,依據給定的下裝進行上衣的推薦。Jagadeesh等人[7]提出了一個帶有街頭時尚圖片的大規模視覺推薦系統。He等人[8]用從亞馬遜收集來的噪聲較少的圖片進行個性化推薦。Sun等人[9]利用關聯規則來尋找產品之間的隱含關系,并將其作為矩陣分解的正則化項。Veit等人[10]將一對時尚單品的圖像輸入到一個端對端的網絡中,通過學習它們視覺上的語義信息,從而進一步生成服飾套裝。McAuley等人[11]開發的Moqa能夠發現與查詢產品相關的信息,其使用用戶的評論信息來發現產品之間的關系。Xu等人[12]基于產品的上下文信息提出了一種對偶嵌入框架來捕捉產品之間互補關系的方法。McAuley等人[1]從產品的評論文本中學習替代品與互補品的語義,以此來區分替代品與互補品。Zhang等人[13]設計了一個LDA主題建模方法,將產品嵌入轉換為語義特征,并結合產品的評論來捕捉產品之間的替代和互補關系。Wang等人[2]提出了一個路徑約束框架,學習其在語義空間中的嵌入,通過映射函數將產品嵌入投影到兩個獨立的空間中,在每個嵌入中加入路徑約束,以此來區分替代產品與互補產品。
1.2 基于多模態的互補產品推薦
Zhang等人[4]結合了產品的圖像特征與文本信息,提出了一種新的神經網絡框架。Ma等人[14]提出了一個面向時尚的多模態深度學習模型,以此來對服裝風格進行分類。Song等人[15]從時尚社區平臺Polyvore收集并創建了一個數據集,同時設計了一個基于自動編碼器的多模態互補單品兼容性建模框架。Liu等人[3]提出了一個端到端的基于神經網絡的框架,該框架利用產品的文本信息和圖像信息進行互補衣服搭配推薦。Li等人[16]基于時尚單品的多模態多實例的深度學習,提出了一個服裝套裝的質量預測器。
在現實生活中,產品之間的關系十分復雜,并且產品之間的互補關系因產品類別的差異而有所不同。例如,基于風格的方法更適用于服裝配飾等類別,而電子產品之間的匹配更依賴于功能特征。因此,基于多模態的方法比基于單模態的方法應用場景更廣泛,性能方面表現得也更好,是目前互補產品推薦領域里備受關注的一個熱點。
1.3 總結
基于圖像的和文本的單模態方法信息來源單一,對單品本身特征描述的表達力較弱[17],雖然在特定場景下表現出來的性能優異,但是缺乏泛用性。而融合了多模態的互補產品推薦方法可以在不同領域內實現相對較好的性能,但是現有的多模態方法只是簡單將產品的圖像和文本信息融合,沒有考慮如何更進一步地將異質產品與多模態信息統一起來,此外也忽略了不同產品之間特征的匹配程度對互補關系的影響。
本文將產品的多個信息源合并到一個新的基于注意力機制的模型中,該模型可以學習產品之間特征的匹配程度并自適應地為特征分配權重,并且考慮了產品的評分,將其用于互補產品推薦中,下面將詳細介紹CPRFA模型。
2 融合注意力的互補產品推薦模型
2.1 符號說明
假設在某個推薦場景中,P={p1,p2,p3,…,pq}表示產品集合,其中q是產品的數量。給定產品pi,C={pi1,pi2,pi3,…,pic}是產品pi的候選互補產品集合,其中ic是產品pi的候選互補產品的數量,這里本文設置正樣本與負樣本數量相等。ti和mi分別表示產品pi的文本和圖像嵌入。
給定候選互補產品pj,rjk 是產品pj的第k個評分,qjk是評分rjk轉換的二進制分數。dti|j(pi,pj)和dmi|j(pi,pj)分別是產品和其候選互補產品之間的文本和圖像距離。
2.2 整體框架
CPRFA的框架如圖2所示,CPRFA為編碼器—解碼器結構,編碼器由基于圖像和文本的特征編碼模塊構成,解碼器由基于注意力的自適應分配權重模塊、基于距離的互補產品檢測模塊和基于神經網絡的推薦模塊構成。四個模塊的詳細介紹如下:
a)基于圖像和文本的特征編碼模塊。該模塊分為兩部分,首先提取產品的圖像和文本特征,其次為了將異質產品(即產品和候選互補產品)與多種模態統一起來,將產品的圖像和文本特征投影到潛在空間,進一步轉換成圖像和文本向量表示,使模型更好地學習不同產品之間的語義關系。
b)基于注意力的自適應權重分配模塊。特征的匹配程度對產品間的互補關系貢獻不同,因此本文應用注意力機制[3] 學習產品與其候選互補產品之間特征的匹配程度,為特征自適應地分配權重。
c)基于距離的互補產品檢測模塊。基于特征的權重,計算產品pi與候選互補產品pj之間的互補距離dti|j與dmi|j[4],dti|j與dmi|j分別表示pi與pj之間的文本互補距離與圖像互補距離。
d)基于神經網絡的推薦模塊。根據得到的文本和圖像距離,通過神經網絡學習它們之間的關系,并通過候選項的評分期望得到top-n推薦列表。
2.3 基于圖像和文本的特征編碼模塊
產品的圖像和文本的特征編碼模塊分為兩部分。首先,在本文中分別使用AlexNet[18]和BERT[19]模型來提取產品的圖像和文本特征,然后通過多層感知機(MLP)[20]將圖像和文本編碼投影到潛在的特征空間。
2.3.1 圖像和文本的特征提取
圖像是一個產品最直觀的表現,包含圖案和形狀。例如在時尚服裝類別中,衣服的顏色和圖案等特征通過圖片形象地表現出來,因此服飾的整體風格對關系起著不可忽視的影響。為了編碼產品的圖像特征,在本文中使用了AlexNet模型[18]對圖像進行編碼,該模型由五個卷積層和三個全連接層組成。訓練的數據集采用Image-Net LSVRC-2010競賽中的120萬張高分辨率圖像,其中圖像被分為1 000個不同的類別。本文使用的圖像特征是全連接層的輸出,因為它在以往的工作中表現得非常出色[21~23],圖像特征向量的長度為fm=4 096。本文用mi和mj分別表示產品和其候選互補產品圖像的編碼特征。
產品的標題和簡單描述也提供了有價值的信息,例如在電子產品類別中,文本則體現了更多與互補關系相關的信息。為了有效地編碼文本內容,在本文中使用了BERT的雙向編碼器表示[19],與文獻[24,25]的語言表示模型不同,BERT[19]旨在通過所有層中聯合調節上下文,來從未標記文本中預處理進行深度雙向表示。BERT使用了the BooksCorpus (800 M words)[26]和 English Wikipedia (2 500 M words)作為訓練集。文本特征的向量長度為ft=768,在本文中使用ti和tj分別表示產品和候選互補產品的文本編碼特征。
2.3.2 圖像和文本的向量表示
為了將異質產品與多個模態統一起來,在本文中將產品投影到一個潛在的特征空間。CPRFA使用多層感知機[20]來對不同產品之間的語義關系進行建模,從而更深入地學習產品對之間隱藏的圖像和文本語義關系。以產品pi的文本編碼映射為例,假設MLP由K個隱藏層組成,定義如下:
其中:Wkti、bkti 是產品pi的第k層參數,下標t和i分別表示文本和產品;σ(·)代表sigmoid激活函數;Lkti={t1i,t2i,…,tdi}是文本表示。本文將第k層的輸出當做產品pi的文本向量表示,即lkti。以相似的方法,可以得到產品的圖像向量表示和候選產品的圖像和文本向量表示,相應的公式如下:
其中:Lkmi={m1i,m2i,…,mdi}、Lktj={t1j,t2j,…,tdj}、Lkmj={m1j,m2j,…,mdj} 是特征表示;Wkmi、Wktj、Wkmj、bkmi、bkmj(k=2,…,K)是第k層的參數,下標m 和j分別表示圖像和候選產品。使用第k層的輸出作為產品pi圖像向量表示即lkmi,候選產品的文本和圖像向量表示分別為lktj、lkmj。
2.4 基于注意力的自適應權重分配模塊
不同的成對特征可以表現產品的不同方面,例如,顏色、圖案和文本,因此不同特征對互補關系的建模會有不同的影響。例如,“戴爾電腦”和“戴爾電腦充電器”的匹配主要歸因于特定的接口,而電腦和充電器的顏色對互補關系的貢獻顯得沒有那么重要。因此并不是所有的成對特征對互補性關系建模的貢獻是相等的,并且每個成對特征的權重應該針對不同的產品進行自適應地學習。因此在本文中使用了注意力機制來學習產品的不同特征之間的匹配程度。
注意力機制模塊及其他模塊的細節框架如圖3所示,該模型能夠自適應地學習不同成對特征之間的差異。首先,定義產品和候選產品(pi,pj)下的第l對文本特征的匹配程度otl(pi,pj)如下:
其中:⊙表示兩個向量的元素乘積;flt∈?d表示第l對特征的獨熱向量表示,其中第l個元素為1,其他元素為0;w∈?n,Wtatt∈? n×d,bt∈?d,c ∈?是注意力網絡的參數,n表示注意力網絡的隱藏單元數;φ(·)代表激活函數,本文中使用的是ReLU函數,然后對第l對文本特征的匹配程度進行歸一化,公式如下:
以相似的方法,可以得到產品和候選互補產品(pi,pj)下的第l對圖像特征的匹配程度oml(pi,pj),公式如下:
對第l對圖像特征的匹配程度進行歸一化,公式如下:
2.5 基于距離的互補產品檢測模塊
在本節中基于距離檢測互補產品分為基于產品的圖像特征向量檢測互補距離和基于產品的文本特征向量檢測互補距離。最后結合兩個互補距離來確定符合的互補產品。
2.5.1 基于圖像特征的互補距離
首先通過AlexNet[18]提取產品和候選互補產品的圖像特征,然后經過MLP[20]將圖像特征統一編碼在同一個空間下,根據產品和候選產品之間的特征匹配程度分配注意力權重,此時計算圖像向量表示lmi和lmj之間的歐氏距離,此距離表示產品pi與pj在風格方面的互補關系,計算公式如下:
其中:EM∈?fm×fem為低秩變換矩陣, fem為圖像的嵌入維度。基于圖像的方法在服飾相關類別的產品中表現得更出色,憑借圖像可以找出風格相似的其他互補產品,但是在其他類別中如果單單只用圖像的話,可能會引入明顯的誤差。
2.5.2 基于文本特征的互補距離
圖像只是描述產品信息中的一種,因此圖像表征的信息只是一部分并不完整,例如:一件女士長袖,如果不提供文本信息,也可能被推薦給想要購買嬰兒服飾的用戶,這便和消費者的需求背道而馳,因此也要將產品的文本信息考慮進來。此外,文本能夠在功能方面彌補圖像信息的缺點。與基于圖像的互補距離相似,計算嵌入空間中文本向量表示lmi和lmj之間的歐氏距離,此距離表示產品pi與pj在文本信息方面的互補關系,計算公式如下:
其中:ET∈?ft×fet為訓練后的文本嵌入矩陣,用來學習跟互補關系相關的文本特征,fet為圖像的嵌入維度。
2.6 基于神經網絡的推薦模塊
在日常生活中,與已經購買過的產品相比用戶更關心將要購買的候選互補產品的質量。參考文獻[4],在本文中也只考慮候選互補產品的質量。首先假設產品pj有評分rj1,rj2,…,rjnj,nj表示產品pj的評分數量,這些評分是購買過的用戶給出的。將每個評分rjk視為產品pj的隨機變量。由于用戶有不同的評價等級,所以首先將rjk轉為隨機變量qjk,然后用一個二元閾值來區分好的評價和壞的評價。如果rjkgt;ηr,則表明rjk評級良好,qjk為1;否則意味著用戶認為候選項pj有缺點,qjk為0。因此,產品pj的評級為良好的期望表示為
產品之間的互補關系會因產品種類的不同有著顯著的差異。互補關系不僅是嚴格意義上的互補,結合到現實生活中,用戶通常會選擇候選互補產品中質量高的那些。由此本文提出了一種融合注意力機制的互補產品推薦模型CPRFA。該模型不是簡單地將各個來源信息結合起來,它具有以下優點:
a)神經網絡方法可以捕捉不同類別之間互補關系的差異性;
b)模型可以平衡風格和功能兩者之間的有效性;
c)注意力機制學習產品之間的特征匹配程度去自適應地分配權重的高效性。
具體來說,CPRFA首先將產品和候選互補產品的特征轉換為向量表示,其次通過注意力機制學習特征之間的匹配程度進行權重的分配,然后根據互補距離及評分期望來捕捉復雜的互補關系。由式(13)~(15)得
其中:yc|(i,j)(pi,pj)∈?(fem+fet+1),本文將其用做神經網絡的非對稱融合層。然后在該層中加入權重和偏置:
其中:W∈?(fem+fet+1)×fe,偏置b ∈?fe,fe=256表示嵌入維度。然后進行激活,距離公式如下:
其中:W2為特征放入非線性空間時的權重向量。根據計算出的sc|(i,j)(pi,pj),可以求出最終的互補關系概率,公式為
其中:ηz是學習的互補閾值。
3 實驗與結果分析
本文使用Amazon數據集來評估CPRFA與最先進基線的性能,同時對以下關鍵問題進行研究:
a)與基線相比,CPRFA表現如何?這種性能是否因產品類型而異?
b)CPRFA應用在不同的產品類別時,文本、圖像的向量表示或者注意力方面的互補關系對其性能有什么影響?
3.1 Amazon數據集
本文中使用的Amazon數據集是最近在文獻[5,27]中引入的一個大型的真實數據集。完整的數據集包含超過100萬個產品和4 200萬個跨大約20個產品類別的購買關系。根據文獻[2],本文在Amazon的產品信息中選用了also-bought (AB)關系列表來定義用戶的互補產品交互集合:用戶購買了商品pi也購買了商品pj。在本文中主要選用手機及配件(C amp; A)、音樂(digital music,music)、電影(movies)、電子產品(electronics)和服飾(clothing)五個類別的數據集來進行相關實驗。
手機及配件類別中體現了互補關系,例如手機和該手機型號配對的手機殼。電子產品類別主要包括電腦、相機等電子類設備,一個電子類產品能搭配使用的互補產品包含很多,例如相機和鏡頭、相機和充電器、相機和膠卷等搭配使用。服裝類別中的互補關系通常體現在上衣和下裝之間的搭配上,例如一件藍色帶有花朵圖案的衛衣和一條同樣帶有花朵圖案的白色牛仔褲搭配穿著。而音樂和電影這兩個類別,與其他類別的數據集相比,它們的互補關系的概念相對較弱,沒有比較清晰的界定,例如:歷史題材的電影可以和其他任何類型的電影(喜劇電影、恐怖電影等)共同觀看,相似地,爵士音樂也可以和其他任何流派的音樂(古典樂派、民族樂派等)一起搭配聽。五個類別的數據集的具體統計情況如表1所示,表中第二列subcategory是子類的數量,第三列items表示產品的數量,average表示每個產品的相關產品的平均數量。
3.2 評估標準
a) 對于每種方法,本文預測產品對是否互補,并通過以下方式測量其準確性(accuracy)。
其中:R(·)是個閾值算子,如果ygt;0,則R(y)=1,否則R(y)=0;|Ci|和|Ni|是產品pi的互補產品和非互補產品的數量。
b)對于每種產品類型,使用precision@k來計算每個產品的正確預測候選互補產品的比例,公式如下:
其中:GR(Ci)是產品pi真實互補產品集;PR(Ci)是預測的top-k推薦互補產品集。
3.3 基線
為了證明CPRFA的有效性,本文選取了一套基線方法與CPRFA進行比較:
a)weighted nearest neighbor(WNN)。該方法通過使用加權的歐氏距離來度量Ii與Ij之間的互補關系,d=‖fj|i(Ii,Ij|θj)°w‖22。其中°是Hadamard乘積,w是一個權重向量。
b)low-rank Mahalanobis transform(LMT)[5]。其是一種最先進的方法,用于學習大型數據集中不同產品之間的視覺方面的相似性。LMT學習一個單一的低秩馬氏嵌入矩陣,并將所有產品嵌入到一個低維空間。它根據嵌入空間內的歐氏距離預測給定產品之間的關系。
c)Monomer[27]。一種產品到產品推薦任務建模異構關系的模型,利用了非度量嵌入的混合方法,基于產品圖像信息,通過學習低階嵌入來從不同方面對互補關系進行預測,并使用手工設計的融合方法來獲取最終值。
d)文獻[28]。該推薦系統利用產品的文本屬性以及從產品圖像中提取的視覺特征,使用bidirectional LSTM學習產品之間的相似性度量,進行互補產品的推薦。
e)ENCORE[4]。一種基于神經網絡的互補產品推薦方法,該方法應用產品評分的貝葉斯推理方法為互補產品建模潛在質量,聯合學習產品之間的互補關系,得到最終值。
為了評估圖像、文本向量表示與注意機制對模型性能及在不同類別的數據集上的影響,本文還提出了CPRFA的幾個變體:
a)CPRFA_ma。該方法考慮了產品的圖像向量表示,并應用了注意力機制,沒有使用產品的文本信息。
b)CPRFA_ta。該方法考慮了產品的文本向量表示,并應用了注意力機制,但是沒有應用產品的圖像特征。
c)CPRFA_mt。該方法同時結合了產品的圖像和文本向量表示,但沒有應用注意力機制。
d)CPRFA。該方法是本文提出的CPRFA模型,該模型將圖像、文本和注意力機制融合到一個神經網絡模型中。
3.4 參數設置
為了平衡性能與計算復雜度以及在不同基線之間進行公平的比較,在每個實驗中,均使用了五折交叉驗證。模型參數首先根據均值為0的截斷正態分布進行隨機初始化。標準差從{0.1,0.01, 0.001}中進行選擇,并通過隨機梯度下降(SGD)進行更新。相應的學習率從{0.1,0.05, 0.01,…,0.000 001}中選擇。一般來說,針對不同類別產品的訓練在30次迭代中收斂。
3.5 實驗結果
本文首先研究CPRFA相對于基線方法的性能差異。WNN、LMT、Monomer和ENCORE的實驗結果均來自于原文。對于文獻[28],按照本文介紹和參數設置在Amazon的五個數據集進行模型訓練與測試。所有方法的實驗結果如圖4所示。
a)在ACC指標下,與其他基線相比,CPRFA的準確率在所有類別的數據集上都是最高的,同時與次優模型ENCORE相比平均提高了5.76%,這表明本文模型CPRFA在推薦互補產品方面表現優異。
b)即使是在音樂和電影這兩個互補關系的概念相對較弱的類別下,CPRFA模型的準確率也高于其他基線模型,這表明CPRFA會自適應地兼顧到每個類別的特點。
c)在precision指標中,CPRFA表現了最優的性能。與次優模型ENCORE相比,CPRFA的P@5和P@10分別提高了4.50%與5.06%,這表明考慮產品之間特征的匹配程度要比考慮產品的質量對互補產品的推薦更加有效,因為推薦的目的是推薦與目標產品更適配的產品。
d)在所有類別中,clothing的ACC值最高,但是其P@5和P@10是最低的。由于clothing中的樣式繁多,如果給定下裝推薦上衣,上衣的樣式遠遠多于下裝,例如給定牛仔褲,可以推薦牛仔外套、格子襯衫、T恤、Polo衫、風衣等,所以precision@k最低。
3.6 消融實驗
為了進一步研究產品的文本、圖像的向量表示以及注意力機制對CPRFA的影響,本文將CPRFA與其幾個變體進行性能比較,結果如表2所示。在這里本文只關注了ACC,同樣的結果也適用于P@5與P@10。
a)首先在所有類別的數據集中,與CPRFA_ma相比,CPRFA_ta性能是有一定提高的,說明文本信息對挖掘產品之間的互補關系是非常有幫助的,尤其像electronics和Camp;A這樣的功能性類別,因為文本中所包含的信息比圖像中隱含的互補關系表達得更具體。
b)與CPRFA_mt相比,CPRFA的性能有了一定的提升,平均提高了3.3%,這表明了注意力模塊的有效性以及產品間特征的匹配程度對挖掘互補關系有著不可忽視的作用。
c)在所有類別的數據集中,CPRFA的性能均優于CPRFA_ta、CPRFA_ma這兩個方法,這有效地驗證了文本、圖像信息的向量表示以及產品間特征的匹配程度都有助于互補產品的推薦。
d)不論是CPRFA_ta、CPRFA_ma、CPRFA_mt還是CPRFA在music類別上的ACC和precision@k的結果都相對較差,這是由于music數據集比較稀疏的問題,它不像clothing和electronics數據集那樣稠密,這就使得模型挖掘互補關系時學習到的信息不太全面,導致模型表現出的結果較差。
4 結束語
本文提出了一種融合注意力機制的互補產品推薦模型CPRFA。該模型首先將產品的文本和圖像信息轉換為向量表示;其次,它基于注意力機制學習在多模態下的產品間特征的匹配程度,然后自適應地為特征分配權重;最后,CPRFA學習產品之間的復雜關系進行互補產品推薦。本文在Amazon的五個主要類別的數據集上進行了廣泛的實驗,結果表明與其他基線相比,CPRFA將產品圖像與文本特征編碼進一步轉換成向量表示以及產品之間特征的匹配程度融合到互補產品推薦中,極大地提高了推薦模型的性能。
在未來的工作中需要在個性化用戶的互補產品推薦這方面進行深入研究。此外,本文模型對稀疏的數據集的依賴也是未來工作中要解決的重點問題。
參考文獻:
[1]McAuley J,Pandey R,Leskovec J. Inferring networks of substitutable and complementary products[C]// Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2015: 785-794.
[2]Wang Zihan,Jiang Ziheng,Ren Zhaochun,et al. A path-constrained framework for discriminating substitutable and complementary products in e-commerce[C]// Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press,2018: 619-627.
[3]Liu Jinhuan,Song Xuemeng,Nie Liqiang,et al. An end-to-end attention-based neural model for complementary clothing matching[J]. ACM Trans on Multimedia Computing Communications and Applications,2019,15(4): article No.14.
[4]Zhang Yin,Lu Haokai,Niu Wei,et al. Quality-aware neural complementary item recommendation[C]// Proc of the 12th ACM Confe-rence on Recommender Systems. New York: ACM Press,2018: 77-85.
[5]McAuley J,Targett C,Shi Qinfeng,et al. Image-based recommendations on styles and substitutes [C]// Proc of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieva. New York: ACM Press,2015: 43-52.
[6]Iwata T,Watanabe S,Sawada H. Fashion coordinates recommender system using photographs from fashion magazines[C]// Proc of the 22nd International Joint Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2011: 2262-2267.
[7]Jagadeesh V,Piramuthu R,Bhardwaj A,et al. Large scale visual re-commendations from street fashion images[C]// Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2014: 1925-1934.
[8]He Ruining,McAuley J. VBPR: visual Bayesian personalized ranking from implicit feedback[C]// Proc of the 30th AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2016: 144-150.
[9]Sun Jianshan,Wang Gang,Cheng Xusen,et al. Mining affective text to improve social media item recommendation[J]. Information Processing amp; Management,2015,51(4): 444-457.
[10]Veit A,Kovacs B,Bell S,et al. Learning visual clothing style with heterogeneous dyadic co-occurrences [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2015: 4642-4650.
[11]McAuley J,Yang A. Addressing complex and subjective product-related queries with customer reviews[C]// Proc of the 25th International Conference on World Wide Web. New York: ACM Press,2016: 625-635.
[12]Xu Da,Ruan Chuanwei,Cho J,et al. Knowledge-aware complementary product representation learning[C]// Proc of the 13th International Conference on Web Search and Data Mining. 2020: 681-689.
[13]Zhang Mingyue,Wei Xuan,Guo Xunhua,et al. Identifying complements and substitutes of products[J]. ACM Trans on Knowledge Discovery from Data,2019,13(3): article No.34.
[14]Ma Yihui,Jia Jia,Zhou Suping,et al. Towards better understanding the clothing fashion styles: a multimodal deep learning approach[C]// Proc of the 31st AAAI Conference on Artificial Intelligence. 2017: 38-44.
[15]Song Xuemeng,Feng Fuli,Liu Jinhuan,et al. NeuroStylist: neural compatibility modeling for clothing matching[C]// Proc of the 25th ACM International Conference on Multimedia. New York: ACM Press,2017: 753-761.
[16]Li Yuncheng,Cao Liangliang,Zhu Jiang,et al. Mining fashion outfit composition using an end-to-end deep learning approach on set data[J]. IEEE Trans on Multimedia,2017,19(8): 1946-1955.
[17]史英杰,楊珂,王建欣,等.基于機器學習的時尚穿搭推薦研究綜述[J]. 計算機應用研究,2022,39(4): 978-985. (Shi Yingjie,Yang Ke,Wang Jianxin,et al. Survey on fashion outfit recommendation research based on machine learning [J]. Application Research of Computers,2022,39(4): 978-985.)
[18]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6): 84-90.
[19]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019: 4171-4186.
[20]Saini S S,Rawat P. Deep residual network for image recognition [C]// Proc of IEEE International Conference on Distributed Computing and Electrical Circuits and Electronics. Piscataway,NJ: IEEE Press,2022: 1-4.
[21]Lin Chunze,Lu Jiwen,Wang Gang,et al. Graininess-aware deep feature learning for pedestrian detection [C]// Proc of European Confe-rence on Computer Vision. Berlin: Springer,2014: 745-761.
[22]Pang Liang,Lan Yanyan,Guo Jiafeng,et al. Text matching as image recognition[C]// Proc of the 30th AAAI Conference on Artificial Intelligence. 2016: 2793-2799.
[23]Wang Anran,Cai Jianfei,Lu Jiwen,et al. Structure-aware multimodal feature fusion for RGB-D scene classification and beyond[J]. ACM Trans on Multimedia Computing,Communications,and Applications,2018,14(2): article No.39.
[24]Peters M E,Neumann M,Iyyer M,et al. Deep contextualized word representations[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018: 2227-2237.
[25]Radford A,Narasimhan K,Salimans T,et al. Improving language understanding with unsupervised learning[EB/OL]. (2018-06-11). https://openai.com/blog/language-unsupervised/.
[26]Kiros R,Zhu Yukun,Salakhutdinov R,et al. Skip-thought vectors[C]// Proc of the 28th International Conference on Neural Information Processing Systems. 2015: 3294-3302.
[27]He Ruining,Packer C,McAuley J. Learning compatibility across categories for heterogeneous item recommendation [C]// Proc of the 16th International Conference on Data Mining. Piscataway,NJ: IEEE Press,2016: 937-942.
[28]Ahsan U,Cui Xiquan,West R,et al. Complementary recommendations using deep multi-modal embeddings for online retail [C]// Proc of IEEE International Conference on Big Data. Piscataway,NJ: IEEE Press,2020: 1774-1779.