張 瑾 朱桂祥 王宇琛 鄭爍佳 陳鏡潞
①(江蘇開放大學設計學院 南京 210036)
②(南京財經大學江蘇省電子商務重點實驗室 南京 210003)
隨著電子商務的高速發展和深度普及,網絡購物已經逐漸成為一種大眾趨勢,而跨境電商更是作為一個新的購物模式脫穎而出,目前,跨境電商購物模式在我國政策和社會需求的雙向作用力下將逐漸成為諸多消費模式中的主流。因此,如何根據消費者在跨境電子商務網站的消費數據來進一步向其推薦潛在感興趣的物品顯得至關重要[1],這使得跨境電商產品推薦變為現今推薦系統研究領域的新興議題之一。
針對傳統的購物場景,已經有一些成熟的推薦算法在被廣泛應用,其中最為經典的就是基于協同過濾推薦[2,3]、基于矩陣分解推薦[4,5]、基于內容推薦[6]和混合推薦[7]等算法。但由于跨境電商產品“用戶-產品”交互矩陣極為稀疏,并且冷啟動問題突出,因此上述傳統的推薦算法在跨境電商產品數據上很難奏效。此外,基于協同過濾或者矩陣分解等改進的神經網絡推薦模型[8–11],只考慮了用戶對產品的“顯式”和“隱式”的反饋信息,而忽視了由用戶與項目交互形成的圖結構信息和產品之間的隱語義主題關聯,其推薦性能很難滿足平臺和用戶的要求。盡管近兩年來涌現了一些新穎的圖神經網絡(Graph Neural Networks, GNN)模型來解決傳統圖結構數據的推薦問題[12–14],但是現實中有許多圖具有多種類型的節點和邊,被稱作異質圖信息網絡(簡稱為異質圖)[15],由于異質圖具有復雜的信息和豐富的語義,因此如何對異質圖進行表征學習,以及對用戶和項目交互準確建模值得進一步研究。
基于上述原因,本文從一個真實的跨境電商數據出發,對跨境電商訂單數據的特征進行分析,以啟發基于異質圖表達學習的跨境電商推薦模型的研究。具體而言,本文首先對跨境電商產品進行主題挖掘;其次,構造“用戶-產品-主題”3部圖作為推薦模型的輸入;再次,提出基于異質圖表達學習的圖神經網絡推薦模型(Heterogeneous Graph Neural network Recommender system, HGNR),本模型包括信息傳播、信息聚合、用戶和產品交互建模3個核心模塊。最后,在真實的跨境電商訂單數據集上進行了實驗對比,并從多個評價指標上對實驗結果進行分析。
本節主要回顧一些與本文相關的研究工作,這些工作主要圍繞傳統的協同過濾推薦算法,以及新穎的基于圖神經網絡的推薦算法展開。
針對“用戶-產品”交互矩陣進行個性化推薦的這一議題,早期相關研究主要集中于傳統的協同過濾算法。這類算法可以根據用戶與項目的歷史交互來捕獲用戶的興趣偏好。這類算法,也被各式各樣的電商平臺推薦系統所采用[16,17]。代表性的算法有協同過濾[2,3]和矩陣分解[4,5]。考慮到深度的神經網絡具有較強的表征能力,近幾年大量的研究工作在協同過濾算法的基礎上融合了深度學習理論,對基于深度學習的協同過濾推薦算法展開研究[8–11]。例如,Xue等人[8]提出利用多層神經網絡來學習矩陣分解中用戶和項目的潛在因素。He等人[9]提出了一種神經網絡結構來模擬用戶和項目的潛在特征,并設計了基于神經網絡的協同過濾(Neural Collaborative Filtering, NCF)通用框架。Guo等人[11]提出了一種DeepFM (Deep Factorization Machine)算法,該算法有效地結合了因子分解機(Factorization Machine, FM)與深度神經網絡(Deep Neural Network, DNN)在特征學習中的優點,能夠同時提取到低階組合特征與高階組合特征,并且共享相同的輸入和嵌入的向量,得到更好的訓練效果。
盡管上述傳統的協同過濾推薦工作取得了一定的成果,但是與本文的工作相比,這些工作僅使用描述性特征(如ID和屬性)作為輔助信息構建用戶和項目的嵌入向量,未考慮“用戶-產品”交互圖中的高階信息,而本文提出的模型能夠在異質圖上進行高質量的信息傳播和聚合。同時,這些工作也忽視了在嵌入學習和交互建模中關鍵協作信號,而這些協作信號揭示了隱藏在“用戶-產品”交互中的用戶之間行為相似性的重要性,值得注意的是本文的工作能夠對這些協作信息進行有效建模。
隨著圖表示學習的興起,近幾年來越來越多的學者對基于圖神經網絡的推薦算法展開了研究[12,18–22]。由于圖神經網絡通過編碼邊緣或節點屬性特征,能夠提供豐富的局部上下文信息,已有研究將其融入到推薦系統中,解決了傳統推薦系統中面臨的冷啟動和數據稀疏的難題[14,19,23,24]。例如,文獻[23]提出了一種基于圖神經網絡的協同過濾推薦框架NGCF(Neural Graph Collaborative Filtering),其通過在圖結構上傳播嵌入表達對拓撲結構進行學習,有效地對高階連接信息進行建模,進而對“用戶-產品”交互信息進行編碼以提升推薦效果。由于NGCF采用的是線性變換對交互進行建模,這不足以捕獲用戶嵌入與物品嵌入之間潛在的復雜交互信息。有鑒于此,文獻[12]研究了嵌入學習和“用戶-物品”交互信息兩者之間的內在聯系,并提出了一種個性化的圖神經網絡排序模型(Neural Graph Personalized Rank, NGPR),NGPR利用“用戶-產品”交互圖和非線性交互建模來對上述關系進行刻畫。考慮到現實生活中存在大量的異質圖結構網絡,Hu等人[13]針對用戶在新聞網站的點擊流構建了異質圖,提出了融合用戶長短期興趣的異質圖神經網絡新聞推薦模型。此外,最新的一系列研究顯示GNN除了在處理圖結構數據方面具有顯著優勢之外,還可用于捕獲更豐富的時序數據信息用于會話推薦的場景[24,25]。例如,文獻[25]提出的基于會話的圖神經網絡推薦(Session-based Recommendation with Graph Neural Networks, SR-GNN)是在基于會話的推薦場景中第1個利用門控圖神經網絡捕捉復雜的商品轉移關系,但忽略了用戶在商品轉移關系中的作用,沒有利用用戶歷史會話信息來提高推薦性能。
與上述已有工作不同的是,本文的研究背景為跨境電商產品推薦,“用戶-產品”交互矩陣要比傳統商品數據更加稀疏,冷啟動問題尤其突出。為此,與傳統GNN推薦模型不同的是,本文在傳統的“用戶-產品”交互圖基礎之上,以隱語義主題為橋梁,構建了“用戶-產品-主題”3部圖,并充分利用圖中跨境產品的文本描述進行表征學習以獲得精準的產品特征。在此基礎上,提出一種基于異質圖表達學習模型進行高質量的信息傳播和聚合,并實現了用戶和產品交互的建模。
本節將對基于異質圖表達學習的圖神經網絡推薦模型HGNR展開介紹。首先介紹本文的問題定義,其次介紹異構圖表達學習,再次介紹“用戶-產品”的交互建模,最后介紹模型的預測函數和訓練。
從商品標識來看,用戶訪問的商品各不相同,但是從商品描述文本(標題)來看,這些產品均能反映出用戶對共同的興趣偏好。因此,充分利用主題信息有助于識別用戶的興趣偏好,同時能緩解“用戶-產品”購買矩陣YP的稀疏性問題。


其中,tk表 示為產品im經泛化后的主題。最終獲得所有主題集合T={t1,t2,...,tK},其中tk={i|?φ(i)→tk}。
定義2“用戶-產品-主題”3部圖。令G=(V,R)為如圖1(a)所示構造的“用戶-產品-主題”3部圖,其中V和R分別是圖中節點和邊集合。若“用戶-產品”購買矩陣YP不為空以及“產品-主題”在主題集合T中存在映射關系,則對應的用戶和產品,以及主題和產品之間的節點則會產生一條邊。其中的節點可以分為3類,即用戶集合U={u1,u2,...,uN},產品集合I={i1,i2,...,iM}和主題集合T={t1,t2,...,tK}。

圖1 “用戶-產品-主題”3部圖
定義3個性化推薦。給定用戶集合為U={u1,u2,...,uN}和產品集合為I={i1,i2,...,iM}。根據“用戶-產品”購買矩陣YP ∈RN×M,可以獲得每一個用戶對應的購買產品的標簽,同時通過矩陣YP中的元素可以獲得用戶累計購買產品的次數。給定待推薦用戶u,個性化推薦的任務是去預測用戶u最可能購買的產品i。
為了實現跨境電商的推薦任務,本文提出如圖2所示的基于異構圖表達學習的圖神經網絡推薦模型HGNR。HGNR模型包含4個子模塊:異構圖構建層、信息傳播和聚合層、交互建模層、分值預測層。

圖2 HGNR模型框架圖
本文采用GNN中的GCN信息傳播架構沿著圖結構來獲取協同過濾信號,從而分別求得用戶和產品的表征向量。實際上,有交互歷史記錄的產品往往能體現出用戶的興趣偏好,而對同一個產品有交互記錄的用戶群體可以視為產品的特征,能夠反映產品之間的相似性。有鑒于此,針對“用戶-產品-主題”3部圖中存在高階邊關系的用戶和項目,我們分別進行嵌入式的傳播學習,具體包含信息傳播和信息聚合。
3.2.1 信息傳播
在通用的單層GNN網絡中[12],對于傳統的2部圖中存在邊連接的任意一組“用戶-產品”(u,i),產品i至 用戶u的信息可記為

其中,f(·)是 信息的編碼函數,xi和xu分別代表產品i和用戶u的表征向量。其中,將產品i的標題輸入訓練好的BERT (Bidirectional Encoder Representations from Transformers)模型1)https://huggingface.co/docs/transformers/model_doc/bert,求得向量xi ∈Rd1, 此處d 1=768;xu ∈Rd2由用戶u的標識符(Identity Document, ID)經過One-Hot編碼獲得,此處 d2為 用戶集合的數量,此處,cu,i是用于控制任意一條邊(u,i)傳播的衰減因子,采用正則化變量1/|Nu|表 示。此處,f(·)可通過如式(3)的方式實現



類似地,對于“用戶-產品-主題”3部圖中存在邊連接的任意一組(u,i),產品i至用戶u的傳播由2種途徑構成:與用戶u直接關聯的產品i和與產品i同屬一個隱語義主題的產品集合{z|z ∈φ(i),z ?=i},可記為

其中,z代表與產品i同屬一個主題的所有產品,|?(i)| 代表產品i所屬主題包含的產品數量,,∈Rd3×d1和∈Rd1×d2是GNN網絡中可訓練的權重矩陣。例如,在圖1(b)中,在獲得用戶5表征向量的傳播過程中,產品3為用戶5購買過的產品,由于通過式(1)可知產品4和產品3屬于同一主題t2(?(3)→t2),因此用戶5可以在一次信息傳遞中得到購買過的產品3的同類主題產品4的信息。
為了使得每個批處理在該階段的計算更加高效,在對與產品i同屬一個隱語義主題tk的其他產品集合{z|z ∈φ(i),z ?=i}進行傳播的過程中,本文對產品集合{z}進行隨機采樣。令L為采樣的和產品i同 屬一個主題的產品最大數量,若|{z}|≤L,則進行集合{z}內 產品進行隨機采樣,復制直至|{z}|=L。
3.2.2 信息聚合
在信息傳播的基礎之上,本文進一步對從用戶u的所有鄰居節點(既包含傳統2部圖中的鄰居節點,還包含通過3部圖G獲取的鄰居節點)傳播的信息進行聚合,從而獲得用戶u的表達向量。具體而言,信息聚合的函數可以定義為

其 中,σ(·) 是 激 勵 函 數,此 處 選 擇ReLU(·)=max(0,·)作為激勵函數。
為了獲得用戶u最終的表達向量,將hu經過如式(7)的方式轉換

其中,hu ∈Rd4×2d3和bu ∈Rd4×2d3分別代表可訓練的權重矩陣和偏置向量 ,ru代表經過GNN中嵌入傳播層學習所獲得的用戶u表達向量。此處,本文同樣采用ReLU作為激勵函數。
與用戶u表達向量ru計算方法類似,通過聚合與產品i有連接的用戶,本文同樣可以獲得產品i的表達向量,記為ri。 總而言之,基于圖神經網絡的3部圖表達學習可以利用嵌入傳播層顯式地利用連接信息來關聯用戶和項表示,同時以隱語義主題為橋梁,利用聚合層聚合更多的用戶和產品鄰居節點以獲取更加豐富的信息,從而獲得高質量的用戶和產品表達向量。
上述是一個單層GNN的信息傳播和聚合的詳細過程,產品的最終表征向量僅依賴它的直接近鄰。為了捕捉用戶與產品之間的高階關系,將GNN從單層擴展到多層,將嵌入信息傳播得更廣更深。正如圖1(b)所示,2階的用戶表征向量可以通過如下方式獲取:首先,使用式(6)和式(7)來聚合鄰居產品和主題的信息,獲取1階的產品表征向量和主題表征向量。然后,對1階的產品和主題進行鄰居用戶的信息聚合,獲得2階的用戶表征向量。同理,如圖1(c)所示,也可以獲得2階的產品表征向量。
“用戶-產品”交互建模層旨在對用戶和產品之間的偏好程度進行建模。具體而言,在HGNR的推薦模型框架中基于用戶u的表達向量ru和 產品i的表達向量ri來 預測用戶u對產品i的交互分值,可以定義為

其中,σ(·)是激勵函數,此處,同樣選擇ReLU作為激勵函數“用戶-產品”交互建模層的最終輸出為用戶u對產品i的 交互分值,即zui。

在模型訓練階段,就對用戶進行產品推薦而言,積極標簽是用戶u真實購買的產品i集合(存在交互),記為Y+。 而消極標簽是從產品集合I中去除積極標簽進行log-uniform采樣形成(不存在交互),記為Y ?。本文采用在推薦系統中被廣泛使用的基于2元交叉熵作為HGNR的損失函數,即購買概率和真實情況的損失函數可通過式(10)的方法計算

其中,yu,i是 產品i被 用戶u真實購買的概率分布。具體而言,如果(u,i)∈Y+, 則yu,i=1, 反之yu,i=0。
此處,本文借助Adam優化器[26]來最小化損失函數L,從而將HGNR模型中的參數調為最優配置。與現有的訓練方案相比,本方法能有效地挖掘出消極樣本中的有用信息,進一步降低了模型訓練的計算成本。
4.1.1 基準算法
本文將HGNR模型與4種傳統推薦方法,即流行性預測(POPular, POP),基于用戶的協同過濾算法(User-based Collaborative Filtering, UCF),基于項目的協同過濾算法(Item-based Collaborative Filtering, ICF),奇異值分解算法(Singular Value Decomposition, SVD)和非負矩陣分解算法(Nonnegative Matrix Factorization, NMF);融合神經網絡的協同過濾算法(Collaborative Deep Learning, CDL)和矩陣分解算法DeepFM;以及基于圖神經網絡的推薦方法(NGCF和NGPR)進行對比。
POP[27]:POP總是推薦訓練集中最受歡迎的項目。盡管它很簡單,但通常被用作多個推薦系統研究領域的基線。
UCF[2]:UCF是基于用戶的協同過濾算法,被工業界常用于推薦候選集的生成。
ICF[3]:ICF是一個基于項目的協同過濾算法,其被廣泛應用于電子商務網站的推薦。
SVD[4]:SVD是奇異值分解算法,是一種經典的基于矩陣分解的推薦算法。
NMF[5]:NMF是一種相對新穎的降維范式,它使分解后的所有分量均為非負值,并且同時實現非線性的維數約減。
CDL[10]:CDL聯合了對文本內容信息進行深度表征的學習和對評價(反饋)矩陣進行協同過濾。
DeepFM[11]:DeepFM將因子分解機與深度神經網絡相結合,也是一種廣泛使用的基于神經網絡的推薦方法。
NGCF[23]:NGCF是一個最先進的基于圖的CF模型,它利用圖形神經網絡將“用戶-產品”交互結合到嵌入學習中。
NGPR[12]:NGPR也是基于圖的CF模型,除了利用圖形神經網絡將“用戶-產品”交互結合到嵌入學習中之外,還考慮到用戶和項目潛在的關聯性,同時采用了多層感知機 (MultiLayer Perceptron,MLP)來進行用戶和項目非線性的交互建模。
其中,ICF和UCF近鄰數量分別設置為40和1000,SVD和NMF的潛因子數量設置為50。在HGNR的設置中,本文在“用戶-產品”購買矩陣上分別按照80%和20%的比例劃分訓練集和測試集。主題泛化借助的是Python自然語言處理庫Gensim2)https://pypi.org/project/gensim/,將所有產品的標題輸入到LDA模型中,模型的輸出包含了“詞-主題”概率分布矩陣和“產品-主題”概率分布矩陣以及每個主題下的高頻詞。此外,本文設置隱語義主題集合進行隨機采樣的最大數量L為5。盡管GNN具有強大的表征學習的能力,但是仍然存在過擬合的問題。正如3.2.1節所示,對隱語義主題集合?(i)進行隨機采樣(等同于對“產品-主題”子圖中的產品節點進行隨機采樣),其功能類似于文獻[28]中對“產品-主題”邊丟棄。為此,在HGNR的訓練階段,僅需要對“用戶-產品”子圖的邊進行丟棄:以丟棄比例p隨機拋棄部分邊以阻止信息的傳播,從而避免HGNR欠擬合或過擬合。
4.1.2 評價指標
為了評價HGNR和基準算法的性能,本文采用了HitRate@k, Item-coverage@k和MRR@k作為推薦模型生成的Top-k推薦列表的評價指標。
HitRate@k評價的是推薦的準確率,其定義為測試集中所有用戶的Top-k推薦列表中真實存在購買(Ground-Truth)的比例

其中,T是測試集,gu是用戶u實際購買的旅游包。Ru,gu是 用戶u真實購買的產品在Top-k推薦列表中的排序,如果gu出現在Top-k推薦列表中,則指示符函數將被設置為1,否則為0。
在眼表檢查中,為了客觀地量化淚河變化,我們采用的傅立葉域OCT,其具有低個體內變異[22]和高可重復性[23,24]的特性。利用這個先進的技術,我們發現各觀察時間點TMH、TMD和TMA差異無統計學意義,這提示白內障術后的眼表不適不能單純歸結為淚液水樣層的缺乏造成的。
Item-coverage@k是測試集中所有樣本的Top-k推薦列表中準確推薦的項目所占比例。其定義為

其中, Dis ( )是集合中不同項目數量的統計函數。例如,D is({i1,i2,i2})=2。
MRR@k是準確推薦項目的排序倒數平均值,該指標衡量的是模型推薦項目的排序性能。直觀地說,在實踐中推薦準確的項目排序得越高越好。MRR@k的定義為

其中,如果Ru,gu ≥k,則排序的倒數值將設置為0。
本文對比了HGNR模型和其他基準模型的整體性能以證明HGNR模型的有效性,實驗結果如表1所示。總體來說,從所有評價指標上來看HGNR模型均優于其他基準算法,獲得了最佳性能。具體而言,我們觀察到以下現象。

表1 總體性能比較(%)
首先,可以清楚地觀察到基于神經網絡的協同過濾方法(即CDL和DeepFM)優于傳統推薦方法(如POP, ICF, UCF, SVD和NMF),這可能是因為跨境電商商品數據集中的“用戶-產品”購買矩陣極度稀疏,傳統方法不能直接應用于跨境電商商品推薦,融合了神經網絡的協同過濾及矩陣分解方法模型可以比傳統方法更好地學習用戶和產品的表征。此外POP算法在Top-3和Top-5的推薦列表上表現最差。此外,盡管POP算法在Top-10的推薦列表上表現尚可,但是其推薦的都是流行度較高的產品,具有長尾現象。這說明我們需要對用戶的個性化偏好進行建模,而不是僅限于向用戶推薦流行的產品。
其次,在深度學習的算法中,基于圖神經網絡的推薦方法(NGCF,NGPR,HGNR)都超過了非圖神經的推薦方法(即CDL和DeepFM)。其中性能最差的基于圖神經網絡的推薦方法(NGCF)都優于CDL和DeepFM。由此結果可以看出,由于圖神經網絡通過編碼邊緣或節點屬性特征,能夠提供豐富的局部上下文信息,并捕獲用戶嵌入與物品嵌入之間潛在的復雜交互信息,因此在推薦性能上能夠得到明顯提升。
最后,在基于圖神經網絡的推薦方法中,HGNR明顯優于其他兩個方法(即NGCF和NGPR)。這些數據表明,HGNR具有2個顯著的優勢:(1)在傳統的“用戶-產品”交互圖基礎之上,HGNR通過以隱語義主題為橋梁,構建了“用戶-產品-主題”3部圖,且充分利用圖中跨境產品的文本描述進行表征學習獲得了精準的產品特征;(2)HGNR通過提出的基于異質圖表達學習模型進行高質量的信息傳播和聚合,實現了用戶和產品交互的建模以獲得準確的用戶和產品表征向量,既緩解了冷啟動推薦問題,又兼顧了推薦的準確率。但是,我們也觀察到了HGNR模型相比既有的NGPR模型的性能提升不是特別明顯,甚至在MRR@5評價指標上略高于HGNR,究其原因可能是HGNR模型與NGPR均是采用的較為流行的圖卷積神經網絡(GCN)在網絡拓撲圖上進行信息的傳播和聚合,都屬于圖神經網絡的范式。同時,NGPR采用多層感知機(Multi Layer Perceptron, MLP)來進行用戶和項目非線性的交互建模也可能是其優勢。
本節將分析HGNR中關鍵的參數對推薦性能的影響,包括超參丟棄比例和GNN的網絡層數。
4.3.1 丟棄對性能的影響
為了防止HGNR模型在訓練過程中欠擬合或過擬合,受文獻[29,30]啟發,本文通過對“用戶-產品-主題”3部圖中“用戶-產品”子圖的邊進行丟棄:以丟棄比例p隨機拋棄部分邊以阻止信息的傳播。圖3展示了將HGNR的丟棄比例p分別設置為0.05, 0.10, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40的實驗結果(其他參數保持不變)。從圖3(a)、圖3(b)和圖3(c)可以分析出如下現象:(1)隨著p的增加,HGNR在3個評價指標HitRate, Item-coverage和MRR上的值均逐步提升,然后再逐步下降,因此將丟棄比例設置過小或過大的都容易導致欠擬合或過擬合;(2)當p=0.30時,在絕大多數的情況下,HGNR在3個評價指標HitRate, Item-coverage和MRR上取得了最佳值,因此設置適當的丟棄比例,能一定程度上緩解HGNR的欠擬合和過擬合。綜上所述,本文將丟棄比例p的默認參數設置為0.30。
4.3.2 GNN網絡層數對性能的影響
為了衡量HGNR中GNN的層數對性能的影響,本文將GNN層數分別設置為1, 2, 3進行實驗(其他參數保持不變),實驗結果如表2所示。可以看出,當HGNR采用2層GNN時,其在3個評價指標HitRate@10, Item-coverage@10和MRR@10上均取得了最佳性能。這是因為單層的GNN無法捕獲用戶和產品之間的高階關系,然而,3層的GNN可能給模型帶來大量的噪聲,當在推斷節點間的相似性時,關系鏈太長的較高層幾乎沒有意義。以上實驗現象也與文獻[13]保持一致。綜上所述,綜合考慮HGNR訓練階段的時間成本,將應HGNR-2 Layer(2層)作為模型的默認參數。

表2 GNN網絡層數對推薦性能的影響(%)
由于新用戶往往沒有收集到足夠的信息,因此這些新用戶很難產生推薦結果,這也使得冷啟動是推薦系統中最常見的問題[24]。本文的數據集中,高達30905(98.44%)的用戶只購買了5種及以下的跨境電商產品。為此,本文從測試數據集中提取這些冷啟動用戶,并重點檢查HGNR模型在這些引起冷啟動問題的新用戶上的推薦性能。
此處只選擇性能相對較好的基于圖神經網絡的算法(即NGCF, NGPR和HGNR)進行冷啟動用戶的推薦性能分析實驗。具體而言,使用訓練過的NGCF, NGPR, HGNR模型來了解新用戶的偏好,并向其推薦最感興趣的項目。值得注意的是,本文沒有改變任何訓練流程,只是選擇了冷啟動用戶進行測試,因此模型所有的測試都不需要再次訓練。圖4展示了實驗結果,可以得出以下結論:(1)隨著用戶購買不同產品數量的增加,NGCF, NGPR和HGNR在3個評價指標HitRate@10,Item-coverage @10和MRR@10上的性能均逐步上升;(2)針對冷啟動用戶的推薦性能方面,HGNR在絕大多數的情況下都優于其他兩種基準算法。這也說明了HGNR模型中異質圖表達學習的有效性。

圖4 針對冷啟動用戶的推薦性能
本文研究了基于異質圖表達學習的跨境電商推薦問題。首先,對跨境電商產品進行隱語義主題挖掘;其次,在傳統的“用戶-產品”交互矩陣基礎之上,以隱語義主題為橋梁,構造了“用戶-產品-主題”3部圖作為推薦模型的輸入;最后,提出了基于異質圖表達學習的圖神經網絡模型HGNR用于個性化的跨境電商產品推薦。該模型具有兩個顯著的優勢:(1)將“用戶-產品-主題”3部圖作為輸入,通過GCN在異質圖上進行高質量信息傳播和聚合;(2)能夠獲取高質量的用戶和產品表征向量,實現了用戶和產品復雜交互關系的建模。為了驗證HGNR的優勢,本文在真實跨境電商數據集上進行了實驗,3個評價指標上的實驗結果表明,基于異質圖神經網絡的模型HGNR不但在性能上比傳統推薦算法更有優勢,而且能有效提升冷啟動用戶的推薦準確率。
目前HGNR在信息傳播中尚未考慮“用戶累計購買產品的次數”(即邊權重)和用戶統計信息,在將來的工作中,我們擬進一步探究采用圖注意力網絡(Graph ATtention network, GAT)并融入上述信息用于學習用戶和產品的表征。此外,一種高效的用戶和產品的非線性的交互建模方案仍然值得進一步研究。