999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多模態下的互補物品的多樣性推薦

2021-08-24 03:06:46肖慶華劉學軍施浩杰
小型微型計算機系統 2021年9期
關鍵詞:模態文本用戶

肖慶華,劉學軍,施浩杰

(南京工業大學 計算機科學與技術學院,南京 211816)

1 引 言

大數據、物聯網等技術快速發展,互聯網中的各類應用層出不窮導致了數據呈現爆炸式增長[1],由于數據量的龐大和冗雜,導致了嚴重的“信息過載”的問題,在紛雜的信息中找到自己需要的信息是一件很困難的事;同樣地,使自己生產的信息受到廣大用戶的關注,也是一件困難的事.推薦系統由此成為了解決這些矛盾的工具[2].推薦系統就是使用戶和信息之間建立橋梁,從而讓用戶能夠在龐大的數據空間中快速找到自己感興趣的信息,一些用戶自己產生的信息能夠快速被其他用戶捕捉,實現脫穎而出.隨著移動互聯網的發展,一些移動數據如社交、地理等數據為推薦系統提供了更多的數據來源,使研究更為廣泛.

在人們買衣服的時候,總會有人問諸如這樣的問題:“這件襯衫和那件牛仔褲配嗎?”又或者在買電子產品諸如相機的時候,不知道要買哪些鏡頭以適配此相機?這些問題的產生就導致了推薦系統向更深的層次發展,互補替代推薦系統由此產生.在現代的推薦系統中,了解產品之間的關系是很重要的.例如,當用戶正在尋找手機時,推薦其它手機可能是有意義的,但是一旦他們購買了手機,我們可能會推薦電池、外殼或充電器,這兩種類型的推薦被稱為替代品和互補品:替代品是可以替代其它同類產品而相互購買的產品,而互補品是可以和其它同類產品同時購買的產品.

根據上述問題,利用互補替代推薦系統就可以解決.如圖1所示,當一個用戶買了相機、手機或者羽毛球拍后,根據互補推薦算法,可以很快地為該用戶推薦出相關互補產品,例如相機的互補產品有鏡頭、相機包、閃存卡等,手機的互補產品有手機殼、充電器、數據線等,羽毛球拍的互補產品有羽毛球、羽毛球服飾、羽毛球包等.

圖1 互補推薦示例

目前的互補替代推薦系統主要針對其準確性而進行很多深入研究.然而,在準確性逐步提高的情況下,互補推薦本身的其它一些屬性沒有得到重視,例如多樣性研究.在保證互補推薦的準確性前提下,推薦列表的多樣性也很重要,當推薦列表的多樣性提升時,用戶的接受程度也會變高,用戶的參考方案也相應地變多.本文主要研究如何在互補推薦的準確性前提下提升推薦列表的多樣性,最大化用戶滿意度,根據此問題提出了基于多模態互補物品的多樣性推薦方法,稱為DR-MCI(Diversity Recommendations of Multi-modal Complementary Items).該方法利用卷積神經網絡、doc2vec和貝葉斯平均評分對互補物品對的圖像、描述文本以及評分信息進行特征表述,計算兩個物品之間的特征距離,然后進行非線性組合形成初步的推薦列表,最后加入用戶偏好特征進行多樣性推薦.

2 相關工作

2.1 傳統推薦方法

傳統推薦方法分為基于內容、協同過濾和混合推薦.基于內容的推薦就是根據用戶評分的物品,尋找其它內容與之相似的物品作為推薦,但是這種方法一般會遇到特征提取困難的問題;協同過濾推薦就是利用用戶之間的相似興趣,發現用戶對物品的潛在愛好;混合推薦,顧名思義,就是結合一種或者多種推薦方法,形成統一的推薦模型進行推薦.

包推薦(Package Recommendation)是一種特殊形式的多領域相關推薦方法,通過智能化的方式將項目之間進行組合,將具有一定關系的物品進行打包推薦給用戶.Interdonato等人[3]首次提出了一種通用的包推薦方法,通過分析用戶偏好,根據帕累托最優方法選取top-k項目分配到給定包中.為了提升包推薦的精度,一些研究通過限定包的規模從而達到提升效率的目的.Villavivencio等人[4]針對多樣性研究提出復合推薦方法,該方法主要針對旅游方案的推薦,但是因其通過分層多樣集的方法使該推薦也適用于其它領域.

2.2 融合深度學習的推薦方法

近年來,深度學習在圖像處理、自然語言處理等領域取得了很大的突破[5],使推薦系統有了更多的研究方向.Li等[6]提出了RNS模型,即神經序列推薦模型,利用A-CNN即感知卷積網絡技術獲得用戶潛在偏好.Ma等[7]提出了交叉注意記憶模型(CoA-CAMN),該模型通過VGG-Net16獲取圖片信息并與推文結合,最終獲得用戶偏好信息.Wu等[8]使用生成對抗網絡(GAN)構建了推薦模型—PD-GAN,它是由生成網絡和判別網絡組成,該模型主要是產生多樣化且相關的推薦項,從而增加推薦結果的多樣性.

2.3 深度學習方法在互補替代推薦中的應用

互補產品推薦的傳統方法依賴于行為和非視覺數據,如客戶共同瀏覽或共同購買的數據.然而,某些領域,如時尚領域,主要是基于視覺的.Julian等[9,10]利用人們的視覺圖片數據進行互補替代推薦的研究,他們感興趣的是揭示成對物品的外觀之間的關系,特別是建模人類的概念,即哪些物體是互補的,哪些可以被視為可接受的替代品.他們利用視覺線索,以一種非監督的方式來學習分布的共同發生的互補項目在現實世界的圖像.實際上,還有很多互補替代關系是基于文本的,Zhao等[11]將商品的標題信息向量化,輸入到孿生網絡中訓練預測出互補概率;Julian等[12]使用的主要數據來源是產品評論的文本,從這些文本中建模并預測產品之間的關系.Zhang等[13]提出將基于視覺的和基于文本的結合起來實現互補推薦.

3 DR-MCI方法

3.1 互補替代關系感知

3.2 模型框架

假設我們有物品集I=[I1,I2,…,In]和互補集Ci=[ric1,ric2,…,rici],i∈{1,2,…},表示的是待查詢物品Ii和待推薦物品IC1,IC2,…,ICi∈I具有互補關系.模型的前半部分主要是構建兩個物品之間的互補距離公式,dm(Ii,Ij),dt(Ii,Ij),dr(Ii,Ij),其中,dm(Ii,Ij)表示物品Ii和物品Ij的圖片之間的距離,dt(Ii,Ij)表示物品Ii和物品Ij的描述文本之間的距離,dr(Ii,Ij)表示物品Ii和物品Ij的評分之間的距離,也稱物品Ij的質量期望,然后將這3種距離進行非線性組合,得到統一的距離公式d(Ii,Ij),最后可以得到初步的互補推薦結果;模型的后半部分是將前半部分得到的推薦物品進行深層次的分析,結合物品之間的替代關系,利用bandits算法實現多樣性推薦.總體框架如圖2所示.

圖2 互補物品多樣性推薦框架

3.3 圖片模態的距離測量

首先,需要將電商平臺上的商品圖片進行視覺特征提取,根據文獻[9],我們可以提取高維圖片特征,使用的技術是卷積神經網絡[14](CNN),CNN模型通過ImageNet預訓練過,實際上,我們需要的是CNN全連接層的第2層為輸出層,并且圖片向量的維度為fm=4096,在提取高維圖片特征之后,通過馬氏變換矩陣可以實現降維,最終作為圖片的嵌入層[7],馬氏變換就是通過去除掉一些不相關的點,從而實現降維.接著計算馬氏距離來表示圖片之間的距離,具體表示形式如等式(1)所示:

(1)

其中,mi和mj是高維嵌入向量,表示物品Ii和物品Ij的圖片特征向量,∑即協方差矩陣,它是馬氏距離的重要組成部分,EM∈Rfm×fem是低階馬氏變換矩陣,fem則是嵌入圖片維度.根據此距離公式,使用sigmoid轉移函數可以計算兩個物品屬于某一關系的概率:

(2)

根據這個概率等式,使用極大似然估計法可以訓練出EM,最終獲得圖片模態的互補替代程度.

3.4 文本模態的距離測量

以上基于圖片模態的互補替代距離的計算可以表達出兩個物品的互補替代程度,但是在某些時候,緊緊憑借這一個模態往往是不夠的,因為圖片也具有一定的欺騙性,如圖3所示,一個長得像打火機的U盤和真實的打火機是種類完全不同的兩個物品,玩具熊和熊狀的背包也是兩個功能不同的物品,因此光從圖片角度去推薦互補替代產品有時會影響準確度,由此提出了利用物品的描述文本實現更精確的推薦.一個物品有id、標題、類型和評論文本等屬性,我們可以構建兩個物品在標題或者評論文本尺度上的距離函數dt(Ii,Ij),該函數就是表示物品Ii和物品Ij的標題以及評論文本之間的距離,即互補程度.

圖3 容易混淆的圖片舉例

對于標題和評論文本的表示方面,有人提出過分布式表示的方法[15],但我們使用的文本長度以及單詞量都比較大,因此我們用doc2vec[16,17]的技術實現文本單詞的向量化是比較合適的.在這之前,需要引入word2vector[18,19],它是一個將單詞轉化為向量形式的工具.它的基本思想是把自然語言中的每一個詞,表示成一個統一意義維度的短向量,任何一門語言,都是由一堆的詞組成,所有的詞,構成一個詞匯表,詞匯表,可以用一個長長的向量來表示.詞的個數,就是詞匯表向量的維度,那么,任何一個詞,都可以表示成一個向量.在此基礎上,將每個單詞的向量進行疊加組合就可以表示出一段句子甚至一篇文檔的向量形式,doc2vec就是在word2vec的思想上進行延伸的.

基于以上,將距離表示的描述公式化可以得到等式(3):

(3)

其中,ti和tj是嵌入向量,表示物品Ii和物品Ij的文本特征向量,用doc2vec訓練而成,經過實驗驗證,最終選擇模型訓練的窗口大小為20,文本向量維度為ft=100,矩陣ET∈Rft×fet是需要訓練得到的最終文本特征來表示互補關系,fet是文本嵌入維度.同樣是使用sigmoid轉移函數計算兩個物品屬于某一關系的概率,最終獲得文本模態的互補替代程度.

3.5 加入評分生成初步推薦

當我們得到圖片模態和文本模態的互補距離時,將這兩種模態進行線性組合是可以得到推薦結果的,即pdm(Ii,Ij)+qdt(Ii,Ij),p和q是超參數,但是這樣會存在一個問題,推薦結果很粗糙,只是單純的將最接近互補關系的物品推薦給用戶,而沒有考慮到用戶喜不喜歡、需不需要,這時推薦質量很低,因此提出了將用戶評分所隱含的喜好程度加入到互補推薦過程,根據文獻[13],我們使用貝葉斯推斷.用戶的評分是參差不齊的,有些物品有大量用戶評分過,而有些物品評分稀疏,直接利用均值來表示一個物品的評分是不合理的,而貝葉斯推斷可以解決此問題,它通過不斷修正先驗概率,最終得到后驗概率,即用戶對物品i的期望θi.

首先定義隨機變量:

(4)

表示物品i的第k個評分是好的還是壞的,rik即物品i的第k個評分,ηr是閾值評判是好的評分還是差的評分,qik的概率密度函數可表示為等式(5):

(5)

其中,qik服從伯努利分布qik~B(1,θi),此時物品Ii可以得到一個好的評分因此θi可以測量用戶的期望,期望越高表示此物品評分越好.通過貝葉斯估計法可以得到θi的估計值,最終得到評分距離dr(Ii,Ij|θj)∝(1-θj|qjk).

當得到圖片模態、文本模態以及評分期望后,為了得到初步的推薦結果,使用神經方法進行模型訓練,將以上模態進行非線性組合,通過特征差異學習互補物之間的關系c(Ii,Ij|θj)=[dm(Ii,Ij),dt(Ii,Ij),dr(Ii,Ij|θj)],用此公式作為神經網絡的非對稱合并層,加入權重W和偏置b,并使用tanh作為激活函數,得到距離表示:

dn(Ii,Ij)=tanh(c(Ii,Ij|θj)×W1+b1)×W2

(6)

最終得到物品Ii和物品Ij屬于互補關系的概率為:

(7)

ηd是學習到的互補閾值.

定義損失函數為:

L=-yijlog(P(rij∈Ci))-(1-yij)log(1-P(rij∈Ci))

(8)

其中,yij表示物品i和物品j是否存在互補關系.

3.6 生成多樣性推薦

當得到初步的互補物品推薦后,由于缺乏多樣性,因此,加入Bandits算法進行多樣性推薦.Bandits算法就是為選擇而生,對用戶確定的興趣進行迎合利用,當然用戶對已知的興趣總會膩的,因此需要不斷探索用戶新的興趣,這樣就實現了對某一個類型的物品推薦出更多這一類型的物品,從而實現多樣性推薦.

Bandts算法是一個統稱,我們使用湯姆森采樣(Thompson sampling)算法實現,假設有很多臺賭博機,可以搖臂,有贏和輸兩種情況,將物品比作賭博機,用戶評分就是贏和輸的憑證,假設每一個臂都有收益,且都有一個概率分布,其中有收益的概率為p,經過搖臂試驗,估計出一個置信度較高的“p的概率分布”,假設每一次的分布都服從貝塔分布,即p~Beta(wins,lose),它具有兩個參數,每次搖臂,有收益則這個臂的wins加1,無收益lose就加1,每次選臂的方式是,用每個臂當前的貝塔分布產生隨機數b,選擇所有b中最大的那個臂.

經過實驗驗證,在所有Bandits算法中,湯姆森采樣在互補物品的多樣性推薦上取得了不錯的效果.

4 實驗與分析

本文提出的網絡結構基于Tensorflow平臺實現,該試驗在CPU為Intel Xeon E5-2630v3,顯卡為GTX 1080Ti(11G),內存為32G的工作站上運行,操作系統為Window10,代碼編寫使用Python語言.

4.1 數據集和數據預處理

本文是針對電商平臺而研究的一種推薦技術,因此使用的數據來自亞馬遜(Amazon)商城提供的公開數據集(Amazon product data)(1)http://jmcauley.ucsd.edu/data/amazon,完整數據集中的物品數量超過100萬件,包含4千多萬個同購關系,共29個類別,由于數據量龐大,我們只選取了其中的5類商品,包括電子產品、衣服鞋子珠寶、圖書、手機及配件和電影電視.在數據集官網中,我們可以很清晰的分辨出其中的數據格式,其中reviews數據壓縮包包含了評論者編號(reviewerID)、商品編號(asin)、評論文本(reviewText)和評分(overall),meta數據壓縮包中包含了商品編號(asin)、標題(title)、具有同購關系的商品(related),同購關系包括附帶購買(also_bought)和同時購買(bought_together).

具體的數據規模如表1所示.

表1 數據集規模統計表

數據預處理需要對評論和元數據進行合并處理,即一個商品對應唯一的商品編號、來自多個用戶的評論文本和評分、標題文本以及具有相關關系的商品編號.原始數據準備完成,還需要對圖片數據進行處理,根據文獻[9],我們可以得到每個商品編號對應的圖片特征向量,其維度是4096維.對于標題文本和評論文本,我們需要將其向量化,在這之前,將標題和評論文本進行合并,即一個商品編號對應一個標題信息和多個用戶的評論文本,然后利用doc2vec技術實現文本向量化,最終得到商品編號對應的文本特征向量,其維度是100維.

4.2 評價指標

在互補推薦的準確性方面,P@k(Precision)在推薦領域準確度測量方法中被廣泛使用,它表示前k項中正確推薦的項目的比例.另外,準確性的測量還可以用等式(9)計算:

(9)

其中,當x>0時,S(x)=1,否則S(x)=0.

在多樣性方面,先計算D(R(u)),即每個用戶u的推薦結果R(u)中,每兩個物品的不相似程度,然后計算所有用戶的推薦列表不相似程度的均值D:

(10)

(11)

4.3 參數設置

通過對數據集的預處理和分析,訓練集是選取所有數據的80%,20%為測試集.訓練過程采用五折交叉驗證法進行多次訓練,圖像和文本的潛在因素維度設置為10,對于評分,閾值設置為ηr=3.在訓練推薦模型之前,需要訓練文本向量化模型,其中訓練的窗口大小w:{3,5,10,20},訓練的文本向量長度l:{50,100,150,200},根據實驗結果可知,訓練窗口大小選取5,文本向量長度選取100最為合適.對于文本數據進行預處理的python代碼已在github(2)https://github.com/tsinghuaxiao/text2vec網站上貼出.互補推薦模型的學習采用隨機梯度下降法(stochastic gradient descent,SGD),可選取學習率α:{0.1,0.01,0.001,0.0001,0.00001}.

4.4 實驗對比

為了驗證所提出的算法的整體性能,將DR-MCI算法同以下4種方法—LRA、LRB、WNN、LMT進行了比較:

LRA即邏輯回歸平均評分.本文將物品Ii和物品Ij的圖片模態、文本模態和評分信息作為輸入,計算兩個物品互補的概率,其中評分是用平均評分,沒有用到貝葉斯方法.

LRB即邏輯回歸貝葉斯評分.前兩者模態和LRA是相同的,唯一的區別就是評分使用的是貝葉斯推斷.

LMT即低階馬氏變換.該方法在文獻[7]中得到運用,但是只針對圖片模態,在本實驗中,使用到了圖片模態、文本模態以及評分信息.

基于多模態互補物品的多樣性推薦利用圖片模態、文本模態以及評分信息,利用神經網絡方法進行非線性組合,加上Bandits算法實現其互補多樣性推薦.從表2可以看出,DR-MCI在亞馬遜商城的5種類別商品數據集上以P@5和P@10實現了最先進的性能,驗證了所提模型的有效性.在前兩個方法LRA和LRB的比較中,可以得知,不管是P@5還是P@10,貝葉斯推斷方法在處理大規模評分數據時具有很好的性能,這也是本文采用貝葉斯方法的原因.

表2 相關方法實驗結果對比

為了驗證多模態對實驗的影響,本文對以下4種方法進行實驗比較:

DR-MCI_M:該方法只考慮圖片這單一模態,根據等式(1)進行實驗.

DR-MCI_MT:該方法組合了圖片和文本模態,沒有考慮評分信息,即對圖片距離和文本距離進行線性組合互補距離為pdm(Ii,Ij)+qdt(Ii,Ij).

DR-MCI_MTR:該方法將圖片、文本和評分都考慮在內,但是使用的是傳統的線性組合.

DR-MCI:最終,我們將所有模態都考慮在內,并且舍棄線性組合的方式,而采用神經方法進行非線性組合,從而訓練出最終的模型.

根據圖4的實驗結果,可以看出,在不同模態組合當中,采用單一圖片模態的效果是最差的,因為光從圖片的角度去分析兩個物品的互補程度是不合理的,很多時候圖片具有欺騙性.隨著模態的增加以及組合方式的改進,我們發現DR-MCI_MT和DR-MCI_MTR方法的準確率在逐步提升,本文提出的方法取得了最優的性能,平均準確率達到了0.767.

圖4 不同模態組合下的實驗對比

除了推薦的準確性能外,多樣性在本文中的表現也很重要,因此根據Bandits算法選取的不同,設置了3種對照試驗:

EG-D:Epsilon-Greedy算法,這是一個樸素Bandit算法,類似模擬退火的思想:首先在(0,1)之間選一個較小的數作為e,然后每次以概率e做一件事,即所有臂中隨機選一個,最后每次以概率1-e選擇到當前為止,平均收益最大的那個臂.

TS-D:湯姆森采樣(Thompson Sampling)算法的核心思想就是利用beta(wins,lose)分布去選擇合適的臂,具體算法在本文的3.6小節介紹過.

根據表3可知,在這3種算法中,TS-D的性能最優,其次是UCB-D,最后是EG-D,在所有Bandits算法中,UCB和湯姆森采樣確實能表現得更優異,結合本文提出的多樣性計算公式以及多次實驗,最終驗證該方法的有效性.

表3 多樣性實驗結果對比

5 總 結

本文針對現有的互補替代推薦方法的精度和多樣性表現不足的問題,提出了基于圖片、文本以及評分的多模態互補物品多樣性推薦DR-MCI模型.在該模型中,通過對圖片模態的卷積操作實現圖片特征表示,對標題和評論文本進行文本向量化訓練實現文本特征表示,對評分進行貝葉斯推斷操作實現評分維度的選取,應用神經方法將這三者進行非線性組合,加入Bandits算法,最終實現互補替代多樣性推薦.因為替代推薦原理和互補類似,只是選取的輸入數據集不一樣,因此本文主要對互補推薦進行了更加詳細的描述.綜合實驗結果表明,所提出的算法優于基線算法,有效提升了互補替代推薦的精度和多樣性.

猜你喜歡
模態文本用戶
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 国产手机在线ΑⅤ片无码观看| 不卡网亚洲无码| 国产资源免费观看| 国产成年女人特黄特色毛片免| 国产一区成人| 亚洲第一区欧美国产综合| 亚洲人成影院午夜网站| 亚洲精品午夜无码电影网| 久久精品国产在热久久2019| 欧美成人午夜影院| 无码'专区第一页| 国产日韩AV高潮在线| 2021最新国产精品网站| 尤物亚洲最大AV无码网站| 波多野结衣一区二区三区四区视频| 亚洲一区波多野结衣二区三区| 丁香婷婷综合激情| 区国产精品搜索视频| 四虎永久在线| 久久窝窝国产精品午夜看片| 欧美在线网| 伊人激情综合网| 人妻少妇乱子伦精品无码专区毛片| 免费毛片全部不收费的| 国产福利大秀91| 久久综合伊人 六十路| 国产无码精品在线播放| 亚洲日本一本dvd高清| 欧美日韩北条麻妃一区二区| 国产精品尤物在线| 国产精品极品美女自在线网站| 广东一级毛片| 欧美va亚洲va香蕉在线| 中文字幕人成人乱码亚洲电影| 国产成人免费| 天天综合网色| 亚洲男人的天堂在线观看| 91在线视频福利| 亚洲欧洲国产成人综合不卡| 国产在线日本| 成人在线观看不卡| 国产噜噜噜| 日韩欧美高清视频| 国产91丝袜在线播放动漫 | 成人第一页| 天天爽免费视频| 操操操综合网| 欧美日韩成人在线观看| 成人年鲁鲁在线观看视频| 91视频99| 色综合网址| 无码人中文字幕| 无码国产伊人| 国产精品亚洲日韩AⅤ在线观看| 成人精品亚洲| 国产丝袜91| 免费国产黄线在线观看| 黄片在线永久| 一本大道无码高清| 国产精品原创不卡在线| 伊人久久久久久久| 日本三级欧美三级| 国产成人精品视频一区二区电影| 国产免费高清无需播放器| 一本一本大道香蕉久在线播放| 国内99精品激情视频精品| 99re在线视频观看| 国产福利微拍精品一区二区| 红杏AV在线无码| 99热亚洲精品6码| 国产乱人激情H在线观看| 色天天综合| 中文字幕啪啪| 国产幂在线无码精品| 免费无遮挡AV| 久操线在视频在线观看| 久久99精品久久久久纯品| 天堂va亚洲va欧美va国产| 一本综合久久| 亚洲人成在线精品| 亚洲日本中文综合在线| 韩日无码在线不卡|