999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于NeuMF的推薦多樣性提升方法

2021-02-25 07:48:34劉浩翰曲昕彤賀懷清
計算機應用與軟件 2021年2期
關鍵詞:精確度用戶模型

劉浩翰 曲昕彤 賀懷清

(中國民航大學計算機科學與技術學院 天津 300300)

0 引 言

在過去的20年,推薦系統的發展逐漸完善,它能將可能被用戶喜歡的資訊或項目推薦給用戶,從而幫助用戶從海量的信息中篩選出需要的特定信息[1]。伴隨著用戶的個性化需求越來越高,在海量信息中找到并為用戶匹配到滿足其個性化需求,增強其滿意度的信息,成為了專家學者和廣大網絡用戶關心的核心問題。

隨著深度學習在推薦領域取得的突破性進展,在整合的多源異構數據中構建貼合用戶需求的用戶模型,提高推薦系統的性能和精確度,成為解決上述問題的主流解決方案。矩陣分解[2](Matrix Factorization,MF)是最受歡迎的一種協同過濾技術,它使用潛在特征向量來表示用戶或項目。但MF因為使用一個簡單的固定內積,在估計低維潛在空間中用戶-項目的復雜交互時會造成非線性建模能力較差的限制。He等[3]針對這一問題提出了一種神經網絡結構模擬用戶和項目的潛在特征,設計了基于神經網絡的協同過濾通用框架(Neural Collaborative Filtering,NCF),表明MF可以被解釋為NCF的特例即廣義矩陣分解(Generalized Matrix Factorization,GMF),并利用多層感知機(Multi-Layer Perceptron,MLP)來賦予NCF高水平的非線性建模能力,由此提出神經矩陣分解模型NeuMF。NeuMF統一了MF在建模用戶-項目潛在結構方面的線性建模優勢和MLP的非線性優勢,并且較一般方法提高了推薦的精確度。

然而在實際的推薦環境中,精確度并不是提高用戶對推薦項目滿意度的唯一標準,推薦列表的多樣性也是一種重要指標。多樣性反映的是推薦列表中項目種類的差異性,且提供更加多樣化的推薦列表不僅可以幫助用戶獲取新穎的項目,開拓個人偏好空間,還有助于覆蓋用戶的大部分興趣點,而且盲目崇拜精確度指標可能會傷害推薦系統,降低用戶的滿意度。因此,如何實現將多樣性融入與深度學習結合的推薦系統中,在損失較少精確度的前提下大幅提高推薦的多樣性就成為了可以嘗試的研究目標。

目前提高推薦多樣性的方法有多種,在典型的協同過濾算法中提高多樣性的方法主要有兩種:在推薦算法中提高多樣性以及在推薦列表上提高多樣性。具體代表性方法有:Zhang等[4]首次將物質擴散理論應用在項目-項目(item-item)網絡結構上,推薦方法每一步得分的傳遞都會除以自己的度,從而導致用戶的視野匯聚在那些度較大的節點上,能極大程度地提高推薦的精確性,但在推薦列表多樣性上則表現不佳。Premchaiswadi等[5]基于每個項目的總體多樣性效應,提出“總體多樣性效應”的重排序推薦方法。Ren等[6]結合基于用戶和項目的協同過濾算法,并為其劃分權重,使用不同的多樣性方法生成推薦列表,最終達到提升多樣性的目的。Ho等[7]提出5D分數的概念,并把推薦分為資源分配和推薦兩個階段,資源分配階段將推薦機會重新分配給項目,為長尾項目提供機會,并為具有良好口碑的項目留一些特權。

由于推薦多樣性與推薦精確度存在著此長彼消的關系,目前提出的用來解決多樣性問題的方法多以犧牲精確度來提升多樣性為主,尤其是推薦列表排序法會損失較多的精確度,并且沒有從根本的用戶與項目交互過程中學習多樣性特征,只將用戶或是項目的某一屬性特征與推薦算法結合或是只對推薦列表進行操作。為突破以往方法的限制,本文在NeuMF框架基礎上提出了NDMF模型,利用神經網絡的特質,在較少損失推薦精確度的同時提高推薦多樣性。

1 NeuMF框架

NeuMF框架如圖1所示。

圖1 NeuMF模型框架

(1)

?

(2)

(3)

2 NDMF模型

本文在NeuMF模型保證精確度的基礎上在神經網絡中融合多樣性特征因子,并在推薦過程的最后進行推薦列表重排序以進一步提高列表多樣性。保證精確度在可接受的損失范圍內提高推薦結果的多樣性和用戶滿意度。由此形成的模型稱為多樣神經矩陣分解模型(Neural Diversity Matrix Factorization,NDMF)。

2.1 多樣性特征因子

首先介紹兩個概念。用戶活躍度:表示用戶產生過交互行為的項目總數;項目流行度:表示對項目產生過交互行為的用戶總數。二者都符合長尾分布[8]。

2.1.1復合用戶活躍度k(u)

考慮到用戶的活躍度不僅體現在交互過的項目數上,也體現在用戶產生交互的項目類別上,為此本文綜合考慮這兩個影響因素,定義復合用戶活躍度如下:

k(u)=ω×k0(u)+(1-ω)×k1(u)

(4)

式中:k(u)表示用戶u的復合用戶活躍度,由兩部分組成:一部分為用戶u的活躍度,將其簡單地歸一化處理后記為k0(u);另一部分由kmeans聚類算法得到,記為k1(u)。項目集合通過聚類得到R個類簇,將用戶u交互過的項目逐一與R個類簇對比得到r個子類簇[9],于是k1(u)表示如下:

(5)

再以閾值ω調節二者比重,以達到最理想的實驗效果。kmeans聚類算法根據相似性原則將具有較高相似度的項目劃分至同一類簇,并且以距離作為項目對間相似性度量的標準。本文利用項目的類別屬性將項目p、q在n維空間上的特征分布表示為fp={p1,p2,…},fq={q1,q2,…}根據余弦夾角定理將項目p、q的相似性定義為:

(6)

2.1.2項目多樣性推薦因子k(i)

在電商系統中,冷門(長尾)商品的銷售總額比實體零售店的商品多很多,甚至會超過熱門商品的銷售總額,所以長尾商品的銷售總額不可忽視。因此,提高推薦的多樣性、豐富用戶的視野,可以通過挖掘長尾商品來實現。

研究表明長尾分布用單一的函數描述不足以反映其特征,但多個函數的疊加可以達到較好的效果。文獻[10]提出一種由n個底為e的指數函數線性組合(Hyper-Exponential Function,HEF)描述長尾分布函數的方法:

(7)

因項目流行度符合長尾分布,本文使用HEF來描述項目的長尾分布情況。將項目流行度代入式(6)后得到項目i的多樣性推薦因子k1(i),為方便后續實驗操作,使用函數f(x)=log(x+1)將k1(i)進行平滑處理,最后將結果歸一化得到k(i)。本文將k(i)作為項目i的多樣性推薦因子,并且與用戶復合活躍度結合以提高推薦的多樣性,應用在NDMF模型中。

2.2 模型結構

NDMF由改進后的GMF與MLP兩部分組成,結構如圖2所示。MLP不僅可以彌補GMF單獨用向量內積描述用戶與項目間的潛在交互特征帶來的局限性,還提升了模型的非線性建模能力。

圖2 NDMF模型結構圖

輸入層:僅使用一個用戶和一個項目的特征作為輸入。模型底部包括四個輸入特征向量,pu和qi為用戶u和項目i的交互特征向量,由用戶-項目交互矩陣Dm×n得到,ru和ti為用戶u的復合活躍度特征向量和項目i的多樣性特征向量,由k(u)和k(i)融合的矩陣Gm×n而得。

嵌入層:它是一個全連接層,用來將輸入層的四個高維稀疏特征向量映射成低維的稠密向量,為了使NDMF具有最大限度的靈活性,讓GMF與MLP獨立學習嵌入,并且以上角標G和M區分二者的輸入。

NCF層:將嵌入層得到的嵌入向量送入各自的NCF層,在GMF部分定義NCF層的映射函數為:

(8)

式中:?代表向量的逐元素點乘;⊕代表將用戶-項目點乘得到的交互特征向量與用戶活躍度-項目長尾因子點乘得到的多樣性特征向量進行拼接(concatenate)。兩個特征向量融合后,交互特征與多樣性特征的聯合即達到提高推薦多樣性的目的。在MLP部分定義NCF層結構:

(9)

式中:a、b、W分別表示激活函數、偏置向量和權重矩陣。本文中激活函數選擇ReLU(Rectified Linear Unit),因為它被證明不會導致過飽和,且實驗結果表明ReLU的效果較Sigmoid和雙曲正切函數更好。最后將改進后的GMF與MLP進行融合得到NDMF,兩部分從嵌入層開始獨立學習,在最后的隱藏輸出層NDMF層進行融合,方案如下:

(10)

NDMF模型使用隱式反饋[12],但yui為1并不代表用戶u喜歡i,同樣yui為0也不意味著用戶u不喜歡i。

(11)

2.3 輸入數據預處理

輸入數據預處理分為兩部分,采用兩種自定義的one-hot編碼方式得到用戶-項目交互矩陣Dm×n與復合用戶活躍度-項目多樣性推薦因子交互矩陣Gm×n,然后根據Dm×n與Gm×n得到4個稀疏的底層輸入向量。NDMF模型輸入包括4個特征向量:用戶特征向量,項目特征向量,復合用戶活躍度特征向量,項目多樣性推薦因子特征向量。

首先為了得到Dm×n,對用戶和項目特征進行one-hot編碼處理,即以用戶數M和項目數N為橫縱階數生成矩陣,將用戶與項目的交互結果(0或1)填充到矩陣中,例:若用戶u對項目i有過交互則矩陣中對應位置為1,否則為0。然后為了得到Gm×n,需要將復合用戶活躍度k(u)和項目多樣性推薦因子k(i)進行特征結合,將k(u)和k(i)保留相同小數位后進行等倍數擴大化為整數,將k(u)化為二進制并生成m×k階矩陣,對k(i)進行相同處理生成k×n階矩陣,其中k為k(u)與k(i)中最大數值所需二進制化的位數。最后將得到的兩個矩陣相乘得到m×n階矩陣Gm×n,如圖3所示。

圖3 復合用戶活躍度矩陣與項目多樣性因子矩陣

Gm×n中的每一項都結合了用戶u的復合活躍度以及項目i的多樣性推薦因子,因此其表征的是用戶-項目對的多樣性特征。多樣性推薦因子本身可提高冷門項目的推薦權重,而復合用戶活躍度則體現用戶接受冷門項目的能力,二者相乘起到調節推薦因子所占比重的作用,即復合活躍度較高的用戶相比復合活躍度低的用戶更能夠承受多樣性推薦因子帶來的冷門項目所占比重的大幅度提升。

2.4 損失函數

(12)

式(12)與二分類交叉熵損失函數[13]是相同的,原因在于我們把隱式反饋的輸出當作一個二分類問題進行處理,并且使用隨機梯度下降法最小化目標函數。其中y-是消極實例(負反饋),從與用戶無交互的項目中進行均勻采樣得到負反饋,并且可控制采樣比。

2.5 候選推薦列表重排序

(13)

3 算法描述

本文算法步驟描述如下:

輸入:Dm×n和Gm×n。

輸出:評價指標HR、NDCG和ILS、損失函數loss。

Step1開始。

Step2訓練特征并預測結果。

for 用戶u1to 用戶um

for 項目i1to 項目in

Step3候選推薦列表重排序。

for 用戶u1to 用戶um

利用式(13)對當前用戶候選推薦列表resultui中的預測分數進行調整,進而達到對resultui中的項目分數重排序的目的。

Step4利用resultui計算并輸出三個評估指標HR、NDCG和ILS,并代入式(12)計算損失值loss。

Step5結束。

4 實 驗

4.1 實驗數據集

本文實驗數據集使用MovieLens和 Pinterest兩個數據集:

(1) MovieLens顯式反饋數據集。該數據集廣泛應用于評估協同過濾算法,雖然它是顯式反饋數據集,但我們要從顯式反饋中學習隱式信息。為此,將其轉換為隱式數據,其中每條數據被標記為0或1表示用戶是否對該項進行評級。

(2) Pinterest隱式反饋數據集。該數據集用于評估基于內容的圖像推薦算法,類似于朋友圈點贊,原始數據龐大且稀疏。例如,超過20%的用戶只點贊過一次,難以用來評估協同過濾算法。因此,過濾數據集,僅保留贊過20次以上的用戶。處理后得到了包含55 187個用戶和1 445 621個項目交互的數據的子集。兩數據集數據數量如表1所示。

表1 數據集

4.2 評價方案

本文采用了與NeuMF相同的評估方法——留一法[15](leave-one-out):對于每個用戶,使用其最近的一次交互作為測試集,并將其余數據作為訓練集。由于在評估過程中為每個用戶排列所有項目花費的時間太多,所以隨機抽取100個與用戶沒有過交互的項目,將測試項目排列在這100個項目中。

為了衡量推薦結果的精確度與多樣性,本文采用命中率(Hit Radio,HR)、折損累計增益(Normalized Discounted Cumulative Gain,NDCG)和列表內部多樣性(Intra-list Similarity,ILS)進行評估。HR衡量測試項目是否存在于TopN列表中;NDCG用來衡量測試項目在TopN列表中的位置,位置越靠前則增益越高,精確度越高;ILS針對單個用戶的推薦列表,通過計算項目之間的相似度進而衡量列表的多樣性,推薦列表中項目越不相似,ILS越小,推薦結果的多樣性越好。為了便于觀察實驗結果,定義多樣性評價指標Div=1-ILS,即Div越大,多樣性越好。

4.3 實驗過程

4.3.1類簇個數確定

在聚類算法中類簇個數K對聚類的結果有直接影響,本文使用輪廓系數法[16]對不同類簇得到的聚類結果進行評估。項目i的輪廓系數s(i)定義為:

(14)

式中:b(i)表示項目i的簇內相似度,即與簇內其他項目的距離的平均值,b(i)越小,說明項目i越應該被聚類到該簇;a(i)表示項目i的簇間相似度,即與不同簇項目的平均距離的平均值,a(i)越大,說明項目越不屬于其他簇。由此可得結論,s(i)接近1,則說明項目i聚類合理;s(i)接近-1,則說明項目i更應該分類到另外的簇。為了度量整個聚類的質量,求得所有項目的平均輪廓系數:

(15)

表2 在MovieLens上不同類簇數的聚類效果

表3 在Pinterest上不同類簇數的聚類效果

續表3

4.3.2模型參數設置

模型NDMF是基于NCF框架提出的,因此需要在NCF上調整參數來達到更高的效果。首先使用式(12)二類交叉熵損失函數學習模型,取正負采樣比1∶4,對于模型參數的初始化選擇高斯隨機分布,并用Adam作為學習率自適應優化算法,它通過對參數進行頻繁和大幅度的更新來適應每個參數的學習速率,Adam方法在NeuMF和NDMF模型上的收斂速度都比普通SGD(Stochastic Gradient Descent)快,緩解了調整學習率的難度。訓練批次大小和學習速率通過測試選擇最優的256和0.001,并且由于NCF的結構特性,其隱藏輸出層即最后一層隱藏層決定了模型的性能,所以將其作為重要預測因素并使用[8,16,32,64]的因素大小作為模型的評估標準, 若預測因素大小為8,則NCF層即結構為32-16-8,分別為輸入層,嵌入層和隱層輸出的大小。由于深層的網絡結構對于推薦任務也存在影響,經過實驗驗證選擇隱藏層數為3的MLP。

4.3.3不同方法性能對比

將NDMF與GMF、MLP、NeuMF三種以NCF框架為基礎的方法在兩個真實數據集上進行對比,分別在隱層輸出大小為[8,16,32,64]上進行實驗,結果如圖4所示。在MovieLens數據集上,NDMF的精確度指標HR和NDCG較NeuMF相差0.02左右,但與GMF和MLP相比相差不大,且上升趨勢保持平穩,其中NDCG降低幅度大于HR的原因在于得到預測結果后對其進行了重排序,可能導致目標項目的位置后移。如果目標項目被移出TopN列表,那么HR和NDCG都會降低,如果沒有移出TopN列表那么只有NDCG會降低。在多樣性評價指標ILS上可以明顯看出,NDMF的列表內部多樣性明顯高于其他三種方法,其中高于NeuMF方法0.09左右,并且隨著精確度的上升會出現下降趨勢。對于Pinterest數據集而言,整體趨勢同上,可看出NDMF方法精確度較NeuMF方法降低幅度稍小,并且趨勢平穩,且在多樣性上的優勢突出。由此,本文提出的NDMF方法在NCF框架中使用神經網絡學習了構成的多樣性特征,得到的實驗結果顯示,在精確度的損失在可接受范圍內,并且不低于一般協同過濾推薦算法的前提下,換來了推薦列表多樣性的大幅提升。

圖4 在兩個數據集上三個評價指標的性能比較

4.3.4對比實驗

以隱層輸出大小為8,從不同角度進行以下對比實驗。在2.1.1節中,以兩種不同的方法計算了用戶的活躍度,并以ω控制二者的貢獻度,圖4是以ω=0.5得出的實驗結果。改變兩種用戶活躍度所占比重并觀察實驗結果的變化,如表4所示,隨著ω的增大精確度有較小幅度的波動而多樣性則小幅度下降,ω增大表示聚類得到的用戶活躍度k1(u)占比逐漸增多,相比于單純由項目被評價的次數得到的活躍度k0(u),k1(u)攜帶的多樣性特征更加明顯,帶來的增益更多。

表4 ω不同時NDMF方法在兩個數據集上的對比實驗結果

最后選取TopN列表的長度為10和15在兩個數據集進行對比,隨著推薦列表長度增加,目標項目存在于列表的可能性或是其在推薦列表的排名得到提升,且由于Pinterest數據集的稀疏度較大,其精確度與多樣性的變化比MovieLens要小。可以看出,在NeuMF中ILS的漲幅遠小于NDMF,這是由于NDMF不僅新增了用戶和項目的多樣性特征,還在MLP的非線性內核從數據中學習交互函數時添加了復合用戶活躍度與項目多樣性推薦因子,具體實驗結果見表5和表6。

表5 Top10下NeuMF與NDMF實驗對比

表6 Top15下NeuMF與NDMF實驗對比

5 結 語

針對如何提高多樣性,本文提出NDMF模型。其在GMF中以用戶-項目對為單位進一步學習復合用戶活躍度與多樣性推薦因子結合得到的特征,同時用MLP學習用戶-項目對間的潛在交互關系。NDMF不僅通過新特征的學習提高了推薦的多樣性,而且在統一了用戶-項目潛在結構方面MF的線性建模優勢以及MLP的非線性建模優勢的基礎上保證了推薦的精確度。最后在得到的預測結果上進行重排序,更加確保了多樣性的提升。實驗結果證明,精確度的損失在可接受的范圍內,且與精確度的損失相比多樣性得到更大幅度的提升。

近兩年,阿里巴巴提出了基于DNN模型的深度興趣網絡和它的進化版,基于用戶多樣性以及用戶歷史數據的部分有效性,在其中設計了“興趣層”充分挖掘用戶歷史數據中的信息來提升CTR預估的性能。基于該研究,未來我們將嘗試通過在NDMF模型中的MLP部分添加由注意力機制構成的“興趣層”,來探索用戶和項目的深度交互,進而保證推薦的精確性和多樣性的同時提升。

猜你喜歡
精確度用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
“硬核”定位系統入駐兗礦集團,精確度以厘米計算
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
易錯題突破:提高語言精確度
主站蜘蛛池模板: 欧美一级在线看| 9久久伊人精品综合| 精品国产aⅴ一区二区三区| 久久中文字幕2021精品| 尤物在线观看乱码| 91精品啪在线观看国产91| 国产va在线观看免费| 国产午夜一级毛片| 青青极品在线| 日韩av高清无码一区二区三区| 亚洲国产成人精品青青草原| swag国产精品| 日韩精品专区免费无码aⅴ| 国产天天色| 亚洲无码精彩视频在线观看 | 久久国产精品嫖妓| 久久一色本道亚洲| 亚洲天堂777| 国产一区二区三区精品欧美日韩| 欧洲在线免费视频| 国产毛片网站| 乱人伦99久久| 99视频在线观看免费| 精品国产成人a在线观看| 91久久偷偷做嫩草影院电| 亚洲天堂免费观看| 久久久亚洲色| 日本道综合一本久久久88| 青草精品视频| 人妻无码AⅤ中文字| 美女被躁出白浆视频播放| 特级毛片免费视频| 亚洲第一中文字幕| 亚洲精品成人片在线播放| 99热免费在线| 在线免费看黄的网站| 十八禁美女裸体网站| 久久黄色毛片| 国产91特黄特色A级毛片| 亚洲中文字幕av无码区| 国产成熟女人性满足视频| 日韩免费毛片视频| 99尹人香蕉国产免费天天拍| 欧美午夜视频在线| 人人爱天天做夜夜爽| 欧美一级大片在线观看| 亚洲欧美日韩视频一区| 久久无码免费束人妻| 国产凹凸一区在线观看视频| 亚洲香蕉久久| 亚洲精品爱草草视频在线| 午夜精品福利影院| 久久久久久久久亚洲精品| 免费无码网站| 免费 国产 无码久久久| 免费又黄又爽又猛大片午夜| 亚洲乱码视频| 成人韩免费网站| 国产玖玖视频| 成年免费在线观看| 欧美成人在线免费| 日韩一级二级三级| 婷婷色一二三区波多野衣| 国产熟睡乱子伦视频网站| 国产精品主播| 亚洲成年人网| 国产理论一区| 国产熟睡乱子伦视频网站| 丝袜高跟美脚国产1区| 国产精品免费入口视频| 亚洲最大福利网站| 亚卅精品无码久久毛片乌克兰| 丁香婷婷在线视频| 亚洲视频影院| 香蕉久人久人青草青草| 国产欧美视频在线观看| 亚洲日韩日本中文在线| 性激烈欧美三级在线播放| 97久久人人超碰国产精品| 青青青草国产| 国产a v无码专区亚洲av| 91福利免费|