999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合DenseNet和SOM聚類的個性化推薦方法

2022-01-28 03:01:02袁琳琳陳春艷
計算機應用與軟件 2022年1期
關鍵詞:特征用戶模型

袁琳琳 陳春艷 秦 進

1(貴州廣播電視大學貴州職業技術學院 貴州 貴陽 550023) 2(貴州云科教服務有限公司 貴州 貴陽 550000) 3(貴州大學計算機科學與技術學院 貴州 貴陽 550025)

0 引 言

推薦系統[1]通過推薦算法提取用戶與物品的隱式特征,從而建立用戶對物品的偏好模型,為用戶在海量信息中找到與用戶需求匹配的、個性化的產品。現有的推薦技術大多致力于利用深度網絡架構對用戶和項目的特征進行更全面、更精細的表示,對用戶和項目的交互進行更合理的建模,從而提高推薦結果的準確度。然而,針對越來越復雜的應用需求,各在線服務平臺對推薦系統的性能提出了更高的要求。除了準確性因素,推薦結果的其他方面,如多樣性、覆蓋率和新鮮性等都會對推薦系統的用戶體驗產生直接的影響[2]。尤其,多樣性是推薦系統實現個性化應用的必備因素。

推薦計算過程可以劃分為兩個階段,第一階段,計算估計用戶(User)對未體驗交互過的物品(Item)的評分;第二階段,為User生成一個Top-N推薦列表。現有的推薦多樣性研究根據考慮增加多樣性改進優化的階段不同,分為前向優化方法和后向優化方法。其中前向優化方法是在用戶的偏好需求建模過程中考慮多樣性因素[3-4],并對用戶需求模型做相應的調整改進,再利用常用的推薦算法得到推薦結果。大多數研究屬于后向優化方法,先利用推薦策略計算得到一個粗的項目推薦列表,再利用相關方法對該候選推薦列表進行多樣性優化[5-6],得到最終的多樣性推薦結果。后向優化方法可以任意組合評分計算策略和評分排序策略。由于兩個過程是前后獨立的,往往評分排序優化的效果受前期評分計算策略的限制。

本文采用深度學習應用在集成多任務目標學習[7-8]的思想,將推薦的準確性和多樣性作為模型的兩個待學習的目標任務。通過設計一個統一的損失函數針對這兩個訓練目標進行同步優化,實現同一個網絡架構模型對兩個優化目標進行端到端的訓練。本文的主要研究思路如下:

(1)通過用戶歷史反饋信息分析用戶對于推薦多樣性的偏好程度,并通過SOM自組織映射網絡建模用戶對推薦結果多樣性的傾向度。

(2)通過嵌入層分別獲得用戶、項目的隱因子向量,構造用戶和項目隱因子向量的外積交互矩陣。采用DenseNet網絡結構,提取用戶和項目的融合交互特征,保障推薦結果的準確性。

(3)設計一個綜合推薦準確性和多樣性的損失函數,實現網絡模型對推薦結果準確性和多樣性進行同步優化。

(4)在推薦系統的公開數據集上對本文提出的推薦策略模型進行實驗驗證。

1 相關知識

本節從SOM自組織映射網絡和推薦系統中常用的深度神經網絡模型兩方面對個性化推薦相關方法進行分析總結。

1.1 SOM自組織映射網絡

自組織映射網絡(SOM)是Kohonen于1981年提出的一種基于競爭性學習的無監督神經網絡[9]。原始的SOM神經網絡框架模型如圖1所示。

圖1 SOM網絡結構

網絡輸入層接收的是一組D維的特征向量X={xi|i=1,…,D},輸出層的每個神經元j對應一個權重向量wj={wij|j=1,2,…,N,i=1,2,…,D},其中N是輸出層神經元的總數。SOM在接收輸入向量X后,根據式(1)計算每個輸出節點的權向量和輸入向量之間的歐氏距離dj(X)。根據歐氏距離計算的結果,將dj(X)最小的神經元視作與輸入向量最近的神經元。距離最近的神經元及其特定大小的鄰域神經元的權向量將作一定的自適應更新調整,使得這些權向量與當前類別的輸入樣本的距離進一步縮小。SOM通過這個自適應學習過程后,網絡的輸出節點自組織,形成輸入和輸出之間的特征映射。

(1)

式中:wij是第i維輸入與第j個輸出層節點的連接權值,本文采用SOM的自組織映射聚類功能,將待推薦項目特征數據,作為輸入對網絡進行訓練,經過訓練的Item-SOM網絡可將屬性相似(流行度指標、用戶偏好度指標)的推薦項目映射在相同的輸出層神經元中。

1.2 深度神經網絡模型

深度神經網絡(DNN)[10-12]因具備強大的特征學習表示的能力,已被廣泛用于學習用戶和項目的高階特征。Google團隊在KDD 2017研討會上提出了DCN[13]模型,旨在顯式地學習高階特征交互,其優點是模型非常輕巧高效,但缺點是最終模型的表現形式是一種向量擴張,同時特征交互依舊是發生在元素級上。Lian等[14]提出了一種名為壓縮交互網絡(Compressed Interaction Network,CIN)的推薦模型,實現自動學習顯式的高階特征交互,同時使得交互發生在向量級上。除此之外,目前基于深度學習直接建模用戶和項目交互的推薦模型可劃分兩種:(1)基于多層感知機(MLP)建模用戶隱因子pu和項目隱因子qi之間的交互;(2)基于CNN對pu和qi隱特征交互映射函數f進行建模。兩類推薦模型都可以解決傳統矩陣分解采用內積交互表示預測輸出結果的局限性問題。

(2)

He等[15]指出了網絡協同過濾(NCF)及其變體模型采用特征向量內積、拼接操作的局限性。為此,提出一種基于外積的新的特征交互模型[16],通過特征外積交互操作得到一個特征矩陣,在此基礎上應用簡單CNN結構學習特征中各維的高階交互關系。該類基于CNN的推薦模型相比較MLP模型,參數規模大量減小,在數據不太多的情況下,比MLP模型具有更好的穩定性和泛化能力。

2 綜合準確性和多樣性的推薦模型

以上所提到的深度神經網絡模型都只考慮了怎樣通過深度網絡挖掘用戶和項目的潛在特征,怎樣應用深度網絡建模用戶和項目隱式特征的交互,從而得到更精準的推薦結果。這種只考慮準確性指標的推薦模型,往往不能實現推薦結果的個性化應用。推薦結果的多樣性是推薦系統的一個離線指標,暫時缺失深度學習直接對推薦結果的多樣性進行優化的研究。本文將從多樣性傾向度建模和基于DenseNet網絡的推薦方法兩方面介紹所提出的個性化推薦算法。

2.1 基于Item-SOM多樣性傾向度建模

Item-SOM網絡結構的輸入是推薦項目的特征數據(用戶交互反饋及項目標簽信息),在推薦系統中,對于離散特征的處理,常用的方法是將特征轉換成One-Hot的形式。考慮直接將One-Hot類型的特征輸入到SOM中,會導致網絡參數太多,增加網絡訓練的復雜度,同時降低網絡的準確度。如圖2所示,Item-SOM采用多層MLP對推薦項目特征進行高階非線性組合,再將低維度的高階特征輸入到SOM中進行項目聚類分析。

圖2 Item-SOM推薦項目網絡模型

(3)

Item-SOM結構使相似的推薦項目映射到相同的神經元中,得到推薦項目的聚類模型。采用此聚類模型在推薦項目類別的預測階段,僅需要輸入推薦項目的特征數據到Item-SOM中,就可以通過學習到的權值參數,計算與輸入特征數據歐氏距離最近的輸出節點位置,該輸出節點所代表的類別就為推薦項目所屬的分類類別。

2.2 基于DenseNet推薦模型

本文設計基于DenseNet的深度網絡推薦模型架構,通過DenseNet對用戶和項目的外積交互特征進行各維度高階特征的提取。不同于文獻[16],文獻[16]是直接對用戶和項目的輸入數據進行外積交互操作,獲得外積交互矩陣。本文假設同一個用戶喜歡多個不同的推薦項目(比如電影),有可能是因為它的劇情、類型或電影的主演。因此在用戶和項目隱式特征進行外積交互操作之前,設計了注意力模型用于學習用戶和項目之間的關系,從而對用戶的偏好進行深層次的建模。具體的模型架構如圖3所示。

圖3 DenseNCF模型架構

(4)

式中:P∈Rm×k為用戶特征的嵌入矩陣,Q∈Rn×k為項目特征的嵌入矩陣,k表示嵌入層隱式特征維度大小,m、n分別表示用戶特征維度大小和項目特征維度大小。將嵌入向量pu和qi送入Attention層后,通過Attention 機制動態分配權重,學習到用戶對自己歷史列表中每個項目特定特征的偏好ar→j,即:

(5)

(6)

用戶ur對歷史列表中每一個項目特征的偏好C由項目特征編碼的隱層向量qi={qij|j=1,2,…,k}按權重向量逐元素相乘得到:

q′i=akr·qi

(7)

最終Attention Model的輸出是用戶對每個項目特征的不同關注q′i∈Rk,在嵌入層和Attention Model之上,采用He等[16]提出的外積操作計算特征交互矩陣。

(8)

圖4 DenseNet結構塊

(9)

(10)

2.3 模型訓練

2.3.1DenseNCF推薦模型訓練

在基于深度學習的推薦系統中,最常用的兩種損失函數為逐點損失和成對損失[19]。推薦模型首先提取用戶和項目的隱式特征,再利用相關的損失函數構建模型的優化目標函數,采用最小批次梯度下降法,對深度推薦模型的參數進行優化訓練。針對推薦的準確性,本文采用式(11)計算成對損失。

(11)

式中:D:=(u,a,b)|a∈Iu∧b?Iu,Iu表示用戶u觀測到的正例。λΔ是防止過擬合的正則化參數,其中包括隱藏層和預測層的參數的L2正則化。BPR損失的實質是通過模型學習到用戶對項目a和項目b的最大得分差,從而學習到準確推薦的模型參數。除了考慮準確性,設計如下損失函數,實現多樣性目標參數的學習。

(12)

(13)

2.3.2Item-SOM聚類模型訓練

SOM網絡模型的輸出層神經元數目一般需要在滿足網絡結構模型的原則上經過多次實驗確定[20-21]。本文的Item-SOM網絡在訓練過程中為了避免輸出層網絡節點數過少,導致項目類別劃分不開,同時也不設置過多的類別數,導致出現大量“死節點”,采用文獻[21]的方法來確定SOM輸出層結點的數目。

M=C+0.7N0+α

(14)

式中:C為訓練樣本的類別數(聚類數);N0為節點的初始領域大小,取與訓練樣本的類別數最接近的平方數;α為輸出層節點數目的調整系數,取0<α

ΔWj,i=η(t)·Tj,I(x)(t)·(xi-wij)

(15)

3 實驗與結果分析

3.1 實驗環境與數據

實驗硬件環境為Intel(R)Core(TM)i7-9700K CPU@3.60 GHz (8核),32 GB RAM,兩塊NvidiaTitan XP的深度學習工作站;實驗軟件環境為Pycharm 2018,Tensorflow 1.13.1-GPU。

Minnesota大學GroupLens[22]項目組提供的電影評分數據為推薦領域研究常用的公開數據集,本實驗數據為其中的MovieLens 1M,該數據集包含用戶數據、電影數據和評分數據,其中用戶數據包含用戶ID、性別、年齡、職業和郵政編碼,電影數據包含電影ID、標題和類別,評分數據包含用戶ID、電影ID、評分和時間戳,評分范圍為1~5。表1列出了評分數據集的樣例。

表1 MovieLens 1M評分數據樣式

3.2 實驗評估指標

在Top-K推薦中,HR是一種常用的衡量召回率的指標,其計算公式如下:

(16)

式中:分母是所有測試樣本中屬于每個用戶正樣本的數目總和;分子是每個用戶Top-K推薦列表中屬于正樣本的個數的總和,本文用HR@K指標來評估DenseNCF模型推薦的準確性。

(17)

3.3 結果分析

3.3.1基于Item-SOM多樣性推薦結果分析

實驗為了避免輸出層網絡節點數過少,導致項目被劃分不開,文獻[23]提出的最優類別數取C=14,修正系數α=4,根據式(14)計算設置網絡的輸出層節點為20。另外設置Item-SOM的權重更新參數,初始化η0=0.2、σ0=max(4,5)/2=2.5、迭代次數τ=2 500。設置第一層的FC-Layer神經單元數為128,第二層的FC-Layer神經單元數與SOM輸出層神經元的數目相等,進行推薦項目聚類模型訓練。訓練結束后,將項目集I中的項目經過Item-SOM進行聚類,統計包含項目集的輸出節點為12個,即用于訓練的項目樣本集I被Item-SOM劃分了12類。在后面的實驗中,將所有訓練項目集I的總類別數C設置為12進行實驗。

將每個用戶的項目集Iu中的項目通過Item-SOM聚類,得到每個用戶反饋過的項目的類別數為Cu。圖5為每個用戶評分過的推薦項目經過訓練好的模型預測分類的結果,X軸表示各個用戶評分交互過的推薦項目的聚類類別數,Y軸表示交互的項目具有相同類別數的用戶數。由圖5顯示的實驗結果數據可知用戶評分過的推薦項目最少可被劃分為4類,最多被劃分10類,絕大部分用戶評分過的項目被劃分為6~9類。由此驗證絕大部分用戶對于推薦結果列表的多樣性存在一定要求,如果設計的推薦算法優化目標只考慮準確性因素,則不能夠滿足用戶的個性化需求,尤其不能滿足交互過的項目達到10類,對多樣性有偏好的用戶需求。

圖5 用戶評分項目的類別數

3.3.2不同推薦模型性能比較

本文所提出的方法主要是通過DenseNet和Attention 機制直接建模用戶與項目交互映射的關系,因此本文主要比較對用戶和項目交互關系進行直接建模的類似方法,比如DMF、ConvNCF。本節主要通過實驗比較本文提出的DenseNCF與以下算法模型在準確性和多樣性兩方面的性能。

(1)DMF[24]。一種基于神經網絡結構的矩陣分解模型,該模型通過兩組神經網絡分別提取用戶和物品的特征,最終通過兩組高階特征向量的點積計算來預測得分。

(2)ConvNCF[16]。一種基于外積操作的特征交互模型,通過用戶特征和項目特征的外積交互操作得到一個特征矩陣,在此基礎上應用簡單CNN結構學習特征中各個維度的高階交互特征,從而提高模型的泛化能力。

比較結果數據如表2所示。相比于DMF和Conv-NCF,DenseNCF在準確性和多樣性方面都有了一定的提升,準確性在MovieLens上取得了約1.5%的提升,多樣性取得了約7.5%的提升,說明本文在準確性和多樣性兩方面的優化是有效的。尤其在多樣性方面,由于DenseNCF添加了對多樣性目標的學習,多樣性指標值Dave比所比較的兩種方法要小一些,尤其在K的值比較小的時候,多樣性效果表現得更明顯。

表2 各模型方法的準確性和多樣性比較

為了進一步驗證本文方法的效果,從用戶數據集中選取三個用戶(UserA、UserB、UserC)采用DMF、Conv-NCF、DenseNCF三種模型方法分別對這三個用戶進行電影項目的推薦測試實驗。如表3用戶列的信息所示,這三個用戶交互過的推薦項目通過Item-SOM聚類結果分別為5類、8類、10類,可以認定UserB、UserC為多樣性需求高的用戶。每個用戶的項目測試樣本由采樣的99個負樣本及對應交互過的一個正樣本構成。每個用戶分別獲得了三個Top-K(K=5)推薦列表電影ID及電影所屬的類別,其中加粗顯示的電影ID為用戶評分交互過的正樣本。針對UserA 這個用戶,DenseNCF給出的電影推薦列表在類別多樣性方面表現了一定的優勢,但是效果還不是非常明顯;而針對UserB和UserC這兩個用戶,DenseNCF得到的推薦列表類別多樣性明顯更優于DMF和ConvNCF兩種方法的結果,說明DenseNCF的多樣性優化是有效的,且其推薦結果更能滿足多樣性需求高的用戶,從而進一步可實現個性化推薦。DenseNCF主要適合于個性化需求較高且推薦項目類別規模在一段時間較穩定的推薦應用領域,如音樂、個性化學習資源推薦。在這些個性化推薦場景中,可以提取用戶和推薦項目的標簽等作為特征數據,根據應用場景的復雜性,可通過添加或減少DenseNet結構塊,對用戶與項目交互關系特征進行學習,從而將DenseNCF遷移到個性化推薦的目標任務中。

表3 各模型方法電影推薦項目列表的多樣性比較

3.3.3DenseNCF模型推薦結果分析

為對DenseNCF模型中的超參數在模型中的影響進行分析,分別對用戶與項目隱因子的特征維度和正負樣本比例2個超參數進行對比實驗,實驗在Top-K(K=10)推薦列表場景的MovieLens 1M數據集上進行。

在DenseNCF模型中,用戶和項目隱因子的每一維特征都參與了推薦結果的計算。為了進一步探索DenseNet在推薦系統中的應用,本文針對不同的隱因子個數(32,64,128,256)進行了對比實驗。設置正則化參數為0.01,學習率為0.05,batch-size為256,實驗的準確性結果和多樣性結果分別如圖6-圖7所示。從準確性對比來看,隨著用戶與項目的隱因子特征維度增大,模型的準確性越好,但隨著模型隱因子個數超過64,模型準確性并沒有提高,反而收斂所需的時間更長。模型隱因子特征維度增大,計算資源相應增加,使模型迭代的速度更慢,而且隱因子特征維度更多,模型更深、更復雜,在相同規模大小的訓練樣本下,很容易導致過擬合使得準確性能下降。用戶和項目的特征隱因子個數對推薦的多樣性也產生了一定的影響,隨著隱因子的個數增加,推薦結果的多樣性會提升。由圖7可知,推薦多樣性最好的隱因子個數為128,由于推薦的多樣性比準確性更依賴推薦項目的底層細粒度特征,所以項目隱因子的維度對準確性和多樣性性能的影響會出現一定的差異。在實際應用中,要綜合考慮這兩個性能指標的同時,還要結合模型計算消耗,選取合適維度大小的特征隱因子。

圖6 不同隱因子維度的推薦準確性

圖7 不同隱因子維度的推薦多樣性

DenseNCF模型的輸入是一組正負樣本,其中包括m個正樣本和s×m個負樣本,實驗設置m=5,從圖8中看出,選擇合適的正負樣本比例s影響著模型的準確性和多樣性結果。負樣本是隨機選取的,數量太小模型得不到充分的訓練,訓練出來的參數總體表達能力有限,尤其在準確性方面模型效果差很多。隨著負樣本的增加,模型的準確性和多樣性都有一定的提升,在負樣本比例系數為30時,模型的準確性達到最優,而使多樣性最優的負樣本數量是正樣本的60倍。隨著負樣本數的繼續增多,模型的準確性和多樣性都會下降,這是由于s過高時,正負樣本嚴重失衡,造成正樣本特征得不到充分表達,降低了模型的泛化能力。模型的多樣性指標偏向于需求較多的負樣本,這主要是受樣本采樣的方式以及正負樣本的界定方式影響。針對一個用戶未交互過的樣本,實驗中會把它當作負樣本數據,但是不交互并不代表用戶對該項目不感興趣。因此經過所提模型計算它可能被歸入Top-K列表,而且它和用戶的正樣本中的項目集相似度很小,因此增加了Top-K列表的多樣性,但因為實驗把它視作負樣本反而影響了準確性的結果。實驗采用更多的負樣本量,一定程度更可能出現上述這種情況。在實際應用中,需要根據準確性和多樣性的需求,選擇合適的正負樣本比例數。

圖8 不同正負樣本比例的準確性和多樣性

4 結 語

為了滿足推薦系統的個性化需求,本文提出了一種融合準確性和多樣性的深度學習混合推薦模型DenseNCF。DenseNCF通過DenseNet提取用戶與項目的高階交互特征,建模用戶與項目的交互映射函數,從而確保推薦結果的準確性。采用SOM自組織映射網絡對物品項目進行聚類分析,建模用戶對推薦項目的多樣性傾向度。通過設計一個準確性和多樣性統一的損失函數,實現網絡對推薦的準確性和多樣性的同步訓練優化。實驗結果分析表明DenseNCF在確保推薦結果準確性的基礎上,能有效提升推薦結果的多樣性,進一步滿足個性化推薦的需求。但是本文針對的推薦多樣性屬于個體多樣性,而且基于DenseNet的協同過濾,依然無法徹底解決項目的冷啟動問題。在今后的工作中,將嘗試擴展研究基于內容的融合多目標推薦算法,同時探索針對總體多樣性和時序多樣性建模的深度學習網絡模型。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产精品私拍在线爆乳| 久久综合婷婷| 亚洲综合狠狠| 爱色欧美亚洲综合图区| 国产一级做美女做受视频| 又爽又大又黄a级毛片在线视频| 少妇精品网站| 久久综合AV免费观看| 午夜视频日本| 97在线观看视频免费| 国产精品欧美亚洲韩国日本不卡| 亚洲天堂自拍| 亚洲资源在线视频| 波多野结衣第一页| 一级毛片免费观看不卡视频| 亚洲第一香蕉视频| 人与鲁专区| 伊人久久福利中文字幕| 99热这里只有精品免费| 欧美精品在线视频观看| 超清无码一区二区三区| 亚洲av色吊丝无码| 亚洲熟女偷拍| 亚洲人妖在线| 中文天堂在线视频| 欧美日韩亚洲国产主播第一区| 久久91精品牛牛| 亚洲国产精品久久久久秋霞影院| 日韩欧美国产精品| 免费在线不卡视频| 亚洲AⅤ波多系列中文字幕| 一级爆乳无码av| 久久久久久久蜜桃| 久久综合一个色综合网| 中文字幕免费视频| 亚洲综合在线网| 婷婷午夜影院| 国产一区二区三区免费| 无码精品国产dvd在线观看9久| 中文字幕在线看| 午夜视频免费试看| 综合亚洲网| 精品福利一区二区免费视频| 久久久久久久97| 久久亚洲中文字幕精品一区| 日韩无码视频播放| 91在线激情在线观看| 成人精品视频一区二区在线| 99青青青精品视频在线| 男女男精品视频| 国产午夜人做人免费视频| 小说 亚洲 无码 精品| 亚洲成人www| 久久久精品无码一二三区| 国产亚洲视频中文字幕视频| 国产精品自拍合集| 国产在线观看第二页| 亚洲国产欧洲精品路线久久| 伊人久久福利中文字幕| 91丝袜在线观看| 欧美在线黄| 亚洲成人播放| 久久semm亚洲国产| 国产高清在线观看| 美女视频黄频a免费高清不卡| 91精品专区| 91精品网站| 国产日韩欧美中文| 日韩av无码精品专区| 国产亚洲精品自在线| 97人人模人人爽人人喊小说| 99一级毛片| 奇米精品一区二区三区在线观看| 国产精品微拍| 一级一毛片a级毛片| 亚洲 日韩 激情 无码 中出| 在线免费无码视频| 青草视频久久| 国产国产人在线成免费视频狼人色| 四虎成人免费毛片| 国产粉嫩粉嫩的18在线播放91| 亚洲国产天堂在线观看|