999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多層結(jié)合的多階顯式交互的融合推薦模型

2022-01-01 00:00:00孫偉智歐鷗杜雪壘羅凱耀

摘 要: 現(xiàn)有不少模型著眼于對(duì)有限數(shù)據(jù)通過生成顯式特征交互以進(jìn)行挖掘來提升點(diǎn)擊率預(yù)測效果,但存在以下問題:對(duì)于原特征與新生成的顯式特征,直接一起輸入到一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行挖掘然后輸出,由于兩者參數(shù)量差別較大導(dǎo)致在表征上差異巨大;同時(shí)如果直接采用多級(jí)層數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還會(huì)導(dǎo)致低層,如第一、二層信息的丟失,但若直接將各層進(jìn)行累加以結(jié)合,則一些層中有用性有限的信息可能成為噪聲以影響預(yù)測。為此設(shè)計(jì)多層權(quán)重結(jié)合的多階顯式交互的融合推薦模型,通過將原數(shù)據(jù)與生成的多階顯式特征分別放入各自對(duì)應(yīng)的自注意力層中挖掘,其中各自對(duì)應(yīng)結(jié)構(gòu)的層數(shù)不同,同時(shí)對(duì)各層進(jìn)行加權(quán)后輸出以完成多層的結(jié)合,以提高點(diǎn)擊率預(yù)測效果。通過在兩個(gè)公開數(shù)據(jù)集上與多個(gè)不同模型進(jìn)行比較分析,并對(duì)模型進(jìn)行消融對(duì)比和超參數(shù)對(duì)比實(shí)驗(yàn),證明了該模型能有效挖掘原特征與顯式交互特征信息,平衡各階特征表征能力。

關(guān)鍵詞: 推薦系統(tǒng); 點(diǎn)擊率預(yù)測; 顯式交互

中圖分類號(hào): TP391"" 文獻(xiàn)標(biāo)志碼: A

文章編號(hào): 1001-3695(2022)05-011-1349-08

doi:10.19734/j.issn.1001-3695.2021.10.0447

Multi-layer combination multi-order explicit interaction

fusion recommendation model

Sun Weizhi, Ou Ou, Du Xuelei, Luo Kaiyao

(College of Cyber Security amp; Technology(Oxford Brooks College), Chengdu University of Technology, Chengdu 610051, China)

Abstract: While many current existing models focus on mining limited data in order to improve the click-rate prediction effect,the following problems arise simultaneously:the features are directly input into a unified neural network structure for mining and subsequently output regarding both the original and newly generated explicit ones,their representation will be great different.Additionally,if the multi-level neural network structure is adopted directly,it will also result in the loss of information at low layers such as the first layer and the second layer.The information with limited usefulness in some layers may produce noise to affect prediction if they are accumulated and combined directly.This paper designed a multi-level explicit interactive fusion recommendation model with a multi-level weight combination.It mined the original data and the generated multi-level explicit features into their corresponding self-attention layers,

which had different layers of their corresponding structures.Meanwhile,it output after weighted each layer to complete the combination of layers,so as to improve the prediction effect of click rate.It shows that this model is able to mine explicit and implicit interactive features effectively and balance the ability of each order to represent features in an effective way,with the support of the comparison and analysis with several different models on two public data sets,as well as the ablation comparison experiment and super parameter comparison of the model.

Key words: recommender systems; click-through rate; explicit interaction

0 引言

在個(gè)性化互聯(lián)網(wǎng)的時(shí)代下,資源平臺(tái)通過推薦系統(tǒng)為用戶推薦更合適的資源,以提升相關(guān)資源點(diǎn)擊率,平臺(tái)方企業(yè)便可獲得較大收益。因此,企業(yè)需要更好的推薦模型,以根據(jù)用戶個(gè)性化數(shù)據(jù)來預(yù)測其對(duì)不同資源的喜愛程度,來提升點(diǎn)擊率預(yù)測的準(zhǔn)確度。

在推薦系統(tǒng)中,數(shù)據(jù)僅包含用戶或者資源特征,其中不少輸入數(shù)據(jù)都為類別型,經(jīng)過獨(dú)熱(one-hot)編碼處理后稀疏性較大,因此Rendle[1]提出了因子分解機(jī)(factorization machine,F(xiàn)M)進(jìn)行特征交互學(xué)習(xí)并解決稀疏性問題。其后出現(xiàn)了諸如FFM(field-aware factorization machines)[2]、AFM(attentional factorization machine)[3]等多個(gè)類FM模型,但上述類FM模型均只能學(xué)習(xí)低階特征交叉。

在深度學(xué)習(xí)大火的時(shí)期,出現(xiàn)了通過DNN(deep neural network)層來學(xué)習(xí)特征交互的FNN(factorization-machine supported neural network)[4],通過在特征嵌入(embedding)后和DNN層之間加入內(nèi)/外積層的PNN(product-based neural network)[5]模型,和通過在嵌入層和DNN層之間加入Bi-Interaction層的NFM(neural factorization machine)[6],上述模型都將注意力集中在高階特征交互上,但都沒有低階特征交互的學(xué)習(xí)。

Wideamp;Deep(wide amp; deep learning)[7]模型通過wide部分學(xué)習(xí)低階特征交互,同時(shí)通過DNN學(xué)習(xí)高階特征交互后再融合,但其中的wide模塊仍然需要特征工程。DeepFM(factorization-machine based neural network)[8]模型用上述的FM模型替代wide模塊,解決了高低階特征交互自動(dòng)學(xué)習(xí)的問題,但學(xué)習(xí)的顯式交互特征均為低階,缺少中高階等非定階顯式交互特征的學(xué)習(xí)。

DCN(deep amp; cross network)[9]模型通過cross net模塊學(xué)習(xí)特征的高階顯式交互,并將不同階的顯式交互結(jié)合起來,另一邊則采用DNN,最后兩邊結(jié)合后輸出,xDeepFM(combining explicit and implict feature interactions for recommender systems)[10]模型創(chuàng)造了CIN模塊,以及DCN的改進(jìn)型DCN-M(improved deep amp; cross network)[11]模型,均增加了對(duì)顯式高低階特征交互的學(xué)習(xí),但不同階的顯式交互特征之間的參數(shù)量差距巨大,很容易使表征能力不平衡。

上述對(duì)于多層特征交互的學(xué)習(xí)均采用DNN模型,但DNN模型本身對(duì)特征的學(xué)習(xí)是bit-wise的,即每個(gè)特征中的元素均會(huì)與自身的其他元素交互,可能產(chǎn)生噪聲。而自注意力機(jī)制大火后,出現(xiàn)了AutoInt(automatic feature interaction learning via self-attentive neural networks)[12],其采用的多頭自注意力機(jī)制(multi-head self-attention)為vector-wise,同時(shí)結(jié)合了殘差網(wǎng)絡(luò)(ResNet),但該模型并不能直接用于生成顯式特征。

之后人們開始將目光投向了特征交互前的輸入和權(quán)重問題上,ONN(operation-aware neural network)[13]模型采用多種嵌入方式,且每種嵌入后特征輸出到不同后續(xù)操作中,但最終只有高階隱式特征交互作為輸出。FiBiNet(combining feature importance and bilinear feature interaction)[14]模型通過SENet對(duì)各個(gè)特征的重要性進(jìn)行重新分配,然后將原特征組和新特征組分別顯式交互后拼接并放入DNN層并完成輸出預(yù)測,但進(jìn)入DNN前的特征同樣均為定階的顯式交互。IFM(input-aware factorization machine)[15]和改進(jìn)型的DIFM(dual input-aware factorization machine)[16]模型對(duì)原特征進(jìn)行DeepFM的Deep部分和FM部分的權(quán)重進(jìn)行自適應(yīng)計(jì)算以完成預(yù)測,其中IFM模型的權(quán)重通過原特征輸入DNN進(jìn)行計(jì)算,而DIFM模型的權(quán)重計(jì)算則分別在bit-wise part通過DNN模塊和在vector-wise part通過self-attention模塊對(duì)原始向量挖掘后進(jìn)行合并。

上述大部分模型對(duì)不同階的顯式特征交互挖掘不夠,有的沒有顯式特征交互挖掘功能,有的只能挖掘特定階,缺少了高低搭配;在擁有挖掘多階顯式特征交互的模型中,DCN模型的各階之間可簡單看做標(biāo)量乘積,顯式交互效果較差,而xDeepFM和DCN-M模型,不同階的顯式交互特征之間,參數(shù)量差別巨大,容易造成不同階顯式特征交互的表征能力,同時(shí)構(gòu)造出來的不同階的顯式交互特征的相關(guān)性挖掘也不足。本文提出了顯式交互特征生成用于生成不同階的顯式交互特征,同時(shí)設(shè)計(jì)了多層結(jié)合自注意力交互層,用于平衡不同階的顯式交互特征參數(shù)量,同時(shí)深度挖掘各階顯式特征/原特征間的相關(guān)性,并將各層得到的信息通過注意力機(jī)制進(jìn)行結(jié)合以作為輸出,保證即便深度挖掘下不同層的信息也不會(huì)丟失。本文的主要工作有:

a)提出了融合多階顯式交互的多層結(jié)合推薦模型,其中的顯式交互特征生成層可以生成多階顯式交互特征,多層結(jié)合自注意力交互層可以平衡各階參數(shù)量以平衡各階顯式交互特征表征能力。

b)將多階顯式交互特征與原特征分別作為多層結(jié)合自注意力交互層的輸入進(jìn)行多層挖掘,以尋找相關(guān)性;同時(shí)為減少中低層的信息丟失,對(duì)每層都進(jìn)行結(jié)合;各層通過注意力機(jī)制進(jìn)行結(jié)合,以防止部分層有用性較小的信息變成噪聲。

c)通過在Criteo-10k和MovieLens-1M數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),用結(jié)果證明本文模型的效果相對(duì)更好,并分析原因。

1 相關(guān)工作

深度學(xué)習(xí)當(dāng)前在許多領(lǐng)域都大放光彩,如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)及其發(fā)展在圖像處理、自然語言處理方面成果頗豐。近年來,在推薦系統(tǒng)中使用深度學(xué)習(xí)方法已是大勢所趨,包括譚臺(tái)哲等人[17]對(duì)特定推薦商品的物品屬性通過注意力模型進(jìn)行加權(quán)分配,以預(yù)測用戶認(rèn)可度評(píng)分;周菲等人[18]提出的采用Transformer捕捉用戶歷史興趣,并將其與目標(biāo)廣告關(guān)聯(lián)的算法。

1.1 FM模型及其部分變式

通過推薦模型進(jìn)行點(diǎn)擊率預(yù)測中,F(xiàn)M較好地解決了輸入數(shù)據(jù)稀疏性較大的問題,F(xiàn)M及其各種變式包括FFM[2]、AFM[3]等,可以看做是一種低階顯式特征交互,但其方式對(duì)于挖掘更高階的顯式特征不足,對(duì)各特征間的相關(guān)性深度挖掘不夠。

1.2 基于深度學(xué)習(xí)的各種CTR模型

在FNN[4]完成了對(duì)特征進(jìn)行隱式深度挖掘后,通過對(duì)其結(jié)合與改進(jìn),誕生了PNN[5]、NFM[6]模型,但由于缺少對(duì)低階顯式特征交互的挖掘,于是又出現(xiàn)了Wideamp;Deep[7]、DeepFM[8]等模型,而針對(duì)高低階顯式特征的結(jié)合,則出現(xiàn)了DCN[9]、xDeepFM[10]和DCN-M[11]等模型,但這些模型的多層挖掘均為DNN層,即采用bit-wise,可能產(chǎn)生額外的噪聲。

后續(xù)又針對(duì)隱式挖掘和顯式挖掘進(jìn)行各種改進(jìn),誕生了基于multi-head self-attention的AutoInt[12]模型,以及對(duì)輸入數(shù)據(jù)進(jìn)行更多處理的ONN[13]和FiBiNet[14]模型,基于權(quán)重學(xué)習(xí)的IFM[15]和DIFM[16]模型,還有可以自適應(yīng)調(diào)整不同階的特征組合的AFN(adaptive factorization network)[19]模型。

1.3 與用戶歷史行為結(jié)合的CTR模型

為了進(jìn)一步提高CTR的準(zhǔn)確率,DIN(deep interest network) [20]和DIEN(deep interest evolution network)[21]模型通過對(duì)特征進(jìn)行分類并加入用戶歷史行為,并將用戶歷史行為與目標(biāo)特征進(jìn)行交互。

2 融合多階顯式交互的多層結(jié)合模型

本文提出的深度顯式與隱式特征交互模型(multi-order explicit interacting multi-layer combination network)結(jié)構(gòu)如圖1所示。該模型主要由輸入層(input layer)、嵌入層(embedding layer)、顯式交互特征生成層(explicit cross feature generation layer)、多層結(jié)合自注意力交互層(multi-layers combined with self-attentional interaction layers)、拼接層(concat layer)和輸出層(output layer)六個(gè)部分組成。其中輸入層對(duì)原始數(shù)據(jù)中的類別特征和多標(biāo)簽特征進(jìn)行編碼轉(zhuǎn)換為稀疏特征;嵌入層將稀疏特征通過嵌入矩陣映射為密集向量;顯式交互特征生成層將密集特征與來自嵌入層的密集向量進(jìn)行顯式特征交互生成不同階的顯式交互向量,并將所得到的各階顯式交互向量全部拼接得到多階顯式交互矩陣;多層結(jié)合自注意力交互層將密集特征與來自嵌入層的密集向量進(jìn)行深度交互,同時(shí)將來自顯式交互特征生成層的多階顯式交互矩陣在另一側(cè)進(jìn)行深度交互,其中對(duì)每層得到的交互向量平鋪后計(jì)算各層權(quán)重,再將各層進(jìn)行加權(quán)得到各自的多層結(jié)合交互向量;最后拼接層將兩邊分別得到的多層結(jié)合交互向量進(jìn)行拼接得到融合向量,并在輸出層通過sigmoid函數(shù)計(jì)算得到點(diǎn)擊率預(yù)測值,即模型的最終輸出。

2.1 輸入層

原始數(shù)據(jù)集中包含多種不同的特征,其中包括密集特征、類別特征及多標(biāo)簽特征,每種密集特征均通過MinMaxScaler進(jìn)行歸一化;每種類別特征經(jīng)過one-hot編碼轉(zhuǎn)換為二進(jìn)制向量表示,其向量長度等于類別種數(shù),且每個(gè)向量中除了索引位置的元素為1之外,其余元素均為0。比如“一周”中有“星期一”“星期二”“星期三”“星期四”“星期五”“星期六”“星期天”,當(dāng)本日為“星期三”時(shí),“星期三”索引的位置為1,其余元素均為0,則該向量為(0,0,1,0,0,0,0)。將所有類別特征進(jìn)行one-hot編碼后,各個(gè)特征編碼如下:

(0,0,1,0,…,0)月份=3月(1,0)用戶性別=男(1)

對(duì)于多標(biāo)簽特征,則經(jīng)過multi-hot編碼轉(zhuǎn)換為二進(jìn)制向量表示,其向量長度等于標(biāo)簽數(shù)量,且每個(gè)向量中除了特征標(biāo)簽索引位置的元素為1外,其余元素均為0。比如假設(shè)“電影風(fēng)格”有“動(dòng)作”“喜劇”“兒童”標(biāo)簽,當(dāng)前電影風(fēng)格為“動(dòng)作”和“喜劇”,則該向量為(1,1,0)。

3.4 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文CTR預(yù)測采用的評(píng)價(jià)指標(biāo)為對(duì)數(shù)損失函數(shù)(Log-Loss)、AUC(area under curve)和AP(average precision score)。

對(duì)數(shù)損失函數(shù)指標(biāo)經(jīng)常被用于二分類問題中,用來表示預(yù)測值和真實(shí)值之間的差距。其本質(zhì)為邏輯回歸的損失函數(shù),因此采用對(duì)數(shù)損失函數(shù)作為評(píng)估指標(biāo)能非常直觀地反映模型損失函數(shù)的變化。在實(shí)驗(yàn)中,對(duì)數(shù)損失函數(shù)越小說明預(yù)測模型性能越好,其公式為

LogLoss=

-∑ni=1(label(i)log(ectr(i))+(1-label(i)log(1-ectr(i))))n(14)

其中:n為輸入數(shù)據(jù)的樣本總量;label為樣本的真實(shí)標(biāo)簽;ectr為CTR預(yù)估值。

AUC指標(biāo)則是受試樣本工作特征曲線(ROC)的下面積,上限為1,其受樣本正負(fù)比例影響較小。ROC的橫坐標(biāo)為假陽性率(FPR),縱坐標(biāo)為真陽性率(TPR),在繪制好ROC曲線后,計(jì)算ROC曲線下的面積大小,即為AUC。AUC是對(duì)CTR預(yù)測任務(wù)的一個(gè)良好的評(píng)價(jià)標(biāo)準(zhǔn),AUC值越大,說明模型的預(yù)測能力越強(qiáng),其公式為

AUC=∑ins∈positiverankinsi-M(M+1)2MN(15)

其中:M和N分別為正樣本和負(fù)樣本個(gè)數(shù);rankinsi代表第i個(gè)樣本的序號(hào)。

AP總結(jié)了一個(gè)精確召回曲線,作為在每個(gè)閾值處獲得的精度的加權(quán)平均值,并且與以前的閾值相比,召回率的增加用于權(quán)重:

AP=∑n(Rn-Rn-1)Pn(16)

其中:Pn和Rn分別為第n個(gè)閾值時(shí)的精度和召回率,這種指標(biāo)計(jì)算與采用精準(zhǔn)率—召回率曲線下面積的方式不同,后者采用線性插值。

由于本文中針對(duì)數(shù)據(jù)集進(jìn)行了8:2的比例劃分為訓(xùn)練集和測試集,同時(shí)又將訓(xùn)練集以9:1的比例劃分,以成為交叉驗(yàn)證集,所以即便優(yōu)化目標(biāo)和評(píng)價(jià)指標(biāo)均采用LogLoss,但由于優(yōu)化僅采用交叉驗(yàn)證集里的數(shù)據(jù),所以對(duì)評(píng)價(jià)影響并不大;為了更好地驗(yàn)證該觀點(diǎn),本文另外采用更為廣泛使用的AUC評(píng)價(jià)指標(biāo),同時(shí)為了更好地維護(hù)評(píng)價(jià)公允性,采用AP評(píng)價(jià)指標(biāo)作為補(bǔ)充指標(biāo),對(duì)問題a)b)的實(shí)驗(yàn)進(jìn)行評(píng)判,多個(gè)指標(biāo)相互對(duì)照。

3.5 超參數(shù)比較分析

本節(jié)通過實(shí)驗(yàn)1針對(duì)超參對(duì)本文模型的影響進(jìn)行分析,在兩個(gè)數(shù)據(jù)集上進(jìn)行了多個(gè)超參調(diào)整實(shí)驗(yàn)對(duì)比,其中超參包括:嵌入層嵌入維度、優(yōu)化器、顯式特征最大階數(shù)、多階顯式特征在多層結(jié)合中的層數(shù)、多階顯式特征在多層結(jié)合中的嵌入維度、多階顯式特征在多層結(jié)合中的多頭數(shù)量、多階顯式特征在多層結(jié)合中的注意力因子維度、原特征在多層結(jié)合中的層數(shù)、原特征在多層結(jié)合中的嵌入維度、原特征在多層結(jié)合中的多頭數(shù)量、原特征在多層結(jié)合中的注意力因子維度、多層結(jié)合自注意力交互層中的激活函數(shù)。

a)通過圖2本文可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上的嵌入維度在4~7時(shí)相對(duì)振蕩,其中維度為7時(shí)效果最好,在維度為7之后則效果下降;而MovieLens-1M數(shù)據(jù)集則在嵌入維度為9之前相對(duì)平穩(wěn),9時(shí)效果最好,9之后平穩(wěn)下降,兩者維度大后性能下降的主要原因是參數(shù)過多導(dǎo)致過擬合。故后續(xù)采用Criteo-10k嵌入維度為7,MovieLens-1M嵌入維度為9進(jìn)行實(shí)驗(yàn)。

b)通過圖3可以發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集都是的優(yōu)化器都采用Adam效果最好,故后續(xù)均采用Adam作為優(yōu)化器進(jìn)行實(shí)驗(yàn)。

c)通過圖4可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上顯式特征最大階數(shù)從1~2效果遞增,2時(shí)效果最好,在3及之后則效果下降;而MovieLens-1M數(shù)據(jù)集上則在顯式特征最大階數(shù)為1時(shí)效果最差,2時(shí)效果最好,3及之后下降并振蕩。此處進(jìn)行了后續(xù)實(shí)驗(yàn)但后續(xù)變化不大,因此沒有放出,故后續(xù)顯式特征最大階數(shù)均采用2進(jìn)行實(shí)驗(yàn)。

d)通過圖5可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上的顯式特征在多層結(jié)合中的層數(shù)為1時(shí)效果最差,2時(shí)效果最好,3之后下降;而MovieLens-1M數(shù)據(jù)集則同樣為1時(shí)效果最差,2時(shí)效果最好,3到后續(xù)振蕩,兩者在層數(shù)為1時(shí)由于沒有深度挖掘,效果不行,后續(xù)則因參數(shù)過多導(dǎo)致過擬合。故后續(xù)多階顯式特征在多層結(jié)合中層數(shù)均采用兩層進(jìn)行實(shí)驗(yàn)。

e)通過圖6本文可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上的多階顯式特征在多層結(jié)合中嵌入維度70以前穩(wěn)步上升,在達(dá)到70的巔峰后迅速下降;而MovieLens-1M數(shù)據(jù)集則在多階顯式特征在多層結(jié)合中嵌入維度為60時(shí)達(dá)到最好,在60之后平穩(wěn)下降。故后續(xù)采用Criteo-10k多階顯式特征在多層結(jié)合中嵌入維度為70,MovieLens-1M多階顯式特征在多層結(jié)合中嵌入維度為60進(jìn)行實(shí)驗(yàn)。

f)通過圖7可以發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集均在多階顯式特征在多層結(jié)合中的多頭數(shù)量為2時(shí)效果最好,后續(xù)則性能下降或震蕩,故后續(xù)顯式特征在多層結(jié)合中的多頭數(shù)量采用2進(jìn)行實(shí)驗(yàn)。

g)通過圖8可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上的多階顯式特征在多層結(jié)合中的注意力因子維度在250~400時(shí)穩(wěn)步上升,其中維度為400時(shí)效果最好,在維度為400之后則效果下降;而MovieLens-1M數(shù)據(jù)集則在嵌入維度為350時(shí)效果最好。故后續(xù)采用Criteo-10k多階顯式特征在多層結(jié)合中的注意力因子維度為400,MovieLens-1M多階顯式特征在多層結(jié)合中的注意力因子維度為350進(jìn)行實(shí)驗(yàn)。

h)通過圖9可以發(fā)現(xiàn),兩數(shù)據(jù)集上的原特征在多層結(jié)合中的層數(shù)均3層及之前性能穩(wěn)步上升,其中3層時(shí)效果最好,在3層之后則效果下降。故后續(xù)兩數(shù)據(jù)集上原特征在多層結(jié)合中的層數(shù)均采用3層進(jìn)行實(shí)驗(yàn)。

i)通過圖10可以發(fā)現(xiàn),兩數(shù)據(jù)集均在原數(shù)據(jù)進(jìn)入多層結(jié)合自注意力交互層的嵌入維度為4~7時(shí)振蕩,其中7的效果最好,而當(dāng)嵌入維度為8時(shí)效果則下降。故后續(xù)兩數(shù)據(jù)集均在原數(shù)據(jù)進(jìn)入多層結(jié)合自注意力交互層的嵌入維度為7進(jìn)行實(shí)驗(yàn)。

j)通過圖11可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上的原數(shù)據(jù)多頭數(shù)量在2~4時(shí)穩(wěn)定上升,為4時(shí)效果最好,在4之后則效果下降;而MovieLens-1M數(shù)據(jù)集則在1~3時(shí)振蕩,3時(shí)效果最好,3之后平穩(wěn)下降。故后續(xù)采用Criteo-10k原數(shù)據(jù)多頭數(shù)量為4,MovieLens-1M原數(shù)據(jù)多頭數(shù)量為3進(jìn)行實(shí)驗(yàn)。

k)通過圖12可以發(fā)現(xiàn),Criteo-10k數(shù)據(jù)集上的注意力因子維度在80-110時(shí)上升,其中維度為110時(shí)效果最好,在維度為120及之后則效果下降;而MovieLens-1M數(shù)據(jù)集的效果相差無幾,其中AUC方面維度100和110甚至相等,但通過Logloss本文可以發(fā)現(xiàn)80~110效果穩(wěn)步上升,在110達(dá)到最好,而在120到之后則平穩(wěn)下降。故后續(xù)采用兩數(shù)據(jù)集的原特征在多層結(jié)合自注意力交互層的注意力因子維度為110進(jìn)行實(shí)驗(yàn)。

l)通過圖13可以發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集上的激活函數(shù)都是ReLU效果最好,故后續(xù)均采用ReLU為激活函數(shù)進(jìn)行實(shí)驗(yàn)。

本文采用超參數(shù)如下:

在Criteo-10k數(shù)據(jù)集上,嵌入層嵌入維度7,優(yōu)化器為Adam,顯式特征最大階數(shù)為2,多階顯式特征在多層結(jié)合中的層數(shù)為2,嵌入維度為70,多頭數(shù)量為2,注意力因子維度為400,原特征在多層結(jié)合中的層數(shù)為3,嵌入維度為7,多頭數(shù)量為4,注意力因子維度為110,多層結(jié)合自注意力交互層中的激活函數(shù)為ReLU。

在MovieLens-1M數(shù)據(jù)集上,嵌入層嵌入維度9,優(yōu)化器為Adam,顯式特征最大階數(shù)為2,多階顯式特征在多層結(jié)合中的層數(shù)為2,嵌入維度為60,多頭數(shù)量為2,注意力因子維度為350,原特征在多層結(jié)合中的層數(shù)為3,嵌入維度為7,多頭數(shù)量為3,注意力因子維度為110,多層結(jié)合自注意力交互層中的激活函數(shù)為ReLU。

通過上述實(shí)驗(yàn)可以解答問題a),對(duì)每個(gè)不同的數(shù)據(jù)集,各個(gè)超參數(shù)選取合適的數(shù)值,可以有效防止欠/過擬合、產(chǎn)生噪聲、表征不平衡等各種情況,從而大幅提高最終的預(yù)測結(jié)果。同時(shí)可以發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集均在多階顯式特征的多層結(jié)合層數(shù)為2,而原特征的多層結(jié)合層數(shù)為3的情況下達(dá)到最好的效果,充分說明了通過層數(shù)的調(diào)整來平衡不同特征之間的表征能力能夠有效提升預(yù)測效果。

3.6 顯式交互特征生成層和多層結(jié)合自注意力交互層的分析

本節(jié)包括實(shí)驗(yàn)2和3,針對(duì)模型進(jìn)行消融實(shí)驗(yàn)和內(nèi)部模塊替換對(duì)比。在實(shí)驗(yàn)2中,將顯式交互特征生成層與多層結(jié)合自注意力交互層進(jìn)行消融實(shí)驗(yàn),其中本文模型設(shè)置二進(jìn)制三維向量來表示不同模塊的分拆。001代表不生成多階顯式交互特征,直接通過多層結(jié)合自注意力交互層進(jìn)行輸出;101表示生成多階顯式交互特征但直接作為輸出,同時(shí)元數(shù)據(jù)通過多層結(jié)合自注意力交互層;110表示生成多階顯式交互特征且僅生成特征通過多層結(jié)合自注意力交互層;111表示該模型,及生成多階顯式交互特征且與原數(shù)據(jù)分別通過多層結(jié)合自注意力間交互層拼接后輸出;其他模型將非顯式特征交互模塊均拆去以進(jìn)行比較。

通過實(shí)驗(yàn)2,從表1中發(fā)現(xiàn),僅挖掘低階顯式交互特征的FM和可簡單看做原特征標(biāo)量乘積的DCN_Cross效果最差,僅生成多階顯式交互特征的001和xDeepFM差不多,比DCN-M_Cross效果稍好,其中xDeepFM效果最好,說明了生成新顯式交互特征的必要性;原特征通過多層結(jié)合自注意力交互層挖掘的101效果要更好些,但提升有限;但當(dāng)多階顯式交互特征與多層結(jié)合自注意力交互層相結(jié)合后,110提升了0.2%,說明了多階顯式交互特征與多層挖掘相結(jié)合的必要性,平衡了各階顯式交互特征表征能力,并挖掘了相關(guān)性;最后將原特征也通過多層結(jié)合自注意力交互層后進(jìn)行輸出,效果提升了0.11%,說明了當(dāng)生成特征學(xué)習(xí)參數(shù)量與原特征學(xué)習(xí)參數(shù)量達(dá)到相對(duì)平衡時(shí),對(duì)準(zhǔn)確率的提升作用也較大。另一方面,對(duì)生成的顯式交互特征和原特征各自進(jìn)行多層結(jié)合的層數(shù)并不同,原特征所需層數(shù)多一層,以此達(dá)到各特征間參數(shù)量的相對(duì)平衡。

在實(shí)驗(yàn)3中,本文將多層結(jié)合自注意力交互層替換為DNN層、每層通過attention機(jī)制結(jié)合的DNN層(DNN_att)、多頭自注意力層(MHSA),與本文的多層結(jié)合自注意力交互層(MHSA_att)進(jìn)行比較,其中為了多層結(jié)合,DNN_att的每層節(jié)點(diǎn)數(shù)為(256,256,256)。

從表2發(fā)現(xiàn),本文模型在點(diǎn)擊預(yù)測率的提升方面均有效果,其中傳統(tǒng)DNN層效果最差,DNN_att加入注意力多層結(jié)合后得到了較大的提升,MHSA相對(duì)DNN層具有一定的優(yōu)勢,而多層結(jié)合下的MHSA_att效果最好,充分說明了多層注意力結(jié)合對(duì)提升準(zhǔn)確率的必要性。

通過上述實(shí)驗(yàn)可以解答問題b),將顯式交互特征進(jìn)行多層結(jié)構(gòu)的挖掘,相比不生成顯式交互特征和生成顯式交互特征后直接輸出,提升效果明顯,充分說明了顯式交互特征的必要性,以及將顯式交互特征與多層交互結(jié)合的必要性;而將不同結(jié)構(gòu)的多層模型進(jìn)行直接比較,直接說明了擁有權(quán)重結(jié)合的多層自注意力結(jié)構(gòu)效果最好。

3.7 多模型的性能比較分析

本節(jié)通過實(shí)驗(yàn)4,將本文模型與其他模型直接進(jìn)行性能指標(biāo)比較,結(jié)果如表3所示。

從表3可以看到,本文模型無論在Criteo-10k數(shù)據(jù)集還是MovieLens-1M數(shù)據(jù)集上都優(yōu)于其他模型。

首先是關(guān)于Criteo-10k數(shù)據(jù)集,由于數(shù)據(jù)量較小,所有模型指標(biāo)差別不大,其中DIFM、ONN效果最差,DeepFM、DCN、AutoInt、AFN、PNN效果在中間,xDeepFM、DCN-M、FiBiNet和本文模型效果均不錯(cuò),其中本文模型效果最好,但指標(biāo)差距與FiBiNet差別不大。

然后是MovieLens-1M數(shù)據(jù)集,相比Criteo-10k數(shù)據(jù)集,由于數(shù)據(jù)量的增大,所有模型的效果均有所提升,但ONN的效果仍然不是很好,其次為DeepFM、PNN和DCN模型。DCN-M模型作為在DCN模型上的改進(jìn),效果明顯比DCN好,與xDeepFM效果相差無幾,但xDeepFM運(yùn)算復(fù)雜度也高不少。AutoInt通過自注意力機(jī)制僅對(duì)原特征進(jìn)行隱式挖掘,卻達(dá)到了驚人的效果,證明了多頭注意力機(jī)制在挖掘隱式特征交互的優(yōu)越性。FiBiNet、AFN與DIFM也相對(duì)于DeepFM大幅提升了預(yù)測效果。本文模型包含了對(duì)原數(shù)據(jù)和通過原數(shù)據(jù)新生成的多階顯式交互特征進(jìn)行高低層的融合挖掘,效果則是最好的。

通過上述實(shí)驗(yàn)得到關(guān)于問題c)的結(jié)論,相比單純挖掘定階顯式特征交互的PNN、DeepFM,以及可看做對(duì)數(shù)據(jù)作標(biāo)量乘積的DCN,針對(duì)高低階顯式特征交互進(jìn)行更好挖掘的,如xDeepFM、DCN-M,確實(shí)能夠提升CTR的準(zhǔn)確率;對(duì)數(shù)據(jù)/權(quán)重進(jìn)行更好處理的,如FiBiNet和DIFM,也能有效提升準(zhǔn)確率;自注意力機(jī)制如AutoInt相對(duì)DNN也確實(shí)更加有效,而將多階顯式交互特征作為額外輸入進(jìn)行多層自注意力機(jī)制結(jié)合挖掘是最有效的。

3.8 樣本案例分析

為了更直觀地表現(xiàn)出本文模型在對(duì)用戶針對(duì)某項(xiàng)目的點(diǎn)擊率預(yù)測的準(zhǔn)確性,本文在MovieLens-1M上抓取幾個(gè)用戶與其共同看過的幾部電影作為測試集中的一部分,以進(jìn)行預(yù)測(二分類,評(píng)分大于3為1,小于等于3為0)。

具體而言,本文選擇的user_id為[1,9,10],選擇的movie_id列表為[1,150,720],每個(gè)用戶的喜好真實(shí)值向量為[[1,1,0],[1,0,1],[0,1,1]]。本文先用訓(xùn)練集在模型上進(jìn)行訓(xùn)練,后將測試集輸入進(jìn)訓(xùn)練完成的模型中,觀測測試集中本文所選擇的幾個(gè)項(xiàng)的預(yù)測結(jié)果,即點(diǎn)擊率概率,然后與真實(shí)值進(jìn)行對(duì)比。如圖14所示,本文可以得到預(yù)測結(jié)果為:[[0.641 74,0.725 4,0.484 57],[0.613 24,0.271 86,0.552 74],[0.363 94,0.776 48,0.874 21]],其中所有項(xiàng)均預(yù)測正確,充分說明了本文模型的準(zhǔn)確性。

4 結(jié)束語

本文提出了一種多層結(jié)合多階顯式交互融合推薦模型,該模型首先通過顯式特征交互層生成不同階的顯式交互向量,拼接后得到多階顯式交互矩陣,在針對(duì)有限數(shù)據(jù)集中能夠生成更多特征以提高預(yù)測準(zhǔn)確率;將多階顯式交互特征和原數(shù)據(jù)分別通過多層結(jié)合自注意力交互層,然后拼接并輸出,旨在深度挖掘各個(gè)特征之間交互特征,并保證不同層的挖掘信息不丟失,同時(shí)還能平衡各階顯式特征之間的表達(dá)能力。通過Criteo-10k和MovieLens-1M兩組數(shù)據(jù)集與其他優(yōu)秀模型進(jìn)行對(duì)比分析,證明了本文模型相較于其他算法能夠達(dá)到更好的效果;通過消融對(duì)比實(shí)驗(yàn)證明了本文模型中的顯式交互特征生成層與多層結(jié)合自注意力交互層各自的必要性,以及將兩者結(jié)合并平衡各特征間學(xué)習(xí)參數(shù)量對(duì)預(yù)測準(zhǔn)確率提升的必要性。

但是可以通過實(shí)驗(yàn)發(fā)現(xiàn),本文的改進(jìn)提升有限,原因主要在于顯式交互的方式本身沒有改進(jìn),可能造成較多的噪聲,并且沒有引入更多的生成特征,如歷史行為特征等。下一步考慮將用戶歷史行為以時(shí)序形式與該模型相結(jié)合得到更好的效果,改進(jìn)顯式交叉方式的同時(shí)盡量降低復(fù)雜度。

參考文獻(xiàn):

[1]

Rendle S.Factorization machines[C]//Proc of IEEE International Conference on Data Mining,Piscataway,NJ:IEEE Press,2010:995-1000.

[2]Juan Y,Zhuang Yong,Chin W S,et al.Field-aware factorization machines for CTR prediction[C]//Proc of the 10th ACM Conference on Recommender Systems.New York:ACM Press,2016:43-50.

[3]Xiao Jun,Ye Hao,He Xiangnan,et al.Attentional factorization machines:learning the weight of feature interactions via attention networks[C]//Proc of the 40th International Joint Conference on Artificial Intelligence.2017:435-441.

[4]Zhang Weinan,Du Tianming,Wang Jun.Deep learning over multi-field categorical data[C]//Proc of European Conference on Information Retrieval.Berlin:Springer,2016:45-57.

[5]Qu Yanru,Cai Han,Ren Kan,et al.Product-based neural networks for user response prediction[C]//Proc of the 16th IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2016:1149-1154.

[6]He Xiangnan,Chua T S.Neural factorization machines for sparse predictive analytics[C]//Proc of the 40th International ACMSIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2017:355-364.

[7]Cheng H T,Koc L,Harmsen J,et al.Wide amp; deep learning for recommender systems[C]//Proc of the 1st Workshop on Deep Learning for Recommender Systems.2016:7-10.

[8]Guo Huifeng,Tang Ruiming,Ye Yunming,et al.DeepFM:a factorization-machine based neural network for CTR prediction[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1725-1731.

[9]Wang Ruoxi,F(xiàn)u Bin,F(xiàn)u Gang,et al.Deep amp; cross network for ad click predictions[C]//Proc of the 23rd ACM SIGKDD Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2017:12-18.

[10]Lian Jianxun,Zhou Xiaohuan,Zhang Fuzheng,et al.xDeepFM:combining explicit and implicit feature interactions for recommender systems[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2018:1754-1763.

[11]Wang Ruoxi,Shivanna R,Cheng D Z,et al.DCN V2:improved deep amp; cross network for feature cross learning in web-scale learning to rank systems[C]//Proc of the Web Conference.New York:ACM Press,2021:1785-1797.

[12]Song Weiping,Shi Chence,Xiao Zhiping,et al.AutoInt:automatic feature interaction learning via self-attentive neural networks[C]//Proc of the 28th ACM International Conference on Information and Know-ledge Management.New York:ACM Press,2019:1161-1170.

[13]Yang Yi,Xu Baile,Shen Furao,et al.Operation-aware neural networks for user response prediction[EB/OL].(2019-04-02).https://arxiv.org/abs/1904.12579.pdf.

[14]Huang Tongwen,Zhang Zhiqi,Zhang Junlin.Combining feature importance and bilinear feature interaction for CTR prediction[C]//Proc of the 13th ACM Conference on Recommender Systems.New York:ACM Press,2019:169-177.

[15]Yu Yantao,Wang Zhen,Yuan Bo.An input-aware factorization machine for sparse prediction[C]//Proc of the 28th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:1466-1472.

[16]Lu Wantong,Yu Yantao,Chang Yongzhe,et al.A dual input-aware factorization machine for CTR prediction[C]//Proc of the 29th International Joint Conference on Artificial Intelligence.2020:3139-3145.

[17]譚臺(tái)哲,晏家斌.基于注意力模型的混合推薦系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(13):172-180. (Tan Taizhe,Yan Jiabin.Hybrid recommendation system based on self-attention model[J].Computer Engineering and Applications,2020,56(13):172-180.)

[18]周菲,徐洪珍.基于改進(jìn) Transformer 的廣告點(diǎn)擊率預(yù)估模型[J].計(jì)算機(jī)應(yīng)用研究,2021,38(8):2386-2389,2400. (Zhou Fei,Xu Hongzhen.Improved Transformer based model for click-through rate prediction[J].Application Research of Computers,2021,38(8):2386-2389,2400.)

[19]Cheng Weiyu,Shen Yanyan.Huang Linpeng.Adaptive factorization network:learning adaptive-order feature interactions[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:3609-3616.

[20]Zhou Guorui,Song Chengru,Zhu Xiaoqiang,et al.Deep interest network for click-through rate prediction[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2018:1059-1068.

[21]Zhou Guorui,Na Mou,F(xiàn)an Ying,et al.Deep interest evolution network for CTR prediction[EB/OL].(2018).https://github.com/mouna99/dien.

主站蜘蛛池模板: 国产福利免费在线观看| 日本黄色不卡视频| 无码电影在线观看| 青青久久91| 国产主播一区二区三区| 男女精品视频| 国内精品免费| 精品国产Av电影无码久久久| 久久国产精品麻豆系列| www.91在线播放| 国产男女XX00免费观看| 亚洲精品黄| 国产69精品久久久久孕妇大杂乱 | 伊人精品视频免费在线| 99re精彩视频| 欧美亚洲另类在线观看| 色精品视频| 国产在线视频自拍| 91av成人日本不卡三区| 国产精品无码一区二区桃花视频| 天堂成人在线| 国产熟女一级毛片| 国产成a人片在线播放| 亚洲成人播放| 日韩精品亚洲精品第一页| 欧美一级视频免费| 欧美综合区自拍亚洲综合天堂| 97国产在线视频| 国产综合亚洲欧洲区精品无码| 亚洲日韩欧美在线观看| www.亚洲色图.com| 国产毛片基地| 在线免费a视频| 国产日韩AV高潮在线| 夜精品a一区二区三区| 99热国产在线精品99| 久久国产成人精品国产成人亚洲 | 波多野结衣AV无码久久一区| 亚洲日本中文字幕天堂网| 国产亚洲欧美另类一区二区| 亚洲成人黄色在线| 无码视频国产精品一区二区| 亚洲视频一区在线| 日韩中文精品亚洲第三区| 国产原创演绎剧情有字幕的| 亚洲第一色视频| 欧洲高清无码在线| 亚洲高清在线天堂精品| 福利一区在线| 色窝窝免费一区二区三区| 99热这里只有精品在线播放| 免费一级毛片完整版在线看| 精品视频在线一区| 婷婷午夜影院| 国产成人91精品免费网址在线| 日韩亚洲综合在线| jizz在线免费播放| 午夜三级在线| 婷婷丁香色| 日韩麻豆小视频| 另类欧美日韩| 99热这里只有精品2| 亚洲中文字幕国产av| 夜夜操天天摸| 国产av剧情无码精品色午夜| 国产精品三区四区| 嫩草国产在线| 久久香蕉国产线看观| 欧美精品导航| 亚洲精品福利视频| 日韩欧美国产三级| 亚洲香蕉伊综合在人在线| 欧美日本视频在线观看| 亚洲一区免费看| 一级毛片无毒不卡直接观看| 午夜福利在线观看成人| 亚洲高清在线播放| 国产成人无码久久久久毛片| 国产 日韩 欧美 第二页| 日韩第九页| 亚洲嫩模喷白浆| 福利片91|