999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶畫(huà)像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)模型研究

2021-08-19 20:55:32周親吳運(yùn)辰吳俊坤
軟件 2021年2期

周親 吳運(yùn)辰 吳俊坤

摘 要:本文使用某電商公司提供的廣告點(diǎn)擊日志流,構(gòu)建基于用戶畫(huà)像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)xDeepFM模型。研究發(fā)現(xiàn):xDeepFM模型對(duì)預(yù)估準(zhǔn)確率提升明顯;用戶畫(huà)像系統(tǒng)可以很好的解決深度模型對(duì)高維稀疏特征的學(xué)習(xí)問(wèn)題,有效提高預(yù)估準(zhǔn)確率。

關(guān)鍵詞:互聯(lián)網(wǎng)廣告;用戶畫(huà)像;xDeepFM模型;點(diǎn)擊率預(yù)測(cè)

中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2021.02.052

本文著錄格式:周親,吳運(yùn)辰,吳俊坤.基于用戶畫(huà)像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)模型研究[J].軟件,2021,42(02):171-174

Research on Prediction Model of Internet Advertising Click through Rate Based on User Portrait

ZHOU Qin, WU Yunchen, WU Junkun

(School of economics, Nanjing University of Posts and telecommunications, Nanjing? Jiangsu? 210023)

【Absrtact】:This paper uses the click log stream provided by an e-commerce company to build the xDeepFM model of Internet advertising click rate prediction based on user portrait. The results show that: xDeepFM model can significantly improve the prediction accuracy; user portrait system can solve the problem of learning high-dimensional sparse features from depth model, and effectively improve the prediction accuracy.

【Key words】:internet advertising;user portrait;xDeepFM model;click through rate prediction

0引言

21世紀(jì)以來(lái),隨著智能手機(jī)與互聯(lián)網(wǎng)技術(shù)的逐漸成熟,互聯(lián)網(wǎng)廣告成為日常生活中最常見(jiàn)的廣告形式。同時(shí),互聯(lián)網(wǎng)廣告以其精準(zhǔn)度高、互動(dòng)性強(qiáng)以及營(yíng)銷成本相對(duì)較低等顯著特性,成為互聯(lián)網(wǎng)公司最為穩(wěn)定的一種營(yíng)收模式。

廣告點(diǎn)擊率是衡量互聯(lián)網(wǎng)廣告投放效果的重要指標(biāo)。互聯(lián)網(wǎng)公司想要用戶愿意點(diǎn)擊彈跳出來(lái)的廣告,就要投放符合其“胃口”的廣告。因此需要使用更精確科學(xué)的模型對(duì)廣告點(diǎn)擊率進(jìn)行預(yù)估,準(zhǔn)確的估算廣告被前端用戶點(diǎn)擊的可能性,幫助廣告供應(yīng)方在有限的預(yù)算下獲得更多的點(diǎn)擊機(jī)會(huì),從而帶來(lái)更大的收益。在此背景下本文使用某電商公司提供的廣告點(diǎn)擊日志流,構(gòu)建基于用戶畫(huà)像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)xDeepFM模型,進(jìn)行深入研究。

1研究現(xiàn)狀

1.1關(guān)于用戶畫(huà)像的研究現(xiàn)狀

目前普遍接受的用戶畫(huà)像(Persona)的定義是由交互設(shè)計(jì)之父Alan Cooper提出的,他認(rèn)為用戶畫(huà)像是真實(shí)用戶的虛擬代表,是根據(jù)一系列用戶的真實(shí)數(shù)據(jù)而挖掘出的目標(biāo)用戶模型[1]。

用戶畫(huà)像被應(yīng)用于各個(gè)行業(yè)。在營(yíng)銷方面,王冬羽[2]將用戶畫(huà)像系統(tǒng)的分為用戶靜態(tài)信息畫(huà)像和用戶動(dòng)態(tài)信息畫(huà)像,設(shè)計(jì)了用戶畫(huà)像系統(tǒng),有效提高了用戶流量、增加了新用戶數(shù);在圖書(shū)館應(yīng)用方面,都藍(lán)[3]通過(guò)精確的構(gòu)建用戶畫(huà)像,幫助圖書(shū)館更加直觀地了解到讀者閱讀傾向,便于館員開(kāi)展精準(zhǔn)化閱讀推廣服務(wù)。

1.2關(guān)于廣告點(diǎn)擊率的研究現(xiàn)狀

點(diǎn)擊率(CTR)是指某一內(nèi)容被點(diǎn)擊次數(shù)與被展示次數(shù)的比,一般用于描述內(nèi)容被用戶點(diǎn)擊的概率[4]。目前CTR預(yù)估研究方向主要分為兩個(gè)類別,即模型選擇層面和特征提取層面。從模型選擇層面來(lái)說(shuō):吳文偉[5]基于分布式邏輯回歸模型進(jìn)行分析,最終使廣告點(diǎn)擊率系統(tǒng)的訓(xùn)練速度得以明顯提升;Rendl等[6]提出一種能夠自動(dòng)進(jìn)行特征組合的模型——因子分解機(jī)。從特征提取層面來(lái)說(shuō):華盛頓大學(xué)教授Domingos[7]曾說(shuō),使用什么特征是很多機(jī)器學(xué)習(xí)項(xiàng)目成敗的關(guān)鍵因素。周永[8]基于真實(shí)廣告點(diǎn)擊數(shù)據(jù)發(fā)現(xiàn),基于GBDT特征優(yōu)化技術(shù)的LR模型能有效提高傳統(tǒng)LR模型的預(yù)測(cè)準(zhǔn)確率;宋益多[9]通過(guò)LDA模型輸出用戶査詢的主題詞向量,最后基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型進(jìn)行分析。

2數(shù)據(jù)說(shuō)明及預(yù)處理

2.1數(shù)據(jù)說(shuō)明

本文所述的廣告點(diǎn)擊率預(yù)估方法來(lái)源于實(shí)驗(yàn)室合作項(xiàng)目,數(shù)據(jù)來(lái)源自某電商公司提供的廣告點(diǎn)擊日志流,可以基于該組數(shù)據(jù)來(lái)衡量網(wǎng)站上廣告的吸引程度。本文數(shù)據(jù)具體時(shí)間范圍2020年3月1日至2020年3月8日共計(jì)八天。為保證用戶的相關(guān)隱私,所有數(shù)據(jù)均做脫敏處理。本文選取了日志流中的三個(gè)數(shù)據(jù)集進(jìn)行后續(xù)廣告點(diǎn)擊率預(yù)測(cè)模型擬合,如表1所示。

首先,在該電商網(wǎng)站上隨機(jī)抽樣114萬(wàn)用戶近8天(2020.3.1-2020.3.8)內(nèi)的點(diǎn)擊日志,并選取合適的維度,共計(jì)2600萬(wàn)記錄,構(gòu)成樣本骨架數(shù)據(jù)集,數(shù)據(jù)集內(nèi)的字段說(shuō)明如表2。

其次在該電商網(wǎng)站上提取樣本骨架數(shù)據(jù)表中包含的廣告基本信息,數(shù)據(jù)集內(nèi)的字段說(shuō)明如表3。

再提取樣本骨架數(shù)據(jù)表中114萬(wàn)用戶的基本信息,構(gòu)成用戶信息表,字段信息如表4。

2.2數(shù)據(jù)預(yù)處理

通過(guò)對(duì)數(shù)據(jù)隨機(jī)抽取查看發(fā)現(xiàn),可能由于電商平臺(tái)數(shù)據(jù)存儲(chǔ)的失敗、存儲(chǔ)器破壞或者歷史局限問(wèn)題,數(shù)據(jù)中存在缺失值和異常值。為進(jìn)一步分析數(shù)據(jù)并保證數(shù)據(jù)的完整性和可靠性,使用多重插補(bǔ)方法對(duì)數(shù)據(jù)預(yù)處理。

3 xDeepFM模型求解

3.1特征編碼

數(shù)據(jù)集通過(guò)數(shù)據(jù)預(yù)處理后依舊是比較臟亂,因?yàn)閿?shù)據(jù)中存在各種非數(shù)字特殊符號(hào),比如中文等,而實(shí)際上機(jī)器學(xué)習(xí)模型需要的數(shù)據(jù)是數(shù)字型的,只有數(shù)字類型才能進(jìn)行計(jì)算。因此,對(duì)于各種特殊的特征值,需要通過(guò)one-hot編碼對(duì)其進(jìn)行量化。

3.2 xDeepFM模型參數(shù)優(yōu)化

xDeepFM要學(xué)習(xí)的參數(shù)主要包括線性FM部分的系數(shù)、Embedding層的系數(shù)、CIN中各層的系數(shù)和DNN中各層的系數(shù),通過(guò)反向傳播算法即可求解各個(gè)系數(shù)。但是傳統(tǒng)的求解使用梯度下降進(jìn)行參數(shù)權(quán)重更新,每一輪迭代都需要使用全部的數(shù)據(jù)來(lái)計(jì)算平均損失函數(shù),對(duì)于本文大數(shù)據(jù)集的情況,計(jì)算效率較差,考慮相關(guān)優(yōu)化方法進(jìn)行求解,隨機(jī)梯度下降使用單個(gè)數(shù)據(jù)點(diǎn)的損失來(lái)代替整個(gè)數(shù)據(jù)記得平均損失,可以很好地解決梯度下降帶來(lái)的計(jì)算問(wèn)題,但是容易帶來(lái)模型不收斂問(wèn)題,同時(shí)使用單個(gè)數(shù)據(jù)點(diǎn)的損失來(lái)衡量平均損失也存在一定的誤差;小批量梯度下降使用一批數(shù)據(jù)來(lái)計(jì)算平均損失,代替整個(gè)數(shù)據(jù)集的平均損失,是計(jì)算速度和計(jì)算準(zhǔn)確性之間的折中方法,因此,本文使用小批量梯度下降進(jìn)行參數(shù)求解。

最終模型的預(yù)測(cè)結(jié)果還與模型各預(yù)設(shè)參數(shù)相關(guān),如學(xué)習(xí)率、batch_size、batch_norm、layer_size、layer_shape等,不同參數(shù)的調(diào)優(yōu)過(guò)程是一個(gè)NP問(wèn)題,一般使用網(wǎng)格搜索來(lái)進(jìn)行最優(yōu)化,根據(jù)各參數(shù)的不同設(shè)定,可以求得模型的AUC值,最終選取擬合效果最好的參數(shù)組合來(lái)構(gòu)建模型如表5。

3.3預(yù)測(cè)結(jié)果檢驗(yàn)與分析

使用網(wǎng)格搜索求得的超參數(shù)組合進(jìn)行模型訓(xùn)練,損失函數(shù)變化圖像如圖1所示。可以看出,在訓(xùn)練的初始階段,損失函數(shù)跳躍嚴(yán)重,無(wú)法收斂,而在經(jīng)過(guò)7000多輪迭代后,損失函數(shù)趨于平緩,最終穩(wěn)定在一個(gè)固定的值附近,代表模型收斂。

訓(xùn)練完畢,使用tensorboard對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行可視化導(dǎo)出,可以看到最終的網(wǎng)絡(luò)構(gòu)架如圖2所示。這表明使用訓(xùn)練好的xDeepFM模型,在測(cè)試集上進(jìn)行預(yù)測(cè),通過(guò)ROC曲線計(jì)算AUC值以及召回率來(lái)衡量模型的擬合優(yōu)度,最終計(jì)算得到AUC為0.8532,召回率為0.9217,模型擬合較好,針對(duì)廣告點(diǎn)擊率預(yù)測(cè)具有實(shí)質(zhì)性作用。

3.4模型優(yōu)化:用戶畫(huà)像系統(tǒng)

已經(jīng)構(gòu)建的xDeepFM模型能夠很好的擬合互聯(lián)網(wǎng)廣告點(diǎn)擊問(wèn)題的特征,同時(shí)可以預(yù)測(cè)用戶對(duì)于不同類型廣告的喜好程度、點(diǎn)擊概率,但是依然存在可優(yōu)化點(diǎn),例如原始特征中“User_id”這一字段為高維稀疏特征(兩千七百萬(wàn)維),xDeepFM無(wú)法處理這一特征,如果直接對(duì)該特征進(jìn)行熱獨(dú)編碼處理、使用,經(jīng)過(guò)DNN模塊的特征交互,會(huì)使得最終學(xué)習(xí)的模型過(guò)于關(guān)注重復(fù)出現(xiàn)的User_id,弱化一般User_id的權(quán)重,在實(shí)際場(chǎng)景中,某個(gè)User_id反復(fù)出現(xiàn)并點(diǎn)擊互聯(lián)網(wǎng)廣告,很可能是刷流量等作弊行為,因此將其視為無(wú)效特征,不予使用。但是,不使用用戶唯一標(biāo)識(shí)特征會(huì)帶來(lái)新的問(wèn)題,這就意味著放棄用戶歷史數(shù)據(jù),也就是放棄xDeepFM模型對(duì)用戶的記憶能力,這在實(shí)際生產(chǎn)環(huán)境中是難以取舍的問(wèn)題,另一方面,不使用用戶標(biāo)識(shí)特征會(huì)帶來(lái)嚴(yán)重的冷啟動(dòng)問(wèn)題。

為解決上述問(wèn)題,考慮使用歷史數(shù)據(jù)構(gòu)建用戶畫(huà)像系統(tǒng),用戶畫(huà)像系統(tǒng)使用用戶歷史行為數(shù)據(jù),如用戶歷史點(diǎn)擊廣告類型、用戶IP位置、點(diǎn)擊終端等特征,可以構(gòu)建性別、年齡、興趣標(biāo)簽,基于用戶畫(huà)像系統(tǒng)的結(jié)果,可以將每一個(gè)User_id映射到對(duì)應(yīng)的用戶類別中,最終作為新的特征添加到模型的輸入變量中,用戶畫(huà)像系統(tǒng)的輸出經(jīng)過(guò)熱獨(dú)編碼處理會(huì)變成低維變量,滿足xDeepFM模型學(xué)習(xí)的基礎(chǔ),不會(huì)帶來(lái)維度災(zāi)難、聚焦問(wèn)題,同時(shí)可以充分使用已有數(shù)據(jù),保留模型對(duì)用戶行為的記憶能力。

用戶畫(huà)像系統(tǒng)可以作用于互聯(lián)網(wǎng)廣告點(diǎn)擊的召回階段,也可以作用于特征生成階段,本文將用戶畫(huà)像應(yīng)用于特征生成階段,衍生出新的特征進(jìn)行后續(xù)學(xué)習(xí),使用用戶畫(huà)像系統(tǒng)后的ROC曲線如圖3所示。根據(jù)模型訓(xùn)練、預(yù)估結(jié)果發(fā)現(xiàn),在相同的訓(xùn)練集、測(cè)試集上,用戶畫(huà)像系統(tǒng)可以使模型性能得到進(jìn)一步提升,主要體現(xiàn)在AUC和Recall上,其中AUC提高5-6個(gè)百分點(diǎn),Recall提高1個(gè)百分點(diǎn)。因此,可以得出結(jié)論:用戶畫(huà)像系統(tǒng)能夠優(yōu)化xDeepFM模型,提高模型的擬合優(yōu)度,從而提升廣告點(diǎn)擊預(yù)測(cè)的準(zhǔn)確率。

4結(jié)論

通過(guò)對(duì)本文所選的互聯(lián)網(wǎng)廣告數(shù)據(jù)的建模分析發(fā)現(xiàn):(1)相對(duì)于其他模型(如邏輯回歸、神經(jīng)網(wǎng)絡(luò)等),xDeepFM模型有其特有的優(yōu)勢(shì);(2)xDeepFM模型中的CIN架構(gòu)可以學(xué)習(xí)數(shù)據(jù)集中的歷史關(guān)系,其中的DNN架構(gòu)可以自動(dòng)化學(xué)習(xí)特征高階(二階及以上)交互關(guān)系,均對(duì)預(yù)估準(zhǔn)確率提升明顯;(3)基于海量用戶數(shù)據(jù)所構(gòu)成的用戶畫(huà)像系統(tǒng),可以完美解決深度模型對(duì)高維稀疏特征的學(xué)習(xí)問(wèn)題,有效緩解過(guò)擬合,提高模型的擬合優(yōu)度,同時(shí)可以提供模型的記憶能力,緩解冷啟動(dòng)問(wèn)題、提高預(yù)估準(zhǔn)確率。

參考文獻(xiàn)

[1] 徐芳,應(yīng)潔茹.國(guó)內(nèi)外用戶畫(huà)像研究綜述[J].圖書(shū)館學(xué)研究,2020(12):7-16.

[2] 王冬羽.基于移動(dòng)互聯(lián)網(wǎng)行為分析的用戶畫(huà)像系統(tǒng)設(shè)計(jì)[D].成都:成都理工大學(xué),2017.

[3] 都藍(lán).基于用戶畫(huà)像的高校圖書(shū)館年度閱讀報(bào)告研究[J].圖書(shū)館雜志,2019,38(4):27-33+40.

[4] 劉冶,劉荻,王硯文,等.基于多源融合特征提取的在線廣告預(yù)測(cè)模型[J].計(jì)算機(jī)工程,2019,45(1):178-185+191.

[5] 吳文偉.基于分布式邏輯回歸模型的廣告點(diǎn)擊率預(yù)估系統(tǒng)[D].北京:北京交通大學(xué),2018.

[6] Rendle S.Factorization Machines[C].Proceedings of the 2010 IEEE International Conference on Data Mining. Washington DC:IEEE Computer Society,2010:995-1000.

[7] Pedro Domingos.A few useful things to know about machine learning[J].Communications of the ACM,2012,

55(10):78-87.

[8] 周永.基于特征學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2014.

[9] 宋益多.基于用戶特征的搜索廣告點(diǎn)擊率預(yù)測(cè)研究[D].哈爾濱:哈爾濱工程大學(xué),2016.

主站蜘蛛池模板: 亚洲天堂777| 国产微拍精品| 国产99视频免费精品是看6| 精品亚洲麻豆1区2区3区| 欧美精品综合视频一区二区| 国产精品极品美女自在线| 爱色欧美亚洲综合图区| 国产内射一区亚洲| 午夜日b视频| 91成人在线观看视频| 日本a∨在线观看| 亚洲一级色| 国产00高中生在线播放| 区国产精品搜索视频| 亚洲欧州色色免费AV| 青青久久91| 911亚洲精品| 色视频国产| 亚洲一级无毛片无码在线免费视频 | 99久久精品美女高潮喷水| 1024你懂的国产精品| 亚洲人成高清| 久久黄色毛片| 欧美日韩亚洲国产主播第一区| 亚洲欧美日韩天堂| 亚洲国产精品久久久久秋霞影院| 91www在线观看| 国产精品美女网站| 高清乱码精品福利在线视频| 国产综合无码一区二区色蜜蜜| 毛片久久网站小视频| 伊人久久青草青青综合| 欧美日韩高清| 人妻丰满熟妇αv无码| 天堂网亚洲系列亚洲系列| 国产打屁股免费区网站| av性天堂网| 91黄色在线观看| 国产一区二区影院| 亚洲aaa视频| 精品国产一区91在线| 欧美午夜一区| 国产精品久久久久久影院| 99久视频| 欧美a在线看| 亚洲一区色| 国产精品无码AV片在线观看播放| 暴力调教一区二区三区| 手机在线看片不卡中文字幕| 欧美综合成人| 国产福利不卡视频| 六月婷婷精品视频在线观看| 青草国产在线视频| 国产va在线观看免费| 1769国产精品视频免费观看| 欧美午夜理伦三级在线观看 | 久久精品只有这里有| 亚洲永久免费网站| 亚洲精品无码AⅤ片青青在线观看| 日本免费新一区视频| 亚洲国产成人超福利久久精品| 亚洲无码不卡网| 国产真实自在自线免费精品| 国产精品综合久久久| 色综合色国产热无码一| 在线精品视频成人网| 激情综合五月网| 午夜丁香婷婷| а∨天堂一区中文字幕| 67194亚洲无码| 国产黄网永久免费| 国产精品精品视频| 人人爽人人爽人人片| 久久香蕉国产线| a免费毛片在线播放| 国产白丝av| 中文字幕欧美日韩高清| 毛片免费在线| 中文字幕亚洲另类天堂| 亚洲精品色AV无码看| jizz亚洲高清在线观看| 欧美.成人.综合在线|