曾旺旺 胡洋 陳俊文 廖澤宇 阮謝林



摘要:作為在線廣告推送中極為重要的環節,準確的點擊率預測(Click-Through Rate,CTR)不僅能提升用戶體驗,更能增加經濟收益,減少資源浪費。目前,基于深度學習的CTR預測模型雖然取得了一定成績,但在高低階特征交互學習方面存在不兼顧、不充分以及模型可解釋性不強等問題。為解決上述問題,文章提出的模型基于壓縮交互網絡對高階交互特征進行顯式學習,增強可解釋性。同時采用ECA-net網絡與雙線性層組合的方式,對一階特征進行加權學習,對二階特征進行更加細粒度的特征交互,實現深度神經網絡學習更細粒度的高階交互特征,兼顧高低階特征學習,獲取更加全面的潛在特征相關性。在Criteo和Avazu兩個公開的大數據集上實驗發現,與已提出的相關模型相比較,新模型在性能方面均有所提升。
關鍵詞:點擊率;高低階特征交互;壓縮交互網絡;細粒度
中圖分類號:TP39文獻標志碼:A
0 引言
2023年1月12日發布的《2022中國互聯網廣告數據報告》顯示,2022年,國內互聯網廣告市場規模已達5 088億元,規模巨大。通過提升廣告點擊率(Click-Through-Rate,CTR)預測模型的準確性,實現更加準確的廣告推送,不僅能大大節約成本,提升廣告商收益,更能夠提升用戶體驗感,有效獲取感興趣廣告。為此,關于提升CTR預測模型準確率問題也引起了業界廣泛研究。
目前,對預測模型的研究可分為基于傳統機器學習的線性模型和基于深度學習的非線性模型。線性模型雖然易于實現、可解釋性強,但無法學習高階交互特征,獲取更加全面的特征間潛在相關性,如邏輯回歸(Logistic Regression, LR)、因子分解機(Factorization Machines, FM)等模型[1-2]。與線性模型相比,非線性模型雖然在性能上有所提升,但在高低階數特征交互方面未做到全面兼顧、對不同一階特征未按重要程度進行區分,導致模型在準確性方面還存在較大的提升空間,如Autoint,MaskNet等模型[3-4]。
1 模型設計及原理
針對現已提出的模型所存在的問題,本文提出了一種兼顧高低階特征學習,能夠顯式地學習高階交互特征,具有較強可解釋性的點擊率預測模型,模型結構如圖1所示。模型主要包括:FM層、Embedding Layer(嵌入層)、Compressed Interaction Network Layer(CIN層)、Effificient Channel Attention Layer(ECA-net層)、Bilinear Interaction Layer(雙線性層)、Combination Layer(全連接層)以及Multilayer Perceptron Layer(多層感知機層)。其中,FM層主要針對每個特征引入一個對應的隱向量,在進行二階特征交互時兩個特征的隱向量進行內積求得交互特征的權重,因此,FM層在面對稀疏特征及冷啟動問題時具有非常好的效果,并且與模型結構圖中右邊部分構成雙塔模型并行聯合訓練,計算公式如下。
2 數據集介紹
針對所提出的預測模型,本文將采用Criteo和Avazu兩個學術界、工業界常用于對CTR模型進行實驗的廣告數據集進行實驗。為能夠更加有效地說明模型在實際應用場景中面對海量數據的情況,本文將采用上述兩個數據集的全部數據用于實驗。其中,Criteo數據集包含26個脫敏分類特征、13個連續數值特征,共計約4 500萬條真實用戶數據。在實驗過程中分為兩部分,其中,90%用訓練、10%用于測試;Avazu數據集包含24個特征,共計4 000萬條真實用戶數據,其中,80%用訓練、20%用于測試。
3 實驗參數設置與分析
3.1 參數設置
本實驗硬件設備中處理器使用的是Intel(R) Xeon(R) platinum 8350C CPU @2.60 GHz,顯卡是RTX A5000(24 G),運行內存43 GB。實驗模型在Python 3.8下進行編程,在PyTorch 1.9.0版本下的深度學習框架進行實驗。對于所有的對比模型中具有相同網絡結構的將采用統一參數,其中,多層感知機層網絡層數均為3,每層間的激活函數為ReLu,學習率為0.001,優化器采用Adma。由于采用的數據集較大,在訓練過程中Criteo數據集batch-size設置為10 000,Avazu數據集batch-size設置為5 000。
3.2 實驗分析
實驗將從基于淺層模型情況下與基于深層模型下的實驗結果兩個方面進行分析。
3.2.1 淺層模型性能對比
本節將所提出的模型在消去多層感知機層后作為CTR淺層模型與LR,FM,AFM等淺層模型(Low-order Model)進行對比,結果如表1所示。
在CTR預測領域中,AUC值提升0.001也是非常具有價值的,在實際應用場景中面對海量數據將帶來巨大經濟效益[5-6]。從表1中可以發現,在Criteo數據中本文所提出的模型在淺層模型(Ours-sh)下的性能比其他淺層模型的性能都要好。
3.2.2 深層模型性能對比
為進一步說明模型在深層網絡下的效果,本文所提出的模型將與其他基于深度神經網絡下所提出的深層模型(High-order Model)進行比較,結果如表2所示。
從表1、表2的實驗結果可以發現,本文所提出的模型無論是在淺層模型下還是在深層模型下,性能都要比其他對比模型性能要好。這表明本文所提的雙塔加雙線并行訓練的模型在提升模型性能方面是有效的,CIN層與ECA-net、雙線性層及多層感知機所構成的雙線訓練分支在提取高階特征的潛在相關性方面具有一定的效果。
4 結語
為進一步提升CTR預測模型的準確性,本文所提出的預測模型在關注一階特征重要性的基礎上細化特征粒度,通過顯隱性高階特征并行學習的方式學習更加全面、細微的特征間的關聯性。實驗證明,該模型在預測在線廣告是否被點擊的準確性等方面有較好的表現。
參考文獻
[1]KUMAR R,NAIK S M,NAIK V D,et al.Predicting clicks:CTR estimation of advertisements using logistic regression classifier:Advance Computing Conference[C].New York,NY:IEEE,2015.
[2]RENDLE S.Factorization machines:2010 IEEE International Conference on Data Mining[C].New York,NY:IEEE,2010.
[3]SONG W,SHI C,XIAO Z,et al.Autoint:automatic feature interaction learning via self-attentive neural networks:Proceedings of the 28th ACM International Conference on Information and Knowledge Management[C].New York,NY:ACM,2019.
[4]WANG Z Q,SHE Q Y,ZHANG J L.MaskNet:introducing feature-wise multiplication to CTR ranking models by instance-guided mask[J].ArXiv,2021:2102.07619.
[5]HUANG T,ZHANG Z,ZHANG J.FiBiNET:combining feature importance and bilinear feature interaction for click-through rate prediction:Proceedings of the 13th ACM Conference on Recommender Systems[C].New York,NY:ACM,2019.
[6]蔣興渝,黃賢英,陳雨晶,等.特征重要性動態提取的廣告點擊率預測模型[J].小型微型計算機系統,2022(5):976-984.
(編輯沈 強)