999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力交叉的點擊率預測算法

2021-12-14 01:28:42杜博亞楊衛(wèi)東
計算機應用與軟件 2021年12期
關鍵詞:特征模型

杜博亞 楊衛(wèi)東

(復旦大學計算機科學與技術系 上海 201203)

0 引 言

點擊率(CTR)預測在推薦系統(tǒng)中至關重要。用戶在電商頁面上點擊推薦的商品,意味著推薦信息與用戶偏好和需求之間存在一定的相關性。利用這種相關性數據建立點擊率預測模型,如果直接使用原始商品特征和用戶行為特征,往往難以奏效。因此,數據科學家通常會花費大量精力研究和實施面向推薦算法的特征工程,以期得到最佳點擊率預估模型,其中一種主要手段即為特征組合的方法[1]。組合特征也稱交叉特征,例如:一個三維組合特征“AND(組織=復旦,性別=男,研究方向=機器學習)”的值為1,即表示用戶所屬組織為復旦,性別為男且研究方向為機器學習方向。

傳統(tǒng)的特征組合方法主要有三個缺點。首先,由于高效組合特征往往依賴于具體業(yè)務場景,數據科學家需要花費大量時間從產品數據中探索特征的潛在組成模式,然后才能提取出有意義的交叉特征,因此獲取高質量的組合特征需要很高的人力成本;其次,在現實點擊率預估場景中,原始特征經過編碼后往往可以達到上億維度,這使得手動特征組合變得不可行;最后,人工特征工程難以挖掘出隱藏的交叉特征,限制了推薦系統(tǒng)的個性化程度。因此,利用模型自動提取出高效的組合特征是一項十分有意義的工作。

對于特征組合方式,其中FM[2]將每個特征i映射到一個隱因子向量Vi=[vi1,vi2,…,viD],組合特征通過隱因子兩兩內積進行交叉:f(2)(i,j)=xixj。雖然經典的FM模型也可以擴展到任意高階[3],但其暴力擴展方式使得組合特征中包含大量無用、冗余特征,這些冗余特征的加入會降低點擊率預估模型的精度[4]。近年來,深度神經網絡(DNN)以其功能強大的特征表征能力在計算機視覺、語音識別和自然語言處理領域取得了巨大成功,利用DNN來提取高階特征組合已經在業(yè)界得到廣泛應用。Zhang等[5]提出了Factorisation-machine supported Neural Network(FNN)來學習高階特征交互,使用FM的隱層向量作為用戶和物料的Embedding,從而避免了完全從隨機狀態(tài)訓練嵌入矩陣,大大降低了模型的訓練時間和Embedding的不穩(wěn)定性。Qu等[6]進一步提出了Product-based Neural Network(PNN),其在嵌入層和全連接層之間加入了Product層完成針對性的特征交叉,增強了模型表征不同數據模式的能力。FNN和PNN的主要缺點是它們更多地關注高階交叉特征,而挖掘的低階交叉特征卻很少。Wide&Deep[1]和DeepFM[7]模型通過引入混合網絡結構克服了這個問題,該網絡結構包含Wide層和Deep層,目的是同時對數據進行“記憶”和“泛化”,其分別對應特征的低階和高階交互。

上述模型都使用DNN來學習高階特征交互。然而,由于DNN模型是以隱式方式提取高階組合特征,目前并未有理論證明其表征特征對應組合階數。此外,DNN學習到的非線性組合特征的含義難以解釋。因此,本文提出一種基于注意力機制的顯式特征交叉模型,實現Bit-wise級別的特征交叉,利用Attention機制對組合特征進行賦權,消除了暴力組合方式帶來冗余特征的影響。本文方法基于Deep & Cross Network(DCN)[8],但傳統(tǒng)的DCN只能通過交叉網絡進行暴力顯式特征組合,不能區(qū)分各組合特征的重要性,這些特征中不僅包含了有效交叉特征,也同時涵蓋了大量冗余特征,其限制了最終的點擊率預估模型表現。

本文設計一種全新的Attention Cross Network(ACN)用于各階顯式特征自動篩選,ACN實現了自動提取指定階Bit-wise級顯式特征組合。同時,該網絡巧妙地運用了矩陣映射,使得模型空間復雜度隨網絡深度線性增長,大大降低了模型上線的負擔。然而,受限于ACN網絡參數規(guī)模的限制,保留了DNN用于隱式高階特征組合作為模型補充,整個模型以并行網絡結構組織。本文模型不再需要人工特征工程,可自動實現特征組合、抽取,完成端到端模型訓練。

1 注意力交叉網絡結構

DACN整體網絡一共由五部分組成,分別為輸入層、嵌入層、Attention Cross Network、DNN和輸出層,其整體網絡結構如圖1所示。

圖1 DACN模型結構

圖1中,稀疏特征經過嵌入層映射為Embedding,然后與稠密特征進行堆疊,分別傳給ACN、DNN用于顯式特征、隱式特征提取,將提取特征傳送給輸出神經元完成點擊率預估。

1.1 嵌入層和堆疊層

網絡結構的輸入特征主要包含數值型特征和類別型特征,而在實際的CTR預估場景中,輸入主要是類別型特征,如“國家=中國”。這類特征通常需要進行One-hot編碼,如“[0,1,0]”,當對ID類特征進行One-hot編碼時,往往會造成嵌入空間的向量維度過大。

為了降低編碼導致的特征稀疏性,使用嵌入層將稀疏類特征轉換為向量空間的稠密向量(通常稱為嵌入向量):

xembed,i=Wembed,ixi

(1)

式中:xembed,i是嵌入向量;xi是第i類的二進制輸入;Wembed,i∈Rne×nv是將與網絡中的其他參數一起進行優(yōu)化的嵌入矩陣;ne和nv分別是輸入維度和嵌入向量維度。映射邏輯如圖2所示。

圖2 嵌入層網絡結構

最后,將嵌入向量以及歸一化的稠密特征xdense堆疊到一個向量中:

(2)

將堆疊后的向量x0傳入ACN網絡進行顯式特征提取,傳入DNN進行隱式特征提取,完成CTR預估。

1.2 注意力交叉網絡

本文的注意力交叉網絡核心思想是利用交叉網絡完成Bit-wise級特征高階交叉,利用注意力機制完成顯式特征提取。其主體架構如圖3所示。

圖3 注意力交叉網絡結構

注意力交叉網絡主要包含輸入層、交叉層、注意力層和輸出層。其中,輸入層完成從稀疏特征到稠密特征的嵌入,交叉層完成指定階顯式特征交叉,注意力層完成組合特征賦權。三者聯(lián)立完成特征自動組合、交叉和篩選,最后傳遞給輸出神經元進行點擊率預測。

1.2.1交叉層

交叉層旨在以一種高效的方式進行顯式特征組合。其中,每一層的神經元數量都相同且等于輸入向量x0的維度,每一層都符合式(3),其中函數f擬合的是指定階顯式特征組合。

(3)

式中:Xl,Xl+1∈Rd是列向量,分別表示來自第l層和第l+1層交叉層輸出;Wl,Bl∈Rd是第l層的權重和偏差。圖4給出了一個交叉層的計算操作示例。

圖4 交叉層網絡結構

從圖4中矩陣和向量運算不難發(fā)現,其輸入、輸出結果始終保持長度為d,保證了交叉網絡單層空間復雜度為O(d)。同時,交叉網絡的參數規(guī)模也限制了模型的顯式特征表達能力。為了捕獲高度非線性的交互特征,需要引入并行的DNN網絡。

1.2.2注意力層

注意力機制的核心思想為:當把不同的部分壓縮在一起的時候,讓不同部分的貢獻程度不一樣。ACN通過在交叉層后接一個單隱層全連接神經網絡來學習組合特征權重,從而實現特征自動提取。

對于注意力權重,ACN采用一個Attention network來學習組合特征權重,Attention network采用單隱層的全連接神經網絡,激活函數使用ReLU,網絡大小用注意力因子表示。注意力網絡的輸入是完成指定階特征交叉之后的d維向量,輸出是組合特征對應的注意力得分。最后,使用Softmax對得到的注意力分數進行規(guī)范化,其計算公式邏輯如下:

(4)

(5)

式中:W∈Rt×d,b∈Rt,h∈Rt是模型參數。注意力分數通過Softmax進行標準化,用于加速參數學習。注意力層輸出是d維矢向量,對應各階特征系數。

因此,ACN網絡的輸出計算式如下:

(6)

(7)

式中:ai是注意力權重,表示不同組合特征對最終預測函數的貢獻程度。不難看出,對于交叉網絡的顯式組合特征,通過注意力機制實現組合項的動態(tài)加權,更高效地利用了組合特征,并消除了冗余特征對點擊率預測模型的影響。

1.3 多層感知機

注意力交叉網絡的參數規(guī)模限制了模型顯式特征提取能力,為了獲得高階非線性的組合特征,本文并行引入了多層感知機,其網絡結構如圖5所示。

圖5 多層感知機結構

該網絡是一個全連接前饋神經網絡,各層計算邏輯如下:

Hl+1=f(WlHl+Bl)

(8)

式中:Hl+1表示隱藏層;f(·)是ReLU函數,通過全連接方式進行網絡構建,用于隱式高階特征提取。

1.4 輸出層

輸出層將注意力交叉網絡和多層感知機的輸出傳給標準Logits層,進行點擊率預估,點擊率預估公式為:

(9)

式中:XL1∈Rd,HL2∈Rm分別是ACN和DNN的輸出;Wlogits∈R(d+m)是輸出層的權重向量;σ=1/(1+exp(-x))。損失函數為帶正則項的對數損失函數:

(10)

式中:pi為點擊率預估模型輸出;yi為樣本對應標簽;N為訓練樣本數;λ為L2正則項系數。通過對數損失函數進行誤差反傳直至收斂,完成模型訓練。

2 注意力交叉網絡分析

本節(jié)在理論層面對ACN做有效性分析,論述其進行顯式特征交互的理論依據,并對ACN網絡的空間復雜度進行分析。

2.1 多項式近似

根據Weierstrass逼近定理[9],在特定平滑假設下任意函數都可以被一個多項式以任意的精度逼近,因此可以從多項式近似的角度分析交叉網絡。對于d元n階多項式,其表達式如下:

(11)

多項式參數量為O(dn),而ACN只需要O(d)參數量就可以生成同階多項式中出現的所有交叉項。

(12)

然而,正是受限于ACN的參數規(guī)模,其模型特征表征能力受限,為了提取高階非線性組合特征,本文并行引入了DNN。

2.2 因子分解機泛化

ACN本質是對FM模型的進一步推廣,從特征顯式二階交互到高階交互。

2.3 空間復雜度

對于ACN,假設Lc表示ACN層數,d表示輸入向量x0的維度,Attention網絡隱層神經元數量為m,則l層的交叉網絡組成了x1,x2,…,xd在l+1階的所有特征組合,對應ACN的參數數目為(d×Lc+d×m)×2。

對于交叉網絡,每一層的參數向量W和b都是d維,所以交叉層參數數量為d×Lc×2,而注意力網絡為單隱層全連接神經網絡,輸入輸出均是長度為d的向量,對應參數數量為d×m×2。

ACN網絡空間復雜度是輸入維度d的線性函數,所以相比于DNN,ACN引入的復雜度微不足道,這樣就保證了整體網絡DACN的復雜度和DNN同屬一個數量級。

3 實 驗

3.1 實驗設置

3.1.1實驗數據集

在以下兩個數據集上評估DACN的有效性和效率。

(1) Criteo數據集[10]。Criteo數據集包含4 500萬用戶的點擊記錄,共13個連續(xù)特征和26個分類特征。為方便訓練,從中隨機抽取2 000萬條數據集分為兩部分,其中90%用于訓練,其余10%用于測試。

(2) MovieLens數據集[11]。MovieLens數據包含13萬用戶對2萬多部電影的評分記錄,共21個特征,約2 000萬條評分數據。為了使其適用于CTR預測場景,本文將其轉換為二分類數據集,電影的原始用戶評分是從0到5的離散值,本文將標有4和5的樣本標記為正,其余標記為負樣本。

根據用戶ID從中隨機選取13萬用戶,將數據劃分為訓練和測試數據集,隨機抽取10萬用戶作為訓練集(約1 447萬個樣本),其余3萬用戶作為測試集(約502萬個樣本),則任務是根據用戶歷史行為來預測該用戶是否會對指定電影評分高于3(正標簽)。

3.1.2評估指標

使用AUC(ROC曲線下的面積)和Logloss(交叉熵)兩個指標進行模型評估,這兩個指標從不同層面評估了模型的表現。

(1) AUC。AUC衡量模型對正負樣本的排序能力,表示隨機從樣本中抽取一對正負樣本,其中正樣本比負樣本排名要高的概率。此外,AUC對樣本類別是否均衡并不敏感。(2) Logloss。Logloss衡量各樣本預測值與真實值之差。廣告系統(tǒng)往往更依賴Logloss,因為需要使用預測的概率來估算排序策略的收益(通常將其調整為CTR×出價)。

3.1.3對比模型

實驗將DACN與LR(Logistic Regression)[12]、DNN、FM(Factorization Machines)[2]、Wide & Deep[1]、DCN(Deep & Cross Network)[8]和DeepFM[7]進行對比。

如前文所述,這些模型與DACN高度相關,是目前主流且經過工業(yè)界驗證的點擊率預估模型。因DACN旨在通過模型提取特征組合,為控制變量,本文將不對原始特征進行任何人工特征工程。

3.1.4參數設置

1) DACN模型參數設置。本文在TensorFlow上實現DACN。對稠密型特征使用對數變換進行數據標準化;對類別型特征,將特征嵌入到長度為6×dimension1/4的稠密向量中;使用Adam[13]優(yōu)化器,采用Mini-batch隨機梯度下降,其中Batch大小設置為512,DNN網絡設置Batch normalization[14]。

2) 對比模型參數設置。對于對比模型,遵循PNN[6]中針對FNN和PNN的參數設置。其中,DNN模塊設置了Dropout為0.5,網絡結構設置為400- 400- 400,優(yōu)化算法采用基于Adam的Mini-batch梯度下降,激活函數統(tǒng)一使用ReLU,FM的嵌入維度設置為10,模型其余部分設置與DACN一致。

3.2 實驗對比

3.2.1單模型表現對比

各單模型在兩公開數據集表現如表1所示。對比模型中,FM顯式度量2階特征交互,DNN建模隱式高階特征交互,Cross Network建模顯式高階特征交互,而ACN建模顯式高階特征交互并自帶特征篩選。

實驗表明,本文所提的ACN始終優(yōu)于其他對比模型。一方面,對于實際的數據集,稀疏特征上的高階交互是必要的,這一點從DNN、Cross Network和ACN在上述兩個數據集上均明顯優(yōu)于FM得到證明;另一方面,ACN是最佳的個體模型,驗證了ACN在建模顯式高階特征交互方面的有效性。

3.2.2集成模型表現對比

DACN將ACN和DNN集成到端到端網絡結構中。其中ACN用于顯式組合特征提取及篩選,DNN用于隱式組合特征提取,通過兩者并行聯(lián)立,以期最大程度地進行特征表征。比較了DACN與目前主流CTR預估模型在兩公開數據集上的表現,結果如表2所示。

表2 集成網絡結果對比

續(xù)表2

可以看出,LR比所有其他模型都差,這表明基于因子分解的模型對于建模稀疏類交互特征至關重要;而Wide&Deep、DCN和DeepFM則明顯優(yōu)于DNN,表明DNN隱式特征提取能力比較受限,通常需要借助人工特征工程彌補特征組合能力不足的短板。其次,DACN相比于DCN指標提升明顯。前文已從理論角度論證了DACN相較DCN的優(yōu)勢,通過添加Attention網絡結構實現各指定階組合特征篩選,提升重要組合特征權重,消除冗余特征影響。實驗結果證明,該結構可有效地實現特征篩選,對整體模型表現具有較大提升。

最后,本文所提的DACN網絡在兩個公開數據集上均實現了最佳性能,這表明將顯式和隱式高階特征聯(lián)立,對原始特征表征更充分。同時,實驗結果也驗證了使用ACN進行指定階顯式特征組合對最終模型表現具有很大提升,從側面驗證了該結構的合理性。

3.2.3網絡參數數量對比

考慮到ACN引入的額外參數,在Criteo數據集上對ACN、CrossNet及DNN進行了對比,比較各模型實現最佳對數損失閾值所需的最少參數數量,因為各模型嵌入矩陣參數數量相等,在參數數量計算中省略了嵌入層中的參數數量,實驗結果如表3所示。

表3 相同對數損失對應最少參數量

從實驗結果不難看出,ACN和Cross Network的存儲效率比DNN高出近一個數量級,主要原因是共有的特征交叉結構實現以線性空間復雜度完成指定階特征交互。

此外,ACN與Cross Network參數量都屬同一數量級,ACN引入的Attention網絡只包含一個隱層,所需參數數量可近似忽略,但對模型點擊率預測精度具有較大提升。

4 結 語

識別有效的特征組合已成為目前主流點擊率預測模型成功的關鍵,現有方法往往借助暴力枚舉或隱式DNN提取進行特征組合,其中摻雜了大量無用、冗余特征,限制了點擊率預測模型的表現。本文提出的注意力交叉網絡DACN可以同時進行顯示特征交叉和隱式特征提取,其Attention結構自動依據特征重要性完成特征篩選,有效地降低了冗余特征帶來的影響。實驗結果表明,就模型準確性和參數使用量而言,DACN都優(yōu)于目前主流點擊率預測模型。

未來將進一步探索注意力交叉網絡作為顯式特征交叉模塊在其他領域的使用效果。此外,當前DACN的顯式特征組合粒度較粗,如何在保證模型空間復雜度隨網絡層數線性增長的前提下進一步挖掘細粒度組合特征將作為研究工作的下一個目標。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲性日韩精品一区二区| 国产JIZzJIzz视频全部免费| 免费jizz在线播放| 久久精品国产精品青草app| 亚洲欧美综合在线观看| 一区二区理伦视频| 一级全免费视频播放| 伊人久久大线影院首页| 青青极品在线| 一级毛片免费观看不卡视频| 成人免费黄色小视频| 精品人妻一区二区三区蜜桃AⅤ| 国产精品嫩草影院av| 国产亚洲高清视频| 91精品啪在线观看国产| 国内自拍久第一页| 91青青在线视频| 99久久99视频| 国产精品午夜福利麻豆| 香蕉综合在线视频91| 国产91精品久久| 久久精品无码中文字幕| 72种姿势欧美久久久大黄蕉| 亚洲最大看欧美片网站地址| 欧美有码在线观看| 日韩精品久久无码中文字幕色欲| 国产精品jizz在线观看软件| 国产91九色在线播放| 国产精品微拍| 欧美成人一级| 欧美色丁香| 国产精品片在线观看手机版 | 福利视频一区| 99视频在线观看免费| 久久精品国产在热久久2019 | 欧美翘臀一区二区三区| 国产一国产一有一级毛片视频| 日韩A∨精品日韩精品无码| 日本不卡在线视频| 中文字幕亚洲精品2页| 波多野结衣第一页| 欧美午夜小视频| 国产成人精品优优av| 欧洲成人在线观看| 亚洲制服丝袜第一页| 亚洲乱码在线播放| 伊人中文网| 亚洲成A人V欧美综合| 99热亚洲精品6码| 五月天婷婷网亚洲综合在线| 欧美国产日韩在线播放| 99福利视频导航| 一本无码在线观看| 国产男人天堂| 欧美一区精品| 999国产精品| 亚洲天堂日韩av电影| 色欲不卡无码一区二区| 国产福利免费视频| 国产第一页第二页| 欧美天堂在线| 国产女人水多毛片18| 福利在线一区| 国产精品区视频中文字幕 | 色哟哟精品无码网站在线播放视频| 另类专区亚洲| 91视频99| 国产精品久久自在自2021| 91九色国产porny| 亚洲中文字幕久久精品无码一区| 在线a视频免费观看| av无码久久精品| 韩日午夜在线资源一区二区| 91麻豆国产精品91久久久| 日韩av高清无码一区二区三区| 精品人妻无码中字系列| 亚洲日韩第九十九页| 国产精品露脸视频| 亚洲 欧美 日韩综合一区| 波多野吉衣一区二区三区av| 国产欧美日韩综合在线第一| 亚洲成人黄色网址|