999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征融合與分發(fā)的多專家并行推薦算法框架

2023-08-25 08:05:22楊哲葛洪偉李婷
浙江大學學報(工學版) 2023年7期
關(guān)鍵詞:關(guān)聯(lián)特征融合

楊哲,葛洪偉,李婷

(1.江南大學 人工智能與計算機學院,江蘇 無錫 214122;2.江蘇省模式識別與計算智能工程實驗室,江蘇 無錫 214122)

點擊率預測(click-through rate, CTR)任務(wù)是預測用戶點擊廣告的概率,在工業(yè)應用中十分重要,比如推薦系統(tǒng)或在線廣告.模型的性能和預測結(jié)果與廣告商利潤有著最直接的關(guān)聯(lián),對后續(xù)下游任務(wù)比如推薦排序算法、重排算法和廣告替換等決策有著重要的參考意義.

當前CTR模型中存在以下3個問題.1)Embedding占用資源及計算耗費較高,Embedding可以將原始高度稀疏的輸入數(shù)據(jù)映射到低維密集空間中,大型數(shù)據(jù)集中每個特征的非重復值數(shù)量為千萬級別,Embedding維度設(shè)置過高會導致占用很大的內(nèi)存或顯存資源,導致計算耗費昂貴.2)并行架構(gòu)Embedding輸入部分參數(shù)過度共享,導致輸入到并行架構(gòu)中的特征信息無任何可分辨性.對于不同的特征建模方式,關(guān)注的特征信息不同,因此不是所有特征對該建模方式有意義[1].并行架構(gòu)的Embedding輸入部分應該有所區(qū)分,要訓練出更匹配建模方式的特征輸入.3)并行架構(gòu)子網(wǎng)絡(luò)部分參數(shù)共享不足.顯式建模和隱式建模部分獨立計算,這2個部分只有在最后計算結(jié)束的時候才會進行信息融合.Hu等[2]的研究表明,并行架構(gòu)計算部分因缺乏共享參數(shù)而無法捕捉不同特征語義的相關(guān)性,在反向傳播期間容易出現(xiàn)梯度較陡的情況.

本研究提出輕量級且高性能的多專家并行推薦算法框架(mixture of experts for parallel recommendation algorithm framework, ME-PRAF),其核心組件為Fusion模塊和Broker模塊.Fusion模塊用于在顯式建模層和隱式建模層之間建立連接,融合顯式特征和隱式特征的關(guān)聯(lián)信息,解決參數(shù)共享不足的問題.Broker模塊用于學習表現(xiàn)力更強的低維度Embedding輸入,分別為顯式建模層和隱式建模層訓練具有分辨性和個性化的特征信息,解決參數(shù)過度共享的問題.由于Fusion模塊與Broker模塊的輕量級和高性能特性,在3個公共數(shù)據(jù)集上的大量實驗結(jié)果表明,利用該算法框架,能夠有效地提高SOTA并行架構(gòu)算法模型的性能.

1 相關(guān)工作

1.1 并行架構(gòu)與串行架構(gòu)

在研究早期,學者們通常手工刻畫所有特征,導致模型過擬合很難泛化[3].使用線性模型、支持向量機及因子分解機[4]等方法訓練CTR模型,但是都只能建模低階特征信息.大規(guī)模數(shù)據(jù)集都隱含用戶和用戶、用戶和物品以及物品與物品之間的高階特征關(guān)聯(lián)[5],因此有必要對數(shù)據(jù)集中的高階特征關(guān)聯(lián)建模[6].近年來,學者提出眾多深度神經(jīng)網(wǎng)絡(luò)來建模高階特征關(guān)聯(lián),以端到端的方式捕捉特征信息,無須繁瑣地手動刻畫特征.大部分模型使用多層感知機(multilayer perception, MLP)建模隱式高階特征關(guān)聯(lián).Beutel等[7]的研究表明,MLP在建模2階或3階特征時的交叉效果較差,且隱式建模的方式導致模型的可解釋性較差,因此大部分CTR算法將顯式建模和隱式建模2個模塊搭配使用.根據(jù)2個模塊不同的組織方式,可以分為串行架構(gòu)和并行架構(gòu).如圖1所示,串行架構(gòu)是顯式建模網(wǎng)絡(luò)后連接隱式建模網(wǎng)絡(luò),PIN[8]、DIN[9]和DIEN[10]等算法屬于這種架構(gòu);并行架構(gòu)中,兩者獨立進行計算,最終將兩者輸出融合,比如算法模型DCN[11]、AutoInt+[12]和DCN-v2[6]等.在實際的工業(yè)生產(chǎn)環(huán)境中,通常使用多GPU進行訓練,并行架構(gòu)能夠充分利用多GPU資源,相比于串行架構(gòu)可以節(jié)約訓練時間,因此本文主要關(guān)注對并行架構(gòu)的優(yōu)化.

圖1 串行架構(gòu)和并行架構(gòu)的示意圖Fig.1 Illustration of sequential and parallel architecture

1.2 特征關(guān)聯(lián)

如何有效建模特征關(guān)聯(lián)是CTR任務(wù)的關(guān)鍵,同時利用顯式特征和隱式特征是當前主流CTR模型的核心思想.根據(jù)處理顯式特征和隱式特征的模塊組織方式不同,分為串行架構(gòu)和并行架構(gòu).本文只關(guān)注并行架構(gòu),眾多CTR模型中都是使用MLP來建模隱式特征關(guān)聯(lián),因此不作過多詳述.Cheng等[3]提出DeepFM算法,通過因子分解機學習低階顯式特征關(guān)聯(lián),但只能學習二階顯式特征關(guān)聯(lián),無法捕捉更高階信息.DCN[11]算法使用特征交叉網(wǎng)絡(luò)顯式建模有限階特征關(guān)聯(lián),計算更高效.DeepFM[13]使用壓縮感知層,以vector-wise的方式進行特征交叉,但參數(shù)量大且計算復雜度高.

AutoInt+[12]使用多頭自注意力機制構(gòu)建顯式特征關(guān)聯(lián),訓練后的注意力權(quán)重矩陣具有較好的模型可解釋性.DCN-v2[6]使用權(quán)重矩陣替換DCN中的權(quán)重向量,可以捕捉不同語義子空間下的特征關(guān)聯(lián).

1.3 并行架構(gòu)的優(yōu)化

學者們對并行架構(gòu)提出很多優(yōu)化方案.在多模態(tài)訓練任務(wù)中,針對模型只對淺層和輸出層進行特征融合的問題,DMF[2]算法使用并行架構(gòu)中的每一層都進行特征融合,用于捕捉不同模態(tài)任務(wù)之間的關(guān)聯(lián)程度,充分挖掘不同任務(wù)之間的特征關(guān)聯(lián)信息.對于并行架構(gòu)中只能手工選取輸入特征的問題,AutoFeature[1]使用自動尋找重要特征關(guān)聯(lián)的方法,為模型輸入選取具有側(cè)重點的特征信息,忽略次要冗余的特征信息.GateNet[14]使用Embedding Gate選取重要潛在特征信息,通過使用Hidden Gate,可以使MLP自適應選取隱式特征傳給下一層,但對并行架構(gòu)輸入是無差別的.EDCN[15]使用bridge和regulation模塊解決參數(shù)共享的問題,regulation模塊使用門控網(wǎng)絡(luò)為并行架構(gòu)學習不同特征的輸入,但是只提供一種解決方案,無法捕捉單一特征在不同情況下的多語義信息,因此實驗效果不理想.在多任務(wù)模型中,多門多專家系統(tǒng)(multi-gate mixture of experts, MMoE)[16]通過學習不同任務(wù)之間的聯(lián)系和差異來提高模型質(zhì)量,使用門控網(wǎng)絡(luò)學習多個任務(wù)之間的關(guān)聯(lián),最大化各種策略對模型的提升價值.本文使用MMoE對CTR任務(wù)進行更細粒度的劃分,提出ME-PRAF框架來學習不同建模任務(wù)之間的關(guān)聯(lián),訓練性能更高的推薦算法模型,ME-PRAF整體網(wǎng)絡(luò)架構(gòu)如圖2所示.

圖2 多專家并行推薦算法框架的整體示意圖Fig.2 Illustration overall architecture diagram of ME-PRAF

2 ME-PRAF框架

2.1 輸入層和Embedding層

輸入層將用戶屬性和物品屬性聚合,把所有特征拼接后組成高維稀疏向量:

式中:h為特征的數(shù)量,ei∈Rvi表示第i個特征.如果ei是類別型數(shù)據(jù),則為one-hot向量;如果是數(shù)值型數(shù)據(jù),則為標量.

由于類別型特征非常稀疏而且維度較高,常見的處理方式是使用Embedding,將高維稀疏的特征映射到低維密集的空間中.對于輸入數(shù)據(jù)中的每個類別型特征,使用低維向量進行表示:

對于數(shù)值型特征,直接取原數(shù)值,將所有的特征拼接起來得到:

式中:xembed,i∈Rui為第i個類別型特征對應的低維Embedding向量,xnum,j為第j個數(shù)值型特征標量;Wembed,i∈Rui×vi為可訓練的映射權(quán)重矩陣,其中ui?vi;最終Embedding層輸出為x0∈Rd.若類別型特征是多值變量,則取所有對應Embedding向量的平均值作為最終向量.

對于基于注意力機制的模型,由于需要訓練不同特征之間的注意力權(quán)重矩陣,須對數(shù)值型特征進行進一步的處理,將其從標量轉(zhuǎn)為與類別型特征相同維度的向量:

式中:vnum,j為對第j個數(shù)值型特征的可訓練映射權(quán)重向量,ej為第j個數(shù)值型特征標量.

2.2 Fusion模塊

在當前現(xiàn)存的推薦算法并行架構(gòu)中,主流深度CTR模型使用2個子網(wǎng)絡(luò),分別對顯式特征關(guān)聯(lián)和隱式特征關(guān)聯(lián)進行建模.2個網(wǎng)絡(luò)之間獨立進行訓練,只在2個子網(wǎng)絡(luò)輸出層進行特征融合.這種特征融合策略只能捕捉語義級別的關(guān)聯(lián),無法捕捉中間層顯式特征和隱式特征之間的關(guān)聯(lián).在2個獨立子網(wǎng)絡(luò)反向傳播期間,會存在梯度較高、導致模型過擬合的問題,這是導致模型性能變差的原因之一.在人體大腦結(jié)構(gòu)中,生物認知科學家發(fā)現(xiàn)多器官感知不僅存在于大腦顳葉,而且存在于額葉和頂葉中[17].這意味著信息融合應該在信息處理中間階段開展,用于捕捉不同特征類型之間更復雜的關(guān)聯(lián).

為了解決上述問題,使用密集融合(dense fusion)的策略構(gòu)建Fusion模塊.對2個獨立子網(wǎng)絡(luò)中的每一層輸出進行信息融合,充分捕捉顯式特征和隱式特征之間的關(guān)聯(lián),緩和反向傳播期間的梯度.

在ME-PRAF中,令xl和hl分別表示第l層顯式建模層和隱式建模層的輸出,使用αl=f(xl,hl)表示Fusion模塊的輸出,其中f(·):Rd×Rd→Rd′表示對于顯式特征和隱式特征融合方式,對輸入的要求是兩者維度相同.提出使用以下3種融合方式.

1)拼接.使用最簡單的融合方式,將顯式建模層和隱式建模層每一層的輸出直接進行拼接:

2)按位加.將2個相同維度的向量進行加法計算:

3)Hardmard積.將2個相同維度的向量對應元素進行乘法計算:

Fusion模塊用于融合同一層顯式特征和隱式特征之間的層級關(guān)聯(lián),當多個Fusion模塊疊加時能夠融合不同層之間更復雜的關(guān)聯(lián)信息,極大改善了并行架構(gòu)中參數(shù)共享不足的問題.3種融合方式的對比在3.6節(jié)的實驗中給出.

2.3 Broker模塊

在現(xiàn)存的并行架構(gòu)CTR模型中,使用完全一致的Embedding作為輸入進行計算,然而不同建模方式對特征信息的關(guān)注點不同,應該采取因地制宜的策略.DCN-v2中交叉網(wǎng)絡(luò)是通過顯式建模的方式來高效捕捉有限階特征關(guān)聯(lián),MLP網(wǎng)絡(luò)是用來建模高階隱式特征.2種方式對特征建模的角度不同,為不同的子網(wǎng)絡(luò)學習具有可分辨性的特征輸入.

受到MMoE中多任務(wù)學習的啟發(fā),將CTR任務(wù)進行更細粒度、更精細化的劃分,提出使用Broker模塊對模型中的子網(wǎng)絡(luò)訓練專有的特征輸入.如圖3所示為Broker模塊的內(nèi)部結(jié)構(gòu).根據(jù)使用場景的不同,Broker模塊分為Embedding Broker和Feature Broker.前者用于解決模型輸入?yún)?shù)過度共享的問題,為并行架構(gòu)中不同子網(wǎng)絡(luò)學習更具有分辨性的、個性化的特征輸入.后者用于配合Fusion模塊,對融合后的數(shù)據(jù)進行訓練并且拆分為2個數(shù)據(jù)流,為子網(wǎng)絡(luò)下一層提供個性化的輸入,捕捉顯式特征和隱式特征之間的關(guān)聯(lián),多層疊加還可以學習高階和低階特征之間的關(guān)聯(lián).

圖3 Broker模塊的內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of Broker module

設(shè)置2個獨立的門控網(wǎng)絡(luò),分別對應2個細粒度的任務(wù):建模顯式特征關(guān)聯(lián)和建模隱式特征關(guān)聯(lián).對于任務(wù)k,輸出為

式中:fi(·)表示第i個專家的輸出;gk(·)i表示對于任務(wù)k對應門控網(wǎng)絡(luò)輸出的第i個分量,用于表示選取第i個特性的概率,有為對應任務(wù)k的輸出結(jié)果;n為專家的數(shù)量.每個門控網(wǎng)絡(luò)都是由相同的線性模型組成,使用softmax得到選擇對應專家的概率:

式中:Wgk∈Rn×d為任務(wù)i的可訓練矩陣.對專家函數(shù)的定義可以是線性模型、MLP或者是自定義函數(shù),本文定義為線性模型,經(jīng)過Batch Normalization處理,可得

式中:Wei∈Rd′×d為第i個專家的可訓練權(quán)重矩陣,bei為可訓練的偏置向量.

對于現(xiàn)實生活中人或者物品的屬性來說,都可能由多個標簽組成.比如Movielens-1M中電影《Toy Story》,所屬類別是動畫片、兒童片及喜劇,人或物品的類別型屬性可能有一個或多個標簽.EDCN中的Regulation Module可以看作單個Experts,因此只能捕捉特征中的單個語義,忽略了其他大量關(guān)鍵的語義信息,這是EDCN效果更差的原因.Broker模塊中有多個專家,因此可以將特征的不同語義映射到多個子空間中,每個專家對應一個子空間,從而達到增強Embedding中特征表現(xiàn)力的效果.每個門可以選取所有專家的一個子集,根據(jù)各種建模方式為每個專家學習不同側(cè)重點的權(quán)重.當顯式特征和隱式特征之間的關(guān)聯(lián)較多時,Broker模塊會為某個專家分配較高的權(quán)重;當關(guān)聯(lián)較少時,Broker模塊會懲罰對應的專家,盡量使用多個專家.對于并行架構(gòu)中存在的參數(shù)共享不足問題來說,這是非常靈活的解決方案.Broker模塊參數(shù)數(shù)量是常數(shù)級別,在整個模型中是可以忽略不計的,因此在并行架構(gòu)添加Broker模塊后,可以在不增加計算復雜度的情況下,顯著提高模型性能,這是Broker模塊的好處之一.

2.4 輸出層

輸出層將2個網(wǎng)絡(luò)的輸出拼接起來,最終輸出點擊率預測結(jié)果:

式中:在ME-PRAF中xl為顯式建模層的輸出,hl為MLP層的輸出,W為可訓練權(quán)重矩陣,σ為最終的激活函數(shù).該模型使用sigmoid函數(shù)作為激活函數(shù),即σ(x)=1/(1+exp(-x)).

損失函數(shù)使用LogLoss進行評估:

式中:yi為真實標簽,為模型的預測結(jié)果,N為輸入數(shù)據(jù)的數(shù)量.

2.5 CowClip訓練加速

通常情況下,在訓練過程中,增大訓練batch雖然會縮短訓練時間,但是會帶來模型性能的下降.使用CowClip[18]模型來提高模型的訓練速度,由于推薦系統(tǒng)的大部分數(shù)據(jù)集中存在特征頻次數(shù)量級相差較大的問題,若增大訓練batch但是不相應調(diào)整其他超參數(shù),比如學習速率和正則化系數(shù),則會導致模型訓練造成偏差.利用CowClip算法,可以在不損耗模型性能的基礎(chǔ)上增大訓練的批次大小,從而達到大幅度縮減訓練時間的目的.

3 實驗與分析

由于該算法框架是與模型無關(guān)的框架,對比在各SOTA模型上使用ME-PRAF框架的效果.

3.1 數(shù)據(jù)集

使用以下3個數(shù)據(jù)集進行實驗:Criteo數(shù)據(jù)集、Avazu數(shù)據(jù)集、MovieLens-1M數(shù)據(jù)集.具體數(shù)據(jù)如表1所示.表中,M為數(shù)據(jù)集樣本量,F(xiàn)為特征數(shù)量,C為詞匯量.

表1 3個實驗數(shù)據(jù)集的參數(shù)Tab.1 Parameters of three datasets in experiment

Criteo數(shù)據(jù)集是當前最流行的CTR基準數(shù)據(jù)集,該數(shù)據(jù)集包含用戶7天內(nèi)點擊廣告的數(shù)據(jù)日志信息.遵循先前SOTA工作中的處理操作,將前6天的用戶數(shù)據(jù)作為訓練集,將最后一天的用戶數(shù)據(jù)平分作為驗證集和測試集.對于數(shù)值型數(shù)據(jù),將所有數(shù)據(jù)放縮到[0, 1.0].

Avazu數(shù)據(jù)集是流行的CTR基準數(shù)據(jù)集,數(shù)據(jù)中包含了用戶11 d內(nèi)在移動端點擊廣告的信息,將80%的數(shù)據(jù)作為訓練集,10%的數(shù)據(jù)作為驗證集,最終剩余10%的數(shù)據(jù)作為測試集.

MovieLens-1M是十分知名流行的數(shù)據(jù)集,其中包含3個文件:評分數(shù)據(jù)、用戶數(shù)據(jù)和電影數(shù)據(jù).將3個文件聚合成1個文件,其中每行數(shù)據(jù)對應的組織形式為:[用戶屬性,電影屬性,評分].與先前的工作處理方式相同[6],將評分等級為1或2設(shè)置為0,將等級為4或5設(shè)置為1,移除等級為3的數(shù)據(jù).將80%的數(shù)據(jù)作為訓練集,10%的數(shù)據(jù)作為驗證集,最終剩余10%的數(shù)據(jù)作為測試集.

3.2 實現(xiàn)細節(jié)

使用以下2個指標對模型性能進行評估.1)AUC(area under ROC curve),用于衡量模型對隨機選取的正標簽樣本較隨機選取的負標簽樣本給出更高分值的概率,AUC越高表示模型性能越好.2)LogLoss,所有CTR模型都是為了最小化式(12)中的LogLoss,LogLoss越小表示模型性能越好.對于CTR任務(wù)來說,若AUC增大0.001或LogLoss減小0.001,則表示模型性能有了較大的提升[6,8-12].

將ME-PRAF框架應用到DCN-v2算法上,在3個數(shù)據(jù)集上的性能可以達到最優(yōu),以這個具有代表性的并行架構(gòu)CTR模型作為演示,本文稱為ME-DCN(mixture of experts for DCN-v2)算法.若將ME-DCN中的Broker模塊和Fusion模塊刪除,則會退化為DCN-v2算法.

ME-DCN模型超參數(shù)的設(shè)置.由于Embedding Broker可以訓練學習表現(xiàn)力更強的Embedding,只需要設(shè)置Embedding在所有數(shù)據(jù)集上的維度為10.優(yōu)化器使用Adam[19],batch大小默認設(shè)置為8 192,MovieLens-1M設(shè)置為1 024,所有權(quán)重矩陣使用He Normal[20]進行初始化.交叉層和MLP的層數(shù)都為4,由于每一層交叉層和MLP需要進行Fusion操作,須保證MLP每一層輸出維度與交叉層數(shù)據(jù)維度完全一致.

3.3 模型性能比較

參與對比的SOTA基準模型有DeepFM、DCN、xDeepFM、AutoInt+、DCN-v2、CowClip及EDCN.所有基準算法和本文算法都使用Tensor-Flow[21]進行實現(xiàn).如表2所示為ME-DCN與主流SOTA并行架構(gòu)算法的對比,在Criteo數(shù)據(jù)集和Avazu數(shù)據(jù)集上ME-DCN算法優(yōu)于其他算法,在MovieLens-1M數(shù)據(jù)集上AUC指標領(lǐng)先其他算法.這說明ME-DCN較主流SOTA算法更能勝任CTR任務(wù).

表2 ME-DCN與其他SOTA模型在3個數(shù)據(jù)集上的性能比較Tab.2 Performance comparisons between ME-DCN and other SOTA models in three datasets

如表3所示為ME-DCN與主流SOTA并行架構(gòu)模型參數(shù)量Np的對比,表明ME-DCN算法的參數(shù)量較主流SOTA算法相對適中.相比于參數(shù)較少的算法,參數(shù)較多的原因取決于該框架應用的原型算法,原型算法DCN-v2是在Google大規(guī)模商業(yè)數(shù)據(jù)集上取得優(yōu)秀成績的算法,與DCN-v2相比,ME-DCN算法的參數(shù)量減少了20%.這表明ME-DCN的參數(shù)量處于可接受的范圍之內(nèi),證明Fusion模塊和Broker模塊是輕量級的,可以部署到其他并行算法中,在工業(yè)級應用上是可行的.

表3 ME-DCN與其他模型參數(shù)量的對比(Criteo)Tab.3 Number of parameters comparison between ME-DCN and other models (Criteo)

分析ME-DCN 的算法時間度可知,與DCNv2模型相比,增加時間復雜度的部分是Broker模塊,專家部分和門控網(wǎng)絡(luò)使用的是線性模型,因此時間復雜度為O(n).并行網(wǎng)絡(luò)中的每一層都對應一個Broker模塊,ME-DCN中的交叉層和MLP層數(shù)設(shè)置為4,以累加的形式進行計算,因此時間復雜度為O(n).

3.4 ME-PRAF框架的魯棒性

為了證明ME-PRAF框架的魯棒性,在其他CTR并行算法的基礎(chǔ)上,融合ME-PRAF框架進行實驗檢驗.由于DeepFM顯式建模部分只能有一層不能進行疊加,xDeepFM在壓縮感知層計算耗費十分昂貴,因此工業(yè)界很少使用.EDCN模型中由于regulation模塊的存在無法添加Broker模塊,使用以下3種流行的CTR模型進行對比:DCN、AutoInt+、DCN-v2.3個數(shù)據(jù)集上的實驗結(jié)果如表4所示.

表4 SOTA并行架構(gòu)模型使用ME-PRAF后在3個數(shù)據(jù)集上的性能比較Tab.4 Performance comparison of SOTA parallel architecture models after using ME-PRAF on three datasets

從表4可知,ME-PRAF算法框架對并行CTR算法模型具有很好的魯棒性,在AUC和LogLoss 2個基準上都有有效的提升.這表明ME-PRAF框架可以有效地提高并行CTR模型的性能,其中表4中的DCN-v2ME為ME-DCN模型.在Embedding維度設(shè)置方面,DCN和DCN-v2在Criteo數(shù)據(jù)集上的維度設(shè)置為39,AutoInt+設(shè)置為16,在本框架下的所有維度設(shè)置為10.這表明ME-PRAF框架不僅在并行算法上的性能提升較大,而且在Embedding維度較小的情況下有較好的性能,由此可以說明ME-PRAF框架下訓練的Embedding表現(xiàn)力更強.

由于Embedding在模型中的參數(shù)量占據(jù)模型參數(shù)的很大一部分,利用本文算法可以大幅度減少模型的參數(shù)量,節(jié)約計算機內(nèi)存及顯存資源,在參與到模型計算時可以更快速地進行運算.

3.5 消融實驗

為了進一步了解ME-PRAF算法框架中Broker模塊的效果,對Broker模塊進行消融實驗.由上文可知,Broker模塊分為Embedding Broker及Feature Broker.前者用于解決模型參數(shù)過度共享的問題,為并行架構(gòu)訓練學習具有可分辨性和個性化的輸入;后者用于解決模型參數(shù)共享不足的問題,學習顯式特征與隱式特征之間的關(guān)聯(lián).對Broker模塊進行消融實驗的具體數(shù)據(jù)如表5所示.

表5 ME-DCN模型上的Broker模塊消融實驗(Criteo)Tab.5 Ablation study of Broker modules in ME-DCN(Criteo)

表5中,w/o FB表示將ME-DCN模型刪除Feature Broker及Fusion模塊后的實驗結(jié)果,w/o EB表示將ME-DCN模型刪除Embedding Broker后的實驗結(jié)果.結(jié)果表明,刪除其中一個都會導致模型性能下降,因此Embedding Broker和Feature Broker在算法模型中都十分重要而且缺一不可.2種Broker起到相輔相成的作用,為并行模型中存在的參數(shù)共享問題提供了解決方案,提高了模型性能.

3.6 Fusion模塊融合方式的對比

Fusion模塊的3種融合方式為拼接、按位加及Hardmard積.這3種方式都不需要額外的參數(shù),因此計算效率都很高.為了探索不同F(xiàn)usion方式對模型的影響,分別在3種方式下進行實驗,實驗結(jié)果如表6所示.

表6 ME-DCN模型上Fusion模塊不同融合方式的性能對比(Criteo)Tab.6 Performance comparison of various fusion types in Fusion module in ME-DCN (Criteo)

由表6可知,拼接方式的效果比其他方式更好.按位加方式的效果最差,由于相差較大的2對特征進行按位加融合后,最終向量會有較大概率出現(xiàn)結(jié)果相似的情況,選擇拼接的融合方式更佳.按照先前學者的研究經(jīng)驗,使用Hardmard積應取得較好的實驗結(jié)果,但是此處的實驗效果不理想,因此未來會進一步優(yōu)化Hardmard積的融合方式.

3.7 模型參數(shù)調(diào)整

對于ME-PRAF算法框架來說,模型需要調(diào)參的地方如下.

1)在Fusion模塊中需要調(diào)整對比的是特征的融合方式,這在3.6節(jié)中已進行討論.

2)Broker模塊中參數(shù)的調(diào)整是對專家數(shù)量的調(diào)整.為了研究專家數(shù)量對模型性能的影響,對Broker模塊中專家數(shù)量分別為2、3、4、5的情況進行對比實驗.當專家數(shù)量小于4時,模型的性能會隨著專家數(shù)量的增加而提高;當專家數(shù)量大于4時,性能開始變差;當專家數(shù)量為4時,模型性能最好.可知,大部分數(shù)據(jù)集中特征不同語義平均數(shù)量為4 ,當專家數(shù)量大于4時會捕捉無用冗余的語義特征,導致模型性能下降.

3.8 模型分析

分析模型的關(guān)鍵在于模型是否能夠?qū)W習到有意義的特征關(guān)聯(lián),在本框架中表現(xiàn)為以下2個方面.

1)Embedding Broker是否能為不同類型的子網(wǎng)絡(luò)學習到具有可分辨性和個性化的特征輸入.

2)Feature Broker是否能夠?qū)W習到顯式特征和隱式特征之間的關(guān)聯(lián)信息.

現(xiàn)在大部分公司考慮用戶隱私問題,將大部分數(shù)據(jù)集中的特征部分進行過脫敏處理,特征是加密后的數(shù)據(jù).采用Avazu數(shù)據(jù)集,分析Broker模塊對特征的處理.

如圖4(a)所示為Embedding Broker對輸入特征的權(quán)重w熱力圖.可知,Broker模塊不僅可以學習到輸入特征不同語義下的信息,而且可以為不同并行架構(gòu)子網(wǎng)學習到具有個性化的輸入.

圖4 Broker模塊特征權(quán)重的差異度分析Fig.4 Analysis of diversity factor of feature weight of Broker module

如圖4(a)所示,不同門控網(wǎng)絡(luò)中熱力圖權(quán)重分布有著明顯不同,在融合顯式特征和隱式特征后,能夠為下一層學習到具有可分辨性及個性化的特征信息,證明Broker模塊的有效性.

若不使用Broker模塊,則輸入到顯式特征模塊和隱式特征模塊的信息完全相同,因此圖4(a)中2個熱力圖會完全一致.2個熱力圖分布的差異度越高,則表示輸入到2個模塊中的個性化程度越高.圖4(b)同理.

將Fusion模塊和Broker模型兩者配合,對不同子網(wǎng)絡(luò)中的特征進行融合.將融合后的信息分裂成最適合2個子網(wǎng)絡(luò)的輸入,顯式特征與隱式特征之間的信息得到有效交互,提升了模型性能.

4 結(jié) 語

ME-PRAF是輕量級且高性能的并行算法框架,用于解決目前主流并行CTR推薦模型中普遍存在的參數(shù)共享問題.對于并行架構(gòu)中輸入部分參數(shù)過度共享及子網(wǎng)絡(luò)部分參數(shù)共享不足的問題,可以泛化到眾多并行CTR算法上,有效提高模型的性能.在數(shù)據(jù)集上的大量實驗表明,MEPRAF框架能夠有效地提高SOTA并行CTR算法模型的性能.下一步將研究解決推薦系統(tǒng)中常見的冷啟動問題以及如何在串行架構(gòu)中融合顯式特征和隱式特征.

猜你喜歡
關(guān)聯(lián)特征融合
村企黨建聯(lián)建融合共贏
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
主站蜘蛛池模板: 亚洲人妖在线| 免费啪啪网址| 国产美女91视频| 一级高清毛片免费a级高清毛片| 国产男人天堂| 免费观看亚洲人成网站| 欧美色图久久| 亚洲另类色| 亚洲v日韩v欧美在线观看| 一本大道无码日韩精品影视| 日韩精品免费在线视频| 日韩天堂视频| 亚洲精品免费网站| 中文成人无码国产亚洲| 国产高清免费午夜在线视频| 亚洲三级电影在线播放| 久久精品视频一| 亚洲国产看片基地久久1024| 97国产成人无码精品久久久| 萌白酱国产一区二区| 欧美黄色a| 人妻中文字幕无码久久一区| 国产成人高清精品免费5388| 国产免费久久精品99re不卡| 精品撒尿视频一区二区三区| 国产av一码二码三码无码| 久久中文字幕不卡一二区| 国产乱肥老妇精品视频| 亚洲系列中文字幕一区二区| 国产高清在线丝袜精品一区| 国产成人毛片| 99久久精品视香蕉蕉| 亚洲天堂视频在线观看免费| 国产精品观看视频免费完整版| 中文字幕无码电影| 亚洲Av综合日韩精品久久久| a欧美在线| 国产精品视频导航| 中国一级特黄大片在线观看| 亚洲人成网址| 亚洲热线99精品视频| 国产一在线观看| 久久婷婷综合色一区二区| 免费高清a毛片| 91无码网站| 久久久久亚洲av成人网人人软件 | 国产在线视频自拍| 国产日韩精品欧美一区喷| 亚洲久悠悠色悠在线播放| av在线5g无码天天| 国产欧美自拍视频| 国产精品自拍合集| 国产精品妖精视频| 国产精品视频第一专区| 黄色片中文字幕| 国产精品视频第一专区| 免费国产无遮挡又黄又爽| 亚洲成a人在线观看| 99re热精品视频国产免费| 日韩精品成人在线| 四虎综合网| 日本三级精品| 国产91高清视频| 欧美一区中文字幕| 久久久波多野结衣av一区二区| 中文精品久久久久国产网址| 亚洲国产天堂在线观看| 国产日本欧美在线观看| 日韩高清欧美| 亚洲综合天堂网| 日韩东京热无码人妻| 精品无码人妻一区二区| 亚洲第一成年人网站| 欧美成a人片在线观看| 沈阳少妇高潮在线| a毛片在线| 国产jizzjizz视频| 日韩福利视频导航| 国产成人综合日韩精品无码首页| 亚洲成年网站在线观看| 最新国产精品鲁鲁免费视频| 久久无码av三级|