999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征降維和DBN的廣告點擊率預測

2018-12-22 08:06:52楊長春梅佳俊
計算機工程與設計 2018年12期
關鍵詞:特征模型

楊長春,梅佳俊,吳 云,顧 寰

(常州大學 信息科學與工程學院,江蘇 常州 213164)

0 引 言

點擊率預測是搜索廣告產業的核心技術,有效提升點擊率的預測效果不但能滿足廣告主推銷產品與服務的要求,還能增加廣告媒介的利益,并且可以提升網絡用戶的滿意度。由此可以看出廣告點擊率預測無疑是計算廣告學中的一個至關重要的問題,而本文的探索意義也在于此[1]。

目前比較主流的廣告點擊率預測模型方向的探索主要使用的都是傳統的機器學習中分類算法。朱志北等針對廣告和用戶數據量大并且數據稀疏的問題,提出了一種基于LDA的方法[2],該方法按照主題,將數據分割,再對分割后的數據集建立各自的預測模型,根據各個主題的概率,分配權重,從而得出最終的預測結果。針對傳統方法利用單個權重衡量特征的影響力不夠全面的問題,潘書敏等提出了基于用戶相似度和特征分化的混合模型[3]。Jahrer等[4]提出了一種綜合利用了特征工程,協同過濾和貝葉斯網絡等多種模型的混合式點擊率預測模型。岳昆等采用貝葉斯網的概率圖預測沒有歷史記錄的用戶對廣告的點擊率[5]。Rendle利用因子分解對變量間的交互進行建模,提出了因子分解機模型[6],該模型適合處理大量的稀疏數據。Trofimov等建立了一個綜合運用多個決策樹來對點擊率預測的梯度提升決策樹模型[7],該模型具有運算時間少,無需大量訓練數據的優點,但同時該模型并不支持較多的特征,所以可提升空間還很大。Lee等[8]通過數據分層的方法來解決數據稀疏的問題。

上述模型還都還是僅僅在探索廣告特征間的線性關系,并沒有充分挖掘更深層次的非線性關聯。本文在將深度學習中的深度置信網絡運用到廣告點擊率預測領域挖掘深層次的特征關聯的同時,還考慮到廣告數據中的ID類特征具有高維性,不適合深度學習方法,所以對特征進行了降維處理。

1 基于特征降維和DBN的預測模型

1.1 特征選取

特征提取是廣告點擊率預測的重要過程。本文針對廣告數據中的特點,選擇了幾類特征,列舉如下:

(1)ID類特征。本文中使用的ID類特征包括用戶ID,查詢ID,廣告ID。本文將ID類特征進行one-hot編碼。例如本文中測試數據集中共有23 669 284位用戶,用戶ID會被轉為23 669 284維的特征,僅當某用戶ID出現時該維會置為1,其余則為0。這樣處理是因為ID類特征不應該被分類模型當做具體的值,而是標稱類的特征來處理。但是這樣產生的ID類特征會變成上億維的特征向量,深度學習難以處理這樣高維的特征。所以本文為了降低ID類特征的維度,會在下兩節中對ID類特征進行降維。

(2)廣告特征。本文所涉及的廣告特征有廣告位置position和返回頁中的廣告數depth。搜索的返回結果中廣告的展示個數和廣告所在的位置,對于點擊率均有影響。

(3)用戶特征。本文包含的用戶特征主要有用戶性別gender和用戶年齡age。根據計算廣告學中的以往經驗,性別的不同會導致對廣告的不同反應,例如,女生對化妝品類廣告更有興趣,而男生對體育,汽車類廣告有更多的點擊欲望。同理,處于不同年齡段的用戶的興趣點也會更傾向于某幾類相對應的廣告。

(4)歷史反饋特征。本文使用的歷史反饋特征有廣告歷史展示次數ad-view,廣告歷史點擊次數ad-click,廣告位置歸一化后的點擊率COEC。歷史反饋特征可以很好地評價廣告的質量,對于點擊率預測也有較好的作用。

本文選取的特征庫見表1。

1.2 K-means聚類

上節中提到由于ID類特征維數過高,不能直接作為深度置信網絡的輸入,需要進行處理。而通過對廣告數據的梳理觀察,可以發現用戶,查詢,廣告等對象間有著非常復雜的關系。對于某一對象,比如廣告,其內部的成員間具有相似關系。針對這些對象間的相互性,本文選擇使用K-means聚類,將相似的對象聚類到一起,從而起到降維的作用。

本文將廣告的聚類作為例子,展示算法的具體過程。

(1)以數據集中的廣告展示次數為權重,建立一個廣告-查詢矩陣Mi×j,該矩陣包含i個廣告,j個查詢;

表1 本文選取的特征庫

(2)使I=1,從i個廣告中隨機選取出K個當作初始的簇的中心Zp(I),p=1,2,3,…k;

(3)計算每個廣告xi與各個簇的中心點Zp(I)的距離D(xi,Zp(I)),若廣告xi與簇的中心點Zp(j)的距離最短,即D(xi,Zk(I))=min{D(xi,Zj(I)),i=1, 2, 3,…n},則將xi劃分給第j類;

(4)將所有廣告劃分好后,再一次計算各個簇的聚類中心

(1)

(5)直到聚類中心再也不發生變化,則聚類完成,否則退回到第(3)步重新計算。

上文中的聚類算法完成了對廣告的聚類,同樣的,我們也可以基于同一矩陣對查詢進行聚類。兩次聚類都是在原始的矩陣上進行,相互獨立,互不影響。由于用戶,查詢這兩個對象之間也具有相似性,進行類似查詢的用戶之間是有相似性的,所以,可以根據查詢的聚類結果將處于同一類查詢的用戶作為一組。

1.3 張量分解

張量也可以稱作多維的矩陣,向量即為一維張量,而矩陣則為二維張量。矩陣分解其實是一種特殊的張量分解。N階張量可以定義成A∈RI1×…×IN,張量所包含的元素則可以表示成ai 1 , … , i N。

將上文中通過聚類得到的數據用“用戶-查詢-廣告-權重”的四元組關系{u,i,t,w}的形式表現,根據本文中使用的數據的特點,權重選擇聚類后的廣告展示次數的總和,并以此建立三維張量模型。得到的張量以A∈RI1×…×IN表示。

本文選用高階奇異值分解法(HOSVD)對張量A分解。

公式表示如下

A=S×1U(1)×2U(2)×3U(3)

(2)

核心張量S∈RI1×I2×I3是一個與張量A維數相同的張量,將張量A在3個模式(1-模,2-模,3-模)下進行n-模展開,生成A1,A2,A3。對A1,A2,A3分別進行矩陣分解,結果表示如下

(3)

(4)

(5)

(6)

最后由近似核心張量和3個新的左奇異矩陣計算近似張量

(7)

1.4 深度置信網絡

本文選用深度置信網絡來充分挖掘廣告數據的特征之間的非線性關系,從而從低階特征中獲取高階混合特征。

受限玻爾茲曼機(RBM):RBM是DBN的基本組成成分,它是具有一個顯示層和一個隱藏層的兩層結構,兩層之間的節點進行全連接,層內節點無連接。RBM網絡結構如圖1所示,其中,v為顯示層,用于輸入數據,h為隱藏層,可以作為特征提取器,W為兩層之間的權重矩陣,偏置量分為顯示層的偏置量m和隱藏層的偏置量n。

圖1 RBM結構

RBM定義的能量函數為

E(v,h;θ)=-∑vmwnmhm-∑bmvn-∑cnhn

(8)

能量函數的具體定義參見文獻[9]。

RBM采用對比散度(contrastice divergence,CD)算法進行訓練,這是Hinton提出的一個RBM的快速學習算法[10],并提出了改進[11]。

深度置信網絡(DBN):DBN是由數個RBM堆疊起來的網絡結構,本文所用的深度置信網絡是由數層RBM加上最后一層的BP網絡所構成,BP層的激活函數選擇sigmoid函數。本文的DBN訓練采用貪心逐層非監督的學習方法,DBN的網絡結構如圖2所示,訓練步驟分為模型預訓練和參數微調兩步。

圖2 DBN網絡結構

預訓練階段:對于DBN的多層結構,將每相鄰的兩層作為一個RBM網絡,使用處理好的特征作為輸入層的輸入,從最底層開始使用上節中的RBM無監督學習算法預訓練每一個網絡,每次只訓練一層的網絡參數,將其訓練好的網絡的輸出作為下面一層RBM網絡的輸入,重復此步驟,將所有的RBM網絡訓練完。每層的RBM網絡都會對輸入的數據進行提取,抽象,挖掘更高層的特征,但是各層RBM網絡訓練的最好結果也僅僅是各層的網絡參數達到最優,而并不能使整個網絡達到最優,所以預訓練完成后,本文使用有監督的BP網絡將誤差進行反向的傳播,自頂向下微調整個模型。

參數微調階段:最后一層的BP網絡將充當模型有監督學習的分類器,對DBN模型的參數自頂向下進行微調。其訓練過程共有兩步:其一為前向傳播,將輸入信息送入第一層的RBM,經過幾個RBM和BP層的計算,得出輸出結果,其二為反向傳播,計算輸出結果和正確結果間的偏差,根據偏差從輸出端向輸入端反向傳播,更新網絡結構中的參數。

2 實 驗

2.1 實驗環境

硬件環境:中科曙光服務器一臺,AMD Opteron(tm) Processor 6320@3.60 GHz 32核CPU,64 GB內存。

軟件環境:Ubuntu 16.04操作系統,Anaconda 3 4.4.0開發環境以及TensorFlow工具包。

2.2 實驗數據

本文使用KDD CUP2012比賽上track2任務的由騰訊的搜搜搜索引擎提供的廣告點擊日志作為實驗數據。數據集包括9.8 G的訓練數據集,1.2 G的測試數據集和243 M的測試數據的真實展示次數和點擊數。訓練數據集包含149 639 105行數據,測試數據則有20 217 594行數據。數據集中的一行數據代表的是某次檢索中的返回頁上的廣告列表中的某一條廣告的關于用戶,查詢,廣告的所有信息。

2.3 實驗評估方法

本文采用ROC曲線下面積AUC作為模型預測性能的評估方法。曲線下面積(AUC)就是ROC曲線下方的那部分面積大小,該值通常在[0.5,1)區間內,并且AUC值越大,表明模型性能越好。

2.4 實驗結果與分析

實驗一:隱藏層層數和節點數的確定

本文為了確定DBN模型對于廣告數據最合適的隱藏層層數和節點數,選擇在10萬的數據集上,分別對不同層數和節點數的模型進行訓練,然后比較在同一測試集上的AUC指標,見表2。從表2中可知,將模型層數從2層提高到3層,不論節點數怎么變化,預測效果都有了明顯的提高,而當層數增加到4層,雖然預測效果還是比2層的模型有了提高,但是卻并沒有比3層提高多少,有些甚至比3層模型還差。5層與4層的模型表現類似。所以,本文選擇3層作為DBN模型的隱藏層層數。而通過比較表中的3層模型的AUC值,本文選擇將隱藏層的節點數自底向下分別設為50層,500層和100層。

表2 不同隱藏層層數和節點數的深度置信網絡模型的AUC值

實驗二:預測效果的比較與分析

本文選擇在5種數據規模的訓練集上,并選用同一測試集對預測效果進行評價。既考慮了數據的規模對預測效果的影響,也比較了不同方法的預測效果。表3展示了不同模型在不同規模下的預測效果。在表中LR表示傳統的邏輯回歸模型,HPCM表示文獻[12]中的矩陣分解和張量分解加EM算法的點擊預測模型,KTDDBN表示本文的模型。

表3 3種模型在不同數據量下的預測結果

從表3可知,在不同數據量下3種模型的預測效果相比較,本文的KTDDBN模型要優于其它兩種模型,并且當數據量逐漸增加,預測結果的提高也愈加明顯,在數據量為10萬時,相比于LR和HPCM模型,本文的模型分別只有0.0019和0.0009的提高,而隨著數據量逐步增大,本文比其它模型的效果的提高愈加增加,當數據量提升到90萬時,比其它兩個模型的提高已經分別達到0.0614和0.0370。

為了更直觀地看出不同數據量下3種模型的預測效果的變化趨勢,圖3展示了表3所對應的AUC折線圖。

圖3 3種模型在不同數據量時的預測結果對比

從圖3中可知當數據量逐漸增大,各模型的預測性能均表現出上升的趨向,這表明隨著訓練數據的增大,各模型均得到了更充分的訓練,獲得更穩健的參數。然而,3種模型雖然在數據量增大時,預測效果均呈上升趨勢,但他們變化趨勢卻不盡相同。剛開始,3種模型預測效果無太大差異,這說明此時,3種模型均處于過擬合狀態,未得到充分訓練。隨著數據量逐漸增加,本文的KTDDBN模型的預測效果提升速度明顯要優于其它兩個模型。而當數據量達到50萬之后,LR模型的預測效果已趨于平穩,HPCM模型也在數據量處于70萬之后,預測效果不再有明顯提升。相對的本文的KTDDBN模型在90萬數據量之時仍有較明顯的上升趨勢。

3 結束語

本文針對廣告數據中ID類特征的高維性,基于廣告數據間的相似性,對其進行聚類,一定程度上降低其維度,再建立張量模型,獲得低階近似張量,并利用了廣告數據的特征具有復雜的非線性關系的特點,引入了深度學習中的深度置信網絡,對其深層特征組合進行學習。實驗結果表明,本文模型的預測結果相比其它方法有一定的提高。然而,本文的模型雖有改進,但尚有不足,所以下一步的研究方向是如何在保證預測效果的同時,減小計算開銷。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 蜜桃视频一区二区三区| 亚洲小视频网站| 国产成人综合久久精品下载| 国产精品女在线观看| 国产精品爽爽va在线无码观看| 久久99热这里只有精品免费看| 97视频在线精品国自产拍| 女人18毛片一级毛片在线 | 精品国产成人av免费| 国产精品综合色区在线观看| 亚洲精品桃花岛av在线| 男女性色大片免费网站| 青青青国产视频手机| 日本成人在线不卡视频| 手机精品福利在线观看| 亚洲中文字幕无码爆乳| 日韩精品欧美国产在线| 亚洲精品自拍区在线观看| 午夜综合网| 久久精品这里只有国产中文精品| 欧美国产日韩另类| 欧美专区日韩专区| 欧美色综合久久| 成人午夜精品一级毛片| 日韩资源站| 免费一级成人毛片| 久久精品波多野结衣| 99在线视频网站| 成人福利在线看| 欧美亚洲欧美区| 538国产视频| 欧美色视频在线| 欧美在线中文字幕| 国产亚洲精品yxsp| 国产迷奸在线看| 欧美成人a∨视频免费观看| 日本高清免费不卡视频| 91福利在线看| 99视频精品全国免费品| 国产精品思思热在线| 国产农村精品一级毛片视频| 欧美日韩资源| 欧美69视频在线| 精品少妇人妻av无码久久| 五月激激激综合网色播免费| 日韩在线中文| 日本免费高清一区| 国产精品国产三级国产专业不| 91福利国产成人精品导航| 原味小视频在线www国产| 91福利国产成人精品导航| 国产真实自在自线免费精品| 伊人AV天堂| 高清无码一本到东京热| 成人午夜天| 毛片免费观看视频| 最新国产你懂的在线网址| 久久亚洲高清国产| 国产在线第二页| 99激情网| 国产成人永久免费视频| 国产精品视频白浆免费视频| 日韩麻豆小视频| 国产一区二区免费播放| 欧美日韩中文字幕在线| 欧洲免费精品视频在线| 熟妇无码人妻| 免费人成视网站在线不卡| 手机精品视频在线观看免费| 男人天堂亚洲天堂| 黄色污网站在线观看| 国产性生大片免费观看性欧美| 国产一区二区在线视频观看| 久久窝窝国产精品午夜看片| 2018日日摸夜夜添狠狠躁| 国产视频只有无码精品| www精品久久| 亚洲精品无码日韩国产不卡| 操美女免费网站| a天堂视频在线| 日韩精品一区二区三区大桥未久 | 精品久久久久久成人AV|