王準(zhǔn)
(廣州工商學(xué)院,廣東 廣州 510850)
基于大數(shù)據(jù)的網(wǎng)絡(luò)廣告精確投放研究
王準(zhǔn)
(廣州工商學(xué)院,廣東 廣州 510850)
隨著社會日新月益的發(fā)展,互聯(lián)網(wǎng)在人們生活中得到了普及,人們對其的使用范圍越來越寬廣,所以,人們逐步進入互聯(lián)網(wǎng)的大數(shù)據(jù)時代.在互聯(lián)網(wǎng)廣告中,借助應(yīng)用大數(shù)據(jù)能夠有效促進廣告精準(zhǔn)投放的成效,為網(wǎng)絡(luò)廣告的發(fā)展帶來很大程度的發(fā)展.本文旨在分析基于大數(shù)據(jù)的網(wǎng)絡(luò)廣告精確投放的平臺、算法、系統(tǒng)模型等,為實現(xiàn)廣告精準(zhǔn)投放提供借鑒.
大數(shù)據(jù);網(wǎng)絡(luò)廣告;精確投放
大數(shù)據(jù)非常具有影響力,能夠給人們的生產(chǎn)和生活帶來諸多的改變,因此,大家深有體會大數(shù)據(jù)時代給人們所帶來的影響,使得大數(shù)據(jù)時代已成事實.在電子商務(wù)以及網(wǎng)絡(luò)的快速發(fā)展中,大數(shù)據(jù)作用越來越凸顯,使得網(wǎng)絡(luò)廣告方面也發(fā)生一定的改變,在現(xiàn)代大數(shù)據(jù)快速發(fā)展的時代中,憑借以往經(jīng)驗決策的時代早已成為過去,現(xiàn)在靠的是迅速、準(zhǔn)確找到用戶的特點、需求,進而提高廣告投放的準(zhǔn)確度.所以,隨著數(shù)字信息化的發(fā)展和對各類客戶的行為數(shù)據(jù)等方面進行不斷的積累,大數(shù)據(jù)將賦予網(wǎng)絡(luò)廣告精確投放將會更上一個臺階.
數(shù)據(jù)管理平臺,簡稱DMP,是集中分析上網(wǎng)數(shù)據(jù)的平臺,能夠定向推送服務(wù)廣告,并且功能明顯.DMP關(guān)乎能否提取用戶上網(wǎng)行為的特點,如果沒有DMP,就沒有用戶行為特點與廣告相匹配,定向廣告無法實現(xiàn).所以,在網(wǎng)絡(luò)定向廣告的推動中,數(shù)據(jù)管理平臺所發(fā)揮作用非常重要.同時,DMP是DSP的核心,能夠管控廣告代理商和廣告商家對大眾數(shù)據(jù)進行有效管控,借助這些數(shù)據(jù),進而有效實現(xiàn)廣告計劃的管理和媒體購買.
1.1 對用戶數(shù)據(jù)進行預(yù)處理
每天有批量人員進行網(wǎng)絡(luò)操作,所以用戶將產(chǎn)生眾多的網(wǎng)絡(luò)日志文件,因此,對用戶網(wǎng)絡(luò)數(shù)據(jù)進行處理,主要是利用DMP在Hadoop集群的基礎(chǔ)進行處理,對Web日志進行預(yù)處理工作主要包括截取關(guān)鍵字段和識別獨立用戶兩個方面,預(yù)處理之后,web日志就變成規(guī)范的數(shù)據(jù).借助關(guān)鍵字段截取功能,對海量的日志文件進行有目的性的截取,從而降低運行成本的開銷.截取字段可以包括用戶訪問網(wǎng)址、ip地址以及訪問時間等方面的信息.這些web日志經(jīng)過預(yù)處理后,將轉(zhuǎn)變?yōu)橐?guī)范化的數(shù)據(jù),由關(guān)鍵字段組成,主要包括訪問網(wǎng)址、時間以及標(biāo)識等方面,這些將有利于對用戶行為進行針對性的分析.
1.2 對用戶行為特征進行分析
用戶行為特征分析作為DMP的關(guān)鍵部分,主要任務(wù)是對用戶上網(wǎng)的行為數(shù)據(jù)借助一定的方式方法進行有效的分析,進而得到用戶興趣的數(shù)據(jù)統(tǒng)計.其具體流程如圖1所示.

圖1 用戶行為特征分析流程圖
1.3 更新用戶特征的數(shù)據(jù)
數(shù)據(jù)更新指的是要隨著時間的改變更新用戶興趣特征方面的數(shù)據(jù),而且這非常有必要,因為,用戶會隨著時間的延長,興趣行為特征有可能進行改變.比如:一個女士用戶在雙十一的時候想購買一條牛仔褲,因此,瀏覽網(wǎng)頁都是牛仔褲方面的網(wǎng)頁,但是,當(dāng)她購買完成這個牛仔褲后,下次再瀏覽網(wǎng)頁的時候,就不會再繼續(xù)瀏覽與牛仔褲相關(guān)的網(wǎng)頁,而是失去了購買的興趣,經(jīng)過一段時間,該女士又想購買外套,所以又瀏覽了和外套相關(guān)的網(wǎng)頁,所以,興趣特征發(fā)生改變,如果不第一時間將此數(shù)據(jù)進行更新,將會對推送廣告與用戶興趣產(chǎn)生差距.因此,用戶數(shù)據(jù)特征的及時更新反應(yīng)著DMP的優(yōu)劣.
2.1 建立向量空間模型
在對用戶進行網(wǎng)頁瀏覽的過程進行興趣行為的特征分析的時候,用戶行為的特征不同,那么所對應(yīng)的關(guān)鍵詞的重要性也不盡相同,以往的向量空間的模型不能計算這種差異性的要求,所以,對此空間向量模型進行優(yōu)化、改進,分析用戶瀏覽行為進行分析,重新權(quán)衡用戶興趣行為特征的關(guān)鍵性的重要性,盡量接近用戶表現(xiàn)出來的興趣愛好.例如:一個用戶進行了n中瀏覽行為,而且每一個都不一樣,且每一個對用戶興趣的影響程度均不一致,利用權(quán)重來進行區(qū)分,關(guān)鍵詞Wi用ε1,ε2,...εn來表示,n種不同瀏覽行為的權(quán)重用fi1,fi2,…Fin來表示,那么,用戶有效瀏覽n個文檔時行為特征的關(guān)鍵詞用出現(xiàn)的詞的頻率,在傳統(tǒng)向量空間模型中tfi為:

優(yōu)化后的權(quán)重計算方法為:

廣告dj和網(wǎng)頁di的相似度計算方法是:

其中w'(wki)表示關(guān)鍵詞wk在網(wǎng)頁di中的權(quán)重,w'(wkj)表示關(guān)鍵詞wk,在廣告dj中的權(quán)重.
2.2 向量模型的語義擴展
本文主要是對向量空間模型進行了語義擴展,算法的流程具體如圖2所示.算法首先借助前面優(yōu)化的向量空間模型來計算用戶興趣模型關(guān)鍵詞的權(quán)重,并對向量進行裁剪,包括m個權(quán)重最高的關(guān)鍵詞.借助語義關(guān)聯(lián)的工具可以對關(guān)鍵詞進行詞匯擴展,利用其同義詞、近義詞以及予以相同的詞.但是用戶興趣新的模型和其擴展詞匯沒有直接的關(guān)系,所以,W構(gòu)建與貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)計算擴展詞匯的權(quán)重相似.首先,借助基于中文維基百科分類體系和鏈接結(jié)構(gòu)的多路徑語義相關(guān)度算法計算關(guān)鍵詞和擴展詞的語義相關(guān)度,然后再利用這一相關(guān)度及關(guān)鍵詞在原用戶興趣模型中的權(quán)重構(gòu)建類貝葉斯網(wǎng)絡(luò)來計算擴展詞在新模型中的權(quán)重.

圖2 向量空間模型擴展流程圖
2.3 更新用戶興趣模型
利用向量聚類算法主要是對向量空間模型進行語義擴展,然后再按關(guān)鍵詞進行聚類,用公式計算出聚類形成的每個詞向量簇的權(quán)重WUi,進而計算出每個詞向量簇的質(zhì)心dQEi,最終用于評價廣告和用戶匹配得分的計算公式是:

其中,詞向量簇質(zhì)心dQEi與廣告ak的相似度Sim(dQEi,ak)用改進的向量空間模型計算.廣告和每個興趣簇質(zhì)也都有一個得分,選取值最大的作為該廣告的最終得分.按照這個得分對待投放的廣告進行排序并將得分最高的廣告投放給用戶.
因為內(nèi)容定向精確投放廣告的算法僅僅是選取了網(wǎng)頁的一些關(guān)鍵詞并按照網(wǎng)頁的主題去投放廣告,該方法基于網(wǎng)頁種的內(nèi)容,并未有效挖掘用戶的興趣和喜好,因此廣告的投放效果不是很理想,常常投放的廣告對于用戶而言并不感興趣.文章提出一個建立在用戶瀏覽行為基礎(chǔ)上的廣告精確投放算法,這種算法在提取用戶瀏覽網(wǎng)頁所用關(guān)鍵詞的同時還考慮到各種瀏覽行為的特點對關(guān)鍵詞所形成的影響,任一瀏覽行為其所相應(yīng)的瀏覽內(nèi)容均有不一樣的權(quán)重,在特性分析的同時對傳統(tǒng)的向量空間模型予以改進,從而使向量空間模型可以更為準(zhǔn)確的體現(xiàn)出用戶的興趣.不過改進的向量空間模型與廣告間仍然有一定的語義失配,故而要運用語義關(guān)聯(lián)工具對可體現(xiàn)用戶興趣的關(guān)鍵詞予以詞匯上的擴展并計算出其權(quán)重.考慮到這個問題,文章先提出在維基百科基礎(chǔ)上的多路徑語義的算法,用來計算關(guān)鍵詞及其擴展詞的相關(guān)度,繼而結(jié)合用戶的興趣和關(guān)鍵詞的相關(guān)性以及關(guān)鍵詞和擴展詞的巧關(guān)性,構(gòu)建出一個很像貝葉斯網(wǎng)絡(luò)的模型去計算擴展詞的權(quán)重.
3.1 需求分析
目前的網(wǎng)絡(luò)廣告投放主要有下面3種形式:
(1)傳統(tǒng)媒體,這種投放形式是依據(jù)時間的長短在媒體上買廣告位,該模式的投放成本非常大,而且資源比較分散,往往不可有針對性的尋得目標(biāo)受眾.
(2)網(wǎng)絡(luò)聯(lián)盟,通過該投放方式,廣告主以及代理商能夠依次買到一百家以上媒體,能夠執(zhí)行跨媒體的頻次控制,其長處是投入的成本比較低,而且曝光度較足,其短板是廣告常常出現(xiàn)于一些小型網(wǎng)站中,對品牌的影響力很有限,僅可按網(wǎng)站本身的屬性進行初步的定向.
(3)需求方平臺DSP,通過這個平臺,廣告主可以借助交易平臺去購買受眾.它借助cookie分析人群的行業(yè)習(xí)慣以及個人特點,從而把廣告精確的投放至最需要的用戶,這種方式的用戶覆蓋面非常廣,其投放的成本也很低,且投放的效果比較好,發(fā)展前景非常廣闊.
3.2 總體流程設(shè)計
本系統(tǒng)主要是對用戶興趣行為進行分析,然后定向廣告投放算法進行分析,然后針對用戶的興趣行為特征選擇相關(guān)的廣告,匹配度高,讓廣告交易平臺參與廣告的競價.系統(tǒng)W能夠通過對用戶的興趣分析,能夠?qū)崿F(xiàn)廣告的精準(zhǔn)投放,很大程度上提高了廣告投放的成效,在增加廣告收入的基礎(chǔ)上,實現(xiàn)了多方的共贏.系統(tǒng)的總體流程設(shè)計如圖3所示.

圖3 網(wǎng)絡(luò)廣告精確投放系統(tǒng)流程圖
3.3 功能模塊設(shè)計
按照模塊功能,可以將精準(zhǔn)廣告投放系統(tǒng)的原型DP分為:廣告模塊、用戶信息處理模塊及系統(tǒng)管理員模塊,其中,廣告投放系統(tǒng)按照模塊功能可用圖4來表示.

圖4 網(wǎng)絡(luò)廣告精確投放系統(tǒng)模塊圖
3.4 廣告投放的效果
本文設(shè)置投放次數(shù)10萬次,手機廣告以及汽車廣告均是10萬次的投放次數(shù),分別利用大數(shù)據(jù)網(wǎng)絡(luò)廣告的投放方式和傳統(tǒng)方式進行投放,對投放效果進行量化,可以采用廣告點擊率的方式,結(jié)果顯示,在用戶瀏覽行為的基礎(chǔ)上,大數(shù)據(jù)的廣告精確投放算法能夠充分挖掘用戶的興趣行為特征,能夠?qū)Υ送斗排c之相近的廣告,雖然投放的次數(shù)與傳統(tǒng)的投放次數(shù)有所減少,但是投放廣告的點擊率和有效率得到了提高,即有效投放,投其所好,較傳統(tǒng)投放,點擊率提高了一倍多,成效明顯.
綜上,文章首先對網(wǎng)絡(luò)廣告數(shù)據(jù)管理平臺如何構(gòu)建進行了概述,結(jié)合目前網(wǎng)絡(luò)廣告投放不能夠夠精確表達用戶興趣等方面的問題,提出了基于用戶興趣瀏覽行為大數(shù)據(jù)的廣告精確投放算法,并在此基礎(chǔ)上建立了定向廣告投放系統(tǒng)模型,形成網(wǎng)絡(luò)廣告精確投放系統(tǒng),進而實現(xiàn)了廣告精準(zhǔn)投放的目標(biāo).
〔1〕俞淑平,陳剛.一種髙效的行為定向廣告投放算法[J].計算機應(yīng)用與軟件,2011,28(1):4-7.
〔2〕施燦燦.網(wǎng)絡(luò)定向廣告中用戶興趣模型研究應(yīng)用[D].合肥工業(yè)大學(xué),2013.22-30.
〔3〕周蒙.面向互聯(lián)網(wǎng)用戶的個性化廣告推送服務(wù)研究[D].上海:東華大學(xué),2014.22-29.
〔4〕李志.互聯(lián)網(wǎng)廣告精準(zhǔn)投放平臺的研究[D].武漢華中師范大學(xué),2013.5-6.
〔5〕王中華.網(wǎng)絡(luò)廣告模式現(xiàn)存問題及解決思路探討[J].經(jīng)濟研究導(dǎo)刊,2010(1):22-25.
〔6〕劉鐵巖.方興未艾的計算廣告學(xué)[J].中國作者姓名.
F713
A
1673-260X(2017)01-0100-03
2016-10-27
2015年廣東省教育廳重點平臺及科研項目(青年創(chuàng)新人才類項目(No.2015KQNCX196));2016年廣東省高等教育學(xué)會高職高專云計算與大數(shù)據(jù)專業(yè)委員會課題(No.GDYJSKT16-06)