覃朝勇
(廣西大學數學與信息科學學院,南寧530004)
基于層次貝葉斯方法的廣告轉化率影響因素研究
覃朝勇
(廣西大學數學與信息科學學院,南寧530004)
搜索引擎
廣告中,如何對
廣告效果進行評估是當前的一個研究熱點和難點。文章構建了基于層次貝葉斯方法的轉化率實證模型,利用馬爾科夫蒙特卡洛方法進行參數估計,并將模型應用于某公司3個月的百度競價數據。結果表明,熱門地區的轉化率較偏遠地區更高;排名位置靠前的廣告轉化率也更高,排名位置對廣告轉化率的影響還和企業的知名度(或市場地位)有關;
特性中,
長度、
是否包含商標信息和城市信息都顯著影響
廣告的轉化率。
廣告;層次貝葉斯;點擊率;轉化率;MCMC
當前,競價排名廣告服務已經成為了搜索引擎商最大和增長最快的收益來源[1]。搜索引擎商提供的[2,3]。不同于傳統的廣告,廣告商僅在
廣告中廣告被點擊時付費,廣告商在廣告活動中的主要任務是管理
和每個
的出價,以最大化自己的廣告效果。在實際的廣告活動中,廣告商通常管理著成百上千的
。如在中文百度
廣告中,每個廣告商管理多個推廣計劃,每個推廣計劃由多個推廣單元組成,而每個推廣單元中都包含著多個不同的
。然而,在眾多的
中,有些
被用戶搜索的次數明顯要超過其余
,有些
的點擊率、轉化率很低,許多
的轉化率甚至為零。如何選擇
以及如何對
進行競價并對
廣告效果進行評估,是廣告商重點關心的問題,也是當前的一個研究熱點和難點。
廣告具有很強的針對性,通過搜索
能為企業準確鎖定目標客戶,
廣告已經成為了企業擴大產品銷量和提升品牌的重要營銷手段
基于以上背景和問題,本文對影響廣告效果的相關因素進行了研究,構建了層次貝葉斯轉化率實證模型,利用馬爾科夫蒙特卡洛(MCMC)方法對參數進行估計,并應用于某科技公司在百度上3月的競價數據。
1.1影響轉化率因素分析
影響廣告轉化率的因素眾多,如涉及消費者的因素、涉及廣告商及產品的因素、搜索引擎商的因素以及環境因素等等,要將所有的這些因素考慮進來是將是非常復雜的,也是沒有必要的。本文從消費者行為角度出發,將考慮的范圍限定在與
和鏈接項所呈現的特性上。百度
廣告競價中,轉化是指潛在客戶完成一次廣告商期望的行動,與廣告商的推廣目的和對推廣效果的定義相關,而不僅僅局限于購買行為。轉化可能指潛在客戶:在網站上停留了一定的時間;瀏覽了網站上的特定頁面,如注冊頁面,“聯系我們”等頁面;在網站上注冊或提交訂單;通過百度商機中心、網站留言或網站在線即時通訊工具進行咨詢;通過電話進行咨詢;上門訪問、咨詢、洽談;實際付款、成交(特別是對于電子商務類網站)。
排名位置:已有的許多研究表明,用戶的點擊行為和廣告的排名位置有關,但廣告排名位置和轉化率的關系究竟如何,是否排名位置越靠前,轉化率就越高?這些都值得深入研究。
推廣區域:在百度推廣中,推廣區域分熱門地區和偏遠地區。顯然,不同地區的消費者在經濟水平、消費習慣和環境等方面存在差異,這些差異是否影響以及如何影響轉化率?
特性:用戶的搜索習慣還反映在
本身的特性上,
的特性包括了
長度、
是否帶有品牌和商標和是否帶有城市信息等。這些特性是否對轉化率有影響以及如何影響轉化率,都是廣告商迫切需要了解的。
Ghose等[4]還考慮了頁面質量的對轉化率的影響,但他們收集的是不同廣告商的競價數據,而本文收集的是同一個廣告商的競價數據,頁面質量是固定的。文獻Rutz[5]在研究轉化率時,還考慮了點擊率(CTR)和每點擊成本(CPC)的影響。CPC為廣告被點擊1次廣告商所付出的成本。然而我們分析認為,排名位置和CTR及CPC之間存在一定的相關性,排名位置好,位置吸引力強,則CTR應該會高,對應的CPC也會高,因此,排名位置和CTR及CPC間有相關性。對本文搜集的數據進行相關性分析的結果也表明,CTR和排名位置、CPC和排名位置在.01水平(雙側)上都顯著相關。
1.2模型建立
以下我們以最大化廣告商轉化率為優化目標,從排名及特性角度去研究影響轉化結果的因素,如前所述,本文暫未考慮諸如廣告網頁質量和產品特性等廣告商本身其它因素對轉化結果的影響。
假設某個廣告商選定n個wi(i=1,…,n)進行廣告競價,cij是wi在周期j內的點擊量,點擊率為pij,轉化次數為qij。在返回搜索結果頁面后,消費者決定是否完成廣告商期望的行動可以用消費者離散選擇模型來刻畫:

其中,Pconv為轉化概率,u為消費者效用函數,該效用函數由排名位置、以及特性等決定。i在周期j內被觀察到的轉化次數服從二項分布:
w

其中,c為被點擊次數,q為轉化次數。在觀測的周期T內,我們有似然函數:

根據以上分析,不同的存在異質性,為了反映這種異質性和隨機性,我們使用層次貝葉斯模型來進行擬合。結合所選數據的行業特征,對每個
w,我們構造了如下的效用函數:

式(1)中,βw為待估參數(包含了截距)且β~N(μβ,vβ),Xw為變量,包括排名位置以及推廣地區,εw為誤差項。ωw為關鍵詞本身特性的影響,θw為待估參數(不含截距)且θ~N(μθ,vθ),關鍵詞特性Yw1~Yw3分別表示關鍵詞長度、是否帶有品牌和商標信息(0表示不帶,1表示帶有)以及是否帶有具體城市信息(0表示不帶,1表示帶有)。δw為關鍵詞誤差項。模型中各參數的先驗概率分布如下:β~N2(μβ,vβ),其中μβ~N(μb,Vb)且協方差陣由于先驗信息很少,故取θ~N3(μθ,vθ),其中=1000I3。關鍵詞誤差項δw~Gamma(k/2,m/2)
1.3基于馬爾科夫鏈蒙特卡洛模擬的模型參數估計
在建立的模型中,β和θ是待估參數。由貝葉斯理論可知,給定樣本數據D后的后驗參數分布函數f(β,θ|D)如下:

式中,1(D|β,θ)為樣本聯合概率分布即似然函數,π(β,θ)為參數β和θ的先驗概率分布。β和θ的后驗分布設計高維積分運算,其解析表達式無法直接給出,因此考慮采用馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo, MCMC)方法來進行參加估計。MCMC抽樣方法有多種,而在貝葉斯分析中應用最為廣泛的MCMC方法主要有兩種:Gibbs抽樣(sampler)方法和Metropolis-Hastings(M-H)方法。當全部參數的條件概率分布都可以以解析表達式給出的時候,可以使用Gibbs抽樣方法依次迭代取樣。當無法推導出各參數的滿條件分布時,可以使用比Gibbs抽樣更一般的MCMC方法:M-H方法。在本文中,我們將兩種方法結合使用,具體算法描述如下:
MCMC模擬抽樣迭代算法:
第一步:對每組,計算自然函數;利用極大化自然函數估計效用值。
第二步:對每組,使用M-H算法抽樣出新的參數,計算接受概率并判斷是接受還是拒絕新參數,初始值β0和θ0取極大似然估計值;
第三步:對每組,計算,其中ωw~N(θwYw,δm)
第四步:使用Gibbs方法對參數μβ和vβ進行抽樣:從π(μβ|β,vβ)中產生新的μβ,其中,;從π(vβ-1|β,μβ)中產生新的vβ,其中,
重復步驟1~4。
調整參數,使得接受概率大概為20%左右,然后運行10000次,剔除迭代前2000次,從2000次以后隔100次取樣一次,作為估計參數的樣本。另外,由于數據原因,在迭代過程中,很容易出現病態矩陣,且矩陣數很大,對系數矩陣很小的擾動都會導致求得的逆矩陣差別很大,不利于參數的估計,本文使用廣義逆矩陣來解決該問題。
2.1數據來源及分析
本文的數據來源于一家在國內最早從事網絡服務的公司,該公司自2010年起開始在百度搜索進行產品推廣。考慮到節假日因素,我們避開了國家法定節假日較多的月份,收集了公司2011年6~8月份的競價數據,數據以一個星期為一個統計時間單位。數據包含了每個關鍵詞的競價時間、推廣地區、印象數、點擊數、平均排名、每點擊成本CPC(點擊數/總花費)和轉化數。本文只選擇了點擊數大于0的數據,因為若點擊量為0,則轉化數以及花費也均為0,對于搜索引擎商和廣告商來說,都沒有帶來直接的利潤。結果包含了564個關鍵詞共10301條數據記錄中的468個關鍵詞,共5269條記錄數據,數據描述性統計如表1。

表1 數據統計量
由表1可知,該企業廣告的平均展現量(impression)為182.79,平均排名為3.32,的平均長度為6.26,但平均轉化只有0.56。在收集的時間周期內,該公司平均323個展現量能得到1次轉化,或者是平均每15次對該公司廣告的點擊能得到1次轉化,每次轉化的平均價格為25元,每次點擊的平均花費1.09元。在本文考慮的周期內,公司在該組產品上的
廣告共花費了¥7448。由表中數據可知,所收集的數據在展現量、點擊量以及消費上的方差非常大,說明不同的
的廣告效果存在較大的差別。在
特性上,我們考慮了
的長度、
是否帶有商標和品牌名稱以及
是否帶有城市信息。在468個
中,30個
帶有商標和品牌信息(如“aofax傳真服務器”),55個
帶有城市信息。
2.2結果分析
利用MCMC模擬方法對本文的層次貝葉斯模型中的參數進行估計,結果如表2所示。由表2可知,截距均值為-12.215且結果是顯著的。在所有估計的參數中,截距值是最小的,可知總體的轉化率是比較低的,因為截距值越小,效用值也就越小,對應的轉化率也就越低,這個結論和前面的統計結果是相符的。

表2 參數估計結果(β)
目前已有的研究中,未見有對推廣地區因素的考慮。本模型中,推廣地區的影響參數估計檢驗結果是顯著的,均值為-6.952。由于在數據處理時,由熱門地區到偏遠地區是按升序進行排列,故數值越大說明地區越偏遠。因此可以得出結論,熱門地區的轉化率要高于偏遠地區的轉化率。同時,由源數據可以看出,熱門地區的點擊量和轉化數都要明顯高于偏遠地區,本文收集的競價數據是針對網絡辦公軟件的,可以認為熱門地區的辦公信息化程度要高于偏遠地區,這符合人們的常識。
位置排名對轉化率的影響:直觀上,排名越靠前,點擊率和轉化率也越高,Ghose等[4]和Rutz[5]的研究均證實了這一觀點,表2中的參數估計結果也支持了這一結論,即排名位置和轉化率是負相關的,因為排名位置越靠前則數值也就越低(如排名最前的為1),轉化率也就越高。另外由表1可知,該企業的廣告平均排名位置較高,達到3.32。位置排名是關鍵詞廣告中最重要的一個因素,廣告成本、點擊率、轉化率以致最終的利潤都和廣告排名位置有關系,國外研究者們在這方面取得了相當多的研究成果。如Ghose等[4]認為競價排名中位置靠前的廣告雖然能帶來高的點擊率和轉化率,但是帶來的利潤卻不如排在中間的廣告。Kinshuk等[5]認為一個優良的企業就算競價排位低于非優良企業(inferior)的廣告位置,仍然獲得多于非優良企業的點擊。本文認為,這種悖論源自于行業品牌認知度。在品牌認知度非常高的行業,知名企業(對應于Kinshuk的superior firms)的廣告即使不排在最前,也能獲得較高的點擊率和轉化率。但是要完全探討排名和轉化率的關系則是個非常復雜的問題。廣告位置靠前,可能會帶來兩個不同的影響。首先,從消費者觀點出發,位置越靠前,則對該廣告產品質量的信任度也就越高。這種影響類似于消費者更信任在中央電視臺黃金時段播出的廣告,而對其它時間段播出的廣告信任度則會下降。因此,這種觀點認為位置好的廣告就能帶來高的轉化率。但Agarwal等[7]認為,沒有真實購買意向的顧客傾向于點擊排名靠前的廣告但是并不購買,而那些有真實購買意向買主由于近期偏好則會點擊排名中間的廣告并購買產品。本文研究對象企業所屬的行業,品牌認知度并不是非常高,不存在少數寡頭企業壟斷市場的現象(如智能手機行業),所以第一種影響大于第二種影響,即排名位置越靠前,轉化率也就越高。
除了以上討論的影響因素外,本身的特性也會影響到轉化率,若忽略這些參數的影響,將會造成對別的參數估計的偏差,參數估計結果如表3。

表3 參數估計結果(θ)
源數據中核心詞長度為4,最低值為3,最高值為17,均值為6.26。1值為-6.732,且結論顯著。該參數結果說明[5]認為,長的
能帶來更高的點擊率,但并未帶來高的轉化率。這些研究結論上的差異可能源自于數據本身的差異性,因為前者搜集的是多個行業的競價數據,而后者僅為酒店行業的數據。
的長度顯著影響轉化率,
長度越長,轉化率就越低。這說明如果用戶輸入較長的
,則很可能是用戶想了解同類產品的價格、功能以及如何使用該類產品,用戶的這些行為最終并未帶來轉化。而在Ghose的研究中,
長度對于轉化率的影響并無顯著統計意義。Rutz
長度影響參數θ
廣告推廣的是否帶有商標(參數θ2)顯著影響著轉化率,參數值高達7.551,且結論具有顯著的統計意義。說明該公司的產品在行業中具有很強的影響力,這和現實相符合,因為該公司是最早成功研發出該產品的公司之一。該結論與Rutz[5]的研究結論一致,但與Ghose等[4]所得結論相反,究其原因,我們認為該不同源于收集數據的行業存在差異,因為我們收集的是特定公司產品的競價數據(Rutz也如此),而并未跨行業和跨公司,但Ghose的研究并不是針對某類特定行業和產品的。同樣,3)顯著影響轉化率,參數值達到4.263,說明有真實購買意向的用戶在搜索時傾向于使用帶有城市信息的
。
是否帶有城市信息(參數θ
2.3研究結果對于廣告商管理廣告的意義
正如前面提到,考慮本身特性對轉化率的影響是必要的,若忽略這些參數的影響,將會造成對別的參數估計的偏差。為了更好的說明這個問題,假設我們在模型中不考慮3由負值變為正直,排名位置和轉化率正相關,顯然和實際情況相悖。這表明了當不考慮
特性時,本應是
特性對轉化率帶來的影響效果被強加到各參數上,使得參數估計值被放大。由此可見,
特性因素在評價
轉化率效果中具有重要的作用,可以幫助廣告商更好的從
層面上去優化廣告活動。
特性,而其它參數及設置均不變,參數的估計結果如表4所示。對比表2可知,不考慮
特性時,各個參數值均變大,其中β

*95 percentconfidence interval
parameters mean P variance β2β30.600 (-2.860 4.061) 0.417 0.173 β1(Intercept) -8.905 (-12.067-5.743) 0.000 6.449 -3.812 (-6.692-0.932) 0.009 4.461
本文研究結論的重要意義在于:可以從層面對轉化率進行評估,而這對廣告商是非常有益的。為了評價
并預測轉化率,廣告商通常的做法是選擇部分
(包括引擎商推薦的
)進行競價廣告,通過一段時間后對
廣告效果進行評估,然后再調整
集合中
的組成并進行競價廣告,然后再評估調整,該過程需要不斷重復。顯然,這種做法通常會花費更多的資金和人力,且效果也受到質疑。利用本文的研究結論,可以縮短尋找最佳
集合的時間并減少花費。
具體來說,本文的研究對廣告商具有如下指導意義:
(1)在考慮轉化率為目標時,應考慮在熱門地區競價排在第一頁的,且
長度不宜太長(6個字以內),
最好是帶有城市信息和商標信息。
(2)在進行競價時,應根據所屬的行業特性來考慮目標理想排位。在人們對品牌認知度非常高的行業,如果屬于知名度非常高的企業,則無需對排名最靠前的幾個位置進行競價也可獲得相同的廣告效果;如果企業屬于非知名企業,排名越靠前廣告效果越好。而在品牌效應一般或者是人們對該行業品牌認知度不是很高的行業,企業應競價獲取排名靠前的廣告位置。顯然,本文所研究的行業屬于后者。
(3)引擎商在給廣告商提供廣告時,會向廣告商推薦
,但并不公布推薦的具體依據。結合本文研究結論,以
可觀測到的特征對
轉化率進行預測和評估,廣告商就能更好的理解
廣告并能更準確的選擇
進行競價。
本文從角度對影響廣告轉化率的相關因素進行了分析,包括推廣地區、排名位置以及
特性,構建了層次貝葉斯轉化率影響因素分析模型,利用馬爾科夫蒙特卡洛(MCMC)方法對參數進行估計。對某企業網上辦公軟件廣告3個月的競價數據進行了分析,研究結論為廣告商更好的管理
廣告提供了借鑒。
本文研究的數據和結論是針對互聯網中的一個特定行業,結果也僅局限于類似行業中,如何拓展到更多不同的行業是作者下一步的研究方向。此外,本文在選擇關鍵詞時,以周為統計單位,將在一周內轉化率為0的關鍵詞都排除在外,但該關鍵詞按月統計的轉化率可能大于0,如何考慮及評價這類關鍵詞的廣告效果值得進一步研究。
[1]陽成虎,杜青龍.基于保留價格的競價模型研究[J].西南交通大學學報(社會科學版).2009,10(4).
[2]Jansen B J,Mullen T.Sponsored Search:An Overview of the Concept, History,and Technology[J].International Journal of Electronic Busi?ness,2008,6(2).
[3]Ghose A,Yang S.An Empirical Analysis of Search Engine Advertis?ing:Sponsored Search in Electronic Markets[J].Management Science. 2009,55(10).
[4]Rutz O J,Bucklin R E,Sonnier G P.A Latent Instrumental Variables Approach to Modeling Keyword Conversion in Paid Search Advertis?ing[J].JournalofMarketing Research.2011,49(3).
[5]Jerath K,Ma L,Park Y,et al.A“Position Paradox”in Sponsored Search Auctions[J].Marketing Science,2011,30(4).
[6]Agarwal A,Hosanagar K,Smith M.Location,Location and Location: An Analysis of Profitability of Position in Online Advertising Markets [J].Marketing Research,2011,48(6).
(責任編輯/易永生)
F224
A
1002-6487(2016)19-0064-04
國家自然科學基金資助項目(71462002);廣西自然科學基金資助項目(2013GXNSFAA019340)
覃朝勇(1975—),男,廣西河池人,博士,副教授,研究方向:決策分析和運營管理。