胡曉紅,王 紅,任衍具,周 瑩
(1.山東師范大學 信息科學與工程學院,濟南 250358; 2.山東省分布式計算軟件新技術重點實驗室,濟南 250014;3.山東師范大學 生命科學研究院,濟南 250358; 4.山東師范大學 心理學院,濟南 250358)(*通信作者電子郵箱wanghong106@163.com)
隨著信息技術的飛速發展,網頁因其信息量大、操作方便等優點在人們日常生活中占據了至關重要的位置,使人們的生活方式和企業營銷策略等發生了巨大變化。而互聯網廣告作為網頁的重要衍生產品也成為現代市場營銷的主要組成成分,因此,互聯網廣告效果研究對改進網頁界面設計、提高“三方”利潤,以及增強用戶體驗等方面具有重要指導意義。
但是,內、外部的一些差異將會導致用戶對廣告、網頁內容的接受程度、關注程度不一致,比如用戶認知風格這種自身內部差異,以及廣告布局、相關性這些外部差異。而現在的網絡廣告研究工作都是基于無差異假設的,很少注意到這些因素對廣告效果造成的影響。
并且,雖然計算機視覺技術日益成熟,研究人員可以根據各種圖像特征對圖像進行壓縮、識別、顯著性提取等方面的工作,但這些研究工作主要集中在自然圖像領域,網頁領域相關方面的研究很少。而網絡廣告處于網頁之中,網頁與自然圖像最大的不同在于,網頁包含的刺激物種類更多,且網頁信息是分段獲取的,廣告的形式、位置更是多種多樣,因此用傳統的自然圖像中的顯著性或注意力模型來處理網頁及網頁內的廣告信息效果不好。
此外,衡量廣告質量的指標對提高廣告效益具有重要影響。普遍情況下,人們采用點擊率、轉換率等衡量指標,但像點擊率這種衡量指標最大的缺點忽略了那些用戶可能注意到但沒有付出具體行為的廣告,而轉化率則將用戶對網頁的瀏覽和廣告的瀏覽混為一談。因此目前流行的衡量旗幟廣告傳播效果的方法欠妥,這驅使著我們找到一種新的指標,能夠真實反映用戶對網頁廣告的注意力程度。
因此可以看到這樣幾個事實:信息時代,人們的日常生活消費早已離不開網頁這一主要信息獲取方式;用戶對廣告和網頁內容的了解方式與決策會因內、外差異受到影響;廣告的衡量標準欠妥,對廣告的推廣與品牌延伸具有消極影響;大多數研究人員將計算機視覺的重點放在自然圖像上,而對網頁的研究很少;眼動技術發展迅速,獲取眼動信息變得容易,且眼動信息更加真實。
本文旨在根據以上事實,通過“點、線、面”的思維方式進行分析,主要工作在以下四個方面:
1)收集具有用戶認知風格與記憶力標簽的大規模眼動行為數據集。
2)研究用戶在整個網頁上的注意力分布情況。對網頁進行興趣區域劃分,針對廣告布局的結果分析驗證了廣告的吸引力效應,并率先提出增強效應和抑制效應;針對認知風格的結果分析得到認知相同性與認知差異性。
3)分析認知風格和廣告布局不同時,最常見的行為模式。利用頻繁模式挖掘算法挖掘興趣區域點擊行為的關聯規則,并提出DFBP(Directional Frequent Browsing Patterns)算法定向挖掘用戶最常見的瀏覽模式。
4)提出將廣告記憶力作為衡量廣告質量的新標準。本文通過多模態特征融合的方式,利用頻繁模式改進Random Forest算法,構建廣告記憶力模型,用于替代傳統的評估指標預測廣告效果,更加科學、可信。
針對互聯網廣告的研究大多集中于在線廣告的精準投放、競價系統與點擊率預估等方面[1-3],甚少涉及到廣告效果分析以及用戶注意力。研究學者主要采用數學模型或者實驗評估的方法進行論證。陳磊等[4]通過分析用戶對廣告的交互行為,總結與熱門查詢詞相關的廣告效果并排除用戶對廣告的排斥現象。王家卓等[5]對比廣告鏈接和非廣告鏈接的點擊率,驗證Jansen針對搜索引擎結果頁(Search Engine Result Page, SERP)上贊助商鏈接和非贊助商鏈接相關性的7條假設,并得出不同結論。
然而,對用戶自身差異如認知風格這種用戶特征對于廣告效果影響的相關研究甚少。不同的認知風格使得用戶在加工信息(包括接收、存儲、轉化、提取和使用)時習慣采用的方式不同。Wedel等[6]就曾指出個體認知差異對產品回憶和品牌好感的影響,但該研究只使用傳統實驗場景,而非專業設備記錄分析。因此,本文將引入場依存型(field dependence)和場獨立型(field independence)這兩個認知風格,用于區分用戶在信息加工過程中是否容易受環境信息的影響。通過認知風格對用戶分類,了解不同類型用戶的瀏覽模式和關注熱點區域,這不僅可以實現用戶和網頁間更好的互動效果,同時可以最大化利益,具有重要的研究意義和商業價值。
并且,雖然大多數研究都以點擊率、轉化率為金標準,但這種標準只專注于用戶有意識的行為信息。消費者經常伴有無意識性的注意,這使得單純使用點擊率、轉換率等行為性的衡量標準變得不再有效,競價系統也不再科學。因此,通過對用戶生理自然反映來測量注意力的方式變得更有說服力[7]。因此研究人員通過顯著性模型或注意力模型預測人們在場景中關注的位置。這項工作不僅為設計人員提供了理論指導,并提高了人機交互的體驗。Itti等[8]于1998年里程碑式地率先提出利用生物的中央周邊濾波器結構,通過融合多通道顯著性的方法組合低級特征,檢測效果很好,但計算量大。隨后,基于各種不同框架的顯著性模型被提出。例如:Bruce等[9]結合信息論的知識提出AIM(Attention by Information Maximization)模型,張孝臨等[10]在Itti模型[8]的基礎上融合馬爾可夫鏈,以及基于貝葉斯模型[11]或者圖論[12]的顯著性模型檢測算法等。
但是分析可知,多數研究人員都將眼動數據作為基線,以接近人眼數據為理想結果。盡管研究工作進展迅速,但是各項研究水平距離真實效果仍有不小的差距,而且研究工作集中在自然圖像方面,在網頁領域相關研究較少,相應的表現似乎也并不優秀。Shen等[13]在2014年Webpage Saliency中sAUC(square Area Under Curve)達到0.720 6,雖然后續不少研究對此進行改進,效果卻并未有很大的提升。
而現階段眼動追蹤技術發展迅速,已經擺脫繁重的機械設備,傳統的研究內容也將從純理論中解放出來。現在,可以直接通過眼動設備獲取用戶信息,預測用戶的行為模式,提高渲染力。Wedel等[14]通過實驗表明廣告重復出現時掃描路徑基本不發生改變。而從第一次到第三次呈現,注視時間幾乎以50%的速度遞減。Drèze等[15]研究知識經驗對個體注意力的影響,研究顯示,廣告注意方式會隨著個體經驗的不同而不同。Chen等[16-17]通過眼動數據和鼠標數據相結合,預測用戶對搜索結果的滿意度。
因此,可以直接使用眼動儀獲取眼動數據,研究用戶的注意力等隱式信息,探索用戶的簡單無標記行為,深入了解用戶心理行為,真實地反映互聯網用戶的興趣區域及興趣度,提高廣告質量,使研究信息更加完善,更加直觀了解不同類型受眾的瀏覽模式,這對廣告和品牌延伸效果具有重要的指導意義,并且能提高輸出質量。
由于本文增加了對用戶認知風格的劃分,但現有的公開數據集僅有眼動數據,所以我們進行了較大規模的數據采集工作。
通過招募的方式隨機抽取本校各專業本科生63名(18~21歲,平均19.7歲)自愿參加實驗。所有被試裸眼或矯正視力均在1.0以上,無色盲色弱等眼疾患者,符合實驗要求。完成實驗后,均可獲得少量報酬。
實驗所采用的是德國普升科技有限公司研發的SMI RED眼動儀(Version2.4),其采樣頻率為120 Hz。記錄和分析過程使用其自帶的IViewX、Experiment Center和BeGaze,實驗數據的處理和分析使用Matlab及IBM SPSS Statistics。
實驗材料分為兩部分:一部分為認知風格劃分所需圖形材料,另一部分為網頁材料。
為了將被試按照不同風格劃分開來,本文采取目前研究中采用較多的鑲嵌圖形測驗(Embedded Figure Test, EFT)。
隨機選取了七種不同類型的物品,如奢侈品、門票、家用電器等,覆蓋范圍廣泛;模擬用戶日常生活中選擇的心態,每種類型有兩種不同品牌;搜索引擎選擇百度,因為它既是全球最大的中文搜索引擎,并且與大多數中文搜索引擎排版基本相同。為保證實驗效果更加真實,讓被試盡可能像往常一樣自由瀏覽,如點擊和滾動屏幕。為了較好地控制實驗變量,保證被試看到的某一類型的SERP是一樣的,從搜索引擎中爬取所要網頁,作為實驗網頁素材,并只保留所要研究位置的商業推廣。實驗過程中,通過眼動儀記錄被試的眼動信息,通過網頁中嵌入的JavaScript代碼獲取用戶的鼠標信息。采用2(認知風格)×14(搜索任務)×3(廣告位置)的設計。
實驗分成三部分:
1)認知風格劃分。測驗要求被試者在較復雜的圖形中找到并描繪出隱藏在其中的一個指定的簡單圖形,該測驗一共25道題目,題型由易到難程度遞增。
2)網頁瀏覽。實驗開始前,先進行標準校正,當被試達標則開始正式實驗。用戶根據屏幕中的提示,了解接下來需要進行的商品類型。如:屏幕提示產品類型是手機,這意味著用戶將要以一位手機購買者的心態瀏覽某手機品牌的SERP。瀏覽過程與日常瀏覽網頁一樣。當遇到感興趣的地方,用戶可以點擊該條目。為防止用戶疲勞,每位用戶最多隨機展示6個SERP,用戶可以根據自身狀態隨時停止實驗進程。
3)廣告記憶力劃分。每個網頁關閉后,進行廣告再認測試,以檢查被試對廣告的記憶情況。記憶程度分四個等級:“A:肯定看到”“B:似乎已經看到”“C:似乎沒有看到”和“D:肯定沒有看到”。
本次實驗共采集到323條數據,其中因為被試不規范操作丟失4條,共計319條。根據研究目的,主要統計了認知風格、問卷統計和廣告位置三個變量的分布情況,具體如表1所示。

表1 實驗數據匯總表
表2~3展示了用戶注意力在SERP上的大致分布情況。按照搜索引擎的普通設定,網頁內含有10個結果鏈接(即10個條目)、廣告以及右側相關推薦。由于僅有部分用戶投入少量注意力在右側相關推薦區域內,因此右側相關推薦區域不再細分。所以每個SERP將被劃分成12個興趣區域(Area of Interest, AOI),分別為1~10、AD和R,其中:數字1~10分別表示10個條目所在興趣區域;AD表示廣告所在興趣區域;R表示右側相關推薦所在興趣區域。此處設定的指標為用戶在該興趣區域的注視時效(用戶在該區域的總注視時間與用戶瀏覽整個網頁時間的比值),通過它可以間接觀察用戶的注意力情況。其中,C0和C1分別表示認知風格為場依賴型與場獨立型,L1、L2和L3分別表示廣告位于主體上方、下方和右側。詳情見圖1。

圖1 興趣區域分割圖
表2為不同興趣區域用戶的注視時效分布情況。C0和C1表示僅按照認知風格分類用戶注意力的原始結果,并將此作為對比基線。雖然右側是多部分組合而成,不方便分辨,但也可以看出一些較明顯判斷的結論,如:用戶在1~10號位10個條目上的注意力是按其自上而下的排列順序依次減少;廣告部分相對吸引力較強;用戶注意力改變情況和整體布局相關等。

(1)
其中:FT指注視時效;u為注視時效改變量差的均值。
3.2.1 吸引力效應
觀察表2中廣告興趣區(AD)的注視時效。通過該列中每個列元素與該元素對應行的其他興趣區域的注視時效對比,可以明顯看出,在基線和L1、L2位置時,用戶在廣告區域注視時間普遍要比1~10號位注視時間長,注意力更多,且右側相關推薦也呈現大比重現象。這說明,L1、L2位置的廣告對用戶有較強的吸引力。L3位置由于處于非主體區域(10個條目右側),得到用戶的關注度偏少。用戶對廣告具有一定的抵觸心理,部分用戶在瀏覽過程中甚至直接忽略該部分內容,因此此處吸引力較弱。
比較相同布局下不同認知風格對廣告的注意力,可以看出,場獨立型認知風格對廣告的注視時間更多。
3.2.2 增強效應與抑制效應
當廣告出現在10個條目上方,即L1位置時,此時1~10號興趣區域內的注意力與基線相比明顯減少。也就是說,廣告位于L1位置,抑制用戶在1~10號位興趣區域內的注意力投入。但廣告和右側相關推薦呈現出注意力增強的效果。反觀當廣告位于L2、L3位置時,10個條目上的注意力分布呈現出增強效應,而廣告與右側相關推薦則表現出抑制效應。這說明廣告位置不同對用戶的注意力分布具有一定影響的。
不難思考其現實意義。當廣告位于L1位置,即10個條目上方時,由于廣告對用戶具有吸引力效應,且廣告首先被用戶觀察到,因此用戶很容易將更多的注意力放在廣告上。而一般廣告具有較豐富圖片和文字信息,觀看過廣告后對產品已有大致了解,因此,接下來部分注意力將相應減少。而當廣告位于L2位置,即10個條目下方時,用戶需要通過條目的閱讀來了解產品,當瀏覽過程到L2時,用戶對產品已然熟悉,所以對廣告的注意力將大幅度減少。而L3位置,因為這部分的廣告在本身就不主體區域,加上用戶對廣告的抵制心理,自然注意力放在主要搜索結果上的更多一些,廣告上的注意力也呈現減少現象,但并不是很明顯。
為了進一步了解認知風格對注意力的影響,本文采取最小顯著性差異(Least-Significant Difference, LSD)法檢驗,目的是對每種情況下注視時效的均值逐對進行比較,以判斷具體哪些水平間存在顯著差異。具體內容見表3。
3.3.1 認知相同性
從表3可看出:廣告興趣區域所對應的整列均表現出在p<0.01的條件下,用戶注視時效差異顯著。也就是說無論是哪種認知風格,廣告位置不同,都會對用戶在廣告區域的注意力造成顯著改變。因此可以得出結論:廣告位置不同時,兩種認知風格對廣告的注意力分布影響均表現出顯著差異。

表2 不同興趣區域注視時效匯總 %

表3 注視時效的多重均值檢驗結果 %
注:“*”表示0.01
3.3.2 認知差異性
采用LSD檢驗判斷具體是哪些水平間存在顯著差異。統計不區分認知風格時,不同位置之間均值差MD(I-J)顯著的共有13處,其中按照認知風格劃分后,場依賴型均值差顯著的共有7處,場獨立型共有11處。可以認為,場獨立型認知用戶受廣告位置改變而產生的注意力改變更為顯著,由此可以看出,認知風格不同對用戶注意力的分布具有顯著的影響;并且通過兩兩對比發現,L1處布局與其他兩處布局,注意力分布差異較大;廣告放置于L2、L3位置時,注意力分布差距較小。

通過表2~3的統計匯總,可以看出廣告位置不同和認知風格不同對用戶注意力造成的影響是不同的。廣告具有圖片、文字甚至視頻等多種刺激物,且言簡意賅,因此廣告對于用戶具有一定的吸引力效應。但有趣的是,當廣告位于主體右側時,吸引力效應較弱,這和人們對于廣告的抵觸心理和日常習慣相關。右側廣告過于突出,且用戶一般專注于自己所要了解的內容,因此注意較少。
而廣告位置的不同,使得用戶對整個結果頁的注意力的分布情況有明顯改變,表現為廣告位于L1位置時的增強效應和L2、L3位置時的抑制效應。當廣告位于上方,用戶注意力明顯被廣告集中,導致用戶對主體的注意力明顯減少。而當廣告位置換到主體下方時,用戶對主體內容的注意力程度明顯上升。
針對用戶種類的不同進一步進行劃分后還發現,即使認知風格不同,廣告位置的改變都對用戶注意力產生顯著影響,將此定義為認知相同性。而通過LSD檢驗,發現場獨立型認知用戶對廣告位置改變更為敏感,這種變化使得他們對整個瀏覽結果的注意力分布都與基線產生較大差異。結合3.2.1節中所提到的吸引力效應,不難看出,當廣告位于主體上方時,廣告對用戶的吸引力過大,用戶可以通過廣告其豐富的刺激物對所搜索內容進行了解,下方主體內容的注意力相對減少。
通過采集鼠標行為信息可以得到眾多特征,其中大部分特征都與眼動信息中的特征具有強相關性;且但相對于鼠標信息,眼動信息更科學、真實、即時,所以這里只選取具有較強代表性的點擊特征。
點擊行為相對于其他信息,具有更強的決策性,相對應地,用戶的注意力度也更大。因此,用戶的點擊行為是一個很好的細粒度反饋,這對了解不同用戶在不同布局下的決策行為具有重要作用。

圖2 不同認知下點擊行為的關聯規則

圖3 不同布局下點擊行為的關聯規則
圖2和圖3分別表示Apriori算法下計算出的搜索引擎結果頁上各個興趣區域的點擊行為與不同認知風格、廣告位置的關聯規則(minSup=0.03,minConf=0.4)。為了方便展示,本文將關聯規則中項目之間的連接可視化為一個有向圖。首先,需要生成規則前因和后項的鄰接矩陣,該矩陣為稀疏矩陣,矩陣里的元素值為前因和后項間的關聯度。然后,使關聯規則中的前因作為有向圖的前驅,關聯規則中的后項作為有向圖中相應前因的后件。以圖2中虛線連接線為例,表示{7}{2}→{Independence},{7}→{Independence},{7}{2}→{Dependence}都是滿足閾值的關聯規則。
分析圖2,場獨立型認知風格點擊行為的頻繁項集中項的維度要明顯大于場依賴型認知風格。這說明場獨立型用戶在瀏覽網頁時,主觀能動性較強,不拘泥于一定范圍,整體意識性強;場依賴型用戶在此過程中有相對固定的瀏覽區域,模式也相對固定。
從圖3可以看出:廣告位于L1和L3位置時頻繁項集中項的維度要明顯大于廣告位于L2;L1處的布局格式影響到的項最多,對廣告的影響力也較大;L2處的布局格式影響到的項最少,但對廣告的影響力較大。這與第3章中的結論相呼應。
盡管通過前面的研究已經足夠了解不同認知風格的用戶在不同布局下的注意力分布情況,但這些信息是無時序性的,屬于結果型信息。時序信息對了解用戶行為進程具有重要意義,研究與設計人員可以通過用戶的時序型信息,預測用戶的關注點并作出相應的決策,提升個性化效果。本文按照用戶注視點進入興趣區域的時間進行排序并分析。
針對研究的問題,即想要了解的是用戶在不同布局下,瀏覽模式的不同。眾所周知的是用戶的大體瀏覽模式為自上而下,且上部有兩種廣告布局,相互影響較大。因此瀏覽的初始階段對于研究用戶的普遍行為模式是非常重要的。本文提出一種新穎的、定向定長的,適用于當前數據與研究需求的頻繁瀏覽模式算法——DFBP。
算法1 DFBP算法。

輸出 頻繁瀏覽模式Q及其得分F。
為所有數據添加三個屬性:被采納長度l=(l1,l2,…,lp)以及與之相對應的支持度S=(s1,s2,…,sp),初始化l1=0,s1=0;
Fori=1 totDo
Forj=1 tolen(Gt) Do
計算序列首元素的支持度sj,若sj
剩余序列按照首元素值進行分類,創建相應的隊列G1,G2,…,Gt,將序列按類別進入不同隊列;
刪除每個序列首元素;
更新序列的l和s屬性,其中lj+1=lj+1,sj+1=s;
End For
End For
Fori=1 toNDo
maxFi=0
Forj=1 topDo
Fj=lj*sj
IFFj>maxFi
maxFi=Fj;
End For
IFli為l前8項之一
則該序列非頻繁序列;
ELSE
輸出頻繁瀏覽模式Qi及其得分maxFi;
End For
表4為三種布局下用戶最常見的五種瀏覽模式。觀察L1布局下的瀏覽序列,發現用戶瀏覽初期如果檢測到廣告時,將優先檢測廣告,然后按序瀏覽;如果用戶初期未檢測廣告,將按順序瀏覽條目。L2布局時廣告位于下方,用戶自然按順序瀏覽。L3布局時廣告位于右側,用戶通常按照習慣先觀察條目,但通常右側廣告圖片大、顏色鮮艷,刺激力度大,所以在1、2號條目后,用戶注意力將被右側廣告吸引。觀察三種不同布局可以看出,不同布局下用戶瀏覽模式大致是呈現自上而下型;并且還可以發現,很多時候用戶首先注視到的區域為2號位條目,之后反溯到1號位。結合實際,這種情況應該是由于用戶在使用電腦進行搜索、瀏覽時,打開新網頁會有一定的時間間隔,而這段間隔會使用戶視線重置到屏幕中間區域,加之用戶通過日常積累了解到結果主要在頁面左側排列,因此用戶首先注視2號位的條目,了解后用戶將重新按序閱讀過程。

表4 頻繁的瀏覽模式
點擊率是網絡廣告最基本的評價指標,但是隨著網絡廣告的增多,以及人們對網絡廣告了解的深入,網民不會盲目點擊廣告, 除非個別富有創意和吸引力的廣告,也有可能網民瀏覽廣告后已經形成一定的印象而無須點擊廣告或者保存鏈接的網址,甚至以后經常直接到該網站訪問等。因此,平均不到1%的點擊率已經不能充分反映網絡廣告的真正效果。據現在的統計數字顯示:網絡廣告平均點擊率已從30%降低到0.5%以下。
所以對于品牌廣告來說,廣告的成功不僅取決于是否點擊或者閱讀廣告后是否購買該商品,而更多地應該表現為用戶是否注意到并記住該商品,形成品牌效應,創造獨特良好的品牌或產品形象,提升較長時期內的離線轉化率。因此,用戶在瀏覽結束后對廣告的記憶力度應當是衡量廣告效果的一項重要標準。這樣研究用戶對廣告的記憶力度便具有了極其重要的意義。
本次實驗共收集到四種類型的信息:鼠標行為信息作為顯式信息,眼動信息作為隱式信息,廣告自身信息(如,尺寸、位置),以及用戶信息(如:認知風格、廣告記憶力)。除記憶力劃分信息將作為類標簽,其余信息均可作為模型特征。
經過分析發現,鼠標信息中絕大多數信息與眼動信息具有正相關性。相比而言,眼動信息更真實,但點擊率是網絡廣告最基本的評價指標,也是反映網絡廣告最直接、最有說服力的量化指標,所以這里拋棄除點擊數據外的其他鼠標特征。
表5為本次實驗初期提取出的會對用戶觀測度造成影響的29個特征。

表5 記憶力模型特征
為了消除因用戶個人閱讀風格,網頁類型不同帶來的差異,將對部分特征進行歸一化。例如將眼睛在廣告區域內的注視時間修改為:

(2)
其中:結束時間為用戶瀏覽完一個網頁所需要的時間。
為了使眼動特征能夠更容易處理、使用,并能夠顯示出重要的特征,去除噪聲,本文使用主成分分析(Principal Component Analysis, PCA)算法提取眼動特征中最具有代表性的主成分因子。眼動特征分為兩個集合,為了能夠更好地區分不同集合的效應,將兩個集合分開降維。
降維前對數據進行適應性分析,這里選擇KMO(Kaiser Meyer Olkin)檢驗,檢驗結果均大于0.6,表示實驗數據適用PCA降維。
圖4~5為SERP和廣告體的眼動特征經PCA降維后的結果,這里指定特征值大于1,圖中實心點的即為滿足條件的綜合特征。可以看出SERP眼動特征集經過PCA降維后提取出4個主因子,而廣告體SERP眼動特征集經過降維后提取出3個主因子,累計貢獻分別為95.4%和85.6%。

圖4 SERP內眼動特征PCA碎石圖
為了驗證降維工作的有效性,對比降維和不降維條件下的預測結果。本文降維后特征因子的選取條件是特征值大于1,對應表格中降維(4+3)的模式(兩個特征子集分別提取了4個和3個主因子)。同時為了證明這種選取方法的有效性,尤其是在廣告體眼動特征集中提取出的主因子差別不夠明顯的情況下,進一步計算了不同數量主因子的預測結果對比,這里僅以降維(4+4)為例。表6給出降維、不降維以及降維選擇不同數量主因子條件下預測結果的對比情況。
平均絕對誤差(Mean Absolute Error, MAE)是絕對誤差的平均值,平均絕對誤差能更好地反映預測值誤差的實際情況。均方誤差(Mean Squared Error,MSE)是指參數估計值與參數真值之差平方的期望值,它可以評價數據的變化程度。MAE和MSE的值越小,說明預測模型描述實驗數據具有更好的穩定性。

圖5 廣告體內眼動特征PCA碎石圖

方法準確率準確率MAE召回率召回率MAE原始0.9260450.0297940.8944930.057832降維(4+3)0.9196140.0284640.8980950.007448降維(4+4)0.9067520.0280510.9058850.040134
可以看出,雖然原始方法的準確性最高,但與本文的降維方法相比差距很小,不足1個百分點。而且使用降維方法后,不僅召回率有所提升,結果的穩定性也有可觀的提升,召回率的MAE值更是明顯下降了5個百分點。對比不同數量主因子條件下的預測結果,降維(4+4)的準確率表現不好,與前兩者差距均超過1個百分點,降維(4+4)的召回率相比本文采用的降維(4+3)提升僅0.8個百分點,但召回率MAE值卻高出3.3個百分點。因此,綜合考慮,本文使用PCA的特征降維方法,以及主成分因子的選取方式不僅有較高的準確率又有較強的穩定性和良好的說服性。
本文對訓練數據使用了一系列先進的方法,包括支持向量機(Support Vector Machine, SVM)、多層神經網絡(Multi-layer Perceptron, MLP)、分類回歸樹(Classification and Regression Tree, CRT)等。由于Random Forest既相對穩定又能夠降低過擬合程度,有很好的預測記憶力度,因此最終決定使用Random Forest。此外,針對4.2節中得到的頻繁序列,由于這種序列模式為大多數用戶所遵循,那么這種序列所對應的數據也將是大多數人所遵循的,因此這里對原始算法進行改進。
本文將用戶對于廣告的記憶力分為四個等級,程度遞減。為方便表達,對四個記憶力等級進行量化:

影響量化等級的特征即為自變量,表示為:X=(x1,x2,…,xn)。
算法2 記憶力模型。
輸入D={(x1,y1)(x2,y2)…(xm,ym)},numTrees,depth,Rate。
輸出Y。
1) DFBP(D,S,L)
2)B=Divide(D,Q)
//篩選出數據集D中包含頻繁瀏覽模式的數據
3) RandomForest rfA=new RandomForest()
rfA.buildForest(A,numTrees,Rate,depth)
For allxiinADo
End For
4) RandomForest rfB=new RandomForest();
rfB.buildForest(B,numTrees,Rate,depth);
For allxiinBDo
End For
5)Y=[]
6) For allXiinADo
If(Xi∈Q)

End For
7) ReturnY
當本文所需求的數據信息不可通過網絡獲取,并且沒有相關廣告記憶力的模型可以對比時,各項指標最好的度量對比就是多種算法的算數平均值,因此本文將此作為基線。圖6展示了實驗時采取的各種分類方法中較為經典的幾種分類方法下預測記憶力度的準確性對比,圖中虛線表示平均值綜合圖6和表7可以看出:首先,使用Random Forest預測記憶力度準確性最好,并且穩定性很好,用它描述實驗數據精度高。因為Random Forest是通過集成學習的思想將多棵樹集成的一種算法,對于一個輸入樣本,N棵樹會有N個分類結果,而隨機森林集成了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出。其次,無論使用哪種分類方法,通過本文提出的改進策略之后預測準確率都要比原始結果好,尤其是對于原始結果低于平均值的情況時,改進后準確率上升程度更大,更明顯。

圖6 不同方法下準確率對比

方法召回率的MAE召回率的MSEC5.0Bayesian NetworkSVMMLPRandom Forest原始0.0223109930.002650413改進0.0254883030.004070724原始0.0576310010.017586608改進0.0979307210.054570005原始0.0215368350.002083815改進0.0216781790.002597258原始0.0541083080.015281281改進0.0576310010.018577781原始0.0294641180.003561261改進0.0284640000.004837989
本文旨在根據不同認知、不同布局會使用戶對廣告和網頁內容的信息處理與決策受到影響,廣告的衡量標準欠妥等實際問題進行解決。
通過研究用戶在整個網頁上的注意力分布情況,了解用戶注意力分布是如何受到用戶的認知風格這種自身特征及廣告布局這種外界因素影響而變化的。不僅驗證了廣告的吸引力效應,并率先提出增強效應和抑制效應以及認知相同性與認知差異性;除此結果型信息外,探究用戶行為的時序信息,利用頻繁模式算法挖掘認知風格和廣告布局不同時,興趣區域點擊行為的關聯規則,并提出DFBP算法定向挖掘用戶最常見的瀏覽模式。最后,首次提出衡量廣告質量的一項新指標——廣告記憶力,通過多模態征融合的方式,利用頻繁模式改進Random Forest算法來構建廣告記憶力模型,預測用戶對廣告的記憶力度。這種標準彌補了點擊率中忽略掉的注意力,也彌補了轉換率中網頁內容和廣告難以區分的缺點。
綜合分析,本文對于改進SERP界面設計、提高互聯網廣告的質量、優化廣告分配效果、增加用戶的興趣度、獲得更好的交感體驗具有重要指導意義。
參考文獻(References)
[1] ANIMESH A, RAMACHANDRAN V, VISWANATHAN S. An empirical investigation of the performance of online sponsored search markets[C]// ICEC 2007: Proceedings of the Ninth International Conference on Electronic Commerce. New York: ACM, 2007: 153-160.
[2] SHAN L, LIN L, SUN C, et al. Predicting ad click-through rates via feature-based fully coupled interaction tensor factorization[J]. Electronic Commerce Research & Applications, 2016, 16(C): 30-42.
[3] RIBEIRO-NETO B, CRISTO M, GOLGHER P B, et al. Impedance coupling in content-targeted advertising[C]// SIGIR 2005: Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005: 496-503.
[4] 陳磊, 劉奕群, 茹立云, 等. 基于用戶日志挖掘的搜索引擎廣告效果分析[J]. 中文信息學報, 2008, 22(6): 92-97.(CHEN L, LIU Y Q, RU L Y, et al. Effectiveness of online sponsored search based on user log analysis[J]. Journal of Chinese Information Processing, 2008, 22(6): 92-97.)
[5] 王家卓, 劉奕群, 馬少平, 等. 基于用戶行為的競價廣告效果分析[J]. 計算機研究與發展, 2011, 48(1): 133-138.(WANG J Z, LIU Y Q, MA S P, et al. Sponsored search performance analysis based on user behavior information[J]. Journal of Computer Research and Development, 2011, 48(1): 133-138.)
[6] WEDEL M, PIETERS R. Eye fixations on advertisements and memory for brands: a model and findings[J]. Marketing Science, 2000, 19(4):297-312.
[7] KERFOOT W C, KELLOGG D, STRICKLER R J R, et al. Visual Observations of Live Zooplankters: Evasion, Escape, and Chemical Defenses[M]. Lebanon, New Hampshire, USA: University Press of New England, 1980.
[8] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[9] BRUCE N D, TSOTSOS J K. Saliency, attention, and visual search: an information theoretic approach[J]. Journal of Vision, 2009, 9(3): 5.1.
[10] 張孝臨, 趙宏偉, 王慧, 等. 基于對比敏感度和馬爾可夫鏈的注意信息提取算法[J]. 電子學報, 2010, 38(增刊1): 213-217.(ZHANG X L, ZHAO H W, WANG H, et al. Extracting attention information algorithm based on contrast sensitivity and Markov chain[J]. Acta Electronica Sinica, 2010, 38(S1): 213-217.)
[11] ZHANG L, TONG MH, MARKS T K, et al. SUN: a Bayesian framework for saliency using natural statistics[J]. Journal of Vision, 2008, 8(7): 32-32.
[12] HAREL J, KOCH C, PERONA P. Graph-based visual saliency[C]// NIPS 2006: Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 545-552.
[13] SHEN C, ZHAO Q. Webpage saliency[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 33-46.
[14] WEDEL M, PIETERS R. Eye fixations on advertisements and memory for brands: a model and findings[J]. Marketing Science, 2000, 19(4): 297-312.
[16] CHEN Y, LIU Y, ZHOU K, et al. Does vertical bring more satisfaction? Predicting search satisfaction in a heterogeneous environment[C]// CIKM 2015: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1581-1590.
[17] LIU Y, CHEN Y, TANG J, et al. Different users, different opinions: predicting search satisfaction with mouse movement information[C]// SIGIR 2015: Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2015: 493-502.
This work is partially supported by the National Natural Science Foundation of China (61672329), the Shandong Provincial Science and Technology Program (2014GGX101026), the Shandong Province Education Science Planning Program (ZK1437B010), the Graduate Scientific Research Innovation Fund of Shandong Normal University (SCX201747).