論A/B測試在電子郵件營銷中的運用

2019-01-14 09:14:30楊山山

現(xiàn)代營銷·學(xué)苑版 2019年12期

摘要：在國外，通過設(shè)計A/B測試，改善產(chǎn)品的使用流程，提升用戶體驗，不斷促進用戶或收入的增長，已經(jīng)形成了一套非常科學(xué)的流程和方法論。除一些大型互聯(lián)網(wǎng)企業(yè)外，A/B測試的流程和方法還沒有得到較好的應(yīng)用。近年來，隨著越來越多傳統(tǒng)企業(yè)的互聯(lián)網(wǎng)化，如何提升產(chǎn)品設(shè)計和運營的效率，加強市場競爭力，減少犯錯機會，已經(jīng)是一個迫在眉睫需要解決的問題。本文旨在以PDCA思路為基礎(chǔ)，詳細闡述A/B測試的相關(guān)細節(jié)，為中小企業(yè)的產(chǎn)品設(shè)計和運營效率的提升，提供一些行之有效的參考方法。

關(guān)鍵詞：A/B測試;郵件營銷;PDCA

一、概述

A/B測試是指通過對真實訪客進行隨機分組，讓不同分組的訪客訪問不同的設(shè)計方案（變量），并借助統(tǒng)計學(xué)原理對收集到的訪客行為數(shù)據(jù)進行假設(shè)檢驗分析，從而找出最佳方案的一種方法。通俗一點說，即一部分用戶訪問方案A，另外一部分用戶訪問方案B，A、B方案間僅存在一個因素（變量）差異，排除其他干擾因素，最終通過觀察數(shù)據(jù)確定訪客的行為方式和行為內(nèi)容。

A/B測試作為一種數(shù)據(jù)驅(qū)動的精細化科學(xué)運營方法，在互聯(lián)網(wǎng)行業(yè)有著非常廣泛的應(yīng)用，能夠幫助企業(yè)在用戶增長、廣告效果優(yōu)化、獲客成本優(yōu)化、轉(zhuǎn)化率優(yōu)化、用戶體驗優(yōu)化等方面快速找到最佳方案。目前，A/B測試在國外已經(jīng)非常普及，并形成了一整套的成熟工具、系統(tǒng)的解決方案。但在國內(nèi)，A/B測試應(yīng)用得還不是特別普遍，很多中小型互聯(lián)網(wǎng)企業(yè)甚至都沒聽過A/B測試。因此，本文將以電子郵件營銷的A/B測試為例，基于PDCA思路系統(tǒng)闡述A/B測試的流程，具體如下圖所示：

二、確定改善指標(biāo)&目標(biāo)

在正式A/B測試前，應(yīng)首先明確對什么指標(biāo)進行改善，以及希望達到多大的改善。一個好的數(shù)據(jù)指標(biāo)應(yīng)做到：1.具體的且可量化的;2.指標(biāo)改善能夠促進業(yè)務(wù)發(fā)展;3.體現(xiàn)產(chǎn)品關(guān)鍵行為;4.指導(dǎo)團隊的努力方向;5.促進資源合理分配;6.易于被各個部門理解和溝通。一般來說，設(shè)定一個好的指標(biāo)與目標(biāo)，可以讓執(zhí)行團隊對結(jié)果負(fù)責(zé)，并逐漸形成一種以結(jié)果為導(dǎo)向的文化氛圍。

由于不同團隊的電子郵件營銷的目的各不相同，這就會導(dǎo)致不同團隊的改善指標(biāo)也會有很大的差異。通常來說，在電子郵件營銷中，常用的改善指標(biāo)有開封率（獨立打開郵件用戶數(shù)/送達用戶數(shù)）、點擊率（獨立點擊用戶數(shù)/送達用戶數(shù)）、CTO（點擊率/開封率）。根據(jù)郵件服務(wù)商webpower統(tǒng)計，我國電子郵件的平均開封率在7%左右，平均點擊率在2%左右。

三、設(shè)計測試方案

在設(shè)計A/B測試方案時，應(yīng)根據(jù)MECE（窮盡不交叉）原則對所有可能會影響改善指標(biāo)的因素進行拆解，并根據(jù)自己對這些因素影響大小進行假設(shè)，對實施簡單且對指標(biāo)改善影響大的因素優(yōu)先開始執(zhí)行，對實施困難且對指標(biāo)改善影響小的因素最后執(zhí)行。

根據(jù)經(jīng)驗，可以用來作為郵件營銷的測試因素有：推送時間、標(biāo)題文案、標(biāo)題字符數(shù)、單雙標(biāo)題、句式差異（如陳述句式與疑問句式）、限時限量、圖片或文案的放置位置、圖片大小與類型（如女性照片與男性照片對比）、字體大小與顏色、內(nèi)容列表數(shù)量（如5條內(nèi)容與10條內(nèi)容的差異），地域名詞差異（如北京與延慶）、簡寫與全拼、增加客服聯(lián)系方式、數(shù)量名詞（如產(chǎn)品有多少用戶）、專家或機構(gòu)名稱，等等。一般來說，推送時間越合理，標(biāo)題越吸引人，郵件設(shè)計越合理，開封率、點擊率就會越高，反之則較低。

在實踐中，A/B測試通常執(zhí)行的是單變量測試，即一個因素的變化對指標(biāo)改善的影響。但是，有時候為了提高測試效率，當(dāng)測試的是多因素多水平對指標(biāo)改善影響的時候，建議可以使用多變量測試。需要注意的是，當(dāng)執(zhí)行多變量測試時，由于排列組合較多，建議可以引入正交實驗思路進行處理，或者使用軟件對因素和水平隨機抽樣來處理。

四、選擇合適的抽樣方法

抽樣好壞直接影響著最終測試結(jié)論的可信性。抽樣應(yīng)保證樣本是從同一總體中隨機抽樣的相似樣本，符合統(tǒng)計學(xué)上的無偏性、有效性和一致性。在電子郵件營銷的A/B測試中，考慮到實施方便、隨機化等原則，推薦使用系統(tǒng)抽樣作為首選的抽樣方法。

具體實施過程如下：

根據(jù)A/B測試要推送的用戶總體N，按照用戶的訪問時間（或其他合適標(biāo)志，如用戶IP地址的奇偶性）進行排序;然后依據(jù)設(shè)定的樣本量大小n，確定間隔k=N/n;從k中隨機抽取2個數(shù)字為起始點，然后每隔n個用戶抽出一個樣本，直到抽滿兩組樣本為止。

由于在實際電子郵件營銷中，n通常比較大，因此不考慮N/n不是整數(shù)的影響。或者采用簡化的處理方法，將kd（kd=N-nk）個抽樣單元舍棄掉。這種做法略顯粗暴，但從效果上看并無太大影響。

五、計算樣本量

樣本量的大小直接影響著抽樣誤差的大小。一般來說，樣本量越小，抽樣誤差就會越大;樣本量越大，抽樣誤差就會越小，但也會帶來不具備實施條件、成本過高，甚至是完全沒必要等問題。因此，在抽樣設(shè)計中，確定合理的樣本容量n是實施抽樣的必要前提，如果樣本容量n無法確定，就無法展開后續(xù)工作。對于A/B測試的樣本量確定步驟如下：

第1步：根據(jù)A/B測試要求，確定估計精度水平，包括絕對誤差限度d和置信度1-a。

第2步：對總體方差S2進行估計。可以利用以前的調(diào)查結(jié)果、預(yù)調(diào)查結(jié)果或?qū)＜医?jīng)驗進行估計。對于總體比例估計，如果P未知，可遵循方差最大選擇，即P=0.5。

第3步：根據(jù)上述的精度水平、總體方差S2的預(yù)估結(jié)果，并考慮N的大小，計算出初始樣本量n1。對于總體比例的估計而言，S2=P（1-P），具體的計算公式為：

[n1]：初始樣本容量

N：待抽樣的總體規(guī)模

d：絕對誤差限度

P：總體中具有某一特征的比例。如果未知，取P=0.5。

z：在某一置信度下對應(yīng)的分位數(shù)。常用的是95%的置信區(qū)間對應(yīng)的z為1.96。

通過公式1可以看出，影響樣本數(shù)量的主要因素有總體規(guī)模、總體中某一特征的比例、某一置信區(qū)間下的z分?jǐn)?shù)、誤差限度。

第4步：根據(jù)不同的抽樣方式，確定設(shè)計效應(yīng)deff，并對初始樣本[n1]進行調(diào)整，對于系統(tǒng)抽樣，deff近似取1。

第5步：在實際郵件推送中，受硬彈、軟彈、用戶投訴等因素的影響，郵件送達率并不能做到100%，會有一定的損耗，這里假設(shè)送達率為a，對樣本量再次進行調(diào)整，從而確定最終抽樣樣本數(shù)。

示例1：假設(shè)某企業(yè)要開展一項新業(yè)務(wù)，符合這項業(yè)務(wù)的目標(biāo)用戶群是N=10000人，根據(jù)過去的郵件推送記錄，這10000人的整體開封率是P=7%，我們希望新業(yè)務(wù)的開封率提升到10%（d=10%-7%=3%），10000用戶的送達率是a=98%。根據(jù)公式1和2，可以計算出在95%的置信區(qū)間下（z=1.96）樣本數(shù)量為276個樣本。

如果上述業(yè)務(wù)缺乏總體開封率的統(tǒng)計，那么可以假設(shè)P=50%，誤差限度3%，從而計算出在95%的置信區(qū)間下（z=1.96）樣本數(shù)量為984個樣本。

六、假設(shè)檢驗

假設(shè)檢驗是利用樣本去估計總體的一種統(tǒng)計學(xué)方法，其基本思想就是小概率事件，即當(dāng)某一事件出現(xiàn)的概率非常小的時候，我們就認(rèn)為其不會發(fā)生。在執(zhí)行電子郵件營銷A/B測試的假設(shè)檢驗時，推薦使用的統(tǒng)計方法是兩總體比例之差進行假設(shè)檢驗。此外，考慮到執(zhí)行A/B測試主要兩個目的：1.哪種設(shè)計方案更好？2.相比較差方案，較好的方案改善了多少？下面分別介紹這兩種情況的假設(shè)檢驗過程。

（一）檢驗總體比例p1、p2是否相等

假設(shè)A組的開封人數(shù)為a1，送達人數(shù)為n1，則p1=[α]1/n1;B組的開封人數(shù)為b2，送達人數(shù)為n2，則p2=b2/n2。根據(jù)統(tǒng)計原理，如果n1p1、n1（1-p1）、n2p2、n2（1-p2）都大于等于10時，就可以認(rèn)為是大樣本，從而基于正態(tài)分布對兩樣本的比例之差p1-p2的抽樣分布進行假設(shè)檢驗。

H0：兩組開封率無差異，即p1=p2

H1：兩組開封率有差異，即p1?p2

z=[p1-p2p（1-p）（1n1+1n2）]? （公式4）

p：在原假設(shè)成立的情況下，將兩個樣本合并為一個樣本的開封率，即p=（x1+x2）/（n1+n2）。

在統(tǒng)計上，一般原假設(shè)H0是希望被拒絕的假設(shè)，備擇假設(shè)H1則是希望通過實驗證明能夠被接受的假設(shè)。在執(zhí)行A/B測試時，是希望找到有改善的解決方案，故原假設(shè)為p1=p2。然后通過如果計算z值，如果|z|>[zα/2]，則拒絕原假設(shè)，否則則接受原假設(shè)。

示例2：假設(shè)某項新業(yè)務(wù)在執(zhí)行推送時間對郵件開封率影響的A/B測試，其中A組為上午8點推送，送達984人，開封70人;B組為晚上7點推送，送達983人，開封98人。直觀上看，B組的開封率更高一些，那么這兩組是否有統(tǒng)計學(xué)上的顯著差異呢？根據(jù)公式4，可計算出z=2.265。假設(shè)置信區(qū)間為95%，那么[zα/2]=1.96，由于|z|>[zα/2]，我們可以拒絕原假設(shè)，晚上7點推送的B組的設(shè)計方案更好。

（二）檢驗總體比例p1-p2是否等于某個常數(shù)d0

H0：兩組開封率之差小于或等于d0，即p1-p2≤d0

H1：兩組開封率之差大于d0，即p1-p2> d0

z=[p1-p2-d0p1（1-p1）n1+p2（1-p2）n2]? （公式5）

如果計算的z值|z|>[zα/2]，則拒絕原假設(shè)，否則則接受原假設(shè)。

在實際執(zhí)行A/B測試中，我們不僅要檢驗?zāi)慕M效果更好，通常我們也會將測試結(jié)論分享給其他部門或領(lǐng)導(dǎo)，并明確通過A/B測試將指標(biāo)提升了多少，這里就可以借助兩總體比例之差是某個常數(shù)進行假設(shè)檢驗。繼續(xù)以示例2為例，相比A組，B組開封的效果是否提升了43%（即d0=3%）？根據(jù)公式5，可計算出z=-0.115，假設(shè)置信區(qū)間為95%，那么[zα/2]=1.96，由于|z|<[zα/2]，接受原假設(shè)，即盡管B組效果更好，但相比A組，未提升43%。

七、確定合理的α值

在統(tǒng)計學(xué)上，原假設(shè)正確，而我們卻當(dāng)作錯誤加以拒絕的概率，稱為顯著性水平α，即小概率事件發(fā)生的可能性大小。α值在不同的行業(yè)有不同的選擇，如果拒絕原假設(shè)的風(fēng)險越大，成本越高，那么建議將顯著性水平α值設(shè)置得較小一些;如果拒絕原假設(shè)的風(fēng)險很小，成本不高，那么這時可將顯著性水平α值設(shè)置大一些。常用的顯著性水平α值有0.01、0.05、0.1。

在電子郵件營銷的A/B測試中，依然推薦使用常用的顯著性水平α值。但根據(jù)個人經(jīng)驗，如果嚴(yán)格執(zhí)行上述標(biāo)準(zhǔn)，將α設(shè)置得較小，可能會讓很多測試結(jié)果找不出統(tǒng)計學(xué)上的差異性，長期下來，會讓大量的測試沒有結(jié)論，打擊測試團隊的積極性。因此，在要求不高的情況下，將顯著性水平α設(shè)置成0.2或0.3，也是完全可以接受的。

八、A/B測試總結(jié)報告

當(dāng)通過一組測試，發(fā)現(xiàn)某個變量對改善指標(biāo)有比較明顯的影響時，應(yīng)將相關(guān)測試數(shù)據(jù)和檢驗過程發(fā)送給相關(guān)部門的負(fù)責(zé)人，并請示測試方案是否可以向總體進行推廣應(yīng)用。此外，對A/B測試結(jié)果應(yīng)制作成月度報告，在全公司范圍內(nèi)進行展示。這樣做的好處是，一方面可以展示測試成果，突顯測試團隊的價值，爭取到更多的資源;另一方面可以使公司的其他部門快速獲取A/B測試經(jīng)驗，加快業(yè)務(wù)推進;最后，還可以營造一種測試文化，吸納更多的測試創(chuàng)意。需要注意的是，通過樣本測試發(fā)現(xiàn)的有益方法，在向總體應(yīng)用時，有時會表現(xiàn)得并未像測試那樣好，導(dǎo)致這個問題的原因有很多，如抽樣是否做到足夠隨機、改善指標(biāo)是否有周期性、是否存在測試方案外的其他關(guān)鍵影響因素等。

參考文獻：

[1]金勇進，杜子芳，蔣妍.《抽樣技術(shù)》（第四版）[M].北京：中國人民大學(xué)出版社，2015.

[2]賈俊平.《統(tǒng)計學(xué)》（第六版）[M].北京：中國人民大學(xué)出版社，2015.

作者簡介：

楊山山（1982.4-? ），男，漢族，遼寧省大連市普蘭店，中國人民大學(xué)在職研究生，研究方向：數(shù)理統(tǒng)計。

現(xiàn)代營銷·學(xué)苑版2019年12期

現(xiàn)代營銷·學(xué)苑版的其它文章: 廣西農(nóng)村電商與農(nóng)村物流發(fā)展問題研究; 電子商務(wù)發(fā)展對物流經(jīng)濟促進作用的實證研究; 大數(shù)據(jù)時代智慧物流園區(qū)信息平臺建設(shè)的有效路徑; 智慧物流時代電子商務(wù)末端配送優(yōu)化研究; 大數(shù)據(jù)時代農(nóng)產(chǎn)品電商模式探索; “一帶一路”倡議區(qū)電子商務(wù)新常態(tài)模式探索