999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AB實驗系統與數據統計分析在互聯網產業下的應用

2020-09-27 23:18:21王志興
數碼設計 2020年10期

王志興

摘要:隨著流量紅利、人口紅利衰減 ,產品運營算法更加關注精細化運營,AB實驗是一種精細化運營的手段。通過對實驗策略和對照策略的數據進行分析,對比關鍵指標的變化,將轉化率高的策略進行轉全上線。指標分析分為實時指標和離線指標,實時指標用來及時反饋數據異常與否,離線指標用來觀察業務關心的指標的變化情況,其中對指標的有效性分析需要統計學的樣本量預估和假設性檢驗。

關鍵詞:AB實驗;數據埋點;指標分析;假設性檢驗;實驗轉全

中圖分類號:TP311.13?文獻標識碼:A?文章編號:1672-9129(2020)10-0026-02

1?項目背景介紹

ABTest將用戶隨機分為若干個用戶組,將不同的用戶組同時試驗線上不同的版本效果。我們將新建一個頁面設置為測試頁面,然后這個新建的頁面可能在背景顏色,文字內容及風格樣式等與原有的基線頁面不同,我們將這兩個頁面隨機的分發給不同的在線用戶,其中看到基線頁面的用戶群體為A流量組,看到測試頁面的用戶群體為B流量組,A流量組和B流量組所占全體用戶的比例是一致的,且用戶畫像群體隨機離散。在實驗過程中我們對用戶的行為數據進行埋點,通過統一的上報通道收集到數據倉庫中。最終后臺通過大數據分析的方式計算出基準頁面及測試頁面不同的點擊,意向及轉化率等指標,幫助業務對產品策略進行決策。AB實驗的三個特性,先驗性:相對于后驗先讓部分小流量用戶使用,來驗證我們的想法;并行性:運行兩個或兩個以上版本策略同時去對比,節省驗證時間;科學性:用統計的指標判斷結果,避免我們依靠經驗主義去做決策。

但是ABTest僅僅只是將用戶分成若干個不同的群體,存在如下的問題

1.1流量饑餓及實驗間相互影響。現有大部分分流模型都是單層的實驗模型,即不同的實驗使用不同的流量,各自獨立,流量間互不干擾,但是會存在流量饑餓的問題。單層實驗模型下,其中實驗A占用了40%的實驗流量,實驗B占用了50%的實驗流量,在增加一個實驗C20%的實驗流量時,我們發現已經沒有空閑流量給實驗C使用,支持的實驗個數是有限的。在多層的實驗模型下,即不同的實驗使用的流量相互正交,可以最大程度支持實驗數量,但是這樣會存在實驗間相互干擾的情況。多層實驗模型下,假設針對某個功能模塊建立了背景顏色實驗和文字顏色實驗,背景顏色實驗中背景色是紅色或者白色,文字顏色實驗中文字顏色是紅色或者綠色,并且這兩個實驗分別放置于不同的實驗層中,如果用戶同時命中了這兩個實驗,并且命中的策略是背景顏色為紅色,文字顏色也是紅色,如此一來就導致了頁面樣式不可讀,實驗間相互干擾的情況出現。

1.2業務埋點方案復雜。在一般的埋點方案下,業務方的每個需求都需要向負責埋點的同學申請埋點規范,并且需要業務方關注埋點的數據,實驗埋點邏輯完全由代碼控制,增加了業務方同學的開發量,埋點行為缺乏控制,容易出現缺少埋點,埋點錯誤等問題。

1.3數據產出不及時,缺乏科學分析方式。ABTest在整體流程上只包含業務的分流,并不包含產出數據的具體流程,所有的數據產出需要業務方找專業的數據人員去提取數據,而且在產出數據后,僅通過指標的大小比較,以確定最優策略。但在現實情況中,這樣的策略全量發布后,往往沒有獲得正向的收益。

2?實驗系統設計

2.1分流模型:原有的分流模型只包含同層實驗模型及多層實驗模型。而在實驗系統提供的解決方案中,可以同時滿足業務方對互斥實驗和正交實驗的需求。具體實現中,實驗系統按照業務維度對用戶的流量進行劃分,在每個業務內部實驗系統對實驗的位置進行了劃分,最高級別的是頁面的維度,其次對每個頁面拆解為多個模塊,最后在模塊的維度進一步拆解為若干個層;接著實驗系統內部按照業務將用戶的流量均勻劃分為若干個流量大小相同的流量桶,然后將這些流量桶組成實驗域,這些實驗域包含隔離實驗域(在這個域下的用戶不會命中任何實驗),互斥實驗域(在這個實驗域中的用戶在這個業務下至多命中一個實驗),正交實驗域(在這個域中我們分為頁面隔離實驗即用戶在一個頁面可以命中至多命中一個實驗,正交實驗即用戶可以命中多個實驗)。業務在進行實驗的時候可以對自己實驗的實驗方式進行選擇,放在不同的實驗域中進行實驗,來支持更多的實驗。

2.2流量圈定:首先對用戶進行流量圈定,如所在的城市需要是北京,客戶端版本范圍圈定,用戶畫像圈定等,我們將這些條件和我們的實驗進行綁定,確保只有滿足上述條件的用戶才能命中該實驗。

2.3分流算法: 將每一層用戶充分打散的算法,分流算法為f(分流標識+離散因子)。在分流標識方面,實驗系統支持多種分流標量,例如uuid,userid,cookie等一系列的用戶唯一標識。而在離散因子上實驗系統會為每層生成不同的離散因子,并且會對離散因子進行預驗證來保證該離散因子能夠保證用戶在每層上命中的實驗都是均勻離散的。最后在離散算法上,我們通過對大量算法的驗證,最終采用Murmur3Hash作為我們的離散算法,更好的保證用戶能夠充分離散。

分流流程: 根據分流算法f(用戶唯一標識+業務) mod 100獲取用戶在業務上命中的桶號,根據桶號我們找到業務所在的實驗域,如果在對照實驗域,那么用戶不會命中任何實驗,直接返回;如果用戶命中隔離實驗域,那么用戶通過命中的桶號去層上找到對應的實驗,如果找到實驗則返回該實驗,如果沒有找到則直接返回。如果用戶命中正交實驗域,這時如果該層屬于頁面隔離的實驗范疇,我們根據分流算法f(用戶唯一標識+業務+頁面標識) mod 正交實驗域桶個數 獲取新的桶號;如果該層屬于正交實驗的范疇我們根據分流算法f(用戶唯一標識+業務+層標識) mod 正交實驗域桶個數 獲取新的桶號。我們根據獲取到的桶號去層上找到對應的實驗,如果找到實驗則返回該實驗,如果沒有找到則直接返回。

3?數據分析

3.1樣本量預估:層域模型客觀避免了實驗干擾也支持了更多的實驗,但是同層上主觀流量浪費依然存在,大家喜歡隨機申請流量,流量到底多少合適?既不浪費流量,又能保證流量足以置信。樣本量過小:實驗結果不能排除隨機誤差造成的假象樣本量過大:策略影響面較大、資源浪費,同層流量是有限的。所以系統應該提供科學的樣本量計算工具,根據現在的數據指標和預估提升率計算出樣本量。

3.2埋點流程:業務PM首先在實驗系統平臺配置該實驗所需要關注的相關埋點,實驗系統會將埋點和實驗的關聯關系統一下發到分流服務中,然后客戶端向分流服務請求實驗的時候會將埋點信息一并下發到客戶端中,并保存到本地的緩存。業務只需要關注自己業務的埋點,并不需要顯式的將實驗信息追加到埋點中,最終在埋點通報上報的過程中,會去通過埋點id查詢本地緩存,找到該埋點關聯的實驗信息,自動追加到埋點中,完成實驗數據的上報。

3.3數據產出:業務首先在實驗系統平臺配置關心的數據指標,根據上面埋點流程產出的數據,實驗系統會將業務實驗的流量明細進入數據倉庫,實驗系統會通過業務配置的不同的數據指標。

實時指標:1)數據指標:曝光UV、點擊UV、意向UV、支付UV、支付訂單數、支付金額等;2)實時數據以天為維度,從當天0點0分開始到當前時間的累積數據(UV去重);3)存入底表字段:除了篩選維度外,支持 abtest_key、版本、埋點模塊 在底表查詢; 4)展示需求:默認按該ABkey下ABtest_flow維度展示當天實時指標數據;日期項下顯示當天。每個實驗數據表中展示這個實驗key的埋點轉化數據(每個實驗的數據單獨展示);5)數據下載需求:支持數據下載及復制SQL。

離線指標:啟動不同的后臺ETL任務將實驗的指標數據進行聚合,統一存儲到業務實驗指標庫中,最后在實驗系統平臺讀取業務實驗指標庫的數據進行報表展示。

3.4數據分析:業務在進行數據分析的過程中,實驗系統引入了統計學的相關概念,假設性檢驗,是統計學中用來判斷從樣本得出的結論能否推論到總體的一種方法(小概率反正法)。原假設:實驗策略與對照策略無顯著差別,備擇假設:實驗策略與對照策略有顯著的差別,顯著性水平α:當原假設為正確時卻把它拒絕了的概率或風險,規約α=0.05,P值:表示對原假設的支持程度,P <=α時,小概率事件不可能發生,拒絕原假設,即備擇假設成立,P> α時,接受原定的零假設。我們將實驗的結論直觀的告訴給業務方,方便業務方進行數據分析,確定實驗是否置信。

3.5實驗轉全:實驗策略的指標達到預期后,需要發起轉全申請,申請應該提正式的轉全郵件,內容應該包括實驗背景概述、項目簡介、小流量數據指標、性能數據、上線日期、下一步計劃、審批人和關注人等,待審批人認可并通過審批后方可進行策略上線。

參考文獻:

[1] R. Kohavi, R. Longbotham, D. Sommerfield, and R. M. Henne. Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18, no. 1:140–181, July 2008.

[2]T. Crook, B. Frasca, R. Kohavi, and R. Longbotham. Seven pitfalls to avoid when running controlled experiments on the web. Microsoft white paper, March 2008. http://exp-platform.com/Documents/ExPpitfalls.pdf.

[3]石林,張景.概率論與數理統計——理論與演練[M].第1版.成都:西南交通大學出版社,2013

主站蜘蛛池模板: 一区二区影院| 中文字幕日韩丝袜一区| 亚洲永久精品ww47国产| 亚洲伦理一区二区| 欧美第二区| 久久综合色天堂av| 99精品免费欧美成人小视频 | 在线毛片网站| 国产成人精品视频一区二区电影| 久久久久久高潮白浆| 无套av在线| 国产青青草视频| 国产另类乱子伦精品免费女| 精品国产一区二区三区在线观看| 午夜福利无码一区二区| 在线一级毛片| 欧美福利在线| 亚洲第一色视频| 国产精品永久久久久| 国产又粗又爽视频| 亚洲天堂久久| www.91在线播放| 亚洲精品桃花岛av在线| 国产亚洲精品自在线| 毛片免费视频| 欧美亚洲第一页| 国产精品久久久精品三级| 999国产精品| 日韩麻豆小视频| 欧美亚洲欧美| 欧美一级99在线观看国产| 免费中文字幕一级毛片| 亚洲视频在线青青| 国产日产欧美精品| 网久久综合| 亚洲国产成人无码AV在线影院L| 中文字幕伦视频| 亚洲国产天堂久久九九九| 伊人久久大线影院首页| 香蕉视频国产精品人| 国产麻豆福利av在线播放| 思思热在线视频精品| 久久午夜夜伦鲁鲁片不卡| 精品五夜婷香蕉国产线看观看| 91在线丝袜| 就去色综合| 久久一本日韩精品中文字幕屁孩| h网址在线观看| 动漫精品啪啪一区二区三区| 亚洲欧美精品在线| 欧美无遮挡国产欧美另类| 丁香五月亚洲综合在线 | 四虎精品黑人视频| 在线a网站| 亚洲av无码牛牛影视在线二区| 欧美一区中文字幕| 高h视频在线| 国产亚洲精品精品精品| 国产成人a毛片在线| 中国一级特黄大片在线观看| 亚洲天堂日韩av电影| 国产精品开放后亚洲| 午夜啪啪福利| 91色在线观看| 日本国产在线| 亚洲精品国产日韩无码AV永久免费网| 国内精自线i品一区202| 91偷拍一区| 欧美三级自拍| 国产区成人精品视频| 国产欧美精品一区二区 | 日韩在线永久免费播放| 中文字幕在线播放不卡| 尤物在线观看乱码| 欧美日本激情| 免费看a级毛片| 亚洲浓毛av| 91亚洲免费| 欧美日韩亚洲综合在线观看| 亚洲浓毛av| 亚洲色图欧美一区| 日韩国产综合精选|