因果推斷方法在互聯網行業的應用研究綜述

2022-06-16 01:22:33柯珍梅

南北橋 2022年3期

關鍵詞：用戶實驗方法

[ 作者簡介 ]

柯珍梅，女，廣東茂名人，中國人民大學，本科，研究方向：概率論與數理統計。

[ 摘要 ]

在大數據時代，因果推斷的重要性很高，是人工智能的基礎，在互聯網行業得到深度應用。本文對因果推斷相關研究成果進行總結，并對因果推斷在互聯網行業的應用場景進行思考。

[ 關鍵詞 ]

因果推斷;互聯網

中圖分類號：G30

文獻標識碼：A

DOI：10.3969/j.issn.1672-0407.2022.03.010

1 因果推斷介紹

朱迪亞·珀爾在《為什么：關于因果關系的新科學》一書中提到，理解因果關系是理解世界的關鍵，他認為因果關系有三個層次：相關性、干預、反事實。干預指的是若實施某種行動會有什么影響，反事實指的是假如之前實施了某種行動會有什么影響。

在大數據時代，因果推斷顯得非常重要，它是人工智能的基礎，在互聯網行業得到非常廣泛的應用。在互聯網行業中我們經常會遇到很多需要進行因果推斷的案例，例如：

（1）功能迭代之后，體驗了某個新功能的用戶留存更高，那么這些用戶的高留存是因為這個新功能上線帶來的嗎？這個新功能究竟對留存的提升有多大作用？

（2）看到了某個App投放廣告的用戶激活率更高，那么這些用戶的高激活率有多大程度是由廣告帶來的呢？有沒有可能就算不投放廣告，這批用戶的激活率也會明顯高于其他用戶呢？

（3）電商平臺對部分用戶發放優惠券，發現發放了優惠券的用戶訂單轉化率更高，那么這些用戶的高訂單轉化率有多少是由優惠券帶來的呢？有沒有可能就算不投放廣告，這批用戶的訂單轉化率也會明顯高于其他用戶呢？

以上是在互聯網行業常見的案例，經常需要通過運用因果推斷方法來解決。

2 因果推斷的必要性

目前大部分機器學習方法是基于相關關系，但基于相關關系進行數據分析可能得到一些荒謬的結論，可能出現辛普森悖論、伯克森悖論以及互為因果等異常數據現象。

第一個悖論是辛普森悖論。辛普森悖論是英國統計學家辛普森于1951年提出的悖論，指的是在某個條件下的兩組數據，分別統計時都會滿足某種規律，可是一旦合并統計，卻可能導致相反的結論。舉一個例子，某個學院只有2個專業，按專業分別統計，女生錄取率均比男生要高，但合并計算時，發現女生整體錄取率卻比男生要低，這種數據現象反映的就是辛普森悖論。

第二個悖論是伯克森悖論。在現實中，我們可能會發現一種數據現象，有些變量在數據上呈現出較強的相關性，但事實上這些變量之間并無關系，這就是由伯克森在1946年提出的伯克森悖論。這個悖論產生的根本原因是統計樣本選擇存在偏差導致兩個本來無關的變量在統計上呈現出貌似較強的相關關系。舉一個案例，在出國留學的學生中，家庭條件較差的學生可能平均成績更好，那么是否可以得出寒門更容易出貴子的結論呢？顯然不能，這種數據現象是由樣本選擇偏差導致的，能夠出國的學生，要么是家庭條件較差但比較優秀可以爭取到獎學金的學生，要么是家庭條件較好可以承擔出國費用的學生，這個樣本的構成導致家庭條件與學生成績呈現負相關的統計悖論。

第三個悖論是反向因果。反向因果關系這個概念是由Marquis在1997年提出，他在研究兒童期發育障礙和母乳喂養之間的關系時，發現越是虛弱的嬰兒，其需要哺乳的時間越長，但并非發育不良導致母乳攝入量增加，而是母乳攝入量不足導致了發育不良，這就是所謂的反向因果關系。這個概念在流行病學研究中出現得較多。Coresh在1998年提出逆流行病學現象，是基于透析患者心血管疾病危險因素的反向因果關系發現的。楊慶偉在2009年也對逆流行病學現象進行了探索分析。

3 因果推斷的方法

關于如何判定因果關系，J.S.Mill在《邏輯體系》一書中提到變量之間因果關系的判定需滿足三個條件：第一，“因”變量發生時間應該在“果”變量之前;第二，“因”變量和“果”變量存在相關關系，如果“因”變量發生了變化，那么“果”變量也需要呈現相應的變化;第三，控制其他可能對“因”變量和“果”變量同時具有影響的其他變量。基于對過往文獻的閱讀，發現當前做因果推斷的最常用的方法主要有隨機實驗方法、準實驗設計方法和聯合模型方法這三類。

3.1 隨機實驗

隨機實驗方法是當前應用最普遍的因果推斷方法，在互聯網行業，為監控不同產品策略的實際效果，AB測試是業務迭代過程中最常用的一種方法。關于這種方法，有大量學者做了相關研究和探索。Aral等人以Facebook用戶為研究對象，使用隨機實驗方法研究好友關系對用戶使用行為的影響。

隨機實驗方法有兩個關鍵環節，分別是控制變量和隨機分流?？刂谱兞渴请S機實驗的核心，以互聯網行業的AB實驗為例，如果我們希望通過隨機實驗來驗證不同產品方案的效果，那么需要確保除方案變量外其他變量一致，方可判斷指標差異是方案不同造成的，從而可以選擇優勝產品方案上線。除了控制變量，隨機實驗的另外一個關鍵環節是隨機分流，Fisher在19世紀20年代就嘗試將隨機化的原則應用于實驗設計中，以上面的互聯網行業的AB實驗為例，需要保證各個產品方案針對的人群特征分布相同，從而避免除產品方案之外的影響因素影響實驗結果。

3.2 準實驗設計

準實驗設計常用的方法是斷點回歸和傾向得分匹配方法，這在計量經濟學領域是比較常用的一種因果推斷方法。

3.2.1 斷點回歸

斷點回歸與隨機實驗有一定相似性，也是嘗試利用兩組在特征分布上無顯著差異的隨機樣本進行比較，但斷點回歸的對照樣本是基于自然發生的事件（例如自然災害、已實施的政策等）構造，而非人為事先就設計好的。在外來因素干預下，如果干預因素對觀察對象有因果效應，觀察對象的相關變量會在取值上出現一個斷點，以干預因素出現的時間點為分割點，將觀察對象隨機分配為控制組和處理組，斷點回歸的目的就是檢測斷點是否存在，也就是檢測干預手段是否導致觀察對象的相關變量出現明顯變化。Angrist&Lavy曾使用斷點回歸對小班教學的效果進行研究，證明小班教學能在一定程度上提升學生的學業成績。

3.2.2 傾向得分匹配

傾向得分匹配，是基于反事實推斷模型理論框架的一種統計方法，目的是對干預效應進行分析，但所使用的數據是觀測數據。該方法的原理是將多維協變量轉變為一個一維變量（傾向得分），用于解決針對多個可觀察特征對比匹配問題，從而明顯提升匹配的成功率。例如研究吸煙對于健康的影響，所能得到的數據基本是觀察研究數據，而若不做匹配直接對抽煙人群和不抽煙人群進行整體對比分析，容易出現辛普森悖論，通過傾向得分匹配可以構造類似隨機實驗的實驗組和對照組，可以相對準確地評估吸煙對于健康的影響情況。

胡永遠和周志鳳提出傾向得分匹配主要包括模型和協變量選擇、匹配方法選擇、傾向得分計算、平均處理效應估計、敏感性檢驗等幾個步驟。

3.3 聯合模型

最常用的因果推斷模型有兩個，分別為潛在結果模型和因果圖模型。

3.3.1 因果圖模型

因果圖模型由Judea Pearl于 1995 年提出。近些年，關于因果推斷的圖模型的研究有很多，其中大部分是關于DAG（有向無環圖）。因果推斷中常用的DAG是基于貝葉斯網絡，隨機變量用貝葉斯網絡的節點來代表，而不同變量之間的因果關系由節點間的邊代表，每個節點都附有一個概率分布，根節點所附的概率分布是邊緣概率分布，而非根節點所附的概率分布是條件概率分布。

3.3.2 潛在結果模型

潛在結果模型由Rubin于 1978 年提出，該模型主要用于對同一個個體施加不同干預導致的產出差異進行評估，其核心關注指標為干預效應，用于評估給定的干預措施（例如優惠券發放）與目標結果變量（例如顧客購買）之間的因果關系。

關于潛在結果模型的研究比較多，Varian提出，可通過偏最小二乘、逐步回歸、主成分回歸等方法進行變量選擇，并可以通過K近鄰、決策樹、隨機森林等方法進行建模。

4 因果推斷在互聯網行業的應用

因果推斷在互聯網行業主要有兩個應用方向，第一個是基于A/B測試評估功能/策略迭代效果，第二個是主要基于Uplift model來預測營銷手段的增量收益，第二個方向主要運用于智能營銷場景（例如廣告投放、電影票票補、電商購物優惠券補貼、打車軟件智能定價等）。

以優惠券的發放為例，有兩個用戶群對優惠券的使用轉化率分別是2 %和4 %，在優惠券總金額有限制的情況下，應該向哪類用戶發放優惠券呢？基于營銷模型，我們可以將營銷人群劃分為自然轉化人群、無動于衷人群、反作用人群、營銷敏感人群，智能營銷的關鍵是定位到營銷敏感人群，而在分析中我們可能會用到兩類模型，分別是響應模型和增益模型，響應模型預測的是用戶收到優惠券之后的轉化概率，本質是預測相關性，無法區分自然轉化人群（就算不發放優惠券也會轉化的用戶）和營銷敏感人群（因為發放了優惠券才轉化的用戶），而增益模型可以預測用戶因為收到優惠券而轉化的概率，可以估計用戶對優惠券的敏感程度，預測的是增量收益，可以將效益最大化，這是一個將因果推斷方法應用于智能營銷的場景，類似場景還有廣告智能投放、電影票智能票補、電商購物優惠券、打車軟件智能補貼等。

增益模型的目的是預測某種干預手段給被干預對象帶來的因果效應的大小。主要有兩種建模方式，分別是Meta-Learning Method和Tree-Based Method。Meta-Learning Method是基于Meta-Learner進行Uplift預估，可以運用任意的既有的LR、SVM、RF、GBDT等預測算法，根據Meta-Learner的組合不同，通常可以分為S-Learner、T-Learner、X-Learner、R-Learner，其中S-Learner和T-Learner可以運用既有預測算法，相對簡單，而X-Learner和R-Learner可以解決更復雜的問題。Tree-Based Method是基于樹的方法，仿照標準CART樹，根據信息增益的大小不斷對特征進行分割，常用算法包括Uplift-Tree、CausalForest、CTS等。

關于因果推斷在互聯網行業的相應用研究不算很多，羅銳嘗試運用因果推斷分析方法對推薦算法的平均因果效應進行計算。

5 總結和思考

互聯網行業是應用大數據最為廣泛的行業，在大數據場景下，理解因果關系有助于推動行業的快速發展，因果推斷是一個相對成熟的學科，已經有很多成熟的方法，然而當前的研究主要還是集中于經濟學、醫學、公共衛生等傳統領域，關于該方法在互聯網行業的應用研究相對不多，如何將當前在其他領域應用得比較成熟的方法更好地應用于當前發展快速的互聯網行業，是值得深入思考的問題。

參考文獻

[1]朱迪亞·珀爾. 為什么：關于因果關系的新科學[M]. 江生，于華，譯. 北京：中信出版集團，2019.

[2]章中信. 常見的統計學謬誤之一——伯克森悖論[J]. 語數外學習（高中版上旬），2020（11）： 58-59.

[3]楊慶偉. 一種常見的逆流行病學現象分析[J]. 中華流行病學雜志，2009（12）： 1315-1316.

[4]胡永遠，周志鳳. 基于傾向得分匹配法的政策參與效應評估[J].中國行政管理，2014（1）： 98-101.

[5]托馬斯·科爾曼. 算法導論（原書第3版）[M]. 北京：機械工業出版社，2013.

[6]羅銳. 因果推斷在推薦算法A/B測試分析中的應用[J].通信與信息技術，2021（5）： 67-70.