首頁/ 汽車/ 正文

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

編輯導讀:運營常用渠道拉新、拉活、節假日活動進行使用者增長,在預算有限的情況下,怎樣平衡各項業務中的成本投入,把錢花在刀刃上呢?本文作者提出用ROI進行量化評估,一起來看看吧。

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

做增長業務,常用的策略手段有渠道拉新、拉活、節假日活動等。這幾個業務都是需要花錢的,每年分配的預算有限,如何權衡在各項業務上的投入成本,如何花錢效率最高,將好鋼用在刀刃上是需要運營管理者去思考和決策的。

如何決策更科學,那就不得不提到因果推斷這種科學的量化方法,每筆投入的 ROI 量化評判標準統一,自然就可比較。

有一套關於花錢的經典面試題,新年伊始,業務部門要做新一年的規劃,部門需要在渠道拉新、拉活、節假日活動3個地方花錢,你如何判斷花錢是否值得,分配是否合理?

這裡面隱含的一個問題是,上述3個地方你的評估標準是否統一,比如使用者價值統一用 LTV 衡量,後續統一計算 ROI 即可,最忌諱的是不同業務有不同的標準,比如拉新看次留、拉活看回流量、A活動看簽到量、B活動看積分消耗量等,不統一則不可縱向比較。

渠道拉新相對容易,因為本身拉來的是一個新使用者,自身計算 LTV 即可,但是拉活、活動因為要計算增益,就需要找對比組。

比如拉活要對比拉活和未拉活,活動要對比參與活動和未參與活動的兩個群體,這裡面就會引入新的問題,你對比的兩個群體,本身就是不同質的,比如近期高活使用者更有可能參與活動,未參與活動裡面摻雜的更多的是低活和迴流使用者,自然參與活動的使用者無論人天還是留存都會比未參與活動的人群高,那你怎麼能證明是活動本身帶來的增益呢?

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

明顯直接拿參與未參與進行對比,會存在混淆因子&自選擇偏差。

控制轉化的唯一變數不是「是否參與活動」若影響轉化的唯一變數,不只是參與活動與否這個屬性,會得出錯誤結論。

人群屬性分佈不一致的兩個組不能直接比較:

參與活動使用者本身就是相對高活的使用者,可能沒有活動也會回來,本身易轉化

其它屬性特徵導致使用者更容易參與活動,而未參與活動的使用者本身就是不活躍的不宜轉化

使用者因為節假日的影響自然頻率上升

活動期間多種策略同時影響使用者,不只活動一種策略

為了解決這個效果評估的問題,本文采用因果推斷中的傾向性得分加權的方法,找到對照組和實驗組同質的使用者群進行比較分析。

還有一種常用的方法PSM傾向性得分匹配,經對比,PSM傾向性得分匹配方法能夠處理的資料量在幾w級別,且隨著資料量的增加計算效率降低很快,甚至出現計算不出結果的情況,故推薦傾向性得分加權的方法。

一、什麼是因果推斷

在做使用者增長時,我們要回答的終極問題是“如果對產品施加 T 策略,對業務目標是否有影響,影響有多大?”我們對產品施加的策略為「因」,因此而出現的結果為「果」,中間控制住混淆變數 X ,保證 T 策略是唯一影響因素。

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

這樣就可以回答,因為 T 策略的施加,導致結果 Y 增益了多少。

干預 T(treatment) :一般為二值干預,用 T = 0 或 T = 1來指示使用者是否受到了某種干預,例如是否參與了 A 活動

潛在結果{Yi0,Yi1}:對每個使用者 i ,他們是否受到干預會有兩個潛在結果Yi0和Yi1,如Yi0表示未參與活動A,Yi1表示參與了活動A

觀察結果 Y :當一個使用者沒有受到干預時(T = 0),我們將會觀察到Y= Yi0,當一個使用者受到干預時我們將會觀察到Y = Yi1

混淆變數 X :可以簡約看成是一系列使用者特徵,對比的兩群人具有同樣的特徵分佈,可看成平行空間中的同一個人,他們的潛在結果和 T 是相互獨立的

1。 因果效應

ATE (Average Treatment Effect):

即平均處理效應,這裡的E是“期望”,對所有使用者取期望。最終匹配的干預組和控制組在因變數上的平均差異,即干預對所有人的平均效應。

ATT (Average Treatment Effect on the treated):

即處理組平均處理效應,這裡的E是對所有T=1的使用者取期望。直觀來說,ATT為實驗組樣本接觸到干預後,干預對受到干預的人的平均因果效應。

二、因果評估方法傾向性加權得分

從整體使用者群中隨機抽樣,分成兩組人群,實驗組:參與活動使用者;控制組:未參與活動使用者,帶入二元邏輯迴歸模型進行迭代,計算得到傾向性得分 P,按照 P 計算權重係數 W 用於均衡控制組人數分佈,保證控制組和實驗組人數分佈基本一致。

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

詳細原理如下:

傾向性評分是指在一組協變數條件下(X),物件 i 接受 treatment (T=1) 的機率值。這個機率值的計算最常用的是邏輯迴歸模型,也可以選用隨機森林、神經網路等模型。

在相似的得分下,treatment 和 control 基線資料的分佈應該是平衡的。

因果效應 ATT、ATE 和傾向性得分的關係如下:

ATE:

實驗組:

對照組:

即為透過模型計算出的機率得分。

ATT:

實驗組:

對照組:

至此,我們就計算出了權重係數 w。

增益效應評估

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

套入上述公式,即可計算得出 ATT 或 ATE。

三、傾向性加權得分在活動效果量化增益上的應用

以下以參與某活動為例,講解傾向性加權得分方法在活動 ROI 量化增益上的應用。

1。 實驗組和測試組劃分

因果推斷本質上是在人為模擬 AB Test,那麼模擬的 AB 兩組,也要符合真實 AB test 分組的定義。

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

注意此處很重要,否則會得出錯誤的分組結果。

2。 將因果推斷模型計算過程工程化提高複用性、縮短開發週期

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

不同的模型,使用的特徵變數基本一致,可以將常用特徵變數固定化自動化採集,豐富特徵變數庫,便於提高模型的複用性,同時縮短開發週期,高效給出策略建議。

3。 迭代最佳化邏輯迴歸模型,計算機率 P、權重係數 w

透過常用的邏輯迴歸演算法計算傾向性加權得分 P,對分類變數進行熱編碼,匹配加權結果更均勻

1)觀察變數顯著性,對於不顯著的變數可弱化模型在該變數上的匹配效果

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

2)匹配結果量化

SMD 即 Standarized Mean Difference

SMD 的一種計算方式為:(實驗組均值 – 對照組均值)/ 實驗組標準差。

以上量化指標符合規則,則說明加權匹配成功

3)量化增益值及顯著性校驗

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

is_treat = 1。62 說明參與活動使用者較未參與活動使用者30日人天增益為1。62,且結果顯著,量化評估結果可用。

4。 量化活動增益 ROI

常用衡量指標為 LTV,對比參與活動組和未參與活動組的 LTV 差異即為 LTV 增益,這裡面的難點為從活動開始計算多長時間的增益算活動帶來的,也就是說因活動帶來的增益有多大且會持續多長時間?

由活動帶來的增益會分為3部分:渠道投放新增 + 活動裂變新增 + 首次參與活動的老使用者

新增即求相應的新增使用者 LTV 即可這裡暫且不表,另外為什麼要限定是首次參與活動的老使用者呢?限定老使用者首次參與活動後,那麼其每日因活動帶來的增益就不會和多次參與活動的老使用者增益混淆在一起,導致不能很好的量化活動增益。

LT 即我們要計算的活動生命週期時長增益,LT 可以等價看成參與活動組和未參與活動組使用者在後續 N 日日活躍率的增益,N 日日活躍率增益相加即為 LT 增益。選擇看日活躍率的好處是我們可以從曲線走勢上看出以下兩點,間接驗證模型的匹配加權效果。

參與活動和未參與活動使用者在參與活動前是否可以看成同一個人?即參與活動前兩組使用者的日活躍率曲線是否重合,以此來驗證傾向性加權得分的效果

將 N 日時間週期拉長,從後續留存時長變化趨勢上幫我們清晰地定位到活動效應的存續週期

教你更科學地花錢:因果推斷在增長業務ROI量化評估上的應用

至此,我們便完整的完成了活動效果量化 ROI 的增益計算,另外因為也考慮了模型的工程化,此方法可以快速延伸到拉活、某功能改版上線等的後續增益評估上。

參考文獻:

https://dango。rocks/blog/2019/01/08/Causal-Inference-Introduction1/

https://dango。rocks/blog/2019/08/18/Causal-Inference-Introduction3-Propensity-Score-Weighting/

https://blog。csdn。net/Alleine/article/details/114999229

作者:北極星,騰訊高階資料分析師,知乎專欄:資料分析方法與實踐,致力於透過資料分析實現產品最佳化和精細化運營。

本文由 @北極星 原創釋出於人人都是產品經理。未經許可,禁止轉載

題圖來自 Unsplash ,基於 CC0 協議

相關文章

頂部