A/B測(cè)試,那些查了很多資料才弄懂的問題|喵爪筆記

作為一只老產(chǎn)品貓,對(duì)于業(yè)務(wù)理解、用戶調(diào)研、流程梳理、交互設(shè)計(jì)等,不能算得心應(yīng)手,也已經(jīng)形成自己的工作方法,但對(duì)于A/B測(cè)試功能設(shè)計(jì),懂得這些遠(yuǎn)遠(yuǎn)不夠。

A/B測(cè)試作為一個(gè)決策工具,知道如何科學(xué)地進(jìn)行實(shí)驗(yàn)很重要。假設(shè)檢驗(yàn)是用樣本去推斷總體,并不能保證結(jié)論的正確性,我們要知道這個(gè)工具/模型的邊界在哪里,知道它的約束條件和可能存在的陷阱,在產(chǎn)品和數(shù)據(jù)模型設(shè)計(jì)中充分考慮這些因素,才能搭建出真正有價(jià)值的工具。

所以我記錄了產(chǎn)品研究過程中發(fā)現(xiàn)的,那些對(duì)于產(chǎn)品經(jīng)理來說晦澀難懂但又很重要的問題,作為學(xué)習(xí)總結(jié)分享。

01

什么是A/B測(cè)試

A/B測(cè)試是指把平臺(tái)的流量進(jìn)行均勻分組,每組投放不同方案,然后根據(jù)數(shù)據(jù)指標(biāo)判斷方案間是否存在顯著性差異,最終進(jìn)行方案決策,比如從廣告圖的不同配色方案中決定哪個(gè)更能吸引用戶。

主要包括以下步驟:

定義問題——分析現(xiàn)狀,提出假設(shè)。

實(shí)驗(yàn)設(shè)計(jì)——設(shè)計(jì)實(shí)驗(yàn)方案、定義評(píng)估指標(biāo)、估算樣本量、確定分流策略、設(shè)置投放時(shí)長(zhǎng)。

實(shí)驗(yàn)投放——抽樣投放,收集實(shí)驗(yàn)數(shù)據(jù)。

分析決策——分析效果數(shù)據(jù),決定發(fā)布版本或調(diào)整后繼續(xù)迭代測(cè)試。

02

評(píng)估指標(biāo)設(shè)計(jì)

AB測(cè)試評(píng)估指標(biāo),一般會(huì)包括兩類:

原則上應(yīng)該保持穩(wěn)定的的指標(biāo)。對(duì)比實(shí)驗(yàn)應(yīng)該在保持其它因素相同的情況下,觀察某一變量對(duì)目標(biāo)的影響。因此,我們要求實(shí)驗(yàn)組和對(duì)照組的穩(wěn)定性指標(biāo)不應(yīng)存在顯著性差異,以防止其它因素誤導(dǎo)實(shí)驗(yàn)的最終決策。比如不同的廣告圖設(shè)計(jì)應(yīng)該不影響廣告欄位的曝光量。

方案效果評(píng)估指標(biāo)。這是衡量方案效果提升的指標(biāo),比如廣告點(diǎn)擊率。評(píng)估指標(biāo)可以有好幾個(gè),設(shè)計(jì)時(shí)要注意覆蓋用戶體驗(yàn)指標(biāo)、業(yè)務(wù)轉(zhuǎn)化指標(biāo)等。

記住,指標(biāo)的設(shè)計(jì)是主觀的,因此一切數(shù)據(jù)都帶有個(gè)人主觀偏見,設(shè)計(jì)指標(biāo)時(shí)應(yīng)時(shí)刻注意指標(biāo)與業(yè)務(wù)的關(guān)聯(lián),避免錯(cuò)誤的指標(biāo)導(dǎo)致的錯(cuò)誤結(jié)論。

另外,統(tǒng)計(jì)上有顯著性差異,并不能代表優(yōu)化方案帶來的效果提升有業(yè)務(wù)價(jià)值。

統(tǒng)計(jì)學(xué)家Gene V. Glass說:“統(tǒng)計(jì)顯著性(statistical significance)是有關(guān)于結(jié)果最無聊的事情,你應(yīng)該根據(jù)量化來描述結(jié)果。

不光只是指出某種治療對(duì)人會(huì)有影響,還應(yīng)當(dāng)告訴人們這種影響究竟有多大?!?/p>

因此,我們可以在實(shí)驗(yàn)前根據(jù)業(yè)務(wù)經(jīng)驗(yàn)確定每個(gè)效果評(píng)估指標(biāo)的效應(yīng)值(effect size),然后在假設(shè)檢驗(yàn)滿足顯著性水平要求的情況下,進(jìn)一步計(jì)算方案的效應(yīng)值,判斷是否在業(yè)務(wù)上有顯著影響。

常用科恩公式衡量效應(yīng)大?。?/p>

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

分子為分組樣本均數(shù)差,分母為合并標(biāo)準(zhǔn)差。比如,對(duì)于廣告效果實(shí)驗(yàn),我們想觀察的是用戶有沒有點(diǎn)擊這個(gè)廣告圖片,屬于兩點(diǎn)分布,取值是0或者1,所以樣本均值=(取值為1的樣本數(shù))/樣本總數(shù)=點(diǎn)擊率。

雙獨(dú)立樣本合并標(biāo)準(zhǔn)差計(jì)算公式如下:

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

一般要求方案在統(tǒng)計(jì)意義上有顯著性提升,且提升幅度在業(yè)務(wù)上有現(xiàn)實(shí)意義,才認(rèn)為優(yōu)化方案有價(jià)值。

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

03

樣本量估計(jì)

假設(shè)檢驗(yàn)是用樣本去推斷總體,因此得到的結(jié)論也不是絕對(duì)正確的,存在兩類可能的錯(cuò)誤:

棄真錯(cuò)誤。零假設(shè)實(shí)際是成立的,但因?yàn)槌槿〉臉颖厩『米層^察值落入了拒絕域,導(dǎo)致拒絕零假設(shè)。在假設(shè)檢驗(yàn)中,這個(gè)概率不大于顯著性水平α,所以假設(shè)檢驗(yàn)已經(jīng)充分控制了棄真錯(cuò)誤的概率。

納偽錯(cuò)誤。零假設(shè)實(shí)際是不成立的,但因?yàn)槌槿〉臉颖厩『寐淙肓私邮苡?,?dǎo)致認(rèn)為零假設(shè)成立。假設(shè)檢驗(yàn)的α越小,納偽錯(cuò)誤的概率β就越高,因此假設(shè)檢驗(yàn)并沒有對(duì)這個(gè)錯(cuò)誤概率進(jìn)行控制。

在α確定的情況下,為使β變小,可以增加樣本量,但樣本量太多又會(huì)浪費(fèi)流量資源,所以我們需要科學(xué)地確定最小樣本量。

統(tǒng)計(jì)學(xué)上,在α、β、effect size確定的情況下,可以通過下面公式求出最小樣本量:

單尾實(shí)驗(yàn)樣本量——

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

雙尾實(shí)驗(yàn)樣本量——

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

n——每組所需樣本量,因?yàn)锳B測(cè)試一般至少2組,所以實(shí)驗(yàn)所需樣本量為2n

α——第一類錯(cuò)誤概率,一般取0.05

β——第二類錯(cuò)誤概率,一般取0.2

z——正態(tài)分布的分位數(shù)函數(shù)

σ——標(biāo)準(zhǔn)差

u1-u2——優(yōu)化方案對(duì)評(píng)估指標(biāo)提升值

上面的都是理論,怎么推導(dǎo)的我也沒怎么看懂

實(shí)際應(yīng)用中,不同軟件、計(jì)算工具用的公式也不一樣,沒搞明白誰(shuí)更準(zhǔn)確,不過最終算出來的樣本量其實(shí)差不多。

所以,我覺得產(chǎn)品經(jīng)理嘛,知道公式怎么用或者用哪些工具預(yù)估樣本量就可以了。

一般我們處理的都是比例類指標(biāo)假設(shè)檢驗(yàn)問題,下面用兩個(gè)公式舉例。假設(shè)目前轉(zhuǎn)化率p1=30%,我們希望通過新方案轉(zhuǎn)化率提升0.5%,即(p2-p1)=0.5%.設(shè)定α為0.05,β為0.2 。

公式一

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

公式二

A/B測(cè)試,那些查了很多資料才弄懂的問題(一)

計(jì)算出來的n分別是104355,104357。網(wǎng)上很多文章這里用的都是雙尾的樣本量,個(gè)人覺得這里用單尾就行,如理解有誤,歡迎指正

實(shí)驗(yàn)前,計(jì)算出每個(gè)評(píng)估指標(biāo)需要的樣本量,取最大值進(jìn)行測(cè)試即可。

工具上有在線計(jì)算器、R(power.prop.test)、python(statsmodels.stats.power)等。

04

測(cè)試執(zhí)行時(shí)長(zhǎng)

AB測(cè)試的執(zhí)行時(shí)長(zhǎng)會(huì)影響測(cè)試結(jié)論的準(zhǔn)確性。比如,時(shí)間太短的話,可能參與測(cè)試的用戶主要是產(chǎn)品高頻用戶,或者進(jìn)入實(shí)驗(yàn)的樣本量不足而影響測(cè)試結(jié)論。另外,新奇效應(yīng)可能導(dǎo)致優(yōu)化方案在短期內(nèi)帶來好的效果,但長(zhǎng)期影響不大;或者由于學(xué)習(xí)曲線的存在,當(dāng)我們進(jìn)行了一些視覺或者交互調(diào)整時(shí),用戶短時(shí)間內(nèi)未適應(yīng)。

AB測(cè)試時(shí)間長(zhǎng)度并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),主要看測(cè)試的內(nèi)容和目標(biāo)用戶的使用習(xí)慣,要與用戶使用周期相匹配,覆蓋多個(gè)周期才能得到足夠數(shù)量且有代表性的樣本,同時(shí)要注意包含工作日和節(jié)假日。

—— 如果覺得文章還OK,請(qǐng)轉(zhuǎn)發(fā) ——

特別提示:關(guān)注本專欄,別錯(cuò)過行業(yè)干貨!

PS:本司承接 小紅書 / 淘寶逛逛 / 抖音 / 百度系 / 知乎 / 微博/大眾點(diǎn)評(píng) 等 全網(wǎng)各平臺(tái)推廣;

咨詢微信:139 1053 2512 (同電話)

首席增長(zhǎng)官CGO薦讀:

更多精彩,關(guān)注:增長(zhǎng)黑客(GrowthHK.cn)

增長(zhǎng)黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營(yíng)銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長(zhǎng)…

本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/cgo/product/40592.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2021-06-15 12:16
下一篇 2021-06-15 14:44

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論