AB 測試:AB 測試的效果監(jiān)控

專題分析之后往往會有很多落地項,在落地項的基礎上,很多時候要進行 AB測試。今天我就講下 A/B 測試。

本課時內容分為三部分:

  • A/B 測試介紹;
  • A/B 測試注意事項;
  • A/B 測試案例。

A/B 測試介紹

A/B測試概念

我們先看下 A/B 測試的介紹。我這里直接借用百度百科的定義,然后在官方定義的基礎上闡述說明。

A/B 測試是為 Web 和 App 界面或流程制作兩個(A/B)或多個(A/B/n)版本,在同一時間維度,分別讓組成成分相同(相似)的訪客群組(目標人群)隨機的訪問這些版本,收集各群組的用戶體驗數(shù)據(jù)和業(yè)務數(shù)據(jù),最后分析、評估出最好版本,正式采用。這里面 有幾個關鍵詞。

第一個是組成成分相同的訪客。這說明用戶群一定要一樣,這個是在做 A/B 測試時最容易犯的一個錯誤,比如 A 組的用戶明顯要活躍于 B 組的用戶,那最后 A 的數(shù)據(jù)肯定要比 B 好。

第二個是同一時間。A/B 測試對比的時候,一定是在同一個時間段進行對比,否則就沒有意義。因為在時間因素上,我們沒有辦法去控制一定要是同一個時間段。我后面會舉一個日常大家容易犯錯的例子。

第三個就是用戶體驗數(shù)據(jù)和業(yè)務數(shù)據(jù)。在做 A/B 測試時,都要提前搭建好 A/B 測試的整套指標體系,這個指標體系肯定是業(yè)務數(shù)據(jù)分析師去跟進。

這就是一個整體的概念,實際上 A/B 測試時通常有幾個版本,然后每一個版本只有一個變量的變動。然后在變量變動基礎上,在同一時間然后讓一些用戶流入進來,然后看各個用戶最后的體驗數(shù)據(jù)或業(yè)務數(shù)據(jù),最后看哪個版本比較好。

A/B 測試的整體流程一般是分為以下幾步:

根據(jù)數(shù)據(jù)分析得到某建議項。很多算法同學每天也做大量的 A/B 測試,但效果往往都不太好。因為很多時候算法同學都是在憑感覺在調倉,不是說不對,只不過不是特別精準,最好是根據(jù)數(shù)據(jù)分析得到某建議項。

有了建議項之后,產品經理直接就落地了嗎?并沒有,落地一般要通過 A/B 測試。

根據(jù)某落地項,研發(fā)和設計人員進行開發(fā)設計(往往是先設計,然后再丟到 A/B 測試平臺里面跑數(shù)據(jù))。

研發(fā)人員數(shù)據(jù)采集,這一步現(xiàn)在基本都是自動采集數(shù)據(jù),所以一般就不用管。

分析師跟進 A/B 測試效果,當顯著性在 95% 以上并且維持了一段時間,實驗就可以結束了。

整體節(jié)奏要按照灰度、5%、10%、20%、50%、100% 來控制?;叶仁鞘裁匆馑迹客ㄋ字v就是小版本。比如我們是一個千萬量級的 Apple,灰度代表 5~10w 這樣的一個水平。

為什么要按照這樣的節(jié)奏,我解釋一下。比如當你發(fā)現(xiàn)某一個優(yōu)化項好像還可以,然后你直接對版本進行優(yōu)化。萬一這個版本改過之后,數(shù)據(jù)不太好,比如說降低了 20% 的用戶活躍度,這時候就會造成非常大的影響。所以做 A/B 測試的時候,一定是先灰度,采用一小部分用戶。當我們灰度測試效果不錯時,我們再放量,比如說放到 5%,當 50% 也不錯的時候再放到 100%,總之一定要控制節(jié)奏。目前 A/B 測試,業(yè)界都是一套 A/B 測試平臺,大公司可能會自己研發(fā),小公司自己購買即可。

常見的兩種A/B測試類型

1. UI 界面型

以墨跡天氣 App 為例,如圖所示。

AB 測試:AB 測試的效果監(jiān)控

這里放了一個小人,以小人為例,在產品設計之初,要不要增加一個小人只是一個想法,而這個必須要經過 A/B 測試才能決定要不要實現(xiàn)。因此 A 版本沒有小人,B 版本有小人,結果是 B 版本的數(shù)據(jù)比 A 版本要好,所以最終都有小人。這里提示一點,所有的設計師都要有 A/B 測試的思想才能更棒,往往你認為好看或者好用都不是很靠譜。

2. 算法策略型

針對用戶的內容推薦,以小紅書 App 為例。當新用戶下載完小紅書,然后進行注冊之后,就會發(fā)現(xiàn)有一個新區(qū)域需要用戶選擇感興趣的內容,如圖所示。

AB 測試:AB 測試的效果監(jiān)控

當用戶選擇完感興趣的內容之后,小紅書會用自身的算法給用戶在首屏做推薦,這個時候也是很講究的。比如 A 策略就是 100% 的興趣預選,你選什么,我在首屏我就給你推什么。而 B 策略就是你選什么,我推的 80% 的內容是興趣預選,剩下的 20% 是我隨機分發(fā),或者推薦一些熱點的內容。這兩種策略很不一樣。

那么到底是 A 策略好還是 B 策略好呢,A/B 測試后,比如說 B 策略要明顯好于 A 策略,那我們接下來就可以針對新用戶先試用 B 策略。實際上對于任何一款個性化內容的 App,給用戶的推薦都涉及大量的算法策略型 A/B 測試,這里不一定就只是 A/B 兩個策略,很可能還有一個 C 策略。還有一點,A 、B 兩組的樣本都要在 10w 以上才可以初步看數(shù)據(jù)。

實際工作中的問題

嚴格模式下,所有的專題報告落地項(除了明顯的 Bug 修復和明顯的用戶體驗)都要靠 A/B 測試展開,然而分析師經常會遇到這種問題。

舉個例子:2 個月前,產品上線了短視頻功能,2 個月后,大盤略漲(之前是略跌趨勢),短視頻和非短視頻的數(shù)據(jù)增加也明顯,現(xiàn)在短視頻業(yè)務方希望分析師能量化出——大盤的上漲主要是因為短視頻帶來的。

實際上這種問題非常頭疼,因為你怎么解釋都解釋不清,往往一些分析師的思路就是選同一批用戶,然后對比這一批用戶在使用短視頻前后的數(shù)據(jù)。那么這實際上就違背了我們前面的原則——同一時間。真正的 A/B 測試一定是同一個時間維度,你這里既有前又有后,時間因素上說不過去。所以針對這種問題,實際上確實只能靠 A/B 測試解決,但在當你準備上線短視頻功能時,你就要開始做 A/B 測試,而不是說等數(shù)據(jù)表現(xiàn)很好時,你才想起來這件事,這就太遲了。

A/B 測試注意事項

站在數(shù)據(jù)分析師的角度去看,A/B 測試時要注意以下事項:

A/B 兩個組是否真的相同——雖然研發(fā)負責搭建,但分析師要知道大概原理;

策略是否生效——研發(fā)說進行了 A/B 測試,但分析師要去抽樣看;

A/B 測試評估指標體系——要在 A/B 測試之前,就與研發(fā)溝通好看哪些綜合性指標;

多觀察幾天數(shù)據(jù)——往往前幾天數(shù)據(jù)可能有點問題,一般 3 天后數(shù)據(jù)才可正式使用;

A/B 測試的存檔規(guī)劃——所有 A/B 都要文檔化,方便后續(xù)找增長點。

下面我們逐一來看。

1. A/B 兩個組是否真的相同,只存在一個變量?如下所示。

  • A:001 002 003 004 005
  • B:001 002 003 004
  • C:001 002 003 004 006
  • D:X Y 001 002 003 004

其中,A,B,C 是可以做 A/B 測試的,但是 D 不行,一定要確保只有一個變量,然后通過最終數(shù)據(jù)來看這個變量是正向還是負向效應。實際工作過程中,研發(fā)可能會說只有一個變量,但還真不一定,所以分析師在做這件事的時候,可以把 A/B 兩個組的原始日志中的分組標志抽出來,看下有無問題。由于每周都會有大量的 A/B 測試,所以一定要保證 A/B 兩組只有一個變量不同。

2. 策略是否生效

工作中常見這種現(xiàn)象,產品經理根據(jù)分析師的專題報告落地項 X,然后進行某個 A/B 測試,研發(fā)也進行了 A/B 測試,最后發(fā)現(xiàn)效果不明顯,此時所有人都覺得 X 優(yōu)化項沒用,也就沒有多去做更多嘗試。

這時候分析師一定要去對 A/B 組進行抽樣,看 B 組(實驗組)的用戶是否真的上線了 X 優(yōu)化,驗證策略是否生效。A/B 測試系統(tǒng)本身就很復雜,出問題是非常正常的,雖然我們不一定要很了解內部詳細原理,但是要知道有沒有明顯問題。

3. A/B 測試評估指標體系

在 A/B 測試之前,就要考慮好最終要有哪些指標來評估效果,最好是能設計出一套綜合性的指標體系,后續(xù)做實驗直接看報表數(shù)據(jù)即可,不用每次單獨建表。比如,我們可以是這種格式,如下圖所示。

AB 測試:AB 測試的效果監(jiān)控

報表格式包含實驗策略、用戶數(shù)、時間周期、次留、時長、點擊率等因素,這樣以后就很方便。

4. 多觀察幾天數(shù)據(jù)

AB 測試:AB 測試的效果監(jiān)控

以上述圖表為例,我們可以看出在前 3 天(7月 1 號到 7 月 3 號),實驗組的數(shù)據(jù)與對照組相比還差一點,或者說就是處于一個波動狀態(tài)。而在 7 月 4 號到 7 月 7 號之后,實驗組的數(shù)據(jù)明顯要好于對照組的數(shù)據(jù),所以一定要多觀察幾天數(shù)據(jù)。

很多人做 A/B 測試,發(fā)現(xiàn)前面三天數(shù)據(jù)不好,后面就不看了,這是不可以的。我們好不容易出來一個落地項,又好不容易推動各方資源去做了一個 A/B 測試,最后你看的時候就很馬虎,這就很不應該。所以要多觀察幾天數(shù)據(jù),一般是 4~10 天,一周左右的時間即可。

5. A/B 測試存檔

分析師要定期復盤做了哪些 A/B 測試,以及它的預期效果和實際效果,這就是落地項的閉環(huán)。為什么這一頁我要單獨拿出來,是因為分析師在述職報告時,又或者是跟業(yè)務方同步最近做了哪些事比較有意義時,分析師就要把 A/B 測試的效果講出來。這里就建議采用 5W1H 方法來管理A/B 測試。

比如,A/B 測試項的具體內容是什么?為什么要測試?測試時間周期是什么時候?測試負責人是誰?預期效果是怎樣?實際效果又是怎樣。如果實際效果不好,甚至可能還要寫出大概是什么原因。文檔是數(shù)據(jù)分析師日常非常重要的工作之一,一定要標準化,規(guī)范化。你可以寫得非常詳細,非常易懂,這樣業(yè)務方每問你一次,你直接丟他一個鏈接即可。

A/B 測試案例

Netflix 海報案例

我們看一下 Netflix 的一個案例。Netflix 在 2013 年做過一個實驗,用來研究不同的海報風格對觀看者數(shù)量的影響。當時他們就以《The Short Game》電影為例,設計了三個封面,如下所示。

AB 測試:AB 測試的效果監(jiān)控

后來發(fā)現(xiàn)第二張圖的觀眾量要比第一張圖高 14%,當有這個結論的時候,他們就很興奮。后來他們就開發(fā)了一套 A/B 測試系統(tǒng),能夠自動將具有相同背景,包括你的長度、寬度、剪輯、裝飾、標題等元素的圖像組合在一起,拼成一幅海報,然后分別測試用戶對每張海報的點擊轉化率和后續(xù)行為。

像《馴龍高手》這部電影,他們發(fā)現(xiàn)用戶很喜歡第二張圖和第三張圖的封面。

AB 測試:AB 測試的效果監(jiān)控

而對于《我本堅強》美劇發(fā)現(xiàn),如下圖所示。當用戶有面部表情,比如最后有一張比較好的面部表情的時候,用戶也是非常喜歡的。

AB 測試:AB 測試的效果監(jiān)控

在這些海報實驗的基礎之上,他們總結出以下論點:

出現(xiàn)面部表情,更容易引人入勝;

使用反派形象更容易點擊;

海報人數(shù)不要超過 3 人;

同一個海報,在不同國家的偏好完全不一樣。

其他案例

墨跡天氣,如下圖所示。

AB 測試:AB 測試的效果監(jiān)控

大家會看到右上角是一個分享按鈕,我第一次看到這個按鈕時就覺得很奇怪,因為在我的印象中,大部分按鈕是小三角形少了一條邊的那種形狀。而墨跡天氣,它竟然是這樣一個標志,它最后采用的一定是 A/B 測試后的一個效果,這個確實要比那種形狀要好。

滴滴,如下圖所示。

AB 測試:AB 測試的效果監(jiān)控

當你打開進去時,你會發(fā)現(xiàn)頭像那里實際上是有一個小汽車的圖片。他們肯定也是做了同樣的 A/B 測試,通過測試得出有圖片的用戶體驗確實要比沒圖片的好。

今日頭條里面的廣告位,如下圖所示。

AB 測試:AB 測試的效果監(jiān)控

這種廣告位放在第幾位效果比較好呢?這里是放在第 4 位,其實這種也是通過 A/B 測試得來的。理論上肯定是越往前越好,但是你這個時候越往前,可能用戶的體驗感越差。

這些案例實際上都是商業(yè)化和用戶體驗的平衡,拿不準的時候就要去做 A/B 測試,而不是說靠感覺。

案例思考

最后就是我的一些思考, A/B 測試會涉及三方:設計師、產品經理、數(shù)據(jù)分析師。

對于設計師來說,設計師一定要跳出傳統(tǒng)的設計思維,在這個基礎之上,要多去看一些 A/B 測試增長黑客的書。在做設計時,你要把你所設計的任何細節(jié)(比如界面的優(yōu)化)跟最終的 A/B 測試掛鉤,然后看功能效果。設計師本身并不是設計完就不管了,你自己也要去看數(shù)據(jù),這樣無論是在效率上還是效果上都會有很好的提升。

對于產品經理來說,光憑直覺是不靠譜的,A/B 測試的閉環(huán)能夠讓我們去更好地理解用戶。同時要通過 A/B 測試總結出用戶到底喜歡什么樣的策略和界面,然后讓 A/B 測試自身完成自我迭代。

對于數(shù)據(jù)分析師來說,大多數(shù)改動都不會帶來大福效果的提升,A/B 測試的效果往往都是略好,所以要持續(xù)迭代。如果某一個 A/B 測試,它的實驗效果非常好,比如說實驗組比對照組它的 CTR 提升了 30%,這時候分析師就要非常小心,是不是實驗本身有問題。分析師在做這件事時,它是一個非常漫長的過程。同時專題分析也是一個持續(xù)的過程,一定要越來越深入。當你通過 A/B 測試得出了一些結論,這表示你已經越來越了解用戶,越來越了解產品。那么當你再做專題分析時,它的質量就越來越高。

最后請舉出一個你身邊的 A/B 測試例子,可以是你參與過的,又或者是你聽同事說的,說出你的感受和疑問,在評論區(qū)留言。

本文經授權發(fā)布,不代表增長黑客立場,如若轉載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/product/60278.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2022-03-10 11:43
下一篇 2022-03-10 13:24

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復

登錄后才能評論