在互聯(lián)網(wǎng)下半場競爭中實現(xiàn)科學(xué)增長,切實讓A/B測試發(fā)揮增長引擎的作用是應(yīng)有之義。在本文中,陳冠誠將為我們分享A/B測試對業(yè)務(wù)轉(zhuǎn)化率提升帶來的價值,以及如何在團(tuán)隊中有效推進(jìn)A/B測試及A/B測試系統(tǒng)科學(xué)設(shè)計實踐等內(nèi)容。
[title]今日頭條增長秘籍:A/B測試驅(qū)動[/title]
抖音可以說是現(xiàn)在增長最火熱的公司,流行于大街小巷行走的人們手機(jī)之中,它讓騰訊感到深深的危機(jī)感,被迫應(yīng)對,從2017年下半年開始,抖音就呈現(xiàn)出現(xiàn)象級爆發(fā)式增長。其母公司字節(jié)跳動,估值750億美元,本身就是一個非常講究實驗、以A/B測試驅(qū)動科學(xué)增長的公司。A/B測試對頭條系產(chǎn)品來講是很自然的事情,整個公司從最高管理層張一鳴開始就非常注重。36Kr曾在一篇報道中寫道,“頭條發(fā)布一個新APP,其名字都必須打N個包放到各大應(yīng)用市場進(jìn)行多次A/B測試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個名字,測一下又有神馬關(guān)系呢?”
今日頭條從起名字開始就運用了數(shù)據(jù)思維,創(chuàng)始團(tuán)隊沒有頭腦風(fēng)暴,沒有投票,沒有老大拍板兒,而是采用科學(xué)實驗的方式,通過數(shù)據(jù)觀測確定了頭條的名稱。他們將App Store上各類免費榜單的前10名整理出來,然后根據(jù)名字歸類(朗朗上口白話類,內(nèi)涵情懷類,模擬特殊聲音類,公司名+用途類等),分析那各類數(shù)量占比。分析結(jié)論是朗朗上口的大白話效果最好。其次,分渠道A/B測試,確定先驗效果類似的發(fā)布渠道,分別投放,界面功能logo完全一樣,統(tǒng)計各個渠道的用戶下載和活躍等核心數(shù)據(jù)指標(biāo),最后測得《今日頭條》效果最好。
[title]什么是A/B測試?[/title]
A/B 測試是一種產(chǎn)品優(yōu)化的方法,為同一個優(yōu)化目標(biāo)制定兩個方案(比如兩個頁面),讓一部分用戶使用 A 方案,同時另一部分用戶使用 B 方案,統(tǒng)計并對比不同方案的轉(zhuǎn)化率、點擊量、留存率等指標(biāo),以判斷不同方案的優(yōu)劣并進(jìn)行決策。
上面圖示就是一個典型的A/B測試范例。在A/B測試比較成熟的公司中,可能并不局限于只有A、B兩個版本,可能會有ABC測試、ABCD測試,甚至是ABCDE測試。有一些情況,可能會出現(xiàn)比較特殊的A/B測試,比如說AAB測試,因為需要驗證整個AB測試系統(tǒng)的準(zhǔn)確度,需要設(shè)置兩個對照組,所以叫AAB測試。不管同時運行幾個實驗,我們都可以將它們統(tǒng)稱為A/B測試,英文為ABtest或ABtest。
結(jié)合公開數(shù)據(jù)和行業(yè)深度調(diào)查,我們整理了行業(yè)A/B測試頻率概覽圖,其中可以看到,公司市值或體量與A/B測試頻率呈正相關(guān)關(guān)系。像谷歌等大體量公司,它本身具有較為成熟的A/B測試系統(tǒng)與數(shù)據(jù)分析平臺,平均每周A/B測試就多達(dá)2000個A/B測試,其中包括一些相對復(fù)雜的實驗,如推薦算法A/B測試,也有相對簡單的A/B測試。至于國內(nèi)BAT等一線互聯(lián)網(wǎng)公司,它們每周也會進(jìn)行上百個A/B測試。
在與我們合作的大部分公司當(dāng)中,行業(yè)分布廣泛,比如互聯(lián)網(wǎng)金融、電商、O2O等廠商,它們自身沒有能力和精力自研一套成熟的A/B測試平臺,所以他們選擇與Testin A/B測試合作,將A/B測試服務(wù)快速應(yīng)用到業(yè)務(wù)中。比如,某互聯(lián)網(wǎng)金融用戶,在使用Testin A/B測試前,每周只能做0.1個A/B測試,使用了云測A/B測試服務(wù)后,大大提升了A/B測試頻率,每周跑大概30個A/B測試實驗。當(dāng)然,在其每周30個實驗中,約有1/3的實驗會取得轉(zhuǎn)化率指標(biāo)提升5%-30%的效果,剩余2/3的實驗效果并不理想,未取得較好的數(shù)據(jù)指標(biāo)提升。
通過這個例子,我們可以看出,大概2/3的產(chǎn)品設(shè)想并不符合預(yù)期,就是說轉(zhuǎn)化率其實沒有原始版本好。這個也是為什么需要A/B測試的根本原因,憑借產(chǎn)品直覺去做產(chǎn)品決策,但2/3的改進(jìn)并不是最優(yōu)解。
上述圖表展示的是微軟必應(yīng)搜索引擎A/B測試增長曲線,覆蓋Bing從2008年到2015年的時間的A/B測試實驗增長情況??梢钥吹剑贐ing產(chǎn)品初期,每周A/B測試頻率維持在10~50個,到2012年之后,Bing A/B測試每周頻率進(jìn)入快速增長。圖表右下角綠色曲線,是Bing移動端的A/B測試頻率增長曲線。通過該圖表,我們可以看到,Bing非??粗夭⒄J(rèn)真實施A/B測試實驗,以驅(qū)動數(shù)據(jù)增長,促進(jìn)業(yè)務(wù)發(fā)展。
[title]A/B測試應(yīng)用場景及案例[/title]
我們先看下A/B測試在移動應(yīng)用中的四大應(yīng)用場景,分別是App、落地頁、后端算法和小程序。APP端是目前移動互聯(lián)網(wǎng)增長的主要載體,PC或H5(如常見的朋友圈刷屏活動)或者廣告投放落地頁面等則可以歸為落地頁,還有后端算法場景,如推薦算法、廣告算法、千人千面等等。目前增長最快的應(yīng)用場景,則是小程序。
在不同的場景,A/B測試的側(cè)重點也有不同,但最核心目標(biāo)仍然都是圍繞業(yè)務(wù)的增長展開,也就是大家所熟悉的「北極星指標(biāo)」,或者是 DAU、MAU等在A/B測試中設(shè)定的具體目標(biāo)。
案例一:相機(jī)拍照類應(yīng)用
以Camera360為案例,它選用Testin A/B測試服務(wù)幫助其進(jìn)行產(chǎn)品優(yōu)化決策。該案例是其產(chǎn)品商業(yè)化過程中的一個嘗試,希望提升商店中表情包或道具的付費比例,但要完成付費指標(biāo),首先要提升商店入口點擊率。所以,他們設(shè)定了多個商店入口方案(更改圖標(biāo)樣式、文案),通過A/B測試來驗證哪個方案可以最大化提升商店入口點擊率。在驗證過程中,他們也針對人群目標(biāo)做了相關(guān)定向測試,如日本、中國、韓國等區(qū)域,最終他們針對這一入口同時上線7~8個測試版本,通過A/B測試,將整體點擊率提升了80%左右。
案例二
本案例為互聯(lián)網(wǎng)理財行業(yè)的App,他們期望通過更改簽到按鈕的文案提高簽到人數(shù),從而提高留存率,按鈕文案由「簽到」改為「簽到賺錢」,并進(jìn)行A/B測試,為A、B版本分配了各5%的流量,在經(jīng)過測試后發(fā)現(xiàn)新版本的簽到次數(shù)比原始版本簽到次數(shù)提高4.17%,其中95%置信區(qū)間結(jié)果顯示小范圍人群的試驗結(jié)果推廣到全量用戶之后,有95%概率獲得1.7% 至 6.6%的提升;p-value小于0.05,顯示新老版本有顯著統(tǒng)計差異,Power 為100%,說明統(tǒng)計功效顯著。通過這次簡單的A/B測試,就極大提升了App留存率。本次測試,也借助Testin A/B測試的可視化功能,直接修改相關(guān)元素屬性就實現(xiàn)了對照功能,無需開發(fā)人員介入。
那產(chǎn)品什么時候需要A/B測試呢?我們知道進(jìn)行A/B測試需要成本,比如需要開發(fā)多套版本,需要搭建可用的A/B測試及數(shù)據(jù)分析平臺等。從投入產(chǎn)出比考慮,進(jìn)行A/B測試平臺有2個必要條件,一是產(chǎn)品決策影響大,二是產(chǎn)品方案選擇困難。如果某決策對產(chǎn)品影響很大,但選擇不困難,則沒有必要進(jìn)行A/B測試,比方是否決定給App增加微信及第三方登錄方式,這對產(chǎn)品影響很大但決策并不困難,因為業(yè)界已有常見的解決方案。再比方說,添加某很細(xì)小的功能,且該功能入口極深、用戶量不大,那么A/B測試優(yōu)先級也并不高。只有當(dāng)一個產(chǎn)品決策同時滿足影響大和選擇難這兩個條件的時候,才最適合進(jìn)行A/B測試。
拿我們自身進(jìn)行的測試來說,我們會基于功能影響大小、選擇困難程度,對要做測試的功能做好優(yōu)先級排序,然后判斷哪些功能要做A/B測試。
[title]A/B測試落地三要素[/title]
通過與我們的合作伙伴,如自如、36氪、子彈短信或51信用卡等眾多增長團(tuán)隊交流,我們發(fā)現(xiàn)A/B測試做到落地有三大關(guān)鍵要素:
- 第一,人的因素,或者說整個團(tuán)隊的思維習(xí)慣、思維方式。
- 第二,業(yè)務(wù)流程,就是增長工作流程。
- 第三,工具。
展開來說,在「人」的角度上,要求整個團(tuán)隊具備數(shù)據(jù)驅(qū)動增長、A/B測試驅(qū)動決策的思維習(xí)慣,這是最重要的事情。同時,如果增長或產(chǎn)品團(tuán)隊負(fù)責(zé)人本身不具備這種意識,認(rèn)為A/B測試無關(guān)緊要,比較依賴經(jīng)驗進(jìn)行產(chǎn)品優(yōu)化決策,那么A/B測試做起來也很困難。
對APP也好,包括現(xiàn)在的小程序也好,新型產(chǎn)品層出不窮,產(chǎn)品面對的競爭也異常激烈。加之目前互聯(lián)網(wǎng)流量紅利期逐漸結(jié)束,獲客成本增加,如果想繼續(xù)獲得業(yè)務(wù)增長,目前最有效的辦法就是落地A/B測試、以數(shù)據(jù)驅(qū)動增長這一路徑。行業(yè)發(fā)展趨勢決定所有團(tuán)隊都會慢慢遷移到用科學(xué)的實驗進(jìn)行增長這條路上來,即使你現(xiàn)在的團(tuán)隊推進(jìn)A/B測試?yán)щy,但是我相信不遠(yuǎn)的將來,A/B測試將是最重要的產(chǎn)品增長驅(qū)動力。
作者曾與較多歐美增長同行進(jìn)行過深入交流,有一個很深感受就是他們的互聯(lián)網(wǎng)企業(yè)中 A/B測試氛圍更強(qiáng),主要因為美國人工成本相對較高,他們特別注重投入產(chǎn)出比,所以他們很早進(jìn)入到精細(xì)化運營階段。
在業(yè)務(wù)流程上,第一需要注意你的產(chǎn)品是什么形態(tài),是依托APP、小程序、公眾號還是Web網(wǎng)站。不同的業(yè)務(wù)場景,A/B測試落地方案也會不一樣。第二,要考慮A/B測試是否很好融入到了產(chǎn)品迭代或增長團(tuán)隊工作流程中去,最佳實踐就是做到將整個產(chǎn)品優(yōu)化迭代流程、發(fā)版節(jié)奏與A/B測試緊耦合,形成流水線作業(yè),這也是BAT等公司能夠把A/B測試每周頻率做到那么高的原因。
在工具方面,一種是自研,另外一種是使用第三方服務(wù)。自研的話,在可控性、業(yè)務(wù)耦合方面有一定的優(yōu)越性,但對一般企業(yè)來講,其研發(fā)成本、人力成本很高,開發(fā)A/B測試服務(wù)還涉及到較為嚴(yán)格的數(shù)據(jù)統(tǒng)計,需要配置專業(yè)的數(shù)據(jù)分析師。如果使用目前市面上的第三方工具,比如Testin A/B測試服務(wù),可以最大化降低成本、加速業(yè)務(wù)落地A/B測試服務(wù)。比如,某小程序用戶當(dāng)天接入Testin A/B測試服務(wù)后,當(dāng)天就運行起三個A/B測試實驗。無論是自研還是使用第三方工具,關(guān)鍵在于適合自身團(tuán)隊。
[title]A/B測試最佳流程實踐[/title]
A/B測試最佳流程,可分成四個步驟:
- 分析數(shù)據(jù):分析現(xiàn)有原始版本的各項數(shù)據(jù)指標(biāo),如注冊轉(zhuǎn)化率等,比如說注冊轉(zhuǎn)化率僅有10%,針對這一轉(zhuǎn)化率提出想法;
- 提出想法:比方說要改進(jìn)注冊流程,之前用戶需要輸入短信校驗碼,計劃改成圖片校驗碼,形成改進(jìn)備選方案。有了該基本假設(shè)后,預(yù)估大概率可以提升轉(zhuǎn)化率;
- 重要性排序:限于團(tuán)隊資源有限,無法把所有需求想法全部都去驗證,這就需要做重要性排序,選擇最重要的這幾個改進(jìn)方案去做A/B測試,接著進(jìn)入第四步;
- A/B測試:在這個過程中,我們要監(jiān)測A/B測試數(shù)據(jù),結(jié)果一般有兩種,一是數(shù)據(jù)證明實驗無效,一是證明實驗有效。我們經(jīng)過大量測試發(fā)現(xiàn),大部分進(jìn)行的A/B測試實驗,1/3被證明有效, 2/3被證明無效(與原始版本效果差別不大,或者比原始版本效果還壞)。
這里需要大家注意,不是所有的實驗都會被證明對指標(biāo)增長有顯著效果,如果是這樣,我們就沒有必要進(jìn)行實驗了。如果遇到這種情況,需要告訴自己的團(tuán)隊成員不要灰心,正因為某些實驗被證明無效,我們才會找到有效的增長方式。實驗失敗是大概率事件,我們最好的辦法就是增加測試頻率、持續(xù)測試,而非淺嘗輒止,又回到經(jīng)驗主義決策的老路上。
如果你的團(tuán)隊從來沒有做過A/B測試,有三點建議給到大家:
- 第一,從最簡單的文案A/B測試開始,比如說測試關(guān)鍵按鈕中不同文案的轉(zhuǎn)化率;
- 第二,多做團(tuán)隊間的經(jīng)驗分享,多分享你的成功經(jīng)驗,有效果的事情大家都愿意嘗試;不要天天去分享失敗的經(jīng)驗,如果過多分享失敗經(jīng)驗,會讓你包括你的團(tuán)隊對A/B測試產(chǎn)生質(zhì)疑,影響團(tuán)隊士氣;
- 第三,可以優(yōu)先使用第三方免費的A/B測試工具,比如Testin A/B測試,目前支持App、Web/H5、小程序。
[title]企業(yè)A/B測試成熟度模型[/title]
上面介紹了落地A/B測試的三大關(guān)鍵因素,以及A/B測試的最佳實踐流程。在這部分,為大家分享企業(yè)A/B測試成熟度模型。我們把企業(yè)A/B測試分成四個階段,分別是起步階段、成長階段、成熟階段和大規(guī)模應(yīng)用階段。該能力的成熟度最核心指標(biāo),就是每周能做多少個A/B測試。
處于起步階段,平均每周能做0~1個A/B測試,整個組織架構(gòu)處于開始嘗試A/B測試階段,但內(nèi)部沒有成型的A/B測試實驗平臺,仍使用最簡單的分流方式和數(shù)據(jù)分析方法進(jìn)行實驗。此時的A/B測試并不是一個標(biāo)準(zhǔn)的A/B測試,從實驗評價體系角度來看,已經(jīng)設(shè)定一個最基本的指標(biāo),比如說轉(zhuǎn)化率,但仍沒有體系化。何為體系化指標(biāo)?也就是從單一指標(biāo)演進(jìn)為多維度指標(biāo)體系,系統(tǒng)跟蹤實驗對產(chǎn)品的多方面影響。
第三個階段就是相對比較成熟的階段,這個時候每周能做到3~10個測試,A/B測試已經(jīng)成為產(chǎn)品迭代流程的一部分,并需要可視化A/B測試,后端A/B測試等高級功能,以便滿足多樣的A/B測試需求。
在成熟和大規(guī)模應(yīng)用階段,提到了一個名詞OEC。OEC,可以理解成綜合評價指標(biāo),可能是復(fù)合型指標(biāo),在很多單項指標(biāo)通過加權(quán)平均后得到。 通過OEC的設(shè)定,指導(dǎo)整個組織的業(yè)績發(fā)展。
[title]A/B測試系統(tǒng)設(shè)計能力[/title]
上面分享了如何落地A/B測試。接下來,跟大家分享下設(shè)計一個典型的A/B測試系統(tǒng),需要具備哪幾點能力或特征:
1. 科學(xué)流量分割:包括唯一性、均勻性、靈活性、定向性及分層分流。唯一性是指通過精準(zhǔn)且高效的Hash算法,確保單個用戶每次登錄應(yīng)用時被分到的試驗版本是唯一的;均勻性,則是確保分流人群,各維度分配比例均勻;靈活性,則需要支持用戶隨時在實驗的進(jìn)行過程中,調(diào)節(jié)實驗版本之間的流量分配比例;定向性,則是可以根據(jù)用戶標(biāo)簽來實現(xiàn)精準(zhǔn)定向分流,如根據(jù)用戶設(shè)備標(biāo)簽及其他自定義標(biāo)簽特定分流;分層分流,則可以滿足并行進(jìn)行大量A/B測試需求。

這里重點介紹下為什么需要分層流量分割機(jī)制。如果沒有分層流量機(jī)制,則存在如下限制:
- 每個用戶最多只能參加一個A/B測試實驗
- 多個實驗不能同時使用全體用戶進(jìn)行測試,可能因為人群覆蓋度不夠高導(dǎo)致結(jié)果偏差
- 每個實驗的可用實驗流量受限于其他正在進(jìn)行的實驗,缺乏靈活的流量分配機(jī)制
有了分層流量分割機(jī)制,就可以很好地滿足并行進(jìn)行不同業(yè)務(wù)或不同場景,或者不同產(chǎn)品模塊之間的A/B測試需求。
2. 科學(xué)統(tǒng)計算法:
- 科學(xué)統(tǒng)計,使用科學(xué)的統(tǒng)計分析方法來對實驗數(shù)據(jù)進(jìn)行分析,并給出可靠的試驗結(jié)果;
- 區(qū)間估計,給出95%置信區(qū)間,避免點估計帶來的決斷風(fēng)險;
- 統(tǒng)計顯著性判斷,通過p-value來判斷不同實驗版本之間差異顯著性;
- 統(tǒng)計功效判斷,通過Power來判斷不同實驗版本統(tǒng)計功效是否充足;
- 精益分析,對實驗數(shù)據(jù)進(jìn)行去噪音處理,去除噪音數(shù)據(jù),以提高統(tǒng)計結(jié)果的質(zhì)量
文:陳冠誠/云測數(shù)據(jù)(testindata)
首席增長官CGO薦讀:
更多精彩,關(guān)注:增長黑客(GrowthHK.cn)
增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊角色。從單線思維者時常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實現(xiàn)低成本甚至零成本帶來的有效增長…
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/14720.html