廣告主不能像廣告平臺一樣,獲取到比較多的用戶維度的曝光數據,并且在廣告主側獲取不到端外新用戶的特征。本次分享會著重講一下哈啰出行作為廣告主,是如何在這些挑戰(zhàn)下進行信息流廣告算法建模探索的。
本次介紹會圍繞下面四點展開:
- 信息流廣告投放現狀
- 哈啰業(yè)務背景介紹
- 廣告主側的算法優(yōu)化方案
- 未來方向
01
信息流廣告投放現狀
1. 發(fā)展歷程
我們在刷朋友圈、抖音、頭條時,應該都看過信息流類型的廣告。它是一種嵌入在媒體內容流中的廣告形式,內容包括圖片、圖文、視頻等等。它的主要特性是內容的價值性和原生性。對于受眾來說,信息流廣告能夠為用戶提供更多有內容,有價值的東西,而不是單純的廣告。所以它的內容植入和呈現不會破壞頁面本身的和諧度,用戶角度體驗感也是比較好的。
上圖左邊的圖展示了信息流廣告的發(fā)展史,信息流廣告最早在2006年出現在Facebook上,11年出現在Twitter上,12年應用在微博,14年頭條,15年朋友圈。直到16年進入了全面爆發(fā)階段,百度、快手、UC等都相應地推出了信息流廣告。上圖右側的圖展示了搜索廣告、電商廣告、信息流廣告在整個市場上的占比。可以看出,從2015年到2021年信息流廣告的占比逐年增加。到了2022年預計可以達到40.8%。目前信息流廣告被多數廣告主選用在拉新促活的用戶增長手段,所以哈啰出行也選擇了信息流廣告作為站外拉新的主要方式。
2. 投放流程
上圖是平臺視角和廣告主視角兩個角度下的廣告投放流程。
平臺視角,用戶在流量主側產生瀏覽行為,流量主會向ADX(ad exchange廣告實時競價交易平臺)發(fā)送廣告請求,廣告交易平臺在接收到廣告交易請求,接著會向DSP(demand side platform,廣告投放平臺)發(fā)送請求。DSP在接受到這個競價請求后,內部會進行一系列包括從流量篩選到廣告召回,然后排序、出價等操作。目前大家常說的廣告算法,更多的是嵌入在DSP內部的召回,排序等算法,并且這種廣告算法在業(yè)界內也比較成熟。
廣告主視角,這里指的是廣告主針對線上投放所能夠做的操作。一開始會經過一個競價機制。當一個廣告請求過來,對于這個請求帶過來的用戶,我們來決定要不要參與對這個用戶的競價。這個競價機制在以下四個方面進行了考量:轉化情況,用戶價值,曝光情況,還有其他的干擾策略等等。在競價機制后就到了投放機制,投放機制更偏向于線上的實際投放,包含了賬戶設置、異常監(jiān)測、數據監(jiān)控和自動投放等等。
02
哈啰業(yè)務背景介紹
下面介紹一下哈啰出行外投業(yè)務背景。
1. 哈啰外投發(fā)展階段
廣告主投放能力的發(fā)展歷程會經過以下四個階段:
- 第一個階段是探索階段,在這個階段廣告主業(yè)務一般是剛剛起步,它需要通過投放廣告來摸索市場。此時廣告主所需要做的就是直接在平臺上面開戶。
- 經過前期的探索,驗證了廣告的投放效果之后就進入到第二階段,投放初步階段。這個階段的目的是迅速占領市場,所以會在市場上投入大量的廣告,提升投放效率。在這個階段廣告主需要技術支持來進行后續(xù)的轉化歸因,監(jiān)測體系,數據監(jiān)控等等。
- 提效之后就到了以降本為目的的發(fā)展階段。經過前期的大量的市場投放后,廣告的獲客成本會越來越高,這個時候需要對流量做精細化運營,所以需要更多的技術能力來支撐和實現降本的目標?,F在發(fā)展比較成熟的有DMP,平臺提供的人群管理API,包括后面我要提到的marketing API。
- 經歷過以上三步之后,就到達了成熟階段,成熟期的目標就是智能化,擁有全鏈路的算法和自動化實現,不再需要人工參與。
目前哈啰已經在發(fā)展階段,技術能力和數據能力都已經比較成熟。
2. 外投系統(tǒng)框架
上圖是哈啰的外投系統(tǒng)框架。在業(yè)務上對接的比較大的三個渠道是巨量引擎,廣點通和快手。
因為涉及到一些接口對接,所以在服務端要建立一個統(tǒng)一接口網關,然后進入到存儲層,存儲層使用了業(yè)界比較通用的組件包括:redis,MYSQL,HBASE,Elasticsearch等等。再經過數據層后,到達應用層。應用層主要列了三點,就是決策機制,自動化運營和歸因機制。決策機制也是我后面主要介紹的重點。因為算法更多是作用在決策機制層。
03
廣告主側的算法優(yōu)化方案
第三部分具體講一下上面提到的決策機制里面的算法優(yōu)化方案。主要從三個方面進行介紹:廣告計劃維度,創(chuàng)意維度,以及競價前的預判機制。
1. 廣告計劃維度
首先是廣告計劃維度, 上圖的上半部分圖列出了用戶從被廣告曝光到完單的整體鏈路。以哈啰車主拉新為例,一個新用戶需要經過曝光、點擊/三秒曝光、注冊成為哈啰用戶、提交認證成車主這幾步后,才能進行完單行為。對于廣告主來說,完單才是最終能產生價值的行為。但目前對接的幾家比較大的渠道,都是以提交認證成本來作為獲客成本?,F業(yè)務上一個痛點是提交認證到完單的比例比較低,大概百分之二三十左右。這對廣告主是不利的,因為廣告主花費了錢來拉用戶,但用戶在端內并沒有產生價值,這部分就是無效的預算。上圖中下半部分的圖,結合了廣告賬戶平臺結構重新解釋了上面提到的業(yè)務痛點。平臺上面通用的廣告賬戶結構是一個賬戶下包含著不同的廣告組,不同的廣告組又包含著不同的廣告計劃。
為了比較形象地表示從提交認證到完單這部分比例比較低的情況,可以看一下上圖用紅框和藍框中的兩個廣告計劃。上面這個廣告計劃是質量比較低的廣告計劃。下面的是質量比較高的??梢钥吹竭@兩個計劃在提交認證,也就是轉化這一步都假設有四個人轉化。但上面的這個計劃,只有一個人完單,完單率只有25%。而下面這個廣告計劃的完單率達到了75%。很明顯,下面這個廣告計劃的質量比上面的質量要高。針對這個問題,我們進行了算法方案優(yōu)化的探索。
目前面臨的第一個挑戰(zhàn)是在線上起量的計劃的量級比較小。因為算法建模是基于數據,如果能用的數據量少,就會直接影響到后續(xù)建模的精確度。第二個挑戰(zhàn)是我們不能獲得廣告平臺商的曝光點擊和競價等明細數據。針對這兩個挑戰(zhàn),做了一個問題的轉化,從計劃質量識別轉化為劣質流量識別,再轉化為用戶完單率預估的問題。
因為我們的用戶都是在廣告計劃下面轉化的,所以最初的目的是進行計劃質量識別。但因為數據量等原因,將問題轉化成了劣質流量識別。而對于廣告主來說劣質流量可以定義成沒有產生價值的流量,所以問題就變成判斷用戶在提交認證之后是否能夠完單。這樣問題會簡單很多,且雖然他可能在端外是新用戶,但他在提交認證之后,我們就可以取到他端內的畫像數據特征,所以有足夠的數據來解決這個問題。
上圖是完單模型的建模思路。由數據分析,樣本構建,特征選取,模型訓練四部分構成。
在數據分析部分,我們通過分析發(fā)現,大部分用戶從提交認證到產生完單行為的時間間隔是在七天之內的。如果超過七天他還沒有完單,那大概率上就不會完單了,就變成了剛剛提到的劣質流量了。所以在樣本構建部分,通過提交認證之后,是否能在七天之內完單這個邏輯來構建正負樣本。上圖的submit_pt代表的是用戶提交認證的時間。
但是車主能否完單,其實是受很多外部因素制約的。并且樣本的數據量也是比較小的,為了更貼合業(yè)務情況,進行了數據增強操作。將原始的用戶維度采樣增強為以訂單維度采樣,具體為在用戶進行提交認證之后,將每次在發(fā)單頁面有過訪問或者點擊行為的日期作為基點來預測它之后七天內完單的概率。
然后是特征選取部分。特征選取使用了用戶特征,環(huán)境特征,廣告特征,時間特征等特征。時間特征使用了用戶發(fā)生轉化到瀏覽的時間間隔作為特征。
模型選擇遵循了奧卡姆剃刀原理,選擇了簡單高效的lightGBM。
2. 創(chuàng)意維度
在實際的業(yè)務下,廣告優(yōu)化師會因為不確定廣告投放效果,在不同的賬戶或者不同的計劃下面堆積大量相似創(chuàng)意,去測試其效果。這就導致線上會存在著大量的無效素材,他們并不能起量,但是會產生一些小額消耗,浪費了預算。
并且相似的創(chuàng)意,因為不同的賬戶的歷史表現不一樣,所以廣告平臺的算法對相似創(chuàng)意預估出的分值可能會不一樣,針對這個問題這邊構建了一個預估新創(chuàng)意能否起量的模型,來指導廣告優(yōu)化師后續(xù)的方案調整。決定創(chuàng)意能否起量的因素是質量度。不同的渠道對質量度有著不同的側重,從上方的表格可以看出,巨量引擎可能更側重于效果的反饋。廣點通更注重eCPM,百度則側重于定向方式。對于廣告主而言,定向方式和效果反饋是沒辦法干預的,所以更多的是干預eCPM。從上面列出的ecpm的公式可以看出,預估創(chuàng)意是否能夠起量,更多的是偏向于ctr方面。所以這邊列了三點,定向,創(chuàng)意,“戶口”?!皯艨凇笔侵纲~戶的歷史表現,比如說他在線上已經投放了多少天,用戶的轉化和完單等數據。
上圖展示了構建模型的挑戰(zhàn),第一個挑戰(zhàn)點在最開始也介紹了,就是數據的制約,從左圖上的自定義列,可以看到廣告主能夠拿到的一些數據,計劃的預算以及左圖上展現的數據都偏向于廣告計劃維度。對于一些數值信息,比如展現數據,轉化數據等,廣告主所能夠拿到的數據也都是相對粗粒度的。由右圖所示,我們只能拿到這一條廣告計劃下面的消耗、展示量、點擊率等。針對用戶維度的詳細的數據,比如曝光、參競數據等,廣告主是拿不到的。
第二個挑戰(zhàn)是新創(chuàng)意只有剛配置完的配置信息,缺少后續(xù)投放的相關數據。
針對以上兩個問題,主要是在構建樣本和特征工程兩個方面進行解決的,針對新創(chuàng)意沒有相關投放數據的問題,解決方法是在樣本構建時同時選取了新創(chuàng)意和老創(chuàng)意,新創(chuàng)意是能夠學習到配置特征的重要性。老創(chuàng)意可以學習到更偏向于右邊這張圖的投放特征。通過這個方式讓模型同時學到創(chuàng)意維度或者計劃維度的配置數據和一些投放的數值特征。
特征工程中主要應用了特征交叉去獲取更多的數據,由下圖所示:
上圖就是特征工程,通過特征交叉解決了數值型數據比較少的問題。這張圖的左邊是創(chuàng)意ID,中間框出來的是特征工程比較核心的部分。主要是做了三部分內容:
- 第一部分是將ID特征使用word2vector產生ID特征序列。一個創(chuàng)意屬于一個計劃下。一個計劃則屬于一個廣告組下。所以從賬戶ID到廣告組ID到計劃ID,都是一對多的關系。而一個創(chuàng)意是由不同的素材構成的,不同的素材包含著不同的視頻、封面、標題等。針對這部分ID特征就是做了一個ID特征序列,將他們展成文本序列,然后使用word2vector轉化成向量。
- 第二部分是針對投放的數值特征的處理方式。對于投放的數值特征部分以及配置參數特征部分,主要是進行了不同維度的特征交叉,比如說一個創(chuàng)意ID和一個計劃ID交叉來拿到計劃ID下相應的數值特征。在做了各種交叉之后,就拿到了不同的視頻、封面、標題、計劃ID下面的數據特征。
- 第三部分是針對廣告配置參數特征的處理方式。配置參數特征其實就是廣告在進行投放時配置的定向參數的特征,比如說投放時間,用戶定向,投放城市等。處理方式與第二部分類似,也是經過交叉拿到計劃的配置特征和創(chuàng)意的配置特征。
經過這整個特征處理之后,會進行模型訓練,最后我們選擇了使用多分類模型。因為一開始在解決這個問題時,有嘗試過回歸,但回歸預測出來效果不是很好,MSE特別高,所以后面將問題轉化為多分類,相對來說多分類會比回歸效果好很多,準確率也高很多。
上圖是整體模型框架圖,從下至上展示了數據從輸入到輸出,下半部分就是前面特征工程的匯總,最下面是特征輸入,包括剛剛說過的數值特征,類別特征和ID特征。數值特征經過歸一化,離散化后進行embedding。類別特征也是進行embedding。ID特征首先展成文本序列,然后經過word2vector產生向量。然后embedding產生的向量和word2vector產生向量這兩部分同時輸到模型里面,再經過一個concat層,最后使用softmax輸出不同類別的概率。
上圖是人工賬戶與算法操作賬戶的效果數據對比。藍色的是人工賬戶,橙色的是算法操作賬戶。由圖所示,不管是在轉化成本或者首單成本,算法操作賬戶提升比較高的,大概能夠降低到10~20%左右,效果還是比較顯著的。
3. 競價前預判機制
這個機制更偏向于前置策略,也就是說一個用戶過來,我們能夠決定對這個用戶到底進不進行曝光,或者說有一些其他的干擾用戶質量分。
從上方的左圖大家可以看到,現在業(yè)界比較主流的針對老客拉活的操作是RTB,RTB電商做的比較多。而對于新客主要是做RTA,因為RTA更偏向于流量屏蔽。對于老客和新客都適用的就是中間的交叉部分增強RTA,現在比較主流的媒體,像騰訊,頭條等都有接口能夠支持的。針對中間交叉部分,我們使用了因果推斷的uplift模型構建了促活模型。
在構建樣本時考慮到了用戶意愿,選取選信息流廣告下轉化的用戶為正樣本,自然轉化的用戶為負樣本。uplift分值可以體現用戶的意愿度,它是有需要外部的廣告激勵才能轉化,還是它本身就有意愿轉化。公式里的T代表是否存在廣告干預。然后依據uplift的分值從0到5將用戶進行分檔,0是已經轉化的用戶,這部分用戶我們會直接屏蔽掉,不會對他們出價。1是自然轉化,2~4為營銷敏感度低、中、高用戶,5是新用戶,因為我們沒有辦法拿到新用戶的數據,所以我們會返回最高的用戶質量分。這個機制實現了用戶價值分層階梯出價買量,線上效果降本明顯。
04
未來方向
下面從前置策略和線上投放兩方面介紹我們的未來規(guī)劃。
前置策略拉新場景下的后續(xù)目標,更偏重于精準屏蔽的模型,目前我們只是針對端內已經轉化的用戶進行屏蔽,當我們接入曝光數據后,就可以深入挖掘曝光數據來制定策略,例如一個用戶最大曝光次數等,來進行精準屏蔽。拉活場景下的用戶投放更側重于RTB,因為目前哈啰用戶體量比較大,也有足夠的數據支撐去做RTB。
規(guī)劃的第二個方向是全自動線上投放,閉環(huán)管理。通過算法來選擇最優(yōu)方案構建創(chuàng)意和計劃,減少人工手動配置。進行不同創(chuàng)意不同計劃之間的預算分配,以達到廣告計劃ROI最大為目的設置用戶定向。
右邊這張大圖可以看成是整個規(guī)劃的概覽圖。里面左下角的小圖是算法能力的建設,包括出價管理,跨渠道管理,RTB預算分配,DPA等。右邊的小圖列出了算法能力的技術支撐,包括uplift,強化學習,在業(yè)務場景內融入業(yè)界比較成熟的ctr算法,以及使用CV相關算法實現素材的創(chuàng)新,針對不同的用戶展示不同的素材。
05
精彩問答
Q:如果存在多業(yè)務拉活,怎么去避免惡性競爭抬價呢?
A:不同業(yè)務針對的人群大概率是不一樣的。比如做四輪車主拉新的人群一定是有車人群。如果是兩輪業(yè)務拉新,那么更偏向的是沒有車的人群。在不同的業(yè)務線針對的用戶不一樣的情況下,中間的交叉應該不會特別嚴重。
Q:相似素材為什么在不同賬戶下的表現會不同呢?
A:因為平臺方會從很多方面來判斷是否要給一個計劃或者一個素材放量。舉個例子來說,一個在線上已經跑得比較好的賬戶,它下面會有很多的用戶轉化,如果拿他跟一個剛起量的賬戶對比,那平臺的側重一定是不一樣的。所以相同的素材在線上跑得比較穩(wěn)定的計劃下和在線上剛跑的計劃下,肯定是在比較穩(wěn)定的計劃或者賬戶下更容易起量。
Q:在未來規(guī)劃的那頁PPT中,拉活部分的潛客模型是準備通過RTB而不是RTA來達到的?
A:RTB和RTA從本身的概念講是不可以互相替換的,RTB是一個實時競價的框架,而RTA只是一個接口,這頁PPT主要想表達的意思是將RTB的核心功能點集成到RTA里面,通過RTA的接口,來實現實時競價。
今天的分享就到這里,謝謝大家。
本文經授權發(fā)布,不代表增長黑客立場,如若轉載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/market/62673.html