美團(tuán)到店綜合業(yè)務(wù)涵蓋了本地生活中的休閑玩樂(lè)、麗人、親子、結(jié)婚、寵物等多個(gè)行業(yè)。為了不斷提升到店綜合業(yè)務(wù)場(chǎng)景下的供需匹配效率,美團(tuán)深入挖掘用戶在本地生活中的多樣化需求,構(gòu)建了以用戶需求節(jié)點(diǎn)為中心并鏈接商戶、商品和內(nèi)容的到店綜合知識(shí)圖譜 ( GENE,GEneral NEeds net )。本文將圍繞美團(tuán)到店綜合知識(shí)圖譜展開,介紹圖譜構(gòu)建與應(yīng)用過(guò)程中的技術(shù)實(shí)踐,并分享具體的落地應(yīng)用和最新探索。

主要包括以下幾個(gè)部分:
- 美團(tuán)到店綜合業(yè)務(wù)介紹
- 到店綜合知識(shí)圖譜的構(gòu)建方案
- 到店綜合知識(shí)圖譜的應(yīng)用實(shí)踐
- 未來(lái)展望
01美團(tuán)到店綜合業(yè)務(wù)介紹
美團(tuán)到店綜合業(yè)務(wù)涵蓋了本地生活中的休閑玩樂(lè)、麗人、親子、結(jié)婚等眾多行業(yè),聚焦用戶的到店消費(fèi)場(chǎng)景,為用戶提供豐富便捷的本地生活服務(wù)。

在到店綜合業(yè)務(wù)場(chǎng)景下,我們希望能夠深耕本地生活的細(xì)分行業(yè),不斷提升供需匹配效率,改善用戶體驗(yàn),而這其中的關(guān)鍵是如何理解用戶需求。
用戶的決策路徑可以分為五個(gè)階段,依次是起心動(dòng)念、考慮、評(píng)估選擇、交易購(gòu)買和履約服務(wù)。用戶的需求往往集中在前兩個(gè)階段產(chǎn)生,首先起心動(dòng)念形成場(chǎng)景化的訴求,例如“周末陪寶寶去哪玩”,我們稱之為場(chǎng)景需求,繼而考慮具體的方案,例如“戶外燒烤”,我們稱之為具象需求。

無(wú)論是用戶的場(chǎng)景需求還是具象需求,都需要進(jìn)一步和商戶和商品等實(shí)體建立聯(lián)系,從而為用戶提供能滿足其對(duì)應(yīng)需求的不同類型的供給。知識(shí)圖譜作為一種揭示實(shí)體及實(shí)體間關(guān)系的語(yǔ)義網(wǎng)絡(luò),用以解決上述問(wèn)題顯得尤為合適。為此,我們以用戶需求節(jié)點(diǎn)為中心,鏈接到店綜合業(yè)務(wù)涉及的行業(yè)知識(shí)、商戶、商品和內(nèi)容,構(gòu)建了到店綜合知識(shí)圖譜(GENE,GEneral NEeds net)。

在到店綜合知識(shí)圖譜的構(gòu)建過(guò)程中,主要面臨三個(gè)方面的挑戰(zhàn):
- 用戶需求多樣化:在本地生活場(chǎng)景中,用戶的需求多樣。為了理解和表達(dá)用戶在不同行業(yè)的多元需求,我們?cè)O(shè)計(jì)了多層次多維度的圖譜體系,對(duì)用戶需求進(jìn)行層次化和結(jié)構(gòu)化的挖掘。
- 本地生活行業(yè)復(fù)雜:到店綜合業(yè)務(wù)涵蓋了百余個(gè)本地生活的行業(yè),行業(yè)知識(shí)專業(yè)且差異很大。為了在多行業(yè)上快速構(gòu)建知識(shí)圖譜,我們?cè)O(shè)計(jì)和開發(fā)高效可復(fù)用的挖掘流程和模型,并結(jié)合少樣本學(xué)習(xí)來(lái)不斷提升圖譜構(gòu)建的效率。
- 知識(shí)圖譜質(zhì)量要求高:由于面向?qū)嶋H的業(yè)務(wù)應(yīng)用,對(duì)圖譜節(jié)點(diǎn)和關(guān)系準(zhǔn)確性的要求高。為此,我們基于多源多模態(tài)數(shù)據(jù),通過(guò)多種挖掘方法聯(lián)合使用來(lái)進(jìn)行優(yōu)勢(shì)互補(bǔ),以確保最終知識(shí)圖譜的質(zhì)量。?
02到店綜合知識(shí)圖譜的構(gòu)建方案?
1. 到店綜合知識(shí)圖譜體系設(shè)計(jì)?
到店綜合知識(shí)圖譜的體系設(shè)計(jì)由六部分組成,包含場(chǎng)景需求層、場(chǎng)景要素層、具象需求層、需求對(duì)象層、行業(yè)體系層和供給層。

- 場(chǎng)景需求層:該層包含了用戶的場(chǎng)景需求節(jié)點(diǎn),例如“戶外親子”、“周末閨蜜聚會(huì)”,這些節(jié)點(diǎn)直接反應(yīng)了用戶場(chǎng)景化的訴求。
- 場(chǎng)景要素層:在該層中,為了更好地表達(dá)場(chǎng)景需求,我們對(duì)其進(jìn)行拆解,細(xì)化成多個(gè)不同類型的細(xì)粒度的詞匯,我們將其稱為場(chǎng)景要素。
- 具象需求層:該層包含了用戶的具象需求節(jié)點(diǎn),例如“戶外燒烤”、“實(shí)景劇本殺”,這些節(jié)點(diǎn)直接反應(yīng)了用戶在場(chǎng)景化訴求下具體的服務(wù)需求。
- 需求對(duì)象層:在該層中,為了進(jìn)一步理解具象需求,我們將其分為具體的服務(wù)需求所對(duì)應(yīng)的對(duì)象,并疊加各種維度的屬性描述,包括服務(wù)交互、風(fēng)格、功效、部位等。
- 行業(yè)體系層:在該層中,我們構(gòu)建了各行業(yè)涉及的類目體系,作為上述各層構(gòu)建的業(yè)務(wù)基礎(chǔ)。
- 供給層:該層包含了內(nèi)容供給和商戶商品這類實(shí)物供給,這些供給將會(huì)和需求節(jié)點(diǎn)進(jìn)行關(guān)聯(lián),從而為用戶需求提供相對(duì)應(yīng)的供給支撐。
總體來(lái)說(shuō),在到店綜合知識(shí)圖譜中,用戶場(chǎng)景化的需求和具體的服務(wù)需求分別在場(chǎng)景需求層和具象需求層進(jìn)行展現(xiàn)。這兩種需求又分別通過(guò)場(chǎng)景要素和需求對(duì)象進(jìn)行表達(dá)。最后,不同類型的供給都會(huì)與場(chǎng)景需求和具象需求相關(guān)聯(lián),從而以用戶需求為紐帶,提升供給和用戶的匹配效率。?
2. 圖譜各層構(gòu)建涉及的主要任務(wù)?
在圖譜各層的構(gòu)建中主要涉及三個(gè)方面的任務(wù): ① 節(jié)點(diǎn)挖掘:包括需求、對(duì)象、屬性等不同類型節(jié)點(diǎn)的挖掘; ② 節(jié)點(diǎn)關(guān)系構(gòu)建:包括同義、上下位、屬性關(guān)系等多種節(jié)點(diǎn)關(guān)系的構(gòu)建; ③ 節(jié)點(diǎn)和供給關(guān)聯(lián):包括節(jié)點(diǎn)與商戶、商品和內(nèi)容等不同類型供給的關(guān)聯(lián)。
下面我們將按照自底向上的順序介紹各層的具體構(gòu)建方案。?
行業(yè)體系層:
?① 類目樹構(gòu)建和屬性挖掘

由于行業(yè)體系的構(gòu)建對(duì)專家知識(shí)的要求較高,我們直接沿用了已有的行業(yè)類目樹,再通過(guò)人工定義來(lái)完善。為了對(duì)不同行業(yè)有更深的理解,我們還定義了包含復(fù)購(gòu)周期、距離偏好在內(nèi)的多個(gè)維度的類目屬性,并基于業(yè)務(wù)策略對(duì)各個(gè)行業(yè)進(jìn)行多維度的描述。 ② 類目節(jié)點(diǎn)和供給的關(guān)聯(lián)

在行業(yè)體系層中,我們需要進(jìn)一步建立類目和供給之間的關(guān)聯(lián)關(guān)系。我們將其轉(zhuǎn)化為分類問(wèn)題,基于供給的各種信息,構(gòu)建多源異構(gòu)數(shù)據(jù)融合判別模型來(lái)進(jìn)行類目分類。 以商戶供給為例,我們將商戶名、商品名、商品詳情、商戶內(nèi)容(UGC)、商戶畫像等多源數(shù)據(jù)進(jìn)行融合判別。其中:
- 商戶名、商品名及商品詳情:均為文本數(shù)據(jù),直接通過(guò)BERT提取文本語(yǔ)義特征后輸出;
- 商戶UGC:由于數(shù)量非常多,為了對(duì)其信息進(jìn)行有效利用,我們首先通過(guò)Doc2Vec的方式進(jìn)行Encode得到UGC的特征后,再通過(guò)一個(gè)Self-Attention模塊進(jìn)行特征處理后輸出;
- 商戶畫像則直接轉(zhuǎn)成One-Hot特征后,通過(guò)全連接層進(jìn)行非線性映射后輸出。
上述三種特征相連接后進(jìn)行融合,實(shí)現(xiàn)最終的類目判別?;诙嘣磾?shù)據(jù)的融合建模,商戶信息得到了充分利用,分類準(zhǔn)確率也得到了明顯提升。 需求對(duì)象層: 在需求對(duì)象層,我們希望能夠挖掘出需求的對(duì)象和各種維度的屬性作為該層的節(jié)點(diǎn),這是用于組成具象需求的基礎(chǔ)。在挖掘過(guò)程中,我們分為了粗粒度和細(xì)粒度兩個(gè)環(huán)節(jié)。 在粗粒度挖掘中,我們希望獲取對(duì)象和屬性維度。由于專業(yè)知識(shí)差異很大、行業(yè)知識(shí)壁壘較高,為了高效挖掘,我們?cè)O(shè)計(jì)了關(guān)鍵詞抽取->相關(guān)詞聚類->維度提煉的pipeline,通過(guò)算法和人工相結(jié)合的方式來(lái)確定該層最終的結(jié)構(gòu)。

接下來(lái)是針對(duì)各維度進(jìn)行細(xì)粒度的節(jié)點(diǎn)挖掘。為了確保對(duì)象和屬性挖掘的全面性,我們采用多源多方法的方式。在數(shù)據(jù)上,我們采用用戶搜索、UGC等多種文本作為挖掘語(yǔ)料。在方法上,我們采用無(wú)監(jiān)督擴(kuò)充和有監(jiān)督標(biāo)注相結(jié)合來(lái)挖掘。

在無(wú)監(jiān)督擴(kuò)充中,我們利用詞向量模型,對(duì)各維度的種子詞提取詞向量,并結(jié)合余弦相似度,快速擴(kuò)充相關(guān)的對(duì)象和屬性。在有監(jiān)督標(biāo)注中,我們則采用基于BERT+CRF的序列標(biāo)注模型,在語(yǔ)料中自動(dòng)識(shí)別出新的對(duì)象和屬性。 由于人工標(biāo)注樣本數(shù)量往往十分缺乏,面對(duì)少樣本的情況,我們進(jìn)一步利用無(wú)監(jiān)督擴(kuò)充的結(jié)果有針對(duì)性地構(gòu)造有監(jiān)督標(biāo)注環(huán)節(jié)的訓(xùn)練樣本。完成對(duì)象和屬性節(jié)點(diǎn)的挖掘后,我們會(huì)進(jìn)一步基于統(tǒng)計(jì)特征結(jié)合BERT來(lái)實(shí)現(xiàn)節(jié)點(diǎn)的上下位和同義關(guān)系的構(gòu)建。 具象需求層: ① 具象需求挖掘 在具象需求層中,除了部分需求對(duì)象可以直接成為具象需求節(jié)點(diǎn)外,我們還需要在對(duì)象和屬性的基礎(chǔ)上進(jìn)一步挖掘具象需求。 首先我們進(jìn)行具象需求的候選生成。為了生成的全面性,我們通過(guò)基于Pattern和基于短語(yǔ)挖掘兩種方式互補(bǔ)來(lái)實(shí)現(xiàn)。一方面,通過(guò)屬性和對(duì)象的Pattern組合直接生成,比如“戶外燒烤”、“吃火鍋K歌”,另一方面通過(guò)依存句法樹的句法關(guān)系模板挖掘和基于遠(yuǎn)程監(jiān)督的AutoPhrase方法進(jìn)行短語(yǔ)挖掘,以對(duì)組合結(jié)果進(jìn)行補(bǔ)充。最后所有挖掘的結(jié)果通過(guò)詞頻過(guò)濾后進(jìn)入候選池。

以上獲取的候選節(jié)點(diǎn)雖然符合我們預(yù)設(shè)的規(guī)則或句法關(guān)系,但語(yǔ)義上仍然存在大量與用戶實(shí)際需求或者行業(yè)知識(shí)不相符的情況。為了更全面地衡量候選節(jié)點(diǎn)的質(zhì)量,我們基于節(jié)點(diǎn)的統(tǒng)計(jì)和語(yǔ)義特征聯(lián)合建模,構(gòu)建了一個(gè)基于Wide&Deep結(jié)構(gòu)的質(zhì)量判別模型,對(duì)候選池中每個(gè)節(jié)點(diǎn)的質(zhì)量進(jìn)行判別。

Wide部分提取候選節(jié)點(diǎn)的全局和上下文的統(tǒng)計(jì)特征,Deep部分通過(guò)BERT提取候選節(jié)點(diǎn)的深度語(yǔ)義特征。兩部分的特征相連接后進(jìn)行融合,經(jīng)過(guò)全連接層來(lái)實(shí)現(xiàn)最終的短語(yǔ)質(zhì)量判別。在訓(xùn)練過(guò)程中,除了直接使用已經(jīng)積累的常識(shí)性短語(yǔ)作為正樣本外,我們還通過(guò)預(yù)設(shè)一些常識(shí)性的組合來(lái)構(gòu)造樣本,并結(jié)合主動(dòng)學(xué)習(xí)來(lái)進(jìn)行訓(xùn)練。通過(guò)質(zhì)量判別后保留的節(jié)點(diǎn)則會(huì)交由運(yùn)營(yíng)人工審核后入庫(kù)。 ② 節(jié)點(diǎn)關(guān)系的構(gòu)建 對(duì)于同義和上下位的關(guān)系,可以復(fù)用需求對(duì)象層積累的關(guān)系結(jié)果和相應(yīng)的模型。此外,還需要進(jìn)一步建立具象需求和屬性之間的關(guān)系,以對(duì)具象需求進(jìn)行更詳細(xì)的刻畫。對(duì)于基于Pattern生成的具象需求,關(guān)系已經(jīng)天然存在,而直接通過(guò)需求對(duì)象得到以及基于短語(yǔ)挖掘生成的具象需求,則需要構(gòu)建其和屬性的關(guān)系。

?
編輯切換為居中
添加圖片注釋,不超過(guò) 140 字(可選)
我們采用兩階段的方式來(lái)構(gòu)建關(guān)系。首先通過(guò)在語(yǔ)料文本中提取包含具象需求和屬性的固定Pattern,快速獲取關(guān)系三元組。在此基礎(chǔ)上,構(gòu)建基于BERT的句中實(shí)體關(guān)系抽取模型,對(duì)包含具象需求和屬性的語(yǔ)料上下文建模,將具象需求和屬性的特征與上下文特征融合后聯(lián)合分類獲取,從而進(jìn)一步豐富關(guān)系三元組。 ③ 具象需求節(jié)點(diǎn)和供給的關(guān)聯(lián) 在具象需求層中,我們還需要將具象需求與實(shí)體供給(商戶和商品)和內(nèi)容供給進(jìn)行關(guān)聯(lián)。我們將這個(gè)問(wèn)題抽象為一個(gè)實(shí)體鏈接的問(wèn)題,通過(guò)語(yǔ)義匹配來(lái)解決。由于具象需求數(shù)量眾多,同時(shí)供給的文本信息通常包含多個(gè)子句,出于效率和效果的平衡考慮,我們將整個(gè)匹配過(guò)程分為了召回、排序和聚合三個(gè)階段。

在召回階段,基于構(gòu)建的同義關(guān)系擴(kuò)展具象需求的同義標(biāo)簽,并將其與子句文本進(jìn)行粗粒度匹配,粗篩出可能與具象需求節(jié)點(diǎn)有潛在關(guān)聯(lián)的子句,并進(jìn)入到排序階段進(jìn)行精細(xì)化的關(guān)聯(lián)關(guān)系計(jì)算。 在排序階段,我們采用基于BERT句間關(guān)系分類的語(yǔ)義匹配模型,同時(shí)通過(guò)一些對(duì)比學(xué)習(xí)方法來(lái)彌補(bǔ)樣本的不足,并結(jié)合主動(dòng)學(xué)習(xí)提升標(biāo)注效率。模型通過(guò)對(duì)召回階段得到的粗篩樣本進(jìn)行預(yù)測(cè),識(shí)別兩者在語(yǔ)義上的匹配關(guān)系。最后對(duì)于商戶,我們將結(jié)合商品和內(nèi)容的匹配結(jié)果,通過(guò)規(guī)則聚合來(lái)完成關(guān)聯(lián)。具象需求和供給的關(guān)聯(lián),保證了用戶的具體服務(wù)需求有相應(yīng)的供給進(jìn)行承接。 場(chǎng)景要素層: 場(chǎng)景要素層包含了組成用戶場(chǎng)景需求的場(chǎng)景要素。在該層中,我們復(fù)用在之前已經(jīng)積累的流程進(jìn)行高效挖掘。

① 場(chǎng)景要素的挖掘 我們首先對(duì)場(chǎng)景要素進(jìn)行類型拆解,要描述一個(gè)場(chǎng)景,需要交代特定的人物、時(shí)間、空間、目的等要素。在此基礎(chǔ)上,考慮到場(chǎng)景要素作為具象需求的場(chǎng)景化的信息,往往來(lái)自于用戶的直觀感受,所以我們選擇與具象需求關(guān)聯(lián)的UGC的上下文作為挖掘語(yǔ)料。與需求對(duì)象挖掘的方法類似,我們基于無(wú)監(jiān)督擴(kuò)充和有監(jiān)督標(biāo)注相結(jié)合的方式,完成各個(gè)類型的要素挖掘。 ② 場(chǎng)景要素和具象需求關(guān)系的構(gòu)建 場(chǎng)景要素與具象需求之間還需要進(jìn)一步構(gòu)建關(guān)系,即對(duì)于每個(gè)場(chǎng)景要素,我們還需要找出其適合的具象需求,例如和“閨蜜”可以玩“劇本殺”,帶“孩子”可以去“親近動(dòng)物”。具體的方法和具象需求-屬性關(guān)系構(gòu)建類似,我們通過(guò)關(guān)系模板提取和句中實(shí)體關(guān)系建模,在UGC中提取場(chǎng)景要素和具象需求的關(guān)系。?
場(chǎng)景需求層:

?
編輯切換為居中
添加圖片注釋,不超過(guò) 140 字(可選)
在場(chǎng)景需求層,我們將場(chǎng)景要素層的信息進(jìn)行組裝,從而生成大量的場(chǎng)景需求。組裝出的場(chǎng)景需求,既可以包含單個(gè)場(chǎng)景要素,也可以包含多個(gè)不同類型的場(chǎng)景要素。例如周末和閨蜜聚會(huì)、戶外親子等等。 對(duì)于組裝得到的場(chǎng)景需求,最重要的是保證其合理性,例如“戶外”和“親子”就是合理的場(chǎng)景,而“閨蜜”和“親子”則是矛盾的場(chǎng)景。為此,我們首先需要計(jì)算場(chǎng)景要素之間的關(guān)系評(píng)分,從而指導(dǎo)場(chǎng)景需求的組裝。我們以場(chǎng)景要素和具象需求的關(guān)系得分作為依據(jù),通過(guò)關(guān)系傳遞評(píng)估兩個(gè)場(chǎng)景要素之間的相關(guān)性,以過(guò)濾低質(zhì)場(chǎng)景需求。 最終場(chǎng)景需求通過(guò)其包含的場(chǎng)景要素,可以鏈接到相應(yīng)的具象需求,進(jìn)而關(guān)聯(lián)相關(guān)的供給,從而給用戶提供場(chǎng)景化的解決方案。3. 數(shù)據(jù)沉淀

經(jīng)過(guò)一年多的發(fā)展,到店綜合知識(shí)圖譜已完成整體的結(jié)構(gòu)設(shè)計(jì)和核心數(shù)據(jù)的建設(shè),覆蓋了到店綜合業(yè)務(wù)的60多個(gè)行業(yè),包含了40多萬(wàn)的需求節(jié)點(diǎn)、上億的關(guān)系數(shù)以及上百種的關(guān)系類型,整體關(guān)系的準(zhǔn)召率均在90%以上。 03到店綜合知識(shí)圖譜的應(yīng)用實(shí)踐到店綜合知識(shí)圖譜當(dāng)前已在到店綜合業(yè)務(wù)的諸多場(chǎng)景中進(jìn)行了應(yīng)用,取得了不錯(cuò)的效果,提升了用戶體驗(yàn),下面我們介紹具體應(yīng)用實(shí)踐。 1. 到店綜合知識(shí)圖譜的應(yīng)用

當(dāng)前到店綜合知識(shí)圖譜的應(yīng)用主要有三個(gè)方面,分別是搜索、推薦和信息智能展示。除了這三個(gè)主要應(yīng)用之外,由于在本地生活中新行業(yè)不斷出現(xiàn),我們還會(huì)進(jìn)一步基于知識(shí)圖譜在新興行業(yè)上進(jìn)行一系列應(yīng)用探索。 搜索:

現(xiàn)階段主要應(yīng)用于搜索的召回和可解釋性優(yōu)化。這里以醫(yī)美行業(yè)為例,由于醫(yī)美行業(yè)的專業(yè)性高,用戶在搜索時(shí)輸入的query和供給之間往往存在較多的語(yǔ)義隔閡。我們的圖譜數(shù)據(jù),可以為醫(yī)美搜索的召回和可解釋性提供大量的知識(shí)輸入。例如,用戶希望眼部年輕化,我們可以直接返回提供相關(guān)項(xiàng)目的供給,從而提升用戶搜索的效率。 推薦:

現(xiàn)階段主要應(yīng)用于推薦的召回和排序。對(duì)于召回,圖譜信息可以直接應(yīng)用于供給的關(guān)聯(lián)召回。對(duì)于排序,圖譜信息則可以作為特征融入排序建模。當(dāng)前到店綜合知識(shí)圖譜已在美團(tuán)首頁(yè)的猜你喜歡和到店綜合業(yè)務(wù)涉及的各個(gè)頻道頁(yè)內(nèi)的多個(gè)推薦流量位進(jìn)行了應(yīng)用,推薦的效果得到了明顯改善。 信息智能展示:

① 供給聚合 為了滿足用戶豐富多樣的需求,我們跨類目生成需求ICON,如“親近動(dòng)物”、“帶娃泡湯”,對(duì)符合用戶需求的相似供給進(jìn)行聚合。同時(shí),我們也為用戶生成主題式的供給聚合卡片,更人性化地滿足用戶需求,提升了用戶決策效率。 ② 標(biāo)簽篩選 圖譜的部分需求節(jié)點(diǎn)可以直接用于列表頁(yè)的標(biāo)簽篩選,這些篩選項(xiàng)提升了用戶選擇供給的效率。 ③ 推薦理由 基于需求節(jié)點(diǎn)和供給的關(guān)聯(lián)關(guān)系為每個(gè)供給選擇包含相應(yīng)需求的文本信息,通過(guò)抽取式或受控生成的方式,作為推薦理由外露,這些句子從用戶實(shí)際需求的角度展示供給信息,顯著提升了用戶體驗(yàn)。 2. 到店新興行業(yè)場(chǎng)景下的應(yīng)用探索 這里我們以最近很火的劇本殺行業(yè)為例進(jìn)行介紹。

劇本殺行業(yè)近年來(lái)呈爆發(fā)式增長(zhǎng)態(tài)勢(shì),然而由于劇本殺是新興行業(yè),平臺(tái)已有的類目體系和產(chǎn)品形態(tài),越來(lái)越難以滿足飛速增長(zhǎng)的用戶和商戶需求,主要表現(xiàn)為平臺(tái)類目缺失、用戶決策效率低、商戶上架繁瑣三個(gè)方面的問(wèn)題。為了解決這些問(wèn)題,我們需要進(jìn)行劇本殺的供給標(biāo)準(zhǔn)化建設(shè),實(shí)現(xiàn)以標(biāo)準(zhǔn)化為基礎(chǔ),改善供給管理和供需匹配。 在標(biāo)準(zhǔn)化建設(shè)過(guò)程中,涉及了劇本名稱、劇本屬性、類目、商戶、商品、內(nèi)容等多種類型的實(shí)體,以及它們之間的多元化關(guān)系構(gòu)建,這很適合用知識(shí)圖譜來(lái)解決。因此我們以到店綜合知識(shí)圖譜的體系設(shè)計(jì)為基礎(chǔ),以標(biāo)準(zhǔn)劇本為核心構(gòu)建劇本殺行業(yè)知識(shí)圖譜,來(lái)實(shí)現(xiàn)劇本殺的供給標(biāo)準(zhǔn)化。整個(gè)劇本殺供給標(biāo)準(zhǔn)化包括了劇本殺供給挖掘、標(biāo)準(zhǔn)劇本庫(kù)構(gòu)建和供給與標(biāo)準(zhǔn)劇本的關(guān)聯(lián)三個(gè)步驟。

劇本殺供給挖掘: 在劇本殺供給挖掘中,需要判斷商戶是否提供劇本殺服務(wù),判別依據(jù)包括了商戶名、商品名及商品詳情、商戶UGC三個(gè)來(lái)源的文本語(yǔ)料。這個(gè)本質(zhì)上是一個(gè)多源數(shù)據(jù)的分類問(wèn)題,然而由于缺乏標(biāo)注的訓(xùn)練樣本,我們沒(méi)有直接采用前文提到的端到端的多源數(shù)據(jù)融合判別模型,而是依托業(yè)務(wù)輸入,采用無(wú)監(jiān)督匹配和有監(jiān)督擬合相結(jié)合的方式高效實(shí)現(xiàn)。首先基于劇本殺關(guān)鍵詞文本匹配計(jì)算各來(lái)源的分?jǐn)?shù),再基于線性回歸擬合標(biāo)注的商戶分?jǐn)?shù),獲取各來(lái)源的權(quán)重,從而實(shí)現(xiàn)對(duì)劇本殺商戶的精準(zhǔn)挖掘。

標(biāo)準(zhǔn)劇本庫(kù)構(gòu)建: 在標(biāo)準(zhǔn)劇本庫(kù)構(gòu)建中,關(guān)鍵是劇本名稱的挖掘,我們根據(jù)劇本殺商品的特點(diǎn),先后采用了規(guī)則聚合、語(yǔ)義聚合和多模態(tài)聚合三種方法進(jìn)行迭代,從數(shù)十萬(wàn)劇本殺商品的名稱中聚合得到數(shù)千標(biāo)準(zhǔn)劇本名稱。下面分別對(duì)三種聚合方法分別進(jìn)行介紹。 我們首先考慮劇本殺商品的命名特點(diǎn),設(shè)計(jì)相應(yīng)的清洗策略對(duì)劇本殺商品名稱進(jìn)行清洗后再聚合。除了梳理常見的非劇本詞,構(gòu)建詞庫(kù)進(jìn)行規(guī)則過(guò)濾外,也進(jìn)一步將其轉(zhuǎn)換為命名實(shí)體識(shí)別問(wèn)題,采用序列標(biāo)注對(duì)字符進(jìn)行分類。對(duì)于清洗后的劇本殺商品名稱,則通過(guò)基于最長(zhǎng)公共子序列(LCS)的相似度計(jì)算規(guī)則,結(jié)合閾值篩選對(duì)其進(jìn)行聚合。通過(guò)規(guī)則聚合的方式能夠在建設(shè)初期幫助業(yè)務(wù)快速對(duì)劇本殺商品名稱進(jìn)行聚合。

規(guī)則聚合的方式雖然簡(jiǎn)單好用,但由于劇本名稱的多樣性和復(fù)雜性,我們發(fā)現(xiàn)聚合結(jié)果中仍然存在一些問(wèn)題:1)字面距離相近但不屬于同一個(gè)劇本。2)商品名稱常出現(xiàn)簡(jiǎn)稱縮寫和錯(cuò)別字。 針對(duì)這上述這兩種問(wèn)題,我們進(jìn)一步考慮使用商品名稱語(yǔ)義匹配的方式,從文本語(yǔ)義相同的角度來(lái)進(jìn)行聚合。具體地,我們采用雙塔式的方法來(lái)實(shí)現(xiàn),以Sentence-BERT的模型結(jié)構(gòu)為基礎(chǔ),將兩個(gè)商品名稱文本分別通過(guò)BERT提取向量后,再使用余弦距離來(lái)衡量?jī)烧叩南嗨贫?。在?xùn)練過(guò)程中,首先基于規(guī)則聚合結(jié)果,構(gòu)造粗粒度的訓(xùn)練樣本,完成初版模型的訓(xùn)練。在此基礎(chǔ)上,進(jìn)一步結(jié)合主動(dòng)學(xué)習(xí),對(duì)樣本數(shù)據(jù)進(jìn)行完善。此外,我們還根據(jù)規(guī)則聚合出現(xiàn)的兩種問(wèn)題,針對(duì)性的批量生成樣本。

通過(guò)語(yǔ)義聚合的方式實(shí)現(xiàn)了從商品名稱文本語(yǔ)義層面的同義聚合,然而我們通過(guò)對(duì)聚合結(jié)果分析后發(fā)現(xiàn),劇本還存在一些語(yǔ)義完全不一樣的別稱,導(dǎo)致語(yǔ)義不同的商品但仍屬于同一個(gè)劇本。為此,我們考慮引入商品的圖像信息來(lái)進(jìn)一步輔助聚合,嘗試構(gòu)建劇本殺商品的多模態(tài)匹配模型,充分利用商品名稱和圖像信息來(lái)進(jìn)行匹配。

在多模態(tài)匹配模型中,模型沿用語(yǔ)義聚合中使用的雙塔式結(jié)構(gòu)。劇本殺商品的名稱和圖像分別通過(guò)基于BERT的文本編碼器和基于Efficientnet的圖像編碼器得到對(duì)應(yīng)的向量表示后,再進(jìn)行拼接作為最終的商品向量計(jì)算相似度。通過(guò)多模態(tài)聚合,彌補(bǔ)了僅使用文本匹配的不足,進(jìn)一步改善了標(biāo)準(zhǔn)劇本的挖掘效果。 供給與標(biāo)準(zhǔn)劇本關(guān)聯(lián):在完成標(biāo)準(zhǔn)劇本庫(kù)構(gòu)建后,還需要建立劇本殺的商品、商戶和內(nèi)容三種供給與標(biāo)準(zhǔn)劇本的關(guān)聯(lián)關(guān)系,從而使劇本殺的供給實(shí)現(xiàn)標(biāo)準(zhǔn)化。由于商品和內(nèi)容從屬于商戶,所以我們只對(duì)商品和內(nèi)容進(jìn)行標(biāo)準(zhǔn)劇本關(guān)聯(lián)。

在商品關(guān)聯(lián)中,我們首先對(duì)商品名稱進(jìn)行清洗再進(jìn)行匹配關(guān)聯(lián)。在匹配環(huán)節(jié),我們基于商品和標(biāo)準(zhǔn)劇本的名稱及圖像的多模態(tài)信息,對(duì)兩者進(jìn)行匹配判別。而對(duì)于內(nèi)容關(guān)聯(lián),則沿用前文介紹的在具象需求層中使用的內(nèi)容和需求節(jié)點(diǎn)關(guān)聯(lián)的方法,通過(guò)召回和排序兩個(gè)環(huán)節(jié),采用基于BERT句間關(guān)系分類的語(yǔ)義匹配模型來(lái)實(shí)現(xiàn)。 效果呈現(xiàn):① 劇本殺類目上線 通過(guò)劇本殺供給挖掘,識(shí)別出劇本殺商戶,助力劇本殺新類目和相應(yīng)劇本殺列表頁(yè)的構(gòu)建,為用戶提供了中心化流量入口,提升了用戶的選擇效率。

② 推薦優(yōu)化 基于劇本屬性關(guān)聯(lián)召回和圖譜信息融入雙通道DIN建模排序,為推薦帶來(lái)了顯著的效果提升,優(yōu)化了用戶認(rèn)知和選購(gòu)體驗(yàn),提高了用戶和供給的匹配效率。

③ 信息展示 基于劇本殺知識(shí)圖譜的劇本標(biāo)簽篩選項(xiàng)和相關(guān)信息外露,為用戶提供了規(guī)范的信息展示,降低了用戶決策成本,更加方便了用戶選店和選劇本。同時(shí),內(nèi)容和標(biāo)準(zhǔn)劇本的關(guān)聯(lián)關(guān)系參與到劇本的評(píng)分計(jì)算。在此基礎(chǔ)上,基于劇本維度,形成劇本榜單,從而為用戶的劇本選擇決策提供了更多的幫助。

04未來(lái)展望

由于美團(tuán)到店綜合業(yè)務(wù)的復(fù)雜性,到店綜合知識(shí)圖譜還有很長(zhǎng)的迭代之路要走,在此我們提出一些后續(xù)的思考和展望。 首先,我們將從當(dāng)前的供給側(cè)向用戶側(cè)延伸,實(shí)現(xiàn)圖譜從貨到人的迭代,納入用戶節(jié)點(diǎn)。同時(shí),加強(qiáng)對(duì)已覆蓋的行業(yè)的建設(shè),挖掘更多的節(jié)點(diǎn)和關(guān)系,更好的理解用戶需求,并基于高效的挖掘流程,快速橫向覆蓋到店綜合涉及的所有行業(yè)。
此外,我們也會(huì)將圖譜進(jìn)一步擴(kuò)展到用戶決策的全鏈路,覆蓋履約服務(wù)環(huán)節(jié),分析其中的用戶需求和反饋,更好地賦能商家提升用戶體驗(yàn)。最后,我們還會(huì)基于在知識(shí)表示和計(jì)算等環(huán)節(jié)上的不斷迭代,更充分地利用圖譜信息進(jìn)行更深更廣的應(yīng)用。 希望我們的到店綜合知識(shí)圖譜能夠在供需匹配上發(fā)揮出更大的作用,為用戶在本地生活到店場(chǎng)景下提供更好的服務(wù),幫大家吃得更好,生活更好。?
05問(wèn)答環(huán)節(jié)?
Q:模板抽取的部分,人工定義的三元組模板抽取怎么跟算法提取結(jié)果相結(jié)合?整體的效果怎么樣?
A:這一部分說(shuō)的應(yīng)該是需求節(jié)點(diǎn)和屬性之間關(guān)系的構(gòu)建。通過(guò)人工定義的模板抽取的三元組本身質(zhì)量較高,可以直接入庫(kù)。這部分關(guān)系也可以作為后續(xù)算法建模的樣本輸入,整體結(jié)果準(zhǔn)確率在95%以上。
Q:現(xiàn)在的體系和流程,擴(kuò)展一個(gè)新的行業(yè)大概需要多久?
A:美團(tuán)到店綜合業(yè)務(wù)涵蓋的行業(yè)非常多,每個(gè)行業(yè)差異又比較大,所以很難給出準(zhǔn)確的時(shí)間預(yù)估,要看行業(yè)本身的復(fù)雜性。對(duì)于新行業(yè),我們會(huì)先按照之前業(yè)務(wù)上積累下來(lái)的高效構(gòu)建流程,先整體構(gòu)建一遍,再來(lái)判斷夠到底需要多少時(shí)間。
Q:標(biāo)簽召回是離線標(biāo)簽嗎?知識(shí)圖譜的召回是利用了圖中哪些信息,效果怎么樣?
A:我們對(duì)接下游應(yīng)用有兩種方式。一種是通過(guò)離線數(shù)據(jù)的形式直接向下游傳輸;第二種是通過(guò)圖數(shù)據(jù)庫(kù)以服務(wù)來(lái)對(duì)接下游,滿足多跳查詢等復(fù)雜的應(yīng)用需求。標(biāo)簽召回當(dāng)前采用的是第一種方式,利用需求節(jié)點(diǎn)及其和供給的關(guān)系信息,將需求節(jié)點(diǎn)以離線標(biāo)簽的形式進(jìn)行應(yīng)用。在召回效果上,我們以醫(yī)美這個(gè)行業(yè)為例進(jìn)行了介紹,除了醫(yī)美之外,我們?cè)诮Y(jié)婚、親子、教育等多個(gè)行業(yè)上都有一些實(shí)踐,整體上用戶的CTR都有不錯(cuò)的提升。
今天的分享就到這里,謝謝大家。
本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/quan/62672.html