美團到店綜合業(yè)務(wù)涵蓋了本地生活中的休閑玩樂、麗人、親子、結(jié)婚、寵物等多個行業(yè)。為了不斷提升到店綜合業(yè)務(wù)場景下的供需匹配效率,美團深入挖掘用戶在本地生活中的多樣化需求,構(gòu)建了以用戶需求節(jié)點為中心并鏈接商戶、商品和內(nèi)容的到店綜合知識圖譜 ( GENE,GEneral NEeds net )。本文將圍繞美團到店綜合知識圖譜展開,介紹圖譜構(gòu)建與應(yīng)用過程中的技術(shù)實踐,并分享具體的落地應(yīng)用和最新探索。
主要包括以下幾個部分:
- 美團到店綜合業(yè)務(wù)介紹
- 到店綜合知識圖譜的構(gòu)建方案
- 到店綜合知識圖譜的應(yīng)用實踐
- 未來展望
01美團到店綜合業(yè)務(wù)介紹
美團到店綜合業(yè)務(wù)涵蓋了本地生活中的休閑玩樂、麗人、親子、結(jié)婚等眾多行業(yè),聚焦用戶的到店消費場景,為用戶提供豐富便捷的本地生活服務(wù)。
在到店綜合業(yè)務(wù)場景下,我們希望能夠深耕本地生活的細(xì)分行業(yè),不斷提升供需匹配效率,改善用戶體驗,而這其中的關(guān)鍵是如何理解用戶需求。
用戶的決策路徑可以分為五個階段,依次是起心動念、考慮、評估選擇、交易購買和履約服務(wù)。用戶的需求往往集中在前兩個階段產(chǎn)生,首先起心動念形成場景化的訴求,例如“周末陪寶寶去哪玩”,我們稱之為場景需求,繼而考慮具體的方案,例如“戶外燒烤”,我們稱之為具象需求。
無論是用戶的場景需求還是具象需求,都需要進一步和商戶和商品等實體建立聯(lián)系,從而為用戶提供能滿足其對應(yīng)需求的不同類型的供給。知識圖譜作為一種揭示實體及實體間關(guān)系的語義網(wǎng)絡(luò),用以解決上述問題顯得尤為合適。為此,我們以用戶需求節(jié)點為中心,鏈接到店綜合業(yè)務(wù)涉及的行業(yè)知識、商戶、商品和內(nèi)容,構(gòu)建了到店綜合知識圖譜(GENE,GEneral NEeds net)。
在到店綜合知識圖譜的構(gòu)建過程中,主要面臨三個方面的挑戰(zhàn):
- 用戶需求多樣化:在本地生活場景中,用戶的需求多樣。為了理解和表達(dá)用戶在不同行業(yè)的多元需求,我們設(shè)計了多層次多維度的圖譜體系,對用戶需求進行層次化和結(jié)構(gòu)化的挖掘。
- 本地生活行業(yè)復(fù)雜:到店綜合業(yè)務(wù)涵蓋了百余個本地生活的行業(yè),行業(yè)知識專業(yè)且差異很大。為了在多行業(yè)上快速構(gòu)建知識圖譜,我們設(shè)計和開發(fā)高效可復(fù)用的挖掘流程和模型,并結(jié)合少樣本學(xué)習(xí)來不斷提升圖譜構(gòu)建的效率。
- 知識圖譜質(zhì)量要求高:由于面向?qū)嶋H的業(yè)務(wù)應(yīng)用,對圖譜節(jié)點和關(guān)系準(zhǔn)確性的要求高。為此,我們基于多源多模態(tài)數(shù)據(jù),通過多種挖掘方法聯(lián)合使用來進行優(yōu)勢互補,以確保最終知識圖譜的質(zhì)量。?
02到店綜合知識圖譜的構(gòu)建方案?
1. 到店綜合知識圖譜體系設(shè)計?
到店綜合知識圖譜的體系設(shè)計由六部分組成,包含場景需求層、場景要素層、具象需求層、需求對象層、行業(yè)體系層和供給層。
- 場景需求層:該層包含了用戶的場景需求節(jié)點,例如“戶外親子”、“周末閨蜜聚會”,這些節(jié)點直接反應(yīng)了用戶場景化的訴求。
- 場景要素層:在該層中,為了更好地表達(dá)場景需求,我們對其進行拆解,細(xì)化成多個不同類型的細(xì)粒度的詞匯,我們將其稱為場景要素。
- 具象需求層:該層包含了用戶的具象需求節(jié)點,例如“戶外燒烤”、“實景劇本殺”,這些節(jié)點直接反應(yīng)了用戶在場景化訴求下具體的服務(wù)需求。
- 需求對象層:在該層中,為了進一步理解具象需求,我們將其分為具體的服務(wù)需求所對應(yīng)的對象,并疊加各種維度的屬性描述,包括服務(wù)交互、風(fēng)格、功效、部位等。
- 行業(yè)體系層:在該層中,我們構(gòu)建了各行業(yè)涉及的類目體系,作為上述各層構(gòu)建的業(yè)務(wù)基礎(chǔ)。
- 供給層:該層包含了內(nèi)容供給和商戶商品這類實物供給,這些供給將會和需求節(jié)點進行關(guān)聯(lián),從而為用戶需求提供相對應(yīng)的供給支撐。
總體來說,在到店綜合知識圖譜中,用戶場景化的需求和具體的服務(wù)需求分別在場景需求層和具象需求層進行展現(xiàn)。這兩種需求又分別通過場景要素和需求對象進行表達(dá)。最后,不同類型的供給都會與場景需求和具象需求相關(guān)聯(lián),從而以用戶需求為紐帶,提升供給和用戶的匹配效率。?
2. 圖譜各層構(gòu)建涉及的主要任務(wù)?
在圖譜各層的構(gòu)建中主要涉及三個方面的任務(wù): ① 節(jié)點挖掘:包括需求、對象、屬性等不同類型節(jié)點的挖掘; ② 節(jié)點關(guān)系構(gòu)建:包括同義、上下位、屬性關(guān)系等多種節(jié)點關(guān)系的構(gòu)建; ③ 節(jié)點和供給關(guān)聯(lián):包括節(jié)點與商戶、商品和內(nèi)容等不同類型供給的關(guān)聯(lián)。
下面我們將按照自底向上的順序介紹各層的具體構(gòu)建方案。?
行業(yè)體系層:
?① 類目樹構(gòu)建和屬性挖掘
由于行業(yè)體系的構(gòu)建對專家知識的要求較高,我們直接沿用了已有的行業(yè)類目樹,再通過人工定義來完善。為了對不同行業(yè)有更深的理解,我們還定義了包含復(fù)購周期、距離偏好在內(nèi)的多個維度的類目屬性,并基于業(yè)務(wù)策略對各個行業(yè)進行多維度的描述。 ② 類目節(jié)點和供給的關(guān)聯(lián)
在行業(yè)體系層中,我們需要進一步建立類目和供給之間的關(guān)聯(lián)關(guān)系。我們將其轉(zhuǎn)化為分類問題,基于供給的各種信息,構(gòu)建多源異構(gòu)數(shù)據(jù)融合判別模型來進行類目分類。 以商戶供給為例,我們將商戶名、商品名、商品詳情、商戶內(nèi)容(UGC)、商戶畫像等多源數(shù)據(jù)進行融合判別。其中:
- 商戶名、商品名及商品詳情:均為文本數(shù)據(jù),直接通過BERT提取文本語義特征后輸出;
- 商戶UGC:由于數(shù)量非常多,為了對其信息進行有效利用,我們首先通過Doc2Vec的方式進行Encode得到UGC的特征后,再通過一個Self-Attention模塊進行特征處理后輸出;
- 商戶畫像則直接轉(zhuǎn)成One-Hot特征后,通過全連接層進行非線性映射后輸出。
上述三種特征相連接后進行融合,實現(xiàn)最終的類目判別?;诙嘣磾?shù)據(jù)的融合建模,商戶信息得到了充分利用,分類準(zhǔn)確率也得到了明顯提升。 需求對象層: 在需求對象層,我們希望能夠挖掘出需求的對象和各種維度的屬性作為該層的節(jié)點,這是用于組成具象需求的基礎(chǔ)。在挖掘過程中,我們分為了粗粒度和細(xì)粒度兩個環(huán)節(jié)。 在粗粒度挖掘中,我們希望獲取對象和屬性維度。由于專業(yè)知識差異很大、行業(yè)知識壁壘較高,為了高效挖掘,我們設(shè)計了關(guān)鍵詞抽取->相關(guān)詞聚類->維度提煉的pipeline,通過算法和人工相結(jié)合的方式來確定該層最終的結(jié)構(gòu)。
接下來是針對各維度進行細(xì)粒度的節(jié)點挖掘。為了確保對象和屬性挖掘的全面性,我們采用多源多方法的方式。在數(shù)據(jù)上,我們采用用戶搜索、UGC等多種文本作為挖掘語料。在方法上,我們采用無監(jiān)督擴充和有監(jiān)督標(biāo)注相結(jié)合來挖掘。
在無監(jiān)督擴充中,我們利用詞向量模型,對各維度的種子詞提取詞向量,并結(jié)合余弦相似度,快速擴充相關(guān)的對象和屬性。在有監(jiān)督標(biāo)注中,我們則采用基于BERT+CRF的序列標(biāo)注模型,在語料中自動識別出新的對象和屬性。 由于人工標(biāo)注樣本數(shù)量往往十分缺乏,面對少樣本的情況,我們進一步利用無監(jiān)督擴充的結(jié)果有針對性地構(gòu)造有監(jiān)督標(biāo)注環(huán)節(jié)的訓(xùn)練樣本。完成對象和屬性節(jié)點的挖掘后,我們會進一步基于統(tǒng)計特征結(jié)合BERT來實現(xiàn)節(jié)點的上下位和同義關(guān)系的構(gòu)建。 具象需求層: ① 具象需求挖掘 在具象需求層中,除了部分需求對象可以直接成為具象需求節(jié)點外,我們還需要在對象和屬性的基礎(chǔ)上進一步挖掘具象需求。 首先我們進行具象需求的候選生成。為了生成的全面性,我們通過基于Pattern和基于短語挖掘兩種方式互補來實現(xiàn)。一方面,通過屬性和對象的Pattern組合直接生成,比如“戶外燒烤”、“吃火鍋K歌”,另一方面通過依存句法樹的句法關(guān)系模板挖掘和基于遠(yuǎn)程監(jiān)督的AutoPhrase方法進行短語挖掘,以對組合結(jié)果進行補充。最后所有挖掘的結(jié)果通過詞頻過濾后進入候選池。
以上獲取的候選節(jié)點雖然符合我們預(yù)設(shè)的規(guī)則或句法關(guān)系,但語義上仍然存在大量與用戶實際需求或者行業(yè)知識不相符的情況。為了更全面地衡量候選節(jié)點的質(zhì)量,我們基于節(jié)點的統(tǒng)計和語義特征聯(lián)合建模,構(gòu)建了一個基于Wide&Deep結(jié)構(gòu)的質(zhì)量判別模型,對候選池中每個節(jié)點的質(zhì)量進行判別。
Wide部分提取候選節(jié)點的全局和上下文的統(tǒng)計特征,Deep部分通過BERT提取候選節(jié)點的深度語義特征。兩部分的特征相連接后進行融合,經(jīng)過全連接層來實現(xiàn)最終的短語質(zhì)量判別。在訓(xùn)練過程中,除了直接使用已經(jīng)積累的常識性短語作為正樣本外,我們還通過預(yù)設(shè)一些常識性的組合來構(gòu)造樣本,并結(jié)合主動學(xué)習(xí)來進行訓(xùn)練。通過質(zhì)量判別后保留的節(jié)點則會交由運營人工審核后入庫。 ② 節(jié)點關(guān)系的構(gòu)建 對于同義和上下位的關(guān)系,可以復(fù)用需求對象層積累的關(guān)系結(jié)果和相應(yīng)的模型。此外,還需要進一步建立具象需求和屬性之間的關(guān)系,以對具象需求進行更詳細(xì)的刻畫。對于基于Pattern生成的具象需求,關(guān)系已經(jīng)天然存在,而直接通過需求對象得到以及基于短語挖掘生成的具象需求,則需要構(gòu)建其和屬性的關(guān)系。
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
我們采用兩階段的方式來構(gòu)建關(guān)系。首先通過在語料文本中提取包含具象需求和屬性的固定Pattern,快速獲取關(guān)系三元組。在此基礎(chǔ)上,構(gòu)建基于BERT的句中實體關(guān)系抽取模型,對包含具象需求和屬性的語料上下文建模,將具象需求和屬性的特征與上下文特征融合后聯(lián)合分類獲取,從而進一步豐富關(guān)系三元組。 ③ 具象需求節(jié)點和供給的關(guān)聯(lián) 在具象需求層中,我們還需要將具象需求與實體供給(商戶和商品)和內(nèi)容供給進行關(guān)聯(lián)。我們將這個問題抽象為一個實體鏈接的問題,通過語義匹配來解決。由于具象需求數(shù)量眾多,同時供給的文本信息通常包含多個子句,出于效率和效果的平衡考慮,我們將整個匹配過程分為了召回、排序和聚合三個階段。
在召回階段,基于構(gòu)建的同義關(guān)系擴展具象需求的同義標(biāo)簽,并將其與子句文本進行粗粒度匹配,粗篩出可能與具象需求節(jié)點有潛在關(guān)聯(lián)的子句,并進入到排序階段進行精細(xì)化的關(guān)聯(lián)關(guān)系計算。 在排序階段,我們采用基于BERT句間關(guān)系分類的語義匹配模型,同時通過一些對比學(xué)習(xí)方法來彌補樣本的不足,并結(jié)合主動學(xué)習(xí)提升標(biāo)注效率。模型通過對召回階段得到的粗篩樣本進行預(yù)測,識別兩者在語義上的匹配關(guān)系。最后對于商戶,我們將結(jié)合商品和內(nèi)容的匹配結(jié)果,通過規(guī)則聚合來完成關(guān)聯(lián)。具象需求和供給的關(guān)聯(lián),保證了用戶的具體服務(wù)需求有相應(yīng)的供給進行承接。 場景要素層: 場景要素層包含了組成用戶場景需求的場景要素。在該層中,我們復(fù)用在之前已經(jīng)積累的流程進行高效挖掘。
① 場景要素的挖掘 我們首先對場景要素進行類型拆解,要描述一個場景,需要交代特定的人物、時間、空間、目的等要素。在此基礎(chǔ)上,考慮到場景要素作為具象需求的場景化的信息,往往來自于用戶的直觀感受,所以我們選擇與具象需求關(guān)聯(lián)的UGC的上下文作為挖掘語料。與需求對象挖掘的方法類似,我們基于無監(jiān)督擴充和有監(jiān)督標(biāo)注相結(jié)合的方式,完成各個類型的要素挖掘。 ② 場景要素和具象需求關(guān)系的構(gòu)建 場景要素與具象需求之間還需要進一步構(gòu)建關(guān)系,即對于每個場景要素,我們還需要找出其適合的具象需求,例如和“閨蜜”可以玩“劇本殺”,帶“孩子”可以去“親近動物”。具體的方法和具象需求-屬性關(guān)系構(gòu)建類似,我們通過關(guān)系模板提取和句中實體關(guān)系建模,在UGC中提取場景要素和具象需求的關(guān)系。?
場景需求層:
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
在場景需求層,我們將場景要素層的信息進行組裝,從而生成大量的場景需求。組裝出的場景需求,既可以包含單個場景要素,也可以包含多個不同類型的場景要素。例如周末和閨蜜聚會、戶外親子等等。 對于組裝得到的場景需求,最重要的是保證其合理性,例如“戶外”和“親子”就是合理的場景,而“閨蜜”和“親子”則是矛盾的場景。為此,我們首先需要計算場景要素之間的關(guān)系評分,從而指導(dǎo)場景需求的組裝。我們以場景要素和具象需求的關(guān)系得分作為依據(jù),通過關(guān)系傳遞評估兩個場景要素之間的相關(guān)性,以過濾低質(zhì)場景需求。 最終場景需求通過其包含的場景要素,可以鏈接到相應(yīng)的具象需求,進而關(guān)聯(lián)相關(guān)的供給,從而給用戶提供場景化的解決方案。3. 數(shù)據(jù)沉淀
經(jīng)過一年多的發(fā)展,到店綜合知識圖譜已完成整體的結(jié)構(gòu)設(shè)計和核心數(shù)據(jù)的建設(shè),覆蓋了到店綜合業(yè)務(wù)的60多個行業(yè),包含了40多萬的需求節(jié)點、上億的關(guān)系數(shù)以及上百種的關(guān)系類型,整體關(guān)系的準(zhǔn)召率均在90%以上。 03到店綜合知識圖譜的應(yīng)用實踐到店綜合知識圖譜當(dāng)前已在到店綜合業(yè)務(wù)的諸多場景中進行了應(yīng)用,取得了不錯的效果,提升了用戶體驗,下面我們介紹具體應(yīng)用實踐。 1. 到店綜合知識圖譜的應(yīng)用
當(dāng)前到店綜合知識圖譜的應(yīng)用主要有三個方面,分別是搜索、推薦和信息智能展示。除了這三個主要應(yīng)用之外,由于在本地生活中新行業(yè)不斷出現(xiàn),我們還會進一步基于知識圖譜在新興行業(yè)上進行一系列應(yīng)用探索。 搜索:
現(xiàn)階段主要應(yīng)用于搜索的召回和可解釋性優(yōu)化。這里以醫(yī)美行業(yè)為例,由于醫(yī)美行業(yè)的專業(yè)性高,用戶在搜索時輸入的query和供給之間往往存在較多的語義隔閡。我們的圖譜數(shù)據(jù),可以為醫(yī)美搜索的召回和可解釋性提供大量的知識輸入。例如,用戶希望眼部年輕化,我們可以直接返回提供相關(guān)項目的供給,從而提升用戶搜索的效率。 推薦:
現(xiàn)階段主要應(yīng)用于推薦的召回和排序。對于召回,圖譜信息可以直接應(yīng)用于供給的關(guān)聯(lián)召回。對于排序,圖譜信息則可以作為特征融入排序建模。當(dāng)前到店綜合知識圖譜已在美團首頁的猜你喜歡和到店綜合業(yè)務(wù)涉及的各個頻道頁內(nèi)的多個推薦流量位進行了應(yīng)用,推薦的效果得到了明顯改善。 信息智能展示:
① 供給聚合 為了滿足用戶豐富多樣的需求,我們跨類目生成需求ICON,如“親近動物”、“帶娃泡湯”,對符合用戶需求的相似供給進行聚合。同時,我們也為用戶生成主題式的供給聚合卡片,更人性化地滿足用戶需求,提升了用戶決策效率。 ② 標(biāo)簽篩選 圖譜的部分需求節(jié)點可以直接用于列表頁的標(biāo)簽篩選,這些篩選項提升了用戶選擇供給的效率。 ③ 推薦理由 基于需求節(jié)點和供給的關(guān)聯(lián)關(guān)系為每個供給選擇包含相應(yīng)需求的文本信息,通過抽取式或受控生成的方式,作為推薦理由外露,這些句子從用戶實際需求的角度展示供給信息,顯著提升了用戶體驗。 2. 到店新興行業(yè)場景下的應(yīng)用探索 這里我們以最近很火的劇本殺行業(yè)為例進行介紹。
劇本殺行業(yè)近年來呈爆發(fā)式增長態(tài)勢,然而由于劇本殺是新興行業(yè),平臺已有的類目體系和產(chǎn)品形態(tài),越來越難以滿足飛速增長的用戶和商戶需求,主要表現(xiàn)為平臺類目缺失、用戶決策效率低、商戶上架繁瑣三個方面的問題。為了解決這些問題,我們需要進行劇本殺的供給標(biāo)準(zhǔn)化建設(shè),實現(xiàn)以標(biāo)準(zhǔn)化為基礎(chǔ),改善供給管理和供需匹配。 在標(biāo)準(zhǔn)化建設(shè)過程中,涉及了劇本名稱、劇本屬性、類目、商戶、商品、內(nèi)容等多種類型的實體,以及它們之間的多元化關(guān)系構(gòu)建,這很適合用知識圖譜來解決。因此我們以到店綜合知識圖譜的體系設(shè)計為基礎(chǔ),以標(biāo)準(zhǔn)劇本為核心構(gòu)建劇本殺行業(yè)知識圖譜,來實現(xiàn)劇本殺的供給標(biāo)準(zhǔn)化。整個劇本殺供給標(biāo)準(zhǔn)化包括了劇本殺供給挖掘、標(biāo)準(zhǔn)劇本庫構(gòu)建和供給與標(biāo)準(zhǔn)劇本的關(guān)聯(lián)三個步驟。
劇本殺供給挖掘: 在劇本殺供給挖掘中,需要判斷商戶是否提供劇本殺服務(wù),判別依據(jù)包括了商戶名、商品名及商品詳情、商戶UGC三個來源的文本語料。這個本質(zhì)上是一個多源數(shù)據(jù)的分類問題,然而由于缺乏標(biāo)注的訓(xùn)練樣本,我們沒有直接采用前文提到的端到端的多源數(shù)據(jù)融合判別模型,而是依托業(yè)務(wù)輸入,采用無監(jiān)督匹配和有監(jiān)督擬合相結(jié)合的方式高效實現(xiàn)。首先基于劇本殺關(guān)鍵詞文本匹配計算各來源的分?jǐn)?shù),再基于線性回歸擬合標(biāo)注的商戶分?jǐn)?shù),獲取各來源的權(quán)重,從而實現(xiàn)對劇本殺商戶的精準(zhǔn)挖掘。
標(biāo)準(zhǔn)劇本庫構(gòu)建: 在標(biāo)準(zhǔn)劇本庫構(gòu)建中,關(guān)鍵是劇本名稱的挖掘,我們根據(jù)劇本殺商品的特點,先后采用了規(guī)則聚合、語義聚合和多模態(tài)聚合三種方法進行迭代,從數(shù)十萬劇本殺商品的名稱中聚合得到數(shù)千標(biāo)準(zhǔn)劇本名稱。下面分別對三種聚合方法分別進行介紹。 我們首先考慮劇本殺商品的命名特點,設(shè)計相應(yīng)的清洗策略對劇本殺商品名稱進行清洗后再聚合。除了梳理常見的非劇本詞,構(gòu)建詞庫進行規(guī)則過濾外,也進一步將其轉(zhuǎn)換為命名實體識別問題,采用序列標(biāo)注對字符進行分類。對于清洗后的劇本殺商品名稱,則通過基于最長公共子序列(LCS)的相似度計算規(guī)則,結(jié)合閾值篩選對其進行聚合。通過規(guī)則聚合的方式能夠在建設(shè)初期幫助業(yè)務(wù)快速對劇本殺商品名稱進行聚合。
規(guī)則聚合的方式雖然簡單好用,但由于劇本名稱的多樣性和復(fù)雜性,我們發(fā)現(xiàn)聚合結(jié)果中仍然存在一些問題:1)字面距離相近但不屬于同一個劇本。2)商品名稱常出現(xiàn)簡稱縮寫和錯別字。 針對這上述這兩種問題,我們進一步考慮使用商品名稱語義匹配的方式,從文本語義相同的角度來進行聚合。具體地,我們采用雙塔式的方法來實現(xiàn),以Sentence-BERT的模型結(jié)構(gòu)為基礎(chǔ),將兩個商品名稱文本分別通過BERT提取向量后,再使用余弦距離來衡量兩者的相似度。在訓(xùn)練過程中,首先基于規(guī)則聚合結(jié)果,構(gòu)造粗粒度的訓(xùn)練樣本,完成初版模型的訓(xùn)練。在此基礎(chǔ)上,進一步結(jié)合主動學(xué)習(xí),對樣本數(shù)據(jù)進行完善。此外,我們還根據(jù)規(guī)則聚合出現(xiàn)的兩種問題,針對性的批量生成樣本。
通過語義聚合的方式實現(xiàn)了從商品名稱文本語義層面的同義聚合,然而我們通過對聚合結(jié)果分析后發(fā)現(xiàn),劇本還存在一些語義完全不一樣的別稱,導(dǎo)致語義不同的商品但仍屬于同一個劇本。為此,我們考慮引入商品的圖像信息來進一步輔助聚合,嘗試構(gòu)建劇本殺商品的多模態(tài)匹配模型,充分利用商品名稱和圖像信息來進行匹配。
在多模態(tài)匹配模型中,模型沿用語義聚合中使用的雙塔式結(jié)構(gòu)。劇本殺商品的名稱和圖像分別通過基于BERT的文本編碼器和基于Efficientnet的圖像編碼器得到對應(yīng)的向量表示后,再進行拼接作為最終的商品向量計算相似度。通過多模態(tài)聚合,彌補了僅使用文本匹配的不足,進一步改善了標(biāo)準(zhǔn)劇本的挖掘效果。 供給與標(biāo)準(zhǔn)劇本關(guān)聯(lián):在完成標(biāo)準(zhǔn)劇本庫構(gòu)建后,還需要建立劇本殺的商品、商戶和內(nèi)容三種供給與標(biāo)準(zhǔn)劇本的關(guān)聯(lián)關(guān)系,從而使劇本殺的供給實現(xiàn)標(biāo)準(zhǔn)化。由于商品和內(nèi)容從屬于商戶,所以我們只對商品和內(nèi)容進行標(biāo)準(zhǔn)劇本關(guān)聯(lián)。
在商品關(guān)聯(lián)中,我們首先對商品名稱進行清洗再進行匹配關(guān)聯(lián)。在匹配環(huán)節(jié),我們基于商品和標(biāo)準(zhǔn)劇本的名稱及圖像的多模態(tài)信息,對兩者進行匹配判別。而對于內(nèi)容關(guān)聯(lián),則沿用前文介紹的在具象需求層中使用的內(nèi)容和需求節(jié)點關(guān)聯(lián)的方法,通過召回和排序兩個環(huán)節(jié),采用基于BERT句間關(guān)系分類的語義匹配模型來實現(xiàn)。 效果呈現(xiàn):① 劇本殺類目上線 通過劇本殺供給挖掘,識別出劇本殺商戶,助力劇本殺新類目和相應(yīng)劇本殺列表頁的構(gòu)建,為用戶提供了中心化流量入口,提升了用戶的選擇效率。
② 推薦優(yōu)化 基于劇本屬性關(guān)聯(lián)召回和圖譜信息融入雙通道DIN建模排序,為推薦帶來了顯著的效果提升,優(yōu)化了用戶認(rèn)知和選購體驗,提高了用戶和供給的匹配效率。
③ 信息展示 基于劇本殺知識圖譜的劇本標(biāo)簽篩選項和相關(guān)信息外露,為用戶提供了規(guī)范的信息展示,降低了用戶決策成本,更加方便了用戶選店和選劇本。同時,內(nèi)容和標(biāo)準(zhǔn)劇本的關(guān)聯(lián)關(guān)系參與到劇本的評分計算。在此基礎(chǔ)上,基于劇本維度,形成劇本榜單,從而為用戶的劇本選擇決策提供了更多的幫助。
04未來展望
由于美團到店綜合業(yè)務(wù)的復(fù)雜性,到店綜合知識圖譜還有很長的迭代之路要走,在此我們提出一些后續(xù)的思考和展望。 首先,我們將從當(dāng)前的供給側(cè)向用戶側(cè)延伸,實現(xiàn)圖譜從貨到人的迭代,納入用戶節(jié)點。同時,加強對已覆蓋的行業(yè)的建設(shè),挖掘更多的節(jié)點和關(guān)系,更好的理解用戶需求,并基于高效的挖掘流程,快速橫向覆蓋到店綜合涉及的所有行業(yè)。
此外,我們也會將圖譜進一步擴展到用戶決策的全鏈路,覆蓋履約服務(wù)環(huán)節(jié),分析其中的用戶需求和反饋,更好地賦能商家提升用戶體驗。最后,我們還會基于在知識表示和計算等環(huán)節(jié)上的不斷迭代,更充分地利用圖譜信息進行更深更廣的應(yīng)用。 希望我們的到店綜合知識圖譜能夠在供需匹配上發(fā)揮出更大的作用,為用戶在本地生活到店場景下提供更好的服務(wù),幫大家吃得更好,生活更好。?
05問答環(huán)節(jié)?
Q:模板抽取的部分,人工定義的三元組模板抽取怎么跟算法提取結(jié)果相結(jié)合?整體的效果怎么樣?
A:這一部分說的應(yīng)該是需求節(jié)點和屬性之間關(guān)系的構(gòu)建。通過人工定義的模板抽取的三元組本身質(zhì)量較高,可以直接入庫。這部分關(guān)系也可以作為后續(xù)算法建模的樣本輸入,整體結(jié)果準(zhǔn)確率在95%以上。
Q:現(xiàn)在的體系和流程,擴展一個新的行業(yè)大概需要多久?
A:美團到店綜合業(yè)務(wù)涵蓋的行業(yè)非常多,每個行業(yè)差異又比較大,所以很難給出準(zhǔn)確的時間預(yù)估,要看行業(yè)本身的復(fù)雜性。對于新行業(yè),我們會先按照之前業(yè)務(wù)上積累下來的高效構(gòu)建流程,先整體構(gòu)建一遍,再來判斷夠到底需要多少時間。
Q:標(biāo)簽召回是離線標(biāo)簽嗎?知識圖譜的召回是利用了圖中哪些信息,效果怎么樣?
A:我們對接下游應(yīng)用有兩種方式。一種是通過離線數(shù)據(jù)的形式直接向下游傳輸;第二種是通過圖數(shù)據(jù)庫以服務(wù)來對接下游,滿足多跳查詢等復(fù)雜的應(yīng)用需求。標(biāo)簽召回當(dāng)前采用的是第一種方式,利用需求節(jié)點及其和供給的關(guān)系信息,將需求節(jié)點以離線標(biāo)簽的形式進行應(yīng)用。在召回效果上,我們以醫(yī)美這個行業(yè)為例進行了介紹,除了醫(yī)美之外,我們在結(jié)婚、親子、教育等多個行業(yè)上都有一些實踐,整體上用戶的CTR都有不錯的提升。
今天的分享就到這里,謝謝大家。
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/quan/62672.html