首頁 資訊 美團外賣美食知識圖譜的迭代及應用

美團外賣美食知識圖譜的迭代及應用

來源:泰然健康網(wǎng) 時間:2025年05月23日 20:47

0. 寫在前面

菜品是外賣交易過程的核心要素,對菜品的理解也是實現(xiàn)外賣供需匹配的重點。本期推送,我們將通過三篇文章系統(tǒng)地介紹了美團外賣美食知識圖譜的構建和應用。第一篇文章會介紹外賣知識圖譜的體系全貌,包括菜品類目、標準菜品、美食基礎屬性(食材、口味等)和美食業(yè)務主題屬性。同時外賣的菜品屬于非標品。第二篇,我們將重點介紹外賣菜品標準化建設思路、技術方案和業(yè)務應用。由于外賣的業(yè)務特點是搭配成單,所以在第三篇我們會針對性地介紹外賣套餐搭配技術的迭代以及應用實踐。希望對從事相關工作的同學能夠帶來一些啟發(fā)或者幫助。

本文系外賣美食知識圖譜系列的第一篇文章,這篇文章系統(tǒng)地介紹了美團外賣美食知識圖譜的標簽體系結構,包括菜品類目標簽、標準菜品名、美食基礎屬性(食材、口味、菜系等)和美食業(yè)務主題屬性(商家招牌、類目經(jīng)典等)。在技術層面,舉例對標簽體系的具體構建方法進行介紹,例如基于BERT預訓練的分類模型。在應用方面,介紹了美食知識圖譜在美團外賣業(yè)務的具體應用,包括支撐套餐搭配的菜品表征、提升搜索和商家推薦等業(yè)務的用戶體驗。

1. 背景

知識圖譜,旨在描述真實世界中存在的各種實體和實體之間的關系。在美團外賣業(yè)務中,美食商品是美團向用戶提供服務的基礎,美食知識圖譜的建設,可以幫助我們向用戶提供更加準確、更加豐富、更加個性化的美食服務。另外,美團外賣業(yè)務向用戶提供“到家”吃飯的服務,到店餐飲業(yè)務則向用戶提供“到店”吃飯的服務,而外賣和到店的商家和菜品有相當程度的重合,菜品數(shù)據(jù)的對齊,為我們進行線上(外賣場景)線下(到店場景)數(shù)據(jù)的對比分析也提供了一個很好的“抓手”。

本文介紹了外賣美食知識圖譜的建設,基于對外賣業(yè)務數(shù)據(jù)(外賣交易數(shù)據(jù)、商家錄入的商品標簽信息、專業(yè)描述PGC、用戶評論UGC、商品圖片等)和站外數(shù)據(jù)(百科、菜譜等)的挖掘和分析,形成了針對外賣美食的分類體系(美食類目標簽)和標準化體系(標準菜品名標簽),并進一步針對不同類型的美食商品,構建包含口味、食材等眾多美食基礎屬性體系。同時,依托美團外賣的業(yè)務特性,構建美食商品在外賣業(yè)務中涉及的主題屬性體系,例如商家招牌、商家主營、類目經(jīng)典等。目前,外賣美食知識圖譜的標簽結構如下圖1所示:

圖1 美食知識圖譜標簽體系

圖1 美食知識圖譜標簽體系

外賣美食知識圖譜包含以下四種維度的標簽(以“宮保雞丁”為例,如下圖2所示):

類目標簽:包括主食、小吃、菜品等類目,并在每個類目下,形成了層級化的三百多種細分類目。例如“宮保雞丁”的類目是“菜品”。類目標簽是美食商品的基礎分類信息,根據(jù)類目的不同,美食商品的基礎屬性也不同。例如“菜品”類目存在“葷素”、“菜系”之分,而“酒水飲品”類目則沒有這種屬性標簽。標準菜品名標簽:標準菜品名標簽主要為標準商品信息,例如“宮保雞?。ㄕ信票攸c)”的標準商品是“宮保雞丁”。因商家輸入商品的多樣性,標準菜標簽的建設,實現(xiàn)了相同美食的聚合。基礎屬性:根據(jù)美食商品的類目不同,構建包括美食的食材、菜系、口味、制作方法、葷素等基礎屬性。例如“宮保雞丁”的菜系是“川菜”,食材有“雞胸”和“花生”,葷素標簽是“葷”?;A屬性的挖掘對我們理解商品起到關鍵作用,在商品的篩選、展示、商品表征等業(yè)務需求方面,提供基本的數(shù)據(jù)特征。主題屬性:主題屬性主要體現(xiàn)美食的業(yè)務主題,包括美食在外賣的交易行為、美食在商家的定位、美食在用戶反饋中的好評度等。例如某商家的“宮保雞?。ㄕ信票攸c)”是該商家的“招牌菜”。

圖2 外賣美食知識圖譜樣例

圖2 外賣美食知識圖譜樣例

菜品對齊,涉及到菜品數(shù)據(jù),來自外賣在線菜品、點評推薦菜品、美團商家套餐等。

2. 需求及挑戰(zhàn)

目前,外賣美食知識圖譜已經(jīng)應用于美團外賣的多個場景,例如推薦、搜索、套餐搭配、運營分析等。業(yè)務的深入發(fā)展,對美食知識圖譜的建設和迭代也提出了更加復雜的要求,例如:

美食商品越來越多樣,相應的美食知識圖譜則需要越來越精細和準確。例如美食知識圖譜的類目標簽從零開始,建設了包含一百多種類目的類目標簽體系。但隨著業(yè)務發(fā)展,部分類目存在明顯的可細化空間。圖譜標簽的挖掘,偏向于靜態(tài)標簽的挖掘,對于相同圖譜標簽下的美食,缺少業(yè)務相關的主題屬性描述。例如同樣包含“花生”的“酒鬼花生”,相比“宮保雞丁”,更能代表“花生”相關的美食。外賣美食知識圖譜主要描述外賣美食商品,而同一商家的美食商品,也可能會出現(xiàn)在該店的線下收銀等業(yè)務中。通過對齊不同業(yè)務的美食商品,可以在美食實體層面,完善美食知識圖譜對商家美食的描述,從而指導商品和商家運營。

為滿足業(yè)務需求,我們對類目標簽和基礎屬性進行了迭代和優(yōu)化;同時,構建了業(yè)務相關的主題屬性。另外,我們將外賣菜品和到餐菜品進行了實體對齊。其中,挖掘主題屬性,即挖掘業(yè)務相關的圖譜知識,是一個需要綜合考慮外賣業(yè)務和商品本身屬性的復雜過程。外賣菜品和到餐菜品的對齊,則需要綜合考慮菜品多樣性表述和菜品主體歸一。

外賣美食知識圖譜的迭代難點主要體現(xiàn)在以下幾點:

業(yè)務相關的主題屬性挖掘,并沒有現(xiàn)成的體系可以參考,在構建過程中,涉及大量的分析和體系設計工作。主題屬性的挖掘,最重要的是需要從用戶的需求出發(fā),分析用戶對商品的需求點,并將其反映在商品的圖譜層面,形成相應的主題屬性標簽。同時,商家的商品信息是一個動態(tài)變化的過程,例如銷量、供給、商品標簽等,前后兩天的信息可能就會完全不同。因此業(yè)務性主題屬性的挖掘,一方面需要建設相對完善的體系,另一方面也需要適配業(yè)務數(shù)據(jù)的動態(tài)變化過程,也就在圖譜挖掘和需求匹配上帶來了極大的挑戰(zhàn)。商家錄入菜品時,對菜品存在多樣性表述,例如同一道菜在分量、口味、食材等方面存在的差異。菜品對齊時,則需要對這些多樣性表述進行平衡,例如是否忽略分量因素等。但目前并沒有現(xiàn)成的對齊標準可以參考。

3. 外賣美食知識圖譜的迭代

因篇幅受限,本文主要對其中菜品類目,不同類目、口味、食材、葷素、做法下的經(jīng)典美食,健康餐等圖譜標簽的挖掘進行介紹。其中,在圖譜標簽挖掘中涉及到的數(shù)據(jù)來源和采用的技術,大致如下表所示:

標簽技術菜品類目BERT分類模型不同類目、口味、食材、葷素、做法下的經(jīng)典美食數(shù)據(jù)統(tǒng)計、實體識別、關系識別、產品定義(綜合考慮銷量和供給量)健康餐分類模型+產品定義(符合一定食材、做法、功效的商品)

3.1 菜品類目

菜品類目標簽的挖掘,主要解決美食菜品是什么類別的問題。實現(xiàn)這一目標的挑戰(zhàn)有兩方面:首先是類目體系如何建立,其次是如何將商品鏈接到相應的類目節(jié)點。在最開始的體系構建時,我們從美食商品的特點以及業(yè)務的具體需求出發(fā),從零開始建立起包含一百多種類別的層次化類別體系,部分實例如圖3(左)所示。同時,構建基于CNN+CRF的分類模型,對美食商品進行類目分類,如圖4(左)所示。

然而,隨著業(yè)務的發(fā)展,已有分類目已經(jīng)無法支持現(xiàn)有業(yè)務的需求。例如:原先的類目體系,對熱菜描述不夠詳細,譬如沒有區(qū)分熱菜的做法等。為此,我們與外賣的供給規(guī)劃部合作,將類目體系擴充到細分的三百多種類目標簽,劃分更加詳細,覆蓋也更加全面,部分實例如圖3(右)所示。

圖3 類目體系的迭代

圖3 類目體系的迭代

類目的細分,要求模型更加精確。在進行類目識別時,可用的數(shù)據(jù)包括菜品名、商家店內側邊欄分類名稱、商家名等??紤]到可使用的信息大多為文本信息,并且,商家錄入的文本并沒有一定的規(guī)范,菜品名也多種多樣,為提高模型精度,我們將原先的CNN+CRF的分類模型進行了升級,采用模型容量更大的BERT預訓練+Fine-Tuning的模型。模型結構如下圖4(右)所示。

圖4 類目模型迭代

圖4 類目模型迭代

3.2 不同類目、口味、食材、葷素、做法下的經(jīng)典美食標簽

我們在建設主題屬性時,首先在基礎屬性標簽維度,綜合考慮商品的銷量和供給情況,對菜品進行選優(yōu)。例如類目下的經(jīng)典美食等。但在建設過程中,我們發(fā)現(xiàn)菜系的經(jīng)典美食識別,假如依據(jù)銷量和供給進行識別,則識別結果傾向于菜系下的“家常菜”,因此將經(jīng)典菜系美食進行單獨識別。

類目經(jīng)典美食等指的是銷量較高、供給量豐富的類目美食商品,例如主食經(jīng)典美食、小吃經(jīng)典美食??谖丁⑹巢?、做法經(jīng)典美食標簽等也是相似的定義。

在建設過程中,我們發(fā)現(xiàn),假如直接在商品維度進行識別,因為商品的更新頻率相對較高,對新錄入的暫時沒有銷量或者暫時銷量低的美食商品不友好,銷量水平需要考慮在線時間的影響。因此我們使用標準菜品進行類目、口味經(jīng)典等的識別,并通過標準菜品,泛化到具體的美食商品上。

其中,“標準菜品”借用其它類電商業(yè)務中的“標品”概念,雖然絕大部分菜品的生產都不是標準化的過程,但是這里我們只關注主要的共性部分,忽略次要的差異部分。例如“西紅柿雞蛋”、“番茄炒蛋”都是同一類菜品。從結果上看,目前我們聚合出來的“標準菜品”達到幾十萬的量級,并且能夠覆蓋大部分美食商品。

借助標準菜品,我們將類目、口味、食材、葷素、做法等標簽聚合到標準菜品維度,并將銷量、供給量進行標準菜品維度計算,這樣就解決了商品在線時間長短的問題。在具體打標過程中,例如類目經(jīng)典,我們基于銷量和供給,在類目維度對標準菜進行排序,并選擇Top n%標準菜進行打標,作為類目經(jīng)典下的商品。例如在“面食”類目下,“西紅柿雞蛋面”的銷量和供給量均在Top n%的水平,因此就認為“西紅柿雞蛋面”是一個面食類經(jīng)典美食。

3.3 健康餐

這里的健康餐主要指低脂低卡餐,即低卡路里、低脂肪、高纖維、制作簡單、原汁原味、健康營養(yǎng)的食物,一般為蔬菜水果(如羅勒、甘藍、秋葵、牛油果等),富含優(yōu)質蛋白的肉類(如三文魚、蝦、貝類、雞胸等),谷物(主要以粗糧為主,如燕麥、高粱、藜麥等)。烹飪方法也堅持“少油,少鹽,少糖”的原則,主要做法為蒸、煮、少煎、涼拌等。

健康餐的識別,主要挑戰(zhàn)在于本身的樣本較少,但是因為健康餐的特殊性,商家在進行商品錄入時,一般會對其進行描述,例如指出這個美食商品是“健康”的、“低卡”的、“健身”類型的,因此我們構建了一個分類模型,對健康餐進行識別。可使用的數(shù)據(jù),包括商品名、商家導航欄、商家名稱、商家對商品的描述等。而商家類目與商品的類目處于迭代狀態(tài),因此并沒有對這部分信息進行使用。

識別過程如下

訓練數(shù)據(jù)構建:因健康餐本身的占比相對較少,因此首先總結和健康餐相關的關鍵詞,使用關鍵詞進行文本匹配,采樣概率相對較高的健康餐數(shù)據(jù),進行外包數(shù)據(jù)標注。此處,我們總結出“沙拉、谷物飯、谷物碗、低油、低卡、無糖、減脂、減肥、輕食、輕卡”等關鍵詞。模型構建:同一個商品因其中使用的配料不同,在健康餐識別方面也會不同,例如菜名為“招牌沙拉”的商品,假如沙拉中添加了芝士,則有可能商品就不會被識別成健康餐。為了綜合考慮商家錄入的商品信息,使用商品名、商家名、導航欄名稱、商家錄入的商品描述等。這四種數(shù)據(jù)為不同尺度的數(shù)據(jù)源,商品名等為相對較短的文本,因此在模型構建時,考慮使用類似Text-CNN[1]的結構進行字級別的特征提??;商品描述則是相對較長的文本,因此在構建時,考慮使用類似Transformer[2]的結構進行特征提取,使用Multi-head Attention的機制,提取長文本中,“字”層面的特征。具體結構如下:采用了兩種結構:Multihead-attention(Transformer)和Text-CNN。實驗發(fā)現(xiàn),采用兩種結構聯(lián)合的方式,比采用單一結構準確率高。在建模時,均使用字級別特征處理,避免因為分詞造成的誤差,同時也避免未登錄詞的影響。數(shù)據(jù)迭代增強:因為使用關鍵詞進行樣本構建,在模型訓練時,模型會朝著包含這些關鍵詞的方向學習,因此存在漏召回的情況。在這里,我們進行了一定的訓練數(shù)據(jù)增強,例如在評估時,選取可識別出健康餐的商家,對該商家中漏召回的數(shù)據(jù)進行訓練數(shù)據(jù)補充;同時,對部分特征明顯的關鍵詞,進行補充并擴充正例。通過對訓練樣本的多次擴充,最終完成健康餐的高準確率識別。

圖5 健康餐識別模型

圖5 健康餐識別模型

3.4 菜品實體對齊

考慮到同一商家菜品在不同業(yè)務線的菜品名可能略有差異,我們設計了一套菜品名匹配的算法,通過拆解菜品名稱的量詞、拼音、前后綴、子字符串、順序等特征,利用美食類目識別、標準菜品名抽取、同義關系匹配等進行菜品實體對齊。例如:碳燒鴿=炭燒鴿、重慶辣子雞=重慶歌樂山辣子雞、茄子肉泥蓋飯=茄子肉泥蓋澆飯、番茄炒蛋=西紅柿炒蛋等。目前,形成如下圖的菜品歸一體系:

圖6 菜品歸一體系

圖6 菜品歸一體系

4. 應用

這里對外賣美食知識圖譜的應用,進行舉例說明。主要涉及套餐搭配、美食商品展示等。

4.1 套餐搭配-表征菜品

為滿足用戶的搭配成單需求,進行套餐搭配技術的探索。套餐搭配技術的關鍵在于,對美食商品的認知,而外賣美食知識圖譜,則提供了最全面的數(shù)據(jù)基礎。我們基于同商家內的商品信息和歷史成單信息,對商品的搭配關系進行擬合,參考指針網(wǎng)絡[2]等結構,構建了基于Multi-Head Attention[3]的Enc-Dec模型,具體的模型結構如下:

Encoder:對商家菜單進行建模,因菜單為無序數(shù)據(jù),因此采用Attention的方式進行建模。商品的信息主要包括商品名、商品圖譜標簽、交易統(tǒng)計數(shù)據(jù)等三部分。對菜名、商品標簽分別進行Self-Attention計算,得到菜名和商品標簽對應的向量信息,然后與交易統(tǒng)計數(shù)據(jù)進行Concat,作為商品的初步表示。對商品的初步表示進行Self-Attention計算,以對同商家的商品有所感知。Deocoder:對搭配關系進行學習,基于當前已選擇的商品,對下一個可能的搭配進行預估。在搭配輸出時,使用Beam-Search進行多種搭配結果的輸出。為了保證輸出搭配中的商品的多樣性,添加Coverage機制[2]。訓練之后,將Encoder部分分離,進行離線調度,可實現(xiàn)每天的向量產出。

具體的模型結構如下圖所示:

圖7 套餐搭配模型

圖7 套餐搭配模型

基于外賣美食知識圖譜構建的套餐搭配模型,在多個入口(“滿減神器”、“對話點餐”、“菜品詳情頁”等)取得轉化的提升。

4.2 交互式推薦

通過分析外賣用戶的需求,發(fā)現(xiàn)用戶存在跨店相似商品對比的需求,為打破商家界限的選購流程特點,提供便捷的跨店對比決策方式。交互式推薦,通過新的交互模式,打造推薦產品的突破點。在用戶的交互過程中,根據(jù)用戶的歷史偏好、實時的點擊行為,向用戶推薦可能喜歡的美食商品。如下圖8(左)所示,在向用戶進行同類美食的推薦時,美食知識圖譜中的標準菜品標簽提供了主要的數(shù)據(jù)支撐。

4.3 搜索

搜索作為外賣核心流量入口,承載了用戶明確的外賣需求。用戶通過輸入關鍵詞,進行菜品檢索。在實際使用中,從搜索的關鍵詞類型看,可能是某個具體的菜品,也可能是某種食材、某種菜系。在美食知識圖譜中,圖譜標簽的高準確率和高覆蓋,有助于提升搜索入口的用戶體驗,最新的實驗也表明了這一點(新增部分食材、菜系、功效等標簽,在搜索的線上實驗效果正向)。

圖8 交互式推薦和搜索

圖8 交互式推薦和搜索

5. 未來規(guī)劃

5.1 場景化標簽的挖掘

美食與我們的生活息息相關,美團外賣每天為千萬用戶提供美食方面的服務。然而,用戶的需求是多種多樣的,在不同的環(huán)境、不同的場景下,對美食的需求也不盡相同。目前美食知識圖譜挖掘,在場景相關的標簽較為缺失,例如某些節(jié)氣、節(jié)日等圖譜知識;特定天氣情況下的圖譜知識;特定人群(增肌人群、減肥人群)等的圖譜知識。接下來我們會在場景化標簽的挖掘方面進行探索。

在挖掘方法方面,目前的挖掘數(shù)據(jù)主要為文本信息。在商品圖片、描述、結構化標簽等信息的融合方面,挖掘不夠深入,模型的效果也有待提升。因此在多模態(tài)識別模型方面,我們也會進行相應的探索。

5.2 基于圖譜的推薦技術研究

美團外賣在理解美食的基礎上,向用戶進行美食推薦,以更好地滿足用戶對美食的需求。外賣美食知識圖譜和外賣業(yè)務數(shù)據(jù),作為實現(xiàn)這一點的數(shù)據(jù)基礎,包含上億的節(jié)點信息和十幾億的關系數(shù)據(jù)。通過對用戶的商品搜索、點擊、購買等行為進行建模分析,可以更加貼合用戶的需求,向用戶進行商品推薦,例如,將美食知識圖譜和外賣行為數(shù)據(jù)融合,以用戶為起點,進行隨機游走,向用戶推薦相關的美食。在接下來的圖譜應用方面的探索中,我們也會更加深入的探索基于美食知識圖譜和用戶行為的推薦技術。

6. 參考文獻

[1] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.[2] See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.[4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in Neural Information Processing Systems. 2017: 1024-1034.

7. 作者簡介

楊林、郭同、海超、懋地等,均來自美團外賣技術團隊。

相關知識

美團外賣應該怎樣點
測評有獎|美團外賣測評官上線,曬必點外賣美食
如何點外賣美團外賣
美團外賣該如何點
美團外賣健康證怎么辦
美團點外賣怎么點的
[善存&美團]:2024白領外賣餐食健康洞察
外賣健康證ps模板圖片(美團健康證20元)
美團:2024白領外賣餐食健康洞察報告(27頁).pdf
美團怎么點外賣 美團點外賣方法詳細流程一覽

網(wǎng)址: 美團外賣美食知識圖譜的迭代及應用 http://m.gysdgmq.cn/newsview1316136.html

推薦資訊