在最近發(fā)布的兩篇論文中,Meta的研究人員揭示了如何利用生成模型來更好地理解和響應(yīng)用戶意圖。
通過將推薦視為一個生成問題,可以采用新的方法來解決它,這些方法在內(nèi)容上更豐富,效率也高于傳統(tǒng)方法。這種方法對于任何需要檢索文檔、產(chǎn)品或其他類型對象的應(yīng)用程序來說,都具有重要的應(yīng)用價值。
Dense檢索 vs 生成式檢索
創(chuàng)建推薦系統(tǒng)的標(biāo)準(zhǔn)方法是計算、存儲和檢索文檔的密集表示(Dense Retrieval)。例如,為了向用戶推薦項目,應(yīng)用程序必須訓(xùn)練一個模型,該模型能夠計算用戶請求和大量項目存儲庫的嵌入表示。
在推理時,推薦系統(tǒng)通過尋找一個或多個與用戶嵌入表示相似的項目嵌入表示,來嘗試?yán)斫庥脩舻囊鈭D。隨著項目數(shù)量的增長,這種方法需要越來越多的存儲和計算能力,因為每個項目的嵌入表示都必須存儲起來,并且每次推薦操作都需要將用戶嵌入表示與整個項目存儲庫進(jìn)行比較。
生成式檢索(Generative Retrieval)是一種更新的方法,它嘗試通過簡單地預(yù)測用戶交互序列中的下一個項目,而不是通過搜索數(shù)據(jù)庫來理解和推薦用戶意圖。
其工作原理如下:
使生成式檢索發(fā)揮作用的關(guān)鍵是計算“語義ID”(SIDs),其中包含每個項目的上下文信息。像TIGER這樣的生成式檢索系統(tǒng)分為兩個階段工作。首先,訓(xùn)練一個編碼器模型,根據(jù)每個項目的描述和屬性為其創(chuàng)建一個唯一的嵌入值。這些嵌入值成為SIDs,并與項目一起存儲。
在第二階段,訓(xùn)練一個變換器模型來預(yù)測輸入序列中的下一個SID。輸入SID列表表示用戶與過去項目的交互,模型的預(yù)測是要推薦的項目的SID。生成式檢索減少了存儲和跨單個項目嵌入表示進(jìn)行搜索的需求。因此,隨著項目列表的增長,其推理和存儲成本保持不變。它還增強(qiáng)了捕獲數(shù)據(jù)中更深層語義關(guān)系的能力,并提供了生成模型的其他好處,如調(diào)整“溫度”以調(diào)整推薦的多樣性。
高級生成式檢索
盡管生成式檢索的存儲和推理成本較低,但它也存在一些局限性。例如,它傾向于過擬合訓(xùn)練期間見過的項目,這意味著它在處理模型訓(xùn)練后添加到目錄中的項目時會遇到困難。在推薦系統(tǒng)中,這通常被稱為“冷啟動問題”,即涉及新用戶和新項目,它們沒有交互歷史。
為了解決這些短板,Meta開發(fā)了一種名為LIGER的混合推薦系統(tǒng),該系統(tǒng)結(jié)合了生成式檢索的計算和存儲效率,以及Dense檢索的穩(wěn)健嵌入質(zhì)量和排名能力。
在訓(xùn)練期間,LIGER使用相似度得分和下一個標(biāo)記目標(biāo)來改進(jìn)模型的推薦。在推理時,LIGER基于生成機(jī)制選擇幾個候選項目,并用一些冷啟動項目進(jìn)行補(bǔ)充,然后根據(jù)生成候選項目的嵌入表示對這些項目進(jìn)行排名。
研究人員指出,“Dense檢索和生成式檢索方法的融合對推進(jìn)推薦系統(tǒng)具有巨大潛力”,并且隨著模型的發(fā)展,“它們將越來越適用于實際應(yīng)用,實現(xiàn)更個性化和響應(yīng)迅速的用戶體驗”。
在另一篇論文中,研究人員介紹了一種新穎的多模態(tài)生成式檢索方法,名為多模態(tài)偏好辨識器(Mender),這是一種能夠使生成模型從用戶與不同項目的交互中捕捉隱含偏好的技術(shù)。Mender基于基于SIDs的生成式檢索方法構(gòu)建,并添加了一些組件,這些組件可以用用戶偏好豐富推薦。
Mender使用大型語言模型(LLM)將用戶交互轉(zhuǎn)化為特定偏好。例如,如果用戶在評論中贊揚(yáng)或抱怨了某個特定項目,模型將將其總結(jié)為對該產(chǎn)品類別的偏好。
主要推薦模型在預(yù)測輸入序列中的下一個語義ID時,被訓(xùn)練為同時以用戶交互序列和用戶偏好為條件。這使推薦模型具備泛化能力、能夠進(jìn)行上下文學(xué)習(xí),并適應(yīng)用戶偏好,而無需對這些偏好進(jìn)行顯式訓(xùn)練。
“我們的貢獻(xiàn)為新一代生成式檢索模型鋪平了道路,這些模型能夠利用有機(jī)數(shù)據(jù)通過文本用戶偏好來引導(dǎo)推薦,”研究人員寫道。
對企業(yè)應(yīng)用的影響
生成式檢索系統(tǒng)所提供的效率對企業(yè)應(yīng)用具有重要影響。這些進(jìn)步轉(zhuǎn)化為即時的實際效益,包括降低基礎(chǔ)設(shè)施成本和加快推理速度。該技術(shù)無論目錄大小如何都能保持恒定的存儲和推理成本,這對成長中的企業(yè)來說尤其有價值。
這些好處橫跨各行業(yè),從電子商務(wù)到企業(yè)搜索。生成式檢索仍處于早期階段,我們可以期待隨著其成熟,將涌現(xiàn)出更多的應(yīng)用和框架。
企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,旗下運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。