對這個專注于商業和就業的社交媒體平臺來說,將合格的候選人與潛在雇主連接起來,幫助填補職位空缺是其核心業務。同樣重要的是確保平臺上的帖子反饋與消費者的需求相關。在LinkedIn的規模下,這些匹配過程一直依賴于技術。
在2023年夏天,當GenAI的興趣首次高漲時,LinkedIn開始考慮是否利用大型語言模型(LLMs)來匹配候選人與雇主,以及使信息流更加有用會更好。
因此,這家社交媒體巨頭開啟了一段GenAI的旅程,并現在正在報告其利用Microsoft的Azure OpenAI服務的經驗成果。各行各業的CIOs都可以從LinkedIn在此過程中學到的一兩點經驗。
起伏跌宕
正如大多數CIO所經歷的那樣,采用新興技術伴隨著試驗和挫折。LinkedIn的情況也不例外,據該公司的首席軟件工程師及技術負責人Juan Bottaro所說,其走向LLM洞察的道路一點也不平坦。
Bottaro表示,最初的成果“感覺不夠完善”,“連接的點還不夠多。”
圍繞GenAI的首波炒作并沒有幫助。
“LLM是新事物,感覺它能解決所有問題,”Bottaro說。“我們開始時對LLM能做什么并沒有一個非常清晰的概念。”
例如,早期版本的改進型職位匹配工作可以說是相當的,用一個不太恰當的詞來說,粗魯。或者至少過于直白。
“點擊‘評估我是否適合這份工作’后得到‘你完全不適合’并不實用,”Bottaro說。“我們希望[回應]既事實準確,同時也要有同理心。有些會員可能正在考慮轉行到他們目前并不十分適合的領域,需要幫助了解差距和下一步該怎么做。”
因此,LinkedIn初步學到的一個重要經驗是調整LLM以滿足觀眾的期望——并幫助LLM理解如何以一種或許不是人類,但至少是人性化的方式來回應。
速度問題
盡管LinkedIn擁有超過十億會員,依靠LinkedIn的LLM工作的大部分求職功能最初是針對高級會員的,這是一個相對較小的群體。(LinkedIn拒絕透露其擁有多少高級會員。)
在如此大的規模運作時,速度是至關重要的,特別是在與相關職位匹配候選人這樣細致的事務上。這里,人們認為LLM會有所幫助,因為LLM的一個經常被提及的優點是其速度,使它們能夠迅速完成復雜的步驟。但Bottaro表示,LinkedIn的部署并非如此。
“我不會說LLM很快。我不認為速度是一個優勢,”他說。
速度可以有多種定義。雖然在操作上LLM可能沒有像希望的那樣快,但Bottaro表示整體部署過程的加速令人震驚。“這項新技術的超能力在于你可以非常快速地創建原型,大約在兩到三個月之間。在這項技術出現之前,這是不可能的,”他說。
當被問及如果沒有LLM,項目的各個方面需要多久時,Bottaro表示有些可能根本無法完成,而其他元素“可能需要幾年時間。”
作為一個例子,Bottaro提到了旨在理解意圖的系統部分。沒有LLM,這可能需要兩到三個月,但LLM在“不到一周”的時間內就掌握了它。
成本考慮
Bottaro稱之為“障礙”的一個方面是成本。同樣,成本在項目的不同階段意味著不同的東西,正如LinkedIn的經驗所示。
“我們用于開發的金額微不足道,”Bottaro說。但當涉及到向LinkedIn的客戶提供數據時,成本激增。
“即便只是針對幾百萬會員,”Bottaro說,這可能暗示了高級會員的數量,價格也飆升了。這是因為LLM的定價——至少是LinkedIn與Microsoft(其LLM提供商及母公司)達成的許可協議——是基于使用量的,具體來說是輸入和輸出令牌的使用量。
一位AI供應商的首席執行官Tarun Thummala在一篇與此項目無關的LinkedIn帖子中解釋說,LLM的輸入和輸出令牌大約相當于0.75個單詞。LLM供應商通常按成千上萬或成百萬賣令牌。例如,LinkedIn使用的Azure OpenAI在美國東部地區收費標準為每100萬個8K GPT-4輸入令牌30美元,每100萬個8K GPT-4輸出令牌60美元。
評估挑戰
LinkedIn為其項目設定的另一個功能目標是自動評估。LLM在準確性、相關性、安全性和其他關注點方面的評估一直是個挑戰。領先的組織和LLM制造商一直在嘗試自動化一些工作,但據LinkedIn稱,這種能力“仍然是在進行中”。
沒有自動化評估,LinkedIn報告稱“工程師們只能靠目測結果,并在有限的樣本集上進行測試,且通常會有超過1天的延遲才能知道指標。”
該公司正在構建基于模型的評估器,以幫助估計關鍵的LLM指標,如整體質量得分、幻覺率、連貫性和負責任的AI違規情況。這樣做將能夠加快實驗的速度,公司的工程師說,盡管LinkedIn的工程師在幻覺檢測方面取得了一些成功,但他們還沒有完成該領域的工作。
數據質量
LinkedIn在其職位匹配努力中遇到的部分挑戰歸結為雙方的數據質量問題:雇主和潛在雇員。
LLM只能使用提供給它的數據,有時候職位發布并不精確或全面地說明雇主所尋求的技能。另一方面,一些求職者發布的簡歷表述不佳,無法有效反映他們在解決問題等方面的豐富經驗。
在這方面,Bottaro看到了LLM幫助雇主和潛在雇員的潛力。通過改善雇主和LinkedIn用戶的書寫,雙方都能受益,因為公司的職位匹配LLM在數據輸入質量更高時能夠更有效地工作。
用戶體驗
在處理如此龐大的會員基礎時,準確性和相關性指標可能“給人一種虛假的安慰感,”Bottaro說。例如,如果LLM“90%的時間都做得對,這意味著十分之一的人會有糟糕的體驗,”他說。
使這種部署更加困難的是,提供有用、有幫助且準確答案所涉及的極端細微差別和判斷。
“你如何定義什么是好的,什么是壞的?我們花了很多時間與語言學家一起制定關于如何提供全面代表性的指導。我們也做了很多用戶研究,”Bottaro說。“你如何訓練人們撰寫正確的回應?你如何定義任務,規定回應應該是什么樣的?產品可能試圖建設性或有幫助。它不試圖假設太多,因為那是幻覺開始的地方。我們對回應的一致性感到非常自豪。”
實時運營
LinkedIn龐大的規模為職位匹配帶來了另一個挑戰。在擁有十億會員的情況下,一個職位廣告在發布幾分鐘內可能會收到數百甚至數千個應聘回應。如果看到已經有數百人申請,許多求職者可能就不會再費心申請了。這就要求LLM非常迅速地找到匹配的會員,在資質較低的申請者提交材料之前做出反應。之后,會員是否看到通知并及時做出反應仍然是一個問題。
在雇主方面,挑戰在于找到最合適的應聘者——不一定是反應最快的人。一些公司不愿公布薪資范圍,這進一步復雜化了雙方的努力,因為最合格的應聘者可能對職位的薪酬不感興趣。這是一個LLM無法解決的問題。
API和RAG
LinkedIn龐大的數據庫包含了關于個人、雇主、技能和課程的許多獨特信息,但其LLM尚未接受過這些數據的培訓。因此,根據LinkedIn工程師的說法,它們目前無法使用這些資產進行任何推理或生成響應的活動,因為這些資產是如何存儲和提供的。
在這里,檢索增強生成(RAG)是一個典型的解決方案。通過建立內部API的管道,企業可以用額外的上下文“增強”LLM提示,以更好地指導和限制LLM的響應。LinkedIn的大部分數據通過RPC API公開,公司的工程師說這“方便人類以編程方式調用”,但“對LLM并不友好”。
為了解決這個問題,LinkedIn的工程師圍繞其API“封裝了技能”,給它們提供了一個“對LLM友好的API功能描述以及何時使用它”,以及配置細節、輸入和輸出架構以及將每個API的LLM版本映射到其底層(實際)RPC版本所需的所有邏輯。
LinkedIn的工程師在一份聲明中寫道:“像這樣的技能使LLM能夠執行與我們產品相關的各種操作,如查看個人資料、搜索文章/人員/職位/公司,甚至查詢內部分析系統。”他們還提到,“同樣的技術也用于調用非LinkedIn的API,如Bing搜索和新聞。”這種方法不僅提高了LLM的功能性,還增強了其與現有技術基礎設施的整合能力,使得LLM能夠更廣泛地應用于企業的各個方面。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。