GenAI,尤其是大型語言模型(LLM),正在改變公司開發(fā)和交付軟件的方式。從聊天機(jī)器人和簡(jiǎn)單自動(dòng)化工具開始的這一進(jìn)程,正在發(fā)展成為功能更為強(qiáng)大的AI系統(tǒng)——這些系統(tǒng)與軟件架構(gòu)深度融合,并影響從后端流程到用戶界面的方方面面。
聊天機(jī)器人浪潮:短期趨勢(shì)
公司目前正在專注于為各種問題開發(fā)聊天機(jī)器人和定制化的GPT,這些基于AI的工具在兩個(gè)領(lǐng)域尤其有用:使內(nèi)部知識(shí)易于獲取和自動(dòng)化客戶服務(wù)。聊天機(jī)器人用于構(gòu)建響應(yīng)系統(tǒng),使員工能夠快速訪問廣泛的內(nèi)部知識(shí)庫,打破信息孤島。
盡管這些工具很有用,但由于缺乏創(chuàng)新或差異化,其價(jià)值正在逐漸降低。此外,由于缺乏解決某些問題的更好替代方案的知識(shí),聊天機(jī)器人往往并不是合適的用戶界面。
未來的特點(diǎn)將是更深入的AI能力,這些能力將無縫融入軟件產(chǎn)品中,而終端用戶甚至不會(huì)察覺到。
無處不在的GenAI技術(shù)
在未來幾年,AI將從一種需要直接用戶交互的明確、不透明的工具,演變成功能集中無縫集成的一個(gè)組件。GenAI將實(shí)現(xiàn)動(dòng)態(tài)內(nèi)容創(chuàng)建、智能決策和實(shí)時(shí)個(gè)性化等功能,而用戶無需直接與它們交互。這將從根本上改變用戶界面(UI)設(shè)計(jì)和軟件的使用方式。用戶將越來越能夠通過自然語言描述他們的需求,而不是手動(dòng)輸入特定參數(shù)。
這一趨勢(shì)的一個(gè)顯著例子已經(jīng)可以在Adobe Photoshop等工具中看到。“生成式填充”功能不再需要手動(dòng)調(diào)整多個(gè)參數(shù),相反,用戶只需描述他們想要填充圖像選定區(qū)域的內(nèi)容,這種向自然語言輸入發(fā)展的趨勢(shì)將在應(yīng)用程序中普及,使用戶體驗(yàn)(UX)更加直觀,不再受傳統(tǒng)UI元素的限制。
未來的挑戰(zhàn)將不再是稀缺性,而是豐富性:識(shí)別并優(yōu)先考慮最有前景的機(jī)遇。
LLM相較于專用機(jī)器學(xué)習(xí)模型的商品化效應(yīng)
GenAI給IT領(lǐng)域帶來的最顯著變革之一,是AI能力的民主化。在LLM和擴(kuò)散模型出現(xiàn)之前,企業(yè)需要投入大量的時(shí)間、精力和資源來開發(fā)定制的機(jī)器學(xué)習(xí)模型,以解決難題,這需要專門的角色和團(tuán)隊(duì)來收集特定領(lǐng)域的數(shù)據(jù)、準(zhǔn)備特征、標(biāo)注數(shù)據(jù)、重新訓(xùn)練和管理模型的整個(gè)生命周期。
如今,LLM正在改變公司解決算法上難以或無法解決的問題的方式,盡管“大型語言模型”中的“語言”一詞具有誤導(dǎo)性,這些自回歸模型最終可以處理任何可以輕松分解為標(biāo)記的內(nèi)容:圖像、視頻、聲音甚至蛋白質(zhì)。公司可以使用檢索增強(qiáng)生成(RAG)架構(gòu),用自己的數(shù)據(jù)來豐富這些多功能工具,這使得它們廣泛的能力得以被利用。
在許多情況下,這消除了對(duì)專門團(tuán)隊(duì)、大量數(shù)據(jù)標(biāo)注和復(fù)雜機(jī)器學(xué)習(xí)管道的需求。LLM廣泛的預(yù)訓(xùn)練知識(shí)使它們能夠有效地處理和解釋甚至是非結(jié)構(gòu)化數(shù)據(jù)。
這種民主化的一個(gè)重要方面是,LLM可以通過易于使用的應(yīng)用程序編程接口(API)獲得。如今,幾乎每個(gè)開發(fā)人員都知道如何使用基于API的服務(wù),這使得將這些模型無縫集成到現(xiàn)有的軟件生態(tài)系統(tǒng)中成為可能,這使公司能夠受益于強(qiáng)大的模型,而無需擔(dān)心底層基礎(chǔ)設(shè)施,或者,如果有特定的安全或數(shù)據(jù)保護(hù)要求,也可以在本地運(yùn)行多個(gè)模型,然而,這將犧牲前沿領(lǐng)先模型提供的一些優(yōu)勢(shì)。
以一款用于記錄和管理差旅費(fèi)用的應(yīng)用程序?yàn)槔鹘y(tǒng)上,這樣的應(yīng)用程序可能會(huì)使用專門訓(xùn)練的機(jī)器學(xué)習(xí)模型,將上傳的收據(jù)分類到會(huì)計(jì)類別中,如DATEV。這需要專用的基礎(chǔ)設(shè)施,理想情況下還需要一個(gè)完整的MLOps管道(用于模型訓(xùn)練、部署和監(jiān)控)來管理數(shù)據(jù)收集、訓(xùn)練和模型更新。
如今,這樣的機(jī)器學(xué)習(xí)模型可以很容易地被一個(gè)LLM所取代,該LLM利用其世界知識(shí)與良好的提示相結(jié)合,進(jìn)行文檔分類。LLM的多模態(tài)能力也在許多情況下消除了對(duì)光學(xué)字符識(shí)別(OCR)的需求,極大地簡(jiǎn)化了技術(shù)棧。收據(jù)中的數(shù)據(jù)是否還需要包括凈價(jià)和毛價(jià)或稅率?LLM也能做到。
以往不可能實(shí)現(xiàn)的AI功能
GenAI使各種功能成為可能,這些功能以往對(duì)大多數(shù)企業(yè)來說過于復(fù)雜、成本過高或完全遙不可及,因?yàn)樗鼈冃枰顿Y于定制的機(jī)器學(xué)習(xí)解決方案或復(fù)雜算法。讓我們來看一些具體的例子。
基于情緒和上下文的搜索:超越關(guān)鍵詞
基于氛圍的搜索代表了相對(duì)于傳統(tǒng)基于關(guān)鍵詞的搜索系統(tǒng)的重大進(jìn)步。
它允許用戶用自然語言表達(dá)他們的意圖,不僅捕獲特定術(shù)語,還捕獲查詢的完整上下文和“氛圍”。
例如:
傳統(tǒng)關(guān)鍵詞搜索:“柏林最好的餐廳”
基于情緒和上下文的搜索:“我是一個(gè)挑剔的鑒賞家,喜歡既提供酒水也提供食物的酒吧,最好是用當(dāng)?shù)厥巢模扑]柏林米特區(qū)和克羅伊茨貝格區(qū)的餐廳,請(qǐng)不要推薦教條式的自然酒吧。”
在基于情緒和上下文的搜索中,LLM可以理解和處理以下內(nèi)容:
• 自我介紹為“挑剔的鑒賞家”
• 偏好提供食物的酒吧
• 希望使用當(dāng)?shù)厥巢?/p>
• 特定的社區(qū)偏好(米特區(qū)和克羅伊茨貝格區(qū))
• 區(qū)分普通酒吧和“教條式的自然酒吧”
這種細(xì)微差別和上下文理解水平使搜索功能能夠提供高度個(gè)性化和相關(guān)的結(jié)果,而不僅僅是匹配關(guān)鍵詞。
實(shí)施基于情感和上下文的搜索可以顯著提升各種應(yīng)用中的用戶體驗(yàn):
• 內(nèi)部知識(shí)庫:?jiǎn)T工可以使用自然語言查詢來查找描述其特定情況或需求的信息。
• 電子商務(wù)平臺(tái):客戶可以用自己的語言描述產(chǎn)品,即使他們不知道確切的術(shù)語。
• 客戶服務(wù)系統(tǒng):用戶可以詳細(xì)描述他們的問題,然后,系統(tǒng)會(huì)為他們提供更精確的解決方案或?qū)⑺麄冝D(zhuǎn)接給合適的支持人員。
• 內(nèi)容管理系統(tǒng):內(nèi)容編輯可以使用描述性語言搜索資產(chǎn)或內(nèi)容,而無需依賴大量的標(biāo)簽或元數(shù)據(jù)。
智能數(shù)據(jù)和內(nèi)容分析
情感分析
讓我們看一個(gè)實(shí)際例子:一個(gè)內(nèi)部系統(tǒng)允許員工發(fā)布關(guān)于他們工作的簡(jiǎn)短狀態(tài)消息,一位經(jīng)理想要評(píng)估團(tuán)隊(duì)在特定一周內(nèi)的整體情緒。在過去,使用定制化的機(jī)器學(xué)習(xí)(ML)模型對(duì)這些帖子進(jìn)行情感分析是具有挑戰(zhàn)性的,而有了大型語言模型(LLM),這種復(fù)雜性就簡(jiǎn)化為了一個(gè)簡(jiǎn)單的API調(diào)用。
結(jié)果甚至不需要以人類可讀的語言輸出,它可以作為結(jié)構(gòu)化的JSON提供,系統(tǒng)處理該數(shù)據(jù)以顯示匹配的圖標(biāo)或圖形,或者,LLM可以簡(jiǎn)單地輸出表情符號(hào)來代表情緒,當(dāng)然,這樣的功能只有在員工同意的情況下才會(huì)實(shí)施。
從復(fù)雜數(shù)據(jù)中獲取洞察
另一個(gè)例子展示了LLM在分析復(fù)雜數(shù)據(jù)方面的強(qiáng)大能力,即冷卻系統(tǒng)的智能報(bào)警管理。
傳統(tǒng)上,這些系統(tǒng)側(cè)重于:
• 具有實(shí)時(shí)數(shù)據(jù)和警報(bào)的圖形化報(bào)警儀表板
• 復(fù)雜、可過濾的時(shí)間序列數(shù)據(jù)的表格表示
這些功能很有用,但往往需要大量的人工解釋才能獲得有意義的洞察,而LLM可以通過將原始數(shù)據(jù)轉(zhuǎn)化為零樣本基礎(chǔ)上的可行動(dòng)洞察,來擴(kuò)展系統(tǒng)的能力,無需專門的機(jī)器學(xué)習(xí)模型,具體包括:
• 自動(dòng)報(bào)告:LLM可以分析時(shí)間序列數(shù)據(jù),并用自然語言生成詳細(xì)報(bào)告,這些報(bào)告可以突出趨勢(shì)、異常和關(guān)鍵績(jī)效指標(biāo),對(duì)技術(shù)人員和管理人員都很有價(jià)值。例如,一份總結(jié)上周報(bào)警的報(bào)告,識(shí)別出重復(fù)出現(xiàn)的問題,并提出改進(jìn)建議。
• 深入分析:LLM可以超越簡(jiǎn)單的數(shù)據(jù)呈現(xiàn),識(shí)別并解釋數(shù)據(jù)中的復(fù)雜模式。例如,它們可以識(shí)別表明系統(tǒng)重大問題的報(bào)警序列——這些洞察在傳統(tǒng)表格視圖或圖表中可能會(huì)被忽略。
• 預(yù)測(cè)性洞察:通過分析歷史數(shù)據(jù),LLM可以預(yù)測(cè)系統(tǒng)未來的狀態(tài),這能夠?qū)崿F(xiàn)主動(dòng)維護(hù),并幫助預(yù)防潛在故障。
• 結(jié)構(gòu)化輸出:除了自然語言報(bào)告外,LLM還可以輸出結(jié)構(gòu)化數(shù)據(jù)(如JSON),這使得創(chuàng)建動(dòng)態(tài)、圖形化的用戶界面成為可能,以直觀表示復(fù)雜信息。
• 自然語言查詢:工程師可以用自然語言向系統(tǒng)提問,如“未來幾周內(nèi)哪些設(shè)備可能切換到故障轉(zhuǎn)移模式?”并立即收到相關(guān)答案和可視化展示,這大大降低了數(shù)據(jù)評(píng)估和解釋的門檻,這一功能現(xiàn)在也可以通過OpenAI的實(shí)時(shí)API獲得。
多模態(tài)黑箱:書寫、說話、觀看和聽覺
多模態(tài)極大地?cái)U(kuò)展了LLM的能力,能夠處理文本、圖像、聲音和語音的模型實(shí)現(xiàn)了復(fù)雜的功能組合。一個(gè)例子是這樣的應(yīng)用程序,它幫助用戶處理復(fù)雜的視覺內(nèi)容,并將其以文本或語音的形式準(zhǔn)備出來。
可能的使用案例范圍非常廣泛:一段掃過書架的視頻將識(shí)別出的書名填入數(shù)據(jù)庫,雞舍監(jiān)控視頻中出現(xiàn)的不熟悉的動(dòng)物被識(shí)別出來,一位蘇格蘭女性在德國(guó)租來的汽車的導(dǎo)航系統(tǒng)中用語音說出街道名稱。
技術(shù)限制和解決方案
LLM存在一定的技術(shù)限制,其中最顯著的是上下文窗口——即語言模型在一次處理中能夠處理的文本量(更準(zhǔn)確地說,是token的數(shù)量)。
大多數(shù)LLM的上下文窗口有限,通常在幾千到幾十萬token之間。例如,GPT-4的上下文窗口是128000個(gè)token,而Gemini 1.5 Pro可以處理多達(dá)2,000,000個(gè)token。雖然這看起來相當(dāng)可觀,但在處理書籍或長(zhǎng)視頻等輸入集時(shí),很快就會(huì)成為瓶頸。
幸運(yùn)的是,有幾種策略可以繞過這一限制:
• 分塊(分割)和總結(jié):將大文檔分割成更小、或適合上下文窗口的片段。每個(gè)片段單獨(dú)處理,然后合并結(jié)果。
• 檢索增強(qiáng)生成(RAG):不是僅依賴模型(極其廣泛)的知識(shí),而是從單獨(dú)的數(shù)據(jù)源中檢索相關(guān)信息,并將其納入提示中。
• 域適應(yīng):將精心的提示工程與領(lǐng)域特定的知識(shí)庫相結(jié)合,可以在不限制模型通用性的情況下提供專業(yè)知識(shí)。
• 滑動(dòng)窗口技術(shù):滑動(dòng)窗口可用于分析長(zhǎng)文本序列,如時(shí)間序列數(shù)據(jù)或長(zhǎng)文檔。模型在遍歷整個(gè)文檔時(shí)保留一些上下文。
• 多階段推理:將復(fù)雜問題分解為一系列較小的步驟。每個(gè)步驟在上下文窗口限制內(nèi)使用LLM,之前步驟的結(jié)果為后續(xù)步驟提供信息。
• 混合方法:傳統(tǒng)的信息檢索方法(如TF-IDF和BM25)可以預(yù)過濾相關(guān)的文本段落。這顯著減少了后續(xù)LLM分析的數(shù)據(jù)量,從而提高了整個(gè)系統(tǒng)的效率。
GenAI作為企業(yè)軟件的標(biāo)準(zhǔn)組件
公司需要認(rèn)識(shí)到GenAI的本質(zhì):它是一種影響一切的通用技術(shù),它將成為標(biāo)準(zhǔn)軟件開發(fā)棧的一部分,以及新功能或現(xiàn)有功能不可或缺的推動(dòng)者。確保軟件開發(fā)未來的可行性,不僅需要獲取用于軟件開發(fā)的AI工具,還需要為AI日益增長(zhǎng)的影響力準(zhǔn)備基礎(chǔ)設(shè)施、設(shè)計(jì)模式和運(yùn)營(yíng)。
隨著這一趨勢(shì)的發(fā)展,軟件架構(gòu)師、開發(fā)人員和產(chǎn)品設(shè)計(jì)師的角色也將發(fā)生變化。他們需要開發(fā)設(shè)計(jì)AI功能、處理非確定性輸出以及與各種企業(yè)系統(tǒng)無縫集成的新技能和策略。隨著純粹的硬技能變得越來越便宜且更容易自動(dòng)化,軟技能以及技術(shù)角色和非技術(shù)角色之間的協(xié)作將變得比以往任何時(shí)候都更加重要。
企業(yè)網(wǎng)D1net(hfnxjk.com):
國(guó)內(nèi)主流的to B IT門戶,旗下運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。旗下運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。