然而,根據(jù)AI開發(fā)平臺Vellum發(fā)布的一份最新《AI發(fā)展狀態(tài)報告》,我們離這一目標還有一段距離:僅有25%的企業(yè)已將AI部署到生產(chǎn)環(huán)境中,而其中只有四分之一的企業(yè)看到了可衡量的影響。
這似乎表明,許多企業(yè)尚未找到AI的可行應(yīng)用場景,因此它們(至少目前)仍處于預(yù)構(gòu)建階段的持幣觀望狀態(tài)。
“盡管外界炒作和討論不斷,但這強化了一個事實,即我們?nèi)蕴幱诜浅T缙诘碾A段,”Vellum的CEO Akash Sharma告訴記者,“行業(yè)里噪音很多,新的模型和模型提供商層出不窮,新的檢索增強生成(RAG)技術(shù)也不斷涌現(xiàn),我們只是想了解一下,企業(yè)實際將AI部署到生產(chǎn)環(huán)境中的情況。”
企業(yè)必須找到具體的應(yīng)用場景才能取得成功
Vellum采訪了超過1250名AI開發(fā)者和構(gòu)建者,以真實了解AI領(lǐng)域的現(xiàn)狀。
企業(yè)在AI之旅中處于不同階段——制定和評估戰(zhàn)略及概念驗證(PoC)(53%)、進行beta測試(14%),以及在最低層次上,與用戶溝通并收集需求(7.9%)。
Vellum表示,迄今為止,大多數(shù)企業(yè)都專注于構(gòu)建文檔解析和分析工具以及客戶服務(wù)聊天機器人,但它們也對結(jié)合自然語言分析、內(nèi)容生成、推薦系統(tǒng)、代碼生成與自動化、研究自動化等應(yīng)用感興趣。
迄今為止,開發(fā)者報告稱,他們看到的最大影響包括競爭優(yōu)勢(31.6%)、成本和時間節(jié)省(27.1%)以及更高的用戶采用率(12.6%),然而,有趣的是,24.2%的開發(fā)者表示,他們尚未看到投資帶來的任何有意義的影響。
Sharma強調(diào)了從一開始就確定優(yōu)先級應(yīng)用場景的重要性。“我們常聽到人們說,他們只是想為了使用AI而使用AI,”他說,“這與實驗預(yù)算相關(guān)。”
他指出,雖然這讓華爾街和投資者感到高興,但并不意味著AI實際做出了任何貢獻。“大家普遍應(yīng)該思考的是,‘我們?nèi)绾握业胶线m的應(yīng)用場景?通常,一旦企業(yè)能夠確定這些應(yīng)用場景,將其投入生產(chǎn)并看到明確的投資回報,它們就會獲得更多動力,超越炒作階段,這將帶來更多的內(nèi)部專業(yè)知識、更多的投資。”
OpenAI仍領(lǐng)先,但未來將是多種模型的混合
在使用的模型方面,OpenAI保持領(lǐng)先地位(這并不奇怪),尤其是其GPT 4o和GPT 4o-mini,但Sharma指出,2024年提供了更多選擇,無論是直接來自模型創(chuàng)建者,還是通過Azure或AWS Bedrock等平臺解決方案。此外,提供托管開源模型(如Llama 3.2 70B)的供應(yīng)商也越來越受歡迎,例如Groq、Fireworks AI和Together AI。
“開源模型正在變得越來越好,”Sharma說,“在質(zhì)量方面,OpenAI的閉源競爭對手正在迎頭趕上。”
然而,他預(yù)測,最終企業(yè)不會僅局限于使用一種模型,而是將越來越多地依賴多模型系統(tǒng)。
“人們將為手頭的每項任務(wù)選擇最佳模型,”Sharma說,“在構(gòu)建代理時,你可能會有多個提示,對于每個單獨的提示,開發(fā)者都希望獲得最佳質(zhì)量、最低成本和最低延遲,而這可能來自也可能不來自O(shè)penAI。”
同樣,AI的未來無疑是多模態(tài)的,Vellum看到能夠處理各種任務(wù)的工具采用率激增。文本是無可爭議的首要應(yīng)用場景,其次是文件創(chuàng)建(PDF或Word)、圖像、音頻和視頻。
此外,在信息檢索方面,檢索增強生成(RAG)是首選,超過一半的開發(fā)者使用向量數(shù)據(jù)庫來簡化搜索。頂級的開源和專有模型包括Pinecone、MongoDB、Quadrant、Elastic Search、PG vector、Weaviate和Chroma。
全員參與(不僅限于工程部門)
有趣的是,AI正在超越IT領(lǐng)域,并在企業(yè)中實現(xiàn)民主化(類似于“眾人拾柴火焰高”的道理)。Vellum發(fā)現(xiàn),雖然工程部門在AI項目中的參與度最高(82.3%),但領(lǐng)導層和高管(60.8%)、主題專家(57.5%)、產(chǎn)品團隊(55.4%)和設(shè)計部門(38.2%)也在參與其中。
Sharma指出,這主要是因為AI易于使用(以及人們對它的普遍興奮)。
“這是我們第一次看到軟件以非常跨職能的方式開發(fā),尤其是因為提示可以用自然語言編寫,”他說,“傳統(tǒng)軟件通常更傾向于確定性,而這是非確定性的,因此吸引了更多人參與開發(fā)。”
2025年將是克服關(guān)鍵挑戰(zhàn)的“AI工具年”
盡管如此,企業(yè)仍面臨重大挑戰(zhàn)——尤其是AI幻覺和提示問題、模型速度和性能、數(shù)據(jù)訪問和安全性,以及獲得重要利益相關(guān)者的支持。
同時,Sharma指出,雖然更多非技術(shù)用戶正在參與其中,但企業(yè)內(nèi)部仍然缺乏純粹的技術(shù)專業(yè)知識。“連接所有不同部分的方式仍然是一項技能,而今天并沒有那么多開發(fā)者具備這項技能,”他說,“因此,這是一個共同的挑戰(zhàn)。”
然而,Sharma指出,許多現(xiàn)有挑戰(zhàn)可以通過工具或平臺和服務(wù)來克服,這些工具或平臺和服務(wù)可以幫助開發(fā)者評估復雜的AI系統(tǒng)。開發(fā)者可以在內(nèi)部或使用第三方平臺或框架進行工具化;然而,Vellum發(fā)現(xiàn),近18%的開發(fā)者在定義提示和編排邏輯時完全沒有使用任何工具。
Sharma指出,“當你有合適的工具引導你完成開發(fā)過程時,技術(shù)專業(yè)知識的缺乏就不再是一個[那么大的]問題了。”除Vellum外,調(diào)查參與者使用的框架和平臺還包括LangChain、Llama Index、Langfuse、CrewAI和Voiceflow。
評估和持續(xù)監(jiān)控至關(guān)重要
克服常見問題(包括幻覺)的另一種方法是進行評估,或使用特定指標來測試響應(yīng)的正確性。“但盡管如此,[開發(fā)者]并沒有像他們應(yīng)該的那樣一致地進行評估。”Sharma說。
他表示,特別是在涉及高級代理系統(tǒng)時,企業(yè)需要可靠的評估流程。Sharma指出,AI代理具有高度非確定性,因為它們會調(diào)用外部系統(tǒng)并執(zhí)行自主操作。
“人們正試圖構(gòu)建相當先進的系統(tǒng)、代理系統(tǒng),而這需要大量測試用例和某種自動化測試框架,以確保其在生產(chǎn)中可靠運行。”Sharma說。
雖然一些開發(fā)者正在利用自動化評估工具、A/B測試和開源評估框架,但Vellum發(fā)現(xiàn),超過四分之三的開發(fā)者仍在進行手動測試和審查。
“手動測試只是需要時間,對吧?而且手動測試中的樣本量通常遠低于自動化測試所能做到的,”Sharma說,“可能在技術(shù)意識方面存在挑戰(zhàn),即如何進行自動化、大規(guī)模評估。”
最后,他強調(diào)了擁抱云到應(yīng)用程序編程接口(API)等協(xié)同工作的系統(tǒng)組合的重要性。“建議將AI視為工具包中的一種工具,而不是解決一切問題的神奇方案。”他說。
企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,旗下運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。