盡管我們生活在一個日益數據驅動的世界中,但大多數公司并未采用數據驅動的商業模式。像Alphabet、Meta和亞馬遜這樣的企業憑借網絡效應形成的良性循環而取得成功,但這種模式對于銷售傳統產品和服務的組織來說卻難以實現,然而,如今已能廣泛獲取各種工具來充分利用日常業務流程中生成的專有數據,這些工具可能幫助你的公司形成競爭優勢。
隨著市場競爭的加劇,利用數據構建防御性護城河至關重要。麥肯錫估計,利用內部數據來獲取銷售和營銷見解,可以實現高于平均水平的市場增長,并使息稅折舊及攤銷前利潤(EBITDA)增長15%至25%。大型語言模型提供了一種新穎且獨特的方法來提取這種價值,并且通過在專有數據上訓練它們以實現特定的業務目標,可能會使許多公司發生轉變。
數據質量優于數量
正如AI專家、谷歌前研究總監彼得·諾維格(Peter Norvig)所言:“更多數據勝過更好的算法,但更好的數據勝過更多數據。”隨著通用AI模型被改編用于企業用途,這一點愈發正確。雖然前沿模型已在從互聯網和其他公共來源抓取的海量數據上進行了訓練,但它們用于特定業務目的的效用卻有限。
為了真正實現實際效益,這些大型語言模型從數據中提取意義的能力需要與企業獨有的專有數據相結合。一旦設定了業務目標,確保數據為此做好準備便是一個關鍵步驟。Gartner估計,為AI準備數據可以使業務成果提高20%,這意味著數據必須適合預期的使用場景,無論是結構化數據還是非結構化數據。據Gartner稱,內部AI項目中有30%被放棄的一個主要原因是數據質量輸入不佳,這涉及刪除損壞的數據和重復數據,并填補輸入不完整之處。
雖然質量是關鍵,但也需要有足夠的數量。根據目標和大型語言模型的調整方式,這意味著至少需要數千條記錄,甚至可能更多。
進行調整
使用獨特的專有數據可能實現最大的競爭優勢,這可能包括匿名化的客戶數據和購買模式、客戶反饋、網絡分析以及供應鏈信息。開源數據也可以作為有用的補充,但顧名思義,它對所有人都是可用的,因此本身并不是區分因素。在符合隱私法規的前提下使用專有數據,還可以減少與數據主權相關的法律復雜性。
但大多數企業沒有從頭開始構建和訓練自己特定領域模型的財力和人力資源。盡管微調現有大型語言模型所需的計算能力和數據比從頭構建要少,但這仍然超出了中型企業的能力范圍,需要耗費大量的時間和技能。提示微調和提示工程是最常見且最直接的方法,這些方法不需要修改模型參數,因此資源消耗要少得多,盡管需要專業技能,但相對容易采用。
實際應用
一些早期在內部數據上訓練大型語言模型的部署來自大型銀行和咨詢公司。例如,摩根士丹利使用提示微調技術在10萬套與投資銀行業務流程相關的文檔上訓練了GPT-4,其目標是幫助財務顧問為客戶提供更準確、更及時的建議。波士頓咨詢公司(BCG)也采用了類似的方法,幫助其咨詢顧問生成見解和為客戶提供建議,同時通過一個迭代過程,根據用戶反饋微調其模型,這有助于改進輸出結果,并減少面向消費者的GPT中更常見的幻覺現象。
我們現在開始看到,一些技術密集度較低、以服務為導向的公司也在利用內部數據定制大型語言模型。園藝護理公司ScottsMiracle-Gro與Google Cloud合作,創建了一個由AI驅動的“園藝品鑒師”,為客戶提供園藝建議和產品推薦,該系統已在公司的產品目錄和內部知識庫上進行訓練,并將很快推廣至其1000名現場銷售人員,以幫助他們就價格和可用性為零售和園藝市場客戶提供建議。預計根據結果,該系統隨后將面向消費者推出,旨在推動銷售和提高客戶滿意度。
正如ScottsMiracle-Gro利用AI為其傳統銷售目錄增值一樣,美國大眾汽車也在其汽車手冊上這樣做。在車輛使用說明書上進行訓練,并結合客戶的聯網汽車數據,這個由AI驅動的虛擬助手可以幫助駕駛員更好地了解他們的車輛,這包括提供更換輪胎的指導以及解釋儀表板指示燈的含義。
隨著開源模型的崛起,大型語言模型在功能集和處理能力方面日益商品化,從而降低了應用開發人員的進入門檻,數據將變得越來越重要。內容所有者已經開始反對允許OpenAI和Anthropic等公司自由收集他們的數據,這些舉措將進一步凸顯專有信息的價值。
各規模的公司都應明智地開始更加重視和保護其內部數據資產,并思考如何通過AI利用這些數據來獲得競爭優勢。正如我們所見,即便是普通的產品目錄或用戶手冊,也是可以加以利用的有價值資產。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。