開發ChatGPT的OpenAI公司在網站展示了摩根士丹利進行的一個案例研究。其主題是“摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫。”該案例研究援引摩根士丹利分析、數據與創新主管Jeff McMillan的話說,“該模型將為一個面向內部的聊天機器人提供動力,該機器人將對財富管理內容進行全面搜索,并有效地解鎖摩根士丹利財富管理的累積知識”。
McMillan進一步強調說:“采用GPT-4,你基本上立刻就擁有了財富管理領域最博學的人的知識……可以把它想象成我們的首席投資策略師、首席全球經濟學家、全球股票策略師,以及全球其他每一位分析師,并且每天都在待命。我們相信,這對我們公司來說是一種變革能力。”
這是知識管理的終極目標——將企業的知識和專長體現在與客戶交互的系統、過程和工具中的能力。
那么真的達到這個目標了嗎?生成式人工智能是知識訪問、檢索和應用的答案嗎?在宣布戰勝信息混亂之前,考慮一些基本元素和注意事項是很重要的。
首先,生成式人工智能可以克服知識管理挑戰的認知背后有一個假設,即知識以明確的、記錄的形式存在。然而,在大多數企業中,知識被鎖定在員工的頭腦中,如果以數字形式存儲,它就會分散在部門、技術和存儲庫的生態系統中的孤島中。OpenAI公司在其網站進一步指出,摩根士丹利每年發表數千篇論文,其內容涉及資本市場、資產類別、行業分析和全球經濟區域……這些知識財富為摩根士丹利公司創建了一個獨特的內部內容庫,可以使用GPT-4進行處理和解析,同時也可以進行內部控制。摩根士丹利擁有的知識可以構成使用ChatGPT大型語言模型的基礎。如果企業內容和知識資源不可獲取,質量很差,或者與客戶和員工的需求不一致,ChatGPT將無法訪問響應這些需求的特定知識。
第二,生成式人工智能創造內容。它不是一個檢索機制。那么原始知識庫是如何使用的呢?這是一個棘手的領域。ChatGPT正在尋找內容和概念關系中的模式,以便它可以根據提示預測應該顯示哪些文本。提示符是一種信號,就像搜索詞是一種信號一樣。搜索引擎不僅根據術語,而且還根據與查詢場景相關的其他信號(例如,行業或搜索者的角色)預測應該顯示哪些信息。可以在提示中以事實或文檔的形式向ChatGPT提供場景,也可以通過指向作為響應基礎的特定信息以編程方式提供場景。
大型語言模型——同義詞庫
大型語言模型是包含在信息體中的術語、概念和關系的數學表示。大型語言模型的強大之處在于它們能夠理解用戶的意圖——無論請求是如何表達的,用戶都在尋找什么內容,以及預測最有可能響應用戶意圖的單詞模式。該模型“理解”用戶的請求,并對應該返回的內容做出預測。搜索引擎也會根據用戶的查詢做出預測,盡管是通過不同的機制。搜索引擎可以用于生成人工智能場景中的檢索。使用語義搜索或神經搜索引擎檢索內容,并使用大型語言模型為用戶格式化響應。
同義詞庫將非首選術語映射為首選術語(例如,“SOW”和“Statement of Work”映射為“Proposal”,即標記文檔的首選術語)。把大型語言模型的一個方面看作是“同義詞庫”,但不僅僅是單詞,而且是短語和概念。用戶可以用許多不同的方式提出相同的問題。這種意圖分類并不新鮮,它是將短語變化解析為特定動作的聊天機器人的基礎。語言模型是意圖解析和分類功能的基礎。
大型語言模型還能理解提示符后面的單詞模式。這就是啟用ChatGPT會話流暢性的方式。使它們對企業具有實用性的關鍵是根據特定的內容或知識體來調整模型(摩根士丹利在實施ChatGPT時就是這樣做的),并吸收企業獨有的術語。
有許多帶有示例代碼的教程說明了如何使用具有特定內容的大型語言模型。例如,其視頻引導開發人員完成使用語言模型(如GPT-4)并將聊天機器人指向特定知識和內容的過程。
面向企業的知識專用機器人
在回顧了這些教程之后,有一些觀察結果:
定制的、特定于知識的聊天機器人可以使用大型語言模型來理解用戶的要求,然后從指定的知識來源返回結果。開發人員指出,需要將內容“分塊”成“語義上有意義”的部分。為回答特定問題而設計的組件化內容需要完整且符合場景。重要的是要注意,知識通常不存在于這種狀態。要進行組件化,必須將大型文檔和文本主體分解成塊。例如,用戶手冊可以按章、節、段和句子分成若干部分。在技術文檔領域,這已經做到了——DITA (達爾文信息類分類架構)等標準使用了基于主題的方法,非常適合回答問題。
開發人員談論“語義”以及語義的重要性。這是什么意思?語義學是關于意義的。語義豐富的內容用元數據標記,元數據有助于精確檢索所需的信息和信息的場景。例如,如果用戶使用特定型號的路由器,并且該路由器發出錯誤代碼,那么當請求支持機器人幫助時,可以檢索標有這些標識符的內容。這個過程在聊天機器人領域也被稱為“插播”。
自定義內容被攝取到所謂的“向量空間”中,這是另一種信息數學模型,它將文檔放在多維空間中(這是一種數學構造),允許對類似的文檔進行聚類和檢索。這被稱為“嵌入”。嵌入可以包含元數據和標識符(例如參考源),這些元數據和標識符有助于記錄向用戶提供特定答案的原因。這對于法律責任和監管目的以及向用戶提供正確、最權威信息的保證都很重要。
訓練人工智能的定義
關于“訓練”有幾個觀點。ChatGPT和大型語言模型在大量內容上進行了訓練,使它們能夠理解用戶的查詢,并以格式良好且具有會話性的最佳答案進行響應。訓練該工具的一種方法是在提示符中包含內容,“根據以下信息回答這個問題……”
但在這里有兩個問題:
首先,ChatGPT在其提示符中只能處理一定數量的內容,這種提問方式將非常有限。可以將內容攝取到工具中,這將支持額外的訓練。然而,將內容添加到ChatGPT中也會將該內容合并到公共模型中。因此,企業的知識產權將受到損害。這種風險導致許多企業禁止使用ChatGPT和其他因無意中上傳企業機密而丟失知識產權的人工智能工具。
另外,還有另一種訓練內容的方法。大型語言模型可以使用企業特定知識作為訓練語料庫的一部分,但這需要提供一個防火墻后面的版本。幸運的是,大型語言模型正在迅速實現商品化,有些甚至可以在筆記本電腦上本地運行。這種類型的訓練在計算上也很昂貴。另一種機制是使用大型語言模型來解釋用戶的目標(他們的意圖),然后使用向量嵌入以編程方式提供來自特定數據或內容源的場景。
然后,語言模型對響應進行處理和格式化,使其具有對話性和完整性。通過這種方式,知識與大型語言模型分開,使企業的商業秘密和知識產權不會受到損害。
所有這些因素都表明需要知識管理和知識架構,將信息組織成組件,以便用戶可以獲得特定問題的答案。大型語言模型和ChatGPT的革命性本質可以提供所需的會話流暢性,以近乎人類的互動水平來支持積極的客戶體驗。關鍵因素是獲得企業中結構良好的知識。ChatGPT看起來很神奇,但它是基于信息的統計處理和模式預測。如果正確地組織和整合信息,將會成為企業數字化轉型的重要組成部分。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。