自從OpenAI公司發布大型語言模型GPT-4以來,人們都在嘗試使用這一令人興奮的應用程序。GPT-4可以將手繪的網站模型生成HTML代碼。很多用戶證明,它可以從信用卡交易中找到物理地址,生成訴訟草稿,通過SAT數學考試,幫助教育和培訓,甚至創建第一人稱射擊游戲。
GPT-4的強大功能確實令人驚嘆,隨著越來越多的用戶訪問其多模式版本,人們可以期待推出更多的大型語言模型。然而,在人們慶祝科學家們在大型語言模型領域取得的進步的同時,也必須注意到它們的局限性。
像GPT-4這樣的大型語言模型可以執行許多任務,但它們不一定是完成這些任務的最佳工具。如果他們成功地完成了一項任務,但并不意味著他們在該領域是更可靠的。
大型語言模型的科學突破
GPT-4在發布之后引發了很多用戶對OpenAI公司的批評,其中很多批評都是有道理的。隨著GPT的每一次發布,它們的技術細節變得越來越不透明。OpenAI公司在發布GPT-4時發布的技術報告中很少包含該模型的架構、訓練數據和其他重要方面的細節。種種跡象表明,OpenAI公司正逐步從一家人工智能研究實驗室轉型為一家銷售人工智能產品的公司。
然而,這并沒有削弱大型語言模型所帶來的引人入勝的技術突破。OpenAI公司在這些技術發展中發揮了重要作用。在短短幾年的時間中,已經從處理語言任務的最平庸的深度學習模型,發展到可以生成非常像人類的文本的大型語言模型,至少在表面上是這樣。
此外,有了足夠的參數、計算能力和訓練數據,Transformer (大型語言模型中使用的架構)可以學習使用單個模型執行多個任務。這一點非常重要,因為直到最近,深度學習模型才被認為只適用于來執一項任務。現在,大型語言模型可以通過零樣本和少量快照學習來執行幾個任務,甚至在擴展時顯示出緊急能力。
ChatGPT充分展示了大型語言模型的最新功能。它可以在一次對話中執行編碼、問答、文本生成和許多其他任務。由于采用訓練技術,從人類反饋中強化學習(RLHF),它在遵循指令方面做得更好。
GPT-4和其他多模式語言模型正在顯示新一波功能,例如在對話中包含圖像和語音消息。
GPT-4有哪些良好的應用?
一旦超越了科學成就,就可以開始考慮像GPT-4這樣的大型語言模型可以提供什么樣的應用程序。對人們來說,確定大型語言模型是否適合應用的指導原則是它們的機制。
與其他機器學習模型一樣,大型語言模型是預測機器。基于訓練數據中的模式,它們預測接收到的輸入序列中的下一個令牌,它們做得非常有效。
下一個令牌預測對于某些任務(如文本生成)是一個很好的解決方案。當大型語言模型接受RLHF等指令跟隨技術的訓練時,它可以執行語言任務,例如撰寫文章、總結文本、解釋概念和回答問題,并取得驚人的成績。這是大型語言模型目前最準確和最有用的解決方案之一。
然而,大型語言模型在文本生成方面的能力仍然有限。大型語言模型通常會產生幻覺,或者編造一些不正確的東西。因此,人們不應該相信他們是知識的來源。這包括GPT-4。例如,在行業專家對ChatGPT的探索中,發現它有時可以對復雜的主題生成非常雄辯的描述,例如深度學習是如何工作的。當他試圖向一個可能不了解某個概念的人解釋這個概念時,這很有幫助,但也發現ChatGPT也可能犯一些事實錯誤。
對于文本生成,行業專家的經驗法則是只在熟悉的領域信任GPT-4,并且可以驗證其輸出。有一些方法可以提高輸出內容的準確性,包括對特定領域知識的模型進行微調,或者通過在提示符前添加相關信息來為其提供場景。但同樣,這些方法要求人們對該領域有足夠的了解,以便能夠提供額外的知識。因此,不要相信GPT-4生成有關健康、法律建議或科學的文本,除非已經知道這些主題。
代碼生成是GPT-4的另一個有趣的應用。行業專家已經審查過GitHub Copilot,它是基于GPT-3的一個微調版本,其名稱為Codex。當代碼生成集成到其IDE中時(例如Copilot),它會變得越來越有效,并且可以使用現有代碼作為場景來改進大型語言模型輸出。然而,同樣的規則仍然適用。只使用大型語言模型來生成可以完全審查的代碼。盲目地相信大型語言模型可能會導致無功能和不安全的代碼。
GPT-4有哪些不好的應用?
對于某些任務,像GPT-4這樣的語言模型并不是理想的解決方案,即使它們可以解決示例。例如,經常討論的主題之一是大型語言模型執行數學的能力。他們已經接受了不同數學基準的測試。據報道,GPT-4在復雜的數學測試中表現非常好。
然而,值得注意的是,大型語言模型并不像人類那樣一步一步地計算數學方程。當向GPT-4提供提示“1+1=”時,將為人們提供正確答案。但在幕后,它并沒有執行“添加”和“移動”操作。它執行與所有其他輸入相同的矩陣運算,預測序列中的下一個標記。它給確定性問題一個概率性的答案。這就是GPT-4和其他數學大型語言模型的準確性在很大程度上取決于訓練數據集的原因,并且是在偶然的基礎上工作。人們可能會看到它們在非常復雜的數學題目上取得驚人的成績,但在簡單的初級數學問題上卻失敗了。
這并不意味著GPT-4對數學沒有用處。一種方法是使用模型增強技術,例如將大型語言模型與數學求解器相結合。大型語言模型從提示符中提取方程數據,并將其傳遞給解算器,解算器計算并返回結果。
GPT-4的另一個有趣用例是可汗學院(Khan Academy)正在做的事情。他們將大型語言模型課程整合到他們的在線學習平臺中,作為學習者的導師和教師的助手。由于這是OpenAI公司在GPT-4發布時宣傳的合作伙伴之一,他們可能已經根據其課程內容對GPT-4進行了微調。該模型還與平臺的內容很好地集成在一起,以提供場景并減少錯誤。但值得注意的是,GPT-4并不是為了解決數學問題,而是引導學生和教師學習和教授數學概念。
GPT-4作為產品
一旦用戶決定了GPT-4是否適合其應用,必須從產品的角度來看待它。GPT-4生成的每個令牌都是數千億次運算的結果。用戶必須問自己的第一個問題是,“我的應用需要這樣的計算嗎?”事實上,在許多情況下,即使GPT-4提供了一個完美的答案,也可能有更簡單、更快、成本更低的解決方案。例如,在許多情況下,正則表達式等簡單的解決方案在提取信息方面更有效。
事實上,行業專家與ChatGPT進行了一次有趣的對話,在對話中問ChatGPT “GPT-ify”是什么意思。ChatGPT將其描述為“基于GPT(生成預訓練轉換器)架構的語言模型的技術和功能,例如GPT-3或GPT- Neo,應用于特定的任務或問題。”
然后行業專家問GPT-ify是否可以用來嘲笑那些使用GPT做一些不需要它的事情的人。ChatGPT這樣回答:“是的,GPT-ify當然可以被諷刺或諷刺地用來暗示某人過度使用或濫用GPT來完成不需要如此復雜的語言模型的任務或問題。例如,如果有人使用預訓練的GPT模型來生成一個簡單的購物清單,有人可能會開玩笑說他們已經‘GPT化了他們的購物清單’。”
因此,不要在沒有探索其他選擇的情況下對產品進行GPT化。像所有其他技術一樣,應該將GPT-4視為產品工具箱中的眾多工具之一。正如ChatGPT所建議的那樣,“關鍵是要根據當前任務的具體要求和限制,為工作選擇合適的工具。”
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。