Anthropic最新發布的Claude 3 的三種模式代表著日益增長的復雜性和參數計數:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。Sonnet現在可以通過電子郵件登錄免費為Claude.ai聊天機器人提供動力,但如上所述,Opus只有在你每月支付20美元購買“Claude Pro”的情況下才能通過Anthropic的網絡聊天界面訪問,這是一項通過Anthropic網站提供的訂閱服務。這三種模式都有一個200000個令牌的上下文窗口,上下文窗口是人工智能語言模型可以一次處理的標記數量——單詞的片段。
Claude在2023年3月發布,Claude 2在同年7月的發布。每一次,Anthropic在性能上都略低于OpenAI最好的模型,但在上下文窗口長度方面卻超過了它們。憑借Claude 3,Anthropic可能終于在性能方面趕上了OpenAI發布的模型,盡管專家們還沒有達成共識。
據報道,Claude 3在各種認知任務中表現出了超凡的表現,包括推理、專業知識、數學和語言流利性,盡管對于大型語言模型是否“知道”或“理性”缺乏共識,但人工智能研究界通常使用這些術語。該公司聲稱,Opus模型是這三個模型中最有能力的,它展示了“在復雜任務上的近乎人類的理解和流利程度”。
這是一個相當令人興奮的說法,值得更仔細地分析。在某些特定的基準上,Opus可能是“近乎人類”的,但這并不意味著Opus是像人類一樣的一般智力,考慮到袖珍計算器在數學方面是超人的,因此,這是一個刻意吸引眼球的說法,但可以用資格證書來淡化。
根據Anthropic的數據,Claude 3 Opus在10個人工智能基準上擊敗了GPT-4,包括MMLU(本科水平知識)、GSM8K(小學數學)、HumanEval(編碼)和色彩豐富的HellaSwg(常識)。有幾場比賽的勝率非常小,比如Opus的支持率為86.8%,而MMLU的五桿測試賽的支持率為86.4%,還有一些差距很大,比如人文評價的90.7%高于GPT-4的67.0%,但是,作為一名客戶,這對你到底意味著什么,很難說。
人工智能研究Simon Willison在接受采訪時談到了Claude 3,他說:“和往常一樣,LLM基準測試應該受到一點懷疑,一個模型在基準測試中的表現如何,并不能告訴你該模型的使用‘感覺’如何,但這仍然是一個巨大的問題——沒有其他模型在一系列廣泛使用的基準測試中擊敗GPT-4”。
價格和性能的廣泛范圍
與它的前身相比,Claude 3模型在分析、預測、內容創建、代碼生成和多語言對話等方面都比Claude 2有了改進。據報道,這些模型還具有增強的視覺功能,支持模型處理照片、圖表和圖表等視覺格式,類似于GPT-4和谷歌的Gemini。
Anthropic強調,與前幾代模型相比,這三種模型的速度和成本效益都有所提高。Opus (最大模型)為15美元/百萬個輸入令牌,75美元/百萬個輸出令牌,Sonnet (中間模型)為3美元/百萬個輸入令牌,15美元/百萬個輸出令牌,Haiku (最小最快模型)為0.25美元/百萬個輸入令牌,1.25美元/百萬個輸出令牌。相比之下,OpenAI的GPT-4 Turbo Via API為每百萬個輸入令牌10美元,每百萬個輸出令牌30美元,GPT-3.5 Turbo是每百萬個輸入令牌0.5美元,每百萬個輸出令牌1.5美元。
當我們問Willison對Claude 3的表現有何感想時,他說他還沒有感受到這一點,但每種模型的API定價立即引起了他的注意。Willison說:“未發布的最便宜的那款看起來極具競爭力,質量最好的也是超級貴的”。
據報道,Claude 3模型可以為特定客戶處理多達100萬枚代幣(類似于Gemini Pro 1.5),Anthropic聲稱Opus模型在一次基準測試中實現了近乎完美的召回,在如此龐大的上下文大小下,準確率超過99%,此外,該公司表示,Claude 3模型不太可能拒絕無害的提示,并在減少錯誤答案的同時表現出更高的準確性。
根據與模型一起發布的模型卡,Anthropic在訓練過程中通過使用合成數據獲得了Claude 3的部分能力。合成數據是指使用另一種人工智能語言模型在內部生成的數據,該技術可以作為一種方式來擴大訓練數據的深度,以表示抓取的數據集中可能缺少的場景。Willison說:“合成數據是一件大事”。
Anthropic計劃在接下來的幾個月里發布Claude 3模型家族的頻繁更新,以及工具使用、交互式編碼和“高級代理功能”等新功能,該公司表示,它將繼續致力于確保安全措施與人工智能性能的進步保持同步,并確保Claude 3模型“目前對災難性風險的潛在影響可以忽略不計”。
Opus和Sonnet模型現在可以通過Anthropic的API購買,Haiku也將緊隨其后。Sonnet也可以通過亞馬遜Bedrock訪問,也可以在谷歌云的Vertex AI模型Garden中以私有模式預覽。
簡單介紹一下LLM基準
我們與Claude Pro簽約,通過一些非正式的測試來親自試用Opus。Opus在性能上感覺與ChatGPT-4相似,它不能寫出原創的笑話(似乎都是從網絡上抄襲來的),它很擅長總結信息和用各種風格撰寫文本,它在文字問題的邏輯分析方面表現得很好,而且虛構確實看起來相對較低(但我們在詢問更多晦澀的話題時看到了一些疏忽)。
所有這些都不是最終的通過或失敗,在一個計算機產品通常會輸出硬數字和可量化基準的世界里,這可能會令人沮喪。正如Willison告訴我們的,“作為現代人工智能的一個關鍵概念,‘共鳴’又是一個例子”。
人工智能基準是棘手的,因為任何人工智能助手的有效性都是基于所使用的提示和底層人工智能模型的條件而高度可變的。人工智能模型可以在“測試”(所謂的測試)上表現良好,但無法將這些能力推廣到新的情況。
此外,人工智能助手的有效性是高度主觀的,這是因為,當你交給它的任務可能是地球上任何智力領域的任何任務時,讓人工智能模型成功地完成你想做的事情是很難量化的(比如,在基準指標中)。有些模型對某些任務效果很好,而對其他任務效果不佳,這可能會因任務和提示方式的不同而有所不同。
這適用于谷歌、OpenAI和Meta等供應商的每一個大型語言模型——不僅僅是Claude 3。隨著時間的推移,人們發現每個模型都有自己的特點,每個模型的優缺點都可以使用某些提示技術來接受或解決。目前,主要的人工智能助手似乎正在適應一套非常相似的功能。
因此,關鍵是,當Anthropic說Claude 3可以超過GPT-4 Turbo,目前GPT-4 Turbo在一般能力和低幻覺方面仍被廣泛視為市場領先者時,人們需要對此持保留態度——或者說是某種程度的共鳴。如果你正在考慮不同的模型,關鍵是親自測試每個模型,看看它是否適合你的應用程序,因為很可能沒有其他人可以復制你將在其中使用它的確切環境。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。