ToolSandbox包括三個在其他基準測試中常常缺失的重要元素:狀態化交互、對話能力和動態評估,該研究的主要作者Jiarui Lu解釋道:“ToolSandbox包含狀態化的工具執行、工具之間的隱含狀態依賴性、支持策略內對話評估的內置用戶模擬器以及動態評估策略。”
這一新基準測試旨在更接近真實世界的場景。例如,它可以測試AI助手是否理解需要先啟用設備的蜂窩服務才能發送短信——這項任務要求AI能夠推理系統的當前狀態并進行適當的更改。
專有模型表現優于開源模型,但挑戰依然存在
研究人員使用ToolSandbox對一系列AI模型進行了測試,結果顯示專有模型和開源模型之間存在顯著的性能差距。
這一發現對近期有關開源AI迅速趕超專有系統的報告提出了質疑。就在上個月,初創公司Galileo發布了一項基準測試,顯示開源模型正在縮小與專有系統的差距,而Meta和Mistral則宣布推出了他們聲稱可以與頂級專有系統媲美的開源模型。
然而,蘋果的研究發現,即使是最先進的AI助手在處理涉及狀態依賴、標準化(將用戶輸入轉換為標準格式)以及信息不足的復雜任務時也表現不佳。
研究論文的作者指出:“我們展示了開源和專有模型之間存在顯著的性能差距,ToolSandbox定義的復雜任務如狀態依賴、標準化和信息不足,即使是最強大的SOTA LLMs也難以應對,為工具使用的LLM能力提供了全新的見解。”
有趣的是,研究發現,在某些情況下,較大的模型在涉及狀態依賴的任務中表現反而不如較小的模型,這表明,模型的規模并不總是與復雜的現實任務中的更好表現相關聯。
規模不是一切:AI性能的復雜性
ToolSandbox的引入可能對AI助手的發展和評估產生深遠影響。通過提供更現實的測試環境,它或許能夠幫助研究人員識別并解決當前AI系統中的關鍵限制,最終為用戶帶來更強大、更可靠的AI助手。
隨著AI繼續深入融入我們的日常生活,像ToolSandbox這樣的基準測試將發揮關鍵作用,確保這些系統能夠應對現實世界互動的復雜性和細微差別。
研究團隊已宣布,ToolSandbox評估框架即將發布在Github上,邀請更廣泛的AI社區在此基礎上進一步構建和改進這項重要工作。
盡管開源AI的最新發展激發了人們對尖端AI工具普及的期待,但蘋果的研究提醒我們,在創建能夠處理復雜現實任務的AI系統方面仍然存在重大挑戰。
隨著這一領域的快速發展,像ToolSandbox這樣嚴格的基準測試將對于區分炒作與現實至關重要,并引導真正有能力的AI助手的發展。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。