精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

蘋果的ToolSandbox揭示了嚴峻的現實:開源AI仍然落后于專有模型

責任編輯:cres

作者:Michael Nu?ez

2024-08-13 10:49:43

來源:企業網D1Net

原創

蘋果公司的研究團隊發布了ToolSandbox,這是一個專為評估AI助手在現實世界中能力的全新基準測試工具。

蘋果公司的研究人員發布了ToolSandbox,這是一個全新的基準測試工具,旨在比以往更全面地評估AI助手的實際能力,這項研究發表在arXiv上,解決了現有評估方法中對于使用外部工具完成任務的大型語言模型(LLMs)存在的關鍵缺陷。
 
ToolSandbox包括三個在其他基準測試中常常缺失的重要元素:狀態化交互、對話能力和動態評估,該研究的主要作者Jiarui Lu解釋道:“ToolSandbox包含狀態化的工具執行、工具之間的隱含狀態依賴性、支持策略內對話評估的內置用戶模擬器以及動態評估策略。”
 
這一新基準測試旨在更接近真實世界的場景。例如,它可以測試AI助手是否理解需要先啟用設備的蜂窩服務才能發送短信——這項任務要求AI能夠推理系統的當前狀態并進行適當的更改。
 
專有模型表現優于開源模型,但挑戰依然存在
 
研究人員使用ToolSandbox對一系列AI模型進行了測試,結果顯示專有模型和開源模型之間存在顯著的性能差距。
 
這一發現對近期有關開源AI迅速趕超專有系統的報告提出了質疑。就在上個月,初創公司Galileo發布了一項基準測試,顯示開源模型正在縮小與專有系統的差距,而Meta和Mistral則宣布推出了他們聲稱可以與頂級專有系統媲美的開源模型。
 
然而,蘋果的研究發現,即使是最先進的AI助手在處理涉及狀態依賴、標準化(將用戶輸入轉換為標準格式)以及信息不足的復雜任務時也表現不佳。
 
研究論文的作者指出:“我們展示了開源和專有模型之間存在顯著的性能差距,ToolSandbox定義的復雜任務如狀態依賴、標準化和信息不足,即使是最強大的SOTA LLMs也難以應對,為工具使用的LLM能力提供了全新的見解。”
 
有趣的是,研究發現,在某些情況下,較大的模型在涉及狀態依賴的任務中表現反而不如較小的模型,這表明,模型的規模并不總是與復雜的現實任務中的更好表現相關聯。
 
規模不是一切:AI性能的復雜性
 
ToolSandbox的引入可能對AI助手的發展和評估產生深遠影響。通過提供更現實的測試環境,它或許能夠幫助研究人員識別并解決當前AI系統中的關鍵限制,最終為用戶帶來更強大、更可靠的AI助手。
 
隨著AI繼續深入融入我們的日常生活,像ToolSandbox這樣的基準測試將發揮關鍵作用,確保這些系統能夠應對現實世界互動的復雜性和細微差別。
 
研究團隊已宣布,ToolSandbox評估框架即將發布在Github上,邀請更廣泛的AI社區在此基礎上進一步構建和改進這項重要工作。
 
盡管開源AI的最新發展激發了人們對尖端AI工具普及的期待,但蘋果的研究提醒我們,在創建能夠處理復雜現實任務的AI系統方面仍然存在重大挑戰。
 
隨著這一領域的快速發展,像ToolSandbox這樣嚴格的基準測試將對于區分炒作與現實至關重要,并引導真正有能力的AI助手的發展。
 
企業網D1net(hfnxjk.com):
 
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
 
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 连州市| 读书| 嵊州市| 望都县| 右玉县| 罗江县| 金坛市| 萨迦县| 新巴尔虎右旗| 昌图县| 柳林县| 正定县| 南雄市| 奉化市| 兴海县| 祁东县| 浮山县| 尉氏县| 陕西省| 丹阳市| 平远县| 望奎县| 蓬莱市| 盐边县| 甘南县| 平邑县| 资中县| 南宁市| 九江市| 邵武市| 新民市| 商都县| 瑞丽市| 汉川市| 通河县| 安乡县| 那曲县| 深水埗区| 池州市| 罗田县| 宜都市|